Spaces:

tymbos
/

GPT2-PBE

Running

App Files Files Community

tymbos commited on Mar 31

Commit

9dd78b5

verified ·

1 Parent(s): 5d41434

Update app.py

Browse files

Files changed (1) hide show

app.py +40 -7

app.py CHANGED Viewed

@@ -17,8 +17,11 @@ DetectorFactory.seed = 0
 CHECKPOINT_FILE = "checkpoint.txt"
 TOKENIZER_DIR = "tokenizer_model"
 TOKENIZER_FILE = os.path.join(TOKENIZER_DIR, "tokenizer.json")
-CHUNK_SIZE = 1000  # Μέγεθος batch για checkpoint
-MAX_SAMPLES = 3000000  # Όριο δειγμάτων (μπορείς να το προσαρμόσεις)
 def fetch_splits(dataset_name):
     """Ανάκτηση των splits του dataset από το Hugging Face."""
@@ -101,7 +104,8 @@ def analyze_checkpoint(num_samples=1000):
 def train_and_test(dataset_name, configs, split, vocab_size, min_freq, test_text):
     """Εκπαίδευση του tokenizer και δοκιμή του."""
-    print("🚀 Ξεκινά η διαδικασία εκπαίδευσης...")
     all_texts = load_checkpoint()
     total_processed = len(all_texts)
@@ -111,20 +115,28 @@ def train_and_test(dataset_name, configs, split, vocab_size, min_freq, test_text
     new_texts = []
     for text in dataset_iterator:
-        if total_processed >= MAX_SAMPLES:
-            break  # Διακοπή εάν ξεπεραστεί το όριο
         new_texts.append(text)
         total_processed += 1
         if len(new_texts) >= CHUNK_SIZE:
             append_to_checkpoint(new_texts)
             print(f"✅ Αποθηκεύτηκαν {total_processed} δείγματα στο checkpoint.")
             new_texts = []
     if new_texts:
         append_to_checkpoint(new_texts)
         print(f"✅ Τελικό batch αποθηκεύτηκε ({total_processed} δείγματα).")
-    print("🚀 Η αποθήκευση δεδομένων ολοκληρώθηκε! Ξεκινάει η εκπαίδευση του tokenizer...")
     # Εκπαίδευση του tokenizer
     all_texts = load_checkpoint()
@@ -147,7 +159,23 @@ def train_and_test(dataset_name, configs, split, vocab_size, min_freq, test_text
     plt.savefig(img_buffer, format='png')
     plt.close()
-    return f"✅ Εκπαίδευση ολοκληρώθηκε!\nΑποθηκεύτηκε στον φάκελο: {TOKENIZER_DIR}", decoded, img_buffer.getvalue()
 # Gradio Interface
 with gr.Blocks() as demo:
@@ -163,6 +191,8 @@ with gr.Blocks() as demo:
             test_text = gr.Textbox(value="Η Ακρόπολη είναι σύμβολο της αρχαίας Ελλάδας.", label="Test Text")
             train_btn = gr.Button("Train")
             analyze_btn = gr.Button("Analyze Samples")
         with gr.Column():
             progress = gr.Textbox(label="Progress", interactive=False, lines=10)
             results_text = gr.Textbox(label="Test Decoded Text", interactive=False)
@@ -178,5 +208,8 @@ with gr.Blocks() as demo:
     analyze_btn.click(fn=lambda: analyze_checkpoint(1000),
                       inputs=[],
                       outputs=progress)
 demo.launch()

 CHECKPOINT_FILE = "checkpoint.txt"
 TOKENIZER_DIR = "tokenizer_model"
 TOKENIZER_FILE = os.path.join(TOKENIZER_DIR, "tokenizer.json")
+CHUNK_SIZE = 1000      # Μέγεθος batch για checkpoint
+MAX_SAMPLES = 3000000  # Όριο δειγμάτων (προσαρμόστε ανάλογα με τις ανάγκες σας)
+# Παγκόσμια μεταβλητή ελέγχου συλλογής
+STOP_COLLECTION = False
 def fetch_splits(dataset_name):
     """Ανάκτηση των splits του dataset από το Hugging Face."""
 def train_and_test(dataset_name, configs, split, vocab_size, min_freq, test_text):
     """Εκπαίδευση του tokenizer και δοκιμή του."""
+    global STOP_COLLECTION
+    print("🚀 Ξεκινά η διαδικασία συλλογής και εκπαίδευσης...")
     all_texts = load_checkpoint()
     total_processed = len(all_texts)
     new_texts = []
     for text in dataset_iterator:
+        # Έλεγχος αν έχει ζητηθεί διακοπή
+        if STOP_COLLECTION:
+            print("⏹️ Συλλογή σταμάτησε από το χρήστη.")
+            break
         new_texts.append(text)
         total_processed += 1
         if len(new_texts) >= CHUNK_SIZE:
             append_to_checkpoint(new_texts)
             print(f"✅ Αποθηκεύτηκαν {total_processed} δείγματα στο checkpoint.")
             new_texts = []
+        if total_processed >= MAX_SAMPLES:
+            print("⚠️ Έφτασε το όριο δειγμάτων.")
+            break
     if new_texts:
         append_to_checkpoint(new_texts)
         print(f"✅ Τελικό batch αποθηκεύτηκε ({total_processed} δείγματα).")
+    print("🚀 Η συλλογή δεδομένων ολοκληρώθηκε! Ξεκινάει η εκπαίδευση του tokenizer...")
     # Εκπαίδευση του tokenizer
     all_texts = load_checkpoint()
     plt.savefig(img_buffer, format='png')
     plt.close()
+    return (f"✅ Εκπαίδευση ολοκληρώθηκε!\nΑποθηκεύτηκε στον φάκελο: {TOKENIZER_DIR}",
+            decoded,
+            img_buffer.getvalue())
+# Callback για τη διακοπή συλλογής
+def stop_collection():
+    global STOP_COLLECTION
+    STOP_COLLECTION = True
+    print("⏹️ Ο χρήστης ζήτησε διακοπή συλλογής δειγμάτων.")
+    return "Η συλλογή σταμάτησε!"
+# Callback για την επανεκκίνηση συλλογής
+def restart_collection():
+    global STOP_COLLECTION
+    STOP_COLLECTION = False
+    print("▶️ Ο χρήστης ζήτησε επανεκκίνηση συλλογής δειγμάτων.")
+    return "Η συλλογή ξεκίνησε εκ νέου!"
 # Gradio Interface
 with gr.Blocks() as demo:
             test_text = gr.Textbox(value="Η Ακρόπολη είναι σύμβολο της αρχαίας Ελλάδας.", label="Test Text")
             train_btn = gr.Button("Train")
             analyze_btn = gr.Button("Analyze Samples")
+            stop_btn = gr.Button("Stop Collection")
+            restart_btn = gr.Button("Restart Collection")
         with gr.Column():
             progress = gr.Textbox(label="Progress", interactive=False, lines=10)
             results_text = gr.Textbox(label="Test Decoded Text", interactive=False)
     analyze_btn.click(fn=lambda: analyze_checkpoint(1000),
                       inputs=[],
                       outputs=progress)
+    stop_btn.click(fn=stop_collection, inputs=[], outputs=progress)
+    restart_btn.click(fn=restart_collection, inputs=[], outputs=progress)
 demo.launch()