Spaces:

tymbos
/

GPT2-PBE

Sleeping

App Files Files Community

tymbos commited on Mar 31

Commit

d6a5933

verified ·

1 Parent(s): 9dd78b5

Update app.py

Browse files

Files changed (1) hide show

app.py +62 -38

app.py CHANGED Viewed

@@ -2,7 +2,6 @@
 import os
 import gradio as gr
 import requests
-import tempfile
 from io import BytesIO
 import matplotlib.pyplot as plt
 from datasets import load_dataset
@@ -18,7 +17,7 @@ CHECKPOINT_FILE = "checkpoint.txt"
 TOKENIZER_DIR = "tokenizer_model"
 TOKENIZER_FILE = os.path.join(TOKENIZER_DIR, "tokenizer.json")
 CHUNK_SIZE = 1000      # Μέγεθος batch για checkpoint
-MAX_SAMPLES = 3000000  # Όριο δειγμάτων (προσαρμόστε ανάλογα με τις ανάγκες σας)
 # Παγκόσμια μεταβλητή ελέγχου συλλογής
 STOP_COLLECTION = False
@@ -102,43 +101,47 @@ def analyze_checkpoint(num_samples=1000):
     return report
-def train_and_test(dataset_name, configs, split, vocab_size, min_freq, test_text):
-    """Εκπαίδευση του tokenizer και δοκιμή του."""
     global STOP_COLLECTION
-    print("🚀 Ξεκινά η διαδικασία συλλογής και εκπαίδευσης...")
-    all_texts = load_checkpoint()
-    total_processed = len(all_texts)
-    print(f"📌 Υπάρχουν ήδη {total_processed} δείγματα στο checkpoint.")
     dataset_iterator = create_iterator(dataset_name, configs, split)
     new_texts = []
     for text in dataset_iterator:
-        # Έλεγχος αν έχει ζητηθεί διακοπή
         if STOP_COLLECTION:
-            print("⏹️ Συλλογή σταμάτησε από το χρήστη.")
             break
         new_texts.append(text)
         total_processed += 1
         if len(new_texts) >= CHUNK_SIZE:
             append_to_checkpoint(new_texts)
-            print(f"✅ Αποθηκεύτηκαν {total_processed} δείγματα στο checkpoint.")
             new_texts = []
         if total_processed >= MAX_SAMPLES:
-            print("⚠️ Έφτασε το όριο δειγμάτων.")
             break
     if new_texts:
         append_to_checkpoint(new_texts)
-        print(f"✅ Τελικό batch αποθηκεύτηκε ({total_processed} δείγματα).")
-    print("🚀 Η συλλογή δεδομένων ολοκληρώθηκε! Ξεκινάει η εκπαίδευση του tokenizer...")
-    # Εκπαίδευση του tokenizer
     all_texts = load_checkpoint()
     tokenizer = train_tokenizer(all_texts, vocab_size, min_freq, TOKENIZER_DIR)
@@ -163,23 +166,33 @@ def train_and_test(dataset_name, configs, split, vocab_size, min_freq, test_text
             decoded,
             img_buffer.getvalue())
-# Callback για τη διακοπή συλλογής
 def stop_collection():
     global STOP_COLLECTION
     STOP_COLLECTION = True
-    print("⏹️ Ο χρήστης ζήτησε διακοπή συλλογής δειγμάτων.")
-    return "Η συλλογή σταμάτησε!"
-# Callback για την επανεκκίνηση συλλογής
 def restart_collection():
     global STOP_COLLECTION
     STOP_COLLECTION = False
-    print("▶️ Ο χρήστης ζήτησε επανεκκίνηση συλλογής δειγμάτων.")
-    return "Η συλλογή ξεκίνησε εκ νέου!"
 # Gradio Interface
 with gr.Blocks() as demo:
-    gr.Markdown("## Wikipedia Tokenizer Trainer with Checkpointing")
     with gr.Row():
         with gr.Column():
@@ -189,10 +202,11 @@ with gr.Blocks() as demo:
             vocab_size = gr.Slider(20000, 100000, value=50000, label="Vocabulary Size")
             min_freq = gr.Slider(1, 100, value=3, label="Minimum Frequency")
             test_text = gr.Textbox(value="Η Ακρόπολη είναι σύμβολο της αρχαίας Ελλάδας.", label="Test Text")
-            train_btn = gr.Button("Train")
-            analyze_btn = gr.Button("Analyze Samples")
             stop_btn = gr.Button("Stop Collection")
             restart_btn = gr.Button("Restart Collection")
         with gr.Column():
             progress = gr.Textbox(label="Progress", interactive=False, lines=10)
             results_text = gr.Textbox(label="Test Decoded Text", interactive=False)
@@ -200,16 +214,26 @@ with gr.Blocks() as demo:
             # Έλεγχος ύπαρξης του tokenizer για download
             initial_file_value = TOKENIZER_FILE if os.path.exists(TOKENIZER_FILE) else None
             download_button = gr.File(label="Download Tokenizer", value=initial_file_value)
-    train_btn.click(train_and_test,
-                    inputs=[dataset_name, configs, split, vocab_size, min_freq, test_text],
-                    outputs=[progress, results_text, results_plot])
-    analyze_btn.click(fn=lambda: analyze_checkpoint(1000),
-                      inputs=[],
                       outputs=progress)
-    stop_btn.click(fn=stop_collection, inputs=[], outputs=progress)
-    restart_btn.click(fn=restart_collection, inputs=[], outputs=progress)
 demo.launch()

 import os
 import gradio as gr
 import requests
 from io import BytesIO
 import matplotlib.pyplot as plt
 from datasets import load_dataset
 TOKENIZER_DIR = "tokenizer_model"
 TOKENIZER_FILE = os.path.join(TOKENIZER_DIR, "tokenizer.json")
 CHUNK_SIZE = 1000      # Μέγεθος batch για checkpoint
+MAX_SAMPLES = 3000000  # Όριο δειγμάτων (προσαρμόστε όπως χρειάζεται)
 # Παγκόσμια μεταβλητή ελέγχου συλλογής
 STOP_COLLECTION = False
     return report
+def collect_samples(dataset_name, configs, split):
+    """
+    Ξεκινά τη συλλογή δειγμάτων από το dataset μέχρι να φτάσει το MAX_SAMPLES
+    ή μέχρι να ζητηθεί διακοπή (STOP_COLLECTION).
+    """
     global STOP_COLLECTION
+    STOP_COLLECTION = False  # Βεβαιωνόμαστε ότι η συλλογή ξεκινάει ανενεργή τη διακοπή
+    total_processed = len(load_checkpoint())
+    progress_messages = [f"📌 Υπάρχουν ήδη {total_processed} δείγματα στο checkpoint."]
     dataset_iterator = create_iterator(dataset_name, configs, split)
     new_texts = []
     for text in dataset_iterator:
         if STOP_COLLECTION:
+            progress_messages.append("⏹️ Η συλλογή διακόπηκε από το χρήστη.")
             break
         new_texts.append(text)
         total_processed += 1
         if len(new_texts) >= CHUNK_SIZE:
             append_to_checkpoint(new_texts)
+            progress_messages.append(f"✅ Αποθηκεύτηκαν {total_processed} δείγματα στο checkpoint.")
             new_texts = []
         if total_processed >= MAX_SAMPLES:
+            progress_messages.append("⚠️ Έφτασε το όριο δειγμάτων.")
             break
     if new_texts:
         append_to_checkpoint(new_texts)
+        progress_messages.append(f"✅ Τελικό batch αποθηκεύτηκε ({total_processed} δείγματα).")
+    return "\n".join(progress_messages)
+def train_tokenizer_fn(dataset_name, configs, split, vocab_size, min_freq, test_text):
+    """
+    Εκπαιδεύει τον tokenizer χρησιμοποιώντας τα δείγματα που έχουν συλλεχθεί στο checkpoint.
+    """
+    print("🚀 Ξεκινά η εκπαίδευση του tokenizer με τα δεδομένα του checkpoint...")
     all_texts = load_checkpoint()
     tokenizer = train_tokenizer(all_texts, vocab_size, min_freq, TOKENIZER_DIR)
             decoded,
             img_buffer.getvalue())
+# Callbacks κουμπιών
+def start_collection(dataset_name, configs, split):
+    """Ξεκινά τη συλλογή δειγμάτων (ή επανεκκινεί τη συλλογή αν έχει γίνει restart)."""
+    msg = collect_samples(dataset_name, configs, split)
+    return msg
 def stop_collection():
+    """Θέτει το flag για διακοπή της συλλογής δειγμάτων."""
     global STOP_COLLECTION
     STOP_COLLECTION = True
+    return "Η συλλογή σταμάτησε από το χρήστη."
 def restart_collection():
+    """
+    Επαναφέρει τη συλλογή διαγρά��οντας το checkpoint και
+    επαναφέροντας το flag ώστε να ξεκινήσει νέα συλλογή.
+    """
     global STOP_COLLECTION
     STOP_COLLECTION = False
+    if os.path.exists(CHECKPOINT_FILE):
+        os.remove(CHECKPOINT_FILE)
+    return "Το checkpoint διαγράφτηκε. Μπορείς να ξεκινήσεις νέα συλλογή."
 # Gradio Interface
 with gr.Blocks() as demo:
+    gr.Markdown("## Wikipedia Tokenizer Trainer with Collection, Analysis & Training")
     with gr.Row():
         with gr.Column():
             vocab_size = gr.Slider(20000, 100000, value=50000, label="Vocabulary Size")
             min_freq = gr.Slider(1, 100, value=3, label="Minimum Frequency")
             test_text = gr.Textbox(value="Η Ακρόπολη είναι σύμβολο της αρχαίας Ελλάδας.", label="Test Text")
+            start_btn = gr.Button("Start Collection")
             stop_btn = gr.Button("Stop Collection")
+            analyze_btn = gr.Button("Analyze Samples")
             restart_btn = gr.Button("Restart Collection")
+            train_btn = gr.Button("Train Tokenizer")
         with gr.Column():
             progress = gr.Textbox(label="Progress", interactive=False, lines=10)
             results_text = gr.Textbox(label="Test Decoded Text", interactive=False)
             # Έλεγχος ύπαρξης του tokenizer για download
             initial_file_value = TOKENIZER_FILE if os.path.exists(TOKENIZER_FILE) else None
             download_button = gr.File(label="Download Tokenizer", value=initial_file_value)
+    # Συνδέουμε τα κουμπιά με τις συναρτήσεις
+    start_btn.click(fn=start_collection,
+                    inputs=[dataset_name, configs, split],
+                    outputs=progress)
+    stop_btn.click(fn=stop_collection,
+                   inputs=[],
+                   outputs=progress)
+    analyze_btn.click(fn=lambda: analyze_checkpoint(1000),
+                      inputs=[],
                       outputs=progress)
+    restart_btn.click(fn=restart_collection,
+                      inputs=[],
+                      outputs=progress)
+    train_btn.click(fn=train_tokenizer_fn,
+                    inputs=[dataset_name, configs, split, vocab_size, min_freq, test_text],
+                    outputs=[progress, results_text, results_plot])
 demo.launch()