Spaces:

tymbos
/

GPT2-PBE

Running

App Files Files Community

tymbos commited on Mar 31

Commit

5c35386

verified ·

1 Parent(s): af09211

Update app.py

Browse files

Files changed (1) hide show

app.py +52 -46

app.py CHANGED Viewed

@@ -2,6 +2,7 @@
 import os
 import gradio as gr
 import requests
 from io import BytesIO
 import matplotlib.pyplot as plt
 from datasets import load_dataset
@@ -16,12 +17,27 @@ DetectorFactory.seed = 0
 CHECKPOINT_FILE = "checkpoint.txt"
 TOKENIZER_DIR = "tokenizer_model"
 TOKENIZER_FILE = os.path.join(TOKENIZER_DIR, "tokenizer.json")
-CHUNK_SIZE = 50000      # Μέγεθος batch για checkpoint
-MAX_SAMPLES = 50000000  # Όριο δειγμάτων (προσαρμόστε όπως χρειάζεται)
 # Παγκόσμια μεταβλητή ελέγχου συλλογής
 STOP_COLLECTION = False
 def create_iterator(dataset_name, configs, split):
     """Φορτώνει το dataset και αποδίδει τα κείμενα ως iterator."""
     configs_list = [c.strip() for c in configs.split(",") if c.strip()]
@@ -35,21 +51,9 @@ def create_iterator(dataset_name, configs, split):
         except Exception as e:
             print(f"⚠️ Σφάλμα φόρτωσης dataset για config {config}: {e}")
-def append_to_checkpoint(texts):
-    """Αποθήκευση δεδομένων στο αρχείο checkpoint."""
-    with open(CHECKPOINT_FILE, "a", encoding="utf-8") as f:
-        for t in texts:
-            f.write(t + "\n")
-def load_checkpoint():
-    """Φόρτωση δεδομένων από το checkpoint αν υπάρχει."""
-    if os.path.exists(CHECKPOINT_FILE):
-        with open(CHECKPOINT_FILE, "r", encoding="utf-8") as f:
-            return f.read().splitlines()
-    return []
 def analyze_checkpoint(num_samples=1000):
-    """Αναλύει τη γλωσσική κατανομή των δειγμάτων στο checkpoint."""
     if not os.path.exists(CHECKPOINT_FILE):
         return "Το αρχείο checkpoint δεν υπάρχει."
@@ -73,16 +77,20 @@ def analyze_checkpoint(num_samples=1000):
     report = "📊 Αποτελέσματα Ανάλυσης:\n"
     for lang, count in language_counts.items():
-        report += f"✅ Γλώσσα {lang}: {count/total*100:.2f}%\n"
     return report
-def collect_samples(dataset_name, configs, split):
-    """Ξεκινά τη συλλογή δειγμάτων, εκτός αν ζητηθεί διακοπή."""
     global STOP_COLLECTION
-    STOP_COLLECTION = False  # Επανεκκίνηση της συλλογής
     total_processed = len(load_checkpoint())
-    progress_messages = [f"📌 Υπάρχουν ήδη {total_processed} δείγματα στο checkpoint."]
     dataset_iterator = create_iterator(dataset_name, configs, split)
     new_texts = []
@@ -91,15 +99,15 @@ def collect_samples(dataset_name, configs, split):
         if STOP_COLLECTION:
             progress_messages.append("⏹️ Η συλλογή σταμάτησε από το χρήστη.")
             break
         new_texts.append(text)
         total_processed += 1
-        if len(new_texts) >= CHUNK_SIZE:
             append_to_checkpoint(new_texts)
             progress_messages.append(f"✅ Αποθηκεύτηκαν {total_processed} δείγματα στο checkpoint.")
             new_texts = []
         if total_processed >= MAX_SAMPLES:
             progress_messages.append("⚠️ Έφτασε το όριο δειγμάτων.")
             break
@@ -110,13 +118,17 @@ def collect_samples(dataset_name, configs, split):
     return "\n".join(progress_messages)
 def train_tokenizer_fn(dataset_name, configs, split, vocab_size, min_freq, test_text):
-    """Εκπαιδεύει τον tokenizer με τα αποθηκευμένα δείγματα."""
-    print("🚀 Ξεκινά η εκπαίδε��ση του tokenizer...")
     all_texts = load_checkpoint()
     tokenizer = train_tokenizer(all_texts, vocab_size, min_freq, TOKENIZER_DIR)
     trained_tokenizer = Tokenizer.from_file(TOKENIZER_FILE)
     encoded = trained_tokenizer.encode(test_text)
     decoded = trained_tokenizer.decode(encoded.ids)
@@ -134,54 +146,48 @@ def train_tokenizer_fn(dataset_name, configs, split, vocab_size, min_freq, test_
             decoded,
             img_buffer.getvalue())
-# Callbacks κουμπιών
-def start_collection(dataset_name, configs, split):
-    return collect_samples(dataset_name, configs, split)
 def stop_collection():
     global STOP_COLLECTION
     STOP_COLLECTION = True
     return "⏹️ Η συλλογή σταμάτησε από το χρήστη."
 def restart_collection():
     global STOP_COLLECTION
     STOP_COLLECTION = False
     if os.path.exists(CHECKPOINT_FILE):
         os.remove(CHECKPOINT_FILE)
     return "🔄 Το checkpoint διαγράφηκε. Μπορείς να ξεκινήσεις νέα συλλογή."
 # Gradio Interface
 with gr.Blocks() as demo:
-    gr.Markdown("## Wikipedia Tokenizer Trainer")
     with gr.Row():
         with gr.Column():
             dataset_name = gr.Textbox(value="wikimedia/wikipedia", label="Dataset Name")
             configs = gr.Textbox(value="20231101.el,20231101.en", label="Configs")
             split = gr.Dropdown(choices=["train"], value="train", label="Split")
             vocab_size = gr.Slider(20000, 100000, value=50000, label="Vocabulary Size")
             min_freq = gr.Slider(1, 100, value=3, label="Minimum Frequency")
             test_text = gr.Textbox(value="Η Ακρόπολη είναι σύμβολο της αρχαίας Ελλάδας.", label="Test Text")
             start_btn = gr.Button("Start Collection")
             stop_btn = gr.Button("Stop Collection")
-            analyze_btn = gr.Button("Analyze Samples")
             restart_btn = gr.Button("Restart Collection")
             train_btn = gr.Button("Train Tokenizer")
-        with gr.Column():
-            progress = gr.Textbox(label="Progress", interactive=False, lines=10)
-            results_text = gr.Textbox(label="Test Decoded Text", interactive=False)
-            results_plot = gr.Image(label="Token Length Distribution")
-            initial_file_value = TOKENIZER_FILE if os.path.exists(TOKENIZER_FILE) else None
-            download_button = gr.File(label="Download Tokenizer", value=initial_file_value)
-    # Συνδέουμε τα κουμπιά με τις συναρτήσεις
-    start_btn.click(fn=start_collection, inputs=[dataset_name, configs, split], outputs=progress)
-    stop_btn.click(fn=stop_collection, inputs=[], outputs=progress)
-    analyze_btn.click(fn=lambda: analyze_checkpoint(1000), inputs=[], outputs=progress)
-    restart_btn.click(fn=restart_collection, inputs=[], outputs=progress)
-    train_btn.click(fn=train_tokenizer_fn, inputs=[dataset_name, configs, split, vocab_size, min_freq, test_text], outputs=[progress, results_text, results_plot])
 demo.launch()

 import os
 import gradio as gr
 import requests
+import time
 from io import BytesIO
 import matplotlib.pyplot as plt
 from datasets import load_dataset
 CHECKPOINT_FILE = "checkpoint.txt"
 TOKENIZER_DIR = "tokenizer_model"
 TOKENIZER_FILE = os.path.join(TOKENIZER_DIR, "tokenizer.json")
+MAX_SAMPLES = 3000000  # Όριο δειγμάτων
 # Παγκόσμια μεταβλητή ελέγχου συλλογής
 STOP_COLLECTION = False
+def load_checkpoint():
+    """Φόρτωση δεδομένων από το checkpoint αν υπάρχει."""
+    if os.path.exists(CHECKPOINT_FILE):
+        with open(CHECKPOINT_FILE, "r", encoding="utf-8") as f:
+            return f.read().splitlines()
+    return []
+def append_to_checkpoint(texts):
+    """Αποθήκευση δεδομένων στο αρχείο checkpoint."""
+    with open(CHECKPOINT_FILE, "a", encoding="utf-8") as f:
+        for t in texts:
+            f.write(t + "\n")
 def create_iterator(dataset_name, configs, split):
     """Φορτώνει το dataset και αποδίδει τα κείμενα ως iterator."""
     configs_list = [c.strip() for c in configs.split(",") if c.strip()]
         except Exception as e:
             print(f"⚠️ Σφάλμα φόρτωσης dataset για config {config}: {e}")
 def analyze_checkpoint(num_samples=1000):
+    """Αναλύει τα πρώτα num_samples δείγματα από το checkpoint και επιστρέφει το ποσοστό γλωσσών."""
     if not os.path.exists(CHECKPOINT_FILE):
         return "Το αρχείο checkpoint δεν υπάρχει."
     report = "📊 Αποτελέσματα Ανάλυσης:\n"
     for lang, count in language_counts.items():
+        report += f"  - {lang}: {count / total * 100:.2f}%\n"
     return report
+def collect_samples(dataset_name, configs, split, chunk_size):
+    """
+    Ξεκινά τη συλλογή δειγμάτων από το dataset μέχρι να φτάσει το MAX_SAMPLES
+    ή μέχρι να ζητηθεί διακοπή (STOP_COLLECTION).
+    """
     global STOP_COLLECTION
+    STOP_COLLECTION = False  # Βεβαιωνόμαστε ότι η συλλογή ξεκινάει κανονικά
     total_processed = len(load_checkpoint())
+    progress_messages = [f"📌 Ξεκινά η συλλογή... Υπάρχουν ήδη {total_processed} δείγματα στο checkpoint."]
     dataset_iterator = create_iterator(dataset_name, configs, split)
     new_texts = []
         if STOP_COLLECTION:
             progress_messages.append("⏹️ Η συλλογή σταμάτησε από το χρήστη.")
             break
         new_texts.append(text)
         total_processed += 1
+        if len(new_texts) >= chunk_size:
             append_to_checkpoint(new_texts)
             progress_messages.append(f"✅ Αποθηκεύτηκαν {total_processed} δείγματα στο checkpoint.")
             new_texts = []
         if total_processed >= MAX_SAMPLES:
             progress_messages.append("⚠️ Έφτασε το όριο δειγμάτων.")
             break
     return "\n".join(progress_messages)
 def train_tokenizer_fn(dataset_name, configs, split, vocab_size, min_freq, test_text):
+    """Εκπαιδεύει τον tokenizer χρησιμοποιώντας τα δεδομένα του checkpoint."""
+    print("🚀 Ξεκινά η εκπαίδευση...")
     all_texts = load_checkpoint()
     tokenizer = train_tokenizer(all_texts, vocab_size, min_freq, TOKENIZER_DIR)
+    # Φόρτωση εκπαιδευμένου tokenizer
     trained_tokenizer = Tokenizer.from_file(TOKENIZER_FILE)
+    # Δοκιμή
     encoded = trained_tokenizer.encode(test_text)
     decoded = trained_tokenizer.decode(encoded.ids)
             decoded,
             img_buffer.getvalue())
 def stop_collection():
+    """Σταματά τη συλλογή δειγμάτων."""
     global STOP_COLLECTION
     STOP_COLLECTION = True
     return "⏹️ Η συλλογή σταμάτησε από το χρήστη."
 def restart_collection():
+    """Διαγράφει το checkpoint και επανεκκινεί τη συλλογή."""
     global STOP_COLLECTION
     STOP_COLLECTION = False
     if os.path.exists(CHECKPOINT_FILE):
         os.remove(CHECKPOINT_FILE)
     return "🔄 Το checkpoint διαγράφηκε. Μπορείς να ξεκινήσεις νέα συλλογή."
 # Gradio Interface
 with gr.Blocks() as demo:
+    gr.Markdown("## Wikipedia Tokenizer Trainer with Logs & Control")
     with gr.Row():
         with gr.Column():
             dataset_name = gr.Textbox(value="wikimedia/wikipedia", label="Dataset Name")
             configs = gr.Textbox(value="20231101.el,20231101.en", label="Configs")
             split = gr.Dropdown(choices=["train"], value="train", label="Split")
+            chunk_size = gr.Slider(500, 10000, value=5000, label="Chunk Size")
             vocab_size = gr.Slider(20000, 100000, value=50000, label="Vocabulary Size")
             min_freq = gr.Slider(1, 100, value=3, label="Minimum Frequency")
             test_text = gr.Textbox(value="Η Ακρόπολη είναι σύμβολο της αρχαίας Ελλάδας.", label="Test Text")
             start_btn = gr.Button("Start Collection")
             stop_btn = gr.Button("Stop Collection")
             restart_btn = gr.Button("Restart Collection")
+            analyze_btn = gr.Button("Analyze Samples")
             train_btn = gr.Button("Train Tokenizer")
+        progress = gr.Textbox(label="Progress", interactive=False, lines=10)
+    start_btn.click(collect_samples, [dataset_name, configs, split, chunk_size], progress)
+    stop_btn.click(stop_collection, [], progress)
+    restart_btn.click(restart_collection, [], progress)
+    analyze_btn.click(analyze_checkpoint, [], progress)
+    train_btn.click(train_tokenizer_fn, [dataset_name, configs, split, vocab_size, min_freq, test_text], [progress])
 demo.launch()