Spaces:

tymbos
/

GPT2-PBE

Sleeping

App Files Files Community

tymbos commited on Mar 31

Commit

a6d00ae

verified ·

1 Parent(s): 3e9c1af

Update app.py

Browse files

Files changed (1) hide show

app.py +9 -5

app.py CHANGED Viewed

@@ -16,7 +16,7 @@ from datetime import datetime
 DetectorFactory.seed = 0
 # Ρυθμίσεις checkpointing και αποθήκευσης του tokenizer
-CHECKPOINT_FILE = "checkpoint.txt"
 TOKENIZER_DIR = "tokenizer_model"
 TOKENIZER_FILE = os.path.join(TOKENIZER_DIR, "tokenizer.json")
 MAX_SAMPLES = 3000000  # Όριο δειγμάτων
@@ -64,11 +64,11 @@ def collect_samples(dataset_name, configs, split, chunk_size):
     STOP_COLLECTION = False
     total_processed = len(load_checkpoint())
     progress_messages = [f"🚀 Ξεκινά η συλλογή δεδομένων... Υπάρχουν ήδη {total_processed} δείγματα στο checkpoint."]
     print(progress_messages[-1])
     dataset_iterator = create_iterator(dataset_name, configs, split)
     new_texts = []
     for text in dataset_iterator:
         if STOP_COLLECTION:
@@ -79,7 +79,7 @@ def collect_samples(dataset_name, configs, split, chunk_size):
         new_texts.append(text)
         total_processed += 1
-        if len(new_texts) >= chunk_size:
             append_to_checkpoint(new_texts)
             progress_messages.append(f"✅ Αποθηκεύτηκαν {total_processed} δείγματα στο checkpoint.")
             print(progress_messages[-1])
@@ -90,12 +90,16 @@ def collect_samples(dataset_name, configs, split, chunk_size):
             print(progress_messages[-1])
             break
     if new_texts:
         append_to_checkpoint(new_texts)
         progress_messages.append(f"✅ Τελικό batch αποθηκεύτηκε ({total_processed} δείγματα).")
         print(progress_messages[-1])
-    return "\n".join(progress_messages)
 def train_tokenizer_fn(dataset_name, configs, split, vocab_size, min_freq, test_text):
@@ -157,7 +161,7 @@ with gr.Blocks() as demo:
             dataset_name = gr.Textbox(value="wikimedia/wikipedia", label="Dataset Name")
             configs = gr.Textbox(value="20231101.el,20231101.en", label="Configs")
             split = gr.Dropdown(choices=["train"], value="train", label="Split")
-            chunk_size = gr.Slider(500, 50000, value=50000, label="Chunk Size")
             vocab_size = gr.Slider(20000, 100000, value=50000, label="Vocabulary Size")
             min_freq = gr.Slider(1, 100, value=3, label="Minimum Frequency")
             test_text = gr.Textbox(value="Η Ακρόπολη είναι σύμβολο της αρχαίας Ελλάδας.", label="Test Text")

 DetectorFactory.seed = 0
 # Ρυθμίσεις checkpointing και αποθήκευσης του tokenizer
+CHECKPOINT_FILE = "/persistent/checkpoint.txt" if os.path.exists("/persistent") else "checkpoint.txt"
 TOKENIZER_DIR = "tokenizer_model"
 TOKENIZER_FILE = os.path.join(TOKENIZER_DIR, "tokenizer.json")
 MAX_SAMPLES = 3000000  # Όριο δειγμάτων
     STOP_COLLECTION = False
     total_processed = len(load_checkpoint())
     progress_messages = [f"🚀 Ξεκινά η συλλογή δεδομένων... Υπάρχουν ήδη {total_processed} δείγματα στο checkpoint."]
     print(progress_messages[-1])
     dataset_iterator = create_iterator(dataset_name, configs, split)
     new_texts = []
+    buffer_size = 100_000  # Προσωρινή αποθήκευση RAM
     for text in dataset_iterator:
         if STOP_COLLECTION:
         new_texts.append(text)
         total_processed += 1
+        if len(new_texts) >= buffer_size:
             append_to_checkpoint(new_texts)
             progress_messages.append(f"✅ Αποθηκεύτηκαν {total_processed} δείγματα στο checkpoint.")
             print(progress_messages[-1])
             print(progress_messages[-1])
             break
+        # Ενημέρωση του progress κάθε 10.000 δείγματα
+        if total_processed % 10_000 == 0:
+            yield f"📊 Συλλογή σε εξέλιξη: {total_processed} δείγματα..."
     if new_texts:
         append_to_checkpoint(new_texts)
         progress_messages.append(f"✅ Τελικό batch αποθηκεύτηκε ({total_processed} δείγματα).")
         print(progress_messages[-1])
+    yield "\n".join(progress_messages)
 def train_tokenizer_fn(dataset_name, configs, split, vocab_size, min_freq, test_text):
             dataset_name = gr.Textbox(value="wikimedia/wikipedia", label="Dataset Name")
             configs = gr.Textbox(value="20231101.el,20231101.en", label="Configs")
             split = gr.Dropdown(choices=["train"], value="train", label="Split")
+            chunk_size = gr.Slider(500, 50000, value=10000, label="Chunk Size")  # Μείωση chunk_size
             vocab_size = gr.Slider(20000, 100000, value=50000, label="Vocabulary Size")
             min_freq = gr.Slider(1, 100, value=3, label="Minimum Frequency")
             test_text = gr.Textbox(value="Η Ακρόπολη είναι σύμβολο της αρχαίας Ελλάδας.", label="Test Text")