Spaces:

tymbos
/

GPT2-PBE

Sleeping

tymbos commited on Mar 27

Commit

1c51cb8

verified ·

1 Parent(s): eef1e7e

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -63,19 +63,23 @@ def enhanced_validation(tokenizer, test_text):
         "token_length_distribution": img_buffer.getvalue()
     }
 def train_and_test(files, dataset_name, split, vocab_size, min_freq, test_text):
-    """
-    Συνδυάζει τη διαδικασία εκπαίδευσης του tokenizer και την επικύρωση του με ένα δοκιμαστικό κείμενο.
-    """
-    # Επιβεβαίωση εισόδων: πρέπει να παρέχεται είτε αρχείο είτε όνομα dataset
     if not files and not dataset_name:
         raise gr.Error("Πρέπει να παρέχετε αρχεία ή όνομα dataset!")
-    # Δημιουργία iterator (με streaming για αποδοτική ανάγνωση)
-    iterator = create_iterator(files, dataset_name, split)
     try:
-        tokenizer = train_tokenizer(iterator, vocab_size, min_freq)
     except Exception as e:
         raise gr.Error(f"Σφάλμα εκπαίδευσης: {str(e)}")

         "token_length_distribution": img_buffer.getvalue()
     }
+# ... (προηγούμενο imports και functions παραμένουν ίδια)
 def train_and_test(files, dataset_name, split, vocab_size, min_freq, test_text):
     if not files and not dataset_name:
         raise gr.Error("Πρέπει να παρέχετε αρχεία ή όνομα dataset!")
     try:
+        # Δημιουργία iterator με fallback
+        iterator = create_iterator(files, dataset_name, split)
+        # Προσθήκη progress bar
+        with gr.Progress() as progress:
+            progress(0.1, desc="Προεπεξεργασία δεδομένων...")
+            tokenizer = train_tokenizer(iterator, vocab_size, min_freq)
+        # ... (υπόλοιπη λειτουργία παραμένει ίδια)
     except Exception as e:
         raise gr.Error(f"Σφάλμα εκπαίδευσης: {str(e)}")