Spaces:

tymbos
/

GPT2-PBE

Sleeping

App Files Files Community

tymbos commited on Mar 27

Commit

4a4435c

verified ·

1 Parent(s): 29cc980

Update app.py

Browse files

Files changed (1) hide show

app.py +147 -105

app.py CHANGED Viewed

@@ -1,138 +1,180 @@
 import gradio as gr
-import numpy as np
-import matplotlib.pyplot as plt
 from io import BytesIO
-import tempfile
-import os
 from train_tokenizer import train_tokenizer
-from tokenizers import Tokenizer
 from datasets import load_dataset
-def create_iterator(files=None, dataset_name=None, dataset_config=None, split="train", streaming=True):
-    if dataset_name:
-        try:
-            # Επεξεργασία ονόματος dataset με έλεγχο εγκυρότητας
-            if not re.match(r'^[\w\-\.]+(/[\w\-\.]+)*$', dataset_name):
-                raise ValueError(f"Μη έγκυρο όνομα dataset: {dataset_name}")
-            # Φόρτωση dataset με config αν υπάρχει
-            dataset = load_dataset(
-                dataset_name,
-                name=dataset_config if dataset_config else None,
-                split=split,
-                streaming=streaming
-            )
-            for example in dataset:
-                yield example['text']
-        except Exception as e:
-            raise gr.Error(f"Σφάλμα φόρτωσης dataset: {str(e)}")
-    elif files:
-        for file in files:
-            with open(file.name, 'r', encoding='utf-8') as f:
-                for line in f:
-                    yield line.strip()
-def enhanced_validation(tokenizer, test_text):
-    """
-    Εκτελεί επικύρωση του tokenizer με ένα roundtrip test και παρέχει στατιστικά.
-    """
-    encoded = tokenizer.encode(test_text)
-    decoded = tokenizer.decode(encoded.ids)
-    # Μέτρηση των Unknown tokens
-    unknown_tokens = sum(1 for t in encoded.tokens if t == "<unk>")
-    unknown_percent = (unknown_tokens / len(encoded.tokens) * 100) if encoded.tokens else 0
-    # Υπολογισμός μήκους των tokens
-    token_lengths = [len(t) for t in encoded.tokens]
-    avg_length = np.mean(token_lengths) if token_lengths else 0
-    # Έλεγχος κάλυψης κώδικα: παραδείγματα συμβόλων
-    code_symbols = ['{', '}', '(', ')', ';', '//', 'printf']
-    code_coverage = {sym: (sym in test_text and sym in encoded.tokens) for sym in code_symbols}
-    # Δημιουργία histogram για την κατανομή του μήκους των tokens
-    fig = plt.figure()
-    plt.hist(token_lengths, bins=20, color='skyblue', edgecolor='black')
-    plt.xlabel('Μήκος Token')
-    plt.ylabel('Συχνότητα')
-    plt.title('Κατανομή Μήκους Tokens')
-    img_buffer = BytesIO()
-    plt.savefig(img_buffer, format='png')
-    plt.close()
-    img_buffer.seek(0)
-    return {
-        "roundtrip_success": test_text == decoded,
-        "unknown_tokens": f"{unknown_tokens} ({unknown_percent:.2f}%)",
-        "average_token_length": f"{avg_length:.2f}",
-        "code_coverage": code_coverage,
-        "token_length_distribution": img_buffer.getvalue()
-    }
-# ... (προηγούμενο imports και functions παραμένουν ίδια)
-def train_and_test(files, dataset_name, split, vocab_size, min_freq, test_text):
-    if not files and not dataset_name:
-        raise gr.Error("Πρέπει να παρέχετε αρχεία ή όνομα dataset!")
     try:
-        # Δημιουργία iterator με fallback
-        iterator = create_iterator(files, dataset_name, split)
-        # Προσθήκη progress bar
         with gr.Progress() as progress:
-            progress(0.1, desc="Προεπεξεργασία δεδομένων...")
             tokenizer = train_tokenizer(iterator, vocab_size, min_freq)
-        # ... (υπόλοιπη λειτουργία παραμένει ίδια)
     except Exception as e:
         raise gr.Error(f"Σφάλμα εκπαίδευσης: {str(e)}")
-    # Αποθήκευση και φόρτωση του tokenizer για επικύρωση
-    with tempfile.NamedTemporaryFile(delete=False, suffix=".json") as tmp:
-        tokenizer.save(tmp.name)
-        trained_tokenizer = Tokenizer.from_file(tmp.name)
-    os.unlink(tmp.name)
-    # Εκτενής επικύρωση με το δοκιμαστικό κείμενο
-    validation = enhanced_validation(trained_tokenizer, test_text)
-    return {
-        "validation_metrics": {k: v for k, v in validation.items() if k != "token_length_distribution"},
-        "histogram": validation["token_length_distribution"]
-    }
-# Ενημερωμένο Gradio Interface
 with gr.Blocks(theme=gr.themes.Soft()) as demo:
-    gr.Markdown("## Προχωρημένος BPE Tokenizer Trainer")
     with gr.Row():
         with gr.Column():
-            with gr.Tab("Local Files"):
-                file_input = gr.File(file_count="multiple", label="Ανέβασμα αρχείων")
-            with gr.Tab("Hugging Face Dataset"):
-                dataset_name = gr.Textbox(label="Όνομα Dataset (π.χ. 'wikitext', 'codeparrot/github-code')")
-                split = gr.Textbox(value="train", label="Split")
-            vocab_size = gr.Slider(1000, 100000, value=32000, label="Μέγεθος Λεξιλογίου")
-            min_freq = gr.Slider(1, 100, value=2, label="Ελάχιστη Συχνότητα")
             test_text = gr.Textbox(
-                value='function helloWorld() { console.log("Γειά σου Κόσμε!"); } // Ελληνικά + κώδικας',
                 label="Test Text"
             )
-            train_btn = gr.Button("Εκπαίδευση Tokenizer", variant="primary")
         with gr.Column():
-            results_json = gr.JSON(label="Μετρικές")
-            results_plot = gr.Image(label="Κατανομή Μήκους Tokens")
     train_btn.click(
         fn=train_and_test,
-        inputs=[file_input, dataset_name, split, vocab_size, min_freq, test_text],
         outputs=[results_json, results_plot]
     )
 if __name__ == "__main__":
     demo.launch()

 import gradio as gr
+import requests
+import json
+import re
 from io import BytesIO
+import matplotlib.pyplot as plt
 from train_tokenizer import train_tokenizer
 from datasets import load_dataset
+from tokenizers import Tokenizer
+import tempfile
+import os
+def fetch_splits(dataset_name):
+    try:
+        response = requests.get(
+            f"https://datasets-server.huggingface.co/splits?dataset={dataset_name}",
+            timeout=10
+        )
+        response.raise_for_status()
+        data = response.json()
+        splits_info = {}
+        for split in data['splits']:
+            config = split['config']
+            split_name = split['split']
+            if config not in splits_info:
+                splits_info[config] = []
+            splits_info[config].append(split_name)
+        return {
+            "splits": splits_info,
+            "viewer_template": f"https://huggingface.co/datasets/{dataset_name}/embed/viewer/{{config}}/{{split}}"
+        }
+    except Exception as e:
+        raise gr.Error(f"Σφάλμα κατάττην ανάκτηση splits: {str(e)}")
+def update_components(dataset_name):
+    if not dataset_name:
+        return [gr.Dropdown.update(choices=[], value=None), gr.Dropdown.update(choices=[]), gr.HTML.update(value="")]
+    try:
+        splits_data = fetch_splits(dataset_name)
+        config_choices = list(splits_data['splits'].keys())
+        # Δημιουργία iframe preview για το πρώτο config
+        first_config = config_choices[0] if config_choices else None
+        iframe_html = f"""
+        <iframe
+            src="{splits_data['viewer_template'].format(config=first_config, split='train')}"
+            frameborder="0"
+            width="100%"
+            height="560px"
+        ></iframe>
+        """ if first_config else "Δεν βρέθηκαν διαθέσιμα δεδομένα"
+        return [
+            gr.Dropdown.update(choices=config_choices, value=first_config),
+            gr.Dropdown.update(choices=splits_data['splits'].get(first_config, [])),
+            gr.HTML.update(value=iframe_html)
+        ]
+    except Exception as e:
+        raise gr.Error(f"Σφάλμα: {str(e)}")
+def update_split_choices(dataset_name, config):
+    if not dataset_name or not config:
+        return gr.Dropdown.update(choices=[])
+    try:
+        splits_data = fetch_splits(dataset_name)
+        return gr.Dropdown.update(choices=splits_data['splits'].get(config, []))
+    except:
+        return gr.Dropdown.update(choices=[])
+def create_iterator(dataset_name, config, split):
+    try:
+        dataset = load_dataset(
+            dataset_name,
+            name=config,
+            split=split,
+            streaming=True
+        )
+        for example in dataset:
+            yield example.get('text', '')
+    except Exception as e:
+        raise gr.Error(f"Σφάλμα φόρτωσης dataset: {str(e)}")
+def train_and_test(dataset_name, config, split, vocab_size, min_freq, test_text):
+    # Εκπαίδευση και validation logic
     try:
+        iterator = create_iterator(dataset_name, config, split)
         with gr.Progress() as progress:
+            progress(0.2, desc="Δημιουργία tokenizer...")
             tokenizer = train_tokenizer(iterator, vocab_size, min_freq)
+        # Αποθήκευση και φόρτωση tokenizer
+        with tempfile.NamedTemporaryFile(delete=False, suffix=".json") as f:
+            tokenizer.save(f.name)
+            trained_tokenizer = Tokenizer.from_file(f.name)
+        os.unlink(f.name)
+        # Validation
+        encoded = trained_tokenizer.encode(test_text)
+        decoded = trained_tokenizer.decode(encoded.ids)
+        # Δημιουργία γραφήματος
+        token_lengths = [len(t) for t in encoded.tokens]
+        fig = plt.figure()
+        plt.hist(token_lengths, bins=20)
+        plt.xlabel('Μήκος Token')
+        plt.ylabel('Συχνότητα')
+        img_buffer = BytesIO()
+        plt.savefig(img_buffer, format='png')
+        plt.close()
+        return {
+            "Πρωτότυπο Κείμενο": test_text,
+            "Αποκωδικοποιημένο": decoded,
+            "Αριθμός Tokens": len(encoded.tokens),
+            "Αγνώστων Tokens": sum(1 for t in encoded.tokens if t == "<unk>")
+        }, img_buffer.getvalue()
     except Exception as e:
         raise gr.Error(f"Σφάλμα εκπαίδευσης: {str(e)}")
+# Gradio Interface
 with gr.Blocks(theme=gr.themes.Soft()) as demo:
+    gr.Markdown("## Wikipedia Tokenizer Trainer")
     with gr.Row():
         with gr.Column():
+            dataset_name = gr.Textbox(
+                label="Dataset Name",
+                value="wikimedia/wikipedia",
+                placeholder="π.χ. 'wikimedia/wikipedia'"
+            )
+            config = gr.Dropdown(
+                label="Config",
+                choices=[],
+                interactive=True
+            )
+            split = gr.Dropdown(
+                label="Split",
+                choices=[],
+                value="train"
+            )
+            vocab_size = gr.Slider(20000, 100000, value=50000, label="Μέγεθος Λεξιλογίου")
+            min_freq = gr.Slider(1, 100, value=3, label="Ελάχιστη Συχνότητα")
             test_text = gr.Textbox(
+                value='Η Ακρόπολη είναι σύμβολο της αρχαίας ελληνικής πολιτισμικής κληρονομιάς.',
                 label="Test Text"
             )
+            train_btn = gr.Button("Εκπαίδευση", variant="primary")
         with gr.Column():
+            preview = gr.HTML(label="Dataset Preview")
+            results_json = gr.JSON(label="Αποτελέσματα")
+            results_plot = gr.Image(label="Κατανομή Μηκών Tokens")
+    # Event handlers
+    dataset_name.change(
+        fn=update_components,
+        inputs=dataset_name,
+        outputs=[config, split, preview]
+    )
+    config.change(
+        fn=update_split_choices,
+        inputs=[dataset_name, config],
+        outputs=split
+    )
     train_btn.click(
         fn=train_and_test,
+        inputs=[dataset_name, config, split, vocab_size, min_freq, test_text],
         outputs=[results_json, results_plot]
     )
 if __name__ == "__main__":
     demo.launch()