Spaces:

dnzblgn
/

Tokenizers

Running

App Files Files Community

dnzblgn commited on Apr 28

Commit

a5deb8b

verified ·

1 Parent(s): a915aa6

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -6

app.py CHANGED Viewed

@@ -1,27 +1,46 @@
 import gradio as gr
 from transformers import AutoTokenizer
 tokenizers = {
     "GPT-2 Tokenizer": AutoTokenizer.from_pretrained("gpt2"),
     "RoBERTa Tokenizer": AutoTokenizer.from_pretrained("roberta-base"),
     "DistilGPT-2 Tokenizer": AutoTokenizer.from_pretrained("distilgpt2"),
-    "bert-base-german-cased Tokenizer": AutoTokenizer.from_pretrained("bert-base-german-cased"),
 }
-# Fancy token visualization function
 def visualize_tokens(text, tokenizer_name, show_token_ids):
     tokenizer = tokenizers[tokenizer_name]
     encoded = tokenizer(text, add_special_tokens=False, return_tensors=None)
     token_ids = encoded["input_ids"]
     tokens = tokenizer.convert_ids_to_tokens(token_ids)
-    # Display each token inside a colored span
     html_tokens = []
     for idx, token in enumerate(tokens):
-        html_token = f"<span style='display:inline-block; margin:2px; padding:4px; background-color:#eee; border-radius:6px;'>{token}</span>"
         html_tokens.append(html_token)
-    html_output = " ".join(html_tokens)
     if show_token_ids:
         html_output += "<br><br><b>Token IDs:</b><br>" + str(token_ids)
@@ -31,7 +50,7 @@ def visualize_tokens(text, tokenizer_name, show_token_ids):
 # Gradio app
 with gr.Blocks() as app:
     gr.Markdown("# 🚀 Tokenizer Playground (Tiktokenizer-Style)")
     with gr.Row():
         with gr.Column():
             text_input = gr.Textbox(lines=4, label="Enter your text here", placeholder="Type or paste text...")

+import random
 import gradio as gr
 from transformers import AutoTokenizer
+# Load all tokenizers (at startup)
 tokenizers = {
     "GPT-2 Tokenizer": AutoTokenizer.from_pretrained("gpt2"),
     "RoBERTa Tokenizer": AutoTokenizer.from_pretrained("roberta-base"),
     "DistilGPT-2 Tokenizer": AutoTokenizer.from_pretrained("distilgpt2"),
+    "bert-base-german-cased Tokenizer": AutoTokenizer.from_pretrained("bert-base-german-cased")
 }
+# Fancy token visualization with random colors
 def visualize_tokens(text, tokenizer_name, show_token_ids):
     tokenizer = tokenizers[tokenizer_name]
     encoded = tokenizer(text, add_special_tokens=False, return_tensors=None)
     token_ids = encoded["input_ids"]
     tokens = tokenizer.convert_ids_to_tokens(token_ids)
+    # Generate a random pastel color
+    def random_pastel():
+        r = lambda: random.randint(100, 255)
+        return f"rgb({r()},{r()},{r()})"
+    # Create HTML tokens with random colors and bigger size
     html_tokens = []
     for idx, token in enumerate(tokens):
+        color = random_pastel()
+        html_token = f"""
+        <span style='
+            display:inline-block;
+            margin:4px;
+            padding:8px 12px;
+            background-color:{color};
+            border-radius:8px;
+            font-size:18px;
+            font-family:monospace;
+            font-weight:bold;
+        '>{token}</span>
+        """
         html_tokens.append(html_token)
+    html_output = "".join(html_tokens)
     if show_token_ids:
         html_output += "<br><br><b>Token IDs:</b><br>" + str(token_ids)
 # Gradio app
 with gr.Blocks() as app:
     gr.Markdown("# 🚀 Tokenizer Playground (Tiktokenizer-Style)")
     with gr.Row():
         with gr.Column():
             text_input = gr.Textbox(lines=4, label="Enter your text here", placeholder="Type or paste text...")