Spaces:

tymbos
/

GPT2-PBE

Sleeping

tymbos commited on Mar 30

Commit

a3a35b4

verified ·

1 Parent(s): 7c5aa99

Update train_tokenizer.py

Files changed (1) hide show

train_tokenizer.py CHANGED Viewed

@@ -1,22 +1,21 @@
 from tokenizers import Tokenizer, decoders, models, normalizers, pre_tokenizers, trainers
 def train_tokenizer(iterator, vocab_size=50000, min_frequency=3):
     tokenizer = Tokenizer(models.BPE(unk_token="<unk>"))
-    # Normalization για ελληνικά και unicode
-    tokenizer.normalizer = normalizers.Sequence([
-        normalizers.NFC(),
-        normalizers.StripAccents()
-    ])
-    # Προχωρημένος pre-tokenizer για μικτά κείμενα
     tokenizer.pre_tokenizer = pre_tokenizers.Sequence([
         pre_tokenizers.WhitespaceSplit(),
         pre_tokenizers.Punctuation(),
         pre_tokenizers.Digits(individual_digits=True)
     ])
-    # Ειδικά tokens για ιστορικά κείμενα
     trainer = trainers.BpeTrainer(
         vocab_size=vocab_size,
         min_frequency=min_frequency,

+# -*- coding: utf-8 -*-
 from tokenizers import Tokenizer, decoders, models, normalizers, pre_tokenizers, trainers
 def train_tokenizer(iterator, vocab_size=50000, min_frequency=3):
+    # Δημιουργία του Tokenizer με μοντέλο BPE και ορισμό token για άγνωστα
     tokenizer = Tokenizer(models.BPE(unk_token="<unk>"))
+    # Normalization για ελληνικά και Unicode (διατηρεί τους τόνους)
+    tokenizer.normalizer = normalizers.NFC()
+    # Προ-tokenizer για μικτά κείμενα (ελληνικά και αγγλικά)
     tokenizer.pre_tokenizer = pre_tokenizers.Sequence([
         pre_tokenizers.WhitespaceSplit(),
         pre_tokenizers.Punctuation(),
         pre_tokenizers.Digits(individual_digits=True)
     ])
+    # Ορισμός ειδικών tokens (π.χ. για ιστορικά κείμενα)
     trainer = trainers.BpeTrainer(
         vocab_size=vocab_size,
         min_frequency=min_frequency,