Spaces:

tymbos
/

GPT2-PBE

Sleeping

tymbos commited on Mar 27

Commit

be0261d

verified ·

1 Parent(s): 707e11b

Update train_tokenizer.py

Files changed (1) hide show

train_tokenizer.py CHANGED Viewed

@@ -33,7 +33,7 @@ def train_tokenizer(iterator, vocab_size=32000, min_frequency=2):
     # Εφαρμογή normalization (NFC και αφαίρεση τόνων, αν χρειάζεται)
     tokenizer.normalizer = normalizers.Sequence([
         normalizers.NFC(),
-        normalizers.StripAccents()  # Προαιρετικό: αφαιρεί τόνους
     ])
     # Ορισμός custom pre-tokenizer με χρήση της συνάρτησης που ορίσαμε

     # Εφαρμογή normalization (NFC και αφαίρεση τόνων, αν χρειάζεται)
     tokenizer.normalizer = normalizers.Sequence([
         normalizers.NFC(),
+        #normalizers.StripAccents()  # Προαιρετικό: αφαιρεί τόνους
     ])
     # Ορισμός custom pre-tokenizer με χρήση της συνάρτησης που ορίσαμε