Update train_tokenizer.py
Browse files- train_tokenizer.py +1 -1
train_tokenizer.py
CHANGED
@@ -33,7 +33,7 @@ def train_tokenizer(iterator, vocab_size=32000, min_frequency=2):
|
|
33 |
# Εφαρμογή normalization (NFC και αφαίρεση τόνων, αν χρειάζεται)
|
34 |
tokenizer.normalizer = normalizers.Sequence([
|
35 |
normalizers.NFC(),
|
36 |
-
normalizers.StripAccents() # Προαιρετικό: αφαιρεί τόνους
|
37 |
])
|
38 |
|
39 |
# Ορισμός custom pre-tokenizer με χρήση της συνάρτησης που ορίσαμε
|
|
|
33 |
# Εφαρμογή normalization (NFC και αφαίρεση τόνων, αν χρειάζεται)
|
34 |
tokenizer.normalizer = normalizers.Sequence([
|
35 |
normalizers.NFC(),
|
36 |
+
#normalizers.StripAccents() # Προαιρετικό: αφαιρεί τόνους
|
37 |
])
|
38 |
|
39 |
# Ορισμός custom pre-tokenizer με χρήση της συνάρτησης που ορίσαμε
|