tymbos commited on
Commit
be0261d
·
verified ·
1 Parent(s): 707e11b

Update train_tokenizer.py

Browse files
Files changed (1) hide show
  1. train_tokenizer.py +1 -1
train_tokenizer.py CHANGED
@@ -33,7 +33,7 @@ def train_tokenizer(iterator, vocab_size=32000, min_frequency=2):
33
  # Εφαρμογή normalization (NFC και αφαίρεση τόνων, αν χρειάζεται)
34
  tokenizer.normalizer = normalizers.Sequence([
35
  normalizers.NFC(),
36
- normalizers.StripAccents() # Προαιρετικό: αφαιρεί τόνους
37
  ])
38
 
39
  # Ορισμός custom pre-tokenizer με χρήση της συνάρτησης που ορίσαμε
 
33
  # Εφαρμογή normalization (NFC και αφαίρεση τόνων, αν χρειάζεται)
34
  tokenizer.normalizer = normalizers.Sequence([
35
  normalizers.NFC(),
36
+ #normalizers.StripAccents() # Προαιρετικό: αφαιρεί τόνους
37
  ])
38
 
39
  # Ορισμός custom pre-tokenizer με χρήση της συνάρτησης που ορίσαμε