tymbos commited on
Commit
e022de9
·
verified ·
1 Parent(s): f2ec199

Update train_tokenizer.py

Browse files
Files changed (1) hide show
  1. train_tokenizer.py +3 -0
train_tokenizer.py CHANGED
@@ -2,6 +2,9 @@
2
  from tokenizers import Tokenizer, decoders, models, normalizers, pre_tokenizers, trainers
3
 
4
  def train_tokenizer(iterator, vocab_size=50000, min_frequency=3):
 
 
 
5
  # Δημιουργία του Tokenizer με μοντέλο BPE και ορισμό token για άγνωστα
6
  tokenizer = Tokenizer(models.BPE(unk_token="<unk>"))
7
 
 
2
  from tokenizers import Tokenizer, decoders, models, normalizers, pre_tokenizers, trainers
3
 
4
  def train_tokenizer(iterator, vocab_size=50000, min_frequency=3):
5
+ """
6
+ Εκπαιδεύει έναν Tokenizer τύπου BPE πάνω σε δεδομένα που παρέχονται από τον iterator.
7
+ """
8
  # Δημιουργία του Tokenizer με μοντέλο BPE και ορισμό token για άγνωστα
9
  tokenizer = Tokenizer(models.BPE(unk_token="<unk>"))
10