Update train_tokenizer.py
Browse files- train_tokenizer.py +3 -0
train_tokenizer.py
CHANGED
@@ -2,6 +2,9 @@
|
|
2 |
from tokenizers import Tokenizer, decoders, models, normalizers, pre_tokenizers, trainers
|
3 |
|
4 |
def train_tokenizer(iterator, vocab_size=50000, min_frequency=3):
|
|
|
|
|
|
|
5 |
# Δημιουργία του Tokenizer με μοντέλο BPE και ορισμό token για άγνωστα
|
6 |
tokenizer = Tokenizer(models.BPE(unk_token="<unk>"))
|
7 |
|
|
|
2 |
from tokenizers import Tokenizer, decoders, models, normalizers, pre_tokenizers, trainers
|
3 |
|
4 |
def train_tokenizer(iterator, vocab_size=50000, min_frequency=3):
|
5 |
+
"""
|
6 |
+
Εκπαιδεύει έναν Tokenizer τύπου BPE πάνω σε δεδομένα που παρέχονται από τον iterator.
|
7 |
+
"""
|
8 |
# Δημιουργία του Tokenizer με μοντέλο BPE και ορισμό token για άγνωστα
|
9 |
tokenizer = Tokenizer(models.BPE(unk_token="<unk>"))
|
10 |
|