Update app.py
Browse files
app.py
CHANGED
@@ -104,15 +104,15 @@ st.markdown("""
|
|
104 |
""", unsafe_allow_html=True)
|
105 |
|
106 |
# ----------------- لود PDF و ساخت ایندکس -----------------
|
107 |
-
tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/gpt2-fa")
|
108 |
-
tokenizer.pad_token = tokenizer.eos_token # یا میتوانید این خط را برای توکن جدید فعال کنید: tokenizer.add_special_tokens({'pad_token': '[PAD]'})
|
109 |
|
110 |
@st.cache_resource
|
111 |
def get_pdf_index():
|
112 |
with st.spinner('📄 در حال پردازش فایل PDF...'):
|
113 |
pdf_loader = PyPDFLoader('test1.pdf')
|
114 |
# embeddings = SentenceTransformer("Thomslionel/embedings")
|
115 |
-
embeddings = HuggingFaceInstructEmbeddings(model_name="
|
116 |
index = VectorstoreIndexCreator(embedding=embeddings, text_splitter=RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=128)).from_loaders([pdf_loader])
|
117 |
return index
|
118 |
|
|
|
104 |
""", unsafe_allow_html=True)
|
105 |
|
106 |
# ----------------- لود PDF و ساخت ایندکس -----------------
|
107 |
+
# tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/gpt2-fa")
|
108 |
+
# tokenizer.pad_token = tokenizer.eos_token # یا میتوانید این خط را برای توکن جدید فعال کنید: tokenizer.add_special_tokens({'pad_token': '[PAD]'})
|
109 |
|
110 |
@st.cache_resource
|
111 |
def get_pdf_index():
|
112 |
with st.spinner('📄 در حال پردازش فایل PDF...'):
|
113 |
pdf_loader = PyPDFLoader('test1.pdf')
|
114 |
# embeddings = SentenceTransformer("Thomslionel/embedings")
|
115 |
+
embeddings = HuggingFaceInstructEmbeddings(model_name="ai-forever/mGPT-13B")
|
116 |
index = VectorstoreIndexCreator(embedding=embeddings, text_splitter=RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=128)).from_loaders([pdf_loader])
|
117 |
return index
|
118 |
|