Spaces:

M17idd
/

army

Running

M17idd commited on 6 days ago

Commit

c03287b

verified ·

1 Parent(s): 0bcc41f

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -18,6 +18,8 @@ from langchain.vectorstores import FAISS
 from langchain.embeddings import SentenceTransformerEmbeddings
 from langchain.embeddings import OpenAIEmbeddings, HuggingFaceInstructEmbeddings
 # ----------------- تنظیمات صفحه -----------------
@@ -102,12 +104,15 @@ st.markdown("""
 """, unsafe_allow_html=True)
 # ----------------- لود PDF و ساخت ایندکس -----------------
 @st.cache_resource
 def get_pdf_index():
     with st.spinner('📄 در حال پردازش فایل PDF...'):
-        pdf_reader = [PyPDFLoader('test1.pdf')]
-        embeddings = HuggingFaceInstructEmbeddings(model_name="HooshvareLab/gpt2-fa")
-        index  = VectorstoreIndexCreator( embedding=embeddings, text_splitter=RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=128)).from_loaders(pdf_reader)
         return index
 # ----------------- بارگذاری دیتا -----------------

 from langchain.embeddings import SentenceTransformerEmbeddings
 from langchain.embeddings import OpenAIEmbeddings, HuggingFaceInstructEmbeddings
+from transformers import AutoTokenizer
 # ----------------- تنظیمات صفحه -----------------
 """, unsafe_allow_html=True)
 # ----------------- لود PDF و ساخت ایندکس -----------------
+tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/gpt2-fa")
+tokenizer.pad_token = tokenizer.eos_token  # یا می‌توانید این خط را برای توکن جدید فعال کنید: tokenizer.add_special_tokens({'pad_token': '[PAD]'})
 @st.cache_resource
 def get_pdf_index():
     with st.spinner('📄 در حال پردازش فایل PDF...'):
+        pdf_loader = PyPDFLoader('test1.pdf')
+        embeddings = HuggingFaceInstructEmbeddings(model_name="HooshvareLab/gpt2-fa", tokenizer=tokenizer)
+        index = VectorstoreIndexCreator(embedding=embeddings, text_splitter=RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=128)).from_loaders([pdf_loader])
         return index
 # ----------------- بارگذاری دیتا -----------------