M17idd commited on
Commit
c03287b
·
verified ·
1 Parent(s): 0bcc41f

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +8 -3
app.py CHANGED
@@ -18,6 +18,8 @@ from langchain.vectorstores import FAISS
18
  from langchain.embeddings import SentenceTransformerEmbeddings
19
  from langchain.embeddings import OpenAIEmbeddings, HuggingFaceInstructEmbeddings
20
 
 
 
21
 
22
 
23
  # ----------------- تنظیمات صفحه -----------------
@@ -102,12 +104,15 @@ st.markdown("""
102
  """, unsafe_allow_html=True)
103
 
104
  # ----------------- لود PDF و ساخت ایندکس -----------------
 
 
 
105
  @st.cache_resource
106
  def get_pdf_index():
107
  with st.spinner('📄 در حال پردازش فایل PDF...'):
108
- pdf_reader = [PyPDFLoader('test1.pdf')]
109
- embeddings = HuggingFaceInstructEmbeddings(model_name="HooshvareLab/gpt2-fa")
110
- index = VectorstoreIndexCreator( embedding=embeddings, text_splitter=RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=128)).from_loaders(pdf_reader)
111
  return index
112
 
113
  # ----------------- بارگذاری دیتا -----------------
 
18
  from langchain.embeddings import SentenceTransformerEmbeddings
19
  from langchain.embeddings import OpenAIEmbeddings, HuggingFaceInstructEmbeddings
20
 
21
+ from transformers import AutoTokenizer
22
+
23
 
24
 
25
  # ----------------- تنظیمات صفحه -----------------
 
104
  """, unsafe_allow_html=True)
105
 
106
  # ----------------- لود PDF و ساخت ایندکس -----------------
107
+ tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/gpt2-fa")
108
+ tokenizer.pad_token = tokenizer.eos_token # یا می‌توانید این خط را برای توکن جدید فعال کنید: tokenizer.add_special_tokens({'pad_token': '[PAD]'})
109
+
110
  @st.cache_resource
111
  def get_pdf_index():
112
  with st.spinner('📄 در حال پردازش فایل PDF...'):
113
+ pdf_loader = PyPDFLoader('test1.pdf')
114
+ embeddings = HuggingFaceInstructEmbeddings(model_name="HooshvareLab/gpt2-fa", tokenizer=tokenizer)
115
+ index = VectorstoreIndexCreator(embedding=embeddings, text_splitter=RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=128)).from_loaders([pdf_loader])
116
  return index
117
 
118
  # ----------------- بارگذاری دیتا -----------------