Update app.py
Browse files
app.py
CHANGED
@@ -18,6 +18,8 @@ from langchain.vectorstores import FAISS
|
|
18 |
from langchain.embeddings import SentenceTransformerEmbeddings
|
19 |
from langchain.embeddings import OpenAIEmbeddings, HuggingFaceInstructEmbeddings
|
20 |
|
|
|
|
|
21 |
|
22 |
|
23 |
# ----------------- تنظیمات صفحه -----------------
|
@@ -102,12 +104,15 @@ st.markdown("""
|
|
102 |
""", unsafe_allow_html=True)
|
103 |
|
104 |
# ----------------- لود PDF و ساخت ایندکس -----------------
|
|
|
|
|
|
|
105 |
@st.cache_resource
|
106 |
def get_pdf_index():
|
107 |
with st.spinner('📄 در حال پردازش فایل PDF...'):
|
108 |
-
|
109 |
-
embeddings = HuggingFaceInstructEmbeddings(model_name="HooshvareLab/gpt2-fa")
|
110 |
-
index
|
111 |
return index
|
112 |
|
113 |
# ----------------- بارگذاری دیتا -----------------
|
|
|
18 |
from langchain.embeddings import SentenceTransformerEmbeddings
|
19 |
from langchain.embeddings import OpenAIEmbeddings, HuggingFaceInstructEmbeddings
|
20 |
|
21 |
+
from transformers import AutoTokenizer
|
22 |
+
|
23 |
|
24 |
|
25 |
# ----------------- تنظیمات صفحه -----------------
|
|
|
104 |
""", unsafe_allow_html=True)
|
105 |
|
106 |
# ----------------- لود PDF و ساخت ایندکس -----------------
|
107 |
+
tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/gpt2-fa")
|
108 |
+
tokenizer.pad_token = tokenizer.eos_token # یا میتوانید این خط را برای توکن جدید فعال کنید: tokenizer.add_special_tokens({'pad_token': '[PAD]'})
|
109 |
+
|
110 |
@st.cache_resource
|
111 |
def get_pdf_index():
|
112 |
with st.spinner('📄 در حال پردازش فایل PDF...'):
|
113 |
+
pdf_loader = PyPDFLoader('test1.pdf')
|
114 |
+
embeddings = HuggingFaceInstructEmbeddings(model_name="HooshvareLab/gpt2-fa", tokenizer=tokenizer)
|
115 |
+
index = VectorstoreIndexCreator(embedding=embeddings, text_splitter=RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=128)).from_loaders([pdf_loader])
|
116 |
return index
|
117 |
|
118 |
# ----------------- بارگذاری دیتا -----------------
|