Spaces:

M17idd
/

army

Running

App Files Files Community

M17idd commited on 5 days ago

Commit

4dfc654

verified ·

1 Parent(s): 0628114

Update app.py

Browse files

Files changed (1) hide show

app.py +14 -14

app.py CHANGED Viewed

@@ -105,17 +105,18 @@ st.markdown("""
 @st.cache_resource
 def get_pdf_index():
     with st.spinner('📄 در حال پردازش فایل PDF...'):
-        loader = [PyPDFLoader('test1.pdf')]
         model_name = "togethercomputer/m2-bert-80M-8k-retrieval"  # نام مدل
-        model = SentenceTransformer(model_name, trust_remote_code=True)  # استفاده از توکن
         splitter = RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=0)
         texts = []
-        for doc in loader:
-            texts.extend(splitter.split_text(doc.page_content))
         progress_bar = st.progress(0)
         total_docs = len(texts)
@@ -123,7 +124,7 @@ def get_pdf_index():
         embeddings = []
         batch_size = 128
         for i in range(0, total_docs, batch_size):
-            batch_texts = texts[i:i+batch_size]
             batch_embeddings = model.encode(batch_texts, convert_to_numpy=True)
             embeddings.extend(batch_embeddings)
@@ -133,13 +134,11 @@ def get_pdf_index():
         progress_bar.empty()
         embeddings = np.array(embeddings)
-        index = faiss.IndexFlatL2(embeddings.shape[1])
         index.add(embeddings)
-        return VectorstoreIndexCreator(
-            embedding=model.encode,
-            text_splitter=splitter
-        ).from_loaders(loader)
 # ----------------- تعریف LLM از Groq -----------------
@@ -152,11 +151,11 @@ llm = ChatOpenAI(
 # ----------------- تعریف SimpleRetriever -----------------
 class SimpleRetriever(BaseRetriever):
-    documents: List[Document] = Field(...)
     embeddings: List[np.ndarray] = Field(...)
     index: faiss.Index
-    def _get_relevant_documents(self, query: str) -> List[Document]:
         sentence_model = SentenceTransformer("togethercomputer/m2-bert-80M-8k-retrieval", trust_remote_code=True)
         query_embedding = sentence_model.encode(query, convert_to_numpy=True)
@@ -170,6 +169,7 @@ class SimpleRetriever(BaseRetriever):
 documents, embeddings, index = get_pdf_index()
 retriever = SimpleRetriever(documents=documents, embeddings=embeddings, index=index)
 # ----------------- ساخت Chain -----------------
 chain = RetrievalQA.from_chain_type(
     llm=llm,

 @st.cache_resource
 def get_pdf_index():
     with st.spinner('📄 در حال پردازش فایل PDF...'):
+        # بارگذاری PDF
+        loader = PyPDFLoader('test1.pdf')
+        documents = loader.load_and_split()  # اینجا متن PDF را استخراج می‌کنیم
+        # استفاده از مدل SentenceTransformer
         model_name = "togethercomputer/m2-bert-80M-8k-retrieval"  # نام مدل
+        model = SentenceTransformer(model_name, trust_remote_code=True)
         splitter = RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=0)
         texts = []
+        for doc in documents:
+            texts.extend(splitter.split_text(doc['text']))  # تقسیم متن به تکه‌های کوچک‌تر
         progress_bar = st.progress(0)
         total_docs = len(texts)
         embeddings = []
         batch_size = 128
         for i in range(0, total_docs, batch_size):
+            batch_texts = texts[i:i + batch_size]
             batch_embeddings = model.encode(batch_texts, convert_to_numpy=True)
             embeddings.extend(batch_embeddings)
         progress_bar.empty()
         embeddings = np.array(embeddings)
+        index = faiss.IndexFlatL2(embeddings.shape[1])  # ایجاد ایندکس با استفاده از faiss
         index.add(embeddings)
+        # استفاده از VectorstoreIndexCreator
+        return documents, embeddings, index  # بازگشت به اسناد و ایندکس
 # ----------------- تعریف LLM از Groq -----------------
 # ----------------- تعریف SimpleRetriever -----------------
 class SimpleRetriever(BaseRetriever):
+    documents: List[dict] = Field(...)  # تغییر نوع مستند به dict
     embeddings: List[np.ndarray] = Field(...)
     index: faiss.Index
+    def _get_relevant_documents(self, query: str) -> List[dict]:
         sentence_model = SentenceTransformer("togethercomputer/m2-bert-80M-8k-retrieval", trust_remote_code=True)
         query_embedding = sentence_model.encode(query, convert_to_numpy=True)
 documents, embeddings, index = get_pdf_index()
 retriever = SimpleRetriever(documents=documents, embeddings=embeddings, index=index)
 # ----------------- ساخت Chain -----------------
 chain = RetrievalQA.from_chain_type(
     llm=llm,