Spaces:

M17idd
/

army

Running

App Files Files Community

M17idd commited on 11 days ago

Commit

6997dfd

verified ·

1 Parent(s): 9138bf0

Update app.py

Browse files

Files changed (1) hide show

app.py +34 -9

app.py CHANGED Viewed

@@ -1,12 +1,11 @@
 import os
 import time
 import streamlit as st
 from groq import Groq
 from langchain.document_loaders import PyPDFLoader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.schema import Document as LangchainDocument
-from langchain.vectorstores import FAISS
-from langchain.embeddings import HuggingFaceEmbeddings
 from langchain.chains import RetrievalQA
 from langchain.llms import OpenAI
@@ -18,6 +17,9 @@ st.set_page_config(page_title="چت‌بات ارتش - فقط از PDF", page_i
 # ----------------- تعریف کلید API -----------------
 groq_api_key = "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"
 # ----------------- لود PDF و ساخت ایندکس -----------------
 @st.cache_resource
 def build_pdf_index():
@@ -38,15 +40,17 @@ def build_pdf_index():
         # تبدیل به Document
         documents = [LangchainDocument(page_content=t) for t in texts]
-        # استفاده از HuggingFaceEmbedding محلی برای FAISS
-        embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
-        vectordb = FAISS.from_documents(documents, embedding=embeddings)
-        return vectordb
 # ----------------- ساختن Index از PDF -----------------
-index = build_pdf_index()
 # ----------------- تعریف LLM Groq -----------------
 client = Groq(api_key=groq_api_key)
@@ -57,10 +61,31 @@ class GroqLLM(OpenAI):
 llm = GroqLLM(api_key=groq_api_key, model_name="deepseek-r1-distill-llama-70b")
 # ----------------- Retrieval Chain -----------------
 chain = RetrievalQA.from_chain_type(
     llm=llm,
-    retriever=index.as_retriever(),
     chain_type="stuff",
     input_key="question"
 )

 import os
 import time
 import streamlit as st
+import spacy
 from groq import Groq
 from langchain.document_loaders import PyPDFLoader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.schema import Document as LangchainDocument
 from langchain.chains import RetrievalQA
 from langchain.llms import OpenAI
 # ----------------- تعریف کلید API -----------------
 groq_api_key = "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"
+# ----------------- بارگذاری مدل spaCy برای امبدینگ -----------------
+nlp = spacy.load("en_core_web_md")  # یا 'en_core_web_lg' برای مدل بزرگتر
 # ----------------- لود PDF و ساخت ایندکس -----------------
 @st.cache_resource
 def build_pdf_index():
         # تبدیل به Document
         documents = [LangchainDocument(page_content=t) for t in texts]
+        # استفاده از spaCy برای تولید امبدینگ
+        embeddings = []
+        for doc in documents:
+            spacy_doc = nlp(doc.page_content)  # تبدیل متن به شیء spaCy
+            embeddings.append(spacy_doc.vector)  # استخراج امبدینگ از spaCy
+        # به جای FAISS، فقط لیست امبدینگ‌ها را برمی‌گردانیم
+        return documents, embeddings
 # ----------------- ساختن Index از PDF -----------------
+documents, embeddings = build_pdf_index()
 # ----------------- تعریف LLM Groq -----------------
 client = Groq(api_key=groq_api_key)
 llm = GroqLLM(api_key=groq_api_key, model_name="deepseek-r1-distill-llama-70b")
+# ----------------- Retrieval Chain -----------------
+# به جای استفاده از FAISS، اکنون از لیست امبدینگ‌ها استفاده می‌کنیم
+class SimpleRetriever:
+    def __init__(self, documents, embeddings):
+        self.documents = documents
+        self.embeddings = embeddings
+    def retrieve(self, query, top_k=1):
+        query_embedding = nlp(query).vector  # تبدیل سوال به امبدینگ با استفاده از spaCy
+        similarities = []
+        for doc_embedding in self.embeddings:
+            similarity = query_embedding.dot(doc_embedding)  # محاسبه شباهت بین امبدینگ‌ها
+            similarities.append(similarity)
+        # یافتن مستندات مشابه بر اساس بیشترین شباهت
+        ranked_docs = sorted(zip(similarities, self.documents), reverse=True)
+        return [doc for _, doc in ranked_docs[:top_k]]
+# استفاده از retriever ساده برای جستجو در امبدینگ‌ها
+retriever = SimpleRetriever(documents, embeddings)
 # ----------------- Retrieval Chain -----------------
 chain = RetrievalQA.from_chain_type(
     llm=llm,
+    retriever=retriever.retrieve,  # استفاده از متد retrieve
     chain_type="stuff",
     input_key="question"
 )