Spaces:

M17idd
/

army

Running

M17idd commited on 6 days ago

Commit

5054e30

verified ·

1 Parent(s): 3652b60

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -64,31 +64,33 @@ class GroqLLM(OpenAI):
 llm = GroqLLM(api_key=groq_api_key, model_name="deepseek-r1-distill-llama-70b")
 # ----------------- ساخت SimpleRetriever -----------------
 class SimpleRetriever(BaseRetriever):
     def __init__(self):
         self.documents, self.embeddings = build_pdf_index()
-    def _get_relevant_documents(self, query):
-        query_embedding = nlp(query).vector  # تبدیل سوال به امبدینگ با استفاده از spaCy
         similarities = []
         for doc_embedding in self.embeddings:
-            similarity = query_embedding.dot(doc_embedding)  # محاسبه شباهت بین امبدینگ‌ها
             similarities.append(similarity)
-        # یافتن مستندات مشابه بر اساس بیشترین شباهت
-        ranked_docs = sorted(zip(similarities, self.documents), reverse=True)
-        return [doc for _, doc in ranked_docs[:5]]  # بازگرداندن 5 مستند مشابه
-retriever = SimpleRetriever()
-chain = RetrievalQA.from_chain_type(
-    llm=llm,
-    retriever=retriever,  # ارسال نمونه از retriever
-    chain_type="stuff",
-    input_key="question"
-)
 # ----------------- استیت برای چت -----------------
 if 'messages' not in st.session_state:
     st.session_state.messages = []

 llm = GroqLLM(api_key=groq_api_key, model_name="deepseek-r1-distill-llama-70b")
 # ----------------- ساخت SimpleRetriever -----------------
+from langchain_core.retrievers import BaseRetriever
+from langchain_core.documents import Document
+from typing import List
+from dataclasses import dataclass, field
+@dataclass
 class SimpleRetriever(BaseRetriever):
+    documents: List[Document] = field(default_factory=list)
+    embeddings: List = field(default_factory=list)
     def __init__(self):
+        super().__init__()
         self.documents, self.embeddings = build_pdf_index()
+    def _get_relevant_documents(self, query: str) -> List[Document]:
+        inputs = tokenizer(query, return_tensors="pt", padding=True, truncation=True)
+        with torch.no_grad():
+            outputs = model(**inputs)
+        query_embedding = outputs.last_hidden_state.mean(dim=1).numpy()
         similarities = []
         for doc_embedding in self.embeddings:
+            similarity = (query_embedding * doc_embedding).sum()
             similarities.append(similarity)
+        ranked_docs = sorted(zip(similarities, self.documents), reverse=True)
+        return [doc for _, doc in ranked_docs[:5]]
 # ----------------- استیت برای چت -----------------
 if 'messages' not in st.session_state:
     st.session_state.messages = []