Spaces:

M17idd
/

army

Running

App Files Files Community

M17idd commited on 6 days ago

Commit

95cb532

verified ·

1 Parent(s): 20419dd

Update app.py

Browse files

Files changed (1) hide show

app.py +8 -11

app.py CHANGED Viewed

@@ -29,12 +29,10 @@ st.set_page_config(page_title="چت‌بات ارتش - فقط از PDF", page_i
 @st.cache_resource
 def build_pdf_index():
-    with st.spinner('📄 در حال پردازش فایل PDF...'):
-        # بارگذاری فایل
         loader = PyPDFLoader("test1.pdf")
         pages = loader.load()
-        # تکه‌تکه کردن متن
         splitter = RecursiveCharacterTextSplitter(
             chunk_size=500,
             chunk_overlap=50
@@ -46,25 +44,20 @@ def build_pdf_index():
         documents = [LangchainDocument(page_content=t) for t in texts]
-        # مدل Embedding
         sentence_model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')
-        # پروگرس بار
         progress_bar = st.progress(0)
         total_docs = len(documents)
-        # آماده‌سازی داده‌ها
         texts_to_encode = [doc.page_content for doc in documents]
-        # انکود بچی
-        batch_size = 32  # سایز دلخواه
         embeddings = []
         for i in range(0, total_docs, batch_size):
             batch_texts = texts_to_encode[i:i+batch_size]
             batch_embeddings = sentence_model.encode(batch_texts, convert_to_numpy=True)
             embeddings.extend(batch_embeddings)
-            # بروزرسانی پروگرس بار
             progress_bar.progress(min((i + batch_size) / total_docs, 1.0))
         embeddings = np.array(embeddings)
@@ -96,7 +89,11 @@ class SimpleRetriever(BaseRetriever):
             similarity = (query_embedding * doc_embedding).sum()
             similarities.append(similarity)
-        ranked_docs = sorted(zip(similarities, self.documents), reverse=True)
         return [doc for _, doc in ranked_docs[:5]]
 # ----------------- ساخت Index -----------------
@@ -135,7 +132,7 @@ if prompt:
 if st.session_state.pending_prompt:
     with st.chat_message('ai'):
         thinking = st.empty()
-        thinking.markdown("🤖 در حال فکر کردن از روی PDF...")
         try:
             response = chain.run(f"سوال: {st.session_state.pending_prompt}")

 @st.cache_resource
 def build_pdf_index():
+    with st.spinner('📄 در حال پردازش فایل ...'):
         loader = PyPDFLoader("test1.pdf")
         pages = loader.load()
         splitter = RecursiveCharacterTextSplitter(
             chunk_size=500,
             chunk_overlap=50
         documents = [LangchainDocument(page_content=t) for t in texts]
         sentence_model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')
         progress_bar = st.progress(0)
         total_docs = len(documents)
         texts_to_encode = [doc.page_content for doc in documents]
+        batch_size = 128
         embeddings = []
         for i in range(0, total_docs, batch_size):
             batch_texts = texts_to_encode[i:i+batch_size]
             batch_embeddings = sentence_model.encode(batch_texts, convert_to_numpy=True)
             embeddings.extend(batch_embeddings)
             progress_bar.progress(min((i + batch_size) / total_docs, 1.0))
         embeddings = np.array(embeddings)
             similarity = (query_embedding * doc_embedding).sum()
             similarities.append(similarity)
+        ranked_docs = sorted(
+            zip(similarities, self.documents),
+            key=lambda x: x[0],
+            reverse=True
+        )
         return [doc for _, doc in ranked_docs[:5]]
 # ----------------- ساخت Index -----------------
 if st.session_state.pending_prompt:
     with st.chat_message('ai'):
         thinking = st.empty()
+        thinking.markdown("🤖 در حال فکر کردن  ...")
         try:
             response = chain.run(f"سوال: {st.session_state.pending_prompt}")