Spaces:

M17idd
/

army

Restarting

App Files Files Community

M17idd commited on 4 days ago

Commit

b2c45d8

verified ·

1 Parent(s): 8f34ab2

Update app.py

Browse files

Files changed (1) hide show

app.py +47 -87

app.py CHANGED Viewed

@@ -1,145 +1,107 @@
 import streamlit as st
-import time
-import os
-import pickle
-import numpy as np
 from langchain.document_loaders import PyPDFLoader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
-from langchain_together import TogetherEmbeddings
 from langchain.chat_models import ChatOpenAI
-from sklearn.metrics.pairwise import cosine_similarity
-# ------------------ بارگذاری چانک‌ها و امبدینگ‌ها ------------------
-# --- کش کردن امبدینگ‌ها فقط بار اول ---
 @st.cache_resource
-def get_embeddings_and_chunks():
-    # بارگذاری پی دی اف و اسپلیت چانک
     pdf_loader = PyPDFLoader('test1.pdf')
     pages = pdf_loader.load_and_split(RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=0))
     chunk_texts = [page.page_content for page in pages]
-    # ساخت امبدینگ برای کل چانک‌ها
-    embeddings = TogetherEmbeddings(
         api_key="0291f33aee03412a47fa5d8e562e515182dcc5d9aac5a7fb5eefdd1759005979"
     )
-    return chunk_texts, embeddings
-# --- نمایش progress بیرون از کش ---
-chunk_texts, embeddings = get_embeddings_and_chunks()
 progress_bar = st.progress(0)
-# حالا شروع به پردازش با آپدیت پروگرس بار
 all_embeddings = []
-batch_size = 5
 for i in range(0, len(chunk_texts), batch_size):
     batch = chunk_texts[i:i+batch_size]
-    embedded_batch = embeddings.embed_documents(batch)
-    all_embeddings.extend(embedded_batch)
-    # آپدیت پروگرس بار
     progress_bar.progress(min((i + batch_size) / len(chunk_texts), 1.0))
-st.success("✅ امبدینگ چانک‌ها با موفقیت ساخته شد!")
-# حالا این all_embeddings رو داری، میتونی بندازی تو index
-            # ذخیره در فایل کش
-            with open(embeddings_file, 'wb') as f:
-                pickle.dump({
-                    'chunk_texts': chunk_texts,
-                    'chunk_embeddings': chunk_embeddings,
-                    'embeddings_model': embeddings_model,
-                }, f)
-            st.success(f"✅ {len(chunk_texts)} چانک پردازش و ذخیره شد.")
-            return chunk_texts, chunk_embeddings, embeddings_model
-chunk_texts, chunk_embeddings, embeddings_model = load_chunks_and_embeddings()
-# ------------------ ساخت مدل LLM ------------------
 llm = ChatOpenAI(
     base_url="https://api.together.xyz/v1",
     api_key='0291f33aee03412a47fa5d8e562e515182dcc5d9aac5a7fb5eefdd1759005979',
-    model="meta-llama/Llama-3.3-70B-Instruct-Turbo-Free"
 )
-# ------------------ پاسخ بر اساس ۱۰ چانک نزدیک ------------------
-def answer_from_pdf(question):
-    # ۱- ساخت امبدینگ سوال
-    question_embedding = embeddings_model.embed_query(question)
-    # ۲- محاسبه شباهت
-    similarities = cosine_similarity(
-        [question_embedding],
-        chunk_embeddings
-    )[0]
-    # ۳- انتخاب ۱۰ چانک نزدیک
-    top_indices = np.argsort(similarities)[-10:][::-1]
-    selected_chunks = [chunk_texts[i] for i in top_indices]
-    # ۴- ساخت پرامپت
-    context = "\n\n".join(selected_chunks)
-    prompt = f"""با توجه به متن زیر فقط به زبان فارسی پاسخ بده:
-    متن:
-    {context}
-    سوال:
-    {question}
-    پاسخ:"""
-    response = llm.invoke(prompt)
-    return response.content
-# ------------------ Chat Streamlit UI ------------------
-st.title('���� چت با PDF (با ۱۰ چانک نزدیک و کش شده)')
 if 'messages' not in st.session_state:
     st.session_state.messages = []
 if 'pending_prompt' not in st.session_state:
     st.session_state.pending_prompt = None
-# نمایش هیستوری چت
 for msg in st.session_state.messages:
     with st.chat_message(msg['role']):
         st.markdown(f"🗨️ {msg['content']}", unsafe_allow_html=True)
-# گرفتن سوال از کاربر
-prompt = st.chat_input("سوال خود را وارد کنید...")
 if prompt:
     st.session_state.messages.append({'role': 'user', 'content': prompt})
     st.session_state.pending_prompt = prompt
     st.rerun()
-# وقتی سوال جدید داری
 if st.session_state.pending_prompt:
     with st.chat_message('ai'):
         thinking = st.empty()
-        thinking.markdown("🤖 در حال پردازش...")
-        # پاسخ بر اساس نزدیک‌ترین چانک‌ها
-        response = answer_from_pdf(st.session_state.pending_prompt)
-        answer = response.strip()
         if not answer:
-            answer = "متاسفم، اطلاعات دقیقی در این مورد ندارم."
         thinking.empty()
         full_response = ""
         placeholder = st.empty()
-        # تدریجی نشون دادن پاسخ
         for word in answer.split():
             full_response += word + " "
             placeholder.markdown(full_response + "▌")
@@ -148,5 +110,3 @@ if st.session_state.pending_prompt:
         placeholder.markdown(full_response)
         st.session_state.messages.append({'role': 'ai', 'content': full_response})
         st.session_state.pending_prompt = None

 import streamlit as st
 from langchain.document_loaders import PyPDFLoader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.embeddings import TogetherEmbeddings
+from langchain.vectorstores import FAISS
 from langchain.chat_models import ChatOpenAI
+from langchain.chains import RetrievalQA
+import time
+# --------------------------------------------
+# 1. بارگذاری پی دی اف و ساخت امبدینگ چانک‌ها (فقط یکبار و کش شده)
+# --------------------------------------------
 @st.cache_resource
+def get_chunks_and_embeddings():
     pdf_loader = PyPDFLoader('test1.pdf')
     pages = pdf_loader.load_and_split(RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=0))
     chunk_texts = [page.page_content for page in pages]
+    embeddings_model = TogetherEmbeddings(
         api_key="0291f33aee03412a47fa5d8e562e515182dcc5d9aac5a7fb5eefdd1759005979"
     )
+    return chunk_texts, embeddings_model
+# کش شده
+chunk_texts, embeddings_model = get_chunks_and_embeddings()
+# --------------------------------------------
+# 2. ساختن امبدینگ چانک‌ها با پروگرس بار
+# --------------------------------------------
+st.title("📄 Chat with your PDF (با پی‌دی‌اف خودت حرف بزن!)")
+st.subheader("در حال آماده‌سازی امبدینگ چانک‌ها...")
 progress_bar = st.progress(0)
 all_embeddings = []
+batch_size = 128
 for i in range(0, len(chunk_texts), batch_size):
     batch = chunk_texts[i:i+batch_size]
+    embedded = embeddings_model.embed_documents(batch)
+    all_embeddings.extend(embedded)
     progress_bar.progress(min((i + batch_size) / len(chunk_texts), 1.0))
+st.success("✅ همه چانک‌ها آماده شدند!")
+# --------------------------------------------
+# 3. ساختن ایندکس FAISS از امبدینگ‌ها
+# --------------------------------------------
+vectorstore = FAISS.from_embeddings(all_embeddings, chunk_texts)
+# --------------------------------------------
+# 4. آماده سازی مدل LLM و چین
+# --------------------------------------------
 llm = ChatOpenAI(
     base_url="https://api.together.xyz/v1",
     api_key='0291f33aee03412a47fa5d8e562e515182dcc5d9aac5a7fb5eefdd1759005979',
+    model="meta-llama/Llama-3-70B-Instruct-Turbo-Free"
 )
+chain = RetrievalQA.from_chain_type(
+    llm=llm,
+    chain_type='stuff',
+    retriever=vectorstore.as_retriever(search_kwargs={"k": 10}),
+    input_key='question'
+)
+# --------------------------------------------
+# 5. چت بات Streamlit
+# --------------------------------------------
 if 'messages' not in st.session_state:
     st.session_state.messages = []
 if 'pending_prompt' not in st.session_state:
     st.session_state.pending_prompt = None
+# نمایش پیام‌های قبلی
 for msg in st.session_state.messages:
     with st.chat_message(msg['role']):
         st.markdown(f"🗨️ {msg['content']}", unsafe_allow_html=True)
+# دریافت ورودی از کاربر
+prompt = st.chat_input("چطور میتونم کمکت کنم؟")
 if prompt:
     st.session_state.messages.append({'role': 'user', 'content': prompt})
     st.session_state.pending_prompt = prompt
     st.rerun()
 if st.session_state.pending_prompt:
     with st.chat_message('ai'):
         thinking = st.empty()
+        thinking.markdown("🤖 در حال فکر کردن...")
+        # اجرای جستجو در ایندکس برای پاسخ
+        response = chain.run(f"فقط به زبان فارسی پاسخ بده. سوال: {st.session_state.pending_prompt}")
+        answer = response.split("Helpful Answer:")[-1].strip()
         if not answer:
+            answer = "متأسفم، اطلاعات دقیقی در این مورد ندارم."
         thinking.empty()
         full_response = ""
         placeholder = st.empty()
+        # نمایش پاسخ به صورت تایپی
         for word in answer.split():
             full_response += word + " "
             placeholder.markdown(full_response + "▌")
         placeholder.markdown(full_response)
         st.session_state.messages.append({'role': 'ai', 'content': full_response})
         st.session_state.pending_prompt = None