Spaces:

M17idd
/

army

Running

App Files Files Community

M17idd commited on 11 days ago

Commit

217583a

verified ·

1 Parent(s): dd3cbe3

Update app.py

Browse files

Files changed (1) hide show

app.py +67 -121

app.py CHANGED Viewed

@@ -1,118 +1,36 @@
-import os
-import time
-from langchain_together import TogetherEmbeddings
 import streamlit as st
-from langchain.chat_models import ChatOpenAI
 from langchain.document_loaders import PyPDFLoader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
-from langchain.schema import Document
-from langchain.chains import RetrievalQA
-from langchain.vectorstores import FAISS
-from langchain.indexes import VectorstoreIndexCreator
-# ----------------- تنظیمات صفحه -----------------
-st.set_page_config(page_title="چت‌ بات توانا", page_icon="🪖", layout="wide")
-st.markdown("""
-    <style>
-    @import url('https://fonts.googleapis.com/css2?family=Vazirmatn:wght@400;700&display=swap');
-    html, body, [class*="css"] {
-        font-family: 'Vazirmatn', Tahoma, sans-serif;
-        direction: rtl;
-        text-align: right;
-    }
-    .stApp {
-        background: url("./military_bg.jpeg") no-repeat center center fixed;
-        background-size: cover;
-        backdrop-filter: blur(2px);
-    }
-    .stChatMessage {
-        background-color: rgba(255,255,255,0.8);
-        border: 1px solid #4e8a3e;
-        border-radius: 12px;
-        padding: 16px;
-        margin-bottom: 15px;
-        box-shadow: 0 4px 10px rgba(0,0,0,0.2);
-        animation: fadeIn 0.4s ease-in-out;
-    }
-    .stTextInput > div > input, .stTextArea textarea {
-        background-color: rgba(255,255,255,0.9) !important;
-        border-radius: 8px !important;
-        direction: rtl;
-        text-align: right;
-        font-family: 'Vazirmatn', Tahoma;
-    }
-    .stButton>button {
-        background-color: #4e8a3e !important;
-        color: white !important;
-        font-weight: bold;
-        border-radius: 10px;
-        padding: 8px 20px;
-        transition: 0.3s;
-    }
-    .stButton>button:hover {
-        background-color: #3c6d30 !important;
-    }
-    .header-text {
-        text-align: center;
-        margin-top: 20px;
-        margin-bottom: 40px;
-        background-color: rgba(255, 255, 255, 0.75);
-        padding: 20px;
-        border-radius: 20px;
-        box-shadow: 0 4px 12px rgba(0,0,0,0.2);
-    }
-    .header-text h1 {
-        font-size: 42px;
-        color: #2c3e50;
-        margin: 0;
-        font-weight: bold;
-    }
-    .subtitle {
-        font-size: 18px;
-        color: #34495e;
-        margin-top: 8px;
-    }
-    @keyframes fadeIn {
-        from { opacity: 0; transform: translateY(10px); }
-        to { opacity: 1; transform: translateY(0); }
-    }
-    </style>
-""", unsafe_allow_html=True)
-col1, col2, col3 = st.columns([1, 0.2, 1])
-with col2:
-    st.image("army.png", width=240)
-st.markdown("""
-    <div class="header-text">
-        <h1>چت‌ بات توانا</h1>
-        <div class="subtitle">دستیار هوشمند</div>
-    </div>
-""", unsafe_allow_html=True)
-# ----------------- لود PDF و ساخت ایندکس -----------------
 @st.cache_resource
-def get_pdf_index():
-    with st.spinner('📄 در حال پردازش فایل PDF...'):
-        # بارگذاری PDF
-        pdf_loader = PyPDFLoader('test1.pdf')
-        # تنظیم embedding ها برای زبان فارسی
-        embeddings = TogetherEmbeddings(
             api_key="0291f33aee03412a47fa5d8e562e515182dcc5d9aac5a7fb5eefdd1759005979"
         )
-        # ساخت ایندکس با استفاده از PDF و embeddings
-        index = VectorstoreIndexCreator(embedding=embeddings, text_splitter=RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=0)).from_loaders([pdf_loader])
-        # چاپ تعداد بخش‌ها برای بررسی
-        st.write(f"تعداد بخش‌های پردازش‌شده: {len(index.vectorstore)}")
-        return index
-# ----------------- بارگذاری دیتا -----------------
-index = get_pdf_index()
 llm = ChatOpenAI(
     base_url="https://api.together.xyz/v1",
@@ -120,12 +38,39 @@ llm = ChatOpenAI(
     model="meta-llama/Llama-3.3-70B-Instruct-Turbo-Free"
 )
-chain = RetrievalQA.from_chain_type(
-    llm=llm,
-    chain_type='stuff',
-    retriever=index.vectorstore.as_retriever(),
-    input_key='question'
-)
 if 'messages' not in st.session_state:
     st.session_state.messages = []
@@ -133,35 +78,36 @@ if 'messages' not in st.session_state:
 if 'pending_prompt' not in st.session_state:
     st.session_state.pending_prompt = None
-# نمایش پیام‌ها در چت
 for msg in st.session_state.messages:
     with st.chat_message(msg['role']):
         st.markdown(f"🗨️ {msg['content']}", unsafe_allow_html=True)
-# دریافت ورودی از کاربر
-prompt = st.chat_input("چطور می‌تونم کمک کنم؟")
 if prompt:
     st.session_state.messages.append({'role': 'user', 'content': prompt})
     st.session_state.pending_prompt = prompt
     st.rerun()
 if st.session_state.pending_prompt:
     with st.chat_message('ai'):
         thinking = st.empty()
-        thinking.markdown("🤖 در حال فکر کردن...")
-        # اجرای جستجو در ایندکس برای دریافت پاسخ
-        response = chain.run(f'پاسخ را فقط به زبان فارسی جواب بده. سوال: {st.session_state.pending_prompt}')
-        answer = response.split("Helpful Answer:")[-1].strip()
         if not answer:
-            answer = "متأسفم، اطلاعات دقیقی در این مورد ندارم."
         thinking.empty()
         full_response = ""
         placeholder = st.empty()
-        # نمایش پاسخ به صورت تدریجی
         for word in answer.split():
             full_response += word + " "
             placeholder.markdown(full_response + "▌")

 import streamlit as st
+import time
+import numpy as np
 from langchain.document_loaders import PyPDFLoader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.embeddings import TogetherEmbeddings
+from langchain.chat_models import ChatOpenAI
+from sklearn.metrics.pairwise import cosine_similarity
+# ------------------ بارگذاری چانک‌ها و امبدینگ‌ها ------------------
 @st.cache_resource
+def load_chunks_and_embeddings():
+    with st.spinner('📄 در حال پردازش PDF و ساخت امبدینگ‌ها...'):
+        loader = PyPDFLoader('test1.pdf')
+        pages = loader.load()
+        splitter = RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=0)
+        chunks = splitter.split_documents(pages)
+        embeddings_model = TogetherEmbeddings(
             api_key="0291f33aee03412a47fa5d8e562e515182dcc5d9aac5a7fb5eefdd1759005979"
         )
+        chunk_texts = [chunk.page_content for chunk in chunks]
+        chunk_embeddings = embeddings_model.embed_documents(chunk_texts)
+        st.success(f"✅ تعداد {len(chunk_texts)} چانک ساخته شد.")
+        return chunk_texts, chunk_embeddings, embeddings_model
+chunk_texts, chunk_embeddings, embeddings_model = load_chunks_and_embeddings()
+# ------------------ ساخت مدل LLM ------------------
 llm = ChatOpenAI(
     base_url="https://api.together.xyz/v1",
     model="meta-llama/Llama-3.3-70B-Instruct-Turbo-Free"
 )
+# ------------------ تابع پاسخ به سوال از طریق نزدیک‌ترین چانک ------------------
+def answer_from_pdf(question):
+    # ۱- امبد سوال
+    question_embedding = embeddings_model.embed_query(question)
+    # ۲- شباهت پیدا کن
+    similarities = cosine_similarity(
+        [question_embedding],
+        chunk_embeddings
+    )
+    # ۳- نزدیک‌ترین چانک
+    best_idx = np.argmax(similarities)
+    best_chunk = chunk_texts[best_idx]
+    # ۴- ساخت پرامپت
+    prompt = f"""بر اساس متن زیر فقط به زبان فارسی پاسخ بده:
+    متن:
+    {best_chunk}
+    سوال:
+    {question}
+    پاسخ:"""
+    response = llm.invoke(prompt)
+    return response.content
+# ------------------ Chat Streamlit UI ------------------
+st.title('📚 چت با PDF')
 if 'messages' not in st.session_state:
     st.session_state.messages = []
 if 'pending_prompt' not in st.session_state:
     st.session_state.pending_prompt = None
+# نمایش هیستوری چت
 for msg in st.session_state.messages:
     with st.chat_message(msg['role']):
         st.markdown(f"🗨️ {msg['content']}", unsafe_allow_html=True)
+# گرفتن سوال از کاربر
+prompt = st.chat_input("سوال خود را وارد کنید...")
 if prompt:
     st.session_state.messages.append({'role': 'user', 'content': prompt})
     st.session_state.pending_prompt = prompt
     st.rerun()
+# وقتی سوال جدید داری
 if st.session_state.pending_prompt:
     with st.chat_message('ai'):
         thinking = st.empty()
+        thinking.markdown("🤖 در حال پردازش...")
+        # پاسخ بر اساس نزدیک‌ترین چانک
+        response = answer_from_pdf(st.session_state.pending_prompt)
+        answer = response.strip()
         if not answer:
+            answer = "متاسفم، اطلاعات دقیقی در این مورد ندارم."
         thinking.empty()
         full_response = ""
         placeholder = st.empty()
+        # تدریجی نشون دادن پاسخ
         for word in answer.split():
             full_response += word + " "
             placeholder.markdown(full_response + "▌")