Spaces:

M17idd
/

army

Running

App Files Files Community

M17idd commited on 4 days ago

Commit

324f762

verified ·

1 Parent(s): 99ed84f

Update app.py

Browse files

Files changed (1) hide show

app.py +21 -45

app.py CHANGED Viewed

@@ -6,67 +6,43 @@ from langchain_together import TogetherEmbeddings
 from langchain.vectorstores import FAISS
 from langchain.chat_models import ChatOpenAI
 from langchain.chains import RetrievalQA
-# --- 📄 ساخت امبدینگ‌ها با batch 50 تایی
-def batch_embed(texts, embeddings_model, batch_size=50):
-    all_embeddings = []
-    for i in range(0, len(texts), batch_size):
-        batch = texts[i:i+batch_size]
-        embs = embeddings_model.embed_documents([doc.page_content for doc in batch])
-        all_embeddings.extend(embs)
-    return all_embeddings
 @st.cache_resource
 def load_chunks_and_embeddings():
-    pdf_loader = PyPDFLoader('test1.pdf')
-    pages = pdf_loader.load()
-    text_splitter = RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=0)
-    docs = text_splitter.split_documents(pages)
-    embeddings = TogetherEmbeddings(
-        api_key="0291f33aee03412a47fa5d8e562e515182dcc5d9aac5a7fb5eefdd1759005979"
-    )
-    vectorstore = None  # هنوز نساختیم
-    # پروگرس بار
-    progress = st.progress(0, text="🔄 در حال پردازش چانک‌ها...")
-    total = len(docs)
-    batch_size = 50
-    for i in range(0, total, batch_size):
-        batch_docs = docs[i:i+batch_size]
-        embeddings_batch = embeddings.embed_documents([doc.page_content for doc in batch_docs])
-        if vectorstore is None:
-            vectorstore = FAISS.from_embeddings(embeddings_batch, batch_docs)
-        else:
-            vectorstore.add_embeddings(embeddings_batch, batch_docs)
-        progress.progress(min((i+batch_size)/total, 1.0))
-    progress.empty()
-    return vectorstore
-# --- 🛠️ آماده کردن دیتابیس
-with st.spinner("📚 در حال بارگذاری فایل و ساخت امبدینگ‌ها... لطفا صبور باشید"):
-    vectorstore = load_chunks_and_embeddings()
-# --- 🤖 آماده سازی مدل LLM
 llm = ChatOpenAI(
     base_url="https://api.together.xyz/v1",
     api_key='0291f33aee03412a47fa5d8e562e515182dcc5d9aac5a7fb5eefdd1759005979',
     model="meta-llama/Llama-3-70B-Instruct-Turbo-Free"
 )
-retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 10})
 chain = RetrievalQA.from_chain_type(
-    llm=llm,
-    chain_type='stuff',
-    retriever=retriever,
-    input_key='question'
-)
 # --- 💬 چت بات
 if 'messages' not in st.session_state:

 from langchain.vectorstores import FAISS
 from langchain.chat_models import ChatOpenAI
 from langchain.chains import RetrievalQA
+from langchain.indexes import VectorstoreIndexCreator
 @st.cache_resource
 def load_chunks_and_embeddings():
+    with st.spinner("در حال بارگذاری فایل و آماده‌سازی... لطفاً صبور باشید 🙏"):
+        progress_bar = st.progress(0, text="در حال بارگذاری فایل PDF...")
+        pdf_loader = PyPDFLoader('test1.pdf')
+        pages = pdf_loader.load()
+        progress_bar.progress(30, text="صفحات PDF بارگذاری شد. در حال ایجاد مدل برداری...")
+        embeddings = TogetherEmbeddings(
+            api_key="0291f33aee03412a47fa5d8e562e515182dcc5d9aac5a7fb5eefdd1759005979"
+        )
+        progress_bar.progress(60, text="مدل Embedding ساخته شد. در حال ایجاد ایندکس...")
+        index = VectorstoreIndexCreator(
+            embedding=embeddings,
+            text_splitter=RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=0)
+        ).from_loaders([pdf_loader])
+        progress_bar.progress(100, text="بارگذاری کامل شد! ✅")
+    return index
 llm = ChatOpenAI(
     base_url="https://api.together.xyz/v1",
     api_key='0291f33aee03412a47fa5d8e562e515182dcc5d9aac5a7fb5eefdd1759005979',
     model="meta-llama/Llama-3-70B-Instruct-Turbo-Free"
 )
+index = load_chunks_and_embeddings()
 chain = RetrievalQA.from_chain_type(
+  llm=llm,
+  chain_type='stuff',
+  retriever=index.vectorstore.as_retriever(), input_key='question')
 # --- 💬 چت بات
 if 'messages' not in st.session_state: