Spaces:

M17idd
/

army

Running

App Files Files Community

M17idd commited on 5 days ago

Commit

1e42623

verified ·

1 Parent(s): e3f5de5

Update app.py

Browse files

Files changed (1) hide show

app.py +41 -9

app.py CHANGED Viewed

@@ -17,6 +17,7 @@ from langchain.vectorstores import VectorstoreIndexCreator
 from sentence_transformers import SentenceTransformer
 import faiss
 # ----------------- تنظیمات صفحه -----------------
 st.set_page_config(page_title="چت‌ بات توانا", page_icon="🪖", layout="wide")
@@ -100,23 +101,51 @@ st.markdown("""
 # ----------------- لود PDF و ساخت ایندکس -----------------
-@st.cache_resource
 @st.cache_resource
 def get_pdf_index():
     with st.spinner('📄 در حال پردازش فایل PDF...'):
         loader = [PyPDFLoader('test1.pdf')]
-        model_name = "togethercomputer/m2-bert-80M-8k-retrieval"
         model = SentenceTransformer(model_name)
-        embeddings = model.encode
-        index_creator = VectorstoreIndexCreator(
-            embedding=embeddings,
-            text_splitter=RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=0)
-        )
-        return index_creator.from_loaders(loader)
 # ----------------- تعریف LLM از Groq -----------------
 llm = ChatOpenAI(
@@ -125,6 +154,7 @@ llm = ChatOpenAI(
     model="meta-llama/Llama-3.3-70B-Instruct-Turbo-Free"
 )
 # ----------------- تعریف SimpleRetriever -----------------
 class SimpleRetriever(BaseRetriever):
     documents: List[Document] = Field(...)
@@ -135,12 +165,14 @@ class SimpleRetriever(BaseRetriever):
         sentence_model = SentenceTransformer("togethercomputer/m2-bert-80M-8k-retrieval", trust_remote_code=True)
         query_embedding = sentence_model.encode(query, convert_to_numpy=True)
         _, indices = self.index.search(np.expand_dims(query_embedding, axis=0), 5)  # پیدا کردن 5 سند مشابه
         return [self.documents[i] for i in indices[0]]
 # ----------------- ساخت Index -----------------
-documents, embeddings, index = build_pdf_index()
 retriever = SimpleRetriever(documents=documents, embeddings=embeddings, index=index)
 # ----------------- ساخت Chain -----------------

 from sentence_transformers import SentenceTransformer
 import faiss
 # ----------------- تنظیمات صفحه -----------------
 st.set_page_config(page_title="چت‌ بات توانا", page_icon="🪖", layout="wide")
 # ----------------- لود PDF و ساخت ایندکس -----------------
 @st.cache_resource
 def get_pdf_index():
     with st.spinner('📄 در حال پردازش فایل PDF...'):
+        # بارگذاری فایل PDF
         loader = [PyPDFLoader('test1.pdf')]
+        # بارگذاری مدل از Hugging Face
+        model_name = "togethercomputer/m2-bert-80M-8k-retrieval"  # مدل مورد نظر از Hugging Face
         model = SentenceTransformer(model_name)
+        # تقسیم متن‌ها به بخش‌های کوچک
+        splitter = RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=0)
+        texts = []
+        for doc in loader:
+            texts.extend(splitter.split_text(doc.page_content))
+        # مقداردهی اولیه پروسه بار
+        progress_bar = st.progress(0)
+        total_docs = len(texts)
+        embeddings = []
+        batch_size = 128
+        for i in range(0, total_docs, batch_size):
+            batch_texts = texts[i:i+batch_size]
+            batch_embeddings = model.encode(batch_texts, convert_to_numpy=True)
+            embeddings.extend(batch_embeddings)
+            # به‌روزرسانی پروسه بار
+            progress_bar.progress(min((i + batch_size) / total_docs, 1.0))
+        # اضافه کردن تاخیر برای تکمیل پروسه بار
+        time.sleep(1)
+        progress_bar.empty()
+        # ساخت ایندکس با استفاده از FAISS
+        embeddings = np.array(embeddings)
+        index = faiss.IndexFlatL2(embeddings.shape[1])  # ایندکس FAISS
+        index.add(embeddings)
+        # بازگشت ایندکس
+        return VectorstoreIndexCreator(
+            embedding=model.encode,
+            text_splitter=splitter
+        ).from_loaders(loader)
 # ----------------- تعریف LLM از Groq -----------------
 llm = ChatOpenAI(
     model="meta-llama/Llama-3.3-70B-Instruct-Turbo-Free"
 )
 # ----------------- تعریف SimpleRetriever -----------------
 class SimpleRetriever(BaseRetriever):
     documents: List[Document] = Field(...)
         sentence_model = SentenceTransformer("togethercomputer/m2-bert-80M-8k-retrieval", trust_remote_code=True)
         query_embedding = sentence_model.encode(query, convert_to_numpy=True)
+        # جستجوی اسناد مشابه
         _, indices = self.index.search(np.expand_dims(query_embedding, axis=0), 5)  # پیدا کردن 5 سند مشابه
         return [self.documents[i] for i in indices[0]]
 # ----------------- ساخت Index -----------------
+documents, embeddings, index = get_pdf_index()
 retriever = SimpleRetriever(documents=documents, embeddings=embeddings, index=index)
 # ----------------- ساخت Chain -----------------