Spaces:

M17idd
/

army

Running

App Files Files Community

M17idd commited on 5 days ago

Commit

e3f5de5

verified ·

1 Parent(s): d5531f7

Update app.py

Browse files

Files changed (1) hide show

app.py +14 -37

app.py CHANGED Viewed

@@ -13,6 +13,8 @@ from typing import List
 from pydantic import Field
 from sentence_transformers import SentenceTransformer
 import numpy as np
 import faiss
 # ----------------- تنظیمات صفحه -----------------
@@ -99,47 +101,22 @@ st.markdown("""
 # ----------------- لود PDF و ساخت ایندکس -----------------
 @st.cache_resource
-def build_pdf_index():
-    with st.spinner('📄 در حال پردازش فایل ...'):
-        loader = PyPDFLoader("test1.pdf")
-        pages = loader.load()
-        splitter = RecursiveCharacterTextSplitter(
-            chunk_size=128,
-            chunk_overlap=50
-        )
-        texts = []
-        for page in pages:
-            texts.extend(splitter.split_text(page.page_content))
-        documents = [LangchainDocument(page_content=t) for t in texts]
-        sentence_model = SentenceTransformer("togethercomputer/m2-bert-80M-8k-retrieval", trust_remote_code=True)
-        progress_bar = st.progress(0)
-        total_docs = len(documents)
-        texts_to_encode = [doc.page_content for doc in documents]
-        batch_size = 128
-        embeddings = []
-        for i in range(0, total_docs, batch_size):
-            batch_texts = texts_to_encode[i:i+batch_size]
-            batch_embeddings = sentence_model.encode(batch_texts, convert_to_numpy=True)
-            embeddings.extend(batch_embeddings)
-            progress_bar.progress(min((i + batch_size) / total_docs, 1.0))
-        time.sleep(5)
-        progress_bar.empty()
-        embeddings = np.array(embeddings)
-        index = faiss.IndexFlatL2(embeddings.shape[1])
-        index.add(embeddings)
-        return documents, embeddings, index
 # ----------------- تعریف LLM از Groq -----------------
 llm = ChatOpenAI(

 from pydantic import Field
 from sentence_transformers import SentenceTransformer
 import numpy as np
+from langchain.vectorstores import VectorstoreIndexCreator
+from sentence_transformers import SentenceTransformer
 import faiss
 # ----------------- تنظیمات صفحه -----------------
 # ----------------- لود PDF و ساخت ایندکس -----------------
 @st.cache_resource
+@st.cache_resource
+def get_pdf_index():
+    with st.spinner('📄 در حال پردازش فایل PDF...'):
+        loader = [PyPDFLoader('test1.pdf')]
+        model_name = "togethercomputer/m2-bert-80M-8k-retrieval"
+        model = SentenceTransformer(model_name)
+        embeddings = model.encode
+        index_creator = VectorstoreIndexCreator(
+            embedding=embeddings,
+            text_splitter=RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=0)
+        )
+        return index_creator.from_loaders(loader)
 # ----------------- تعریف LLM از Groq -----------------
 llm = ChatOpenAI(