Spaces:

M17idd
/

army

Running

M17idd commited on 4 days ago

Commit

a0c39f3

verified ·

1 Parent(s): b84e65e

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -13,6 +13,8 @@ from pydantic import Field
 import numpy as np
 from sentence_transformers import SentenceTransformer
 import faiss
 # ----------------- تنظیمات صفحه -----------------
 st.set_page_config(page_title="چت‌ بات توانا", page_icon="🪖", layout="wide")
@@ -103,22 +105,19 @@ def get_pdf_index():
         loader = PyPDFLoader('test1.pdf')
         documents = loader.load()
-        splitter = RecursiveCharacterTextSplitter(chunk_size=1024, chunk_overlap=256)
         texts = []
         for doc in documents:
             texts.extend(splitter.split_text(doc.page_content))
-        model = SentenceTransformer("togethercomputer/m2-bert-80M-8k-retrieval", trust_remote_code=True)
-        embeddings = model.encode(texts, convert_to_numpy=True)
-        index = faiss.IndexIVFFlat(embeddings.shape[1], 100)
-        index.train(embeddings)
-        index.add(embeddings)
-        docs = [{"text": text} for text in texts]
-        return docs, embeddings, index, model
 # ----------------- بارگذاری دیتا -----------------
 documents, embeddings, index, model = get_pdf_index()

 import numpy as np
 from sentence_transformers import SentenceTransformer
 import faiss
+from langchain.indexes import VectorstoreIndexCreator
+from langchain.vectorstores import FAISS
 # ----------------- تنظیمات صفحه -----------------
 st.set_page_config(page_title="چت‌ بات توانا", page_icon="🪖", layout="wide")
         loader = PyPDFLoader('test1.pdf')
         documents = loader.load()
+        splitter = RecursiveCharacterTextSplitter(chunk_size=2000, chunk_overlap=128)
         texts = []
         for doc in documents:
             texts.extend(splitter.split_text(doc.page_content))
+        vectorstore_index_creator = VectorstoreIndexCreator(
+            vectorstore_cls=FAISS,
+            embedding_function=SentenceTransformer("togethercomputer/m2-bert-80M-8k-retrieval", trust_remote_code=True)
+        )
+        index = vectorstore_index_creator.from_documents([Document(page_content=text) for text in texts])
+        return index
 # ----------------- بارگذاری دیتا -----------------
 documents, embeddings, index, model = get_pdf_index()