Spaces:

M17idd
/

army

Running

M17idd commited on 6 days ago

Commit

b5731b2

verified ·

1 Parent(s): 0f1a411

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -108,16 +108,15 @@ def get_pdf_index():
         # بارگذاری PDF
         loader = PyPDFLoader('test1.pdf')
         documents = loader.load_and_split()  # اینجا متن PDF را استخراج می‌کنیم
-        # استفاده از مدل SentenceTransformer
-        model_name = "togethercomputer/m2-bert-80M-8k-retrieval"  # نام مدل
-        model = SentenceTransformer(model_name, trust_remote_code=True)
         splitter = RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=0)
         texts = []
         for doc in documents:
-            texts.extend(splitter.split_text(doc.page_content))  # تقسیم متن به تکه‌های کوچک‌تر
         progress_bar = st.progress(0)
         total_docs = len(texts)
@@ -133,13 +132,10 @@ def get_pdf_index():
         time.sleep(1)
         progress_bar.empty()
-        embeddings = np.array(embeddings)
-        index = faiss.IndexFlatL2(embeddings.shape[1])  # ایجاد ایندکس با استفاده از faiss
-        index.add(embeddings)
-        # استفاده از VectorstoreIndexCreator
-        return documents, embeddings, index  # بازگشت به اسناد و ایندکس
 # ----------------- تعریف LLM از Groq -----------------
 llm = ChatOpenAI(

         # بارگذاری PDF
         loader = PyPDFLoader('test1.pdf')
         documents = loader.load_and_split()  # اینجا متن PDF را استخراج می‌کنیم
+        model = TogetherEmbeddings(
+            model_name="togethercomputer/m2-bert-80M-8k-retrieval",
+            api_key="0291f33aee03412a47fa5d8e562e515182dcc5d9aac5a7fb5eefdd1759005979"
+        )
         splitter = RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=0)
         texts = []
         for doc in documents:
+            texts.extend(splitter.split_text(doc.page_content))
         progress_bar = st.progress(0)
         total_docs = len(texts)
         time.sleep(1)
         progress_bar.empty()
+       return VectorstoreIndexCreator(
+            embedding=embeddings,
+            text_splitter=RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=0)
+        ).from_loaders(loader)
 # ----------------- تعریف LLM از Groq -----------------
 llm = ChatOpenAI(