Spaces:

M17idd
/

army

Running

App Files Files Community

M17idd commited on 20 days ago

Commit

6cd7c63

verified ·

1 Parent(s): 607e019

Update app.py

Browse files

Files changed (1) hide show

app.py +36 -11

app.py CHANGED Viewed

@@ -107,23 +107,48 @@ class TogetherEmbeddings(Embeddings):
 @st.cache_resource
 def get_pdf_index():
     with st.spinner('📄 در حال پردازش فایل PDF...'):
         loader = [PyPDFLoader('test1.pdf')]
-        embeddings = TogetherEmbeddings(
-            model_name="togethercomputer/m2-bert-80M-32k-retrieval",
-            api_key="0291f33aee03412a47fa5d8e562e515182dcc5d9aac5a7fb5eefdd1759005979"
         )
-        return VectorstoreIndexCreator(
-                    embedding=embeddings,
-                    text_splitter=RecursiveCharacterTextSplitter(
-                        chunk_size=124,
-                        chunk_overlap=25
-                    )
-                ).from_loaders(loader)
 index = get_pdf_index()
 llm = ChatOpenAI(

 @st.cache_resource
 def get_pdf_index():
     with st.spinner('📄 در حال پردازش فایل PDF...'):
+        # لود کردن فایل PDF
         loader = [PyPDFLoader('test1.pdf')]
+        # لود کردن همه صفحات
+        pages = []
+        for l in loader:
+            pages.extend(l.load())
+        # پردازش کردن طول هر صفحه
+        processed_pages = []
+        splitter = RecursiveCharacterTextSplitter(
+            chunk_size=2000,
+            chunk_overlap=25
+        )
+        for page in pages:
+            text = page.page_content
+            if len(text) > 2000:
+                # اگر متن طولانی بود، خوردش کن
+                chunks = splitter.split_text(text)
+                for chunk in chunks:
+                    # ساختن شی جدید برای هر چانک
+                    processed_pages.append(type(page)(page_content=chunk))
+            else:
+                # اگر کوتاه بود، همونطور اضافه کن
+                processed_pages.append(page)
+        embeddings = TogetherEmbeddings(
+            model_name="togethercomputer/m2-bert-80M-32k-retrieval",
+            api_key="0291f33aee03412a47fa5d8e562e515182dcc5d9aac5a7fb5eefdd1759005979"
         )
+        # ساختن index از صفحات پردازش شده
+        return VectorstoreIndexCreator(
+            embedding=embeddings,
+            text_splitter=RecursiveCharacterTextSplitter(
+                chunk_size=2000,
+                chunk_overlap=25
+            )
+        ).from_documents(processed_pages)
+# فراخوانی
 index = get_pdf_index()
 llm = ChatOpenAI(