Spaces:

M17idd
/

army

Running

App Files Files Community

M17idd commited on 20 days ago

Commit

d7b5058

verified ·

1 Parent(s): 6cd7c63

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -20

app.py CHANGED Viewed

@@ -107,48 +107,58 @@ class TogetherEmbeddings(Embeddings):
 @st.cache_resource
 def get_pdf_index():
     with st.spinner('📄 در حال پردازش فایل PDF...'):
-        # لود کردن فایل PDF
         loader = [PyPDFLoader('test1.pdf')]
-        # لود کردن همه صفحات
         pages = []
         for l in loader:
             pages.extend(l.load())
-        # پردازش کردن طول هر صفحه
-        processed_pages = []
-        splitter = RecursiveCharacterTextSplitter(
-            chunk_size=2000,
             chunk_overlap=25
         )
         for page in pages:
             text = page.page_content
-            if len(text) > 2000:
-                # اگر متن طولانی بود، خوردش کن
-                chunks = splitter.split_text(text)
-                for chunk in chunks:
-                    # ساختن شی جدید برای هر چانک
-                    processed_pages.append(type(page)(page_content=chunk))
             else:
-                # اگر کوتاه بود، همونطور اضافه کن
-                processed_pages.append(page)
         embeddings = TogetherEmbeddings(
             model_name="togethercomputer/m2-bert-80M-32k-retrieval",
             api_key="0291f33aee03412a47fa5d8e562e515182dcc5d9aac5a7fb5eefdd1759005979"
         )
-        # ساختن index از صفحات پردازش شده
         return VectorstoreIndexCreator(
             embedding=embeddings,
             text_splitter=RecursiveCharacterTextSplitter(
                 chunk_size=2000,
-                chunk_overlap=25
             )
-        ).from_documents(processed_pages)
-# فراخوانی
 index = get_pdf_index()
 llm = ChatOpenAI(

 @st.cache_resource
 def get_pdf_index():
     with st.spinner('📄 در حال پردازش فایل PDF...'):
+        # لود فایل
         loader = [PyPDFLoader('test1.pdf')]
         pages = []
         for l in loader:
             pages.extend(l.load())
+        # اول چانک کردن عادی با سایز 124
+        splitter_initial = RecursiveCharacterTextSplitter(
+            chunk_size=124,
             chunk_overlap=25
         )
+        small_chunks = []
         for page in pages:
             text = page.page_content
+            if len(text) > 124:
+                small_chunks.extend(splitter_initial.split_text(text))
             else:
+                small_chunks.append(text)
+        # حالا چک کنیم هیچ چانکی بیشتر از 3000 کاراکتر نباشه
+        final_chunks = []
+        final_splitter = RecursiveCharacterTextSplitter(
+            chunk_size=2000,
+            chunk_overlap=200
+        )
+        for chunk in small_chunks:
+            if len(chunk) > 2000:
+                final_chunks.extend(final_splitter.split_text(chunk))
+            else:
+                final_chunks.append(chunk)
+        # آماده سازی اسناد برای index
+        from langchain.schema import Document as LangchainDocument
+        documents = [LangchainDocument(page_content=text) for text in final_chunks]
+        # ساختن embedding
         embeddings = TogetherEmbeddings(
             model_name="togethercomputer/m2-bert-80M-32k-retrieval",
             api_key="0291f33aee03412a47fa5d8e562e515182dcc5d9aac5a7fb5eefdd1759005979"
         )
+        # ساختن ایندکس
         return VectorstoreIndexCreator(
             embedding=embeddings,
             text_splitter=RecursiveCharacterTextSplitter(
                 chunk_size=2000,
+                chunk_overlap=200
             )
+        ).from_documents(documents)
 index = get_pdf_index()
 llm = ChatOpenAI(