Spaces:

M17idd
/

army

Running

App Files Files Community

M17idd commited on 5 days ago

Commit

7ee9982

verified ·

1 Parent(s): b5731b2

Update app.py

Browse files

Files changed (1) hide show

app.py +16 -12

app.py CHANGED Viewed

@@ -102,40 +102,44 @@ st.markdown("""
 # ----------------- لود PDF و ساخت ایندکس -----------------
 @st.cache_resource
 def get_pdf_index():
     with st.spinner('📄 در حال پردازش فایل PDF...'):
         # بارگذاری PDF
         loader = PyPDFLoader('test1.pdf')
         documents = loader.load_and_split()  # اینجا متن PDF را استخراج می‌کنیم
         model = TogetherEmbeddings(
             model_name="togethercomputer/m2-bert-80M-8k-retrieval",
             api_key="0291f33aee03412a47fa5d8e562e515182dcc5d9aac5a7fb5eefdd1759005979"
         )
         splitter = RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=0)
         texts = []
         for doc in documents:
-            texts.extend(splitter.split_text(doc.page_content))
-        progress_bar = st.progress(0)
-        total_docs = len(texts)
         embeddings = []
         batch_size = 512
-        for i in range(0, total_docs, batch_size):
             batch_texts = texts[i:i + batch_size]
             batch_embeddings = model.encode(batch_texts, convert_to_numpy=True)
             embeddings.extend(batch_embeddings)
-            progress_bar.progress(min((i + batch_size) / total_docs, 1.0))
         time.sleep(1)
-        progress_bar.empty()
-       return VectorstoreIndexCreator(
-            embedding=embeddings,
-            text_splitter=RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=0)
-        ).from_loaders(loader)
 # ----------------- تعریف LLM از Groq -----------------
 llm = ChatOpenAI(

 # ----------------- لود PDF و ساخت ایندکس -----------------
+@st.cache_resource
 @st.cache_resource
 def get_pdf_index():
     with st.spinner('📄 در حال پردازش فایل PDF...'):
         # بارگذاری PDF
         loader = PyPDFLoader('test1.pdf')
         documents = loader.load_and_split()  # اینجا متن PDF را استخراج می‌کنیم
+        # استفاده از مدل embeddings
         model = TogetherEmbeddings(
             model_name="togethercomputer/m2-bert-80M-8k-retrieval",
             api_key="0291f33aee03412a47fa5d8e562e515182dcc5d9aac5a7fb5eefdd1759005979"
         )
         splitter = RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=0)
         texts = []
         for doc in documents:
+            texts.extend(splitter.split_text(doc.page_content))  # دسترسی به متن از ویژگی page_content
+        # تولید امبدینگ‌ها
         embeddings = []
         batch_size = 512
+        for i in range(0, len(texts), batch_size):
             batch_texts = texts[i:i + batch_size]
             batch_embeddings = model.encode(batch_texts, convert_to_numpy=True)
             embeddings.extend(batch_embeddings)
+        # زمان دادن به progress bar برای خالی شدن
         time.sleep(1)
+        # تبدیل لیست embeddings به آرایه numpy
+        embeddings = np.array(embeddings)
+        # ایجاد ایندکس با استفاده از VectorstoreIndexCreator
+        return VectorstoreIndexCreator(
+            embedding_function=model.encode,  # استفاده از تابع انکودینگ برای تولید امبدینگ‌ها
+            text_splitter=splitter
+        ).from_texts(texts, embeddings=embeddings)
 # ----------------- تعریف LLM از Groq -----------------
 llm = ChatOpenAI(