Spaces:

M17idd
/

army

Running

App Files Files Community

M17idd commited on 4 days ago

Commit

8f34ab2

verified ·

1 Parent(s): ff5a162

Update app.py

Browse files

Files changed (1) hide show

app.py +35 -32

app.py CHANGED Viewed

@@ -11,39 +11,42 @@ from sklearn.metrics.pairwise import cosine_similarity
 # ------------------ بارگذاری چانک‌ها و امبدینگ‌ها ------------------
 @st.cache_resource
-def load_chunks_and_embeddings():
-    embeddings_file = 'embeddings.pkl'
-    if os.path.exists(embeddings_file):
-        st.success("✅ امبدینگ‌ها از فایل کش بارگذاری شد.")
-        with open(embeddings_file, 'rb') as f:
-            data = pickle.load(f)
-        return data['chunk_texts'], data['chunk_embeddings'], data['embeddings_model']
-    else:
-        with st.spinner('📄 در حال پردازش PDF و ساخت امبدینگ‌ها...'):
-            loader = PyPDFLoader('test1.pdf')
-            pages = loader.load()
-            splitter = RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=0)
-            chunks = splitter.split_documents(pages)
-            embeddings_model = TogetherEmbeddings(
-                api_key="0291f33aee03412a47fa5d8e562e515182dcc5d9aac5a7fb5eefdd1759005979"
-            )
-            chunk_texts = [chunk.page_content for chunk in chunks]
-            # ساخت امبدینگ با progress bar
-            progress = st.progress(0, text="در حال ساخت امبدینگ چانک‌ها...")
-            chunk_embeddings = []
-            batch_size = 50
-            for i in range(0, len(chunk_texts), batch_size):
-                batch_texts = chunk_texts[i:i+batch_size]
-                batch_embeds = embeddings_model.embed_documents(batch_texts)
-                chunk_embeddings.extend(batch_embeds)
-                progress.progress((i + batch_size) / len(chunk_texts))
             # ذخیره در فایل کش
             with open(embeddings_file, 'wb') as f:

 # ------------------ بارگذاری چانک‌ها و امبدینگ‌ها ------------------
+# --- کش کردن امبدینگ‌ها فقط بار اول ---
 @st.cache_resource
+def get_embeddings_and_chunks():
+    # بارگذاری پی دی اف و اسپلیت چانک
+    pdf_loader = PyPDFLoader('test1.pdf')
+    pages = pdf_loader.load_and_split(RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=0))
+    chunk_texts = [page.page_content for page in pages]
+    # ساخت امبدینگ برای کل چانک‌ها
+    embeddings = TogetherEmbeddings(
+        api_key="0291f33aee03412a47fa5d8e562e515182dcc5d9aac5a7fb5eefdd1759005979"
+    )
+    return chunk_texts, embeddings
+# --- نمایش progress بیرون از کش ---
+chunk_texts, embeddings = get_embeddings_and_chunks()
+progress_bar = st.progress(0)
+# حالا شروع به پردازش با آپدیت پروگرس بار
+all_embeddings = []
+batch_size = 5
+for i in range(0, len(chunk_texts), batch_size):
+    batch = chunk_texts[i:i+batch_size]
+    embedded_batch = embeddings.embed_documents(batch)
+    all_embeddings.extend(embedded_batch)
+    # آپدیت پروگرس بار
+    progress_bar.progress(min((i + batch_size) / len(chunk_texts), 1.0))
+st.success("✅ امبدینگ چانک‌ها با موفقیت ساخته شد!")
+# حالا این all_embeddings رو داری، میتونی بندازی تو index
             # ذخیره در فایل کش
             with open(embeddings_file, 'wb') as f: