Spaces:

M17idd
/

army

Running

App Files Files Community

M17idd commited on 15 days ago

Commit

4b02dd0

verified ·

1 Parent(s): 3b67807

Update app.py

Browse files

Files changed (1) hide show

app.py +6 -41

app.py CHANGED Viewed

@@ -12,6 +12,7 @@ from together import Together
 from transformers import AutoTokenizer, AutoModelForCausalLM
 from transformers import AutoTokenizer, AutoModel
 import torch
 import streamlit as st
@@ -125,47 +126,11 @@ class HuggingFaceEmbeddings(Embeddings):
         return self.embed_documents([text])[0]
 @st.cache_resource
-def get_pdf_index():
-    with st.spinner('📄 در حال پردازش فایل PDF...'):
-        # بارگذاری فایل PDF
-        loader = PyPDFLoader('test1.pdf')
-        pages = loader.load()
-        # تقسیم صفحات به دسته‌های ۵ تایی
-        batch_size = 338  # پردازش ۵ صفحه در هر بار
-        all_texts = []
-        progress = st.progress(0)  # نوار پیشرفت
-        total_batches = len(pages) // batch_size + (1 if len(pages) % batch_size != 0 else 0)  # تعداد دسته‌ها
-        # پردازش هر دسته
-        for i in range(0, len(pages), batch_size):
-            batch = pages[i:i + batch_size]
-            batch_text = "\n".join([page.page_content for page in batch])
-            all_texts.append(batch_text)
-            # به‌روزرسانی نوار پیشرفت
-            progress.progress((i // batch_size + 1) / total_batches)
-            time.sleep(0.5)  # شبیه‌سازی زمان پردازش
-        # ترکیب تمام متن‌ها برای پردازش بیشتر
-        full_text = "\n".join(all_texts)
-        # تقسیم متن به بخش‌ها
-        text_splitter = RecursiveCharacterTextSplitter(
-            chunk_size=1024,  # اندازه هر بخش
-            chunk_overlap=128  # هم‌پوشانی بین بخش‌ها
-        )
-        texts = text_splitter.split_text(full_text)
-        # ایجاد انتشارات
-        embeddings = HuggingFaceEmbeddings(model_name="FacebookAI/xlm-roberta-large")
-        # ایجاد FAISS vector store
-        vector_store = FAISS.from_texts(texts, embeddings)
-        return vector_store
 index = get_pdf_index()
 llm = ChatOpenAI(

 from transformers import AutoTokenizer, AutoModelForCausalLM
 from transformers import AutoTokenizer, AutoModel
 import torch
+from langchain_community.embeddings import HuggingFaceInstructEmbeddings
 import streamlit as st
         return self.embed_documents([text])[0]
 @st.cache_resource
+def get_pdf_text(pdf_docs='C:/Users/itel/Desktop/your work data.pdf'):
+  pdf_reader = [PyPDFLoader(pdf_docs)]
+  embeddings = HuggingFaceInstructEmbeddings(model_name="SajjadAyoubi/xlm-roberta-large-fa-qa")
+  index  = VectorstoreIndexCreator( embedding=embeddings, text_splitter=RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=0)).from_loaders(pdf_reader)
+  return index
 index = get_pdf_index()
 llm = ChatOpenAI(