Spaces:

M17idd
/

army

Running

App Files Files Community

M17idd commited on 15 days ago

Commit

6f50fa8

verified ·

1 Parent(s): 658735d

Update app.py

Browse files

Files changed (1) hide show

app.py +21 -21

app.py CHANGED Viewed

@@ -102,14 +102,19 @@ st.markdown("""
 """, unsafe_allow_html=True)
-class TogetherEmbeddings(Embeddings):
-    def __init__(self, model_name: str, api_key: str):
-        self.model_name = model_name
-        self.client = Together(api_key=api_key)
     def embed_documents(self, texts: List[str]) -> List[List[float]]:
-        response = self.client.embeddings.create(model=self.model_name, input=texts)
-        return [item.embedding for item in response.data]
     def embed_query(self, text: str) -> List[float]:
         return self.embed_documents([text])[0]
@@ -118,25 +123,21 @@ class TogetherEmbeddings(Embeddings):
 def get_pdf_index():
     with st.spinner('📄 در حال پردازش فایل PDF...'):
         loader = PyPDFLoader('test1.pdf')
-        pages = loader.load()
         full_text = "\n".join([page.page_content for page in pages])
         text_splitter = RecursiveCharacterTextSplitter(
-            chunk_size=2048,
-            chunk_overlap=256
         )
         texts = text_splitter.split_text(full_text)
-        embeddings = TogetherEmbeddings(
-            model_name="togethercomputer/m2-bert-80M-8k-retrieval",
-            api_key="0291f33aee03412a47fa5d8e562e515182dcc5d9aac5a7fb5eefdd1759005979"
         )
-        vectorstore = FAISS.from_texts(texts, embeddings)
-        return vectorstore
 index = get_pdf_index()
@@ -191,4 +192,3 @@ if st.session_state.pending_prompt:
         placeholder.markdown(full_response)
         st.session_state.messages.append({'role': 'ai', 'content': full_response})
         st.session_state.pending_prompt = None

 """, unsafe_allow_html=True)
+class HuggingFaceEmbeddings(Embeddings):
+    def __init__(self, model_name: str):
+        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
+        self.model = AutoModel.from_pretrained(model_name)
     def embed_documents(self, texts: List[str]) -> List[List[float]]:
+        embeddings = []
+        for text in texts:
+            inputs = self.tokenizer(text, return_tensors="pt", truncation=True, padding=True)
+            with torch.no_grad():
+                outputs = self.model(**inputs)
+            embeddings.append(outputs.last_hidden_state.mean(dim=1).squeeze().tolist())
+        return embeddings
     def embed_query(self, text: str) -> List[float]:
         return self.embed_documents([text])[0]
 def get_pdf_index():
     with st.spinner('📄 در حال پردازش فایل PDF...'):
         loader = PyPDFLoader('test1.pdf')
         full_text = "\n".join([page.page_content for page in pages])
         text_splitter = RecursiveCharacterTextSplitter(
+            chunk_size=1024,
+            chunk_overlap=128
         )
         texts = text_splitter.split_text(full_text)
+        embeddings = HuggingFaceEmbeddings(
+            model_name="bert-base-uncased"
         )
+        return VectorstoreIndexCreator(
+            embedding=embeddings,
+            text_splitter=text_splitter
+        ).from_texts(texts)
 index = get_pdf_index()
         placeholder.markdown(full_response)
         st.session_state.messages.append({'role': 'ai', 'content': full_response})
         st.session_state.pending_prompt = None