Spaces:

M17idd
/

army

Running

App Files Files Community

M17idd commited on 13 days ago

Commit

b877134

verified ·

1 Parent(s): 9923628

Update app.py

Browse files

Files changed (1) hide show

app.py +7 -16

app.py CHANGED Viewed

@@ -11,11 +11,7 @@ from langchain.chat_models import ChatOpenAI
 from typing import List
 from together import Together
-import streamlit as st
-import tiktoken
-from langchain.document_loaders import PyPDFLoader
-from langchain.text_splitter import RecursiveCharacterTextSplitter
-from langchain.vectorstores import VectorstoreIndexCreator
 from langchain.embeddings import TogetherEmbeddings
 from langchain.schema import Document as LangchainDocument
@@ -140,16 +136,14 @@ def get_pdf_index():
             else:
                 small_chunks.append(text)
-        # حالا چک واقعی بر اساس تعداد توکن
         final_chunks = []
-        max_tokens = 2000  # حداکثر توکن مجاز برای Together
         for chunk in small_chunks:
             token_count = count_tokens(chunk, model_name="gpt-3.5-turbo")
             if token_count > max_tokens:
-                # اگر چانک بزرگ بود، خوردش کن
                 splitter_token_safe = RecursiveCharacterTextSplitter(
-                    chunk_size=1000,  # یا هر چیزی که مطمئن شی توکنش زیر 2000 میمونه
                     chunk_overlap=100
                 )
                 smaller_chunks = splitter_token_safe.split_text(chunk)
@@ -164,13 +158,10 @@ def get_pdf_index():
             api_key="0291f33aee03412a47fa5d8e562e515182dcc5d9aac5a7fb5eefdd1759005979"
         )
-        return VectorstoreIndexCreator(
-            embedding=embeddings,
-            text_splitter=RecursiveCharacterTextSplitter(
-                chunk_size=1000,
-                chunk_overlap=100
-            )
-        ).from_documents(documents)
 index = get_pdf_index()

 from typing import List
 from together import Together
 from langchain.embeddings import TogetherEmbeddings
 from langchain.schema import Document as LangchainDocument
             else:
                 small_chunks.append(text)
         final_chunks = []
+        max_tokens = 2000
         for chunk in small_chunks:
             token_count = count_tokens(chunk, model_name="gpt-3.5-turbo")
             if token_count > max_tokens:
                 splitter_token_safe = RecursiveCharacterTextSplitter(
+                    chunk_size=1000,
                     chunk_overlap=100
                 )
                 smaller_chunks = splitter_token_safe.split_text(chunk)
             api_key="0291f33aee03412a47fa5d8e562e515182dcc5d9aac5a7fb5eefdd1759005979"
         )
+        # اینجا دیگه Vectorstore مستقیم میسازیم با FAISS
+        vectordb = FAISS.from_documents(documents, embedding=embeddings)
+        return vectordb
 index = get_pdf_index()