Spaces:

melk2025
/

Chatbot

Running

melk2025 commited on about 10 hours ago

Commit

37bc19c

verified ·

1 Parent(s): c572f39

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -50,7 +50,8 @@ collection = client.get_or_create_collection(
 embedding_model = SentenceTransformer("intfloat/multilingual-e5-base")
 # Initialize the text splitter
-text_splitter = RecursiveCharacterTextSplitter(chunk_size=1200, chunk_overlap=300)
 total_chunks = 0
@@ -120,7 +121,7 @@ def rerank_with_bm25(docs, query):
     tokenized_query = clean_and_tokenize(query, lang)
     scores = bm25.get_scores(tokenized_query)
-    top_indices = sorted(range(len(scores)), key=lambda i: scores[i], reverse=True)[:2]
     return [docs[i] for i in top_indices]

 embedding_model = SentenceTransformer("intfloat/multilingual-e5-base")
 # Initialize the text splitter
+#text_splitter = RecursiveCharacterTextSplitter(chunk_size=1200, chunk_overlap=300)
+text_splitter = RecursiveCharacterTextSplitter(chunk_size=800, chunk_overlap=200)
 total_chunks = 0
     tokenized_query = clean_and_tokenize(query, lang)
     scores = bm25.get_scores(tokenized_query)
+    top_indices = sorted(range(len(scores)), key=lambda i: scores[i], reverse=True)[:3]
     return [docs[i] for i in top_indices]