Spaces:

Lhumpal
/

beast-llm

Sleeping

Lhumpal commited on Mar 27

Commit

cb76d80

verified ·

1 Parent(s): 7c0b37b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -19,9 +19,9 @@ google_api_key = os.environ.get("GOOGLE_API_KEY")
 login(token=hf_token)
-def chunk_text(text, chunk_size=50, chunk_overlap=10):
     splitter = RecursiveCharacterTextSplitter(
-        chunk_size=chunk_size, chunk_overlap=chunk_overlap, separators=[" ", "\n"]
     )
     chunks = splitter.split_text(text)
     return chunks
@@ -56,7 +56,7 @@ concise_text = dataset["concise"]["text"]
 concise_text_string = "".join(concise_text)
 # Chunk and index the documents
-chunks = chunk_text(concise_text_string, chunk_size=30)  # chunks are 30 words each
 # Build the vectorsore
 vectorstore = build_faiss_vectorstore(chunks)

 login(token=hf_token)
+def chunk_text(text, chunk_size=250, chunk_overlap=50):
     splitter = RecursiveCharacterTextSplitter(
+        chunk_size=chunk_size, chunk_overlap=chunk_overlap, separators=[" ", "\n", "."]
     )
     chunks = splitter.split_text(text)
     return chunks
 concise_text_string = "".join(concise_text)
 # Chunk and index the documents
+chunks = chunk_text(concise_text_string, chunk_size=300)  # chunks are 30 words each
 # Build the vectorsore
 vectorstore = build_faiss_vectorstore(chunks)