Spaces:

joortif
/

Spanish_constitution_chatbot

Sleeping

joortif commited on 14 days ago

Commit

af2fcf7

verified ·

1 Parent(s): 846e9a2

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -10,15 +10,20 @@ from huggingface_hub import InferenceClient
 from rerankers import Reranker
 import os
-loader = PyPDFLoader("Constitucion_española.pdf")
-documents = loader.load()
-text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
-docs_split = text_splitter.split_documents(documents)
-embedding_function = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
-vectordb = Chroma.from_documents(docs_split, embedding_function)
 client = InferenceClient("google/flan-t5-base", token=os.getenv("HUGGINGFACEHUB_API_TOKEN"))
@@ -51,14 +56,12 @@ def test_rag_reranking(query, ranker):
     print(f"📚 Contextos pasados al ranker: {len(context)}")
-    # ✅ Corregido: pasar solo lista de strings
     context_strings = [str(c) for c in context]
     #print(help(Reranker.models.ColBERTRanker.rank))
     reranked = ranker.rank(query=query, docs=context_strings)
     print(f"🏅 Resultado del reranker: {reranked}")
-    # ✅ Seguridad en el acceso al mejor contexto
     best_context = reranked[0].document.text
     print(f"🧠 Contexto elegido: {best_context[:500]}...")
@@ -67,8 +70,6 @@ def test_rag_reranking(query, ranker):
     return respuesta
 def responder_chat(message, history):
     respuesta = test_rag_reranking(message, ranker)
     return respuesta

 from rerankers import Reranker
 import os
+embedding_function = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
+persist_directory = "db"
+if not os.path.exists(persist_directory):
+    loader = PyPDFLoader("Constitucion_española.pdf")
+    documents = loader.load()
+    text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
+    docs_split = text_splitter.split_documents(documents)
+    vectordb = Chroma.from_documents(docs_split, embedding_function, persist_directory=persist_directory)
+    vectordb.persist()
+else:
+    vectordb = Chroma(persist_directory=persist_directory, embedding_function=embedding_function)
 client = InferenceClient("google/flan-t5-base", token=os.getenv("HUGGINGFACEHUB_API_TOKEN"))
     print(f"📚 Contextos pasados al ranker: {len(context)}")
     context_strings = [str(c) for c in context]
     #print(help(Reranker.models.ColBERTRanker.rank))
     reranked = ranker.rank(query=query, docs=context_strings)
     print(f"🏅 Resultado del reranker: {reranked}")
     best_context = reranked[0].document.text
     print(f"🧠 Contexto elegido: {best_context[:500]}...")
     return respuesta
 def responder_chat(message, history):
     respuesta = test_rag_reranking(message, ranker)
     return respuesta