Spaces:

pmelnechuk
/

MathQA

Sleeping

App Files Files Community

pmelnechuk commited on Feb 18

Commit

39caf86

verified ·

1 Parent(s): 3c41f93

Update app.py

Browse files

Files changed (1) hide show

app.py +2 -15

app.py CHANGED Viewed

@@ -5,13 +5,11 @@ Este script realiza las siguientes tareas:
 3. Genera representaciones vectoriales de los textos utilizando `sentence-transformers`.
 4. Almacena los vectores en una base de datos Chroma para su posterior recuperación.
 5. Inicializa un modelo y ejecuta una interfaz para interactuar con los datos procesados.
 Módulos utilizados:
 - `preprocess`: Contiene la clase `Loader` para la carga y preprocesamiento de documentos.
 - `vdb`: Se asume que gestiona la base de datos vectorial.
 - `model_load`: Módulo para cargar el modelo de machine learning.
 - `st`: Se asume que proporciona la interfaz de usuario.
 Estructura del código:
 1. Define el directorio de los archivos a procesar.
 2. Carga los archivos y los procesa si el número de archivos es menor a 2.
@@ -20,7 +18,6 @@ Estructura del código:
 5. Almacena los embeddings en ChromaDB y configura un recuperador basado en similitud.
 6. Carga el modelo de machine learning.
 7. Inicia la interfaz de usuario..
 """
 #from langchain.vectorstores import Chroma
 from langchain_chroma import Chroma
@@ -30,7 +27,6 @@ from src.preprocess import Loader
 from src.vdb import EmbeddingGen
 import src.model_load
 import src.st
-import os
 if __name__=="__main__":
     # Definición de directorio
@@ -53,20 +49,11 @@ if __name__=="__main__":
     # Generación de embeddings y almacenamiento en base de datos ChromaDB
     embeddings = EmbeddingGen("sentence-transformers/all-MiniLM-L12-v2")
-    db = Chroma(embedding_function=embeddings.embed_documents)
-    # Define la ruta donde deseas guardar el vector store
-    vectorstore = db.from_documents(textos, embeddings.embed_documents)
-    print("Vectorizado terminado")
-    # Convierte el vector store en un recuperador (retriever) de similaridad
-    retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 3})
-    # Guarda el vector store para que persista entre ejecuciones
-    vectorstore.persist()
     print("Vectorizado terminado")
     retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 3})
     print("Carga del modelo")
     # Carga del modelo y ejecución de la interfaz
     src.model_load.load_model()
     print("Lanzando interfaz")
-    src.st.interfaz()

 3. Genera representaciones vectoriales de los textos utilizando `sentence-transformers`.
 4. Almacena los vectores en una base de datos Chroma para su posterior recuperación.
 5. Inicializa un modelo y ejecuta una interfaz para interactuar con los datos procesados.
 Módulos utilizados:
 - `preprocess`: Contiene la clase `Loader` para la carga y preprocesamiento de documentos.
 - `vdb`: Se asume que gestiona la base de datos vectorial.
 - `model_load`: Módulo para cargar el modelo de machine learning.
 - `st`: Se asume que proporciona la interfaz de usuario.
 Estructura del código:
 1. Define el directorio de los archivos a procesar.
 2. Carga los archivos y los procesa si el número de archivos es menor a 2.
 5. Almacena los embeddings en ChromaDB y configura un recuperador basado en similitud.
 6. Carga el modelo de machine learning.
 7. Inicia la interfaz de usuario..
 """
 #from langchain.vectorstores import Chroma
 from langchain_chroma import Chroma
 from src.vdb import EmbeddingGen
 import src.model_load
 import src.st
 if __name__=="__main__":
     # Definición de directorio
     # Generación de embeddings y almacenamiento en base de datos ChromaDB
     embeddings = EmbeddingGen("sentence-transformers/all-MiniLM-L12-v2")
+    vectorstore = Chroma.from_documents(list(tqdm(textos[:10], desc="Procesando documentos", unit="doc")), embeddings)
     print("Vectorizado terminado")
     retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 3})
     print("Carga del modelo")
     # Carga del modelo y ejecución de la interfaz
     src.model_load.load_model()
     print("Lanzando interfaz")
+    interfaz()