Spaces:
Sleeping
Sleeping
Update app.py
Browse files
app.py
CHANGED
@@ -5,13 +5,11 @@ Este script realiza las siguientes tareas:
|
|
5 |
3. Genera representaciones vectoriales de los textos utilizando `sentence-transformers`.
|
6 |
4. Almacena los vectores en una base de datos Chroma para su posterior recuperaci贸n.
|
7 |
5. Inicializa un modelo y ejecuta una interfaz para interactuar con los datos procesados.
|
8 |
-
|
9 |
M贸dulos utilizados:
|
10 |
- `preprocess`: Contiene la clase `Loader` para la carga y preprocesamiento de documentos.
|
11 |
- `vdb`: Se asume que gestiona la base de datos vectorial.
|
12 |
- `model_load`: M贸dulo para cargar el modelo de machine learning.
|
13 |
- `st`: Se asume que proporciona la interfaz de usuario.
|
14 |
-
|
15 |
Estructura del c贸digo:
|
16 |
1. Define el directorio de los archivos a procesar.
|
17 |
2. Carga los archivos y los procesa si el n煤mero de archivos es menor a 2.
|
@@ -20,7 +18,6 @@ Estructura del c贸digo:
|
|
20 |
5. Almacena los embeddings en ChromaDB y configura un recuperador basado en similitud.
|
21 |
6. Carga el modelo de machine learning.
|
22 |
7. Inicia la interfaz de usuario..
|
23 |
-
|
24 |
"""
|
25 |
#from langchain.vectorstores import Chroma
|
26 |
from langchain_chroma import Chroma
|
@@ -30,7 +27,6 @@ from src.preprocess import Loader
|
|
30 |
from src.vdb import EmbeddingGen
|
31 |
import src.model_load
|
32 |
import src.st
|
33 |
-
import os
|
34 |
|
35 |
if __name__=="__main__":
|
36 |
# Definici贸n de directorio
|
@@ -53,20 +49,11 @@ if __name__=="__main__":
|
|
53 |
|
54 |
# Generaci贸n de embeddings y almacenamiento en base de datos ChromaDB
|
55 |
embeddings = EmbeddingGen("sentence-transformers/all-MiniLM-L12-v2")
|
56 |
-
|
57 |
-
# Define la ruta donde deseas guardar el vector store
|
58 |
-
vectorstore = db.from_documents(textos, embeddings.embed_documents)
|
59 |
-
print("Vectorizado terminado")
|
60 |
-
# Convierte el vector store en un recuperador (retriever) de similaridad
|
61 |
-
retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 3})
|
62 |
-
|
63 |
-
# Guarda el vector store para que persista entre ejecuciones
|
64 |
-
vectorstore.persist()
|
65 |
print("Vectorizado terminado")
|
66 |
retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 3})
|
67 |
print("Carga del modelo")
|
68 |
# Carga del modelo y ejecuci贸n de la interfaz
|
69 |
src.model_load.load_model()
|
70 |
print("Lanzando interfaz")
|
71 |
-
|
72 |
-
|
|
|
5 |
3. Genera representaciones vectoriales de los textos utilizando `sentence-transformers`.
|
6 |
4. Almacena los vectores en una base de datos Chroma para su posterior recuperaci贸n.
|
7 |
5. Inicializa un modelo y ejecuta una interfaz para interactuar con los datos procesados.
|
|
|
8 |
M贸dulos utilizados:
|
9 |
- `preprocess`: Contiene la clase `Loader` para la carga y preprocesamiento de documentos.
|
10 |
- `vdb`: Se asume que gestiona la base de datos vectorial.
|
11 |
- `model_load`: M贸dulo para cargar el modelo de machine learning.
|
12 |
- `st`: Se asume que proporciona la interfaz de usuario.
|
|
|
13 |
Estructura del c贸digo:
|
14 |
1. Define el directorio de los archivos a procesar.
|
15 |
2. Carga los archivos y los procesa si el n煤mero de archivos es menor a 2.
|
|
|
18 |
5. Almacena los embeddings en ChromaDB y configura un recuperador basado en similitud.
|
19 |
6. Carga el modelo de machine learning.
|
20 |
7. Inicia la interfaz de usuario..
|
|
|
21 |
"""
|
22 |
#from langchain.vectorstores import Chroma
|
23 |
from langchain_chroma import Chroma
|
|
|
27 |
from src.vdb import EmbeddingGen
|
28 |
import src.model_load
|
29 |
import src.st
|
|
|
30 |
|
31 |
if __name__=="__main__":
|
32 |
# Definici贸n de directorio
|
|
|
49 |
|
50 |
# Generaci贸n de embeddings y almacenamiento en base de datos ChromaDB
|
51 |
embeddings = EmbeddingGen("sentence-transformers/all-MiniLM-L12-v2")
|
52 |
+
vectorstore = Chroma.from_documents(list(tqdm(textos[:10], desc="Procesando documentos", unit="doc")), embeddings)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
53 |
print("Vectorizado terminado")
|
54 |
retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 3})
|
55 |
print("Carga del modelo")
|
56 |
# Carga del modelo y ejecuci贸n de la interfaz
|
57 |
src.model_load.load_model()
|
58 |
print("Lanzando interfaz")
|
59 |
+
interfaz()
|
|