pmelnechuk commited on
Commit
39caf86
verified
1 Parent(s): 3c41f93

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +2 -15
app.py CHANGED
@@ -5,13 +5,11 @@ Este script realiza las siguientes tareas:
5
  3. Genera representaciones vectoriales de los textos utilizando `sentence-transformers`.
6
  4. Almacena los vectores en una base de datos Chroma para su posterior recuperaci贸n.
7
  5. Inicializa un modelo y ejecuta una interfaz para interactuar con los datos procesados.
8
-
9
  M贸dulos utilizados:
10
  - `preprocess`: Contiene la clase `Loader` para la carga y preprocesamiento de documentos.
11
  - `vdb`: Se asume que gestiona la base de datos vectorial.
12
  - `model_load`: M贸dulo para cargar el modelo de machine learning.
13
  - `st`: Se asume que proporciona la interfaz de usuario.
14
-
15
  Estructura del c贸digo:
16
  1. Define el directorio de los archivos a procesar.
17
  2. Carga los archivos y los procesa si el n煤mero de archivos es menor a 2.
@@ -20,7 +18,6 @@ Estructura del c贸digo:
20
  5. Almacena los embeddings en ChromaDB y configura un recuperador basado en similitud.
21
  6. Carga el modelo de machine learning.
22
  7. Inicia la interfaz de usuario..
23
-
24
  """
25
  #from langchain.vectorstores import Chroma
26
  from langchain_chroma import Chroma
@@ -30,7 +27,6 @@ from src.preprocess import Loader
30
  from src.vdb import EmbeddingGen
31
  import src.model_load
32
  import src.st
33
- import os
34
 
35
  if __name__=="__main__":
36
  # Definici贸n de directorio
@@ -53,20 +49,11 @@ if __name__=="__main__":
53
 
54
  # Generaci贸n de embeddings y almacenamiento en base de datos ChromaDB
55
  embeddings = EmbeddingGen("sentence-transformers/all-MiniLM-L12-v2")
56
- db = Chroma(embedding_function=embeddings.embed_documents)
57
- # Define la ruta donde deseas guardar el vector store
58
- vectorstore = db.from_documents(textos, embeddings.embed_documents)
59
- print("Vectorizado terminado")
60
- # Convierte el vector store en un recuperador (retriever) de similaridad
61
- retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 3})
62
-
63
- # Guarda el vector store para que persista entre ejecuciones
64
- vectorstore.persist()
65
  print("Vectorizado terminado")
66
  retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 3})
67
  print("Carga del modelo")
68
  # Carga del modelo y ejecuci贸n de la interfaz
69
  src.model_load.load_model()
70
  print("Lanzando interfaz")
71
- src.st.interfaz()
72
-
 
5
  3. Genera representaciones vectoriales de los textos utilizando `sentence-transformers`.
6
  4. Almacena los vectores en una base de datos Chroma para su posterior recuperaci贸n.
7
  5. Inicializa un modelo y ejecuta una interfaz para interactuar con los datos procesados.
 
8
  M贸dulos utilizados:
9
  - `preprocess`: Contiene la clase `Loader` para la carga y preprocesamiento de documentos.
10
  - `vdb`: Se asume que gestiona la base de datos vectorial.
11
  - `model_load`: M贸dulo para cargar el modelo de machine learning.
12
  - `st`: Se asume que proporciona la interfaz de usuario.
 
13
  Estructura del c贸digo:
14
  1. Define el directorio de los archivos a procesar.
15
  2. Carga los archivos y los procesa si el n煤mero de archivos es menor a 2.
 
18
  5. Almacena los embeddings en ChromaDB y configura un recuperador basado en similitud.
19
  6. Carga el modelo de machine learning.
20
  7. Inicia la interfaz de usuario..
 
21
  """
22
  #from langchain.vectorstores import Chroma
23
  from langchain_chroma import Chroma
 
27
  from src.vdb import EmbeddingGen
28
  import src.model_load
29
  import src.st
 
30
 
31
  if __name__=="__main__":
32
  # Definici贸n de directorio
 
49
 
50
  # Generaci贸n de embeddings y almacenamiento en base de datos ChromaDB
51
  embeddings = EmbeddingGen("sentence-transformers/all-MiniLM-L12-v2")
52
+ vectorstore = Chroma.from_documents(list(tqdm(textos[:10], desc="Procesando documentos", unit="doc")), embeddings)
 
 
 
 
 
 
 
 
53
  print("Vectorizado terminado")
54
  retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 3})
55
  print("Carga del modelo")
56
  # Carga del modelo y ejecuci贸n de la interfaz
57
  src.model_load.load_model()
58
  print("Lanzando interfaz")
59
+ interfaz()