pmelnechuk commited on
Commit
e8a3dce
verified
1 Parent(s): ba80871

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +16 -6
app.py CHANGED
@@ -60,12 +60,22 @@ if __name__=="__main__":
60
  if not os.path.exists(persist_directory):
61
  os.makedirs(persist_directory)
62
 
63
- # Crea el vector store y persiste los documentos
64
- vectorstore = Chroma.from_documents(
65
- list(tqdm(textos, desc="Procesando documentos", unit="doc")),
66
- embeddings,
67
- persist_directory=persist_directory # Ruta de persistencia
68
- )
 
 
 
 
 
 
 
 
 
 
69
 
70
  print("Vectorizado terminado")
71
 
 
60
  if not os.path.exists(persist_directory):
61
  os.makedirs(persist_directory)
62
 
63
+ # Funci贸n para procesar documentos por lotes
64
+ def process_in_batches(documents, batch_size=16):
65
+ # Dividir los documentos en lotes
66
+ for i in range(0, len(documents), batch_size):
67
+ batch = documents[i:i+batch_size]
68
+ embeddings_batch = embeddings.encode(batch, convert_to_tensor=True, show_progress_bar=True)
69
+ yield embeddings_batch
70
+
71
+ # Crear el vector store
72
+ vectorstore = Chroma(persist_directory=persist_directory)
73
+
74
+ # Procesar los documentos por lotes
75
+ for embeddings_batch in tqdm(process_in_batches(textos[:10], batch_size=16), desc="Procesando lotes de documentos"):
76
+ # Aqu铆 se asume que tienes alg煤n m茅todo para agregar estos embeddings al vectorstore
77
+ vectorstore.add_documents(embeddings_batch)
78
+
79
 
80
  print("Vectorizado terminado")
81