pmelnechuk commited on
Commit
f1d8a26
verified
1 Parent(s): 107fe3c

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +68 -59
app.py CHANGED
@@ -1,64 +1,73 @@
1
- import gradio as gr
2
- from huggingface_hub import InferenceClient
3
-
4
  """
5
- For more information on `huggingface_hub` Inference API support, please check the docs: https://huggingface.co/docs/huggingface_hub/v0.22.2/en/guides/inference
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
6
  """
7
- client = InferenceClient("HuggingFaceH4/zephyr-7b-beta")
8
-
9
-
10
- def respond(
11
- message,
12
- history: list[tuple[str, str]],
13
- system_message,
14
- max_tokens,
15
- temperature,
16
- top_p,
17
- ):
18
- messages = [{"role": "system", "content": system_message}]
19
-
20
- for val in history:
21
- if val[0]:
22
- messages.append({"role": "user", "content": val[0]})
23
- if val[1]:
24
- messages.append({"role": "assistant", "content": val[1]})
25
-
26
- messages.append({"role": "user", "content": message})
27
-
28
- response = ""
29
 
30
- for message in client.chat_completion(
31
- messages,
32
- max_tokens=max_tokens,
33
- stream=True,
34
- temperature=temperature,
35
- top_p=top_p,
36
- ):
37
- token = message.choices[0].delta.content
38
-
39
- response += token
40
- yield response
41
-
42
-
43
- """
44
- For information on how to customize the ChatInterface, peruse the gradio docs: https://www.gradio.app/docs/chatinterface
45
- """
46
- demo = gr.ChatInterface(
47
- respond,
48
- additional_inputs=[
49
- gr.Textbox(value="You are a friendly Chatbot.", label="System message"),
50
- gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens"),
51
- gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature"),
52
- gr.Slider(
53
- minimum=0.1,
54
- maximum=1.0,
55
- value=0.95,
56
- step=0.05,
57
- label="Top-p (nucleus sampling)",
58
- ),
59
- ],
60
- )
 
61
 
 
 
 
 
 
 
 
62
 
63
- if __name__ == "__main__":
64
- demo.launch()
 
 
 
 
1
  """
2
+ Este script realiza las siguientes tareas:
3
+ 1. Carga archivos desde un directorio especificado utilizando la clase `Loader` del m贸dulo `preprocess`.
4
+ 2. Procesa los archivos mediante limpieza de texto y divisi贸n en fragmentos.
5
+ 3. Genera representaciones vectoriales de los textos utilizando `sentence-transformers`.
6
+ 4. Almacena los vectores en una base de datos Chroma para su posterior recuperaci贸n.
7
+ 5. Inicializa un modelo y ejecuta una interfaz para interactuar con los datos procesados.
8
+ M贸dulos utilizados:
9
+ - `preprocess`: Contiene la clase `Loader` para la carga y preprocesamiento de documentos.
10
+ - `vdb`: Se asume que gestiona la base de datos vectorial.
11
+ - `model_load`: M贸dulo para cargar el modelo de machine learning.
12
+ - `st`: Se asume que proporciona la interfaz de usuario.
13
+ Estructura del c贸digo:
14
+ 1. Define el directorio de los archivos a procesar.
15
+ 2. Carga los archivos y los procesa si el n煤mero de archivos es menor a 2.
16
+ 3. Si hay m煤ltiples archivos, los procesa en un bucle y concatena los fragmentos.
17
+ 4. Genera embeddings utilizando `sentence-transformers/all-MiniLM-L12-v2`.
18
+ 5. Almacena los embeddings en ChromaDB y configura un recuperador basado en similitud.
19
+ 6. Carga el modelo de machine learning.
20
+ 7. Inicia la interfaz de usuario..
21
  """
22
+ from langchain_community.vectorstores import Chroma
23
+ from langchain_community.embeddings import HuggingFaceEmbeddings
24
+ #from langchain_chroma import Chroma
25
+ from tqdm.auto import tqdm
26
+ #from chromadb.utils import embedding_functions
27
+ from src.preprocess import Loader
28
+ from src.vdb import EmbeddingGen
29
+ import src.model_load
30
+ import streamlit as st
 
 
 
 
 
 
 
 
 
 
 
 
 
31
 
32
+ if __name__=="__main__":
33
+ # Definici贸n de directorio
34
+ archivo = [r"data/Calculo_Trascendentes_Tempranas_Zill_4t.pdf"]
35
+
36
+ # Carga de archivos y procesamiento de texto
37
+ if len(archivo) < 2:
38
+ Load = Loader(archivo[0])
39
+ documentos = Load.load_docs()
40
+ textos_limpios = [Loader.limpiar_texto(texto=doc) for doc in documentos]
41
+ textos = Loader.splitter(texto=textos_limpios, chunk_size=500, chunk_overlap=50)
42
+ else:
43
+ textos = []
44
+ for i in range(len(archivo)):
45
+ Load = Loader(archivo)
46
+ documentos = Load.load_docs()
47
+ textos_limpios = [Load.limpiar_texto(texto=doc) for doc in documentos]
48
+ chunks = Load.splitter(texto=textos_limpios, chunk_size=500, chunk_overlap=50)
49
+ textos.extend(chunks)
50
+
51
+ # Generaci贸n de embeddings y almacenamiento en base de datos ChromaDB
52
+ embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L12-v2")
53
+ persist_directory = "./persist_directory"
54
+ db = Chroma(persist_directory=persist_directory, embedding_function=embeddings.embed_documents)
55
+ vectorstore = Chroma.from_documents(textos[:10], embeddings, persist_directory="./chroma_db")
56
+ print("Vectorizado terminado")
57
+ retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 3})
58
+ print("Carga del modelo")
59
+ # Carga del modelo y ejecuci贸n de la interfaz
60
+ qa_chain=src.model_load.load_model()
61
+ print("Lanzando interfaz")
62
+ def chatbot_response(message):
63
+ return src.model_load(message,retriever)
64
 
65
+ iface = gr.Interface(
66
+ fn=chatbot_response,
67
+ inputs=gr.Textbox(label="Escribe tu mensaje"),
68
+ outputs=gr.Textbox(label="Respuesta del chatbot"),
69
+ title="Chatbot Simple",
70
+ description="Interfaz simple de chatbot con Gradio."
71
+ )
72
 
73
+ iface.launch()