pdf-rag-chatbot

Running

App Files Files Community

farmax commited on Oct 12, 2024

Commit

f15d519

verified ·

1 Parent(s): a23ee22

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -17

app.py CHANGED Viewed

@@ -2,14 +2,9 @@ from langchain_huggingface import HuggingFaceEmbeddings
 import gradio as gr
 import os
 from googletrans import Translator
-# import requests
-# from dotenv import load_dotenv
-# import numpy as np
 from langchain_community.vectorstores import Chroma
 from langchain_community.document_loaders import UnstructuredPDFLoader, PyPDFLoader
 from langchain.text_splitter import CharacterTextSplitter
-# from langchain.chains import RetrievalQAWithSourcesChain
-# from langchain.chains import load_qa_with_sources_from_chain_type
 from langchain.chains import ConversationalRetrievalChain
 from langchain.schema import Document
 from langchain.memory import ConversationBufferMemory
@@ -18,7 +13,8 @@ from langchain.callbacks.streaming_stdout import StreamingStdOutCallbackHandler
 from langchain.llms.base import LLM
 from typing import List, Dict, Any, Optional
 from pydantic import BaseModel
-# from tqdm import tqdm
 import torch
 import logging
@@ -66,24 +62,24 @@ def initialize_database(document, chunk_size, chunk_overlap, progress=gr.Progres
 def initialize_LLM(llm_option, llm_temperature, max_tokens, top_k, vector_db, progress=gr.Progress(), language="italian"):
     logger.info("Initializing LLM chain...")
-    llm_name = list_llm[llm_option]
-    print("llm_name: ",llm_name)
-    if language == "italian":
         default_llm = "google/gemma-7b-it"
     else:
         default_llm = "mistralai/Mistral-7B-Instruct-v0.2"
-    if llm_name != default_llm:
-        print(f"Using default LLM {default_llm} for {language}")
-        llm_name = default_llm
     qa_chain = ConversationalRetrievalChain.from_llm(
-        llm=llm_name,
         retriever=vector_db.as_retriever(),
         chain_type="stuff",
-        # memory=memory,
-        return_source_documents=True,
         temperature=llm_temperature,
         verbose=False,
     )

 import gradio as gr
 import os
 from googletrans import Translator
 from langchain_community.vectorstores import Chroma
 from langchain_community.document_loaders import UnstructuredPDFLoader, PyPDFLoader
 from langchain.text_splitter import CharacterTextSplitter
 from langchain.chains import ConversationalRetrievalChain
 from langchain.schema import Document
 from langchain.memory import ConversationBufferMemory
 from langchain.llms.base import LLM
 from typing import List, Dict, Any, Optional
 from pydantic import BaseModel
+from langchain.llms.base import LLM
+from transformers import AutoTokenizer, AutoModelForCausalLM
 import torch
 import logging
 def initialize_LLM(llm_option, llm_temperature, max_tokens, top_k, vector_db, progress=gr.Progress(), language="italian"):
     logger.info("Initializing LLM chain...")
+    # Define the default LLMS based on the language
+    if language == "italiano":
         default_llm = "google/gemma-7b-it"
     else:
         default_llm = "mistralai/Mistral-7B-Instruct-v0.2"
+    # Create an instance of the LLM
+    try:
+        llm = LLM.from_pretrained(default_llm)
+    except Exception as e:
+        logger.error(f"Error initializing LLM: {e}")
+        return None, "Failed to initialize LLM"
     qa_chain = ConversationalRetrievalChain.from_llm(
+        llm=llm,
         retriever=vector_db.as_retriever(),
         chain_type="stuff",
         temperature=llm_temperature,
         verbose=False,
     )