Langchained_PGPS_RAG

Sleeping

App Files Files Community

SergeyO7 commited on Mar 26

Commit

babb405

verified ·

1 Parent(s): 06424fd

Update app.py

Browse files

Files changed (1) hide show

app.py +38 -46

app.py CHANGED Viewed

@@ -1,81 +1,80 @@
 from langchain_community.document_loaders import UnstructuredMarkdownLoader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
-from langchain_core.documents import Document  # Updated import
-# from langchain_openai import OpenAIEmbeddings
-from langchain_huggingface import HuggingFaceEmbeddings  # Updated import
-from langchain.evaluation import load_evaluator
 from langchain_community.vectorstores import Chroma
 from langchain_community.llms import HuggingFaceHub
 from langchain.prompts import ChatPromptTemplate
-from langchain_chroma import Chroma
 from dotenv import load_dotenv
-import argparse
 import os
-import shutil  # Added import
-import numpy as np
 # Load environment variables
 load_dotenv()
-# Assumes OPENAI_API_KEY is set in .env
 CHROMA_PATH = "chroma"
-DATA_PATH = ""  # Update this to your actual data path
 PROMPT_TEMPLATE = """
 Ответь на вопрос, используя только следующий контекст:
 {context}
 ---
 Ответь на вопрос на основе приведенного контекста: {question}
 """
 def main():
     # Создаем папки при необходимости
     os.makedirs("model_cache", exist_ok=True)
-    os.makedirs("chroma", exist_ok=True)
-    generate_data_store()
-    help="Что означает Солнце на третьей ступени лестницы?"
-    process_query(help)
-def process_query(query_text: str):
     # Инициализация эмбеддингов
     embeddings = HuggingFaceEmbeddings(
         model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2",
         cache_folder="model_cache"
     )
     # Загрузка векторной БД
     db = Chroma(
-        persist_directory=CHROMA_PATH,
         embedding_function=embeddings
     )
     # Поиск по схожести
     results = db.similarity_search_with_relevance_scores(query_text, k=3)
     if not results or results[0][1] < 0.7:
         print("Не найдено подходящих результатов.")
         return
     # Формирование контекста
     context_text = "\n\n---\n\n".join([doc.page_content for doc, _ in results])
     # Создание промпта
     prompt_template = ChatPromptTemplate.from_template(PROMPT_TEMPLATE)
     prompt = prompt_template.format(context=context_text, question=query_text)
     # Инициализация модели для генерации
     model = HuggingFaceHub(
         repo_id="google/flan-t5-small",
         model_kwargs={"temperature": 0.5, "max_length": 512}
     )
     # Генерация ответа
     response_text = model.predict(prompt)
     # Форматирование вывода
     sources = [doc.metadata.get("source", None) for doc, _ in results]
     print(f"Ответ: {response_text}")
@@ -90,7 +89,7 @@ def generate_data_store():
 def load_documents():
     file_path = os.path.join(DATA_PATH, "pl250320251.md")
     if not os.path.exists(file_path):
-        print(f"Error: File {file_path} not found.")
         return []
     loader = UnstructuredMarkdownLoader(file_path)
     documents = loader.load()
@@ -104,36 +103,29 @@ def split_text(documents: list[Document]):
         add_start_index=True,
     )
     chunks = text_splitter.split_documents(documents)
-    print(f"Split {len(documents)} documents into {len(chunks)} chunks.")
-    document = chunks[10]
-    print(document.page_content)
-    print(document.metadata)
     return chunks
 def save_to_chroma(chunks: list[Document]):
-    # Clear out the database first
     if os.path.exists(CHROMA_PATH):
         shutil.rmtree(CHROMA_PATH)
-    # Initialize embeddings with cache
     embeddings = HuggingFaceEmbeddings(
-        # model_name="BAAI/bge-m3", # 2.27Gb
-        model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2", #133Mb
-        cache_folder="model_cache",  # Правильное место для кэша
-        model_kwargs={'device': 'cpu'},  # Форсируем использование CPU
         encode_kwargs={'normalize_embeddings': True}
     )
-    # Create Chroma DB
     db = Chroma.from_documents(
-        chunks,
-        embeddings,  # Используем предварительно созданный объект
         persist_directory=CHROMA_PATH
     )
-    print(f"Saved {len(chunks)} chunks to {CHROMA_PATH}.")
 if __name__ == "__main__":
     main()

 from langchain_community.document_loaders import UnstructuredMarkdownLoader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain_core.documents import Document
+from langchain_huggingface import HuggingFaceEmbeddings
 from langchain_community.vectorstores import Chroma
 from langchain_community.llms import HuggingFaceHub
 from langchain.prompts import ChatPromptTemplate
 from dotenv import load_dotenv
 import os
+import shutil
 # Load environment variables
 load_dotenv()
 CHROMA_PATH = "chroma"
+DATA_PATH = ""  # Укажите путь к вашим данным
 PROMPT_TEMPLATE = """
 Ответь на вопрос, используя только следующий контекст:
 {context}
 ---
 Ответь на вопрос на основе приведенного контекста: {question}
 """
 def main():
     # Создаем папки при необходимости
     os.makedirs("model_cache", exist_ok=True)
+    os.makedirs("chroma", exist_ok=True)
+    # Генерируем или загружаем базу данных Chroma один раз
+    if not os.path.exists(CHROMA_PATH):
+        generate_data_store()
     # Инициализация эмбеддингов
     embeddings = HuggingFaceEmbeddings(
         model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2",
         cache_folder="model_cache"
     )
     # Загрузка векторной БД
     db = Chroma(
+        persist_directory=CHROMA_PATH,
         embedding_function=embeddings
     )
+    print("Чат готов. Введите ваш вопрос или 'exit' для выхода.")
+    # Интерактивный цикл чата
+    while True:
+        query_text = input("Вы: ")
+        if query_text.lower() in ["exit", "quit"]:
+            print("Выход из чата.")
+            break
+        process_query(query_text, db)
+def process_query(query_text: str, db):
     # Поиск по схожести
     results = db.similarity_search_with_relevance_scores(query_text, k=3)
     if not results or results[0][1] < 0.7:
         print("Не найдено подходящих результатов.")
         return
     # Формирование контекста
     context_text = "\n\n---\n\n".join([doc.page_content for doc, _ in results])
     # Создание промпта
     prompt_template = ChatPromptTemplate.from_template(PROMPT_TEMPLATE)
     prompt = prompt_template.format(context=context_text, question=query_text)
     # Инициализация модели для генерации
     model = HuggingFaceHub(
         repo_id="google/flan-t5-small",
         model_kwargs={"temperature": 0.5, "max_length": 512}
     )
     # Генерация ответа
     response_text = model.predict(prompt)
     # Форматирование вывода
     sources = [doc.metadata.get("source", None) for doc, _ in results]
     print(f"Ответ: {response_text}")
 def load_documents():
     file_path = os.path.join(DATA_PATH, "pl250320251.md")
     if not os.path.exists(file_path):
+        print(f"Ошибка: Файл {file_path} не найден.")
         return []
     loader = UnstructuredMarkdownLoader(file_path)
     documents = loader.load()
         add_start_index=True,
     )
     chunks = text_splitter.split_documents(documents)
+    print(f"Разделено {len(documents)} документов на {len(chunks)} частей.")
     return chunks
 def save_to_chroma(chunks: list[Document]):
+    # Очищаем базу данных перед сохранением
     if os.path.exists(CHROMA_PATH):
         shutil.rmtree(CHROMA_PATH)
+    # Инициализация эмбеддингов
     embeddings = HuggingFaceEmbeddings(
+        model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2",
+        cache_folder="model_cache",
+        model_kwargs={'device': 'cpu'},
         encode_kwargs={'normalize_embeddings': True}
     )
+    # Создание Chroma DB
     db = Chroma.from_documents(
+        chunks,
+        embeddings,
         persist_directory=CHROMA_PATH
     )
+    print(f"Сохранено {len(chunks)} частей в {CHROMA_PATH}.")
 if __name__ == "__main__":
     main()