Langchained_PGPS_RAG

Sleeping

App Files Files Community

SergeyO7 commited on Mar 26

Commit

95f27d6

verified ·

1 Parent(s): 52af776

Update app.py

Browse files

Files changed (1) hide show

app.py +45 -1

app.py CHANGED Viewed

@@ -3,10 +3,13 @@ from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain_core.documents import Document  # Updated import
 # from langchain_openai import OpenAIEmbeddings
 from langchain_huggingface import HuggingFaceEmbeddings  # Updated import
 from langchain_community.vectorstores import Chroma
 from dotenv import load_dotenv
 import os
 import shutil  # Added import
 # Load environment variables
 load_dotenv()
@@ -23,6 +26,46 @@ def main():
     generate_data_store()
 def generate_data_store():
     documents = load_documents()
     if documents:
@@ -62,7 +105,8 @@ def save_to_chroma(chunks: list[Document]):
     # Initialize embeddings with cache
     embeddings = HuggingFaceEmbeddings(
-        model_name="BAAI/bge-m3",
         cache_folder="model_cache"  # Правильное место для кэша
     )

 from langchain_core.documents import Document  # Updated import
 # from langchain_openai import OpenAIEmbeddings
 from langchain_huggingface import HuggingFaceEmbeddings  # Updated import
+from langchain.evaluation import load_evaluator
 from langchain_community.vectorstores import Chroma
 from dotenv import load_dotenv
 import os
 import shutil  # Added import
+import numpy as np
 # Load environment variables
 load_dotenv()
     generate_data_store()
+    # Инициализация модели для эмбеддингов
+    embedding_function = HuggingFaceEmbeddings(
+        model_name="sentence-transformers/all-MiniLM-L6-v2"
+    )
+    # Получение эмбеддинга для слова
+    vector = embedding_function.embed_query("управитель")
+    print(f"Вектор для 'управитель' (первые 5 значений): {vector[:5]}")
+    print(f"Длина вектора: {len(vector)}")
+    # Сравнение векторов двух слов
+    evaluator = load_evaluator("pairwise_embedding_distance")
+    words = ("управитель", "альмутен")
+    result = evaluator.evaluate_string_pairs(
+        prediction=words[0],
+        prediction_b=words[1]
+    )
+    print(f"\nСравнение ({words[0]}, {words[1]}):")
+    print(f"Расстояние между векторами: {result['score']:.4f}")
+    print(f"Интерпретация: чем меньше значение, тем более похожи векторы")
+# Получение эмбеддинга для слова
+    vector = embedding_function.embed_query("Сатурн")
+    print(f"Вектор для 'управитель' (первые 5 значений): {vector[:5]}")
+    print(f"Длина вектора: {len(vector)}")
+    # Сравнение векторов двух слов
+    evaluator = load_evaluator("pairwise_embedding_distance")
+    words = ("Сатурн", "Венера")
+    result = evaluator.evaluate_string_pairs(
+        prediction=words[0],
+        prediction_b=words[1]
+    )
+    print(f"\nСравнение ({words[0]}, {words[1]}):")
+    print(f"Расстояние между векторами: {result['score']:.4f}")
+    print(f"Интерпретация: чем меньше значение, тем более похожи векторы")
 def generate_data_store():
     documents = load_documents()
     if documents:
     # Initialize embeddings with cache
     embeddings = HuggingFaceEmbeddings(
+        # model_name="BAAI/bge-m3", # 2.27Gb
+        model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2", #133Mb
         cache_folder="model_cache"  # Правильное место для кэша
     )