Langchained_PGPS_RAG

Sleeping

SergeyO7 commited on Mar 25

Commit

8edd424

verified ·

1 Parent(s): 79bbc48

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,44 +1,36 @@
-# from langchain.document_loaders import DirectoryLoader
-from langchain_community.document_loaders import DirectoryLoader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.schema import Document
-# from langchain.embeddings import OpenAIEmbeddings
 from langchain_openai import OpenAIEmbeddings
 from langchain_community.vectorstores import Chroma
-import openai
 from dotenv import load_dotenv
 import os
-import shutil
-# Load environment variables. Assumes that project contains .env file with API keys
 load_dotenv()
-#---- Set OpenAI API key
-# Change environment variable name from "OPENAI_API_KEY" to the name given in
-# your .env file.
-openai.api_key = os.environ['OPENAI_API_KEY']
 CHROMA_PATH = "chroma"
-DATA_PATH = ""
-def
- main():
     generate_data_store()
 def generate_data_store():
     documents = load_documents()
-    chunks = split_text(documents)
-    save_to_chroma(chunks)
 def load_documents():
-    loader = DirectoryLoader(DATA_PATH, glob="pl25032025.md")
     documents = loader.load()
     return documents
 def split_text(documents: list[Document]):
     text_splitter = RecursiveCharacterTextSplitter(
         chunk_size=300,

+from langchain_community.document_loaders import UnstructuredMarkdownLoader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.schema import Document
 from langchain_openai import OpenAIEmbeddings
 from langchain_community.vectorstores import Chroma
 from dotenv import load_dotenv
 import os
+# Load environment variables
 load_dotenv()
+# Assumes OPENAI_API_KEY is set in .env
 CHROMA_PATH = "chroma"
+DATA_PATH = ""  # Update this to your actual data path
+def main():
     generate_data_store()
 def generate_data_store():
     documents = load_documents()
+    if documents:
+        chunks = split_text(documents)
+        save_to_chroma(chunks)
 def load_documents():
+    file_path = os.path.join(DATA_PATH, "pl25032025.md")
+    if not os.path.exists(file_path):
+        print(f"Error: File {file_path} not found.")
+        return []
+    loader = UnstructuredMarkdownLoader(file_path)
     documents = loader.load()
     return documents
 def split_text(documents: list[Document]):
     text_splitter = RecursiveCharacterTextSplitter(
         chunk_size=300,