Spaces:

Guru-25
/

chatbot

Running

App Files Files Community

Guru-25 commited on Nov 13, 2023

Commit

d808e72

1 Parent(s): a5f84d8

Update utils.py

Browse files

Files changed (1) hide show

utils.py +0 -8

utils.py CHANGED Viewed

@@ -5,9 +5,6 @@ import pinecone
 import asyncio
 from langchain.document_loaders.sitemap import SitemapLoader
-#Function to fetch data from website
-#https://python.langchain.com/docs/modules/data_connection/document_loaders/integrations/sitemap
 def get_website_data(sitemap_url):
     loop = asyncio.new_event_loop()
@@ -20,7 +17,6 @@ def get_website_data(sitemap_url):
     return docs
-#Function to split data into smaller chunks
 def split_data(docs):
     text_splitter = RecursiveCharacterTextSplitter(
@@ -32,13 +28,11 @@ def split_data(docs):
     docs_chunks = text_splitter.split_documents(docs)
     return docs_chunks
-#Function to create embeddings instance
 def create_embeddings():
     embeddings = SentenceTransformerEmbeddings(model_name="all-MiniLM-L6-v2")
     return embeddings
-#Function to push data to Pinecone
 def push_to_pinecone(pinecone_apikey,pinecone_environment,pinecone_index_name,embeddings,docs):
     pinecone.init(
@@ -50,7 +44,6 @@ def push_to_pinecone(pinecone_apikey,pinecone_environment,pinecone_index_name,em
     index = Pinecone.from_documents(docs, embeddings, index_name=index_name)
     return index
-#Function to pull index data from Pinecone
 def pull_from_pinecone(pinecone_apikey,pinecone_environment,pinecone_index_name,embeddings):
     pinecone.init(
@@ -63,7 +56,6 @@ def pull_from_pinecone(pinecone_apikey,pinecone_environment,pinecone_index_name,
     index = Pinecone.from_existing_index(index_name, embeddings)
     return index
-#This function will help us in fetching the top relevent documents from our vector store - Pinecone Index
 def get_similar_docs(index,query,k=2):
     similar_docs = index.similarity_search(query, k=k)

 import asyncio
 from langchain.document_loaders.sitemap import SitemapLoader
 def get_website_data(sitemap_url):
     loop = asyncio.new_event_loop()
     return docs
 def split_data(docs):
     text_splitter = RecursiveCharacterTextSplitter(
     docs_chunks = text_splitter.split_documents(docs)
     return docs_chunks
 def create_embeddings():
     embeddings = SentenceTransformerEmbeddings(model_name="all-MiniLM-L6-v2")
     return embeddings
 def push_to_pinecone(pinecone_apikey,pinecone_environment,pinecone_index_name,embeddings,docs):
     pinecone.init(
     index = Pinecone.from_documents(docs, embeddings, index_name=index_name)
     return index
 def pull_from_pinecone(pinecone_apikey,pinecone_environment,pinecone_index_name,embeddings):
     pinecone.init(
     index = Pinecone.from_existing_index(index_name, embeddings)
     return index
 def get_similar_docs(index,query,k=2):
     similar_docs = index.similarity_search(query, k=k)