Spaces:

Oxbridge-Economics
/

Data-Collection-China

Running

App Files Files Community

gavinzli commited on Jan 4

Commit

5fea365

1 Parent(s): 29d3eca

Refactor vectorization process by removing openai_vectorize calls and updating vectorizer initialization

Browse files

Files changed (3) hide show

controllers/utils.py +2 -2
controllers/vectorizer.py +45 -44
source/eastmoney.py +2 -2

controllers/utils.py CHANGED Viewed

@@ -22,7 +22,7 @@ import PyPDF2
 from transformers import pipeline
 from controllers.summarizer import summarize
-from controllers.vectorizer import vectorize, openai_vectorize
 load_dotenv()
@@ -703,6 +703,6 @@ def crawl_by_url(url, article):
     article['referenceid'] = None
     update_content(article)
     vectorize(article)
-    openai_vectorize(article)
 data = download_files_from_s3('data')

 from transformers import pipeline
 from controllers.summarizer import summarize
+from controllers.vectorizer import vectorize
 load_dotenv()
     article['referenceid'] = None
     update_content(article)
     vectorize(article)
+    # openai_vectorize(article)
 data = download_files_from_s3('data')

controllers/vectorizer.py CHANGED Viewed

@@ -1,7 +1,7 @@
 """Module to upsert data into AstraDB"""
 import os
 import logging
-import uuid
 import time
 import tiktoken
@@ -24,13 +24,13 @@ embedding = AzureOpenAIEmbeddings(
     api_version="2024-07-01-preview",
     azure_endpoint="https://openai-oe.openai.azure.com/")
-vstore = AstraDBVectorStore(embedding=embedding,
-                            namespace="default_keyspace",
-                            collection_name="FinFast_China",
-                            token=os.environ["ASTRA_DB_APPLICATION_TOKEN"],
-                            api_endpoint=os.environ["ASTRA_DB_API_ENDPOINT"])
-openai_vstore = AstraDBVectorStore(
     collection_vector_service_options=CollectionVectorServiceOptions(
         provider="azureOpenAI",
         model_name="text-embedding-3-small",
@@ -43,7 +43,7 @@ openai_vstore = AstraDBVectorStore(
         },
     ),
     namespace="default_keyspace",
-    collection_name="text_embedding_3_small",
     token=os.environ["ASTRA_DB_APPLICATION_TOKEN"],
     api_endpoint=os.environ["ASTRA_DB_API_ENDPOINT"])
@@ -74,7 +74,7 @@ def add_documents_with_retry(chunks, ids, max_retries=3):
     """
     for attempt in range(max_retries):
         try:
-            openai_vstore.add_documents(chunks, ids=ids)
         except (ConnectionError, TimeoutError) as e:
             logging.info("Attempt %d failed: %s", attempt + 1, e)
             if attempt < max_retries - 1:
@@ -82,8 +82,9 @@ def add_documents_with_retry(chunks, ids, max_retries=3):
             else:
                 logging.error("Max retries reached. Operation failed.")
                 logging.error(ids)
-def openai_vectorize(article):
     """
     Process the given article.
@@ -118,37 +119,37 @@ def openai_vectorize(article):
     except (ConnectionError, TimeoutError, ValueError) as e:
         logging.error("Failed to add documents: %s", e)
-def vectorize(article):
-    """
-    Process the given article.
-    Parameters:
-    article (DataFrame): The article to be processed.
-    Returns:
-    None
-    """
-    article['id'] = str(article['id'])
-    if isinstance(article, dict):
-        article = [article]  # Convert single dictionary to list of dictionaries
-    df = pd.DataFrame(article)
-    df = df[['id','site','title','titleCN','category','author','content',
-             'publishDate','link']]
-    df['publishDate'] = pd.to_datetime(df['publishDate'])
-    loader = DataFrameLoader(df, page_content_column="content")
-    documents = loader.load()
-    text_splitter = RecursiveCharacterTextSplitter(
-        chunk_size=800,
-        chunk_overlap=20,
-        length_function=len,
-        is_separator_regex=False,
-    )
-    chunks = text_splitter.split_documents(documents)
-    ids = []
-    for chunk in chunks:
-        _id = f"{chunk.metadata['id']}-{str(uuid.uuid5(uuid.NAMESPACE_OID,chunk.page_content))}"
-        ids.append(_id)
-    inserted_ids = vstore.add_documents(chunks, ids=ids)
-    print(inserted_ids)
-    logging.info(inserted_ids)

 """Module to upsert data into AstraDB"""
 import os
 import logging
+# import uuid
 import time
 import tiktoken
     api_version="2024-07-01-preview",
     azure_endpoint="https://openai-oe.openai.azure.com/")
+# vstore = AstraDBVectorStore(embedding=embedding,
+#                             namespace="default_keyspace",
+#                             collection_name="FinFast_China",
+#                             token=os.environ["ASTRA_DB_APPLICATION_TOKEN"],
+#                             api_endpoint=os.environ["ASTRA_DB_API_ENDPOINT"])
+vstore = AstraDBVectorStore(
     collection_vector_service_options=CollectionVectorServiceOptions(
         provider="azureOpenAI",
         model_name="text-embedding-3-small",
         },
     ),
     namespace="default_keyspace",
+    collection_name="article",
     token=os.environ["ASTRA_DB_APPLICATION_TOKEN"],
     api_endpoint=os.environ["ASTRA_DB_API_ENDPOINT"])
     """
     for attempt in range(max_retries):
         try:
+            vstore.add_documents(chunks, ids=ids)
         except (ConnectionError, TimeoutError) as e:
             logging.info("Attempt %d failed: %s", attempt + 1, e)
             if attempt < max_retries - 1:
             else:
                 logging.error("Max retries reached. Operation failed.")
                 logging.error(ids)
+                print(ids)
+def vectorize(article):
     """
     Process the given article.
     except (ConnectionError, TimeoutError, ValueError) as e:
         logging.error("Failed to add documents: %s", e)
+# def vectorize(article):
+#     """
+#     Process the given article.
+#     Parameters:
+#     article (DataFrame): The article to be processed.
+#     Returns:
+#     None
+#     """
+#     article['id'] = str(article['id'])
+#     if isinstance(article, dict):
+#         article = [article]  # Convert single dictionary to list of dictionaries
+#     df = pd.DataFrame(article)
+#     df = df[['id','site','title','titleCN','category','author','content',
+#              'publishDate','link']]
+#     df['publishDate'] = pd.to_datetime(df['publishDate'])
+#     loader = DataFrameLoader(df, page_content_column="content")
+#     documents = loader.load()
+#     text_splitter = RecursiveCharacterTextSplitter(
+#         chunk_size=800,
+#         chunk_overlap=20,
+#         length_function=len,
+#         is_separator_regex=False,
+#     )
+#     chunks = text_splitter.split_documents(documents)
+#     ids = []
+#     for chunk in chunks:
+#         _id = f"{chunk.metadata['id']}-{str(uuid.uuid5(uuid.NAMESPACE_OID,chunk.page_content))}"
+#         ids.append(_id)
+#     inserted_ids = vstore.add_documents(chunks, ids=ids)
+#     print(inserted_ids)
+#     logging.info(inserted_ids)

source/eastmoney.py CHANGED Viewed

@@ -22,7 +22,7 @@ from controllers.utils import (
     translate,
     update_content
 )
-from controllers.vectorizer import openai_vectorize, vectorize
 with open('xpath.json', 'r', encoding='UTF-8') as f:
     xpath_dict = json.load(f)
@@ -98,7 +98,7 @@ def _crawl(url, article, retries=3):
         article['referenceid'] = reference_id
     update_content(article)
     vectorize(article)
-    openai_vectorize(article)
 @task(name = "Data Collection - eastmoney", log_prints = True)
 def crawl(delta):

     translate,
     update_content
 )
+from controllers.vectorizer import vectorize
 with open('xpath.json', 'r', encoding='UTF-8') as f:
     xpath_dict = json.load(f)
         article['referenceid'] = reference_id
     update_content(article)
     vectorize(article)
+    # openai_vectorize(article)
 @task(name = "Data Collection - eastmoney", log_prints = True)
 def crawl(delta):