Spaces:

Oxbridge-Economics
/

Data-Collection-China

Sleeping

gavinzli commited on Dec 6, 2024

Commit

fdff7f3

1 Parent(s): 293d18b

Update print statements in vectorize function to display DataFrame columns and chunk content for improved debugging

Files changed (1) hide show

controllers/vectorizer.py CHANGED Viewed

@@ -48,7 +48,7 @@ def vectorize(article):
     # df['sentimentScore'] = df['sentimentScore'].round(2)
     # df['sentimentScore'] = df['sentimentScore'].astype(float)
     df['publishDate'] = pd.to_datetime(df['publishDate'])
-    print(df)
     loader = DataFrameLoader(df, page_content_column="content")
     documents = loader.load()
     text_splitter = RecursiveCharacterTextSplitter(
@@ -59,6 +59,9 @@ def vectorize(article):
     )
     chunks = text_splitter.split_documents(documents)
     ids = []
     for chunk in chunks:
         _id = f"{chunk.metadata['id']}-{str(uuid.uuid5(uuid.NAMESPACE_OID,chunk.page_content))}"

     # df['sentimentScore'] = df['sentimentScore'].round(2)
     # df['sentimentScore'] = df['sentimentScore'].astype(float)
     df['publishDate'] = pd.to_datetime(df['publishDate'])
+    print(df.columns)
     loader = DataFrameLoader(df, page_content_column="content")
     documents = loader.load()
     text_splitter = RecursiveCharacterTextSplitter(
     )
     chunks = text_splitter.split_documents(documents)
+    for chunk in chunks:
+        print(chunk)
+        print("*"*50)
     ids = []
     for chunk in chunks:
         _id = f"{chunk.metadata['id']}-{str(uuid.uuid5(uuid.NAMESPACE_OID,chunk.page_content))}"