Spaces:

eHemink
/

EnronEmails

Runtime error

eHemink commited on Mar 31, 2024

Commit

b71a3bb

verified ·

1 Parent(s): 57a2bd3

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -22,9 +22,6 @@ from sklearn.model_selection import train_test_split
 emails = pd.read_csv('emails.csv')
 print(emails.head())
-# What a message looks like
-print(emails['message'][0])
 # Getting the content of the emails and saving to a list
 content_text = []
 for item in emails.message:
@@ -33,15 +30,9 @@ for item in emails.message:
   cleaned_message = message.replace("\n","").replace("\r","").replace("> >>> > >","")
   content_text.append(cleaned_message)
-# Checking content of emails (first 5 items)
-print(content_text[:5])
 # Taking a sample of the dataset
 train, test = train_test_split(content_text, train_size = 0.01) # Dataset is too large to complete embedding step
-print(train[:5])
-print(len(train))
 # Setting up ids for ChromaDB collections
 ids = []
 for i in range(len(train)):

 emails = pd.read_csv('emails.csv')
 print(emails.head())
 # Getting the content of the emails and saving to a list
 content_text = []
 for item in emails.message:
   cleaned_message = message.replace("\n","").replace("\r","").replace("> >>> > >","")
   content_text.append(cleaned_message)
 # Taking a sample of the dataset
 train, test = train_test_split(content_text, train_size = 0.01) # Dataset is too large to complete embedding step
 # Setting up ids for ChromaDB collections
 ids = []
 for i in range(len(train)):