Spaces:

sergiomar73
/

qc-nlp-004-transcription-classifier-with-roberta

Build error

App Files Files Community

sergiomar73 commited on Oct 4, 2022

Commit

33cc46f

1 Parent(s): 9132037

Update app.py

Browse files

Files changed (1) hide show

app.py +3 -4

app.py CHANGED Viewed

@@ -55,9 +55,8 @@ def compare_text(transcript, categories, threshold):
     embeddings = model.encode(sentences, convert_to_tensor=True)
     # Categories
     df_category_list = process_categories(categories)
-    df_cosines = pd.DataFrame()
     df_results = pd.DataFrame(columns=['line', 'sentence', 'phrase', 'category', 'similarity'])
-    # df_cosines['line'] += 1
     for _, df_category in enumerate(df_category_list):
         df_category.reset_index(drop=True, inplace=True)
         phrases_list = df_category["embeddings"].values.tolist()
@@ -77,7 +76,7 @@ def compare_text(transcript, categories, threshold):
                     }
                     df_results = df_results.append(new_row, ignore_index=True)
-    df_by_line = df_cosines.round(decimals = 3)
     df_results = df_results.sort_values(['line','similarity'],ascending=[True,False]).round(decimals = 3)
     df_summary = pd.DataFrame(df_cosines.max(numeric_only=True),columns=['similarity'])
@@ -103,7 +102,7 @@ def compare_text(transcript, categories, threshold):
     df_results = df_results.round(decimals = 3)
     df_summary = df_summary['similarity'].round(decimals = 2)
-    return df_summary.to_dict(), fig, df_by_line, df_results
 categories = """Hello=Hello, how are you doing today?;Hi, everybody;Hi;My name's Johnny
 What=most advanced conversation intelligence and AI powered coaching platform;a software platform that helps people reach their potential;for communicating and connecting;empowered by behavioral science;uses artificial intelligence;drives performance outcomes for customer facing teams;help them sell more;help them deliver better experiences

     embeddings = model.encode(sentences, convert_to_tensor=True)
     # Categories
     df_category_list = process_categories(categories)
+    df_cosines = pd.DataFrame(sentences, columns=['sentence'],index=list(range(1,len(sentences)+1)))
     df_results = pd.DataFrame(columns=['line', 'sentence', 'phrase', 'category', 'similarity'])
     for _, df_category in enumerate(df_category_list):
         df_category.reset_index(drop=True, inplace=True)
         phrases_list = df_category["embeddings"].values.tolist()
                     }
                     df_results = df_results.append(new_row, ignore_index=True)
+    df_cosines = df_cosines.round(decimals = 3)
     df_results = df_results.sort_values(['line','similarity'],ascending=[True,False]).round(decimals = 3)
     df_summary = pd.DataFrame(df_cosines.max(numeric_only=True),columns=['similarity'])
     df_results = df_results.round(decimals = 3)
     df_summary = df_summary['similarity'].round(decimals = 2)
+    return df_summary.to_dict(), fig, df_cosines, df_results
 categories = """Hello=Hello, how are you doing today?;Hi, everybody;Hi;My name's Johnny
 What=most advanced conversation intelligence and AI powered coaching platform;a software platform that helps people reach their potential;for communicating and connecting;empowered by behavioral science;uses artificial intelligence;drives performance outcomes for customer facing teams;help them sell more;help them deliver better experiences