Spaces:

sergiomar73
/

qc-nlp-004-transcription-classifier-with-roberta

Build error

App Files Files Community

sergiomar73 commited on Oct 4, 2022

Commit

f3bcc60

1 Parent(s): 02d6d31

Update app.py

Browse files

Files changed (1) hide show

app.py +32 -47

app.py CHANGED Viewed

@@ -48,23 +48,36 @@ def process_categories(categories):
     return df_category_list
 def compare_text(transcript, categories):
-    df_sentences = pd.DataFrame(columns=['line', 'sentence', 'embedding'])
-    for idx, sentence in enumerate(transcript_to_sentences(transcript)):
-        embeddings = calculate_embeddings_with_roberta(sentence)
-        # Create new row
-        new_row = {
-            'line': idx + 1,
-            'sentence': sentence,
-            'embedding': embeddings
-        }
-        df_sentences = df_sentences.append(new_row, ignore_index=True)
-    # print(df_sentences.shape)
-    # df_sentences.head()
-    return df_sentences
-    targets = np.array([ np.array(value[0]) for value in df_phrases[["embedding"]].values ])
-    # print(f"targets:{targets.shape}")
-    df_cosines = pd.DataFrame(columns=['line'])
     for i, row in df_sentences.iterrows():
         line = f'{row["line"]:03}'
         # print(f'Calculating cosines for [ {line} ] {row["sentence"][:50]}...')
@@ -132,37 +145,9 @@ def compare_text(transcript, categories):
     return res, fig, details
-    df_category_list = process_categories(categories)
-    sentences = transcript_to_sentences(transcript)
-    print(f"{len(sentences)} sentences")
-    df_results = pd.DataFrame(sentences, columns=['Sentence'])
-    embeddings = model.encode(sentences, convert_to_tensor=True)
-    for _, df_category in enumerate(df_category_list):
-        phrases_list = df_category["embeddings"].values.tolist()
-        phrases = torch.stack(phrases_list)
-        # Compute cosine-similarities
-        cosine_scores = util.cos_sim(embeddings, phrases).numpy()
-        max_scores = np.max(cosine_scores, axis=1)
-        df_results_plot[df_category.iloc[0,2]] = max_scores
-        df_results_grid[df_category.iloc[0,2]] = max_scores
-    df_results_plot = df_results_plot.round(decimals = 2)
-    df_results_grid = df_results_grid.round(decimals = 3)
-    df_sentences = pd.DataFrame(columns=['line', 'sentence', 'embedding'])
-    for idx, sentence in enumerate(transcript_to_sentences(transcript)):
-        embeddings = calculate_embeddings_with_roberta(sentence)
-        # Create new row
-        new_row = {
-            'line': idx + 1,
-            'sentence': sentence,
-            'embedding': embeddings
-        }
-        df_sentences = df_sentences.append(new_row, ignore_index=True)
-    # print(df_sentences.shape)
-    # df_sentences.head()
-    return df_sentences
-    #return res, fig, details
     doc = nlp(transcript)
     sentences = [ sentence.text for sentence in list(doc.sents) ]

     return df_category_list
 def compare_text(transcript, categories):
+    # Sentences
+    # df_sentences = pd.DataFrame(columns=['line', 'sentence', 'embedding'])
+    sentences = transcript_to_sentences(transcript)
+    embeddings = model.encode(sentences, convert_to_tensor=True)
+    #for idx, sentence in enumerate(sentences):
+    #    embeddings = calculate_embeddings_with_roberta(sentence)
+    #    # Create new row
+    #    new_row = {
+    #        'line': idx + 1,
+    #        'sentence': sentence,
+    #        'embedding': embeddings
+    #    }
+    #    df_sentences = df_sentences.append(new_row, ignore_index=True)
+    # Categories
+    df_category_list = process_categories(categories)
+    df_cosines = pd.DataFrame(data=range(len(sentences)),columns=['line'])
+    return df_cosines
+    for _, df_category in enumerate(df_category_list):
+        phrases_list = df_category["embeddings"].values.tolist()
+        phrases = torch.stack(phrases_list)
+        # Compute cosine-similarities
+        cosine_scores = util.cos_sim(embeddings, phrases).numpy()
+        max_scores = np.max(cosine_scores, axis=1)
+        df_results_plot[df_category.iloc[0,2]] = max_scores
+        df_results_grid[df_category.iloc[0,2]] = max_scores
     for i, row in df_sentences.iterrows():
         line = f'{row["line"]:03}'
         # print(f'Calculating cosines for [ {line} ] {row["sentence"][:50]}...')
     return res, fig, details
+    #*********************************************************
     doc = nlp(transcript)
     sentences = [ sentence.text for sentence in list(doc.sents) ]