Spaces:

pentarosarium
/

clusters

Sleeping

App Files Files Community

pentarosarium commited on Nov 29, 2024

Commit

f06b820

1 Parent(s): ccf48e2

1.19 print debug

Browse files

Files changed (1) hide show

app.py +19 -2

app.py CHANGED Viewed

@@ -322,7 +322,7 @@ def create_download_link(df: pd.DataFrame, filename: str) -> str:
 def main():
-    st.title("кластеризуем новости v.1.19")
     st.write("Upload Excel file with columns: company, datetime, text")
     uploaded_file = st.file_uploader("Choose Excel file", type=['xlsx'])
@@ -360,14 +360,19 @@ def main():
                     # Step 1: Deduplicate
                     deduplicator = NewsDeduplicator(fuzzy_threshold)
                     dedup_df = deduplicator.deduplicate(df, progress_bar)
                     st.success(f"Removed {len(df) - len(dedup_df)} duplicates")
                     # Preserve all columns from original DataFrame in dedup_df
                     dedup_df_full = df_original.loc[dedup_df.index].copy()
                     # Step 2: Cluster deduplicated news
                     processor = NewsProcessor(similarity_threshold, time_threshold)
                     result_df = processor.process_news(dedup_df, progress_bar)
                     # Initialize set of indices to delete
                     indices_to_delete = set()
@@ -376,27 +381,39 @@ def main():
                     if len(result_df) > 0:
                         # Get all multi-item clusters
                         multi_clusters = result_df[result_df['cluster_size'] > 1]['cluster_id'].unique()
                         # For each multi-item cluster
                         for cluster_id in multi_clusters:
                             # Get rows in this cluster
                             cluster_mask = result_df['cluster_id'] == cluster_id
                             cluster_rows = result_df[cluster_mask]
                             # Get their original indices from dedup_df_full
                             original_indices = dedup_df_full.index[cluster_rows.index - 1]
                             # Find the row with longest text among these indices
                             text_lengths = dedup_df_full.loc[original_indices, text_column].fillna('').str.len()
                             longest_text_idx = text_lengths.idxmax()
                             # Add all other indices to delete set
-                            indices_to_delete.update(set(original_indices) - {longest_text_idx})
                     # Create final declustered DataFrame by removing identified rows
                     declustered_df = dedup_df_full.copy()
                     if indices_to_delete:
                         declustered_df = declustered_df.drop(index=list(indices_to_delete))
                     # Print statistics
                     st.success(f"""

 def main():
+    st.title("кластеризуем новости v.1.19 print debug")
     st.write("Upload Excel file with columns: company, datetime, text")
     uploaded_file = st.file_uploader("Choose Excel file", type=['xlsx'])
                     # Step 1: Deduplicate
                     deduplicator = NewsDeduplicator(fuzzy_threshold)
                     dedup_df = deduplicator.deduplicate(df, progress_bar)
+                    print("\nAfter deduplication:")
+                    print(f"dedup_df indices: {dedup_df.index.tolist()}")
                     st.success(f"Removed {len(df) - len(dedup_df)} duplicates")
                     # Preserve all columns from original DataFrame in dedup_df
                     dedup_df_full = df_original.loc[dedup_df.index].copy()
+                    print(f"dedup_df_full indices: {dedup_df_full.index.tolist()}")
                     # Step 2: Cluster deduplicated news
                     processor = NewsProcessor(similarity_threshold, time_threshold)
                     result_df = processor.process_news(dedup_df, progress_bar)
+                    print("\nAfter clustering:")
+                    print(f"result_df indices: {result_df.index.tolist()}")
                     # Initialize set of indices to delete
                     indices_to_delete = set()
                     if len(result_df) > 0:
                         # Get all multi-item clusters
                         multi_clusters = result_df[result_df['cluster_size'] > 1]['cluster_id'].unique()
+                        print(f"\nMulti-clusters found: {multi_clusters.tolist()}")
                         # For each multi-item cluster
                         for cluster_id in multi_clusters:
+                            print(f"\nProcessing cluster {cluster_id}:")
                             # Get rows in this cluster
                             cluster_mask = result_df['cluster_id'] == cluster_id
                             cluster_rows = result_df[cluster_mask]
+                            print(f"Cluster rows indices: {cluster_rows.index.tolist()}")
                             # Get their original indices from dedup_df_full
                             original_indices = dedup_df_full.index[cluster_rows.index - 1]
+                            print(f"Original indices: {original_indices.tolist()}")
                             # Find the row with longest text among these indices
                             text_lengths = dedup_df_full.loc[original_indices, text_column].fillna('').str.len()
+                            print(f"Text lengths: {text_lengths.to_dict()}")
                             longest_text_idx = text_lengths.idxmax()
+                            print(f"Longest text index: {longest_text_idx}")
                             # Add all other indices to delete set
+                            new_indices_to_delete = set(original_indices) - {longest_text_idx}
+                            indices_to_delete.update(new_indices_to_delete)
+                            print(f"Indices to delete from this cluster: {new_indices_to_delete}")
+                    print(f"\nFinal indices to delete: {sorted(list(indices_to_delete))}")
                     # Create final declustered DataFrame by removing identified rows
                     declustered_df = dedup_df_full.copy()
                     if indices_to_delete:
                         declustered_df = declustered_df.drop(index=list(indices_to_delete))
+                        print(f"\nFinal kept indices: {sorted(declustered_df.index.tolist())}")
                     # Print statistics
                     st.success(f"""