Spaces:

pentarosarium
/

clusters

Sleeping

App Files Files Community

pentarosarium commited on Dec 3, 2024

Commit

25558c7

1 Parent(s): 67890fd

1.23 print debug

Browse files

Files changed (1) hide show

app.py +7 -4

app.py CHANGED Viewed

@@ -301,7 +301,7 @@ def create_download_link(df: pd.DataFrame, filename: str) -> str:
 def main():
-    st.title("кластеризуем новости v.1.22 + print debug")
     st.write("Upload Excel file with columns: company, datetime, text")
     uploaded_file = st.file_uploader("Choose Excel file", type=['xlsx'])
@@ -339,6 +339,10 @@ def main():
                     # Step 1: Deduplicate
                     deduplicator = NewsDeduplicator(fuzzy_threshold)
                     dedup_df = deduplicator.deduplicate(df, progress_bar)
                     st.write("\nDeduplication Results:")
                     st.write(f"Original indices: {df.index.tolist()}")
                     st.write(f"Dedup indices: {dedup_df.index.tolist()}")
@@ -382,19 +386,18 @@ def main():
                     st.write(f"Indices to delete: {sorted(list(indices_to_delete))}")
                     # Create final DataFrame
-                    declustered_df = dedup_df.copy()
                     if indices_to_delete:
                         declustered_df = declustered_df.drop(index=list(indices_to_delete))
                     st.write(f"Final indices kept: {sorted(declustered_df.index.tolist())}")
                     # Print statistics
                     st.success(f"""
                         Processing results:
                         - Original rows: {len(df_original)}
                         - After deduplication: {len(dedup_df_full)}
-                        - Multi-item clusters found: {len(multi_clusters) if len(result_df) > 0 else 0}
                         - Rows removed from clusters: {len(indices_to_delete)}
                         - Final rows kept: {len(declustered_df)}
                     """)

 def main():
+    st.title("кластеризуем новости v.1.23 + print debug")
     st.write("Upload Excel file with columns: company, datetime, text")
     uploaded_file = st.file_uploader("Choose Excel file", type=['xlsx'])
                     # Step 1: Deduplicate
                     deduplicator = NewsDeduplicator(fuzzy_threshold)
                     dedup_df = deduplicator.deduplicate(df, progress_bar)
+                    # Preserve all columns from original DataFrame in dedup_df_full
+                    dedup_df_full = df_original.loc[dedup_df.index].copy()
                     st.write("\nDeduplication Results:")
                     st.write(f"Original indices: {df.index.tolist()}")
                     st.write(f"Dedup indices: {dedup_df.index.tolist()}")
                     st.write(f"Indices to delete: {sorted(list(indices_to_delete))}")
                     # Create final DataFrame
+                    declustered_df = dedup_df_full.copy()
                     if indices_to_delete:
                         declustered_df = declustered_df.drop(index=list(indices_to_delete))
                     st.write(f"Final indices kept: {sorted(declustered_df.index.tolist())}")
                     # Print statistics
                     st.success(f"""
                         Processing results:
                         - Original rows: {len(df_original)}
                         - After deduplication: {len(dedup_df_full)}
+                        - Multi-item clusters found: {len(result_df[result_df['cluster_size'] > 1]['cluster_id'].unique()) if len(result_df) > 0 else 0}
                         - Rows removed from clusters: {len(indices_to_delete)}
                         - Final rows kept: {len(declustered_df)}
                     """)