Spaces:

2catycm
/

HyperPapers

Sleeping

App Files Files Community

2catycm commited on 22 days ago

Commit

2835ddd

1 Parent(s): 1d0271a

feat: init 2

Browse files

Files changed (1) hide show

app.py +68 -15

app.py CHANGED Viewed

@@ -2,36 +2,84 @@ import streamlit as st
 import pandas as pd
 import numpy as np
 import plotly.express as px
 import time
 # 读取数据
 df = pd.read_csv("gmm_point_tracking_with_centroids.csv")
 # Streamlit 应用
 st.title("高斯混合分布聚类可视化")
 # 使用 sidebar 控制参数
 with st.sidebar:
     st.header("控制面板")
-    iteration = st.slider("选择迭代次数", min_value=1, max_value=10, value=1, step=1)
-    max_samples = len(df)
-    num_samples = st.slider("选择采样论文数量", min_value=1, max_value=min(100, max_samples), value=min(10, max_samples), step=1)
-    autoplay = st.checkbox("自动播放", value=False)
     if autoplay:
         for i in range(1, 11):
-            iteration = i
-            st.session_state.iteration = i
-            time.sleep(1)
-            st.experimental_rerun()
 # 主页面布局
-st.header("高斯混合分布聚类结果")
 # 随机采样论文
 sampled_df = df.sample(n=num_samples, random_state=iteration)
-# 用 Plotly 可视化
-fig = px.scatter(
     sampled_df,
     x="x",
     y="y",
@@ -44,7 +92,7 @@ fig = px.scatter(
 for cluster in sampled_df["cluster"].unique():
     centroid_x = sampled_df[sampled_df["cluster"] == cluster]["centroid_x"].iloc[0]
     centroid_y = sampled_df[sampled_df["cluster"] == cluster]["centroid_y"].iloc[0]
-    fig.add_scatter(
         x=[centroid_x],
         y=[centroid_y],
         mode="markers",
@@ -52,11 +100,16 @@ for cluster in sampled_df["cluster"].unique():
         name=f"Cluster {cluster} Center",
     )
-# 让图占比更大
-st.plotly_chart(fig, use_container_width=True)
 # 显示采样论文的详细信息
-st.subheader("采样论文详细信息")
 st.dataframe(sampled_df[["title", "keywords", "rating_avg", "confidence_avg", "site"]])
 # 增加第二种可视化方式

 import pandas as pd
 import numpy as np
 import plotly.express as px
+import hypernetx as hnx
+import matplotlib.pyplot as plt
+from matplotlib.backends.backend_agg import FigureCanvasAgg as FigureCanvas
+from io import BytesIO
 import time
 # 读取数据
 df = pd.read_csv("gmm_point_tracking_with_centroids.csv")
+st.set_page_config(layout="wide")
 # Streamlit 应用
 st.title("高斯混合分布聚类可视化")
+# 设置页面宽度
 # 使用 sidebar 控制参数
 with st.sidebar:
     st.header("控制面板")
+    autoplay = st.button("自动播放")
     if autoplay:
         for i in range(1, 11):
+            with st.spinner(f"迭代 {i}"):
+                time.sleep(1)
+                st.session_state.iteration = i
+                st.rerun()
+        st.session_state.autoplay = False
+        # st.experimental_rerun()
 # 主页面布局
+if 'autoplay' not in st.session_state:
+    st.session_state.autoplay = True
+if 'iteration' not in st.session_state:
+    st.session_state.iteration = 1
+if st.session_state.autoplay:
+    # 隐藏迭代次数滑条
+    iteration = st.session_state.iteration
+else:
+    # 显示迭代次数滑条
+    iteration = st.slider("选择迭代次数", min_value=1, max_value=10, value=st.session_state.iteration, step=1)
+# 动态限制采样数量的最大值
+max_samples = len(df)
+num_samples = st.slider("选择采样论文数量", min_value=1, max_value=min(100, max_samples), value=min(10, max_samples), step=1)
 # 随机采样论文
 sampled_df = df.sample(n=num_samples, random_state=iteration)
+# 计算每个论文属于各个 cluster 的概率
+probabilities = []
+for idx, row in sampled_df.iterrows():
+    prob_str = row["probabilities"].strip("[]")
+    prob_list = list(map(float, prob_str.split(", ")))
+    probabilities.append(prob_list)
+# 找到每个论文概率最高的 3 个 cluster
+k = 3
+hyperedges = {}
+for idx, prob in enumerate(probabilities):
+    top_k = np.argsort(prob)[-k:][::-1]
+    hyperedges[idx] = [f"Cluster {c}" for c in top_k]
+# 构建超图
+H = hnx.Hypergraph(hyperedges)
+# 绘制超图
+fig_hnx, ax = plt.subplots(figsize=(12, 8))
+hnx.draw(H, ax=ax)
+# 将超图保存为图像
+canvas = FigureCanvas(fig_hnx)
+buffer = BytesIO()
+canvas.print_png(buffer)
+buffer.seek(0)
+# 用 Plotly 可视化高斯混合分布
+fig_gmm = px.scatter(
     sampled_df,
     x="x",
     y="y",
 for cluster in sampled_df["cluster"].unique():
     centroid_x = sampled_df[sampled_df["cluster"] == cluster]["centroid_x"].iloc[0]
     centroid_y = sampled_df[sampled_df["cluster"] == cluster]["centroid_y"].iloc[0]
+    fig_gmm.add_scatter(
         x=[centroid_x],
         y=[centroid_y],
         mode="markers",
         name=f"Cluster {cluster} Center",
     )
+# 并排展示超图和高斯混合分布
+col1, col2 = st.columns(2)
+col1.header("超图可视化")
+col1.image(buffer, caption="超图可视化", use_column_width=True)
+col2.header("高斯混合分布聚类结果")
+col2.plotly_chart(fig_gmm, use_container_width=True)
 # 显示采样论文的详细信息
+st.header("采样论文详细信息")
 st.dataframe(sampled_df[["title", "keywords", "rating_avg", "confidence_avg", "site"]])
 # 增加第二种可视化方式