Spaces:

2catycm
/

HyperPapers

Sleeping

App Files Files Community

2catycm commited on 21 days ago

Commit

db9ca60

1 Parent(s): 2835ddd

refrac

Browse files

Files changed (7) hide show

__pycache__/data_processor.cpython-311.pyc +0 -0
__pycache__/hypergraph_drawer.cpython-311.pyc +0 -0
__pycache__/visualizer.cpython-311.pyc +0 -0
app.py +65 -132
data_processor.py +25 -0
hypergraph_drawer.py +20 -0
visualizer.py +43 -0

__pycache__/data_processor.cpython-311.pyc ADDED Viewed

Binary file (1.8 kB). View file

__pycache__/hypergraph_drawer.cpython-311.pyc ADDED Viewed

Binary file (1.17 kB). View file

__pycache__/visualizer.cpython-311.pyc ADDED Viewed

Binary file (1.92 kB). View file

app.py CHANGED Viewed

@@ -1,136 +1,69 @@
 import streamlit as st
-import pandas as pd
-import numpy as np
-import plotly.express as px
-import hypernetx as hnx
-import matplotlib.pyplot as plt
-from matplotlib.backends.backend_agg import FigureCanvasAgg as FigureCanvas
-from io import BytesIO
-import time
-# 读取数据
-df = pd.read_csv("gmm_point_tracking_with_centroids.csv")
 st.set_page_config(layout="wide")
-# Streamlit 应用
-st.title("高斯混合分布聚类可视化")
-# 设置页面宽度
-# 使用 sidebar 控制参数
-with st.sidebar:
-    st.header("控制面板")
-    autoplay = st.button("自动播放")
-    if autoplay:
-        for i in range(1, 11):
-            with st.spinner(f"迭代 {i}"):
-                time.sleep(1)
-                st.session_state.iteration = i
-                st.rerun()
-        st.session_state.autoplay = False
-        # st.experimental_rerun()
-# 主页面布局
-if 'autoplay' not in st.session_state:
-    st.session_state.autoplay = True
-if 'iteration' not in st.session_state:
-    st.session_state.iteration = 1
-if st.session_state.autoplay:
-    # 隐藏迭代次数滑条
-    iteration = st.session_state.iteration
-else:
-    # 显示迭代次数滑条
-    iteration = st.slider("选择迭代次数", min_value=1, max_value=10, value=st.session_state.iteration, step=1)
-# 动态限制采样数量的最大值
-max_samples = len(df)
-num_samples = st.slider("选择采样论文数量", min_value=1, max_value=min(100, max_samples), value=min(10, max_samples), step=1)
-# 随机采样论文
-sampled_df = df.sample(n=num_samples, random_state=iteration)
-# 计算每个论文属于各个 cluster 的概率
-probabilities = []
-for idx, row in sampled_df.iterrows():
-    prob_str = row["probabilities"].strip("[]")
-    prob_list = list(map(float, prob_str.split(", ")))
-    probabilities.append(prob_list)
-# 找到每个论文概率最高的 3 个 cluster
-k = 3
-hyperedges = {}
-for idx, prob in enumerate(probabilities):
-    top_k = np.argsort(prob)[-k:][::-1]
-    hyperedges[idx] = [f"Cluster {c}" for c in top_k]
-# 构建超图
-H = hnx.Hypergraph(hyperedges)
-# 绘制超图
-fig_hnx, ax = plt.subplots(figsize=(12, 8))
-hnx.draw(H, ax=ax)
-# 将超图保存为图像
-canvas = FigureCanvas(fig_hnx)
-buffer = BytesIO()
-canvas.print_png(buffer)
-buffer.seek(0)
-# 用 Plotly 可视化高斯混合分布
-fig_gmm = px.scatter(
-    sampled_df,
-    x="x",
-    y="y",
-    color="cluster",
-    hover_data=["title", "keywords", "rating_avg", "confidence_avg", "author", "site"],
-    title=f"高斯混合分布聚类（迭代 {iteration}）",
-)
-# 添加聚类中心点
-for cluster in sampled_df["cluster"].unique():
-    centroid_x = sampled_df[sampled_df["cluster"] == cluster]["centroid_x"].iloc[0]
-    centroid_y = sampled_df[sampled_df["cluster"] == cluster]["centroid_y"].iloc[0]
-    fig_gmm.add_scatter(
-        x=[centroid_x],
-        y=[centroid_y],
-        mode="markers",
-        marker=dict(size=15, color="black", symbol="x"),
-        name=f"Cluster {cluster} Center",
-    )
-# 并排展示超图和高斯混合分布
-col1, col2 = st.columns(2)
-col1.header("超图可视化")
-col1.image(buffer, caption="超图可视化", use_column_width=True)
-col2.header("高斯混合分布聚类结果")
-col2.plotly_chart(fig_gmm, use_container_width=True)
-# 显示采样论文的详细信息
-st.header("采样论文详细信息")
-st.dataframe(sampled_df[["title", "keywords", "rating_avg", "confidence_avg", "site"]])
-# 增加第二种可视化方式
-st.header("论文评分分布")
-# 创建柱状图
-fig_bar = px.bar(
-    sampled_df,
-    x="title",
-    y="rating_avg",
-    color="cluster",
-    title="论文评分分布",
-    hover_data=["keywords", "confidence_avg", "author"],
-)
-# 调整布局
-fig_bar.update_layout(
-    xaxis_title="论文标题",
-    yaxis_title="平均评分",
-    xaxis_tickangle=-45,
-)
-# 显示柱状图
-st.plotly_chart(fig_bar, use_container_width=True)

 import streamlit as st
+from data_processor import load_data, process_data
+from visualizer import visualize_gmm, visualize_ratings
+from hypergraph_drawer import draw_hypergraph
+# 设置页面配置
 st.set_page_config(layout="wide")
+# 主应用
+def main():
+    st.title("高斯混合分布聚类可视化")
+    # 使用 sidebar 控制参数
+    with st.sidebar:
+        st.header("控制面板")
+        autoplay = st.button("自动播放")
+        if autoplay:
+            for i in range(1, 11):
+                with st.spinner(f"迭代 {i}"):
+                    time.sleep(1)
+                    st.session_state.iteration = i
+            st.session_state.autoplay = False
+            st.experimental_rerun()
+    # 主页面布局
+    if 'autoplay' not in st.session_state:
+        st.session_state.autoplay = True
+    if 'iteration' not in st.session_state:
+        st.session_state.iteration = 1
+    if st.session_state.autoplay:
+        # 隐藏迭代次数滑条
+        iteration = st.session_state.iteration
+    else:
+        # 显示迭代次数滑条
+        iteration = st.slider("选择迭代次数", min_value=1, max_value=10, value=st.session_state.iteration, step=1)
+    # 动态限制采样数量的最大值
+    df = load_data()
+    max_samples = len(df)
+    num_samples = st.slider("选择采样论文数量", min_value=1, max_value=min(100, max_samples), value=min(10, max_samples), step=1)
+    # 处理数据
+    sampled_df, probabilities, hyperedges = process_data(df, iteration, num_samples)
+    # 并排展示超图和高斯混合分布
+    col1, col2 = st.columns(2)
+    with col1:
+        st.header("超图可视化")
+        hypergraph_image = draw_hypergraph(hyperedges)
+        st.image(hypergraph_image, caption="超图可视化", use_container_width=True)
+    with col2:
+        st.header("高斯混合分布聚类结果")
+        fig_gmm = visualize_gmm(sampled_df, iteration)
+        st.plotly_chart(fig_gmm, use_container_width=True)
+    # 显示采样论文的详细信息
+    st.header("采样论文详细信息")
+    st.dataframe(sampled_df[["title", "keywords", "rating_avg", "confidence_avg", "site"]])
+    # 增加第二种可视化方式
+    st.header("论文评分分布")
+    fig_bar = visualize_ratings(sampled_df)
+    st.plotly_chart(fig_bar, use_container_width=True)
+if __name__ == "__main__":
+    main()

data_processor.py ADDED Viewed

	@@ -0,0 +1,25 @@

+import pandas as pd
+import numpy as np
+def load_data():
+    return pd.read_csv("gmm_point_tracking_with_centroids.csv")
+def process_data(df, iteration, num_samples):
+    # 随机采样论文
+    sampled_df = df.sample(n=num_samples, random_state=iteration)
+    # 计算每个论文属于各个 cluster 的概率
+    probabilities = []
+    for idx, row in sampled_df.iterrows():
+        prob_str = row["probabilities"].strip("[]")
+        prob_list = list(map(float, prob_str.split(", ")))
+        probabilities.append(prob_list)
+    # 找到每个论文概率最高的 3 个 cluster
+    k = 3
+    hyperedges = {}
+    for idx, prob in enumerate(probabilities):
+        top_k = np.argsort(prob)[-k:][::-1]
+        hyperedges[idx] = [f"Cluster {c}" for c in top_k]
+    return sampled_df, probabilities, hyperedges

hypergraph_drawer.py ADDED Viewed

	@@ -0,0 +1,20 @@

+import hypernetx as hnx
+import matplotlib.pyplot as plt
+from matplotlib.backends.backend_agg import FigureCanvasAgg as FigureCanvas
+from io import BytesIO
+def draw_hypergraph(hyperedges):
+    # 构建超图
+    H = hnx.Hypergraph(hyperedges)
+    # 绘制超图
+    fig, ax = plt.subplots(figsize=(12, 8))
+    hnx.draw(H, ax=ax)
+    # 将超图保存为图像
+    canvas = FigureCanvas(fig)
+    buffer = BytesIO()
+    canvas.print_png(buffer)
+    buffer.seek(0)
+    return buffer

visualizer.py ADDED Viewed

	@@ -0,0 +1,43 @@

+import plotly.express as px
+def visualize_gmm(sampled_df, iteration):
+    fig = px.scatter(
+        sampled_df,
+        x="x",
+        y="y",
+        color="cluster",
+        hover_data=["title", "keywords", "rating_avg", "confidence_avg", "author", "site"],
+        title=f"高斯混合分布聚类（迭代 {iteration}）",
+    )
+    # 添加聚类中心点
+    for cluster in sampled_df["cluster"].unique():
+        centroid_x = sampled_df[sampled_df["cluster"] == cluster]["centroid_x"].iloc[0]
+        centroid_y = sampled_df[sampled_df["cluster"] == cluster]["centroid_y"].iloc[0]
+        fig.add_scatter(
+            x=[centroid_x],
+            y=[centroid_y],
+            mode="markers",
+            marker=dict(size=15, color="black", symbol="x"),
+            name=f"Cluster {cluster} Center",
+        )
+    return fig
+def visualize_ratings(sampled_df):
+    fig = px.bar(
+        sampled_df,
+        x="title",
+        y="rating_avg",
+        color="cluster",
+        title="论文评分分布",
+        hover_data=["keywords", "confidence_avg", "author"],
+    )
+    fig.update_layout(
+        xaxis_title="论文标题",
+        yaxis_title="平均评分",
+        xaxis_tickangle=-45,
+    )
+    return fig