PaperPulse

Sleeping

App Files Files Community

awacke1 commited on Sep 24, 2024

Commit

a384a25

verified ·

1 Parent(s): a2f0fdc

Update app.py

Browse files

Files changed (1) hide show

app.py +27 -60

app.py CHANGED Viewed

@@ -17,7 +17,7 @@ def get_rank_papers(url, progress=gr.Progress(track_tqdm=True)):
     offset = 0
     data_list = {}
     break_duplicate = 10
     while True:
         response = session.get(url, headers=headers, params={'page': offset})
         if response.status_code != 200:
@@ -29,11 +29,11 @@ def get_rank_papers(url, progress=gr.Progress(track_tqdm=True)):
             break
         for ppr in paper_info:
             title = ppr.find('h1').text.strip()
             if "paper" in ppr.find('a')['href']:
                 link = base_url + ppr.find('a')['href']
             else:
-                link = ppr.find('a')['href']
             Github_Star = ppr.find('span', class_='badge badge-secondary').text.strip().replace(',', '')
             pdf_link = ''
             try:
@@ -49,9 +49,9 @@ def get_rank_papers(url, progress=gr.Progress(track_tqdm=True)):
                 break_duplicate -= 1
                 if break_duplicate == 0:
                     return data_list
-        offset += 1
         progress.update(offset)
-    print('Data retrieval complete')
     return data_list
 def load_cached_data(cache_file):
@@ -68,15 +68,17 @@ def format_dataframe(data):
     df = pd.DataFrame(data).T
     df['title'] = df.index
     df = df[['title', 'Github Star', 'link', 'pdf_link']]
     return df
 def load_and_cache_data(url, cache_file):
     cached_data = load_cached_data(cache_file)
     if cached_data:
         print(f"Loading cached data from {cache_file}")
         return cached_data
     print(f"Fetching new data from {url}")
     new_data = get_rank_papers(url)
     save_cached_data(new_data, cache_file)
@@ -85,76 +87,41 @@ def load_and_cache_data(url, cache_file):
 def update_display(category):
     cache_file = f"{category}_papers_cache.json"
     url = f"https://paperswithcode.com/{category}" if category != "top" else "https://paperswithcode.com/"
     data = load_and_cache_data(url, cache_file)
     df = format_dataframe(data)
-    return len(df), df
 def load_all_data():
-    top_count, top_df = update_display("top")
-    new_count, new_df = update_display("latest")
-    greatest_count, greatest_df = update_display("greatest")
-    return top_count, top_df, new_count, new_df, greatest_count, greatest_df
-def save_dataframe_generic(df, filename):
-    try:
-        df.to_csv(filename, index=False)
-        return "Dataframe saved successfully."
-    except Exception as e:
-        return f"Error saving dataframe: {e}"
-def load_dataframe_generic(filename):
-    try:
-        if os.path.exists(filename):
-            df = pd.read_csv(filename)
-            return df, "Dataframe loaded successfully."
-        else:
-            return pd.DataFrame(), "Dataframe file not found."
-    except Exception as e:
-        return pd.DataFrame(), f"Error loading dataframe: {e}"
 with gr.Blocks() as demo:
     gr.Markdown("<h1><center>Papers Leaderboard</center></h1>")
     with gr.Tab("Top Trending Papers"):
         top_count = gr.Textbox(label="Number of Papers Fetched")
-        top_df = gr.DataFrame(interactive=True)
         top_button = gr.Button("Refresh Leaderboard")
-        top_load_button = gr.Button("Load Dataframe")
-        top_save_button = gr.Button("Save Dataframe")
-        top_save_status = gr.Textbox(label="Status")
-        top_button.click(fn=lambda: update_display("top"), inputs=None, outputs=[top_count, top_df])
-        top_save_button.click(fn=lambda df: save_dataframe_generic(df, 'top_dataframe.csv'), inputs=top_df, outputs=top_save_status)
-        top_load_button.click(fn=lambda: load_dataframe_generic('top_dataframe.csv'), inputs=None, outputs=[top_df, top_save_status])
     with gr.Tab("New Papers"):
         new_count = gr.Textbox(label="Number of Papers Fetched")
-        new_df = gr.DataFrame(interactive=True)
         new_button = gr.Button("Refresh Leaderboard")
-        new_load_button = gr.Button("Load Dataframe")
-        new_save_button = gr.Button("Save Dataframe")
-        new_save_status = gr.Textbox(label="Status")
-        new_button.click(fn=lambda: update_display("latest"), inputs=None, outputs=[new_count, new_df])
-        new_save_button.click(fn=lambda df: save_dataframe_generic(df, 'new_dataframe.csv'), inputs=new_df, outputs=new_save_status)
-        new_load_button.click(fn=lambda: load_dataframe_generic('new_dataframe.csv'), inputs=None, outputs=[new_df, new_save_status])
     with gr.Tab("Greatest Papers"):
         greatest_count = gr.Textbox(label="Number of Papers Fetched")
-        greatest_df = gr.DataFrame(interactive=True)
         greatest_button = gr.Button("Refresh Leaderboard")
-        greatest_load_button = gr.Button("Load Dataframe")
-        greatest_save_button = gr.Button("Save Dataframe")
-        greatest_save_status = gr.Textbox(label="Status")
-        greatest_button.click(fn=lambda: update_display("greatest"), inputs=None, outputs=[greatest_count, greatest_df])
-        greatest_save_button.click(fn=lambda df: save_dataframe_generic(df, 'greatest_dataframe.csv'), inputs=greatest_df, outputs=greatest_save_status)
-        greatest_load_button.click(fn=lambda: load_dataframe_generic('greatest_dataframe.csv'), inputs=None, outputs=[greatest_df, greatest_save_status])
     # Load initial data for all tabs
-    demo.load(fn=load_all_data, outputs=[top_count, top_df, new_count, new_df, greatest_count, greatest_df])
 # Launch the Gradio interface with a public link
-demo.launch(share=True)

     offset = 0
     data_list = {}
     break_duplicate = 10
     while True:
         response = session.get(url, headers=headers, params={'page': offset})
         if response.status_code != 200:
             break
         for ppr in paper_info:
             title = ppr.find('h1').text.strip()
             if "paper" in ppr.find('a')['href']:
                 link = base_url + ppr.find('a')['href']
             else:
+                link = ppr.find('a')['href']
             Github_Star = ppr.find('span', class_='badge badge-secondary').text.strip().replace(',', '')
             pdf_link = ''
             try:
                 break_duplicate -= 1
                 if break_duplicate == 0:
                     return data_list
+        offset += 1
         progress.update(offset)
+    print('Data retrieval complete')
     return data_list
 def load_cached_data(cache_file):
     df = pd.DataFrame(data).T
     df['title'] = df.index
     df = df[['title', 'Github Star', 'link', 'pdf_link']]
+    df['link'] = df['link'].apply(lambda x: f'<a href="{x}" target="_blank">Link</a>')
+    df['pdf_link'] = df['pdf_link'].apply(lambda x: f'<a href="{x}" target="_blank">{x}</a>')
     return df
 def load_and_cache_data(url, cache_file):
     cached_data = load_cached_data(cache_file)
     if cached_data:
         print(f"Loading cached data from {cache_file}")
         return cached_data
     print(f"Fetching new data from {url}")
     new_data = get_rank_papers(url)
     save_cached_data(new_data, cache_file)
 def update_display(category):
     cache_file = f"{category}_papers_cache.json"
     url = f"https://paperswithcode.com/{category}" if category != "top" else "https://paperswithcode.com/"
     data = load_and_cache_data(url, cache_file)
     df = format_dataframe(data)
+    return len(df), df.to_html(escape=False, index=False)
 def load_all_data():
+    top_count, top_html = update_display("top")
+    new_count, new_html = update_display("latest")
+    greatest_count, greatest_html = update_display("greatest")
+    return top_count, top_html, new_count, new_html, greatest_count, greatest_html
 with gr.Blocks() as demo:
     gr.Markdown("<h1><center>Papers Leaderboard</center></h1>")
     with gr.Tab("Top Trending Papers"):
         top_count = gr.Textbox(label="Number of Papers Fetched")
+        top_html = gr.HTML()
         top_button = gr.Button("Refresh Leaderboard")
+        top_button.click(fn=lambda: update_display("top"), inputs=None, outputs=[top_count, top_html])
     with gr.Tab("New Papers"):
         new_count = gr.Textbox(label="Number of Papers Fetched")
+        new_html = gr.HTML()
         new_button = gr.Button("Refresh Leaderboard")
+        new_button.click(fn=lambda: update_display("latest"), inputs=None, outputs=[new_count, new_html])
     with gr.Tab("Greatest Papers"):
         greatest_count = gr.Textbox(label="Number of Papers Fetched")
+        greatest_html = gr.HTML()
         greatest_button = gr.Button("Refresh Leaderboard")
+        greatest_button.click(fn=lambda: update_display("greatest"), inputs=None, outputs=[greatest_count, greatest_html])
     # Load initial data for all tabs
+    demo.load(fn=load_all_data, outputs=[top_count, top_html, new_count, new_html, greatest_count, greatest_html])
 # Launch the Gradio interface with a public link
+demo.launch(share=True)