PaperPulse

Sleeping

App Files Files Community

awacke1 commited on Sep 26, 2024

Commit

283e444

verified ·

1 Parent(s): 4b0b693

Update app.py

Browse files

Files changed (1) hide show

app.py +24 -7

app.py CHANGED Viewed

@@ -68,6 +68,7 @@ def get_rank_papers(url, progress=gr.Progress(track_tqdm=True)):
         soup = BeautifulSoup(response.text, 'html.parser')
         paper_info = soup.find_all('div', class_='row infinite-item item paper-card')
         if not paper_info:
             break
         for ppr in paper_info:
             title = ppr.find('h1').text.strip()
@@ -76,15 +77,20 @@ def get_rank_papers(url, progress=gr.Progress(track_tqdm=True)):
                 link = base_url + ppr.find('a')['href']
             else:
                 link = ppr.find('a')['href']
-            Github_Star = ppr.find('span', class_='badge badge-secondary').text.strip().replace(',', '')
             pdf_link = ''
             try:
                 response_link = session.get(link, headers=headers)
                 soup_link = BeautifulSoup(response_link.text, 'html.parser')
                 paper_info_link = soup_link.find_all('div', class_='paper-abstract')
                 pdf_link = paper_info_link[0].find('div', class_='col-md-12').find('a')['href']
-            except:
-                pass
             if title not in data_list:
                 data_list[title] = {'link': link, 'Github Star': int(Github_Star), 'pdf_link': pdf_link.strip()}
             else:
@@ -125,12 +131,23 @@ def load_and_cache_data(url, cache_file):
 def format_dataframe(data):
     """Format data into a pretty DataFrame. It's like giving your data a makeover! 💅📈"""
     df = pd.DataFrame(data).T
     df['title'] = df.index
-    df = df[['title', 'Github Star', 'link', 'pdf_link']]
-    df = df.sort_values(by='Github Star', ascending=False)
-    df['link'] = df['link'].apply(lambda x: f'<a href="{x}" target="_blank">Link</a>')
-    df['pdf_link'] = df['pdf_link'].apply(lambda x: f'<a href="{x}" target="_blank">{x}</a>')
     return df
 def update_display(category):

         soup = BeautifulSoup(response.text, 'html.parser')
         paper_info = soup.find_all('div', class_='row infinite-item item paper-card')
         if not paper_info:
+            print("No paper information found.")
             break
         for ppr in paper_info:
             title = ppr.find('h1').text.strip()
                 link = base_url + ppr.find('a')['href']
             else:
                 link = ppr.find('a')['href']
+            Github_Star = ppr.find('span', class_='badge badge-secondary').text.strip().replace(',', '') if ppr.find('span', class_='badge badge-secondary') else "0"
             pdf_link = ''
             try:
                 response_link = session.get(link, headers=headers)
                 soup_link = BeautifulSoup(response_link.text, 'html.parser')
                 paper_info_link = soup_link.find_all('div', class_='paper-abstract')
                 pdf_link = paper_info_link[0].find('div', class_='col-md-12').find('a')['href']
+            except Exception as e:
+                print(f"Failed to retrieve PDF link for {title}: {e}")
+            print(f"Title: {title}, Link: {link}, Github Star: {Github_Star}, PDF Link: {pdf_link}")
             if title not in data_list:
                 data_list[title] = {'link': link, 'Github Star': int(Github_Star), 'pdf_link': pdf_link.strip()}
             else:
 def format_dataframe(data):
     """Format data into a pretty DataFrame. It's like giving your data a makeover! 💅📈"""
+    if not data:
+        print("No data found to format.")
+        return pd.DataFrame()
     df = pd.DataFrame(data).T
     df['title'] = df.index
+    # Check if required columns are present
+    if 'Github Star' in df.columns and 'link' in df.columns and 'pdf_link' in df.columns:
+        df = df[['title', 'Github Star', 'link', 'pdf_link']]
+        df = df.sort_values(by='Github Star', ascending=False)
+        df['link'] = df['link'].apply(lambda x: f'<a href="{x}" target="_blank">Link</a>')
+        df['pdf_link'] = df['pdf_link'].apply(lambda x: f'<a href="{x}" target="_blank">{x}</a>')
+    else:
+        print("Required columns are missing in the dataframe.")
+        print(f"Columns available: {df.columns}")
     return df
 def update_display(category):