Spaces:

Oxbridge-Economics
/

Data-Collection-China

Running

OxbridgeEconomics commited on Jun 26, 2024

Commit

36b7b27

1 Parent(s): 93e74f7

commit

Files changed (1) hide show

daily.py CHANGED Viewed

@@ -100,10 +100,10 @@ i = 1
 while i > -1:
     CATEGORY_URL = f"http://www.csrc.gov.cn/searchList/a1a078ee0bc54721ab6b148884c784a8?_isAgg=true&_isJson=true&_pageSize=18&_template=index&_rangeTimeGte=&_channelName=&page={i}"
     i = i + 1
-    content = fetch_url(CATEGORY_URL)
-    reportinfo = json.loads(content)
-    for article in reportinfo['data']['results']:
-        try:
             parsed_datetime = datetime.strptime(time.strftime("%Y-%m-%d", time.strptime(article['publishedTimeStr'],"%Y-%m-%d %H:%M:%S")), "%Y-%m-%d")
             if  parsed_datetime < (datetime.today() - timedelta(days=DELTA)):
                 i = -1
@@ -128,8 +128,8 @@ while i > -1:
                 article['sentimentScore'], article['sentimentLabel'] = sentiment_computation(article['content'])
                 article['id'] = uuid.uuid5(uuid.NAMESPACE_OID, article['titleCN']+article['publishDate'])
                 update_content(article)
-        except Exception as error:
-            print(error)
 print("data.eastmoney.com")
 def crawl_eastmoney(url, article):

 while i > -1:
     CATEGORY_URL = f"http://www.csrc.gov.cn/searchList/a1a078ee0bc54721ab6b148884c784a8?_isAgg=true&_isJson=true&_pageSize=18&_template=index&_rangeTimeGte=&_channelName=&page={i}"
     i = i + 1
+    try:
+        content = fetch_url(CATEGORY_URL)
+        reportinfo = json.loads(content)
+        for article in reportinfo['data']['results']:
             parsed_datetime = datetime.strptime(time.strftime("%Y-%m-%d", time.strptime(article['publishedTimeStr'],"%Y-%m-%d %H:%M:%S")), "%Y-%m-%d")
             if  parsed_datetime < (datetime.today() - timedelta(days=DELTA)):
                 i = -1
                 article['sentimentScore'], article['sentimentLabel'] = sentiment_computation(article['content'])
                 article['id'] = uuid.uuid5(uuid.NAMESPACE_OID, article['titleCN']+article['publishDate'])
                 update_content(article)
+    except Exception as error:
+        print(error)
 print("data.eastmoney.com")
 def crawl_eastmoney(url, article):