Spaces:

Oxbridge-Economics
/

Data-Collection-China

Running

gavinzli commited on Dec 6, 2024

Commit

d710384

1 Parent(s): dcdb6e8

Handle IncompleteRead exception in _crawl function to prevent crashes during URL fetching

Files changed (1) hide show

source/eastmoney.py CHANGED Viewed

@@ -4,6 +4,7 @@ import urllib.request
 import uuid
 from datetime import datetime, timedelta
 from urllib.parse import urlparse
 from prefect import task, get_run_logger
 from lxml import etree
@@ -42,7 +43,11 @@ def _crawl(url, article):
     """
     domain = urlparse(url).netloc
     req = urllib.request.urlopen(url)
-    text = req.read()
     html_text = text.decode("utf-8")
     page = etree.HTML(html_text)
     contentcn, summary = encode_content(

 import uuid
 from datetime import datetime, timedelta
 from urllib.parse import urlparse
+from http.client import IncompleteRead
 from prefect import task, get_run_logger
 from lxml import etree
     """
     domain = urlparse(url).netloc
     req = urllib.request.urlopen(url)
+    try:
+        text = req.read()
+    except IncompleteRead as e:
+        print(e)
+        return
     html_text = text.decode("utf-8")
     page = etree.HTML(html_text)
     contentcn, summary = encode_content(