Spaces:

Oxbridge-Economics
/

Data-Collection-China

Sleeping

gavinzli commited on Jan 9

Commit

48adbee

1 Parent(s): f313f6f

Handle LangDetectException in crawl_by_url function to improve error handling

Files changed (1) hide show

controllers/utils.py CHANGED Viewed

@@ -16,7 +16,7 @@ import pandas as pd
 import requests
 from dotenv import load_dotenv
 from deep_translator import GoogleTranslator, exceptions
-from langdetect import detect
 from lxml import etree
 import PyPDF2
 from transformers import pipeline
@@ -682,7 +682,8 @@ def crawl_by_url(url, article):
             for element in contentcn.split("。"):
                 contenteng += translate(element) + '. '
     except (requests.exceptions.RequestException, requests.exceptions.ReadTimeout,
-            PyPDF2.errors.PdfReadError, PyPDF2.errors.DependencyError) as e:
         print(f"An unexpected error occurred: {e}")
     article['content'] = repr(contenteng)[1:-1].strip()
     try:

 import requests
 from dotenv import load_dotenv
 from deep_translator import GoogleTranslator, exceptions
+from langdetect import detect, lang_detect_exception
 from lxml import etree
 import PyPDF2
 from transformers import pipeline
             for element in contentcn.split("。"):
                 contenteng += translate(element) + '. '
     except (requests.exceptions.RequestException, requests.exceptions.ReadTimeout,
+            PyPDF2.errors.PdfReadError, PyPDF2.errors.DependencyError,
+            lang_detect_exception.LangDetectException) as e:
         print(f"An unexpected error occurred: {e}")
     article['content'] = repr(contenteng)[1:-1].strip()
     try: