Spaces:

Oxbridge-Economics
/

Data-Collection-China

Sleeping

gavinzli commited on Jan 2

Commit

beed350

1 Parent(s): b68d569

Add handling for DependencyError in PDF extraction and update requirements to include pycryptodome

Files changed (2) hide show

controllers/utils.py CHANGED Viewed

@@ -405,7 +405,7 @@ def extract_from_pdf_by_pattern(url, pattern):
                     text = text.strip()
                 extracted_text += text
     except (requests.exceptions.RequestException, requests.exceptions.ReadTimeout,
-            PyPDF2.errors.PdfReadError) as e:
         logging.error(e)
         extracted_text = ''
     return extracted_text.replace('?\n', '?-\n').replace(

                     text = text.strip()
                 extracted_text += text
     except (requests.exceptions.RequestException, requests.exceptions.ReadTimeout,
+            PyPDF2.errors.PdfReadError, PyPDF2.errors.DependencyError) as e:
         logging.error(e)
         extracted_text = ''
     return extracted_text.replace('?\n', '?-\n').replace(

requirements.txt CHANGED Viewed

@@ -195,3 +195,4 @@ Werkzeug==3.0.3
 wrapt==1.16.0
 yarl==1.9.4
 prefect==2.20.2

 wrapt==1.16.0
 yarl==1.9.4
 prefect==2.20.2
+pycryptodome==3.21.0