Spaces:

hellorahulk
/

docling_free

Running

App Files Files Community

hellorahulk commited on Jan 23

Commit

6c30c7d

1 Parent(s): 6ef7758

Fix Docling import and usage

Browse files

Files changed (1) hide show

dockling_parser/parser.py +9 -10

dockling_parser/parser.py CHANGED Viewed

@@ -2,7 +2,7 @@ import os
 from pathlib import Path
 from typing import Optional, Dict, Any, Union
 import magic
-import docling as dl
 from datetime import datetime
 from .types import ParsedDocument, DocumentMetadata
@@ -23,7 +23,6 @@ class DocumentParser:
     def __init__(self, config: Optional[Dict[str, Any]] = None):
         self.config = config or {}
-        self.docling = dl.Docling()
     def parse(self, file_path: Union[str, Path]) -> ParsedDocument:
         """
@@ -60,19 +59,19 @@ class DocumentParser:
             )
             # Parse document using Docling
-            doc = self.docling.parse(str(file_path))
             # Extract content and structure
             content = doc.text
             structured_content = {
-                'sections': doc.sections,
-                'paragraphs': doc.paragraphs,
-                'entities': doc.entities,
-                'metadata': doc.metadata
             }
             # Update metadata with document-specific information
-            if doc.metadata:
                 metadata.title = doc.metadata.get('title')
                 metadata.author = doc.metadata.get('author')
                 metadata.pages = doc.metadata.get('pages')
@@ -81,9 +80,9 @@ class DocumentParser:
             return ParsedDocument(
                 content=content,
                 metadata=metadata,
-                raw_text=doc.raw_text,
                 structured_content=structured_content,
-                confidence_score=doc.confidence if hasattr(doc, 'confidence') else 1.0
             )
         except Exception as e:

 from pathlib import Path
 from typing import Optional, Dict, Any, Union
 import magic
+from docling import DoclingDocument
 from datetime import datetime
 from .types import ParsedDocument, DocumentMetadata
     def __init__(self, config: Optional[Dict[str, Any]] = None):
         self.config = config or {}
     def parse(self, file_path: Union[str, Path]) -> ParsedDocument:
         """
             )
             # Parse document using Docling
+            doc = DoclingDocument.from_file(str(file_path))
             # Extract content and structure
             content = doc.text
             structured_content = {
+                'sections': doc.sections if hasattr(doc, 'sections') else [],
+                'paragraphs': doc.paragraphs if hasattr(doc, 'paragraphs') else [],
+                'entities': doc.entities if hasattr(doc, 'entities') else {},
+                'metadata': doc.metadata if hasattr(doc, 'metadata') else {}
             }
             # Update metadata with document-specific information
+            if hasattr(doc, 'metadata') and doc.metadata:
                 metadata.title = doc.metadata.get('title')
                 metadata.author = doc.metadata.get('author')
                 metadata.pages = doc.metadata.get('pages')
             return ParsedDocument(
                 content=content,
                 metadata=metadata,
+                raw_text=doc.raw_text if hasattr(doc, 'raw_text') else None,
                 structured_content=structured_content,
+                confidence_score=getattr(doc, 'confidence', 1.0)
             )
         except Exception as e: