kryman27 commited on
Commit
ec5299c
verified
1 Parent(s): 9f38b98

Update app.py

Browse files
Files changed (1) hide show
  1. app.py +7 -5
app.py CHANGED
@@ -2,7 +2,7 @@ import gradio as gr
2
  import pdfplumber
3
  from transformers import pipeline
4
 
5
- # L偶ejszy model NER (publicznie dost臋pny)
6
  extractor = pipeline("ner", model="dbmdz/bert-large-cased-finetuned-conll03-english", aggregation_strategy="simple")
7
 
8
  def extract_seller(pdf_file):
@@ -13,19 +13,21 @@ def extract_seller(pdf_file):
13
  # Podzia艂 tekstu na kr贸tkie fragmenty (maks. 512 znak贸w)
14
  chunks = [full_text[i:i+512] for i in range(0, len(full_text), 512)]
15
 
16
- seller_name = None
17
 
18
  for chunk in chunks:
19
  entities = extractor(chunk)
20
 
21
  for entity in entities:
22
  if "ORG" in entity["entity_group"]: # Szukamy nazw organizacji
23
- seller_name = entity["word"]
24
- break # Pobieramy pierwsz膮 wykryt膮 firm臋 jako sprzedawc臋
25
 
26
- if seller_name: # Je艣li znaleziono sprzedawc臋, przerywamy p臋tl臋
27
  break
28
 
 
 
 
29
  return {"Sprzedawca": seller_name if seller_name else "Nie znaleziono"}
30
 
31
  # Interfejs u偶ytkownika w Hugging Face Spaces
 
2
  import pdfplumber
3
  from transformers import pipeline
4
 
5
+ # Model NER do rozpoznawania nazw organizacji
6
  extractor = pipeline("ner", model="dbmdz/bert-large-cased-finetuned-conll03-english", aggregation_strategy="simple")
7
 
8
  def extract_seller(pdf_file):
 
13
  # Podzia艂 tekstu na kr贸tkie fragmenty (maks. 512 znak贸w)
14
  chunks = [full_text[i:i+512] for i in range(0, len(full_text), 512)]
15
 
16
+ seller_tokens = []
17
 
18
  for chunk in chunks:
19
  entities = extractor(chunk)
20
 
21
  for entity in entities:
22
  if "ORG" in entity["entity_group"]: # Szukamy nazw organizacji
23
+ seller_tokens.append(entity["word"])
 
24
 
25
+ if seller_tokens: # Je艣li znaleziono organizacj臋, przerywamy p臋tl臋
26
  break
27
 
28
+ # 艁膮czymy tokeny w pe艂n膮 nazw臋 organizacji
29
+ seller_name = " ".join(seller_tokens)
30
+
31
  return {"Sprzedawca": seller_name if seller_name else "Nie znaleziono"}
32
 
33
  # Interfejs u偶ytkownika w Hugging Face Spaces