Spaces:

mabil
/

NORUS2

Sleeping

mabil commited on 20 days ago

Commit

65b3168

1 Parent(s): 8e70593

Aggiunto focus su materiali e metodi e modalità Re-Fill per PubMed

Files changed (2) hide show

.DS_Store CHANGED Viewed

Binary files a/.DS_Store and b/.DS_Store differ

app.py CHANGED Viewed

@@ -46,6 +46,18 @@ def extract_pdf_text(pdf_path):
         print(f"Errore estrazione testo: {e}")
     return clean_text(text)
 # Preprocessing testo
 def preprocess_text(text):
     tokens = tokenizer.tokenize(text.lower())
@@ -72,13 +84,13 @@ def calculate_oui(similarity, token_overlap, alpha=0.7, beta=0.3):
 # Validazione documento
 def validate_document(pdf_path, comparison_sources, method="local", titles=None):
-    pdf_text = extract_pdf_text(pdf_path)
     pdf_tokens = preprocess_text(pdf_text)
     results = []
     all_keywords = []
     for i, doc in enumerate(comparison_sources):
-        doc_text = extract_pdf_text(doc) if method == "local" else clean_text(doc)
         doc_tokens = preprocess_text(doc_text)
         similarity = util.pytorch_cos_sim(

         print(f"Errore estrazione testo: {e}")
     return clean_text(text)
+# Funzione per estrarre la sezione "Materiali e Metodi"
+def extract_materials_and_methods(pdf_path):
+    text = extract_pdf_text(pdf_path)
+    # Supponiamo che la sezione 'Materiali e Metodi' sia identificabile da uno degli headers comuni
+    start = text.lower().find("materials and methods")
+    if start == -1:
+        return text  # Restituisce tutto il testo se non trova la sezione
+    end = text.lower().find("results", start)
+    if end == -1:
+        end = len(text)  # Fino alla fine del documento se non trova la fine della sezione
+    return text[start:end]
 # Preprocessing testo
 def preprocess_text(text):
     tokens = tokenizer.tokenize(text.lower())
 # Validazione documento
 def validate_document(pdf_path, comparison_sources, method="local", titles=None):
+    pdf_text = extract_materials_and_methods(pdf_path)
     pdf_tokens = preprocess_text(pdf_text)
     results = []
     all_keywords = []
     for i, doc in enumerate(comparison_sources):
+        doc_text = extract_materials_and_methods(doc) if method == "local" else clean_text(doc)
         doc_tokens = preprocess_text(doc_text)
         similarity = util.pytorch_cos_sim(