Spaces:

mabil
/

NORUS2

Running

App Files Files Community

mabil commited on 24 days ago

Commit

db5493b

1 Parent(s): af53f00

Update app.py: skip PubMed empty articles, improve robustness

Browse files

Files changed (1) hide show

app.py +20 -15

app.py CHANGED Viewed

@@ -89,14 +89,22 @@ def fetch_pubmed_details(article_id):
         response.raise_for_status()
         import xml.etree.ElementTree as ET
         root = ET.fromstring(response.text)
-        title = root.find(".//ArticleTitle").text if root.find(".//ArticleTitle") is not None else "No Title"
-        abstract = root.find(".//AbstractText").text if root.find(".//AbstractText") is not None else "No Abstract"
         keywords = root.findall(".//Keyword")
         keyword_text = " ".join([kw.text for kw in keywords if kw.text]) if keywords else ""
         return title, f"{abstract} {keyword_text}"
     except Exception as e:
         print(f"Errore recupero abstract: {e}")
-        return "No Title", "No Abstract"
 def fetch_pubmed(query, year_start, year_end, max_results=10):
     base_url = "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi"
@@ -105,13 +113,12 @@ def fetch_pubmed(query, year_start, year_end, max_results=10):
         "term": f"{query} AND ({year_start}[PDAT] : {year_end}[PDAT])",
         "retmax": max_results,
         "retmode": "json",
-        "sort": "relevance"  # <-- Qui abbiamo ordinato per rilevanza
     }
     try:
         response = requests.get(base_url, params=params)
         response.raise_for_status()
-        id_list = response.json().get("esearchresult", {}).get("idlist", [])
-        return id_list
     except Exception as e:
         print(f"Errore fetch PubMed: {e}")
         return []
@@ -152,16 +159,14 @@ def validate():
         year_end = request.form.get("year_end", "2025")
         num_articles = int(request.form.get("num_articles", "10"))
         pubmed_ids = fetch_pubmed(query, year_start, year_end, num_articles)
-        if not pubmed_ids:
-            flash("Nessun articolo trovato su PubMed per questa ricerca.", "error")
             return redirect(url_for("index"))
-        pubmed_results = [fetch_pubmed_details(id_) for id_ in pubmed_ids]
-        pubmed_texts = [r[1] for r in pubmed_results]
-        pubmed_titles = [r[0] for r in pubmed_results]
-        results = validate_document(pdf_path, pubmed_texts, method="pubmed", titles=pubmed_titles)
     return render_template("NORUS.html", results=results, keywords=last_common_keywords)
@@ -210,7 +215,7 @@ def download_report():
     output_path = os.path.join(app.config["UPLOAD_FOLDER"], "NORUS_Report.pdf")
     pdf.output(output_path, 'F')
-    return send_file(output_path, as_attachment=True)
 if __name__ == "__main__":
-    app.run(debug=True, host="0.0.0.0", port=7860)

         response.raise_for_status()
         import xml.etree.ElementTree as ET
         root = ET.fromstring(response.text)
+        title_element = root.find(".//ArticleTitle")
+        abstract_element = root.find(".//AbstractText")
+        title = title_element.text.strip() if title_element is not None and title_element.text else "No Title"
+        abstract = abstract_element.text.strip() if abstract_element is not None and abstract_element.text else "No Abstract"
         keywords = root.findall(".//Keyword")
         keyword_text = " ".join([kw.text for kw in keywords if kw.text]) if keywords else ""
+        if title == "No Title" or abstract == "No Abstract":
+            return None  # Se titolo o abstract mancano, scarta questo articolo
         return title, f"{abstract} {keyword_text}"
     except Exception as e:
         print(f"Errore recupero abstract: {e}")
+        return None
 def fetch_pubmed(query, year_start, year_end, max_results=10):
     base_url = "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/esearch.fcgi"
         "term": f"{query} AND ({year_start}[PDAT] : {year_end}[PDAT])",
         "retmax": max_results,
         "retmode": "json",
+        "sort": "relevance"
     }
     try:
         response = requests.get(base_url, params=params)
         response.raise_for_status()
+        return response.json().get("esearchresult", {}).get("idlist", [])
     except Exception as e:
         print(f"Errore fetch PubMed: {e}")
         return []
         year_end = request.form.get("year_end", "2025")
         num_articles = int(request.form.get("num_articles", "10"))
         pubmed_ids = fetch_pubmed(query, year_start, year_end, num_articles)
+        pubmed_results = [fetch_pubmed_details(id_) for id_ in pubmed_ids]
+        pubmed_results = [r for r in pubmed_results if r is not None]
+        if not pubmed_results:
+            flash("Nessun articolo PubMed valido trovato. Modifica la query o il range di anni.", "error")
             return redirect(url_for("index"))
+        results = validate_document(pdf_path, [r[1] for r in pubmed_results], method="pubmed", titles=[r[0] for r in pubmed_results])
     return render_template("NORUS.html", results=results, keywords=last_common_keywords)
     output_path = os.path.join(app.config["UPLOAD_FOLDER"], "NORUS_Report.pdf")
     pdf.output(output_path, 'F')
+    return send_file(output_path, as_attachment=True)
 if __name__ == "__main__":
+    app.run(debug=True, host="0.0.0.0", port=7860)