Spaces:

MikhailPugachev
/

hw4

Running

App Files Files Community

MikhailPugachev commited on Mar 31

Commit

d5fbae4

1 Parent(s): c38b845

Исправлен путь к модели

Browse files

Files changed (1) hide show

app.py +35 -9

app.py CHANGED Viewed

@@ -5,6 +5,7 @@ from transformers import AutoTokenizer
 from model_SingleLabelClassifier import SingleLabelClassifier
 from safetensors.torch import load_file
 import json
 MODEL_NAME = "allenai/scibert_scivocab_uncased"
@@ -15,7 +16,7 @@ MAX_LEN = 250
 # Загрузка меток
 with open("label_mappings.json", "r") as f:
     mappings = json.load(f)
-abel2id = mappings["label2id"]
 id2label = {int(k): v for k, v in mappings["id2label"].items()}
 # Загрузка модели и токенизатора
@@ -30,9 +31,13 @@ def load_model_and_tokenizer():
 model, tokenizer = load_model_and_tokenizer()
-# Функция предсказания
-def predict(title, summary, model, tokenizer, id2label, max_length=320, top_k=3):
     model.eval()
     text = title + ". " + summary
     inputs = tokenizer(
@@ -44,7 +49,11 @@ def predict(title, summary, model, tokenizer, id2label, max_length=320, top_k=3)
     )
     with torch.no_grad():
-        outputs = model(**inputs)
         logits = outputs["logits"]
         probs = F.softmax(logits, dim=1).squeeze().numpy()
@@ -52,17 +61,34 @@ def predict(title, summary, model, tokenizer, id2label, max_length=320, top_k=3)
     return [(id2label[i], round(probs[i], 3)) for i in top_indices]
 # Интерфейс Streamlit
-st.title("ArXiv Tag Predictor")
-st.write("Вставьте заголовок и аннотацию статьи!")
 title = st.text_input("**Title**")
 summary = st.text_area("**Summary**", height=200)
-if st.button("Предсказать тег"):
     if not title or not summary:
         st.warning("Пожалуйста, введите и заголовок, и аннотацию!")
     else:
         preds = predict(title, summary, model, tokenizer, id2label)
-        st.subheader("Предсказанные теги:")
         for tag, prob in preds:
-            st.write(f"**{tag}** — вероятность: {prob:.3f}")

 from model_SingleLabelClassifier import SingleLabelClassifier
 from safetensors.torch import load_file
 import json
+import re
 MODEL_NAME = "allenai/scibert_scivocab_uncased"
 # Загрузка меток
 with open("label_mappings.json", "r") as f:
     mappings = json.load(f)
+label2id = mappings["label2id"]
 id2label = {int(k): v for k, v in mappings["id2label"].items()}
 # Загрузка модели и токенизатора
 model, tokenizer = load_model_and_tokenizer()
+# Обновлённая функция предсказания
+def predict(title, summary, model, tokenizer, id2label, max_length=MAX_LEN, top_k=3):
     model.eval()
+    # Удаляем лишние точки, пробелы и объединяем текст
+    title = re.sub(r"\.+$", "", title.strip())
+    summary = re.sub(r"\.+$", "", summary.strip())
     text = title + ". " + summary
     inputs = tokenizer(
     )
     with torch.no_grad():
+        outputs = model(
+            input_ids=inputs["input_ids"],
+            attention_mask=inputs["attention_mask"],
+            token_type_ids=inputs.get("token_type_ids")
+        )
         logits = outputs["logits"]
         probs = F.softmax(logits, dim=1).squeeze().numpy()
     return [(id2label[i], round(probs[i], 3)) for i in top_indices]
 # Интерфейс Streamlit
+st.title("🧠 ArXiv Tag Predictor")
+with st.expander("ℹ️ Описание модели"):
+    st.markdown("""
+    Данная модель обучена на основе [SciBERT](https://huggingface.co/allenai/scibert_scivocab_uncased) для классификации научных статей с сайта [arXiv.org](https://arxiv.org).
+    - Использует **65 различных тегов** из тематик arXiv (например: `cs.CL`, `math.CO`, `stat.ML`, и т.д.)
+    - Модель обучена на **заголовках и аннотациях** научных публикаций
+    - На вход принимает **англоязычный текст**
+    - Предсказывает **топ-3 наиболее вероятных тега** для каждой статьи
+    Ниже вы можете посмотреть полный список возможных тегов 👇
+    """)
+with st.expander("📄 Список всех тегов"):
+    tag_list = sorted(label2id.keys())
+    st.markdown("\n".join([f"- `{tag}`" for tag in tag_list]))
+st.write("Введите заголовок и аннотацию научной статьи (на английском):")
 title = st.text_input("**Title**")
 summary = st.text_area("**Summary**", height=200)
+if st.button("📌 Предсказать теги"):
     if not title or not summary:
         st.warning("Пожалуйста, введите и заголовок, и аннотацию!")
     else:
         preds = predict(title, summary, model, tokenizer, id2label)
+        st.subheader("📚 Предсказанные теги:")
         for tag, prob in preds:
+            st.write(f"**{tag}** — вероятность: `{prob:.3f}`")