Spaces:

MikhailPugachev
/

hw4

Running

App Files Files Community

MikhailPugachev commited on Mar 31

Commit

106e870

1 Parent(s): 133e071

Добавил модель и интерфейс

Browse files

Files changed (14) hide show

app.py +65 -0
checkpoint-23985/model.safetensors +3 -0
checkpoint-23985/optimizer.pt +3 -0
checkpoint-23985/rng_state.pth +3 -0
checkpoint-23985/scheduler.pt +3 -0
checkpoint-23985/special_tokens_map.json +7 -0
checkpoint-23985/tokenizer.json +0 -0
checkpoint-23985/tokenizer_config.json +57 -0
checkpoint-23985/trainer_state.json +180 -0
checkpoint-23985/training_args.bin +3 -0
checkpoint-23985/vocab.txt +0 -0
label_mappings.json +136 -0
model_SingleLabelClassifier.py +42 -0
requirements.txt +4 -0

app.py ADDED Viewed

	@@ -0,0 +1,65 @@

+import streamlit as st
+import torch
+import torch.nn.functional as F
+from transformers import AutoTokenizer
+from model_SingleLabelClassifier import SingleLabelClassifier
+from safetensors.torch import load_file
+# --- Настройки ---
+MODEL_NAME = "allenai/scibert_scivocab_uncased"
+CHECKPOINT_PATH = "checkpoint-28553"
+NUM_CLASSES = 7
+MAX_LEN = 320
+# --- Загрузка меток ---
+label2id = {'cs.CV': 0, 'cs.LG': 1, 'cs.AI': 2, 'cs.CL': 3, 'stat.ML': 4, 'cs.NE': 5, '<OTHER>': 6}
+id2label = {v: k for k, v in label2id.items()}
+# --- Загрузка модели и токенизатора ---
+@st.cache_resource
+def load_model_and_tokenizer():
+    tokenizer = AutoTokenizer.from_pretrained(CHECKPOINT_PATH)
+    model = SingleLabelClassifier(MODEL_NAME, num_labels=NUM_CLASSES)
+    state_dict = load_file(f"{CHECKPOINT_PATH}/model.safetensors")
+    model.load_state_dict(state_dict)
+    model.eval()
+    return model, tokenizer
+model, tokenizer = load_model_and_tokenizer()
+# --- Функция предсказания ---
+def predict(title, summary, model, tokenizer, id2label, max_length=320, top_k=3):
+    model.eval()
+    text = title + ". " + summary
+    inputs = tokenizer(
+        text,
+        return_tensors="pt",
+        truncation=True,
+        padding="max_length",
+        max_length=max_length
+    )
+    with torch.no_grad():
+        outputs = model(**inputs)
+        logits = outputs["logits"]
+        probs = F.softmax(logits, dim=1).squeeze().numpy()
+    top_indices = probs.argsort()[::-1][:top_k]
+    return [(id2label[i], round(probs[i], 3)) for i in top_indices]
+# --- Интерфейс Streamlit ---
+st.title("ArXiv Tag Predictor")
+st.write("Вставьте заголовок и аннотацию статьи — получите предсказанный тег!")
+title = st.text_input("**Title**")
+summary = st.text_area("**Summary**", height=200)
+if st.button("Предсказать тег"):
+    if not title or not summary:
+        st.warning("Пожалуйста, введите и заголовок, и аннотацию!")
+    else:
+        preds = predict(title, summary, model, tokenizer, id2label)
+        st.subheader("Предсказанные теги:")
+        for tag, prob in preds:
+            st.write(f"**{tag}** — вероятность: {prob:.3f}")

checkpoint-23985/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:51588e88f96095606894dcba3e2f3d15fc41d41eab37b68cc0b303453ac675ca
+size 446466252

checkpoint-23985/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:da681d00471785472c51b663fa5dfc09d86055e11281b2f9ca1d89f44cc450e2
+size 207734077

checkpoint-23985/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:44b8d226f925403ae3da29607377591d51678f6b810b38292a8988d53c35c49d
+size 14244

checkpoint-23985/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ddb29c7c2b214d417422c344dc6f897586016be65d4e0e163c3818c7e263f168
+size 1064

checkpoint-23985/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

checkpoint-23985/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-23985/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,57 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "104": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-23985/trainer_state.json ADDED Viewed

	@@ -0,0 +1,180 @@

+{
+  "best_metric": 0.718079007713154,
+  "best_model_checkpoint": "./checkpoints/checkpoint-23985",
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 23985,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.26,
+      "learning_rate": 2.5e-05,
+      "loss": 2.119,
+      "step": 1250
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 1.75e-05,
+      "loss": 1.2117,
+      "step": 2500
+    },
+    {
+      "epoch": 0.78,
+      "learning_rate": 1.75e-05,
+      "loss": 1.0565,
+      "step": 3750
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.6968938920158433,
+      "eval_loss": 0.930023193359375,
+      "eval_runtime": 327.1586,
+      "eval_samples_per_second": 117.301,
+      "eval_steps_per_second": 3.668,
+      "step": 4797
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 1.2249999999999998e-05,
+      "loss": 0.9975,
+      "step": 5000
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 1.2249999999999998e-05,
+      "loss": 0.9029,
+      "step": 6250
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 8.574999999999998e-06,
+      "loss": 0.8903,
+      "step": 7500
+    },
+    {
+      "epoch": 1.82,
+      "learning_rate": 8.574999999999998e-06,
+      "loss": 0.874,
+      "step": 8750
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.7115905774442359,
+      "eval_loss": 0.8782150745391846,
+      "eval_runtime": 300.3321,
+      "eval_samples_per_second": 127.779,
+      "eval_steps_per_second": 3.996,
+      "step": 9594
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 6.002499999999999e-06,
+      "loss": 0.8538,
+      "step": 10000
+    },
+    {
+      "epoch": 2.35,
+      "learning_rate": 6.002499999999999e-06,
+      "loss": 0.8203,
+      "step": 11250
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 4.201749999999999e-06,
+      "loss": 0.8195,
+      "step": 12500
+    },
+    {
+      "epoch": 2.87,
+      "learning_rate": 4.201749999999999e-06,
+      "loss": 0.8116,
+      "step": 13750
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.7145611840733792,
+      "eval_loss": 0.8623952865600586,
+      "eval_runtime": 300.1975,
+      "eval_samples_per_second": 127.836,
+      "eval_steps_per_second": 3.997,
+      "step": 14391
+    },
+    {
+      "epoch": 3.13,
+      "learning_rate": 2.941224999999999e-06,
+      "loss": 0.7909,
+      "step": 15000
+    },
+    {
+      "epoch": 3.39,
+      "learning_rate": 2.941224999999999e-06,
+      "loss": 0.7914,
+      "step": 16250
+    },
+    {
+      "epoch": 3.65,
+      "learning_rate": 2.058857499999999e-06,
+      "loss": 0.7926,
+      "step": 17500
+    },
+    {
+      "epoch": 3.91,
+      "learning_rate": 2.058857499999999e-06,
+      "loss": 0.7839,
+      "step": 18750
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.7179226599958307,
+      "eval_loss": 0.8576174378395081,
+      "eval_runtime": 300.1549,
+      "eval_samples_per_second": 127.854,
+      "eval_steps_per_second": 3.998,
+      "step": 19188
+    },
+    {
+      "epoch": 4.17,
+      "learning_rate": 1.4412002499999993e-06,
+      "loss": 0.7696,
+      "step": 20000
+    },
+    {
+      "epoch": 4.43,
+      "learning_rate": 1.4412002499999993e-06,
+      "loss": 0.7667,
+      "step": 21250
+    },
+    {
+      "epoch": 4.69,
+      "learning_rate": 1.0088401749999995e-06,
+      "loss": 0.7701,
+      "step": 22500
+    },
+    {
+      "epoch": 4.95,
+      "learning_rate": 1.0088401749999995e-06,
+      "loss": 0.7726,
+      "step": 23750
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.718079007713154,
+      "eval_loss": 0.8557529449462891,
+      "eval_runtime": 300.2736,
+      "eval_samples_per_second": 127.803,
+      "eval_steps_per_second": 3.996,
+      "step": 23985
+    }
+  ],
+  "logging_steps": 1250,
+  "max_steps": 23985,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "total_flos": 0.0,
+  "train_batch_size": 32,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-23985/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:351ee58f715ddbda098b9c7aa4f73852ef8355fd01d77a909cbdf33db04aedc4
+size 4664

checkpoint-23985/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

label_mappings.json ADDED Viewed

	@@ -0,0 +1,136 @@

+{
+    "label2id": {
+        "cs.CV": 0,
+        "cs.LG": 1,
+        "cs.CL": 2,
+        "cs.AI": 3,
+        "quant-ph": 4,
+        "math.CO": 5,
+        "stat.ML": 6,
+        "astro-ph.GA": 7,
+        "hep-ph": 8,
+        "hep-th": 9,
+        "astro-ph.HE": 10,
+        "cs.CR": 11,
+        "cond-mat.mtrl-sci": 12,
+        "cs.RO": 13,
+        "astro-ph.SR": 14,
+        "gr-qc": 15,
+        "math.NT": 16,
+        "math.OC": 17,
+        "cs.DS": 18,
+        "cs.NE": 19,
+        "cs.IT": 20,
+        "math.AP": 21,
+        "astro-ph.CO": 22,
+        "math.PR": 23,
+        "eess.IV": 24,
+        "physics.optics": 25,
+        "cond-mat.mes-hall": 26,
+        "stat.ME": 27,
+        "astro-ph.EP": 28,
+        "math.AG": 29,
+        "eess.SP": 30,
+        "eess.SY": 31,
+        "cs.IR": 32,
+        "math.NA": 33,
+        "cs.DC": 34,
+        "cs.SE": 35,
+        "astro-ph.IM": 36,
+        "cond-mat.str-el": 37,
+        "hep-ex": 38,
+        "math.DS": 39,
+        "math.DG": 40,
+        "cs.GT": 41,
+        "math.GR": 42,
+        "cond-mat.stat-mech": 43,
+        "physics.flu-dyn": 44,
+        "math.FA": 45,
+        "cs.CY": 46,
+        "cs.NI": 47,
+        "cond-mat.soft": 48,
+        "cs.SI": 49,
+        "cs.HC": 50,
+        "cs.LO": 51,
+        "math-ph": 52,
+        "physics.soc-ph": 53,
+        "math.RT": 54,
+        "physics.chem-ph": 55,
+        "math.GT": 56,
+        "math.ST": 57,
+        "cs.SD": 58,
+        "math.RA": 59,
+        "stat.AP": 60,
+        "eess.AS": 61,
+        "cs.DB": 62,
+        "math.LO": 63,
+        "<OTHER>": 64
+    },
+    "id2label": {
+        "0": "cs.CV",
+        "1": "cs.LG",
+        "2": "cs.CL",
+        "3": "cs.AI",
+        "4": "quant-ph",
+        "5": "math.CO",
+        "6": "stat.ML",
+        "7": "astro-ph.GA",
+        "8": "hep-ph",
+        "9": "hep-th",
+        "10": "astro-ph.HE",
+        "11": "cs.CR",
+        "12": "cond-mat.mtrl-sci",
+        "13": "cs.RO",
+        "14": "astro-ph.SR",
+        "15": "gr-qc",
+        "16": "math.NT",
+        "17": "math.OC",
+        "18": "cs.DS",
+        "19": "cs.NE",
+        "20": "cs.IT",
+        "21": "math.AP",
+        "22": "astro-ph.CO",
+        "23": "math.PR",
+        "24": "eess.IV",
+        "25": "physics.optics",
+        "26": "cond-mat.mes-hall",
+        "27": "stat.ME",
+        "28": "astro-ph.EP",
+        "29": "math.AG",
+        "30": "eess.SP",
+        "31": "eess.SY",
+        "32": "cs.IR",
+        "33": "math.NA",
+        "34": "cs.DC",
+        "35": "cs.SE",
+        "36": "astro-ph.IM",
+        "37": "cond-mat.str-el",
+        "38": "hep-ex",
+        "39": "math.DS",
+        "40": "math.DG",
+        "41": "cs.GT",
+        "42": "math.GR",
+        "43": "cond-mat.stat-mech",
+        "44": "physics.flu-dyn",
+        "45": "math.FA",
+        "46": "cs.CY",
+        "47": "cs.NI",
+        "48": "cond-mat.soft",
+        "49": "cs.SI",
+        "50": "cs.HC",
+        "51": "cs.LO",
+        "52": "math-ph",
+        "53": "physics.soc-ph",
+        "54": "math.RT",
+        "55": "physics.chem-ph",
+        "56": "math.GT",
+        "57": "math.ST",
+        "58": "cs.SD",
+        "59": "math.RA",
+        "60": "stat.AP",
+        "61": "eess.AS",
+        "62": "cs.DB",
+        "63": "math.LO",
+        "64": "<OTHER>"
+    }
+}

model_SingleLabelClassifier.py ADDED Viewed

	@@ -0,0 +1,42 @@

+from transformers import AutoModel, AutoTokenizer
+import torch.nn as nn
+import torch
+class SingleLabelClassifier(nn.Module):
+    def __init__(self, base_model_name, num_labels, hidden_size=1024, freeze_bert=True):
+        super(SingleLabelClassifier, self).__init__()
+        self.base = AutoModel.from_pretrained(base_model_name)
+        if freeze_bert:
+            for name, param in self.base.named_parameters():
+                if not name.startswith("embeddings"):
+                    param.requires_grad = False
+        self.intermediate = nn.Linear(self.base.config.hidden_size, hidden_size)
+        self.norm = nn.BatchNorm1d(hidden_size)
+        self.activation = nn.ReLU()
+        self.dropout = nn.Dropout(0.4)
+        self.classifier = nn.Linear(hidden_size, num_labels)
+    def forward(self, input_ids, attention_mask=None, token_type_ids=None,labels=None):
+        outputs = self.base(
+            input_ids=input_ids,
+            attention_mask=attention_mask,
+            token_type_ids=token_type_ids,
+            return_dict=True
+        )
+        pooled_output = outputs.pooler_output
+        x = self.intermediate(pooled_output)
+        x = self.norm(x)
+        x = self.activation(x)
+        x = self.dropout(x)
+        logits = self.classifier(x)
+        loss = None
+        if labels is not None:
+            labels = labels.long()
+            loss_fct = nn.CrossEntropyLoss()
+            loss = loss_fct(logits, labels)
+        return {"logits": logits, "loss": loss}

requirements.txt ADDED Viewed

	@@ -0,0 +1,4 @@

+streamlit
+torch
+transformers
+safetensors