submission-template

Sleeping

App Files Files Community

VanshK04 commited on Jan 8

Commit

f29e855

verified ·

1 Parent(s): a24ea0c

Update tasks/text.py

Browse files

Files changed (1) hide show

tasks/text.py +59 -42

tasks/text.py CHANGED Viewed

@@ -1,34 +1,70 @@
-from transformers import AutoTokenizer, AutoModelForSequenceClassification
-import torch
 from fastapi import APIRouter
 from datetime import datetime
-from datasets import Dataset
 from sklearn.metrics import accuracy_score
-from sklearn.model_selection import train_test_split
-from torch.utils.data import DataLoader, Dataset
-import pandas as pd
-from sklearn.preprocessing import LabelEncoder
 from .utils.evaluation import TextEvaluationRequest
 from .utils.emissions import tracker, clean_emissions_data, get_space_info
 router = APIRouter()
-ROUTE = "/text"  # Define the route
-DESCRIPTION = "Evaluate text classification for climate disinformation detection"  # Define the description
-# Load the fine-tuned BERT model and tokenizer
-model_dir = "./"  # Path to the fine-tuned BERT model directory
-tokenizer = AutoTokenizer.from_pretrained(model_dir)
-model = AutoModelForSequenceClassification.from_pretrained(model_dir)
 # Assign device
-device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
-model.to(device)
-model.eval()  # Set the model to evaluation mode
-# Dataset class
-class TextDataset(Dataset):
     def __init__(self, texts, labels, tokenizer, max_len=128):
         self.texts = texts
         self.labels = labels
@@ -54,7 +90,7 @@ class TextDataset(Dataset):
             'labels': torch.tensor(label, dtype=torch.long)
         }
-@router.post(ROUTE, tags=["Text Task"],
              description=DESCRIPTION)
 async def evaluate_text(request: TextEvaluationRequest):
     """
@@ -82,30 +118,11 @@ async def evaluate_text(request: TextEvaluationRequest):
     val_dataset = TextDataset(val_texts, val_labels, tokenizer)
     val_loader = DataLoader(val_dataset, batch_size=32)
-    # Start tracking emissions
-    tracker.start()
-    tracker.start_task("inference")
-    #--------------------------------------------------------------------------------------------
-    # Fine-tuned BERT model inference
-    #--------------------------------------------------------------------------------------------
-    predictions = []
-    true_labels = val_labels.tolist()
-    with torch.no_grad():
-        for batch in val_loader:
-            input_ids = batch["input_ids"].to(device)
-            attention_mask = batch["attention_mask"].to(device)
-            outputs = model(input_ids=input_ids, attention_mask=attention_mask)
-            logits = outputs.logits
-            batch_predictions = torch.argmax(logits, dim=1).cpu().tolist()
-            predictions.extend(batch_predictions)
-    #--------------------------------------------------------------------------------------------
-    # Fine-tuned BERT model inference stops here
     #--------------------------------------------------------------------------------------------
     # Stop tracking emissions
     emissions_data = tracker.stop_task()
@@ -130,4 +147,4 @@ async def evaluate_text(request: TextEvaluationRequest):
         }
     }
-    return results

 from fastapi import APIRouter
 from datetime import datetime
+from datasets import load_dataset
 from sklearn.metrics import accuracy_score
+import random
 from .utils.evaluation import TextEvaluationRequest
 from .utils.emissions import tracker, clean_emissions_data, get_space_info
 router = APIRouter()
+DESCRIPTION = "Evaluate text classification for climate disinformation detection"
+ROUTE = "/text"
+@router.post(ROUTE, tags=["Text Task"],
+             description=DESCRIPTION)
+async def evaluate_text(request: TextEvaluationRequest):
+    """
+    Evaluate text classification for climate disinformation detection.
+    Current Model: Random Baseline
+    - Makes random predictions from the label space (0-7)
+    - Used as a baseline for comparison
+    """
+    # Get space info
+    username, space_url = get_space_info()
+    # Define the label mapping
+    LABEL_MAPPING = {
+        "0_not_relevant": 0,
+        "1_not_happening": 1,
+        "2_not_human": 2,
+        "3_not_bad": 3,
+        "4_solutions_harmful_unnecessary": 4,
+        "5_science_unreliable": 5,
+        "6_proponents_biased": 6,
+        "7_fossil_fuels_needed": 7
+    }
+    # Load and prepare the dataset
+    dataset = load_dataset(request.dataset_name)
+    # Convert string labels to integers
+    dataset = dataset.map(lambda x: {"label": LABEL_MAPPING[x["label"]]})
+    # Split dataset
+    train_test = dataset["train"].train_test_split(test_size=request.test_size, seed=request.test_seed)
+    test_dataset = train_test["test"]
+    # Start tracking emissions
+    tracker.start()
+    tracker.start_task("inference")
+    #--------------------------------------------------------------------------------------------
+    # YOUR MODEL INFERENCE CODE HERE
+    # Update the code below to replace the random baseline by your model inference within the inference pass where the energy consumption and emissions are tracked.
+    #--------------------------------------------------------------------------------------------
+    model_dir = "./"  # Path to the fine-tuned BERT model directory
+    tokenizer = AutoTokenizer.from_pretrained(model_dir)
+    model = AutoModelForSequenceClassification.from_pretrained(model_dir)
 # Assign device
+    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+    model.to(device)
+    model.eval()  # Set the model to evaluation mode
+    class TextDataset(Dataset):
     def __init__(self, texts, labels, tokenizer, max_len=128):
         self.texts = texts
         self.labels = labels
             'labels': torch.tensor(label, dtype=torch.long)
         }
+    @router.post(ROUTE, tags=["Text Task"],
              description=DESCRIPTION)
 async def evaluate_text(request: TextEvaluationRequest):
     """
     val_dataset = TextDataset(val_texts, val_labels, tokenizer)
     val_loader = DataLoader(val_dataset, batch_size=32)
     #--------------------------------------------------------------------------------------------
+    # YOUR MODEL INFERENCE STOPS HERE
+    #--------------------------------------------------------------------------------------------
     # Stop tracking emissions
     emissions_data = tracker.stop_task()
         }
     }
+    return results