llm-security-leaderboard

Running

App Files Files Community

llm-security-leaderboard / backend /app /services /leaderboard.py

eleftherias

Remove duplicates

3521728 27 days ago

raw

history blame contribute delete

9.74 kB

	from app.core.cache import cache_config
	from typing import List, Dict, Any
	import datasets
	import logging
	from app.config.base import HF_ORGANIZATION
	from app.core.formatting import LogFormatter

	logger = logging.getLogger(__name__)


	class LeaderboardService:
	def __init__(self):
	pass

	async def fetch_raw_data(self) -> List[Dict[str, Any]]:
	"""Fetch raw leaderboard data from HuggingFace dataset"""
	try:
	logger.info(LogFormatter.section("FETCHING LEADERBOARD DATA"))
	logger.info(
	LogFormatter.info(
	f"Loading dataset from {HF_ORGANIZATION}/llm-security-leaderboard-contents"
	)
	)

	dataset = datasets.load_dataset(
	f"{HF_ORGANIZATION}/llm-security-leaderboard-contents",
	cache_dir=cache_config.get_cache_path("datasets"),
	)["train"]

	df = dataset.to_pandas()

	# Drop NaN values before converting to dict
	df = df.replace({float('nan'): None})
	data = df.to_dict("records")

	stats = {
	"Total_Entries": len(data),
	"Dataset_Size": f"{df.memory_usage(deep=True).sum() / 1024 / 1024:.1f}MB",
	}
	for line in LogFormatter.stats(stats, "Dataset Statistics"):
	logger.info(line)

	return data

	except Exception as e:
	logger.error(LogFormatter.error("Failed to fetch leaderboard data", e))

	# Return fallback data when no results are available yet
	return []

	async def get_formatted_data(self) -> List[Dict[str, Any]]:
	"""Get formatted leaderboard data"""
	try:
	logger.info(LogFormatter.section("FORMATTING LEADERBOARD DATA"))

	raw_data = await self.fetch_raw_data()
	formatted_data = {}
	type_counts = {}
	error_count = 0

	# Initialize progress tracking
	total_items = len(raw_data)
	logger.info(LogFormatter.info(f"Processing {total_items:,} entries..."))

	for i, item in enumerate(raw_data, 1):
	try:
	formatted_item = await self.transform_data(item)
	unique_id = formatted_item["id"]

	# Check if entry already exists and keep the one with the latest submission date
	if unique_id in formatted_data:
	existing_date = formatted_data[unique_id]["metadata"].get("submission_date")
	new_date = formatted_item["metadata"].get("submission_date")

	# If new item has a newer submission date (or existing has no date), replace it
	if not existing_date or (new_date and new_date > existing_date):
	formatted_data[unique_id] = formatted_item
	else:
	formatted_data[unique_id] = formatted_item

	# Count model types
	if unique_id not in formatted_data or formatted_data[unique_id] == formatted_item:
	model_type = formatted_item["model"]["type"]
	type_counts[model_type] = type_counts.get(model_type, 0) + 1

	except Exception as e:
	error_count += 1
	logger.error(
	LogFormatter.error(
	f"Failed to format entry {i}/{total_items}", e
	)
	)
	continue

	# Log progress every 10%
	if i % max(1, total_items // 10) == 0:
	logger.info(
	LogFormatter.info(
	f"Progress: {LogFormatter.progress_bar(i, total_items)}"
	)
	)

	# Log final statistics
	stats = {
	"Total_Processed": total_items,
	"Successful": len(formatted_data),
	"Failed": error_count,
	}
	logger.info(LogFormatter.section("PROCESSING SUMMARY"))
	for line in LogFormatter.stats(stats, "Processing Statistics"):
	logger.info(line)

	# Log model type distribution
	type_stats = {f"Type_{k}": v for k, v in type_counts.items()}
	logger.info(LogFormatter.subsection("MODEL TYPE DISTRIBUTION"))
	for line in LogFormatter.stats(type_stats):
	logger.info(line)

	return list(formatted_data.values())

	except Exception as e:
	logger.error(LogFormatter.error("Failed to format leaderboard data", e))

	# Return fallback data when no results are available yet
	return []

	async def transform_data(self, data: Dict[str, Any]) -> Dict[str, Any]:
	"""Transform raw data into the format expected by the frontend"""
	try:
	# Extract model name for logging
	model_name = data.get("fullname", "Unknown")
	logger.debug(
	LogFormatter.info(f"Transforming data for model: {model_name}")
	)

	# Create unique ID combining model name, precision, sha and chat template status

	unique_id = f"{data.get('fullname', 'Unknown')}"

	evaluations = {
	"safetensors": {
	"name": "SafeTensors",
	"value": data.get("safetensors", 0),
	"normalized_score": data.get("safetensors", 0),
	},
	"secure_coding": {
	"name": "Secure Coding",
	"value": data.get("secure_coding", 0),
	"normalized_score": data.get("secure_coding", 0),
	},
	"cve_knowledge": {
	"name": "CVE Knowledge",
	"value": data.get("cve_knowledge", 0),
	"normalized_score": data.get("cve_knowledge", 0),
	},
	"insecure_recognition": {
	"name": "Insecure Code Detection",
	"value": data.get("insecure_recognition", 0),
	"normalized_score": data.get("insecure_recognition", 0),
	},
	}

	features = {
	"is_not_available_on_hub": data.get("Available on the hub", False),
	"is_merged": data.get("Merged", False),
	"is_moe": data.get("MoE", False),
	"is_flagged": data.get("Flagged", False),
	"is_official_provider": data.get("Official Providers", False),
	}

	metadata = {
	"upload_date": data.get("Upload To Hub Date"),
	"submission_date": data.get("Submission Date"),
	"generation": data.get("Generation"),
	"base_model": data.get("Base Model"),
	"hub_license": data.get("Hub License"),
	"hub_hearts": data.get("Hub ❤️"),
	"params_billions": data.get("#Params (B)"),
	"co2_cost": data.get("CO₂ cost (kg)", 0),
	}

	# Clean model type by removing emojis if present
	original_type = data.get("Type", "")
	model_type = original_type.lower().strip()

	# Remove emojis and parentheses
	if "(" in model_type:
	model_type = model_type.split("(")[0].strip()
	model_type = "".join(c for c in model_type if c not in "🔶🟢🟩💬🤝🌸 ")

	# Map old model types to new ones
	model_type_mapping = {
	"fine-tuned": "fined-tuned-on-domain-specific-dataset",
	"fine tuned": "fined-tuned-on-domain-specific-dataset",
	"finetuned": "fined-tuned-on-domain-specific-dataset",
	"fine_tuned": "fined-tuned-on-domain-specific-dataset",
	"ft": "fined-tuned-on-domain-specific-dataset",
	"finetuning": "fined-tuned-on-domain-specific-dataset",
	"fine tuning": "fined-tuned-on-domain-specific-dataset",
	"fine-tuning": "fined-tuned-on-domain-specific-dataset",
	}

	mapped_type = model_type_mapping.get(model_type.lower().strip(), model_type)

	if mapped_type != model_type:
	logger.debug(
	LogFormatter.info(
	f"Model type mapped: {original_type} -> {mapped_type}"
	)
	)

	transformed_data = {
	"id": unique_id,
	"model": {
	"name": data.get("fullname"),
	"sha": data.get("Model sha"),
	"precision": data.get("Precision"),
	"type": mapped_type,
	"weight_type": data.get("Weight type"),
	"architecture": data.get("Architecture"),
	"average_score": data.get("Average ⬆️"),
	"has_chat_template": data.get("Chat Template", False),
	},
	"evaluations": evaluations,
	"features": features,
	"metadata": metadata,
	}

	logger.debug(
	LogFormatter.success(f"Successfully transformed data for {model_name}")
	)
	return transformed_data

	except Exception as e:
	logger.error(
	LogFormatter.error(
	f"Failed to transform data for {data.get('fullname', 'Unknown')}", e
	)
	)
	raise