Models
Datasets
Spaces
Posts
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2503.19786

Qwen2.5-VL Technical Report

Paper • 2502.13923 • Published Feb 19 • 186
Gemma 3 Technical Report

Paper • 2503.19786 • Published Mar 25 • 50

Sparse Logit Sampling: Accelerating Knowledge Distillation in LLMs

Paper • 2503.16870 • Published Mar 21 • 5
Gemma 3 Technical Report

Paper • 2503.19786 • Published Mar 25 • 50
Qwen2.5-Omni Technical Report

Paper • 2503.20215 • Published Mar 26 • 150
Think Twice: Enhancing LLM Reasoning by Scaling Multi-round Test-time Thinking

Paper • 2503.19855 • Published Mar 25 • 27

Gemma 3 Technical Report

Paper • 2503.19786 • Published Mar 25 • 50

Gemma 3 Technical Report

Paper • 2503.19786 • Published Mar 25 • 50
Kimi-VL Technical Report

Paper • 2504.07491 • Published 29 days ago • 125
InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models

Paper • 2504.10479 • Published 24 days ago • 255
FUSION: Fully Integration of Vision-Language Representations for Deep Cross-Modal Understanding

Paper • 2504.09925 • Published 25 days ago • 38

Reinforcement Learning: An Overview

Paper • 2412.05265 • Published Dec 6, 2024 • 7
Fish-Speech: Leveraging Large Language Models for Advanced Multilingual Text-to-Speech Synthesis

Paper • 2411.01156 • Published Nov 2, 2024 • 6
VBench-2.0: Advancing Video Generation Benchmark Suite for Intrinsic Faithfulness

Paper • 2503.21755 • Published Mar 27 • 34
Qwen2.5-Omni Technical Report

Paper • 2503.20215 • Published Mar 26 • 150

FM_Training_Infra

Slamming: Training a Speech Language Model on One GPU in a Day

Paper • 2502.15814 • Published Feb 19 • 70
Gemini Robotics: Bringing AI into the Physical World

Paper • 2503.20020 • Published Mar 25 • 25
Gemma 3 Technical Report

Paper • 2503.19786 • Published Mar 25 • 50

2025 LLM Papers on Hugging Face with Japanese Memos

MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models

Paper • 2501.02955 • Published Jan 6 • 45
2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining

Paper • 2501.00958 • Published Jan 1 • 107
MMVU: Measuring Expert-Level Multi-Discipline Video Understanding

Paper • 2501.12380 • Published Jan 21 • 85
VideoWorld: Exploring Knowledge Learning from Unlabeled Videos

Paper • 2501.09781 • Published Jan 16 • 29

Phi-4 Technical Report

Paper • 2412.08905 • Published Dec 12, 2024 • 116
Evaluating and Aligning CodeLLMs on Human Preference

Paper • 2412.05210 • Published Dec 6, 2024 • 51
Evaluating Language Models as Synthetic Data Generators

Paper • 2412.03679 • Published Dec 4, 2024 • 49
Yi-Lightning Technical Report

Paper • 2412.01253 • Published Dec 2, 2024 • 29

Groma: Localized Visual Tokenization for Grounding Multimodal Large Language Models

Paper • 2404.13013 • Published Apr 19, 2024 • 32
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing

Paper • 2404.12253 • Published Apr 18, 2024 • 56
Data-Efficient Contrastive Language-Image Pretraining: Prioritizing Data Quality over Quantity

Paper • 2403.12267 • Published Mar 18, 2024
No More Adam: Learning Rate Scaling at Initialization is All You Need

Paper • 2412.11768 • Published Dec 16, 2024 • 44

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs