Awesome reward models - a HuggingFaceH4 Collection

HuggingFaceH4 's Collections

Scaling Test-Time Compute with Open Models

Zephyr 7B Gemma

Papers We've Read

Awesome SFT datasets

Awesome feedback datasets

Awesome reward models

Awesome reward models

updated Apr 12, 2024

A curated collection of reward models to use with techniques like rejection sampling and RLHF / RLAIF

llm-blender/PairRM

Text Generation • Updated Jan 22, 2024 • 5.53k • 199
openbmb/UltraRM-13b

Updated Oct 14, 2023 • 1.8k • 59
OpenAssistant/reward-model-deberta-v3-large-v2

Text Classification • Updated Feb 1, 2023 • 10.3k • • 221
PKU-Alignment/beaver-7b-v1.0-reward

Reinforcement Learning • Updated Apr 20, 2024 • 2.93k • 16