SFT Models - a RLHFlow Collection

RLHFlow 's Collections

Decision-Tree Reward Models

RLHFlow MATH Process Reward Model

Standard-format-preference-dataset

Mixture-of-preference-reward-modeling

RM-Bradley-Terry

PM-pair

RLHFLow Reward Models

SFT Models

updated Nov 3, 2024

We train a series of SFT models on the high-quality SFT dataset of RLHFlow for research purpose.