RLHFlow

university

RLHFlow

RLHFlow

AI & ML interests

Workflow of Reinforcement Learning from Human Feedback (RLHF). Blog: https://rlhflow.github.io/

Recent Activity

weqweasdas updated a dataset about 2 months ago

RLHFlow/self_rewarding_turn2_example

weqweasdas published a dataset about 2 months ago

RLHFlow/self_rewarding_turn2_example

weqweasdas updated a dataset about 2 months ago

RLHFlow/self_rewarding_turn1_with_rewards_example

View all activity

Collections 10

models 27

RLHFlow/Qwen2.5-7B-SFT

Updated Feb 17 • 15

RLHFlow/Qwen2.5-7B-RAFT-Zero

Updated Feb 17 • 7

RLHFlow/Qwen2.5-7B-DPO-NLL-Zero

Updated Feb 17 • 1

RLHFlow/Qwen2.5-7B-DPO-Zero

Updated Feb 17 • 8

RLHFlow/Qwen2.5-7B-DPO

Updated Feb 17 • 49

RLHFlow/Qwen2.5-7B-PPO-Zero

Updated Feb 17 • 34 • 2

RLHFlow/Decision-Tree-Reward-Gemma-2-27B

Text Classification • Updated Jan 24 • 18 • 6

RLHFlow/Decision-Tree-Reward-Llama-3.1-8B

Text Classification • Updated Jan 24 • 26 • 7

RLHFlow/Llama3.1-8B-PRM-Mistral-Data

Text Generation • Updated Nov 9, 2024 • 723 • 10

RLHFlow/Llama3.1-8B-PRM-Deepseek-Data

Text Generation • Updated Nov 9, 2024 • 18.6k • 34

datasets 83

RLHFlow/self_rewarding_turn2_example

Updated Mar 2 • 29

RLHFlow/self_rewarding_turn1_with_rewards_example

Updated Mar 2 • 20

RLHFlow/self_rewarding_rl_prompt

Updated Mar 2 • 25

RLHFlow/self_rewarding_sft_prompt

Viewer • Updated Mar 2 • 40k • 47

RLHFlow/self_rewarding_ift_example_raw_data1

Viewer • Updated Feb 26 • 16.3k • 23

RLHFlow/self_rewarding_ift_example

Viewer • Updated Feb 26 • 32k • 59

RLHFlow/qwq_gen_sft_15k

Viewer • Updated Feb 17 • 15k • 22

RLHFlow/numia_prompt_ppo

Viewer • Updated Feb 13 • 404k • 28 • 1

RLHFlow/numia_prompt_dpo_test

Viewer • Updated Feb 11 • 1.02k • 14

RLHFlow/numia_prompt_dpo9

Viewer • Updated Feb 11 • 20k • 30