大模型 RL - a xlbqc Collection

xlbqc 's Collections

大模型 RL

updated Apr 7

大模型 RL 相关论文

Rethinking RL Scaling for Vision Language Models: A Transparent, From-Scratch Framework and Comprehensive Evaluation Scheme

Paper • 2504.02587 • Published Apr 3 • 30

Note RL,框架,学习从零搭建了一个用于VLM的RL训练框架，后续可以学习
GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning

Paper • 2504.00891 • Published Apr 1 • 13

Note PRM 将过程奖励模型从预测一个标量值，转换为推理过程