LLMs Align - a rrjin Collection

rrjin 's Collections

LLMs Align

updated Aug 19, 2024

Helping or Herding? Reward Model Ensembles Mitigate but do not Eliminate Reward Hacking

Paper • 2312.09244 • Published Dec 14, 2023 • 11