RLHF - a Trangle Collection

Trangle 's Collections

RLHF

LLM-APP-Recommendation

RLHF

updated Jun 7, 2024

Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation

Paper • 2401.08417 • Published Jan 16, 2024 • 37
PLaD: Preference-based Large Language Model Distillation with Pseudo-Preference Pairs

Paper • 2406.02886 • Published Jun 5, 2024 • 11