Post Training - a knight7561 Collection

knight7561 's Collections

LLM and Reasoning Papers

Post Training

updated Mar 8

Aligning Instruction Tuning with Pre-training

Paper • 2501.09368 • Published Jan 16
Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey

Paper • 2403.14608 • Published Mar 21, 2024
Direct Preference Optimization: Your Language Model is Secretly a Reward Model

Paper • 2305.18290 • Published May 29, 2023 • 58