LLM-Pretrain - a lihaocruiser Collection

lihaocruiser 's Collections

LLM-RL

LLM-RAG

LLM-SyntheticData

LLM-recomendation

LLM-Hallucination

LLM-Pretrain

updated Oct 8, 2024

Data Selection for Language Models via Importance Resampling

Paper • 2302.03169 • Published Feb 6, 2023
Scaling Data-Constrained Language Models

Paper • 2305.16264 • Published May 25, 2023 • 17
Challenges with unsupervised LLM knowledge discovery

Paper • 2312.10029 • Published Dec 15, 2023 • 10
How Do Large Language Models Acquire Factual Knowledge During Pretraining?

Paper • 2406.11813 • Published Jun 17, 2024 • 32