Edit Models filters

Inference Providers

Nebius AI Studio

HF Inference API

Misc

Inference Endpoints

text-generation-inference

8-bit precision

Misc with no match

4-bit precision

text-embeddings-inference

Carbon Emissions

Mixture of Experts

Models

491

Full-text search

Active filters: ppo, trl

pdimas/helpfulpharmacyllm_js-rlhf-01

Reinforcement Learning • Updated Mar 11 • 4

pdimas/helpfulpharmacyllm_mb-rlhf-01

Reinforcement Learning • Updated Mar 11 • 2

liuhailin0123/llm-course-hw2-ppo

Text Generation • Updated Mar 30 • 2

tzwilliam0/maxmin-dpo-init-kl-coef-0.1-rebuttal-dongnan

Reinforcement Learning • Updated Mar 27 • 1

tzwilliam0/maxmin-dpo-init-kl-coef-0.5-rebuttal-dongnan

Reinforcement Learning • Updated Mar 27 • 1

xinyuema/llm-course-hw2-ppo

Text Generation • Updated Mar 28 • 3

malifnasrulloh/PPO-IndoNanoT5-base-Liputan6-Canonical

Reinforcement Learning • Updated 23 days ago • 24

ikerm11/gemma1b_humanizer_lora

Reinforcement Learning • Updated 10 days ago • 15

ajagota71/pythia-70m-detox-test

Reinforcement Learning • Updated 4 days ago • 1

ajagota71/pythia-70m-detox-raw-logits

Reinforcement Learning • Updated 4 days ago • 1

ajagota71/pythia-70m-detox-irl-rlhf-test

Reinforcement Learning • Updated about 7 hours ago