Edit Models filters

Inference Providers

Nebius AI Studio

HF Inference API

Misc

Inference Endpoints

AutoTrain Compatible

text-generation-inference

reinforcement-learning

8-bit precision

Carbon Emissions

4-bit precision

Misc with no match

text-embeddings-inference

Mixture of Experts

Models

58,100

Full-text search

Active filters: reinforcement-learning

ValueFX9507/Tifa-DeepsexV2-7b-MGRPO-GGUF-Q8

Reinforcement Learning • Updated about 1 month ago • 21.6k • 155

ValueFX9507/Tifa-DeepsexV2-7b-MGRPO-GGUF-Q4

Reinforcement Learning • Updated Mar 26 • 3.6k • 213

ThomasSimonini/ML-Agents-SnowballFight-1vs1

Reinforcement Learning • Updated Nov 30, 2021 • 22 • 9

ThomasSimonini/ppo-AntBulletEnv-v0

Reinforcement Learning • Updated Apr 7, 2022 • 8 • 1

ThomasSimonini/ppo-BreakoutNoFrameskip-v4

Reinforcement Learning • Updated Apr 7, 2022 • 459 • 3

edbeeching/decision_transformer_atari

Reinforcement Learning • Updated Feb 21, 2022 • 3

edbeeching/decision-transformer-gym-hopper-expert

Reinforcement Learning • Updated Jun 29, 2022 • 727 • 19

ThomasSimonini/ppo-Huggy

Reinforcement Learning • Updated Dec 4, 2022 • 28 • 2

osanseviero/test_sb3

Reinforcement Learning • Updated May 4, 2022 • 2 • 4

araffin/ppo-LunarLander-v2

Reinforcement Learning • Updated Oct 11, 2022 • 65 • 18

sb3/sac-Humanoid-v3

Reinforcement Learning • Updated Oct 11, 2022 • 13 • 1

sb3/dqn-SpaceInvadersNoFrameskip-v4

Reinforcement Learning • Updated Oct 11, 2022 • 58 • 4

sb3/tqc-PandaPickAndPlace-v1

Reinforcement Learning • Updated Aug 17, 2023 • 14 • 7

unity/ML-Agents-Walker

Reinforcement Learning • Updated Jun 22, 2022 • 7

edbeeching/doom_health_gathering_supreme_2222

Reinforcement Learning • Updated Oct 24, 2022 • 2

ThomasSimonini/a2c-PandaReachDense-v2

Reinforcement Learning • Updated Aug 17, 2023 • 2 • 1

sgoodfriend/ppo-CartPole-v1

Reinforcement Learning • Updated Apr 15, 2023 • 1

sgoodfriend/ppo-Microrts-selfplay-unet-decay

Reinforcement Learning • Updated Apr 23, 2023 • 4

Cainiao-AI/GreedRL

Reinforcement Learning • Updated May 4, 2023 • 25

PKU-Alignment/beaver-7b-v1.0

Reinforcement Learning • Updated May 9, 2024 • 35 • 11

nicklashansen/tdmpc2

Reinforcement Learning • Updated Oct 26, 2023 • 14

Elysr/TrialMatchLLM

Reinforcement Learning • Updated Mar 31, 2024 • 2

jat-project/jat

Reinforcement Learning • Updated Apr 29, 2024 • 71 • 95

Weidong-Huang/SafeDreamer

Reinforcement Learning • Updated Apr 8, 2024 • 2

metta-ai/baseline.v0.1.0

Reinforcement Learning • Updated Apr 29, 2024 • 1

Mahanthesh0r/BipedalWalker-RL

Reinforcement Learning • Updated May 20, 2024 • 3 • 1

hishamcse/poca-SoccerTwos

Reinforcement Learning • Updated Aug 12, 2024 • 20 • 1

hishamcse/doom_deathmatch_bots

Reinforcement Learning • Updated Aug 12, 2024 • 1

hishamcse/RND-SuperMarioBros-v0

Reinforcement Learning • Updated Aug 12, 2024 • 3

hishamcse/street-fighter-iii-ppo-diambra

Reinforcement Learning • Updated Aug 12, 2024 • 3 • 3