Edit Models filters

Models

3,173

Full-text search

Active filters: ppo

payelb/aligned_tinyllama_ultrafeedback_fixed1k_baseline

payelb/aligned_tinyllama_ultrafeedback_fixed1k_mars

jalaneunos/LunarLander-v3-ppo-1

Reinforcement Learning • Updated Jan 16

Kolosok/ppo-CartPole-v1

Reinforcement Learning • Updated Jan 16

Kolosok/ppo-LunarLander-v2_2

Reinforcement Learning • Updated Jan 16

Sambarlasagna/ppo-LunarLander-v2

Reinforcement Learning • Updated Jan 18

BrennanDrake/ppo-LunarLander-v2-1

Reinforcement Learning • Updated Jan 18

GavinChan1105/Llama-3-8B-ppo-lora

Reinforcement Learning • Updated Jan 20 • 1

ianyang02/ppo_model_qwen3-4b_aita_h200_one_ex

jinn33/kanana-1.5-8b-rlhf

nhankins/ppo-LunarLander-v3

Reinforcement Learning • Updated Jan 21

Martox/Myppo-LunarLander

Reinforcement Learning • Updated Jan 21

universehugging/LunarLander-v2-1

Reinforcement Learning • Updated Jan 22

onnx-community/mmBERT-base-ONNX

Fill-Mask • Updated Jan 23 • 8 • 1

DanielDel89/jhondoe-models

Reinforcement Learning • Updated Jan 31

seb-835/LunarLander-v2

Reinforcement Learning • Updated Jan 25

arzhela/QuadOpt-RL-ppo-sb3

Reinforcement Learning • Updated Jan 28

zlyngkhoi/ppo_trainer_model

Text Generation • 0.6B • Updated Jan 28 • 1

MeowFR/mistral-7b-humanization-grpo

Reinforcement Learning • Updated Jan 31 • 7

AdityaaXD/Multi-Agent_Reinforcement_Learning_Trading_System_Models

Reinforcement Learning • Updated Feb 1 • 39 • 5

grinvolod/ppo-LunarLander-8v2

Reinforcement Learning • Updated Jan 30

hajirazin/learnfinance-models-ppo

Reinforcement Learning • Updated Mar 3 • 1

oukhan/ppo-CartPole-v1

Reinforcement Learning • Updated Jan 30

Harryis/SCOUT_multitask

Reinforcement Learning • 3B • Updated Feb 1 • 6 • 2

MeowFR/mistral-7b-humanization-grpo-v4-stable

Reinforcement Learning • Updated Feb 1 • 1

MeowFR/mistral-7b-humanization-grpo-v4-ultra-boost

Reinforcement Learning • Updated Feb 1 • 3

canyuzzz/ppo-LunarLander-v2

Reinforcement Learning • Updated Feb 24 • 2

Dr3dre/ppo-test-pythia-1b-deduped-lr3e-06-effbs32-ep3-0

Text Generation • 1B • Updated Feb 2 • 3

Dr3dre/ppo-pythia-1b-deduped-lr2e-06-effbs64-ep1-0-missing-eos-penalty-1-0

Text Generation • 1B • Updated Feb 2 • 4

Dr3dre/ppo-long-summary-bonus-pythia-1b-deduped-lr2e-06-effbs64-ep1-0-long-summary-bonus

Text Generation • 1B • Updated Feb 2 • 5