AI & ML interests
None yet
Organizations
None yet
YYYYYYibo/qwen2_5_7b_sft_baseline
YYYYYYibo/qwen2_7b_grpo_vanilla_0325_1257
YYYYYYibo/qwen2_7b_grpo_replay_hard_40percent_0326_0024
YYYYYYibo/qwen2-7b-grpo-replay-hard-25percent-0326
YYYYYYibo/simple_online_epoch_2_dpo_iter_6
7B • Updated • 3
YYYYYYibo/simple_online_epoch_2_dpo_iter_5
7B • Updated • 4
YYYYYYibo/simple_online_epoch_2_dpo_iter_4
YYYYYYibo/gshf_ours_1_iter_3
7B • Updated • 4
YYYYYYibo/gshf_ours_1_iter_2
7B • Updated • 2
YYYYYYibo/two_agent_1_epoch_2_dpo_iter_6
7B • Updated • 6
YYYYYYibo/two_agent_1_epoch_2_rdpo_iter_6
7B • Updated • 4
YYYYYYibo/approx_nash_again_1_iter_3
7B • Updated • 1
YYYYYYibo/approx_nash_again_1_iter_2
7B • Updated • 2
YYYYYYibo/approx_nash_again_iter_3
7B • Updated • 6
YYYYYYibo/approx_nash_again_iter_2
7B • Updated • 2
YYYYYYibo/gshf_ours_iter_3
7B • Updated • 4
YYYYYYibo/gshf_ours_iter_2
7B • Updated • 2
YYYYYYibo/two_agent_1_epoch_2_rdpo_iter_5
7B • Updated • 8
YYYYYYibo/two_agent_1_epoch_2_dpo_iter_5
7B • Updated • 5
YYYYYYibo/two_agent_1_epoch_2_rdpo_iter_4
7B • Updated • 5
YYYYYYibo/two_agent_1_epoch_2_dpo_iter_4
7B • Updated • 5
YYYYYYibo/selm_ours_1_iter_3
7B • Updated • 4
YYYYYYibo/selm_ours_1_iter_2
7B • Updated • 2
YYYYYYibo/selm_ours_iter_3
7B • Updated • 1
YYYYYYibo/selm_ours_iter_2
7B • Updated • 1
YYYYYYibo/spin_dpo_dpo_iter_3
7B • Updated • 3
YYYYYYibo/spin_dpo_dpo_iter_2
7B • Updated • 2
YYYYYYibo/two_agent_2_rdpo_iter_3
7B • Updated • 3
YYYYYYibo/two_agent_2_dpo_iter_3
7B • Updated • 3
YYYYYYibo/two_agent_2_rdpo_iter_2
7B • Updated • 2