AI & ML interests
None yet
Organizations
None yet
YYYYYYibo/two_agent_2_dpo_iter_2
7B • Updated • 1
YYYYYYibo/approx_nash_rdpo_iter_3
7B • Updated • 3
YYYYYYibo/approx_nash_rdpo_iter_2
7B • Updated • 2
YYYYYYibo/two_agent_2_dpo_iter_1
Updated
YYYYYYibo/two_agent_1_rdpo_iter_3
7B • Updated • 3
YYYYYYibo/two_agent_1_dpo_iter_3
7B • Updated • 2
YYYYYYibo/two_agent_1_rdpo_iter_2
7B • Updated • 2
YYYYYYibo/two_agent_1_dpo_iter_2
7B • Updated • 1
YYYYYYibo/two_agent_dpo_iter_1
Updated
YYYYYYibo/two_agent_rdpo_iter_3
7B • Updated • 2
YYYYYYibo/two_agent_dpo_iter_3
Text Generation
• 7B • Updated • 3
YYYYYYibo/two_agent_rdpo_iter_2
Text Generation
• 7B • Updated • 3
YYYYYYibo/two_agent_dpo_iter_2
Text Generation
• 7B • Updated • 5
YYYYYYibo/two_agent_iter_1
Text Generation
• 7B • Updated • 2
YYYYYYibo/approx_nash_3temp_iter_3
Text Generation
• 7B • Updated • 4
YYYYYYibo/approx_nash_3temp_iter_2
Text Generation
• 7B • Updated • 2
YYYYYYibo/approx_nash_maxmin_iter_3
Text Generation
• 7B • Updated • 3
YYYYYYibo/approx_nash_maxmin_iter_2
Text Generation
• 7B • Updated • 3
YYYYYYibo/approx_nash_1_iter_3
Text Generation
• 7B • Updated • 4
YYYYYYibo/approx_nash_1_iter_2
Text Generation
• 7B • Updated • 3
YYYYYYibo/test_rdpo_qlora
Updated
YYYYYYibo/gshf_lora_iter_3
YYYYYYibo/gshf_lora_iter_2
YYYYYYibo/gshf_lora_iter_1
YYYYYYibo/imp_sam_1_iter_3
YYYYYYibo/imp_sam_1_iter_2
YYYYYYibo/imp_sam_1_iter_1