Dongyoon Hahm's picture

Dongyoon Hahm

Hahmdong

https://hahmdy.github.io

HahmDY

AI & ML interests

AI Safety

Recent Activity

updated a model 26 minutes ago

Hahmdong/RMOOD-qwen3-4b-it-skywork-bias-analysis-markdown-p10-p100

published a model 30 minutes ago

Hahmdong/RMOOD-qwen3-4b-it-skywork-bias-analysis-markdown-p10-p100

upvoted a paper 2 days ago

Alignment Tampering: How Reinforcement Learning from Human Feedback Is Exploited to Optimize Misaligned Biases

View all activity

Organizations

None yet

upvoted a paper 2 days ago

Alignment Tampering: How Reinforcement Learning from Human Feedback Is Exploited to Optimize Misaligned Biases

Paper • 2605.27355 • Published 6 days ago • 2