
[Daily] MM-EUREKA: Exploring Visual Aha Moment with Rule-Based Large-Scale Reinforcement Learning
·
Computer Vision💖/Multimodal
TLDR;DeepSeek-R1 (rule-based reinforcement learning) 을 Multimodal setting에서 재현한 첫 opensource modelMultimodal reasoning model 'MM-Eureka'를 제안MotivationDeepSeek-R1을 multimodal setting에서 재현하려는 노력은 많이 있어왔지만, 거의 close source 모델이거나 'aha moment'에서 재현이 잘 안됨여기서 aha moment란 reasoning 중간에 이미지를 다시 체크하거나.. 확인하는 것MethodBasic setting: InternVL2.5 (8B, 32B)를 이용 + DeepSeekR1의 rule-based reward를 사용함Data clearning..