
[Daily] Video-R1: Reinforcing Video Reasoning in MLLMs
·
Computer Vision💖/Video
TLDR;DeepSeek-R1을 이용한 video reasoningMotivation기존 GRPO를 이용한 video reasoning은 아래와 같은 단점이 존재함Video reasoning에는 temporal reasoning이 중요한데, 이 temporal reasoning이 없으면 모델은 single frame으로 'shortcut'을 통해 답을 내리는 경향 존재또한, high-quality video reasoning dataset이 없음MethodGRPO를 extension한 T-GRPO를 제안 (temporal reasoning을 encourage)Image-based reasoning data (CoT + RL 학습용 데이터셋)을 제안T-GRPO (Temporal Group Relative ..