[Daily] Video-R1: Reinforcing Video Reasoning in MLLMs — 다은이의 컴퓨터 공부

TLDR;

DeepSeek-R1을 이용한 video reasoning

Motivation

기존 GRPO를 이용한 video reasoning은 아래와 같은 단점이 존재함

Video reasoning에는 temporal reasoning이 중요한데, 이 temporal reasoning이 없으면 모델은 single frame으로 'shortcut'을 통해 답을 내리는 경향 존재
또한, high-quality video reasoning dataset이 없음

Method

GRPO를 extension한 T-GRPO를 제안 (temporal reasoning을 encourage)
Image-based reasoning data (CoT + RL 학습용 데이터셋)을 제안

T-GRPO (Temporal Group Relative Policy Optimization)

(1) Temporally ordered sequence와 (2) randomly shuffled sequence에 대해 같은 question을 물어서 response를 모음
(1) 경우가 맞을 때만 reward를 줌 -> 모델이 temporal order가 맞을 때 더 잘 perform 하도록 함

Advantage A_i는 DeepSeek R1과 같이 아래처럼 계산됨

Final clipped surrogated objective는 아래와 같음 (GRPO와 같은 형식)

Length-based reward도 추가함 (overthinking을 방지하고 deeper reasoning을 위해)

Training strategies

Qwen2.5-VL-7B를 기반으로 two stage로 training: (1) SFT -> (2) RL training
Image-video mixed training strategy
(1) SFT
- Video-R1-COT-165K dataset을 이용해 COT를 supervised fine-tune
(2) RL
- Video-R1-260K dataset을 이용해 T-GRPO로 RL 학습

Results

모델이 처음 답을 self-verifing으로 고치는 aha-moment 존재

여러가지 video understanding 밴치마크를 사용 (temporal reasoning/qa 중심인 듯)

저작자표시 (새창열림)

'Computer Vision💖 > Video' 카테고리의 다른 글

[Daily] VideoChat-R1: Enhancing Spatio-TemporalPerception via Reinforcement Fine-Tuning (0)	2025.04.11
[Daily] Token-Efficient Long Video Understanding for Multimodal LLMs (0)	2025.03.17
[TIL] Video Diffusion Model과 시뮬레이터 (0)	2024.09.20
[TIL] Long Video Understanding (0)	2024.09.06

티스토리툴바