반응형
TLDR;
- DeepSeek-R1을 이용한 video reasoning
Motivation
기존 GRPO를 이용한 video reasoning은 아래와 같은 단점이 존재함
- Video reasoning에는 temporal reasoning이 중요한데, 이 temporal reasoning이 없으면 모델은 single frame으로 'shortcut'을 통해 답을 내리는 경향 존재
- 또한, high-quality video reasoning dataset이 없음
Method
- GRPO를 extension한 T-GRPO를 제안 (temporal reasoning을 encourage)
- Image-based reasoning data (CoT + RL 학습용 데이터셋)을 제안
T-GRPO (Temporal Group Relative Policy Optimization)
- (1) Temporally ordered sequence와 (2) randomly shuffled sequence에 대해 같은 question을 물어서 response를 모음
- (1) 경우가 맞을 때만 reward를 줌 -> 모델이 temporal order가 맞을 때 더 잘 perform 하도록 함
- Advantage A_i는 DeepSeek R1과 같이 아래처럼 계산됨
- Final clipped surrogated objective는 아래와 같음 (GRPO와 같은 형식)
- Length-based reward도 추가함 (overthinking을 방지하고 deeper reasoning을 위해)
Training strategies
- Qwen2.5-VL-7B를 기반으로 two stage로 training: (1) SFT -> (2) RL training
- Image-video mixed training strategy
- (1) SFT
- Video-R1-COT-165K dataset을 이용해 COT를 supervised fine-tune
- (2) RL
- Video-R1-260K dataset을 이용해 T-GRPO로 RL 학습
Results
- 모델이 처음 답을 self-verifing으로 고치는 aha-moment 존재
- 여러가지 video understanding 밴치마크를 사용 (temporal reasoning/qa 중심인 듯)
반응형
'Computer Vision💖 > Video' 카테고리의 다른 글
[Daily] VideoChat-R1: Enhancing Spatio-TemporalPerception via Reinforcement Fine-Tuning (0) | 2025.04.11 |
---|---|
[Daily] Token-Efficient Long Video Understanding for Multimodal LLMs (0) | 2025.03.17 |
[TIL] Video Diffusion Model과 시뮬레이터 (0) | 2024.09.20 |
[TIL] Long Video Understanding (0) | 2024.09.06 |