[Daily] Video-R1: Reinforcing Video Reasoning in MLLMs

2025. 4. 9. 23:28·Computer Vision💖/Video
반응형

TLDR;

  • DeepSeek-R1을 이용한 video reasoning

Motivation

기존 GRPO를 이용한 video reasoning은 아래와 같은 단점이 존재함

  • Video reasoning에는 temporal reasoning이 중요한데, 이 temporal reasoning이 없으면 모델은 single frame으로 'shortcut'을 통해 답을 내리는 경향 존재
  • 또한, high-quality video reasoning dataset이 없음

Method

  1. GRPO를 extension한 T-GRPO를 제안 (temporal reasoning을 encourage)
  2. Image-based reasoning data (CoT + RL 학습용 데이터셋)을 제안

T-GRPO (Temporal Group Relative Policy Optimization)

  • (1) Temporally ordered sequence와 (2) randomly shuffled sequence에 대해 같은 question을 물어서 response를 모음
  • (1) 경우가 맞을 때만 reward를 줌 -> 모델이 temporal order가 맞을 때 더 잘 perform 하도록 함

  • Advantage A_i는 DeepSeek R1과 같이 아래처럼 계산됨

  • Final clipped surrogated objective는 아래와 같음 (GRPO와 같은 형식)

  • Length-based reward도 추가함 (overthinking을 방지하고 deeper reasoning을 위해)

Training strategies

  • Qwen2.5-VL-7B를 기반으로 two stage로 training: (1) SFT -> (2) RL training
  • Image-video mixed training strategy
  • (1) SFT
    • Video-R1-COT-165K dataset을 이용해 COT를 supervised fine-tune
  • (2) RL
    • Video-R1-260K dataset을 이용해 T-GRPO로 RL 학습

Results

  • 모델이 처음 답을 self-verifing으로 고치는 aha-moment 존재

  • 여러가지 video understanding 밴치마크를 사용 (temporal reasoning/qa 중심인 듯)

 

반응형
저작자표시 (새창열림)

'Computer Vision💖 > Video' 카테고리의 다른 글

[Daily] VideoChat-R1: Enhancing Spatio-TemporalPerception via Reinforcement Fine-Tuning  (0) 2025.04.11
[Daily] Token-Efficient Long Video Understanding for Multimodal LLMs  (0) 2025.03.17
[TIL] Video Diffusion Model과 시뮬레이터  (0) 2024.09.20
[TIL] Long Video Understanding  (0) 2024.09.06
'Computer Vision💖/Video' 카테고리의 다른 글
  • [Daily] VideoChat-R1: Enhancing Spatio-TemporalPerception via Reinforcement Fine-Tuning
  • [Daily] Token-Efficient Long Video Understanding for Multimodal LLMs
  • [TIL] Video Diffusion Model과 시뮬레이터
  • [TIL] Long Video Understanding
당니이
당니이
씩씩하게 공부하기 📚💻
  • 당니이
    다은이의 컴퓨터 공부
    당니이
  • 전체
    오늘
    어제
    • 분류 전체보기 (136)
      • Achieved 👩🏻 (14)
        • 생각들 (2)
        • TIL (6)
        • Trial and Error (1)
        • Inspiration ✨ (0)
        • 미국 박사 준비 🎓 (1)
      • Computer Vision💖 (39)
        • Basic (9)
        • Video (5)
        • Continual Learning (7)
        • Generative model (2)
        • Domain (DA & DG) (5)
        • Multimodal (8)
        • Multitask Learning (1)
        • Segmentation (1)
        • Colorization (1)
      • RL 🤖 (1)
      • Autonomous Driving 🚙 (11)
        • Geometry (4)
        • LiDAR 3D Detection (1)
        • Trajectory prediction (2)
        • Lane Detection (1)
        • HDmap (3)
      • Linux (15)
      • PyTorch👩🏻‍💻 (10)
      • Linear Algebra (2)
      • Python (5)
      • NLP (10)
        • Article 📑 (1)
      • Algorithms 💻 (22)
        • Basic (8)
        • BAEKJOON (8)
        • Programmers (2)
      • ML (1)
        • 통계적 머신러닝(20-2) (1)
      • SQL (3)
      • 기초금융 💵 (1)
  • 블로그 메뉴

    • 홈
    • About me
  • 링크

    • 나의 소박한 github
    • Naver 블로그
  • 공지사항

  • 인기 글

  • 태그

    Python
    Incremental Learning
    리눅스
    LLM
    conda
    코딩테스트
    CL
    dfs
    NLP
    domain generalization
    백준
    CV
    continual learning
    자료구조
    til
    알고리즘
    domain adaptation
    백트래킹
    Linux
    pytorch
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
당니이
[Daily] Video-R1: Reinforcing Video Reasoning in MLLMs
상단으로

티스토리툴바