[Daily] VideoChat-R1: Enhancing Spatio-TemporalPerception via Reinforcement Fine-Tuning

2025. 4. 11. 05:16·Computer Vision💖/Video
반응형

TLDR;

  • VideoLLM에 GRPO를 적용한 또 다른 버전, spatio-temporal perception 성능을 높이고자 했다고 한다.
  • VideoLLM의 general capability를 유지하면서 task-specific performance를 높일 수 있다고 함.

Motivation

  • Video understanding에는 reasoning ability를 위한 training/evaluation corpus가 부족 + underexplored

Method

1. GRPO

  • PPO에서 critic model에 대한 dependency를 줄인 것
  • Response에 대한 group을 생성한 뒤 (여러개 response candidate) 아래와 같이 quality 측정

  • GRPO는 그룹 내 better answer가 나오기를 encourage한다. Final training objective는 아래와 같음.


2. Spatio-Temporal Reward of VideoLLM in GRPO

Video understanding task마다 서로 다른 reward 사용 (reward 정의가 생각보다 간단하다) 

  1. Format reward: 각 task마다 format reward를 설정하고 만족하면 1, 아니면 0

    2. IoU reward

  • Temporal grounding/tracking의 경우 time interval을 요구하는데, gt와 pred의 IoU를 계산해 reward로 사용

  1. Accuracy reward in classification
  • Multi-choice QA의 경우 정답이 맞으면 1, 아니면 0

  1. Recall reward in video captioning
  • Key event를 추출하고 gt와 비교해 LLM에게 captioning을 judge 하도록 함

 

Results

  • Base model: Qwen2.5-VL-7B
  • Temporal grounding/tracking 등의 task에서 test

반응형
저작자표시 (새창열림)

'Computer Vision💖 > Video' 카테고리의 다른 글

[Daily] Video-R1: Reinforcing Video Reasoning in MLLMs  (0) 2025.04.09
[Daily] Token-Efficient Long Video Understanding for Multimodal LLMs  (0) 2025.03.17
[TIL] Video Diffusion Model과 시뮬레이터  (0) 2024.09.20
[TIL] Long Video Understanding  (0) 2024.09.06
'Computer Vision💖/Video' 카테고리의 다른 글
  • [Daily] Video-R1: Reinforcing Video Reasoning in MLLMs
  • [Daily] Token-Efficient Long Video Understanding for Multimodal LLMs
  • [TIL] Video Diffusion Model과 시뮬레이터
  • [TIL] Long Video Understanding
당니이
당니이
씩씩하게 공부하기 📚💻
  • 당니이
    다은이의 컴퓨터 공부
    당니이
  • 전체
    오늘
    어제
    • 분류 전체보기 (136)
      • Achieved 👩🏻 (14)
        • 생각들 (2)
        • TIL (6)
        • Trial and Error (1)
        • Inspiration ✨ (0)
        • 미국 박사 준비 🎓 (1)
      • Computer Vision💖 (39)
        • Basic (9)
        • Video (5)
        • Continual Learning (7)
        • Generative model (2)
        • Domain (DA & DG) (5)
        • Multimodal (8)
        • Multitask Learning (1)
        • Segmentation (1)
        • Colorization (1)
      • RL 🤖 (1)
      • Autonomous Driving 🚙 (11)
        • Geometry (4)
        • LiDAR 3D Detection (1)
        • Trajectory prediction (2)
        • Lane Detection (1)
        • HDmap (3)
      • Linux (15)
      • PyTorch👩🏻‍💻 (10)
      • Linear Algebra (2)
      • Python (5)
      • NLP (10)
        • Article 📑 (1)
      • Algorithms 💻 (22)
        • Basic (8)
        • BAEKJOON (8)
        • Programmers (2)
      • ML (1)
        • 통계적 머신러닝(20-2) (1)
      • SQL (3)
      • 기초금융 💵 (1)
  • 블로그 메뉴

    • 홈
    • About me
  • 링크

    • 나의 소박한 github
    • Naver 블로그
  • 공지사항

  • 인기 글

  • 태그

    pytorch
    리눅스
    Incremental Learning
    domain generalization
    CV
    백준
    dfs
    domain adaptation
    CL
    Linux
    LLM
    conda
    til
    백트래킹
    continual learning
    Python
    자료구조
    NLP
    알고리즘
    코딩테스트
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
당니이
[Daily] VideoChat-R1: Enhancing Spatio-TemporalPerception via Reinforcement Fine-Tuning
상단으로

티스토리툴바