
[Daily] VideoChat-R1: Enhancing Spatio-TemporalPerception via Reinforcement Fine-Tuning

·
Computer Vision💖/Video
TLDR;VideoLLM에 GRPO를 적용한 또 다른 버전, spatio-temporal perception 성능을 높이고자 했다고 한다.VideoLLM의 general capability를 유지하면서 task-specific performance를 높일 수 있다고 함.MotivationVideo understanding에는 reasoning ability를 위한 training/evaluation corpus가 부족 + underexploredMethod1. GRPOPPO에서 critic model에 대한 dependency를 줄인 것Response에 대한 group을 생성한 뒤 (여러개 response candidate) 아래와 같이 quality 측정GRPO는 그룹 내 better answer가 나..