[Daily] VideoChat-R1: Enhancing Spatio-TemporalPerception via Reinforcement Fine-Tuning
·
Computer Vision💖/Video
TLDR;VideoLLM에 GRPO를 적용한 또 다른 버전, spatio-temporal perception 성능을 높이고자 했다고 한다.VideoLLM의 general capability를 유지하면서 task-specific performance를 높일 수 있다고 함.MotivationVideo understanding에는 reasoning ability를 위한 training/evaluation corpus가 부족 + underexploredMethod1. GRPOPPO에서 critic model에 대한 dependency를 줄인 것Response에 대한 group을 생성한 뒤 (여러개 response candidate) 아래와 같이 quality 측정GRPO는 그룹 내 better answer가 나..
[Daily] Token-Efficient Long Video Understanding for Multimodal LLMs
·
Computer Vision💖/Video
TLDR;기존 video llm은 각 frame을 독립적으로 처리Image encoder와 llm 사이의 temporal encoder를 제시 -> efficient long video understandingMotivation기존 video llm은 비디오를 frame image sequence로 처리하고, 각 frame을 image encoder와 visual language projector에서 independently하게 처리함하지만 이는 computational burden을 초래또한 LLM에 넣어지는 token 수를 줄이기 위해 naive frame subsampling을 진행하지만 이는 information loss 유발 + 또는 information이 overlap되는 현상 발생Method..