당니이
다은이의 컴퓨터 공부
당니이
전체 방문자
오늘
어제
  • 분류 전체보기 (140)
    • Achieved 👩🏻 (14)
      • 생각들 (2)
      • TIL (6)
      • Trial and Error (1)
      • Inspiration ✨ (0)
      • 미국 박사 준비 🎓 (1)
    • Computer Vision💖 (39)
      • Basic (9)
      • Video (5)
      • Continual Learning (7)
      • Generative model (2)
      • Domain (DA & DG) (5)
      • Multimodal (8)
      • Multitask Learning (1)
      • Segmentation (1)
      • Colorization (1)
    • RL 🤖 (4)
    • Autonomous Driving 🚙 (11)
      • Geometry (4)
      • LiDAR 3D Detection (1)
      • Trajectory prediction (2)
      • Lane Detection (1)
      • HDmap (3)
    • Linux (15)
    • PyTorch👩🏻‍💻 (10)
    • Linear Algebra (2)
    • Python (5)
    • NLP (11)
      • Article 📑 (1)
    • Algorithms 💻 (22)
      • Basic (8)
      • BAEKJOON (8)
      • Programmers (2)
    • ML (1)
      • 통계적 머신러닝(20-2) (1)
    • SQL (3)
    • 기초금융 💵 (1)

블로그 메뉴

  • 홈
  • About me

공지사항

인기 글

태그

  • 리눅스
  • til
  • pytorch
  • 백준
  • 코딩테스트
  • dfs
  • domain generalization
  • LLM
  • Python
  • CL
  • 자료구조
  • conda
  • Linux
  • domain adaptation
  • CV
  • NLP
  • continual learning
  • 백트래킹
  • 알고리즘
  • Incremental Learning

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
당니이

다은이의 컴퓨터 공부

[Daily] Token-Efficient Long Video Understanding for Multimodal LLMs
Computer Vision💖/Video

[Daily] Token-Efficient Long Video Understanding for Multimodal LLMs

2025. 3. 17. 04:49
반응형

TLDR;

  • 기존 video llm은 각 frame을 독립적으로 처리
  • Image encoder와 llm 사이의 temporal encoder를 제시 -> efficient long video understanding

Motivation

  • 기존 video llm은 비디오를 frame image sequence로 처리하고, 각 frame을 image encoder와 visual language projector에서 independently하게 처리함
    • 하지만 이는 computational burden을 초래
  • 또한 LLM에 넣어지는 token 수를 줄이기 위해 naive frame subsampling을 진행
    • 하지만 이는 information loss 유발 + 또는 information이 overlap되는 현상 발생

Method

  • Mamba-based temporal projector + token compression techniques
    • image encoder 사이의 temporal encoder를 통해 temporal dynamics를 earlier pipeline에서 잡을 수 있도록 함 (temporal information을 visual token에 directly하게 삽입)
  1. Mamba-based Temporal Projector

  • Video frame 사이의 temporal information을 integrate
  • L개의 Mamba layer에서는 temporal information을 visual token에 fuse'

  1. Training-time Token Compression

  • 모든 frame을 handling 하는건 비싸고, LLM token length는 정해져 있기 때문에 long-video processing에는 token compression이 중요
  • 1) Temporal pooling: temporal projector의 output을 연속된 k frame마다 average

  • 2) Spatial pooling: each frame에서 spatial pooling ratio를 통해 pooling 
  1. Test-time (Training-free) temporal token sampling
  • Temporal dimension에 대해 test-time에서 visual token을 subsampling

Result

  • Long video understanding task 위주로 test

반응형
저작자표시 (새창열림)

'Computer Vision💖 > Video' 카테고리의 다른 글

[Daily] VideoChat-R1: Enhancing Spatio-TemporalPerception via Reinforcement Fine-Tuning  (0) 2025.04.11
[Daily] Video-R1: Reinforcing Video Reasoning in MLLMs  (0) 2025.04.09
[TIL] Video Diffusion Model과 시뮬레이터  (0) 2024.09.20
[TIL] Long Video Understanding  (0) 2024.09.06
    'Computer Vision💖/Video' 카테고리의 다른 글
    • [Daily] VideoChat-R1: Enhancing Spatio-TemporalPerception via Reinforcement Fine-Tuning
    • [Daily] Video-R1: Reinforcing Video Reasoning in MLLMs
    • [TIL] Video Diffusion Model과 시뮬레이터
    • [TIL] Long Video Understanding
    당니이
    당니이
    씩씩하게 공부하기 📚💻

    티스토리툴바