당니이
다은이의 컴퓨터 공부
당니이
전체 방문자
오늘
어제
  • 분류 전체보기 (140) N
    • Achieved 👩🏻 (14)
      • 생각들 (2)
      • TIL (6)
      • Trial and Error (1)
      • Inspiration ✨ (0)
      • 미국 박사 준비 🎓 (1)
    • Computer Vision💖 (39)
      • Basic (9)
      • Video (5)
      • Continual Learning (7)
      • Generative model (2)
      • Domain (DA & DG) (5)
      • Multimodal (8)
      • Multitask Learning (1)
      • Segmentation (1)
      • Colorization (1)
    • RL 🤖 (4) N
    • Autonomous Driving 🚙 (11)
      • Geometry (4)
      • LiDAR 3D Detection (1)
      • Trajectory prediction (2)
      • Lane Detection (1)
      • HDmap (3)
    • Linux (15)
    • PyTorch👩🏻‍💻 (10)
    • Linear Algebra (2)
    • Python (5)
    • NLP (11)
      • Article 📑 (1)
    • Algorithms 💻 (22)
      • Basic (8)
      • BAEKJOON (8)
      • Programmers (2)
    • ML (1)
      • 통계적 머신러닝(20-2) (1)
    • SQL (3)
    • 기초금융 💵 (1)

블로그 메뉴

  • 홈
  • About me

공지사항

인기 글

태그

  • Python
  • 알고리즘
  • continual learning
  • til
  • domain adaptation
  • domain generalization
  • LLM
  • 코딩테스트
  • 백준
  • CL
  • conda
  • CV
  • pytorch
  • NLP
  • dfs
  • Incremental Learning
  • 리눅스
  • 자료구조
  • 백트래킹
  • Linux

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
당니이

다은이의 컴퓨터 공부

[Daily] InternVL3: Exploring Advanced Training and Test-TimeRecipes for Open-Source Multimodal Models
Computer Vision💖/Multimodal

[Daily] InternVL3: Exploring Advanced Training and Test-TimeRecipes for Open-Source Multimodal Models

2025. 4. 16. 03:27
반응형

오늘 InternVL3이 나왔다. 매일매일 따라가는게 진심으로 벅차지만 .. 매일 daily paper를 체크하니까 꽤 트랜드를 따라가기 좋고 연구에도 도움이 많이 되는 것 같다! 긍정긍정 

TLDR; 

  • Pre-training stage에서 multimodal/ linguistic capability를 joint하게 학습시킨다. 
    • 이전에는 text-only pre-training을 먼저 거치고, visual processing을 위해 multimodal alignment를 그 후에 학습시켰음. 
  • Variable visual position encoding을 제안
  • Post-training: SFT + Mixed preference optimization 
  • Test-time scaling: Answer N개 중 verify해 하나를 선택 

 

Method

역시 ViT-MLP-LLM 패러다임을 따른다. ViT로는 InternViT를 이용하고, LLM은 Qwen2.5를 이용했다. 

1. Variable Visual Position Encoding 

  • Visual token은 상대적으로 language token보다 많아서, 이전처럼 position index를 1씩 증가시키는 방법으로 통일하면 이슈가 생길 수 있다. 이전에는 아래와 같은 1씩 증가하는 방법을 사용했음. 

  • 이렇게 하는 대신 visual token index을 1보다 작은 값으로 촘촘히 증가시킨다. (position index computation에 modality-specific reculsive function을 이용한다). 이를 통해 비주얼 토큰들을 작은 구간 안에 촘촘히 배치할 수 있고, 위치 공간이 덜 낭비된다. 

2. Native Multimodal Pre-training 

  • Language-only model이 우선적으로 train 되는게 아니라 interleaving multimodal data (image-text, video-text)를 integrated optimization 한다. 
  • 모든 파라미터를 pre-training에서 joint하게 업데이트 한다. 

 

3. Post-training 

보통 multimodal conversation/ reasoning ability를 높이기 위해 post-training을 진행하는데, SFT와 mixed preference optimization을 이용했다. 

4. Test-time scaling 

다수의 답 중 가장 좋은 답을 선택하게 하는 전략으로 Best-of-N evaluation strategy를 이용했다. VisualPRM-8B라는 critic model을 이용해 best response를 선택했다고 한다. 

 

Results 

이미지, LLM, Video에서 모두 좋은 성능을 보인다. 

반응형
저작자표시 (새창열림)

'Computer Vision💖 > Multimodal' 카테고리의 다른 글

[Daily] MM-EUREKA: Exploring Visual Aha Moment with Rule-Based Large-Scale Reinforcement Learning  (0) 2025.03.12
[Multimodal] 멀티모달 러닝 (Multimodal Learning)에 대한 아주 기초적인 이해  (1) 2024.01.18
[VQA] Zero-shot VQA + Domain Adaptation VQA 분야 개괄  (0) 2023.08.01
[XAI] Generating Visual Explanations(2016) - 이미지 분류에 대한 설명을 생성하는 알고리즘  (0) 2021.08.15
[XAI] OpenAI CLIP 논문 리뷰[3] - Domain Generalization  (2) 2021.07.19
    'Computer Vision💖/Multimodal' 카테고리의 다른 글
    • [Daily] MM-EUREKA: Exploring Visual Aha Moment with Rule-Based Large-Scale Reinforcement Learning
    • [Multimodal] 멀티모달 러닝 (Multimodal Learning)에 대한 아주 기초적인 이해
    • [VQA] Zero-shot VQA + Domain Adaptation VQA 분야 개괄
    • [XAI] Generating Visual Explanations(2016) - 이미지 분류에 대한 설명을 생성하는 알고리즘
    당니이
    당니이
    씩씩하게 공부하기 📚💻

    티스토리툴바