[Daily] InternVL3: Exploring Advanced Training and Test-TimeRecipes for Open-Source Multimodal Models

2025. 4. 16. 03:27·Computer Vision💖/Multimodal
반응형

오늘 InternVL3이 나왔다. 매일매일 따라가는게 진심으로 벅차지만 .. 매일 daily paper를 체크하니까 꽤 트랜드를 따라가기 좋고 연구에도 도움이 많이 되는 것 같다! 긍정긍정 

TLDR; 

  • Pre-training stage에서 multimodal/ linguistic capability를 joint하게 학습시킨다. 
    • 이전에는 text-only pre-training을 먼저 거치고, visual processing을 위해 multimodal alignment를 그 후에 학습시켰음. 
  • Variable visual position encoding을 제안
  • Post-training: SFT + Mixed preference optimization 
  • Test-time scaling: Answer N개 중 verify해 하나를 선택 

 

Method

역시 ViT-MLP-LLM 패러다임을 따른다. ViT로는 InternViT를 이용하고, LLM은 Qwen2.5를 이용했다. 

1. Variable Visual Position Encoding 

  • Visual token은 상대적으로 language token보다 많아서, 이전처럼 position index를 1씩 증가시키는 방법으로 통일하면 이슈가 생길 수 있다. 이전에는 아래와 같은 1씩 증가하는 방법을 사용했음. 

  • 이렇게 하는 대신 visual token index을 1보다 작은 값으로 촘촘히 증가시킨다. (position index computation에 modality-specific reculsive function을 이용한다). 이를 통해 비주얼 토큰들을 작은 구간 안에 촘촘히 배치할 수 있고, 위치 공간이 덜 낭비된다. 

2. Native Multimodal Pre-training 

  • Language-only model이 우선적으로 train 되는게 아니라 interleaving multimodal data (image-text, video-text)를 integrated optimization 한다. 
  • 모든 파라미터를 pre-training에서 joint하게 업데이트 한다. 

 

3. Post-training 

보통 multimodal conversation/ reasoning ability를 높이기 위해 post-training을 진행하는데, SFT와 mixed preference optimization을 이용했다. 

4. Test-time scaling 

다수의 답 중 가장 좋은 답을 선택하게 하는 전략으로 Best-of-N evaluation strategy를 이용했다. VisualPRM-8B라는 critic model을 이용해 best response를 선택했다고 한다. 

 

Results 

이미지, LLM, Video에서 모두 좋은 성능을 보인다. 

반응형
저작자표시 (새창열림)

'Computer Vision💖 > Multimodal' 카테고리의 다른 글

[Daily] MM-EUREKA: Exploring Visual Aha Moment with Rule-Based Large-Scale Reinforcement Learning  (0) 2025.03.12
[Multimodal] 멀티모달 러닝 (Multimodal Learning)에 대한 아주 기초적인 이해  (1) 2024.01.18
[VQA] Zero-shot VQA + Domain Adaptation VQA 분야 개괄  (0) 2023.08.01
[XAI] Generating Visual Explanations(2016) - 이미지 분류에 대한 설명을 생성하는 알고리즘  (0) 2021.08.15
[XAI] OpenAI CLIP 논문 리뷰[3] - Domain Generalization  (2) 2021.07.19
'Computer Vision💖/Multimodal' 카테고리의 다른 글
  • [Daily] MM-EUREKA: Exploring Visual Aha Moment with Rule-Based Large-Scale Reinforcement Learning
  • [Multimodal] 멀티모달 러닝 (Multimodal Learning)에 대한 아주 기초적인 이해
  • [VQA] Zero-shot VQA + Domain Adaptation VQA 분야 개괄
  • [XAI] Generating Visual Explanations(2016) - 이미지 분류에 대한 설명을 생성하는 알고리즘
당니이
당니이
씩씩하게 공부하기 📚💻
  • 당니이
    다은이의 컴퓨터 공부
    당니이
  • 전체
    오늘
    어제
    • 분류 전체보기 (136)
      • Achieved 👩🏻 (14)
        • 생각들 (2)
        • TIL (6)
        • Trial and Error (1)
        • Inspiration ✨ (0)
        • 미국 박사 준비 🎓 (1)
      • Computer Vision💖 (39)
        • Basic (9)
        • Video (5)
        • Continual Learning (7)
        • Generative model (2)
        • Domain (DA & DG) (5)
        • Multimodal (8)
        • Multitask Learning (1)
        • Segmentation (1)
        • Colorization (1)
      • RL 🤖 (1)
      • Autonomous Driving 🚙 (11)
        • Geometry (4)
        • LiDAR 3D Detection (1)
        • Trajectory prediction (2)
        • Lane Detection (1)
        • HDmap (3)
      • Linux (15)
      • PyTorch👩🏻‍💻 (10)
      • Linear Algebra (2)
      • Python (5)
      • NLP (10)
        • Article 📑 (1)
      • Algorithms 💻 (22)
        • Basic (8)
        • BAEKJOON (8)
        • Programmers (2)
      • ML (1)
        • 통계적 머신러닝(20-2) (1)
      • SQL (3)
      • 기초금융 💵 (1)
  • 블로그 메뉴

    • 홈
    • About me
  • 링크

    • 나의 소박한 github
    • Naver 블로그
  • 공지사항

  • 인기 글

  • 태그

    Incremental Learning
    LLM
    알고리즘
    conda
    CV
    NLP
    continual learning
    Linux
    til
    코딩테스트
    백트래킹
    domain generalization
    백준
    CL
    자료구조
    Python
    리눅스
    domain adaptation
    dfs
    pytorch
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
당니이
[Daily] InternVL3: Exploring Advanced Training and Test-TimeRecipes for Open-Source Multimodal Models
상단으로

티스토리툴바