[Daily] InternVL3: Exploring Advanced Training and Test-TimeRecipes for Open-Source Multimodal Models

Computer Vision💖/Multimodal

당니이 2025. 4. 16. 03:27

오늘 InternVL3이 나왔다. 매일매일 따라가는게 진심으로 벅차지만 .. 매일 daily paper를 체크하니까 꽤 트랜드를 따라가기 좋고 연구에도 도움이 많이 되는 것 같다! 긍정긍정

Pre-training stage에서 multimodal/ linguistic capability를 joint하게 학습시킨다.
- 이전에는 text-only pre-training을 먼저 거치고, visual processing을 위해 multimodal alignment를 그 후에 학습시켰음.
Variable visual position encoding을 제안
Post-training: SFT + Mixed preference optimization
Test-time scaling: Answer N개 중 verify해 하나를 선택

역시 ViT-MLP-LLM 패러다임을 따른다. ViT로는 InternViT를 이용하고, LLM은 Qwen2.5를 이용했다.

1. Variable Visual Position Encoding

Visual token은 상대적으로 language token보다 많아서, 이전처럼 position index를 1씩 증가시키는 방법으로 통일하면 이슈가 생길 수 있다. 이전에는 아래와 같은 1씩 증가하는 방법을 사용했음.

이렇게 하는 대신 visual token index을 1보다 작은 값으로 촘촘히 증가시킨다. (position index computation에 modality-specific reculsive function을 이용한다). 이를 통해 비주얼 토큰들을 작은 구간 안에 촘촘히 배치할 수 있고, 위치 공간이 덜 낭비된다.

2. Native Multimodal Pre-training

Language-only model이 우선적으로 train 되는게 아니라 interleaving multimodal data (image-text, video-text)를 integrated optimization 한다.
모든 파라미터를 pre-training에서 joint하게 업데이트 한다.

3. Post-training

보통 multimodal conversation/ reasoning ability를 높이기 위해 post-training을 진행하는데, SFT와 mixed preference optimization을 이용했다.

4. Test-time scaling

다수의 답 중 가장 좋은 답을 선택하게 하는 전략으로 Best-of-N evaluation strategy를 이용했다. VisualPRM-8B라는 critic model을 이용해 best response를 선택했다고 한다.

이미지, LLM, Video에서 모두 좋은 성능을 보인다.