반응형
오늘 InternVL3이 나왔다. 매일매일 따라가는게 진심으로 벅차지만 .. 매일 daily paper를 체크하니까 꽤 트랜드를 따라가기 좋고 연구에도 도움이 많이 되는 것 같다! 긍정긍정
TLDR;
- Pre-training stage에서 multimodal/ linguistic capability를 joint하게 학습시킨다.
- 이전에는 text-only pre-training을 먼저 거치고, visual processing을 위해 multimodal alignment를 그 후에 학습시켰음.
- Variable visual position encoding을 제안
- Post-training: SFT + Mixed preference optimization
- Test-time scaling: Answer N개 중 verify해 하나를 선택
Method
역시 ViT-MLP-LLM 패러다임을 따른다. ViT로는 InternViT를 이용하고, LLM은 Qwen2.5를 이용했다.
1. Variable Visual Position Encoding
- Visual token은 상대적으로 language token보다 많아서, 이전처럼 position index를 1씩 증가시키는 방법으로 통일하면 이슈가 생길 수 있다. 이전에는 아래와 같은 1씩 증가하는 방법을 사용했음.
- 이렇게 하는 대신 visual token index을 1보다 작은 값으로 촘촘히 증가시킨다. (position index computation에 modality-specific reculsive function을 이용한다). 이를 통해 비주얼 토큰들을 작은 구간 안에 촘촘히 배치할 수 있고, 위치 공간이 덜 낭비된다.
2. Native Multimodal Pre-training
- Language-only model이 우선적으로 train 되는게 아니라 interleaving multimodal data (image-text, video-text)를 integrated optimization 한다.
- 모든 파라미터를 pre-training에서 joint하게 업데이트 한다.
3. Post-training
보통 multimodal conversation/ reasoning ability를 높이기 위해 post-training을 진행하는데, SFT와 mixed preference optimization을 이용했다.
4. Test-time scaling
다수의 답 중 가장 좋은 답을 선택하게 하는 전략으로 Best-of-N evaluation strategy를 이용했다. VisualPRM-8B라는 critic model을 이용해 best response를 선택했다고 한다.
Results
이미지, LLM, Video에서 모두 좋은 성능을 보인다.
반응형