
[Daily] InternVL3: Exploring Advanced Training and Test-TimeRecipes for Open-Source Multimodal Models
·
Computer Vision💖/Multimodal
오늘 InternVL3이 나왔다. 매일매일 따라가는게 진심으로 벅차지만 .. 매일 daily paper를 체크하니까 꽤 트랜드를 따라가기 좋고 연구에도 도움이 많이 되는 것 같다! 긍정긍정 TLDR; Pre-training stage에서 multimodal/ linguistic capability를 joint하게 학습시킨다. 이전에는 text-only pre-training을 먼저 거치고, visual processing을 위해 multimodal alignment를 그 후에 학습시켰음. Variable visual position encoding을 제안Post-training: SFT + Mixed preference optimization Test-time scaling: Answer N개 중 ver..