'Computer Vision💖/Multimodal' 카테고리의 글 목록

[Daily] InternVL3: Exploring Advanced Training and Test-TimeRecipes for Open-Source Multimodal Models

2025.04.16

오늘 InternVL3이 나왔다. 매일매일 따라가는게 진심으로 벅차지만 .. 매일 daily paper를 체크하니까 꽤 트랜드를 따라가기 좋고 연구에도 도움이 많이 되는 것 같다! 긍정긍정 TLDR; Pre-training stage에서 multimodal/ linguistic capability를 joint하게 학습시킨다. 이전에는 text-only pre-training을 먼저 거치고, visual processing을 위해 multimodal alignment를 그 후에 학습시켰음. Variable visual position encoding을 제안Post-training: SFT + Mixed preference optimization Test-time scaling: Answer N개 중 ver..

Computer Vision💖/Multimodal

[Daily] MM-EUREKA: Exploring Visual Aha Moment with Rule-Based Large-Scale Reinforcement Learning

2025.03.12

TLDR;DeepSeek-R1 (rule-based reinforcement learning) 을 Multimodal setting에서 재현한 첫 opensource modelMultimodal reasoning model 'MM-Eureka'를 제안MotivationDeepSeek-R1을 multimodal setting에서 재현하려는 노력은 많이 있어왔지만, 거의 close source 모델이거나 'aha moment'에서 재현이 잘 안됨여기서 aha moment란 reasoning 중간에 이미지를 다시 체크하거나.. 확인하는 것MethodBasic setting: InternVL2.5 (8B, 32B)를 이용 + DeepSeekR1의 rule-based reward를 사용함Data clearning..

Computer Vision💖/Multimodal

[Multimodal] 멀티모달 러닝 (Multimodal Learning)에 대한 아주 기초적인 이해

2024.01.18

요즘 멀티모달에 빠져있다. 간단하게 블로그에도 개괄적인 멀티모달러닝에 관해 정리하면 좋을 것 같아서 포스팅을 하려고 한다. 😉 아마 text-to-image 같은 stable diffusion을 이용한 분야가 요즘 너무 핫해서, 다들 한번 쯤은 들어봤을 분야이지 않나 싶다. 이 게시글에서는 아주 아주 직관적이고 기초적인 부분만 다룬다. # Multimodal learning의 목적? 멀티모달 (Multimodal)은 기본적으로 여러개의 데이터 형태 (소리, 이미지, 비디오, 음성) 등을 의미한다. 우리가 살고있는 세상은 생각해보면 여러개의 modality로 이루어져 있고, 당연히 uni-modal input으로 만든 모델보다 multimodal 모델이 강력한 파워를 가질 수밖에 없다. 이들을 통합해서 딥..

Computer Vision💖/Multimodal

[VQA] Zero-shot VQA + Domain Adaptation VQA 분야 개괄

2023.08.01

오늘 우연히 난징..에서 오신 교수님 세미나를 듣게됐다. 가벼운 마음으로 갔는데 생각보다 내 관심분야랑 비슷해서 안들으려다가 슈루룩 들어버렸당. VQA는 원래도 좀 관심이 많았는데, (예전에 연구하려다가 엎어진..) 걍 아이디어 노트 개념으로 기록해놓는당 (가독성 떨어질 수 있음) Current problem of LLM .. Model Memorization > brittle GPT prompt sensitivity > unstable performance (bc of memory-based generalization이어서 그럼) Keys to unlock LLM capabilities .. Chain-of-thought prompting Think step by step Instruction Tuni..

Computer Vision💖/Multimodal

[XAI] Generating Visual Explanations(2016) - 이미지 분류에 대한 설명을 생성하는 알고리즘

2021.08.15

오늘은 Generating Visual Explanations(2016) 이라는 XAI 분야의 논문을 리뷰하겠습니다. 원본은 이 곳에서 찾아보실 수 있습니다. 흔히 딥러닝을 '블랙박스'라고 칭하곤 합니다. 그 이유는 머신러닝과는 달리 어떤 feature를 통해 특정 class로 분류했는지, 또는 어떤 feature가 중요한 분류 기준으로 작용했는지 알기 어렵기 때문인데요. 물론 CNN 필터들을 출력해볼 수도 있고, 여러가지를 통해 진단할 수 있는 방법이 많습니다. 하지만 가시적인 특징으로는 확실히 설명력이 필요할 경우가 많죠. 따라서 이 논문의 가장 큰 contribution은 이미지 분류에 대한 explanations를 출력한다는 것입니다. 본 논문은 특정 class를 왜 그 class로 분류했는지, ..

Computer Vision💖/Multimodal

[XAI] OpenAI CLIP 논문 리뷰[3] - Domain Generalization

2021.07.19

오늘은 CLIP에 대한 마지막 포스팅으로, CLIP 논문의 마지막 실험 챕터인 "Robustness to Natural Distribution Shift" 에 대해 포스팅하겠습니다. 역시 잘못된 부분이 있다면 댓글 부탁드립니다 👀 또한 CLIP의 전반적인 개념과 zero-shot, representation learning의 실험과 내용에 대해 궁금하신 분은 제 이전 게시글을 참고 부탁드립니다. [딥러닝(DL) 📈/XAI] - [XAI] CLIP(Contrastive Language-Image Pre-training) 논문 리뷰 [딥러닝(DL) 📈/XAI] - [XAI] Zero shot & Representation learning 에서의 CLIP - 논문리뷰 + Code 우선 챕터에 들어가기 전에 '..

Computer Vision💖/Multimodal

[XAI] OpenAI CLIP 논문 리뷰[2] - Zero shot & Representation learning

2021.07.17

이번 포스팅에서는 저번 포스팅에서 다루었던 CLIP 논문의 Experiment를 중심으로 포스팅하겠습니다. 특히 이번 게시글에서는 zero shot learning과 representation learning에 관해 포스팅할텐데요, 역시 잘못된 점이 있다면 댓글로 알려주시면 감사하겠습니다. 👀 CLIP의 전반적인 구조 우선 CLIP의 전반적인 구조는 다음과 같습니다. 등장 배경 및 자세한 원리를 알고싶으시다면 제 이전 게시글을 참고 부탁드립니다! CLIP은 이미지와 텍스트 쌍을 input으로 부여하고, 이러한 가능한 쌍을 예측하도록 학습됩니다. 만약 실제 (이미지, 텍스트) 쌍이라면 이들의 코사인 유사도를 최대화 하고, 나머지 쌍들은 코사인 유사도를 최소화하는 방향으로 학습하는 것입니다. 이러한 과정은 ..

Computer Vision💖/Multimodal

[XAI] OpenAI CLIP 논문 리뷰[1] - 전반적인 아키텍처

2021.07.15

오늘은 OpenAI에서 2021년 상반기에 나온 최신 모델인 CLIP(Contrastive Language-Image Pretraining) 논문에 대해 포스팅하려고 합니다. 제가 이해한 바를 정리한 내용이니 댓글로 잘못된 내용이 있다면 꼭 알려주세요 👀 Introduction 이 글을 보시는 분들이라면 Bert, GPT 등의 모델을 한번 쯤은 들어보셨을 것입니다. 이 두 모델 모두 트랜스포머에 기반을 둔 모델인데요, 또한 이들은 모두 Raw text로부터 바로 사전학습(Pre-training) 한다는 공통점이 있습니다. 이들은 아시다시피 NLP 분야에서 뛰어난 성능을 보이고 있죠. 이렇게 사전학습 방식은 자연어 처리 분야에서는 정말 뛰어난 성과를 내고 있습니다. 하지만 이러한 사전학습 방식이 컴퓨터 비..

티스토리툴바