Multimodal

    [Multimodal] 멀티모달 러닝 (Multimodal Learning)에 대한 아주 기초적인 이해

    [Multimodal] 멀티모달 러닝 (Multimodal Learning)에 대한 아주 기초적인 이해

    요즘 멀티모달에 빠져있다. 간단하게 블로그에도 개괄적인 멀티모달러닝에 관해 정리하면 좋을 것 같아서 포스팅을 하려고 한다. 😉 아마 text-to-image 같은 stable diffusion을 이용한 분야가 요즘 너무 핫해서, 다들 한번 쯤은 들어봤을 분야이지 않나 싶다. 이 게시글에서는 아주 아주 직관적이고 기초적인 부분만 다룬다. # Multimodal learning의 목적? 멀티모달 (Multimodal)은 기본적으로 여러개의 데이터 형태 (소리, 이미지, 비디오, 음성) 등을 의미한다. 우리가 살고있는 세상은 생각해보면 여러개의 modality로 이루어져 있고, 당연히 uni-modal input으로 만든 모델보다 multimodal 모델이 강력한 파워를 가질 수밖에 없다. 이들을 통합해서 딥..