Computer Vision💖

    [XAI] OpenAI CLIP 논문 리뷰[2] - Zero shot & Representation learning

    [XAI] OpenAI CLIP 논문 리뷰[2] - Zero shot & Representation learning

    이번 포스팅에서는 저번 포스팅에서 다루었던 CLIP 논문의 Experiment를 중심으로 포스팅하겠습니다. 특히 이번 게시글에서는 zero shot learning과 representation learning에 관해 포스팅할텐데요, 역시 잘못된 점이 있다면 댓글로 알려주시면 감사하겠습니다. 👀 CLIP의 전반적인 구조 우선 CLIP의 전반적인 구조는 다음과 같습니다. 등장 배경 및 자세한 원리를 알고싶으시다면 제 이전 게시글을 참고 부탁드립니다! CLIP은 이미지와 텍스트 쌍을 input으로 부여하고, 이러한 가능한 쌍을 예측하도록 학습됩니다. 만약 실제 (이미지, 텍스트) 쌍이라면 이들의 코사인 유사도를 최대화 하고, 나머지 쌍들은 코사인 유사도를 최소화하는 방향으로 학습하는 것입니다. 이러한 과정은 ..

    [XAI] OpenAI CLIP 논문 리뷰[1] - 전반적인 아키텍처

    [XAI] OpenAI CLIP 논문 리뷰[1] - 전반적인 아키텍처

    오늘은 OpenAI에서 2021년 상반기에 나온 최신 모델인 CLIP(Contrastive Language-Image Pretraining) 논문에 대해 포스팅하려고 합니다. 제가 이해한 바를 정리한 내용이니 댓글로 잘못된 내용이 있다면 꼭 알려주세요 👀 Introduction 이 글을 보시는 분들이라면 Bert, GPT 등의 모델을 한번 쯤은 들어보셨을 것입니다. 이 두 모델 모두 트랜스포머에 기반을 둔 모델인데요, 또한 이들은 모두 Raw text로부터 바로 사전학습(Pre-training) 한다는 공통점이 있습니다. 이들은 아시다시피 NLP 분야에서 뛰어난 성능을 보이고 있죠. 이렇게 사전학습 방식은 자연어 처리 분야에서는 정말 뛰어난 성과를 내고 있습니다. 하지만 이러한 사전학습 방식이 컴퓨터 비..

    [CV] Self-supervised learning(자기주도학습)과 Contrastive learning - 스스로 학습하는 알고리즘

    [CV] Self-supervised learning(자기주도학습)과 Contrastive learning - 스스로 학습하는 알고리즘

    오늘은 Self-supervised learning(자기주도학습)과 주된 학습 방법인 Contrastive learning에 대해 포스팅하겠습니다. 먼저 Self supervised learning이 왜 필요한지부터 살펴보겠습니다. Self-supervised learning의 필요성 딥러닝 학습에는 충분한 양질의 데이터가 필요합니다. 또한 이러한 데이터들의 지도학습을 위해서는 라벨링 과정이 필수적인데요, 하지만 현실에서 데이터를 충분히 수집하기란 매우 어렵습니다. 또한, 수집된 데이터에 라벨링을 하는 과정도 시간과 노력이 많이 필요할 수밖에 없죠. 또한 의료 분야의 데이터의 경우 이러한 라벨링의 제약이 있는 경우도 분명 존재할 것입니다. 따라서 이러한 현상에 대응하기 위한 방법으로 비지도학습(Unsup..

    [CV] AlexNet(2012) 논문을 code로 구현 해보자 (Keras, PyTorch)

    [CV] AlexNet(2012) 논문을 code로 구현 해보자 (Keras, PyTorch)

    이번 포스팅에서는 지난번 포스팅했던 AlexNet을 Keras와 PyTorch로 각각 구현하고 적용해보고자 합니다. 사실 저는 Keras에 훨씬 익숙하기에, 메인 code들은 Keras로 작성하겠습니다. 이론 설명은 지난번 포스팅을 참고해주세요! 2021.06.23 - [딥러닝(DL) 📈/CV] - [Vision] AlexNet(2012)의 구조와 논문 리뷰 [Vision] AlexNet(2012)의 구조와 논문 리뷰 오늘은 Deep한 CNN의 발전에 가장 큰 영향을 준 AlexNet(2012)에 대해 포스팅하고자 합니다. AlexNet은 2012년에 개최된 ILSVRC(ImageNet Large Scale Visual Recognition Challenge) 에서 우승을 차지한 아키텍처.. daeun-..

    [CV] AlexNet(2012)의 구조와 논문 리뷰

    [CV] AlexNet(2012)의 구조와 논문 리뷰

    오늘은 Deep한 CNN의 발전에 가장 큰 영향을 준 AlexNet(2012)에 대해 포스팅하고자 합니다. AlexNet은 2012년에 개최된 ILSVRC(ImageNet Large Scale Visual Recognition Challenge) 에서 우승을 차지한 아키텍처로, 이전의 모델인 LeNet-5보다 더 Deep한 CNN 구조를 도입해 화제가 되었습니다. (여기서 LeNet-5은 정말 Simple한 초기 CNN 모델을 뜻합니다. 자세한 설명은 여기를 참고해주세요) LeNet-5의 등장 이후, 대용량의 이미지 data를 다루기 위해서는 더 큰 학습 역량(a large learning capacity)을 가진 아키텍처가 필요했습니다. 다음 그림은 LeNet-5과 AlexNet의 아키텍처를 비교해 나..

    [CV] ResNet - Residual Connection(잔차연결)

    [CV] ResNet - Residual Connection(잔차연결)

    📊📈논문 참조 0. 등장 배경 VGG16, 19 : 3*3 filter를 이용해 레이어의 깊이를 늘려 우수한 성능을 보였다. 특히 CNN 계열에서 레이어가 깊어지면 특징이 더 풍부해지기 때문에, CV 분야에서의 네트워크 깊이는 많은 장점을 가져와주었다. 사람들은 따라서 VGG에 따라 깊이가 깊어지면 더 높은 성능을 낼 것이라고 생각하였다. 하지만 점차 레이어가 깊어지면 Vanishing Gradient와 같은 문제가 발생함을 인지하였으며, 따라서 본 논문에서는 레이어의 깊이가 깊어질수록, input층에 가까운 은닉층이 희미해지기에 학습에 도움이 되지 않을수도 있음을 주장하였다. 본 논문은 레이어의 깊이에 따른 문제를 종합적으로 지적하고 있다. 1. 잔여블록 (Residual Block) 실제로 우리가 원..

    [STAT & DL] 딥러닝의 전반적 구조에 대한 통계적 해석

    [STAT & DL] 딥러닝의 전반적 구조에 대한 통계적 해석

    이 글은 고려대학교 통계학과 박유성 교수님의 '딥러닝을 위한 통계적 모델링' 강의를 바탕으로 재구성되었습니다. 딥러닝과 통계적 모형의 구조는 매우 유사하지만, 다른점은 은닉층의 존재 여부이다. 따라서 은닉층의 설계에 따라 딥러닝 모형이 결정된다고 봐도 무방하다. 딥러닝은 특성변수들의 선형 결합을 비선형 변환해 목적변수를 확률적으로 맞추는 전형적인 통계적 모형이다. 이러한 과정을 통해 특성변수(x)를 변형시키고, 이러한 작업은 목적변수(y)를 더 잘 예측하게 한다. 다만 여기에 '은닉층(Hidden Layer)'의 개념이 포함된다는 것! 그래서 이 포스팅에서는 통계적 모형과 전반적인 딥러닝 구조의 유사성과 차이점에 대해 비교 대조해보고자 한다. 딥러닝을 공부해본 이래로 통계적인 해석을 한 글은 찾아보기 어..