당니이
다은이의 컴퓨터 공부
당니이
전체 방문자
오늘
어제
  • 분류 전체보기 (140)
    • Achieved 👩🏻 (14)
      • 생각들 (2)
      • TIL (6)
      • Trial and Error (1)
      • Inspiration ✨ (0)
      • 미국 박사 준비 🎓 (1)
    • Computer Vision💖 (39)
      • Basic (9)
      • Video (5)
      • Continual Learning (7)
      • Generative model (2)
      • Domain (DA & DG) (5)
      • Multimodal (8)
      • Multitask Learning (1)
      • Segmentation (1)
      • Colorization (1)
    • RL 🤖 (4)
    • Autonomous Driving 🚙 (11)
      • Geometry (4)
      • LiDAR 3D Detection (1)
      • Trajectory prediction (2)
      • Lane Detection (1)
      • HDmap (3)
    • Linux (15)
    • PyTorch👩🏻‍💻 (10)
    • Linear Algebra (2)
    • Python (5)
    • NLP (11)
      • Article 📑 (1)
    • Algorithms 💻 (22)
      • Basic (8)
      • BAEKJOON (8)
      • Programmers (2)
    • ML (1)
      • 통계적 머신러닝(20-2) (1)
    • SQL (3)
    • 기초금융 💵 (1)

블로그 메뉴

  • 홈
  • About me

공지사항

인기 글

태그

  • pytorch
  • 자료구조
  • continual learning
  • NLP
  • til
  • LLM
  • conda
  • 백준
  • CL
  • domain adaptation
  • 백트래킹
  • 알고리즘
  • CV
  • Linux
  • 리눅스
  • 코딩테스트
  • dfs
  • domain generalization
  • Incremental Learning
  • Python

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
당니이

다은이의 컴퓨터 공부

[Generation] OASIS(You Only Need Adversarial Supervision for Semantic Image Synthesis) 논문 리뷰
Computer Vision💖/Generative model

[Generation] OASIS(You Only Need Adversarial Supervision for Semantic Image Synthesis) 논문 리뷰

2022. 10. 25. 17:54
반응형

Title

You Only Need Adversarial Supervision for Semantic Image Synthesis (ICLR'21)   
  • Pix2pixHD의 후속 논문 중 하나로, diversity를 위한 noise를 주는 방식이 pix2pixHD 보다 괜찮을 것이라고 생각해 선택
  • Diversity와 perceptual loss의 한계를 강조한 paper
  • 본 포스팅에서는 Multi-modal synthesis를 어떻게 하는지에 집중하려고 한다. 

Motivation

기존의 모델의 Perceptual oss 의존도

  • 기존의 Semantic Image Synthesis를 위한 GAN model들은 VGG-based perceptual loss에 지나치게 의존한다 
    • VGG-based perceptual loss : synthetic과 real image의 feature를 매칭해주는 loss로, 이미지 quality를 높이는 데에 큰 도움을 준다.
    • 하지만 저자들에 따르면 perceptual loss의 dominance는 computational overhead를 발생시켜, 결과적으로 diversity나 quality에 negative impact를 줄 수 있다.
  • 따라서 위를 해결하기 위해 크게 다음과 같은 두 method를 제안한다
    • Segmentation-Based Discriminator
    • 3D noise tensor for multi-modal synthesis
      • 우리는 여기에 집중하도록 한다.

Methodology

3D Noise tensor for multi-modal synthesis

Model Architecture

  • 기존의 Pix2pixHD 계열의 생성 모델(SPADE) 들과 diversity를 위해 noise를 주는 방식이 차이가 있다. (개인적으로 주목한 부분)
    • SPADE의 경우 Image encoder의 output인 1D noise vector를 multi-modal synthesis에 이용함. (다소 deterministic하다는 특징이 있을 것이다)
    • 하지만 OASIS의 경우 인코더를 이용하지 않고, 3D random noise(64xHxW)를 input label과 channel-wise concat해 모델의 input으로 사용한다. (위 encoder output이 noise vector로 변경된 것과 같다)
  • Input에 부과하는 noise는 pixel-wise나 region-wise로 local & global에 sensitive하게 조절할 수 있으며, 이로 인해 noise-dependent한 이미지가 생성된다.
  • Training 시 Noise sampling을 다음과 같이 다르게 조절할 수 있다. 그리고 이러한 노이즈는 training 과정의 layer마다 계속 모델에 영향을 준다. (Appendix.7)
    • Image-level : 1개의 global 1D noise vector를 만든 후 모든 픽셀에 복사
    • Region-level : label마다 1D noise vector를 만든 후 라벨별로 복사
    • Pixel-level : Every spatial position(=픽셀별)로 다른 noise를 만들기
    • Mix : 위 방법을 무작위로 섞기
  • Results


Experiments (for multi-modal synthesis)

  • Metrics : 생성된 이미지의 diversity를 평가하는 아래 두 metric이 존재함을 확인하였다. 같은 label에 대해 20개의 이미지를 생성하고, mean pairwise score를 계산함.
    • MS-SSIM : 낮을 수록 more-diverse
    • LPIPS : 높을 수록 more-diverse
  • Quality와 Diversity는 다소 trade-off 관계이다. 특히 이미지의 quality를 높여주는 VGG-perceptual loss를 사용할수록 diversity가 낮아짐을 아래에서 확인할 수 있다.
  • Results

반응형
저작자표시 (새창열림)

'Computer Vision💖 > Generative model' 카테고리의 다른 글

[Generation] 자세한 Pix2pixHD 논문 리뷰 (High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs)  (1) 2022.08.06
    'Computer Vision💖/Generative model' 카테고리의 다른 글
    • [Generation] 자세한 Pix2pixHD 논문 리뷰 (High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs)
    당니이
    당니이
    씩씩하게 공부하기 📚💻

    티스토리툴바