당니이
다은이의 컴퓨터 공부
당니이
전체 방문자
오늘
어제
  • 분류 전체보기 (140)
    • Achieved 👩🏻 (14)
      • 생각들 (2)
      • TIL (6)
      • Trial and Error (1)
      • Inspiration ✨ (0)
      • 미국 박사 준비 🎓 (1)
    • Computer Vision💖 (39)
      • Basic (9)
      • Video (5)
      • Continual Learning (7)
      • Generative model (2)
      • Domain (DA & DG) (5)
      • Multimodal (8)
      • Multitask Learning (1)
      • Segmentation (1)
      • Colorization (1)
    • RL 🤖 (4)
    • Autonomous Driving 🚙 (11)
      • Geometry (4)
      • LiDAR 3D Detection (1)
      • Trajectory prediction (2)
      • Lane Detection (1)
      • HDmap (3)
    • Linux (15)
    • PyTorch👩🏻‍💻 (10)
    • Linear Algebra (2)
    • Python (5)
    • NLP (11)
      • Article 📑 (1)
    • Algorithms 💻 (22)
      • Basic (8)
      • BAEKJOON (8)
      • Programmers (2)
    • ML (1)
      • 통계적 머신러닝(20-2) (1)
    • SQL (3)
    • 기초금융 💵 (1)

블로그 메뉴

  • 홈
  • About me

공지사항

인기 글

태그

  • NLP
  • CL
  • 자료구조
  • domain generalization
  • CV
  • Python
  • LLM
  • 리눅스
  • dfs
  • Linux
  • 백트래킹
  • Incremental Learning
  • 코딩테스트
  • domain adaptation
  • conda
  • continual learning
  • 알고리즘
  • 백준
  • til
  • pytorch

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
당니이

다은이의 컴퓨터 공부

[Daily] Unified Reward Model for Multimodal Understanding and Generation
RL 🤖

[Daily] Unified Reward Model for Multimodal Understanding and Generation

2025. 3. 13. 00:01
반응형

TLDR;

  • First unified (generation+ understanding) reward model을 제안 (현재까지는 specific task에 대한 reward model만 존재)


Motivation

  • 현재까지 reward model들은 specific task에만 한정되어 있었음

  • 하지만 task들은 서로 연결되어 있고, 상호작용할 때 효과가 강해진다고 믿음. (e.g., image evaluation이 video evaluation에 도움)

Method

  • 먼저 (1) Large-scale human preference dataset을 만들고
  • (2) Preference pair dataset을 위한 reward model을 학습
    • specific baseline (VLM, Diffusion model)에서 multi-stage filtering (e.g., pair ranking, point sifting)을 통해 pair data를 선택
  • (3) 이 preference pair dataset으로 DPO를 통해 model들을 학습

1. Unified Preference Dataset Construction (for reward model) 

  • 기존에 존재하는 image/video generation + understanding dataset을 모아 합침

2. Unified Preference Learning

  • VLM을 위 데이터로 fine-tuning함 (assessment ability를 가질 수 있도록 함)

3. Preference Data Construction

  • 3.1. Data generation: image/video pair (or generation prompt)가 존재할 때 VLM (or diffusion model)이 multiple candidate output을 생성
  • 3.2. Pair ranking: N개의 output을 N/2 pair (chosen, rejected pair)로 나눔
  • 3.3. Point sifting: model에게 pointwise score를 내놓으라고 시킴
  • 3.4. Preference pair: 이 score에 따라 preference pair를 생성

4. DPO

  • Generation과 Understanding에 맞는 loss를 각각 사용

Result

  • Reward model: LLaVA-OneVision 7B
  • Multimodal Understanding DPO: apply DPO to LLaVA-OneVision 7B

  • Multimodal Generation DPO: apply DPO to T2V-turbo / SDXL-turbo

 

반응형
저작자표시 (새창열림)

'RL 🤖' 카테고리의 다른 글

[Robot] GR-2를 보고 정리하는 OOD (Out-Of-Distribution) setting  (0) 2025.09.11
[Robot] GR-1: Video generation을 robot manipulation에 활용하기  (1) 2025.09.09
[Robot] Point trajectory를 이용한 Policy Learning  (0) 2025.09.04
    'RL 🤖' 카테고리의 다른 글
    • [Robot] GR-2를 보고 정리하는 OOD (Out-Of-Distribution) setting
    • [Robot] GR-1: Video generation을 robot manipulation에 활용하기
    • [Robot] Point trajectory를 이용한 Policy Learning
    당니이
    당니이
    씩씩하게 공부하기 📚💻

    티스토리툴바