당니이
다은이의 컴퓨터 공부
당니이
전체 방문자
오늘
어제
  • 분류 전체보기 (140)
    • Achieved 👩🏻 (14)
      • 생각들 (2)
      • TIL (6)
      • Trial and Error (1)
      • Inspiration ✨ (0)
      • 미국 박사 준비 🎓 (1)
    • Computer Vision💖 (39)
      • Basic (9)
      • Video (5)
      • Continual Learning (7)
      • Generative model (2)
      • Domain (DA & DG) (5)
      • Multimodal (8)
      • Multitask Learning (1)
      • Segmentation (1)
      • Colorization (1)
    • RL 🤖 (4)
    • Autonomous Driving 🚙 (11)
      • Geometry (4)
      • LiDAR 3D Detection (1)
      • Trajectory prediction (2)
      • Lane Detection (1)
      • HDmap (3)
    • Linux (15)
    • PyTorch👩🏻‍💻 (10)
    • Linear Algebra (2)
    • Python (5)
    • NLP (11)
      • Article 📑 (1)
    • Algorithms 💻 (22)
      • Basic (8)
      • BAEKJOON (8)
      • Programmers (2)
    • ML (1)
      • 통계적 머신러닝(20-2) (1)
    • SQL (3)
    • 기초금융 💵 (1)

블로그 메뉴

  • 홈
  • About me

공지사항

인기 글

태그

  • 백트래킹
  • 코딩테스트
  • Linux
  • Python
  • domain adaptation
  • LLM
  • dfs
  • domain generalization
  • 알고리즘
  • 리눅스
  • pytorch
  • Incremental Learning
  • 자료구조
  • continual learning
  • CL
  • til
  • 백준
  • CV
  • NLP
  • conda

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
당니이

다은이의 컴퓨터 공부

[Daily] MM-EUREKA: Exploring Visual Aha Moment with Rule-Based Large-Scale Reinforcement Learning
Computer Vision💖/Multimodal

[Daily] MM-EUREKA: Exploring Visual Aha Moment with Rule-Based Large-Scale Reinforcement Learning

2025. 3. 12. 05:40
반응형

TLDR;

  • DeepSeek-R1 (rule-based reinforcement learning) 을 Multimodal setting에서 재현한 첫 opensource model
  • Multimodal reasoning model 'MM-Eureka'를 제안

Motivation

  • DeepSeek-R1을 multimodal setting에서 재현하려는 노력은 많이 있어왔지만, 거의 close source 모델이거나 'aha moment'에서 재현이 잘 안됨
  • 여기서 aha moment란 reasoning 중간에 이미지를 다시 체크하거나.. 확인하는 것

Method

  • Basic setting: InternVL2.5 (8B, 32B)를 이용 + DeepSeekR1의 rule-based reward를 사용함
  • Data clearning: GeoQA 같은 오픈소스 데이터셋을 filtering 해서 사용 (이 과정이 중요했다고 함)

Reward function (rule-based reward)

  • DeepSeek R1에서 제안한 accuracy reward와 format reward를 그대로 사용 (두개를 합침)
    • Accuracy reward: math-verify library로 answer를 추출해 맞으면 1, 틀리면 0
    • Format reward: ...... 이 format 을 맞추면 1, 아니면 0
    • $r = r_{acc} + \lambda r_{format}$

Advantage estimation + Policy update

  • REINFORCEMENT Leave-One-Out (RLOO) 알고리즘을 사용 (GRPO와 달리 critic model이 필요 없다고 한다)
  • K개의 query-response pair를 생성해 advantage estimator를 계산

  • Actor loss로는 PPO-clip loss를 그대로 사용

  • Policy와 reference policy 사이의 KL divergence loss의 경우 GRPO와 같은 method를 사용해 PPO 뒤에 붙임

Result

 

반응형
저작자표시 (새창열림)

'Computer Vision💖 > Multimodal' 카테고리의 다른 글

[Daily] InternVL3: Exploring Advanced Training and Test-TimeRecipes for Open-Source Multimodal Models  (0) 2025.04.16
[Multimodal] 멀티모달 러닝 (Multimodal Learning)에 대한 아주 기초적인 이해  (1) 2024.01.18
[VQA] Zero-shot VQA + Domain Adaptation VQA 분야 개괄  (0) 2023.08.01
[XAI] Generating Visual Explanations(2016) - 이미지 분류에 대한 설명을 생성하는 알고리즘  (0) 2021.08.15
[XAI] OpenAI CLIP 논문 리뷰[3] - Domain Generalization  (2) 2021.07.19
    'Computer Vision💖/Multimodal' 카테고리의 다른 글
    • [Daily] InternVL3: Exploring Advanced Training and Test-TimeRecipes for Open-Source Multimodal Models
    • [Multimodal] 멀티모달 러닝 (Multimodal Learning)에 대한 아주 기초적인 이해
    • [VQA] Zero-shot VQA + Domain Adaptation VQA 분야 개괄
    • [XAI] Generating Visual Explanations(2016) - 이미지 분류에 대한 설명을 생성하는 알고리즘
    당니이
    당니이
    씩씩하게 공부하기 📚💻

    티스토리툴바