[Daily] MM-EUREKA: Exploring Visual Aha Moment with Rule-Based Large-Scale Reinforcement Learning

2025. 3. 12. 05:40·Computer Vision💖/Multimodal
반응형

TLDR;

  • DeepSeek-R1 (rule-based reinforcement learning) 을 Multimodal setting에서 재현한 첫 opensource model
  • Multimodal reasoning model 'MM-Eureka'를 제안

Motivation

  • DeepSeek-R1을 multimodal setting에서 재현하려는 노력은 많이 있어왔지만, 거의 close source 모델이거나 'aha moment'에서 재현이 잘 안됨
  • 여기서 aha moment란 reasoning 중간에 이미지를 다시 체크하거나.. 확인하는 것

Method

  • Basic setting: InternVL2.5 (8B, 32B)를 이용 + DeepSeekR1의 rule-based reward를 사용함
  • Data clearning: GeoQA 같은 오픈소스 데이터셋을 filtering 해서 사용 (이 과정이 중요했다고 함)

Reward function (rule-based reward)

  • DeepSeek R1에서 제안한 accuracy reward와 format reward를 그대로 사용 (두개를 합침)
    • Accuracy reward: math-verify library로 answer를 추출해 맞으면 1, 틀리면 0
    • Format reward: ...... 이 format 을 맞추면 1, 아니면 0
    • $r = r_{acc} + \lambda r_{format}$

Advantage estimation + Policy update

  • REINFORCEMENT Leave-One-Out (RLOO) 알고리즘을 사용 (GRPO와 달리 critic model이 필요 없다고 한다)
  • K개의 query-response pair를 생성해 advantage estimator를 계산

  • Actor loss로는 PPO-clip loss를 그대로 사용

  • Policy와 reference policy 사이의 KL divergence loss의 경우 GRPO와 같은 method를 사용해 PPO 뒤에 붙임

Result

 

반응형
저작자표시

'Computer Vision💖 > Multimodal' 카테고리의 다른 글

[Daily] InternVL3: Exploring Advanced Training and Test-TimeRecipes for Open-Source Multimodal Models  (0) 2025.04.16
[Multimodal] 멀티모달 러닝 (Multimodal Learning)에 대한 아주 기초적인 이해  (1) 2024.01.18
[VQA] Zero-shot VQA + Domain Adaptation VQA 분야 개괄  (0) 2023.08.01
[XAI] Generating Visual Explanations(2016) - 이미지 분류에 대한 설명을 생성하는 알고리즘  (0) 2021.08.15
[XAI] OpenAI CLIP 논문 리뷰[3] - Domain Generalization  (2) 2021.07.19
'Computer Vision💖/Multimodal' 카테고리의 다른 글
  • [Daily] InternVL3: Exploring Advanced Training and Test-TimeRecipes for Open-Source Multimodal Models
  • [Multimodal] 멀티모달 러닝 (Multimodal Learning)에 대한 아주 기초적인 이해
  • [VQA] Zero-shot VQA + Domain Adaptation VQA 분야 개괄
  • [XAI] Generating Visual Explanations(2016) - 이미지 분류에 대한 설명을 생성하는 알고리즘
당니이
당니이
씩씩하게 공부하기 📚💻
  • 당니이
    다은이의 컴퓨터 공부
    당니이
  • 전체
    오늘
    어제
    • 분류 전체보기 (136)
      • Achieved 👩🏻 (14)
        • 생각들 (2)
        • TIL (6)
        • Trial and Error (1)
        • Inspiration ✨ (0)
        • 미국 박사 준비 🎓 (1)
      • Computer Vision💖 (39)
        • Basic (9)
        • Video (5)
        • Continual Learning (7)
        • Generative model (2)
        • Domain (DA & DG) (5)
        • Multimodal (8)
        • Multitask Learning (1)
        • Segmentation (1)
        • Colorization (1)
      • RL 🤖 (1)
      • Autonomous Driving 🚙 (11)
        • Geometry (4)
        • LiDAR 3D Detection (1)
        • Trajectory prediction (2)
        • Lane Detection (1)
        • HDmap (3)
      • Linux (15)
      • PyTorch👩🏻‍💻 (10)
      • Linear Algebra (2)
      • Python (5)
      • NLP (10)
        • Article 📑 (1)
      • Algorithms 💻 (22)
        • Basic (8)
        • BAEKJOON (8)
        • Programmers (2)
      • ML (1)
        • 통계적 머신러닝(20-2) (1)
      • SQL (3)
      • 기초금융 💵 (1)
  • 블로그 메뉴

    • 홈
    • About me
  • 링크

    • 나의 소박한 github
    • Naver 블로그
  • 공지사항

  • 인기 글

  • 태그

    til
    CL
    Incremental Learning
    CV
    백준
    Python
    리눅스
    dfs
    코딩테스트
    domain adaptation
    알고리즘
    conda
    continual learning
    domain generalization
    NLP
    pytorch
    백트래킹
    자료구조
    Linux
    LLM
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
당니이
[Daily] MM-EUREKA: Exploring Visual Aha Moment with Rule-Based Large-Scale Reinforcement Learning
상단으로

티스토리툴바