당니이
다은이의 컴퓨터 공부
당니이
전체 방문자
오늘
어제
  • 분류 전체보기 (138) N
    • Achieved 👩🏻 (14)
      • 생각들 (2)
      • TIL (6)
      • Trial and Error (1)
      • Inspiration ✨ (0)
      • 미국 박사 준비 🎓 (1)
    • Computer Vision💖 (39)
      • Basic (9)
      • Video (5)
      • Continual Learning (7)
      • Generative model (2)
      • Domain (DA & DG) (5)
      • Multimodal (8)
      • Multitask Learning (1)
      • Segmentation (1)
      • Colorization (1)
    • RL 🤖 (2)
    • Autonomous Driving 🚙 (11)
      • Geometry (4)
      • LiDAR 3D Detection (1)
      • Trajectory prediction (2)
      • Lane Detection (1)
      • HDmap (3)
    • Linux (15)
    • PyTorch👩🏻‍💻 (10)
    • Linear Algebra (2)
    • Python (5)
    • NLP (11) N
      • Article 📑 (1)
    • Algorithms 💻 (22)
      • Basic (8)
      • BAEKJOON (8)
      • Programmers (2)
    • ML (1)
      • 통계적 머신러닝(20-2) (1)
    • SQL (3)
    • 기초금융 💵 (1)

블로그 메뉴

  • 홈
  • About me

공지사항

인기 글

태그

  • conda
  • pytorch
  • LLM
  • CL
  • NLP
  • 알고리즘
  • continual learning
  • Linux
  • Incremental Learning
  • til
  • Python
  • dfs
  • domain adaptation
  • 리눅스
  • domain generalization
  • 자료구조
  • 코딩테스트
  • CV
  • 백트래킹
  • 백준

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
당니이

다은이의 컴퓨터 공부

[LLM] GRPO post training에서 발생하는 흥미로운 현상들
NLP

[LLM] GRPO post training에서 발생하는 흥미로운 현상들

2025. 9. 5. 05:07
반응형

오늘 Reading group에서 저스틴의 발표를 보고 배운 내용들! GRPO post training 중에는 아래와 같은 흥미로운 사실이 발생한다. 

  1. 이상한 reward를 줘도 성능이 올라감
  2. 모델마다 RL로 성능이 향상되는 정도가 다름 
  3. pre‑RL 모델의 baseline 성능은 실제보다 과소평가된 경우가 많음

Spurious Rewards: Rethinking Training Signals in RLVR

https://arxiv.org/pdf/2506.10947

TL;DR 이상한 reward (random reward)를 주고 GRPO post-training을 해도 Qwen 계열 모델에서는 성능이 향상된다. 다른 모델에 대해서는 적용이 안된다. 이 이유는 Qwen의 Code Reasoning 사용 때문이다. 

 

✅ 흥미로운 사실 

  • RLVR (Reinforcement Learning with Verifiable Rewards)는 정답 기반 보상으로 reasoning 성능을 올리는 방식이다.
  • 그런데 이 논문은 Qwen2.5-Math 모델에서 spurious reward (random, wrong, irrelevant reward)조차도 큰 성능 향상을 가져온다는 걸 보여준다.
  • On MATH-500:
    • Random reward: +21.4%
    • Format reward: +13.8%
    • Incorrect reward: +24.1%
    • Majority voting reward: +26~27%
    • Ground-truth reward: +29.1%
  • 즉, random/wrong reward조차 ground-truth 보상과 거의 비슷한 수준의 성능 향상을 만든다.
  • 하지만 이 효과는 Qwen2.5-Math 모델에 국한되고, Llama3나 OLMo2 등에서는 효과가 없거나 오히려 성능이 떨어진다.

✅ 왜 이런 현상이 발생하냐면? 

  • Qwen2.5-Math는 사전 학습 단계에서 Python-style code reasoning 습관을 가지고 있다.
  • 실험 결과:
    • Code 포함 답변의 accuracy: ~61%
    • Non-code 답변: ~28%
  • RLVR 학습 후에는 code reasoning 빈도가 65% → 90%+로 급증한다.
  • 따라서 spurious reward가 사실상 code reasoning 사용을 끌어내는 트리거 역할을 한다.
    • 프롬프트에 “Let’s solve this using Python.” 추가 → Qwen2.5-Math 성능 상승, 다른 모델은 오히려 성능 하락.

 

✅ 어떻게 이상한 (spurious) reward가 효과를 주나? 

  • Incorrect reward 효과: 오답 레이블도 정답과 근접한 경우가 많고, 이를 구분하려면 결국 reasoning이 필요하기 때문이다.
  • Random reward 효과: GRPO의 clipping 효과 때문에 모델이 exploration보다는 pre-trained reasoning skill (code reasoning)에 더 의존하게 되고, 이게 성능 향상으로 이어진다.

Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs

https://arxiv.org/pdf/2503.01307

TL;DR 왜 어떤 모델은 RL 훈련에서 계속 성장하는데, 어떤 모델은 금방 한계에 부딪치는 걸까? 이 논문은 모델에 내재된 인지적 행동(cognitive behaviors)이 그 차이를 만들어낸다고 분석한다 

Qwen과 LLama의 응답간의 차이가 있다. 

✅ Four Key Cognitive Behaviors (Habits)

논문에서 강조하는 네 가지 행동은 다음과 같다

  1. Verification: 각 단계나 결과를 스스로 확인하는 습관
  2. Backtracking: 실수나 오류를 발견하면 이전으로 되돌아가 수정하는 태도
  3. Subgoal Setting: 큰 문제를 더 작고 관리 가능한 하위 과제로 나누는 전략
  4. Backward Chaining: 목표에서 출발해 역으로 추론해 나가는 방식
  • 이 행동들은 숙련된 인간 문제 해결자들이 자주 사용하는 방식이고, 효과적인 자기 개선(self‑improvement)을 가능하게 한다고 본다

 

  • Qwen‑2.5‑3B는 학습 초기부터 위의 네 가지 습관을 자연스럽게 수행하는 경향이 있다.
  • 반면 Llama‑3.2‑3B는 초반에는 이런 행동들이 거의 보이지 않기 때문에 동일한 환경에서도 성장에 한계가 생긴다
    • 우리는 위 4가지 인지적행동을 하도록 llama를 qwen처럼 업그레이드 할 수도 있다. 

 

✅ Takeaways

  • 특정 언어 모델은 인지적 행동 습관(cognitive habits) 덕분에 RL 훈련을 통해 스스로 더 잘 성장한다.
  • RL-기반 자기 강화(self-improvement)에서의 성능은 단순히 훈련 방법이 아니라, 모델이 사전 학습 과정에서 갖고 있는 추론 전략이나 습관에 달려 있다는 것.
  • 따라서 RL 또는 test-time inference 기법을 사용할 때는 모델이 어떤 인지적 전략을 내재적으로 갖고 있는지 파악하는 것이 중요하다.

Incorrect Baseline Evaluations Call into Question Recent LLM-RL Claims

https://safe-lip-9a8.notion.site/Incorrect-Baseline-Evaluations-Call-into-Question-Recent-LLM-RL-Claims-2012f1fbf0ee8094ab8ded1953c15a37

여러 LLM‑RL 연구들은 baseline 모델 성능을 과소평가함으로써 강화학습(RL) 효과를 과장했을 가능성이 있다. 실제로는 간단한 prompting이나 하이퍼파라미터 조절만으로도 동일한 성능 향상을 얻을 수 있다는 지적이다.

✅ 주요 문제 제기

  • 이들 논문에서 제시한 pre‑RL 모델의 baseline 성능은 실제보다 과소평가된 경우가 많다.
  • 결과적으로, RL 이후 성능 향상으로 보여지는 대부분이 잘못된 비교 대상에서 비롯된 착시 효과일 수 있다.

✅ “성능 향상”이 정말 RL 덕분인가?

  • 많은 경우, RL 모델이 더 좋은 reasoning 능력을 획득했다기보다, evaluation 환경의 형식 (format), parsing 방식, sampling 온도(temperature), max output tokens, few‑shot prompting 등과 같은 설정의 차이로 인해 성능이 좋아 보인 것뿐일 수 있다.
  • 즉, RL 없이도, 단순히 프롬프트나 하이퍼파라미터만 바꿔도 성능이 올라갈 수 있다는 점이다.

 

 

반응형
저작자표시 (새창열림)

'NLP' 카테고리의 다른 글

[Daily] Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading  (0) 2025.04.26
[Daily] Self-Correct Reasoning / Verification of LLM  (0) 2025.03.21
[LLM] 미뤄두었던 DeepSeek-R1, DeepSeek-V3에 대하여 (1)  (0) 2025.02.26
[TIL] RAG (Retrieval-Augmented Generation) 훑어보기  (2) 2025.01.12
[TIL] In-context Learning with Long-context LLMs  (0) 2024.09.13
    'NLP' 카테고리의 다른 글
    • [Daily] Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading
    • [Daily] Self-Correct Reasoning / Verification of LLM
    • [LLM] 미뤄두었던 DeepSeek-R1, DeepSeek-V3에 대하여 (1)
    • [TIL] RAG (Retrieval-Augmented Generation) 훑어보기
    당니이
    당니이
    씩씩하게 공부하기 📚💻

    티스토리툴바