[LLM] GRPO post training에서 발생하는 흥미로운 현상들

오늘 Reading group에서 저스틴의 발표를 보고 배운 내용들! GRPO post training 중에는 아래와 같은 흥미로운 사실이 발생한다.

Spurious Rewards: Rethinking Training Signals in RLVR

TL;DR 이상한 reward (random reward)를 주고 GRPO post-training을 해도 Qwen 계열 모델에서는 성능이 향상된다. 다른 모델에 대해서는 적용이 안된다. 이 이유는 Qwen의 Code Reasoning 사용 때문이다.

RLVR (Reinforcement Learning with Verifiable Rewards)는 정답 기반 보상으로 reasoning 성능을 올리는 방식이다.
그런데 이 논문은 Qwen2.5-Math 모델에서 spurious reward (random, wrong, irrelevant reward)조차도 큰 성능 향상을 가져온다는 걸 보여준다.
On MATH-500:
- Random reward: +21.4%
- Format reward: +13.8%
- Incorrect reward: +24.1%
- Majority voting reward: +26~27%
- Ground-truth reward: +29.1%
즉, random/wrong reward조차 ground-truth 보상과 거의 비슷한 수준의 성능 향상을 만든다.
하지만 이 효과는 Qwen2.5-Math 모델에 국한되고, Llama3나 OLMo2 등에서는 효과가 없거나 오히려 성능이 떨어진다.

Qwen2.5-Math는 사전 학습 단계에서 Python-style code reasoning 습관을 가지고 있다.
실험 결과:
- Code 포함 답변의 accuracy: ~61%
- Non-code 답변: ~28%
RLVR 학습 후에는 code reasoning 빈도가 65% → 90%+로 급증한다.
따라서 spurious reward가 사실상 code reasoning 사용을 끌어내는 트리거 역할을 한다.
- 프롬프트에 “Let’s solve this using Python.” 추가 → Qwen2.5-Math 성능 상승, 다른 모델은 오히려 성능 하락.

Incorrect reward 효과: 오답 레이블도 정답과 근접한 경우가 많고, 이를 구분하려면 결국 reasoning이 필요하기 때문이다.
Random reward 효과: GRPO의 clipping 효과 때문에 모델이 exploration보다는 pre-trained reasoning skill (code reasoning)에 더 의존하게 되고, 이게 성능 향상으로 이어진다.

TL;DR 왜 어떤 모델은 RL 훈련에서 계속 성장하는데, 어떤 모델은 금방 한계에 부딪치는 걸까? 이 논문은 모델에 내재된 인지적 행동(cognitive behaviors)이 그 차이를 만들어낸다고 분석한다

Qwen과 LLama의 응답간의 차이가 있다.

논문에서 강조하는 네 가지 행동은 다음과 같다

Qwen‑2.5‑3B는 학습 초기부터 위의 네 가지 습관을 자연스럽게 수행하는 경향이 있다.
반면 Llama‑3.2‑3B는 초반에는 이런 행동들이 거의 보이지 않기 때문에 동일한 환경에서도 성장에 한계가 생긴다
- 우리는 위 4가지 인지적행동을 하도록 llama를 qwen처럼 업그레이드 할 수도 있다.

특정 언어 모델은 인지적 행동 습관(cognitive habits) 덕분에 RL 훈련을 통해 스스로 더 잘 성장한다.
RL-기반 자기 강화(self-improvement)에서의 성능은 단순히 훈련 방법이 아니라, 모델이 사전 학습 과정에서 갖고 있는 추론 전략이나 습관에 달려 있다는 것.
따라서 RL 또는 test-time inference 기법을 사용할 때는 모델이 어떤 인지적 전략을 내재적으로 갖고 있는지 파악하는 것이 중요하다.

여러 LLM‑RL 연구들은 baseline 모델 성능을 과소평가함으로써 강화학습(RL) 효과를 과장했을 가능성이 있다. 실제로는 간단한 prompting이나 하이퍼파라미터 조절만으로도 동일한 성능 향상을 얻을 수 있다는 지적이다.

많은 경우, RL 모델이 더 좋은 reasoning 능력을 획득했다기보다, evaluation 환경의 형식 (format), parsing 방식, sampling 온도(temperature), max output tokens, few‑shot prompting 등과 같은 설정의 차이로 인해 성능이 좋아 보인 것뿐일 수 있다.
즉, RL 없이도, 단순히 프롬프트나 하이퍼파라미터만 바꿔도 성능이 올라갈 수 있다는 점이다.

[Daily] Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading (0)	2025.04.26
[Daily] Self-Correct Reasoning / Verification of LLM (0)	2025.03.21
[LLM] 미뤄두었던 DeepSeek-R1, DeepSeek-V3에 대하여 (1) (0)	2025.02.26
[TIL] RAG (Retrieval-Augmented Generation) 훑어보기 (2)	2025.01.12
[TIL] In-context Learning with Long-context LLMs (0)	2024.09.13