반응형
오늘 Reading group에서 저스틴의 발표를 보고 배운 내용들! GRPO post training 중에는 아래와 같은 흥미로운 사실이 발생한다.
- 이상한 reward를 줘도 성능이 올라감
- 모델마다 RL로 성능이 향상되는 정도가 다름
- pre‑RL 모델의 baseline 성능은 실제보다 과소평가된 경우가 많음
Spurious Rewards: Rethinking Training Signals in RLVR
https://arxiv.org/pdf/2506.10947
TL;DR 이상한 reward (random reward)를 주고 GRPO post-training을 해도 Qwen 계열 모델에서는 성능이 향상된다. 다른 모델에 대해서는 적용이 안된다. 이 이유는 Qwen의 Code Reasoning 사용 때문이다.
✅ 흥미로운 사실
- RLVR (Reinforcement Learning with Verifiable Rewards)는 정답 기반 보상으로 reasoning 성능을 올리는 방식이다.
- 그런데 이 논문은 Qwen2.5-Math 모델에서 spurious reward (random, wrong, irrelevant reward)조차도 큰 성능 향상을 가져온다는 걸 보여준다.
- On MATH-500:
- Random reward: +21.4%
- Format reward: +13.8%
- Incorrect reward: +24.1%
- Majority voting reward: +26~27%
- Ground-truth reward: +29.1%
- 즉, random/wrong reward조차 ground-truth 보상과 거의 비슷한 수준의 성능 향상을 만든다.
- 하지만 이 효과는 Qwen2.5-Math 모델에 국한되고, Llama3나 OLMo2 등에서는 효과가 없거나 오히려 성능이 떨어진다.
✅ 왜 이런 현상이 발생하냐면?
- Qwen2.5-Math는 사전 학습 단계에서 Python-style code reasoning 습관을 가지고 있다.
- 실험 결과:
- Code 포함 답변의 accuracy: ~61%
- Non-code 답변: ~28%
- RLVR 학습 후에는 code reasoning 빈도가 65% → 90%+로 급증한다.
- 따라서 spurious reward가 사실상 code reasoning 사용을 끌어내는 트리거 역할을 한다.
- 프롬프트에 “Let’s solve this using Python.” 추가 → Qwen2.5-Math 성능 상승, 다른 모델은 오히려 성능 하락.
✅ 어떻게 이상한 (spurious) reward가 효과를 주나?
- Incorrect reward 효과: 오답 레이블도 정답과 근접한 경우가 많고, 이를 구분하려면 결국 reasoning이 필요하기 때문이다.
- Random reward 효과: GRPO의 clipping 효과 때문에 모델이 exploration보다는 pre-trained reasoning skill (code reasoning)에 더 의존하게 되고, 이게 성능 향상으로 이어진다.
Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs
https://arxiv.org/pdf/2503.01307
TL;DR 왜 어떤 모델은 RL 훈련에서 계속 성장하는데, 어떤 모델은 금방 한계에 부딪치는 걸까? 이 논문은 모델에 내재된 인지적 행동(cognitive behaviors)이 그 차이를 만들어낸다고 분석한다
Qwen과 LLama의 응답간의 차이가 있다.
✅ Four Key Cognitive Behaviors (Habits)
논문에서 강조하는 네 가지 행동은 다음과 같다
- Verification: 각 단계나 결과를 스스로 확인하는 습관
- Backtracking: 실수나 오류를 발견하면 이전으로 되돌아가 수정하는 태도
- Subgoal Setting: 큰 문제를 더 작고 관리 가능한 하위 과제로 나누는 전략
- Backward Chaining: 목표에서 출발해 역으로 추론해 나가는 방식
- 이 행동들은 숙련된 인간 문제 해결자들이 자주 사용하는 방식이고, 효과적인 자기 개선(self‑improvement)을 가능하게 한다고 본다
- Qwen‑2.5‑3B는 학습 초기부터 위의 네 가지 습관을 자연스럽게 수행하는 경향이 있다.
- 반면 Llama‑3.2‑3B는 초반에는 이런 행동들이 거의 보이지 않기 때문에 동일한 환경에서도 성장에 한계가 생긴다
- 우리는 위 4가지 인지적행동을 하도록 llama를 qwen처럼 업그레이드 할 수도 있다.
✅ Takeaways
- 특정 언어 모델은 인지적 행동 습관(cognitive habits) 덕분에 RL 훈련을 통해 스스로 더 잘 성장한다.
- RL-기반 자기 강화(self-improvement)에서의 성능은 단순히 훈련 방법이 아니라, 모델이 사전 학습 과정에서 갖고 있는 추론 전략이나 습관에 달려 있다는 것.
- 따라서 RL 또는 test-time inference 기법을 사용할 때는 모델이 어떤 인지적 전략을 내재적으로 갖고 있는지 파악하는 것이 중요하다.
Incorrect Baseline Evaluations Call into Question Recent LLM-RL Claims
여러 LLM‑RL 연구들은 baseline 모델 성능을 과소평가함으로써 강화학습(RL) 효과를 과장했을 가능성이 있다. 실제로는 간단한 prompting이나 하이퍼파라미터 조절만으로도 동일한 성능 향상을 얻을 수 있다는 지적이다.
✅ 주요 문제 제기
- 이들 논문에서 제시한 pre‑RL 모델의 baseline 성능은 실제보다 과소평가된 경우가 많다.
- 결과적으로, RL 이후 성능 향상으로 보여지는 대부분이 잘못된 비교 대상에서 비롯된 착시 효과일 수 있다.
✅ “성능 향상”이 정말 RL 덕분인가?
- 많은 경우, RL 모델이 더 좋은 reasoning 능력을 획득했다기보다, evaluation 환경의 형식 (format), parsing 방식, sampling 온도(temperature), max output tokens, few‑shot prompting 등과 같은 설정의 차이로 인해 성능이 좋아 보인 것뿐일 수 있다.
- 즉, RL 없이도, 단순히 프롬프트나 하이퍼파라미터만 바꿔도 성능이 올라갈 수 있다는 점이다.
반응형
'NLP' 카테고리의 다른 글
[Daily] Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading (0) | 2025.04.26 |
---|---|
[Daily] Self-Correct Reasoning / Verification of LLM (0) | 2025.03.21 |
[LLM] 미뤄두었던 DeepSeek-R1, DeepSeek-V3에 대하여 (1) (0) | 2025.02.26 |
[TIL] RAG (Retrieval-Augmented Generation) 훑어보기 (2) | 2025.01.12 |
[TIL] In-context Learning with Long-context LLMs (0) | 2024.09.13 |