RL
[LLM] GRPO post training에서 발생하는 흥미로운 현상들
오늘 Reading group에서 저스틴의 발표를 보고 배운 내용들! GRPO post training 중에는 아래와 같은 흥미로운 사실이 발생한다. 이상한 reward를 줘도 성능이 올라감모델마다 RL로 성능이 향상되는 정도가 다름 pre‑RL 모델의 baseline 성능은 실제보다 과소평가된 경우가 많음Spurious Rewards: Rethinking Training Signals in RLVRhttps://arxiv.org/pdf/2506.10947TL;DR 이상한 reward (random reward)를 주고 GRPO post-training을 해도 Qwen 계열 모델에서는 성능이 향상된다. 다른 모델에 대해서는 적용이 안된다. 이 이유는 Qwen의 Code Reasoning 사용 때문이다. ..