[Daily] Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading

재밌는 논문 찾아서 포스팅! 올해 시작한 일 중 가장 잘한 일은 daily paper 읽는 습관 만들기~~

TLDR;

LLM-Adaptive question의 difficulty level -> high-quality CoT data for different LLM
Model-adaptive CoT data를 만드는 논문. 근데 difficulty level을 이용해서 model-adaptive 하게! (커리큘럼 러닝 느낌)

주로 CoT data generation은 (1) manual하게 하거나 (2) in-context learning으로, (3) self-alignment framework로 automate하게 이루어진다.
- 근데 diversity, correctness, coherence of reasoning chain 측면에서 한계가 있음.
- 이런 한계를 보완하기 위해 (low-quality reasoning을 필터링 하기위해) rejection sampling을 이용하거나, teacher model을 통해 iterative하게 refinement 하기도 한다.
- 하지만 이럼에도 CoT generation을 different domain에 대해 scale up 하는건 어렵다.
LLM adaptive difficulty grading: 주로 모델의 현재 상태에 adaptive하게 training data를 구성하는 방식으로 학습을 하곤 하는데 (커리큘럼러닝 느낌?),
- 이렇게 정의된 difficulty level은 너무 oversimplify 되어있음. (categotized)

먼저 모델의 상태를 진단할 (1) distribution construction -> (2) LLM-adaptive question difficulty grading & distribution sampling -> (3) LLM-adaptive CoT generation으로 이루어진다.
DB에서 question을 sampling 해서 이거 기반으로 CoT를 만든다.

Question을 sampling하기 위해 sampling distribution을 만든다.
Actual difficulty level을 얻기위해 -> 모델의 incorrect answer를 얻은 question을 기반으로 PRM-grader를 사용해 question을 grade한다.

Model-adaptive difficulty grading 을 이용해 large dataset DB에서 candidate question을 뽑는 과정.
모델에게 answer를 response 하게 해서 grading 한다. 그리고 question-difficulty distribution을 바탕으로 sampling 한다.

[LLM] GRPO post training에서 발생하는 흥미로운 현상들 (0)	2025.09.05
[Daily] Self-Correct Reasoning / Verification of LLM (0)	2025.03.21
[LLM] 미뤄두었던 DeepSeek-R1, DeepSeek-V3에 대하여 (1) (0)	2025.02.26
[TIL] RAG (Retrieval-Augmented Generation) 훑어보기 (2)	2025.01.12
[TIL] In-context Learning with Long-context LLMs (0)	2024.09.13