반응형
재밌는 논문 찾아서 포스팅! 올해 시작한 일 중 가장 잘한 일은 daily paper 읽는 습관 만들기~~
TLDR;
- LLM-Adaptive question의 difficulty level -> high-quality CoT data for different LLM
- Model-adaptive CoT data를 만드는 논문. 근데 difficulty level을 이용해서 model-adaptive 하게! (커리큘럼 러닝 느낌)
Motivation
- 주로 CoT data generation은 (1) manual하게 하거나 (2) in-context learning으로, (3) self-alignment framework로 automate하게 이루어진다.
- 근데 diversity, correctness, coherence of reasoning chain 측면에서 한계가 있음.
- 이런 한계를 보완하기 위해 (low-quality reasoning을 필터링 하기위해) rejection sampling을 이용하거나, teacher model을 통해 iterative하게 refinement 하기도 한다.
- 하지만 이럼에도 CoT generation을 different domain에 대해 scale up 하는건 어렵다.
- LLM adaptive difficulty grading: 주로 모델의 현재 상태에 adaptive하게 training data를 구성하는 방식으로 학습을 하곤 하는데 (커리큘럼러닝 느낌?),
- 이렇게 정의된 difficulty level은 너무 oversimplify 되어있음. (categotized)
Method
- 먼저 모델의 상태를 진단할 (1) distribution construction -> (2) LLM-adaptive question difficulty grading & distribution sampling -> (3) LLM-adaptive CoT generation으로 이루어진다.
- DB에서 question을 sampling 해서 이거 기반으로 CoT를 만든다.
1. Distribution construction
- Question을 sampling하기 위해 sampling distribution을 만든다.
- Actual difficulty level을 얻기위해 -> 모델의 incorrect answer를 얻은 question을 기반으로 PRM-grader를 사용해 question을 grade한다.
2. LLM-adaptive question difficulty grading & distribution sampling
- Model-adaptive difficulty grading 을 이용해 large dataset DB에서 candidate question을 뽑는 과정.
- 모델에게 answer를 response 하게 해서 grading 한다. 그리고 question-difficulty distribution을 바탕으로 sampling 한다.
3. LLM-adaptive CoT generation
- Teacher model (여기서는 DeepSeek-R1 671B)을 이용해 question 기반 CoT dataset을 생성한다.
Results
- Math와 coding task를 기반으로 실험 진행 -> 다양한 LLM에 대해 좋은 성능을 보인다.
반응형
'NLP' 카테고리의 다른 글
[Daily] Self-Correct Reasoning / Verification of LLM (0) | 2025.03.21 |
---|---|
[LLM] 미뤄두었던 DeepSeek-R1, DeepSeek-V3에 대하여 (1) (0) | 2025.02.26 |
[TIL] RAG (Retrieval-Augmented Generation) 훑어보기 (2) | 2025.01.12 |
[TIL] In-context Learning with Long-context LLMs (0) | 2024.09.13 |
[TIL] LLM as reward models/evaluators (#RLHF, #Self-improvement) (0) | 2024.08.30 |