[Daily] Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading

2025. 4. 26. 08:24·NLP
반응형

재밌는 논문 찾아서 포스팅! 올해 시작한 일 중 가장 잘한 일은 daily paper 읽는 습관 만들기~~

TLDR;

  • LLM-Adaptive question의 difficulty level -> high-quality CoT data for different LLM
  • Model-adaptive CoT data를 만드는 논문. 근데 difficulty level을 이용해서 model-adaptive 하게! (커리큘럼 러닝 느낌)

Motivation

  • 주로 CoT data generation은 (1) manual하게 하거나 (2) in-context learning으로, (3) self-alignment framework로 automate하게 이루어진다.
    • 근데 diversity, correctness, coherence of reasoning chain 측면에서 한계가 있음.
    • 이런 한계를 보완하기 위해 (low-quality reasoning을 필터링 하기위해) rejection sampling을 이용하거나, teacher model을 통해 iterative하게 refinement 하기도 한다.
    • 하지만 이럼에도 CoT generation을 different domain에 대해 scale up 하는건 어렵다.
  • LLM adaptive difficulty grading: 주로 모델의 현재 상태에 adaptive하게 training data를 구성하는 방식으로 학습을 하곤 하는데 (커리큘럼러닝 느낌?),
    • 이렇게 정의된 difficulty level은 너무 oversimplify 되어있음. (categotized)

Method

  • 먼저 모델의 상태를 진단할 (1) distribution construction -> (2) LLM-adaptive question difficulty grading & distribution sampling -> (3) LLM-adaptive CoT generation으로 이루어진다.
  • DB에서 question을 sampling 해서 이거 기반으로 CoT를 만든다.

1. Distribution construction

  • Question을 sampling하기 위해 sampling distribution을 만든다.
  • Actual difficulty level을 얻기위해 -> 모델의 incorrect answer를 얻은 question을 기반으로 PRM-grader를 사용해 question을 grade한다.

2. LLM-adaptive question difficulty grading & distribution sampling

  • Model-adaptive difficulty grading 을 이용해 large dataset DB에서 candidate question을 뽑는 과정.
  • 모델에게 answer를 response 하게 해서 grading 한다. 그리고 question-difficulty distribution을 바탕으로 sampling 한다.

3. LLM-adaptive CoT generation

  • Teacher model (여기서는 DeepSeek-R1 671B)을 이용해 question 기반 CoT dataset을 생성한다.

 

Results

  • Math와 coding task를 기반으로 실험 진행 -> 다양한 LLM에 대해 좋은 성능을 보인다.

반응형
저작자표시 (새창열림)

'NLP' 카테고리의 다른 글

[Daily] Self-Correct Reasoning / Verification of LLM  (0) 2025.03.21
[LLM] 미뤄두었던 DeepSeek-R1, DeepSeek-V3에 대하여 (1)  (0) 2025.02.26
[TIL] RAG (Retrieval-Augmented Generation) 훑어보기  (2) 2025.01.12
[TIL] In-context Learning with Long-context LLMs  (0) 2024.09.13
[TIL] LLM as reward models/evaluators (#RLHF, #Self-improvement)  (0) 2024.08.30
'NLP' 카테고리의 다른 글
  • [Daily] Self-Correct Reasoning / Verification of LLM
  • [LLM] 미뤄두었던 DeepSeek-R1, DeepSeek-V3에 대하여 (1)
  • [TIL] RAG (Retrieval-Augmented Generation) 훑어보기
  • [TIL] In-context Learning with Long-context LLMs
당니이
당니이
씩씩하게 공부하기 📚💻
  • 당니이
    다은이의 컴퓨터 공부
    당니이
  • 전체
    오늘
    어제
    • 분류 전체보기 (136)
      • Achieved 👩🏻 (14)
        • 생각들 (2)
        • TIL (6)
        • Trial and Error (1)
        • Inspiration ✨ (0)
        • 미국 박사 준비 🎓 (1)
      • Computer Vision💖 (39)
        • Basic (9)
        • Video (5)
        • Continual Learning (7)
        • Generative model (2)
        • Domain (DA & DG) (5)
        • Multimodal (8)
        • Multitask Learning (1)
        • Segmentation (1)
        • Colorization (1)
      • RL 🤖 (1)
      • Autonomous Driving 🚙 (11)
        • Geometry (4)
        • LiDAR 3D Detection (1)
        • Trajectory prediction (2)
        • Lane Detection (1)
        • HDmap (3)
      • Linux (15)
      • PyTorch👩🏻‍💻 (10)
      • Linear Algebra (2)
      • Python (5)
      • NLP (10)
        • Article 📑 (1)
      • Algorithms 💻 (22)
        • Basic (8)
        • BAEKJOON (8)
        • Programmers (2)
      • ML (1)
        • 통계적 머신러닝(20-2) (1)
      • SQL (3)
      • 기초금융 💵 (1)
  • 블로그 메뉴

    • 홈
    • About me
  • 링크

    • 나의 소박한 github
    • Naver 블로그
  • 공지사항

  • 인기 글

  • 태그

    conda
    LLM
    CV
    코딩테스트
    알고리즘
    Python
    백트래킹
    domain adaptation
    CL
    리눅스
    domain generalization
    NLP
    til
    자료구조
    pytorch
    백준
    Incremental Learning
    Linux
    continual learning
    dfs
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
당니이
[Daily] Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading
상단으로

티스토리툴바