당니이
다은이의 컴퓨터 공부
당니이
전체 방문자
오늘
어제
  • 분류 전체보기 (138) N
    • Achieved 👩🏻 (14)
      • 생각들 (2)
      • TIL (6)
      • Trial and Error (1)
      • Inspiration ✨ (0)
      • 미국 박사 준비 🎓 (1)
    • Computer Vision💖 (39)
      • Basic (9)
      • Video (5)
      • Continual Learning (7)
      • Generative model (2)
      • Domain (DA & DG) (5)
      • Multimodal (8)
      • Multitask Learning (1)
      • Segmentation (1)
      • Colorization (1)
    • RL 🤖 (2) N
    • Autonomous Driving 🚙 (11)
      • Geometry (4)
      • LiDAR 3D Detection (1)
      • Trajectory prediction (2)
      • Lane Detection (1)
      • HDmap (3)
    • Linux (15)
    • PyTorch👩🏻‍💻 (10)
    • Linear Algebra (2)
    • Python (5)
    • NLP (11) N
      • Article 📑 (1)
    • Algorithms 💻 (22)
      • Basic (8)
      • BAEKJOON (8)
      • Programmers (2)
    • ML (1)
      • 통계적 머신러닝(20-2) (1)
    • SQL (3)
    • 기초금융 💵 (1)

블로그 메뉴

  • 홈
  • About me

공지사항

인기 글

태그

  • 자료구조
  • 백트래킹
  • Python
  • domain generalization
  • til
  • Linux
  • Incremental Learning
  • LLM
  • CL
  • continual learning
  • CV
  • conda
  • 백준
  • 알고리즘
  • 리눅스
  • pytorch
  • domain adaptation
  • 코딩테스트
  • NLP
  • dfs

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
당니이

다은이의 컴퓨터 공부

[Daily] Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading
NLP

[Daily] Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading

2025. 4. 26. 08:24
반응형

재밌는 논문 찾아서 포스팅! 올해 시작한 일 중 가장 잘한 일은 daily paper 읽는 습관 만들기~~

TLDR;

  • LLM-Adaptive question의 difficulty level -> high-quality CoT data for different LLM
  • Model-adaptive CoT data를 만드는 논문. 근데 difficulty level을 이용해서 model-adaptive 하게! (커리큘럼 러닝 느낌)

Motivation

  • 주로 CoT data generation은 (1) manual하게 하거나 (2) in-context learning으로, (3) self-alignment framework로 automate하게 이루어진다.
    • 근데 diversity, correctness, coherence of reasoning chain 측면에서 한계가 있음.
    • 이런 한계를 보완하기 위해 (low-quality reasoning을 필터링 하기위해) rejection sampling을 이용하거나, teacher model을 통해 iterative하게 refinement 하기도 한다.
    • 하지만 이럼에도 CoT generation을 different domain에 대해 scale up 하는건 어렵다.
  • LLM adaptive difficulty grading: 주로 모델의 현재 상태에 adaptive하게 training data를 구성하는 방식으로 학습을 하곤 하는데 (커리큘럼러닝 느낌?),
    • 이렇게 정의된 difficulty level은 너무 oversimplify 되어있음. (categotized)

Method

  • 먼저 모델의 상태를 진단할 (1) distribution construction -> (2) LLM-adaptive question difficulty grading & distribution sampling -> (3) LLM-adaptive CoT generation으로 이루어진다.
  • DB에서 question을 sampling 해서 이거 기반으로 CoT를 만든다.

1. Distribution construction

  • Question을 sampling하기 위해 sampling distribution을 만든다.
  • Actual difficulty level을 얻기위해 -> 모델의 incorrect answer를 얻은 question을 기반으로 PRM-grader를 사용해 question을 grade한다.

2. LLM-adaptive question difficulty grading & distribution sampling

  • Model-adaptive difficulty grading 을 이용해 large dataset DB에서 candidate question을 뽑는 과정.
  • 모델에게 answer를 response 하게 해서 grading 한다. 그리고 question-difficulty distribution을 바탕으로 sampling 한다.

3. LLM-adaptive CoT generation

  • Teacher model (여기서는 DeepSeek-R1 671B)을 이용해 question 기반 CoT dataset을 생성한다.

 

Results

  • Math와 coding task를 기반으로 실험 진행 -> 다양한 LLM에 대해 좋은 성능을 보인다.

반응형
저작자표시 (새창열림)

'NLP' 카테고리의 다른 글

[LLM] GRPO post training에서 발생하는 흥미로운 현상들  (0) 2025.09.05
[Daily] Self-Correct Reasoning / Verification of LLM  (0) 2025.03.21
[LLM] 미뤄두었던 DeepSeek-R1, DeepSeek-V3에 대하여 (1)  (0) 2025.02.26
[TIL] RAG (Retrieval-Augmented Generation) 훑어보기  (2) 2025.01.12
[TIL] In-context Learning with Long-context LLMs  (0) 2024.09.13
    'NLP' 카테고리의 다른 글
    • [LLM] GRPO post training에서 발생하는 흥미로운 현상들
    • [Daily] Self-Correct Reasoning / Verification of LLM
    • [LLM] 미뤄두었던 DeepSeek-R1, DeepSeek-V3에 대하여 (1)
    • [TIL] RAG (Retrieval-Augmented Generation) 훑어보기
    당니이
    당니이
    씩씩하게 공부하기 📚💻

    티스토리툴바