[Daily] Self-Correct Reasoning / Verification of LLM

2025. 3. 21. 13:56·NLP
반응형

오늘은 interview 준비를 하면서 평소 관심있었던 self-correction 논문을 읽었다!

1. Small Language Models Need Strong Verifiers to Self-Correct Reasoning

TLDR;

  • Small LLM 으로 self-correction data를 모으고 self-refienment ability를 가질 수 있도록 fine-tune
  • Self-refining model을 만드는게 목표

Motivation

  • Self-correction: Self-verify + Self-refine
    • Self-verify: LLM이 initial solution을 judge
    • Self-refine: Incorrect 하면 solution을 revise
  • Self-refine: Critique + Correction
    • Critiques: error의 위치를 pinpoint 하고, explain하고, 어떻게 고칠지 guidance를 줌 (feedback)

Method

Rejection sampling finetuning (다양한 solution을 sampling해 fine-tuning에 이용) 방법을 이용

  • Step1. Generate + filter critiques
    • Correct solution을 힌트 삼아 critique을 생성함 (few-shot critique prompt 존재)
    • Step by step으로 feedback을 제공하도록 함 -> 이런 데이터셋을 모음
    • Format에 맞도록 critique을 필터링함
  • Step2. Supervised fine-tuning of the refiner
    • 위에서 모은 데이터셋으로 cross-entropy loss를 이용해 fine-tune
  • 참고로 self-verifier는 역시 small LLM을 이용하였고, correct 확률을 뱉게해서 특정 확률 이하면 refinement를 적용

Results

Refine 후에 성능이 크게 향상됨 (실선) 

 

2. A Chain-of-Thought Is as Strong as Its Weakest Link: A Benchmark for Verifiers of Reasoning Chains

TLDR;

  • Fine-grained step-level dataset을 만듦 (Reasoning Verification Evaluation Benchmark)
  • Reasoning의 각 step의 error를 디텍팅할 수 있는 데이터셋 

Motivation

  • Automatic하게 reasoning chain을 step-by step으로 평가할 수 있으면 좋을 것임.

Method

  • 각 step의 correctness 판단 기준
    • Step relevance
    • Step type
    • Step attribution to external source (about factual error) 
    • Step logical correctness (about logical error) 

  • 각 step은 먼저 final answer와의 relevance로 labeled 된 다음, attribution step (factual knowledge 관련) /logical step (previous step과 logical한 inference 관계를 이루는가)으로 나눔.
  • For attribution step -> Wikipedia paragraph 리트리벌을 통해 correctness 판단
  • For logical step -> label for logical correctness

Results

이런식으로 LLM들의 reasoning 성능 판단이 가능하다. 

반응형
저작자표시 (새창열림)

'NLP' 카테고리의 다른 글

[Daily] Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading  (0) 2025.04.26
[LLM] 미뤄두었던 DeepSeek-R1, DeepSeek-V3에 대하여 (1)  (0) 2025.02.26
[TIL] RAG (Retrieval-Augmented Generation) 훑어보기  (2) 2025.01.12
[TIL] In-context Learning with Long-context LLMs  (0) 2024.09.13
[TIL] LLM as reward models/evaluators (#RLHF, #Self-improvement)  (0) 2024.08.30
'NLP' 카테고리의 다른 글
  • [Daily] Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading
  • [LLM] 미뤄두었던 DeepSeek-R1, DeepSeek-V3에 대하여 (1)
  • [TIL] RAG (Retrieval-Augmented Generation) 훑어보기
  • [TIL] In-context Learning with Long-context LLMs
당니이
당니이
씩씩하게 공부하기 📚💻
  • 당니이
    다은이의 컴퓨터 공부
    당니이
  • 전체
    오늘
    어제
    • 분류 전체보기 (136)
      • Achieved 👩🏻 (14)
        • 생각들 (2)
        • TIL (6)
        • Trial and Error (1)
        • Inspiration ✨ (0)
        • 미국 박사 준비 🎓 (1)
      • Computer Vision💖 (39)
        • Basic (9)
        • Video (5)
        • Continual Learning (7)
        • Generative model (2)
        • Domain (DA & DG) (5)
        • Multimodal (8)
        • Multitask Learning (1)
        • Segmentation (1)
        • Colorization (1)
      • RL 🤖 (1)
      • Autonomous Driving 🚙 (11)
        • Geometry (4)
        • LiDAR 3D Detection (1)
        • Trajectory prediction (2)
        • Lane Detection (1)
        • HDmap (3)
      • Linux (15)
      • PyTorch👩🏻‍💻 (10)
      • Linear Algebra (2)
      • Python (5)
      • NLP (10)
        • Article 📑 (1)
      • Algorithms 💻 (22)
        • Basic (8)
        • BAEKJOON (8)
        • Programmers (2)
      • ML (1)
        • 통계적 머신러닝(20-2) (1)
      • SQL (3)
      • 기초금융 💵 (1)
  • 블로그 메뉴

    • 홈
    • About me
  • 링크

    • 나의 소박한 github
    • Naver 블로그
  • 공지사항

  • 인기 글

  • 태그

    dfs
    til
    LLM
    CV
    Linux
    CL
    Incremental Learning
    pytorch
    domain adaptation
    코딩테스트
    Python
    NLP
    conda
    알고리즘
    자료구조
    백트래킹
    domain generalization
    continual learning
    리눅스
    백준
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
당니이
[Daily] Self-Correct Reasoning / Verification of LLM
상단으로

티스토리툴바