[Daily] Self-Correct Reasoning / Verification of LLM
·
NLP
오늘은 interview 준비를 하면서 평소 관심있었던 self-correction 논문을 읽었다!1. Small Language Models Need Strong Verifiers to Self-Correct ReasoningTLDR;Small LLM 으로 self-correction data를 모으고 self-refienment ability를 가질 수 있도록 fine-tuneSelf-refining model을 만드는게 목표MotivationSelf-correction: Self-verify + Self-refineSelf-verify: LLM이 initial solution을 judgeSelf-refine: Incorrect 하면 solution을 reviseSelf-refine: Critique..
[LLM] 미뤄두었던 DeepSeek-R1, DeepSeek-V3에 대하여 (1)
·
NLP
스터디에서 DeepSeek를 발표하겠다는 선언을 해버렸다! 미뤄두고 미뤄두던 딥시크를 자투리시간에 공부할 수 있게되어 좋다 ,, 😄 V3부터 포스팅하고 R1으로 가겠다! (계속 업데이트 할 예정) DeepSeek-R1 / DeepSeek-V3는 뭘까? DeepSeek-R1 (DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning) 은 오픈소스로 공개된 reasoning 모델이지만 최근 OpenAI의 o1 performance를 능가했으며, DeepSeek-V3-Base를 추가로 학습해 만들어진 모델이다. Reasoning capability 향상을 위해 RL-based 방법을 이용했으며 (LLM + RL) PP..
[TIL] RAG (Retrieval-Augmented Generation) 훑어보기
·
NLP
오늘 PRML 스터디에서 다뤘던 내용을 정리한다 ㅎㅎ 새해에는 active 하게 공부하는게 목표!! 아래 게시글은 이 survey 논문을 기반으로 하고 있다. Overview LLM의 더 정확한 답변을 위해 document를 이용해 정보를 retrieval 하여 이 정보를 이용해 LLM이 답변하게 하는 방법이다. Hallucination을 예방하는데 큰 도움을 줄 것 같다. User의 query를 document knowledge로 augment 한다는 측면에서 augmentation 이라는 말을 쓴다고 한다. 아래와 같은 순서로 진행된다고 직관적으로 이해했다. Direction 1. Naive RAG1. 먼저 Document를 어떻게 indexing 할건가도 중요한데, PDF, HTML 등의 파일을 e..
[TIL] LLM as reward models/evaluators (#RLHF, #Self-improvement)
·
NLP
다른 분야도 겅부해야지 .. 정신차리고 .. ☑️ RewardBench (8 Jun 2024)Evaluating Reward Models for Language ModelingReward model들을 평가하는 밴치마크이다. RLHF: 사람이 만든 preference data를 이용해 reward model을 training 하는 과정   ☑️ Self-Taught Evaluators (8 Aug 2024)Reward modeling에는 human judgment annotation이 필요하지만 이건 너무 costly함Human annotation 없이 self-improvement framework를 만듦 Without any labeled preference data, our Self-Taught E..
[NLP] LORA : Low-Rank Adaptation of Large Language Models 논문 리뷰
·
NLP
# Problem statement Pre-trained model을 다양한 downstream task에 adaptation ex) Summarization 그리고 이는 주로 Fine-tuning으로 해결한다. 일단 위 downstream task들은 training data of context-target pairs $z$ = ($x$, $y$) 로 표현됨 Fully Fine-tuning? Downstream task의 log likelihood를 maximize 시키는 값을 찾겠다 ($x$, $y$는 example) 위 값은 거의 gradient descent 값으로 찾음 (w/ optimizer) > 전체 100% 파라미터 업데이트 하지만 위 gradient descent에는 이전 step의 정보..