[Daily] Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading
·
NLP
재밌는 논문 찾아서 포스팅! 올해 시작한 일 중 가장 잘한 일은 daily paper 읽는 습관 만들기~~TLDR;LLM-Adaptive question의 difficulty level -> high-quality CoT data for different LLMModel-adaptive CoT data를 만드는 논문. 근데 difficulty level을 이용해서 model-adaptive 하게! (커리큘럼 러닝 느낌)Motivation주로 CoT data generation은 (1) manual하게 하거나 (2) in-context learning으로, (3) self-alignment framework로 automate하게 이루어진다.근데 diversity, correctness, coherence ..
[Daily] Self-Correct Reasoning / Verification of LLM
·
NLP
오늘은 interview 준비를 하면서 평소 관심있었던 self-correction 논문을 읽었다!1. Small Language Models Need Strong Verifiers to Self-Correct ReasoningTLDR;Small LLM 으로 self-correction data를 모으고 self-refienment ability를 가질 수 있도록 fine-tuneSelf-refining model을 만드는게 목표MotivationSelf-correction: Self-verify + Self-refineSelf-verify: LLM이 initial solution을 judgeSelf-refine: Incorrect 하면 solution을 reviseSelf-refine: Critique..
[LLM] 미뤄두었던 DeepSeek-R1, DeepSeek-V3에 대하여 (1)
·
NLP
스터디에서 DeepSeek를 발표하겠다는 선언을 해버렸다! 미뤄두고 미뤄두던 딥시크를 자투리시간에 공부할 수 있게되어 좋다 ,, 😄 V3부터 포스팅하고 R1으로 가겠다! (계속 업데이트 할 예정) DeepSeek-R1 / DeepSeek-V3는 뭘까? DeepSeek-R1 (DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning) 은 오픈소스로 공개된 reasoning 모델이지만 최근 OpenAI의 o1 performance를 능가했으며, DeepSeek-V3-Base를 추가로 학습해 만들어진 모델이다. Reasoning capability 향상을 위해 RL-based 방법을 이용했으며 (LLM + RL) PP..
[TIL] RAG (Retrieval-Augmented Generation) 훑어보기
·
NLP
오늘 PRML 스터디에서 다뤘던 내용을 정리한다 ㅎㅎ 새해에는 active 하게 공부하는게 목표!! 아래 게시글은 이 survey 논문을 기반으로 하고 있다. Overview LLM의 더 정확한 답변을 위해 document를 이용해 정보를 retrieval 하여 이 정보를 이용해 LLM이 답변하게 하는 방법이다. Hallucination을 예방하는데 큰 도움을 줄 것 같다. User의 query를 document knowledge로 augment 한다는 측면에서 augmentation 이라는 말을 쓴다고 한다. 아래와 같은 순서로 진행된다고 직관적으로 이해했다. Direction 1. Naive RAG1. 먼저 Document를 어떻게 indexing 할건가도 중요한데, PDF, HTML 등의 파일을 e..
[TIL] In-context Learning with Long-context LLMs
·
NLP
☑️ Backgrounds Long-context LLMs GPT4o는 128k token을 take 할 수 있고, Gemini1.5의 경우 2M의 token을 take할 수 있다고 한다. LLama 3 405B를 pre-training 할 때는, context length를 6개의 stage로 gradually하게 늘려서 training함 (8k context window에서 시작해 -> 128k window로 마감)In-context Learning [예시 1] [예시2] ... [Your real questions] 여기서 예시를 넣을 때는 Question + Solution  ☑️ Many-Shot In-Context Learning (May 2024)Newly expanded context wi..
[TIL] LLM as reward models/evaluators (#RLHF, #Self-improvement)
·
NLP
다른 분야도 겅부해야지 .. 정신차리고 .. ☑️ RewardBench (8 Jun 2024)Evaluating Reward Models for Language ModelingReward model들을 평가하는 밴치마크이다. RLHF: 사람이 만든 preference data를 이용해 reward model을 training 하는 과정   ☑️ Self-Taught Evaluators (8 Aug 2024)Reward modeling에는 human judgment annotation이 필요하지만 이건 너무 costly함Human annotation 없이 self-improvement framework를 만듦 Without any labeled preference data, our Self-Taught E..
[NLP Article] BERT에 대한 모든 것
·
NLP/Article 📑
이 게시글은 Language Understanding with BERT 아티클을 참고한 글이다! Thanks to Jinheon Baek~! 출국 전 NLP 공부 .. 일주일에 게시글 세개씩 올릴 것이다. 항상 겸손하기 .. ◆ BERT는 뭘까 BERT의 효용은 아래 두가지라고 저자는 주장한다. Self-supervised learning으로 raw textual data를 pre-training (즉, downstream task를 위한 encoder) 각 token에 대해 bidirectional feature representation을 학습 ◆ Building Blocks of BERT BERT의 구성요소는 1) Self-Attention 2) Transformer Encoders 3) Self-..
[NLP] LORA : Low-Rank Adaptation of Large Language Models 논문 리뷰
·
NLP
# Problem statement Pre-trained model을 다양한 downstream task에 adaptation ex) Summarization 그리고 이는 주로 Fine-tuning으로 해결한다. 일단 위 downstream task들은 training data of context-target pairs $z$ = ($x$, $y$) 로 표현됨 Fully Fine-tuning? Downstream task의 log likelihood를 maximize 시키는 값을 찾겠다 ($x$, $y$는 example) 위 값은 거의 gradient descent 값으로 찾음 (w/ optimizer) > 전체 100% 파라미터 업데이트 하지만 위 gradient descent에는 이전 step의 정보..