LLM

    [LLM] GRPO post training에서 발생하는 흥미로운 현상들

    [LLM] GRPO post training에서 발생하는 흥미로운 현상들

    오늘 Reading group에서 저스틴의 발표를 보고 배운 내용들! GRPO post training 중에는 아래와 같은 흥미로운 사실이 발생한다. 이상한 reward를 줘도 성능이 올라감모델마다 RL로 성능이 향상되는 정도가 다름 pre‑RL 모델의 baseline 성능은 실제보다 과소평가된 경우가 많음Spurious Rewards: Rethinking Training Signals in RLVRhttps://arxiv.org/pdf/2506.10947TL;DR 이상한 reward (random reward)를 주고 GRPO post-training을 해도 Qwen 계열 모델에서는 성능이 향상된다. 다른 모델에 대해서는 적용이 안된다. 이 이유는 Qwen의 Code Reasoning 사용 때문이다. ..

    [Daily] Self-Correct Reasoning / Verification of LLM

    [Daily] Self-Correct Reasoning / Verification of LLM

    오늘은 interview 준비를 하면서 평소 관심있었던 self-correction 논문을 읽었다!1. Small Language Models Need Strong Verifiers to Self-Correct ReasoningTLDR;Small LLM 으로 self-correction data를 모으고 self-refienment ability를 가질 수 있도록 fine-tuneSelf-refining model을 만드는게 목표MotivationSelf-correction: Self-verify + Self-refineSelf-verify: LLM이 initial solution을 judgeSelf-refine: Incorrect 하면 solution을 reviseSelf-refine: Critique..

    [LLM] 미뤄두었던 DeepSeek-R1, DeepSeek-V3에 대하여 (1)

    [LLM] 미뤄두었던 DeepSeek-R1, DeepSeek-V3에 대하여 (1)

    스터디에서 DeepSeek를 발표하겠다는 선언을 해버렸다! 미뤄두고 미뤄두던 딥시크를 자투리시간에 공부할 수 있게되어 좋다 ,, 😄 V3부터 포스팅하고 R1으로 가겠다! (계속 업데이트 할 예정) DeepSeek-R1 / DeepSeek-V3는 뭘까? DeepSeek-R1 (DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning) 은 오픈소스로 공개된 reasoning 모델이지만 최근 OpenAI의 o1 performance를 능가했으며, DeepSeek-V3-Base를 추가로 학습해 만들어진 모델이다. Reasoning capability 향상을 위해 RL-based 방법을 이용했으며 (LLM + RL) PP..

    [TIL] RAG (Retrieval-Augmented Generation) 훑어보기

    [TIL] RAG (Retrieval-Augmented Generation) 훑어보기

    오늘 PRML 스터디에서 다뤘던 내용을 정리한다 ㅎㅎ 새해에는 active 하게 공부하는게 목표!! 아래 게시글은 이 survey 논문을 기반으로 하고 있다. Overview LLM의 더 정확한 답변을 위해 document를 이용해 정보를 retrieval 하여 이 정보를 이용해 LLM이 답변하게 하는 방법이다. Hallucination을 예방하는데 큰 도움을 줄 것 같다. User의 query를 document knowledge로 augment 한다는 측면에서 augmentation 이라는 말을 쓴다고 한다. 아래와 같은 순서로 진행된다고 직관적으로 이해했다. Direction 1. Naive RAG1. 먼저 Document를 어떻게 indexing 할건가도 중요한데, PDF, HTML 등의 파일을 e..

    [TIL] LLM as reward models/evaluators (#RLHF, #Self-improvement)

    [TIL] LLM as reward models/evaluators (#RLHF, #Self-improvement)

    다른 분야도 겅부해야지 .. 정신차리고 .. ☑️ RewardBench (8 Jun 2024)Evaluating Reward Models for Language ModelingReward model들을 평가하는 밴치마크이다. RLHF: 사람이 만든 preference data를 이용해 reward model을 training 하는 과정   ☑️ Self-Taught Evaluators (8 Aug 2024)Reward modeling에는 human judgment annotation이 필요하지만 이건 너무 costly함Human annotation 없이 self-improvement framework를 만듦 Without any labeled preference data, our Self-Taught E..

    [NLP] LORA : Low-Rank Adaptation of Large Language Models 논문 리뷰

    [NLP] LORA : Low-Rank Adaptation of Large Language Models 논문 리뷰

    # Problem statement Pre-trained model을 다양한 downstream task에 adaptation ex) Summarization 그리고 이는 주로 Fine-tuning으로 해결한다. 일단 위 downstream task들은 training data of context-target pairs $z$ = ($x$, $y$) 로 표현됨 Fully Fine-tuning? Downstream task의 log likelihood를 maximize 시키는 값을 찾겠다 ($x$, $y$는 example) 위 값은 거의 gradient descent 값으로 찾음 (w/ optimizer) > 전체 100% 파라미터 업데이트 하지만 위 gradient descent에는 이전 step의 정보..