NLP
![[LLM] GRPO post training에서 발생하는 흥미로운 현상들](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdna%2Fmy08k%2FbtsQl0IFP5W%2FAAAAAAAAAAAAAAAAAAAAAJfNMWJjx0ZmpiaGYRFUpEitKMXvvZQZHd8Hr70jrdrP%2Fimg.png%3Fcredential%3DyqXZFxpELC7KVnFOS48ylbz2pIh7yKj8%26expires%3D1759244399%26allow_ip%3D%26allow_referer%3D%26signature%3DdJ7KmisQ5Aj8TFJwHiXDM10OwOY%253D)
[LLM] GRPO post training에서 발생하는 흥미로운 현상들
오늘 Reading group에서 저스틴의 발표를 보고 배운 내용들! GRPO post training 중에는 아래와 같은 흥미로운 사실이 발생한다. 이상한 reward를 줘도 성능이 올라감모델마다 RL로 성능이 향상되는 정도가 다름 pre‑RL 모델의 baseline 성능은 실제보다 과소평가된 경우가 많음Spurious Rewards: Rethinking Training Signals in RLVRhttps://arxiv.org/pdf/2506.10947TL;DR 이상한 reward (random reward)를 주고 GRPO post-training을 해도 Qwen 계열 모델에서는 성능이 향상된다. 다른 모델에 대해서는 적용이 안된다. 이 이유는 Qwen의 Code Reasoning 사용 때문이다. ..
![[Daily] Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdna%2FbvNmVg%2FbtsNzY87oov%2FAAAAAAAAAAAAAAAAAAAAAJAr9XtwePB48x6JLEri6FeVzuVuQkeqMcfGCahi93F0%2Fimg.png%3Fcredential%3DyqXZFxpELC7KVnFOS48ylbz2pIh7yKj8%26expires%3D1759244399%26allow_ip%3D%26allow_referer%3D%26signature%3DrNfEVqYBZ1OjZAKvXha2dDlK8XU%253D)
[Daily] Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading
재밌는 논문 찾아서 포스팅! 올해 시작한 일 중 가장 잘한 일은 daily paper 읽는 습관 만들기~~TLDR;LLM-Adaptive question의 difficulty level -> high-quality CoT data for different LLMModel-adaptive CoT data를 만드는 논문. 근데 difficulty level을 이용해서 model-adaptive 하게! (커리큘럼 러닝 느낌)Motivation주로 CoT data generation은 (1) manual하게 하거나 (2) in-context learning으로, (3) self-alignment framework로 automate하게 이루어진다.근데 diversity, correctness, coherence ..
![[Daily] Self-Correct Reasoning / Verification of LLM](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdna%2FbK8EXB%2FbtsMQTAJbbX%2FAAAAAAAAAAAAAAAAAAAAAMfECj4Lh8eS0zphHNnSGe5dAlAknqzoliYZCLHWZOVj%2Fimg.png%3Fcredential%3DyqXZFxpELC7KVnFOS48ylbz2pIh7yKj8%26expires%3D1759244399%26allow_ip%3D%26allow_referer%3D%26signature%3DP5vIbdDV1CsCLqVu5iT0jVsK26c%253D)
[Daily] Self-Correct Reasoning / Verification of LLM
오늘은 interview 준비를 하면서 평소 관심있었던 self-correction 논문을 읽었다!1. Small Language Models Need Strong Verifiers to Self-Correct ReasoningTLDR;Small LLM 으로 self-correction data를 모으고 self-refienment ability를 가질 수 있도록 fine-tuneSelf-refining model을 만드는게 목표MotivationSelf-correction: Self-verify + Self-refineSelf-verify: LLM이 initial solution을 judgeSelf-refine: Incorrect 하면 solution을 reviseSelf-refine: Critique..
![[LLM] 미뤄두었던 DeepSeek-R1, DeepSeek-V3에 대하여 (1)](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdna%2FcyVCKf%2FbtsMx6FbqNO%2FAAAAAAAAAAAAAAAAAAAAAMuhMnWXJLZOF4dFqou2XVTLDtoBud0eXAKqLbQNJcJ6%2Fimg.png%3Fcredential%3DyqXZFxpELC7KVnFOS48ylbz2pIh7yKj8%26expires%3D1759244399%26allow_ip%3D%26allow_referer%3D%26signature%3DfpSj5tJjVydSX0Beh%252BBk%252BwixNqk%253D)
[LLM] 미뤄두었던 DeepSeek-R1, DeepSeek-V3에 대하여 (1)
스터디에서 DeepSeek를 발표하겠다는 선언을 해버렸다! 미뤄두고 미뤄두던 딥시크를 자투리시간에 공부할 수 있게되어 좋다 ,, 😄 V3부터 포스팅하고 R1으로 가겠다! (계속 업데이트 할 예정) DeepSeek-R1 / DeepSeek-V3는 뭘까? DeepSeek-R1 (DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning) 은 오픈소스로 공개된 reasoning 모델이지만 최근 OpenAI의 o1 performance를 능가했으며, DeepSeek-V3-Base를 추가로 학습해 만들어진 모델이다. Reasoning capability 향상을 위해 RL-based 방법을 이용했으며 (LLM + RL) PP..
![[TIL] RAG (Retrieval-Augmented Generation) 훑어보기](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdna%2FnkOmd%2FbtsLK7S0Icg%2FAAAAAAAAAAAAAAAAAAAAAEuqxvN82dZpvVaBl9UZPp6xiYAMWMFUZVRAT9-yeCjZ%2Fimg.png%3Fcredential%3DyqXZFxpELC7KVnFOS48ylbz2pIh7yKj8%26expires%3D1759244399%26allow_ip%3D%26allow_referer%3D%26signature%3Dg%252F0%252F82aHqttmJBmm2r6qX12yocU%253D)
[TIL] RAG (Retrieval-Augmented Generation) 훑어보기
오늘 PRML 스터디에서 다뤘던 내용을 정리한다 ㅎㅎ 새해에는 active 하게 공부하는게 목표!! 아래 게시글은 이 survey 논문을 기반으로 하고 있다. Overview LLM의 더 정확한 답변을 위해 document를 이용해 정보를 retrieval 하여 이 정보를 이용해 LLM이 답변하게 하는 방법이다. Hallucination을 예방하는데 큰 도움을 줄 것 같다. User의 query를 document knowledge로 augment 한다는 측면에서 augmentation 이라는 말을 쓴다고 한다. 아래와 같은 순서로 진행된다고 직관적으로 이해했다. Direction 1. Naive RAG1. 먼저 Document를 어떻게 indexing 할건가도 중요한데, PDF, HTML 등의 파일을 e..
![[TIL] In-context Learning with Long-context LLMs](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdna%2Fck9UB9%2FbtsJzUJGHkV%2FAAAAAAAAAAAAAAAAAAAAAL207YjGydvZURSc-VPySiZ91mLQSAwORK7fG_HjULJI%2Fimg.png%3Fcredential%3DyqXZFxpELC7KVnFOS48ylbz2pIh7yKj8%26expires%3D1759244399%26allow_ip%3D%26allow_referer%3D%26signature%3DUfcuL3AsMwhazO%252FFz%252BNcVvhBdsQ%253D)
[TIL] In-context Learning with Long-context LLMs
☑️ Backgrounds Long-context LLMs GPT4o는 128k token을 take 할 수 있고, Gemini1.5의 경우 2M의 token을 take할 수 있다고 한다. LLama 3 405B를 pre-training 할 때는, context length를 6개의 stage로 gradually하게 늘려서 training함 (8k context window에서 시작해 -> 128k window로 마감)In-context Learning [예시 1] [예시2] ... [Your real questions] 여기서 예시를 넣을 때는 Question + Solution ☑️ Many-Shot In-Context Learning (May 2024)Newly expanded context wi..
![[TIL] LLM as reward models/evaluators (#RLHF, #Self-improvement)](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdna%2FeGV2Rp%2FbtsJkQzATZj%2FAAAAAAAAAAAAAAAAAAAAADOPsp3-59pvYmuBi1vTof_3R5xPtWyRLksb2A_Nxj8L%2Fimg.png%3Fcredential%3DyqXZFxpELC7KVnFOS48ylbz2pIh7yKj8%26expires%3D1759244399%26allow_ip%3D%26allow_referer%3D%26signature%3DSRp8UzSAucUlLzT%252F635Em1CsnxA%253D)
[TIL] LLM as reward models/evaluators (#RLHF, #Self-improvement)
다른 분야도 겅부해야지 .. 정신차리고 .. ☑️ RewardBench (8 Jun 2024)Evaluating Reward Models for Language ModelingReward model들을 평가하는 밴치마크이다. RLHF: 사람이 만든 preference data를 이용해 reward model을 training 하는 과정 ☑️ Self-Taught Evaluators (8 Aug 2024)Reward modeling에는 human judgment annotation이 필요하지만 이건 너무 costly함Human annotation 없이 self-improvement framework를 만듦 Without any labeled preference data, our Self-Taught E..
![[NLP Article] BERT에 대한 모든 것](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdna%2FcWqsiW%2FbtsGwxbCHSc%2FAAAAAAAAAAAAAAAAAAAAAMAkr6ndTIGxmdTnUaiRRmrFilwDNdn7oDv8SlgqBg7k%2Fimg.jpg%3Fcredential%3DyqXZFxpELC7KVnFOS48ylbz2pIh7yKj8%26expires%3D1759244399%26allow_ip%3D%26allow_referer%3D%26signature%3DCGoIHZ38zz2SzllrB1h9ooFvMZI%253D)
[NLP Article] BERT에 대한 모든 것
이 게시글은 Language Understanding with BERT 아티클을 참고한 글이다! Thanks to Jinheon Baek~! 출국 전 NLP 공부 .. 일주일에 게시글 세개씩 올릴 것이다. 항상 겸손하기 .. ◆ BERT는 뭘까 BERT의 효용은 아래 두가지라고 저자는 주장한다. Self-supervised learning으로 raw textual data를 pre-training (즉, downstream task를 위한 encoder) 각 token에 대해 bidirectional feature representation을 학습 ◆ Building Blocks of BERT BERT의 구성요소는 1) Self-Attention 2) Transformer Encoders 3) Self-..