[Daily] Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading
·
NLP
재밌는 논문 찾아서 포스팅! 올해 시작한 일 중 가장 잘한 일은 daily paper 읽는 습관 만들기~~TLDR;LLM-Adaptive question의 difficulty level -> high-quality CoT data for different LLMModel-adaptive CoT data를 만드는 논문. 근데 difficulty level을 이용해서 model-adaptive 하게! (커리큘럼 러닝 느낌)Motivation주로 CoT data generation은 (1) manual하게 하거나 (2) in-context learning으로, (3) self-alignment framework로 automate하게 이루어진다.근데 diversity, correctness, coherence ..
[Daily] CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training
·
Computer Vision💖/Domain (DA & DG)
지금 하고있는 연구랑 비슷해서 좀 자세히 읽어봤당 역시 OOD 재밌다TLDR;Web data는 보통 web에서 수집되기 때문에 explicit domain label이 없는데, domain-specific training을 위해 optimal pre-training data mixture를 identify하는건 어려운 문제임.Cluster-based로 최적의 data mixture weight를 도출하는 framework -> Efficient domain-specific pre-trainingMotivationDomain-specific task의 성능을 올리는데는 final pre-training phase가 중요하다고 함.General/ domain-specific task에 맞는 pre-train..
[Daily] InternVL3: Exploring Advanced Training and Test-TimeRecipes for Open-Source Multimodal Models
·
Computer Vision💖/Multimodal
오늘 InternVL3이 나왔다. 매일매일 따라가는게 진심으로 벅차지만 .. 매일 daily paper를 체크하니까 꽤 트랜드를 따라가기 좋고 연구에도 도움이 많이 되는 것 같다! 긍정긍정 TLDR; Pre-training stage에서 multimodal/ linguistic capability를 joint하게 학습시킨다. 이전에는 text-only pre-training을 먼저 거치고, visual processing을 위해 multimodal alignment를 그 후에 학습시켰음. Variable visual position encoding을 제안Post-training: SFT + Mixed preference optimization Test-time scaling: Answer N개 중 ver..
[Daily] VideoChat-R1: Enhancing Spatio-TemporalPerception via Reinforcement Fine-Tuning
·
Computer Vision💖/Video
TLDR;VideoLLM에 GRPO를 적용한 또 다른 버전, spatio-temporal perception 성능을 높이고자 했다고 한다.VideoLLM의 general capability를 유지하면서 task-specific performance를 높일 수 있다고 함.MotivationVideo understanding에는 reasoning ability를 위한 training/evaluation corpus가 부족 + underexploredMethod1. GRPOPPO에서 critic model에 대한 dependency를 줄인 것Response에 대한 group을 생성한 뒤 (여러개 response candidate) 아래와 같이 quality 측정GRPO는 그룹 내 better answer가 나..
[Daily] Video-R1: Reinforcing Video Reasoning in MLLMs
·
Computer Vision💖/Video
TLDR;DeepSeek-R1을 이용한 video reasoningMotivation기존 GRPO를 이용한 video reasoning은 아래와 같은 단점이 존재함Video reasoning에는 temporal reasoning이 중요한데, 이 temporal reasoning이 없으면 모델은 single frame으로 'shortcut'을 통해 답을 내리는 경향 존재또한, high-quality video reasoning dataset이 없음MethodGRPO를 extension한 T-GRPO를 제안 (temporal reasoning을 encourage)Image-based reasoning data (CoT + RL 학습용 데이터셋)을 제안T-GRPO (Temporal Group Relative ..
[Daily] Self-Correct Reasoning / Verification of LLM
·
NLP
오늘은 interview 준비를 하면서 평소 관심있었던 self-correction 논문을 읽었다!1. Small Language Models Need Strong Verifiers to Self-Correct ReasoningTLDR;Small LLM 으로 self-correction data를 모으고 self-refienment ability를 가질 수 있도록 fine-tuneSelf-refining model을 만드는게 목표MotivationSelf-correction: Self-verify + Self-refineSelf-verify: LLM이 initial solution을 judgeSelf-refine: Incorrect 하면 solution을 reviseSelf-refine: Critique..
[Daily] Token-Efficient Long Video Understanding for Multimodal LLMs
·
Computer Vision💖/Video
TLDR;기존 video llm은 각 frame을 독립적으로 처리Image encoder와 llm 사이의 temporal encoder를 제시 -> efficient long video understandingMotivation기존 video llm은 비디오를 frame image sequence로 처리하고, 각 frame을 image encoder와 visual language projector에서 independently하게 처리함하지만 이는 computational burden을 초래또한 LLM에 넣어지는 token 수를 줄이기 위해 naive frame subsampling을 진행하지만 이는 information loss 유발 + 또는 information이 overlap되는 현상 발생Method..
[Daily] Unified Reward Model for Multimodal Understanding and Generation
·
RL 🤖
TLDR;First unified (generation+ understanding) reward model을 제안 (현재까지는 specific task에 대한 reward model만 존재)Motivation현재까지 reward model들은 specific task에만 한정되어 있었음하지만 task들은 서로 연결되어 있고, 상호작용할 때 효과가 강해진다고 믿음. (e.g., image evaluation이 video evaluation에 도움)Method먼저 (1) Large-scale human preference dataset을 만들고(2) Preference pair dataset을 위한 reward model을 학습specific baseline (VLM, Diffusion model)에서 mu..