분류 전체보기
![[Robot] GR-2를 보고 정리하는 OOD (Out-Of-Distribution) setting](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdna%2FbnZOlf%2FbtsQtFYQnsm%2FAAAAAAAAAAAAAAAAAAAAABNc0kuwVqRzXzlIKgGdV4hNwipxhijtu-vbfuvQjb3h%2Fimg.png%3Fcredential%3DyqXZFxpELC7KVnFOS48ylbz2pIh7yKj8%26expires%3D1759244399%26allow_ip%3D%26allow_referer%3D%26signature%3DshVYkAuYKCClDbmDc8Hnbo5mcNE%253D)
[Robot] GR-2를 보고 정리하는 OOD (Out-Of-Distribution) setting
https://arxiv.org/pdf/2410.06158 ✅ GR-2인간 언어 설명을 입력으로 받아, 시각 관찰과 로봇 상태를 기반으로 직접 행동 궤적을 출력하는 언어-조건 기반 GPT 스타일 모델 대규모 동영상 사전학습 (Video Generative Pre-training):3,800만 개의 인터넷 동영상 클립, 총 500억 개 이상의 토큰으로 구성된 방대한 데이터셋으로 사전학습을 수행.다양한 인간 활동 데이터를 포함하며, HowTo100M, Ego4D, Something-Something V2, EPIC-KITCHENS, Kinetics-700 등에서 수집한 영상이 활용.로봇 데이터 파인튜닝 (Robot Trajectory Fine-tuning):사전학습된 모델에 로봇 궤적 데이터를 이용해 행동 ..
![[Robot] GR-1: Video generation을 robot manipulation에 활용하기](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdna%2FbbR0h2%2FbtsQpH3wMVg%2FAAAAAAAAAAAAAAAAAAAAAAd8wRvHIQ1TJhkUG81V5CT418QrDjOny85RDTuWzBe6%2Fimg.png%3Fcredential%3DyqXZFxpELC7KVnFOS48ylbz2pIh7yKj8%26expires%3D1759244399%26allow_ip%3D%26allow_referer%3D%26signature%3DshkfZSqNLfWuLY8v766wbt3IoP0%253D)
[Robot] GR-1: Video generation을 robot manipulation에 활용하기
오늘 Mingyu 수업에서 재밌는 논문을 봤다. 역시 기록! https://arxiv.org/pdf/2312.13139 ✅ TL;DR로봇을 사람 말대로 잘 움직이게 하려면, 그냥 행동 데이터만 학습시키는 게 아니라, 먼저 비디오를 대규모로 보면서 ‘앞으로 무슨 일이 일어날지’ 예측하는 능력을 길러주는 게 훨씬 좋다로봇이 대규모 비디오 생성(pre-training)으로 “미래 화면을 예측하는 능력”을 먼저 배우게 하고, 그다음에 실제 로봇 조작 데이터로 조금만 fine-tuning 하면, 새로운 상황에서도 잘 적응하고 훨씬 성공률이 높아진다는 걸 증명 ✅ Motivation 로봇 조작은 본질적으로 generative한 문제임 → 행동을 하면 환경이 변하고, 로봇은 그다음 시각 상태를 예측해야 함.기존 방..
![[LLM] GRPO post training에서 발생하는 흥미로운 현상들](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdna%2Fmy08k%2FbtsQl0IFP5W%2FAAAAAAAAAAAAAAAAAAAAAJfNMWJjx0ZmpiaGYRFUpEitKMXvvZQZHd8Hr70jrdrP%2Fimg.png%3Fcredential%3DyqXZFxpELC7KVnFOS48ylbz2pIh7yKj8%26expires%3D1759244399%26allow_ip%3D%26allow_referer%3D%26signature%3DdJ7KmisQ5Aj8TFJwHiXDM10OwOY%253D)
[LLM] GRPO post training에서 발생하는 흥미로운 현상들
오늘 Reading group에서 저스틴의 발표를 보고 배운 내용들! GRPO post training 중에는 아래와 같은 흥미로운 사실이 발생한다. 이상한 reward를 줘도 성능이 올라감모델마다 RL로 성능이 향상되는 정도가 다름 pre‑RL 모델의 baseline 성능은 실제보다 과소평가된 경우가 많음Spurious Rewards: Rethinking Training Signals in RLVRhttps://arxiv.org/pdf/2506.10947TL;DR 이상한 reward (random reward)를 주고 GRPO post-training을 해도 Qwen 계열 모델에서는 성능이 향상된다. 다른 모델에 대해서는 적용이 안된다. 이 이유는 Qwen의 Code Reasoning 사용 때문이다. ..
![[Robot] Point trajectory를 이용한 Policy Learning](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdna%2FcThJHM%2FbtsQjPm5GIm%2FAAAAAAAAAAAAAAAAAAAAAFkFCBWIhC9xjRUKtJAL-8jvSjkvp0QAS66XVijRghYN%2Fimg.png%3Fcredential%3DyqXZFxpELC7KVnFOS48ylbz2pIh7yKj8%26expires%3D1759244399%26allow_ip%3D%26allow_referer%3D%26signature%3DXa2U%252FP1VGDoaeP4EIug%252BAh2vFBY%253D)
[Robot] Point trajectory를 이용한 Policy Learning
[Sep 3 2025] Robot Learning: Mingyu's class Any-point Trajectory Modeling for Policy Learninghttps://arxiv.org/pdf/2401.00025✅ 로봇 정책을 학습하려면 보통 action-labeled demonstration (상태+행동 짝 데이터)이 필요예: 로봇이 컵을 잡는 영상을 보고 동시에 각 step에서 joint angle/action을 알아야 policy 학습이 가능근데 이건 비용이 너무 큼: 수만 개 trajectory를 action까지 라벨링하는 데 몇 달~년 단위가 걸림✅ Idea : Action 라벨 없는 비디오로도, 로봇이 쓸만한 representation을 뽑아내서 policy 학습을 돕자임의의 p..
![[Daily] Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdna%2FbvNmVg%2FbtsNzY87oov%2FAAAAAAAAAAAAAAAAAAAAAJAr9XtwePB48x6JLEri6FeVzuVuQkeqMcfGCahi93F0%2Fimg.png%3Fcredential%3DyqXZFxpELC7KVnFOS48ylbz2pIh7yKj8%26expires%3D1759244399%26allow_ip%3D%26allow_referer%3D%26signature%3DrNfEVqYBZ1OjZAKvXha2dDlK8XU%253D)
[Daily] Rethinking the Generation of High-Quality CoT Data from the Perspective of LLM-Adaptive Question Difficulty Grading
재밌는 논문 찾아서 포스팅! 올해 시작한 일 중 가장 잘한 일은 daily paper 읽는 습관 만들기~~TLDR;LLM-Adaptive question의 difficulty level -> high-quality CoT data for different LLMModel-adaptive CoT data를 만드는 논문. 근데 difficulty level을 이용해서 model-adaptive 하게! (커리큘럼 러닝 느낌)Motivation주로 CoT data generation은 (1) manual하게 하거나 (2) in-context learning으로, (3) self-alignment framework로 automate하게 이루어진다.근데 diversity, correctness, coherence ..
![[Daily] CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdna%2FciYCfJ%2FbtsNrznq5jt%2FAAAAAAAAAAAAAAAAAAAAACOs_s8tSkNQCOI2rgY0IOhtMmoBwcgaaNqhOKXlg96_%2Fimg.png%3Fcredential%3DyqXZFxpELC7KVnFOS48ylbz2pIh7yKj8%26expires%3D1759244399%26allow_ip%3D%26allow_referer%3D%26signature%3DsXCB4MP3Tx%252BYAc%252BhNe4iZPDhcN4%253D)
[Daily] CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training
지금 하고있는 연구랑 비슷해서 좀 자세히 읽어봤당 역시 OOD 재밌다TLDR;Web data는 보통 web에서 수집되기 때문에 explicit domain label이 없는데, domain-specific training을 위해 optimal pre-training data mixture를 identify하는건 어려운 문제임.Cluster-based로 최적의 data mixture weight를 도출하는 framework -> Efficient domain-specific pre-trainingMotivationDomain-specific task의 성능을 올리는데는 final pre-training phase가 중요하다고 함.General/ domain-specific task에 맞는 pre-train..
![[Daily] InternVL3: Exploring Advanced Training and Test-TimeRecipes for Open-Source Multimodal Models](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdna%2FnTcce%2FbtsNkNFZCL2%2FAAAAAAAAAAAAAAAAAAAAAPKdPC4sUPGXrK2noBkISbNYOWoP51-MbESlt7FFKDQ-%2Fimg.png%3Fcredential%3DyqXZFxpELC7KVnFOS48ylbz2pIh7yKj8%26expires%3D1759244399%26allow_ip%3D%26allow_referer%3D%26signature%3DA02IZwBhvGLpZWl1mFuIMY4eomY%253D)
[Daily] InternVL3: Exploring Advanced Training and Test-TimeRecipes for Open-Source Multimodal Models
오늘 InternVL3이 나왔다. 매일매일 따라가는게 진심으로 벅차지만 .. 매일 daily paper를 체크하니까 꽤 트랜드를 따라가기 좋고 연구에도 도움이 많이 되는 것 같다! 긍정긍정 TLDR; Pre-training stage에서 multimodal/ linguistic capability를 joint하게 학습시킨다. 이전에는 text-only pre-training을 먼저 거치고, visual processing을 위해 multimodal alignment를 그 후에 학습시켰음. Variable visual position encoding을 제안Post-training: SFT + Mixed preference optimization Test-time scaling: Answer N개 중 ver..
![[Daily] VideoChat-R1: Enhancing Spatio-TemporalPerception via Reinforcement Fine-Tuning](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdna%2FcRrup2%2FbtsNgqkbAuG%2FAAAAAAAAAAAAAAAAAAAAAD94Ux05UnobV1nYGFCAEgkwNchMKf5nuBvTXgCIKiws%2Fimg.png%3Fcredential%3DyqXZFxpELC7KVnFOS48ylbz2pIh7yKj8%26expires%3D1759244399%26allow_ip%3D%26allow_referer%3D%26signature%3D3u3TqLqKzABsrH2hFnCpHFJaZfk%253D)
[Daily] VideoChat-R1: Enhancing Spatio-TemporalPerception via Reinforcement Fine-Tuning
TLDR;VideoLLM에 GRPO를 적용한 또 다른 버전, spatio-temporal perception 성능을 높이고자 했다고 한다.VideoLLM의 general capability를 유지하면서 task-specific performance를 높일 수 있다고 함.MotivationVideo understanding에는 reasoning ability를 위한 training/evaluation corpus가 부족 + underexploredMethod1. GRPOPPO에서 critic model에 대한 dependency를 줄인 것Response에 대한 group을 생성한 뒤 (여러개 response candidate) 아래와 같이 quality 측정GRPO는 그룹 내 better answer가 나..