분류 전체보기

    [Daily] Video-R1: Reinforcing Video Reasoning in MLLMs

    [Daily] Video-R1: Reinforcing Video Reasoning in MLLMs

    TLDR;DeepSeek-R1을 이용한 video reasoningMotivation기존 GRPO를 이용한 video reasoning은 아래와 같은 단점이 존재함Video reasoning에는 temporal reasoning이 중요한데, 이 temporal reasoning이 없으면 모델은 single frame으로 'shortcut'을 통해 답을 내리는 경향 존재또한, high-quality video reasoning dataset이 없음MethodGRPO를 extension한 T-GRPO를 제안 (temporal reasoning을 encourage)Image-based reasoning data (CoT + RL 학습용 데이터셋)을 제안T-GRPO (Temporal Group Relative ..

    [Daily] Self-Correct Reasoning / Verification of LLM

    [Daily] Self-Correct Reasoning / Verification of LLM

    오늘은 interview 준비를 하면서 평소 관심있었던 self-correction 논문을 읽었다!1. Small Language Models Need Strong Verifiers to Self-Correct ReasoningTLDR;Small LLM 으로 self-correction data를 모으고 self-refienment ability를 가질 수 있도록 fine-tuneSelf-refining model을 만드는게 목표MotivationSelf-correction: Self-verify + Self-refineSelf-verify: LLM이 initial solution을 judgeSelf-refine: Incorrect 하면 solution을 reviseSelf-refine: Critique..

    [Daily] Token-Efficient Long Video Understanding for Multimodal LLMs

    [Daily] Token-Efficient Long Video Understanding for Multimodal LLMs

    TLDR;기존 video llm은 각 frame을 독립적으로 처리Image encoder와 llm 사이의 temporal encoder를 제시 -> efficient long video understandingMotivation기존 video llm은 비디오를 frame image sequence로 처리하고, 각 frame을 image encoder와 visual language projector에서 independently하게 처리함하지만 이는 computational burden을 초래또한 LLM에 넣어지는 token 수를 줄이기 위해 naive frame subsampling을 진행하지만 이는 information loss 유발 + 또는 information이 overlap되는 현상 발생Method..

    [Daily] Unified Reward Model for Multimodal Understanding and Generation

    [Daily] Unified Reward Model for Multimodal Understanding and Generation

    TLDR;First unified (generation+ understanding) reward model을 제안 (현재까지는 specific task에 대한 reward model만 존재)Motivation현재까지 reward model들은 specific task에만 한정되어 있었음하지만 task들은 서로 연결되어 있고, 상호작용할 때 효과가 강해진다고 믿음. (e.g., image evaluation이 video evaluation에 도움)Method먼저 (1) Large-scale human preference dataset을 만들고(2) Preference pair dataset을 위한 reward model을 학습specific baseline (VLM, Diffusion model)에서 mu..

    [Daily] MM-EUREKA: Exploring Visual Aha Moment with Rule-Based Large-Scale Reinforcement Learning

    [Daily] MM-EUREKA: Exploring Visual Aha Moment with Rule-Based Large-Scale Reinforcement Learning

    TLDR;DeepSeek-R1 (rule-based reinforcement learning) 을 Multimodal setting에서 재현한 첫 opensource modelMultimodal reasoning model 'MM-Eureka'를 제안MotivationDeepSeek-R1을 multimodal setting에서 재현하려는 노력은 많이 있어왔지만, 거의 close source 모델이거나 'aha moment'에서 재현이 잘 안됨여기서 aha moment란 reasoning 중간에 이미지를 다시 체크하거나.. 확인하는 것MethodBasic setting: InternVL2.5 (8B, 32B)를 이용 + DeepSeekR1의 rule-based reward를 사용함Data clearning..

    [LLM] 미뤄두었던 DeepSeek-R1, DeepSeek-V3에 대하여 (1)

    [LLM] 미뤄두었던 DeepSeek-R1, DeepSeek-V3에 대하여 (1)

    스터디에서 DeepSeek를 발표하겠다는 선언을 해버렸다! 미뤄두고 미뤄두던 딥시크를 자투리시간에 공부할 수 있게되어 좋다 ,, 😄 V3부터 포스팅하고 R1으로 가겠다! (계속 업데이트 할 예정) DeepSeek-R1 / DeepSeek-V3는 뭘까? DeepSeek-R1 (DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning) 은 오픈소스로 공개된 reasoning 모델이지만 최근 OpenAI의 o1 performance를 능가했으며, DeepSeek-V3-Base를 추가로 학습해 만들어진 모델이다. Reasoning capability 향상을 위해 RL-based 방법을 이용했으며 (LLM + RL) PP..

    [TIL] torch.distributed.DistBackendError: NCCL error, Internal check failed 에러 해결하기

    [TIL] torch.distributed.DistBackendError: NCCL error, Internal check failed 에러 해결하기

    언제 만나도 빡치는 NCCL 에러에 대한 포스팅이다. 하 필자는 지금 너무 화가난 상태이다. 필자가 만난 에러는 아래와 같다 ㅋㅋ NCCL version은 2.18.1을 사용하고 있다. torch.distributed.DistBackendError: NCCL error in: ../torch/csrc/distributed/c10d/ProcessGroupNCCL.cpp:1251, internal error - please report this issue to the NCCL developers, NCCL version 2.18.1ncclInternalError: Internal check failed.해결방법을 하루정도 찾았는데, 결론은 NCCL_SOCKET_IFNAME의 환경변수를 변경해주는 것이다. (..

    [TIL] AI Multi-Agent에 관한 개괄

    [TIL] AI Multi-Agent에 관한 개괄

    이 paper와 랩 세미나를 참고하였다 ㅎㅅㅎLLM based Multi-agent Agent들이 서로 communication/interact 할 수 있는 상황을 가정하고 이를 통해 task를 해결하는 것이다. 얻을 수 있는 이점으로는 1) Specialized LLM (다양한 capability를 가진) 을 various distinct agent로 이용해 collective decision-making processes을 가능하게 한다. 2) Agent간 interaction을 통해 복잡한 real-world environment에 simulation을 용이하게 한다.  아래와 같은 Embodied AI 등의 분야에서 많이 사용되고 있다. 예를 들어 여러가지 로봇이 복잡한 태스크를 수행하기 위해 함..