[Daily] Video-R1: Reinforcing Video Reasoning in MLLMs
·
Computer Vision💖/Video
TLDR;DeepSeek-R1을 이용한 video reasoningMotivation기존 GRPO를 이용한 video reasoning은 아래와 같은 단점이 존재함Video reasoning에는 temporal reasoning이 중요한데, 이 temporal reasoning이 없으면 모델은 single frame으로 'shortcut'을 통해 답을 내리는 경향 존재또한, high-quality video reasoning dataset이 없음MethodGRPO를 extension한 T-GRPO를 제안 (temporal reasoning을 encourage)Image-based reasoning data (CoT + RL 학습용 데이터셋)을 제안T-GRPO (Temporal Group Relative ..
[LLM] 미뤄두었던 DeepSeek-R1, DeepSeek-V3에 대하여 (1)
·
NLP
스터디에서 DeepSeek를 발표하겠다는 선언을 해버렸다! 미뤄두고 미뤄두던 딥시크를 자투리시간에 공부할 수 있게되어 좋다 ,, 😄 V3부터 포스팅하고 R1으로 가겠다! (계속 업데이트 할 예정) DeepSeek-R1 / DeepSeek-V3는 뭘까? DeepSeek-R1 (DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning) 은 오픈소스로 공개된 reasoning 모델이지만 최근 OpenAI의 o1 performance를 능가했으며, DeepSeek-V3-Base를 추가로 학습해 만들어진 모델이다. Reasoning capability 향상을 위해 RL-based 방법을 이용했으며 (LLM + RL) PP..