[Daily] Self-Correct Reasoning / Verification of LLM
오늘은 interview 준비를 하면서 평소 관심있었던 self-correction 논문을 읽었다!1. Small Language Models Need Strong Verifiers to Self-Correct ReasoningTLDR;Small LLM 으로 self-correction data를 모으고 self-refienment ability를 가질 수 있도록 fine-tuneSelf-refining model을 만드는게 목표MotivationSelf-correction: Self-verify + Self-refineSelf-verify: LLM이 initial solution을 judgeSelf-refine: Incorrect 하면 solution을 reviseSelf-refine: Critique..
[Daily] Token-Efficient Long Video Understanding for Multimodal LLMs
Computer Vision💖/Video
TLDR;기존 video llm은 각 frame을 독립적으로 처리Image encoder와 llm 사이의 temporal encoder를 제시 -> efficient long video understandingMotivation기존 video llm은 비디오를 frame image sequence로 처리하고, 각 frame을 image encoder와 visual language projector에서 independently하게 처리함하지만 이는 computational burden을 초래또한 LLM에 넣어지는 token 수를 줄이기 위해 naive frame subsampling을 진행하지만 이는 information loss 유발 + 또는 information이 overlap되는 현상 발생Method..
[Daily] Unified Reward Model for Multimodal Understanding and Generation
RL 🤖
TLDR;First unified (generation+ understanding) reward model을 제안 (현재까지는 specific task에 대한 reward model만 존재)Motivation현재까지 reward model들은 specific task에만 한정되어 있었음하지만 task들은 서로 연결되어 있고, 상호작용할 때 효과가 강해진다고 믿음. (e.g., image evaluation이 video evaluation에 도움)Method먼저 (1) Large-scale human preference dataset을 만들고(2) Preference pair dataset을 위한 reward model을 학습specific baseline (VLM, Diffusion model)에서 mu..
[Daily] MM-EUREKA: Exploring Visual Aha Moment with Rule-Based Large-Scale Reinforcement Learning
Computer Vision💖/Multimodal
TLDR;DeepSeek-R1 (rule-based reinforcement learning) 을 Multimodal setting에서 재현한 첫 opensource modelMultimodal reasoning model 'MM-Eureka'를 제안MotivationDeepSeek-R1을 multimodal setting에서 재현하려는 노력은 많이 있어왔지만, 거의 close source 모델이거나 'aha moment'에서 재현이 잘 안됨여기서 aha moment란 reasoning 중간에 이미지를 다시 체크하거나.. 확인하는 것MethodBasic setting: InternVL2.5 (8B, 32B)를 이용 + DeepSeekR1의 rule-based reward를 사용함Data clearning..
[LLM] 미뤄두었던 DeepSeek-R1, DeepSeek-V3에 대하여 (1)
스터디에서 DeepSeek를 발표하겠다는 선언을 해버렸다! 미뤄두고 미뤄두던 딥시크를 자투리시간에 공부할 수 있게되어 좋다 ,, 😄 V3부터 포스팅하고 R1으로 가겠다! (계속 업데이트 할 예정) DeepSeek-R1 / DeepSeek-V3는 뭘까? DeepSeek-R1 (DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning) 은 오픈소스로 공개된 reasoning 모델이지만 최근 OpenAI의 o1 performance를 능가했으며, DeepSeek-V3-Base를 추가로 학습해 만들어진 모델이다. Reasoning capability 향상을 위해 RL-based 방법을 이용했으며 (LLM + RL) PP..
[TIL] torch.distributed.DistBackendError: NCCL error, Internal check failed 에러 해결하기
언제 만나도 빡치는 NCCL 에러에 대한 포스팅이다. 하 필자는 지금 너무 화가난 상태이다. 필자가 만난 에러는 아래와 같다 ㅋㅋ NCCL version은 2.18.1을 사용하고 있다. torch.distributed.DistBackendError: NCCL error in: ../torch/csrc/distributed/c10d/ProcessGroupNCCL.cpp:1251, internal error - please report this issue to the NCCL developers, NCCL version 2.18.1ncclInternalError: Internal check failed.해결방법을 하루정도 찾았는데, 결론은 NCCL_SOCKET_IFNAME의 환경변수를 변경해주는 것이다. (..
[TIL] AI Multi-Agent에 관한 개괄
카테고리 없음
이 paper와 랩 세미나를 참고하였다 ㅎㅅㅎLLM based Multi-agent Agent들이 서로 communication/interact 할 수 있는 상황을 가정하고 이를 통해 task를 해결하는 것이다. 얻을 수 있는 이점으로는 1) Specialized LLM (다양한 capability를 가진) 을 various distinct agent로 이용해 collective decision-making processes을 가능하게 한다. 2) Agent간 interaction을 통해 복잡한 real-world environment에 simulation을 용이하게 한다.  아래와 같은 Embodied AI 등의 분야에서 많이 사용되고 있다. 예를 들어 여러가지 로봇이 복잡한 태스크를 수행하기 위해 함..
[TIL] RAG (Retrieval-Augmented Generation) 훑어보기
오늘 PRML 스터디에서 다뤘던 내용을 정리한다 ㅎㅎ 새해에는 active 하게 공부하는게 목표!! 아래 게시글은 이 survey 논문을 기반으로 하고 있다. Overview LLM의 더 정확한 답변을 위해 document를 이용해 정보를 retrieval 하여 이 정보를 이용해 LLM이 답변하게 하는 방법이다. Hallucination을 예방하는데 큰 도움을 줄 것 같다. User의 query를 document knowledge로 augment 한다는 측면에서 augmentation 이라는 말을 쓴다고 한다. 아래와 같은 순서로 진행된다고 직관적으로 이해했다. Direction 1. Naive RAG1. 먼저 Document를 어떻게 indexing 할건가도 중요한데, PDF, HTML 등의 파일을 e..