전체 글
[Linux] Huggingface model default 저장 경로 (./.cache) 변경하기 (HF_HOME 지정)
허깅페이스 모델들을 마구잡이로 다운 받다보면,, 디폴트 저장 경로가 /home/daeun/.cache/huggingface 이런 식으로 home 폴더로 설정되어 있는걸 확인할 수 있다. (화남) 하지만 home 폴더에 제약이 걸려있는 서버 환경이라면,, 이 디폴트 저장 경로를 다른 경로로 바꿔줘야 할 것 ! # 가장 쉬운 방법 가장 쉬운 방법은 HF_HOME 경로를 export 해주는 것이다. 아래와 같이 직접 터미널에 코드를 실행하기 전 export 해주자 export HF_HOME=/nas-ssd2/daeun/.cache/영구적으로 위 변수를 추가하고 싶다면 아래와 같이 하면 된다. .bashrc에 추가하는 것임echo 'export HF_HOME=/nas-ssd2/daeun/.cache/' >> ~..
[TIL] Video Diffusion Model과 시뮬레이터
오늘의 세미나 주제는 .. Video Diffusion model이 real world의 dynamics를 반영할 수 있는 시뮬레이터로서 기능할 수 있을지이다. ☑️ Learning Interactive Real-World Simulators (Jan 2024) - ICLR24 Outstanding paperGood world simulator가 있다면, human은 diverse scene에 대해 더 많은 interaction이 가능할 것 We explore the possibility of learning a universal simulator of real-world interaction through generative modeling.이 paper에서는 action-in-video-out con..
[TIL] In-context Learning with Long-context LLMs
☑️ Backgrounds Long-context LLMs GPT4o는 128k token을 take 할 수 있고, Gemini1.5의 경우 2M의 token을 take할 수 있다고 한다. LLama 3 405B를 pre-training 할 때는, context length를 6개의 stage로 gradually하게 늘려서 training함 (8k context window에서 시작해 -> 128k window로 마감)In-context Learning [예시 1] [예시2] ... [Your real questions] 여기서 예시를 넣을 때는 Question + Solution ☑️ Many-Shot In-Context Learning (May 2024)Newly expanded context wi..
[TIL] Long Video Understanding
Recent Trend in Long Video Understanding Content LLM context length Compress visual tokens with streaming models ☑️ Long Context Transfer from Laugnage to Vision (Jul 2024) Background Video data는 너무 densy + lengthy 하고, (보통 8/32 frame 단위로 sampling해서 진행한다) high-quality long video pretraining dataset이 아직 없다. (커뮤니티의 문제) Idea Longer text data로 train해서 context length를 늘린다 Context-extended LM을 이용해 lo..
[TIL] LLM as reward models/evaluators (#RLHF, #Self-improvement)
다른 분야도 겅부해야지 .. 정신차리고 .. ☑️ RewardBench (8 Jun 2024)Evaluating Reward Models for Language ModelingReward model들을 평가하는 밴치마크이다. RLHF: 사람이 만든 preference data를 이용해 reward model을 training 하는 과정 ☑️ Self-Taught Evaluators (8 Aug 2024)Reward modeling에는 human judgment annotation이 필요하지만 이건 너무 costly함Human annotation 없이 self-improvement framework를 만듦 Without any labeled preference data, our Self-Taught E..
[Linux] conv2d 시행 시 Runtime error: GET was unable to find an engine to execute 에러 해결
Video editing model을 돌리다가 아래와 같은 에러가 conv2d에서 발생함을 확인했다 ㅋㅋ File "/mnt/petrelfs/zhaozhiyuan/anaconda3/envs/minigpt4-nightly/lib/python3.9/site-packages/torch/nn/modules/conv.py", line 459, in _conv_forward return F.conv2d(input, weight, bias, self.stride,RuntimeError: GET was unable to find an engine to execute this computation여러가지 서치를 해본결과 뭐 cuda version이 안맞아서 그런거라는데.. 됐고 그냥 아래와 같이 추가해주면 된다..
[NLP Article] BERT에 대한 모든 것
이 게시글은 Language Understanding with BERT 아티클을 참고한 글이다! Thanks to Jinheon Baek~! 출국 전 NLP 공부 .. 일주일에 게시글 세개씩 올릴 것이다. 항상 겸손하기 .. ◆ BERT는 뭘까 BERT의 효용은 아래 두가지라고 저자는 주장한다. Self-supervised learning으로 raw textual data를 pre-training (즉, downstream task를 위한 encoder) 각 token에 대해 bidirectional feature representation을 학습 ◆ Building Blocks of BERT BERT의 구성요소는 1) Self-Attention 2) Transformer Encoders 3) Self-..
[Direct PhD] 세달만에 AI 미국 박사 준비하기 - (1) 프롤로그
(24.8.26 추가) 방문해주셔서 감사합니다. 현생이 바빠서 글 업데이트를 못하고 있습니다. 기다리고 계신 분들 죄송합니다 ㅠㅠ daeun@cs.unc.edu / goodgpt@korea.ac.kr로 궁금하신 사항 메일 주시면 최대한 정성스럽게 답변 드리겠습니다. 감사합니다!오늘 시점으로 세군데의 학교 (UCSD / UNC / BU) 에서 기다렸던 오퍼를 모두 받았다.미박 준비 일기를 써야지 써야지 하다가 못썼는데, 막상 오퍼를 모두 받으니 글로 남겨야 겠다는 생각이 들어 내가 사랑하는 작고 하찮은 다컴공.. 에 남기기로 했다 ㅋㅋ (티스토리는 왜 블로그 이름이랑 도메인이 바뀌지 않는걸까..........) 연구를 해야하니 바쁘면 못올릴 것 같고, 시간날 때마다 내가 느꼈던 주관적인 것들을 하나씩 올려..