언제 만나도 빡치는 NCCL 에러에 대한 포스팅이다. 하 필자는 지금 너무 화가난 상태이다.
필자가 만난 에러는 아래와 같다 ㅋㅋ NCCL version은 2.18.1을 사용하고 있다.
torch.distributed.DistBackendError:
NCCL error in: ../torch/csrc/distributed/c10d/ProcessGroupNCCL.cpp:1251,
internal error - please report this issue to the NCCL developers,
NCCL version 2.18.1
ncclInternalError: Internal check failed.
해결방법을 하루정도 찾았는데, 결론은 NCCL_SOCKET_IFNAME의 환경변수를 변경해주는 것이다. (여기서 찾음)
터미널에 아래와 같이 입력해주자.
ifconfig
그럼 뭐 이용 가능한 리스트? 가 아래와 같이 나오는데, 저 NCCL_SOCKET_IFNAME을 br0, docker0, eno1 중에 하나로 설정해 줘야하는 것 같았다. (저 리스트는 서버마다 다를 수 있음) 설정해주니까 해결되었다! NCCL 같은 불행을 이제 던질 수 있게 되었다!
반응형
'Linux' 카테고리의 다른 글
[Linux] Huggingface model default 저장 경로 (./.cache) 변경하기 (HF_HOME 지정) (1) | 2024.09.30 |
---|---|
[Linux] conv2d 시행 시 Runtime error: GET was unable to find an engine to execute 에러 해결 (0) | 2024.05.09 |
[Git] 특정 브랜치만 clone하기 (0) | 2024.03.05 |
[Linux] 갑자기 conda를 찾을 수 없을 때 ~/.bashrc 확인하기 (2) | 2024.01.06 |
[Linux] .cache 폴더 삭제하기 - conda, pip cache 파일 삭제하기 (1) | 2024.01.06 |