Linux
[TIL] torch.distributed.DistBackendError: NCCL error, Internal check failed 에러 해결하기
당니이
2025. 2. 5. 04:08
반응형
언제 만나도 빡치는 NCCL 에러에 대한 포스팅이다. 하 필자는 지금 너무 화가난 상태이다.
필자가 만난 에러는 아래와 같다 ㅋㅋ NCCL version은 2.18.1을 사용하고 있다.
torch.distributed.DistBackendError:
NCCL error in: ../torch/csrc/distributed/c10d/ProcessGroupNCCL.cpp:1251,
internal error - please report this issue to the NCCL developers,
NCCL version 2.18.1
ncclInternalError: Internal check failed.
해결방법을 하루정도 찾았는데, 결론은 NCCL_SOCKET_IFNAME의 환경변수를 변경해주는 것이다. (여기서 찾음)
터미널에 아래와 같이 입력해주자.
ifconfig
그럼 뭐 이용 가능한 리스트? 가 아래와 같이 나오는데, 저 NCCL_SOCKET_IFNAME을 br0, docker0, eno1 중에 하나로 설정해 줘야하는 것 같았다. (저 리스트는 서버마다 다를 수 있음) 설정해주니까 해결되었다! NCCL 같은 불행을 이제 던질 수 있게 되었다!
반응형