NCCL

    [TIL] torch.distributed.DistBackendError: NCCL error, Internal check failed 에러 해결하기

    [TIL] torch.distributed.DistBackendError: NCCL error, Internal check failed 에러 해결하기

    언제 만나도 빡치는 NCCL 에러에 대한 포스팅이다. 하 필자는 지금 너무 화가난 상태이다. 필자가 만난 에러는 아래와 같다 ㅋㅋ NCCL version은 2.18.1을 사용하고 있다. torch.distributed.DistBackendError: NCCL error in: ../torch/csrc/distributed/c10d/ProcessGroupNCCL.cpp:1251, internal error - please report this issue to the NCCL developers, NCCL version 2.18.1ncclInternalError: Internal check failed.해결방법을 하루정도 찾았는데, 결론은 NCCL_SOCKET_IFNAME의 환경변수를 변경해주는 것이다. (..