NCCL
![[TIL] torch.distributed.DistBackendError: NCCL error, Internal check failed 에러 해결하기](https://img1.daumcdn.net/thumb/R750x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbjhmzE%2FbtsL7r4FBXy%2FqisppYMjFDcaKaAw3fHvY1%2Fimg.png)
[TIL] torch.distributed.DistBackendError: NCCL error, Internal check failed 에러 해결하기
언제 만나도 빡치는 NCCL 에러에 대한 포스팅이다. 하 필자는 지금 너무 화가난 상태이다. 필자가 만난 에러는 아래와 같다 ㅋㅋ NCCL version은 2.18.1을 사용하고 있다. torch.distributed.DistBackendError: NCCL error in: ../torch/csrc/distributed/c10d/ProcessGroupNCCL.cpp:1251, internal error - please report this issue to the NCCL developers, NCCL version 2.18.1ncclInternalError: Internal check failed.해결방법을 하루정도 찾았는데, 결론은 NCCL_SOCKET_IFNAME의 환경변수를 변경해주는 것이다. (..