[TIL] torch.distributed.DistBackendError: NCCL error, Internal check failed 에러 해결하기
·
Linux
언제 만나도 빡치는 NCCL 에러에 대한 포스팅이다. 하 필자는 지금 너무 화가난 상태이다. 필자가 만난 에러는 아래와 같다 ㅋㅋ NCCL version은 2.18.1을 사용하고 있다. torch.distributed.DistBackendError: NCCL error in: ../torch/csrc/distributed/c10d/ProcessGroupNCCL.cpp:1251, internal error - please report this issue to the NCCL developers, NCCL version 2.18.1ncclInternalError: Internal check failed.해결방법을 하루정도 찾았는데, 결론은 NCCL_SOCKET_IFNAME의 환경변수를 변경해주는 것이다. (..
[Linux] conv2d 시행 시 Runtime error: GET was unable to find an engine to execute 에러 해결
·
Linux
Video editing model을 돌리다가 아래와 같은 에러가 conv2d에서 발생함을 확인했다 ㅋㅋ  File "/mnt/petrelfs/zhaozhiyuan/anaconda3/envs/minigpt4-nightly/lib/python3.9/site-packages/torch/nn/modules/conv.py", line 459, in _conv_forward return F.conv2d(input, weight, bias, self.stride,RuntimeError: GET was unable to find an engine to execute this computation여러가지 서치를 해본결과 뭐 cuda version이 안맞아서 그런거라는데.. 됐고 그냥 아래와 같이 추가해주면 된다..