당니이
다은이의 컴퓨터 공부
당니이
전체 방문자
오늘
어제
  • 분류 전체보기 (140) N
    • Achieved 👩🏻 (14)
      • 생각들 (2)
      • TIL (6)
      • Trial and Error (1)
      • Inspiration ✨ (0)
      • 미국 박사 준비 🎓 (1)
    • Computer Vision💖 (39)
      • Basic (9)
      • Video (5)
      • Continual Learning (7)
      • Generative model (2)
      • Domain (DA & DG) (5)
      • Multimodal (8)
      • Multitask Learning (1)
      • Segmentation (1)
      • Colorization (1)
    • RL 🤖 (4) N
    • Autonomous Driving 🚙 (11)
      • Geometry (4)
      • LiDAR 3D Detection (1)
      • Trajectory prediction (2)
      • Lane Detection (1)
      • HDmap (3)
    • Linux (15)
    • PyTorch👩🏻‍💻 (10)
    • Linear Algebra (2)
    • Python (5)
    • NLP (11)
      • Article 📑 (1)
    • Algorithms 💻 (22)
      • Basic (8)
      • BAEKJOON (8)
      • Programmers (2)
    • ML (1)
      • 통계적 머신러닝(20-2) (1)
    • SQL (3)
    • 기초금융 💵 (1)

블로그 메뉴

  • 홈
  • About me

공지사항

인기 글

태그

  • LLM
  • conda
  • Incremental Learning
  • NLP
  • 백트래킹
  • pytorch
  • domain adaptation
  • 백준
  • 리눅스
  • CV
  • 자료구조
  • til
  • dfs
  • domain generalization
  • Python
  • 코딩테스트
  • 알고리즘
  • CL
  • Linux
  • continual learning

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
당니이

다은이의 컴퓨터 공부

[TIL] torch.distributed.DistBackendError: NCCL error, Internal check failed 에러 해결하기
Linux

[TIL] torch.distributed.DistBackendError: NCCL error, Internal check failed 에러 해결하기

2025. 2. 5. 04:08
반응형

언제 만나도 빡치는 NCCL 에러에 대한 포스팅이다. 하 필자는 지금 너무 화가난 상태이다. 

필자가 만난 에러는 아래와 같다 ㅋㅋ NCCL version은 2.18.1을 사용하고 있다. 

torch.distributed.DistBackendError: 
NCCL error in: ../torch/csrc/distributed/c10d/ProcessGroupNCCL.cpp:1251, 
internal error - please report this issue to the NCCL developers, 
NCCL version 2.18.1
ncclInternalError: Internal check failed.

해결방법을 하루정도 찾았는데, 결론은 NCCL_SOCKET_IFNAME의 환경변수를 변경해주는 것이다. (여기서 찾음) 
터미널에 아래와 같이 입력해주자. 

ifconfig

그럼 뭐 이용 가능한 리스트? 가 아래와 같이 나오는데, 저 NCCL_SOCKET_IFNAME을 br0, docker0, eno1 중에 하나로 설정해 줘야하는 것 같았다. (저 리스트는 서버마다 다를 수 있음) 설정해주니까 해결되었다! NCCL 같은 불행을 이제 던질 수 있게 되었다! 

반응형
저작자표시 (새창열림)

'Linux' 카테고리의 다른 글

[Linux] Huggingface model default 저장 경로 (./.cache) 변경하기 (HF_HOME 지정)  (1) 2024.09.30
[Linux] conv2d 시행 시 Runtime error: GET was unable to find an engine to execute 에러 해결  (0) 2024.05.09
[Git] 특정 브랜치만 clone하기  (0) 2024.03.05
[Linux] 갑자기 conda를 찾을 수 없을 때 ~/.bashrc 확인하기  (2) 2024.01.06
[Linux] .cache 폴더 삭제하기 - conda, pip cache 파일 삭제하기  (1) 2024.01.06
    'Linux' 카테고리의 다른 글
    • [Linux] Huggingface model default 저장 경로 (./.cache) 변경하기 (HF_HOME 지정)
    • [Linux] conv2d 시행 시 Runtime error: GET was unable to find an engine to execute 에러 해결
    • [Git] 특정 브랜치만 clone하기
    • [Linux] 갑자기 conda를 찾을 수 없을 때 ~/.bashrc 확인하기
    당니이
    당니이
    씩씩하게 공부하기 📚💻

    티스토리툴바