[TIL] torch.distributed.DistBackendError: NCCL error, Internal check failed 에러 해결하기

2025. 2. 5. 04:08·Linux
반응형

언제 만나도 빡치는 NCCL 에러에 대한 포스팅이다. 하 필자는 지금 너무 화가난 상태이다. 

필자가 만난 에러는 아래와 같다 ㅋㅋ NCCL version은 2.18.1을 사용하고 있다. 

torch.distributed.DistBackendError: 
NCCL error in: ../torch/csrc/distributed/c10d/ProcessGroupNCCL.cpp:1251, 
internal error - please report this issue to the NCCL developers, 
NCCL version 2.18.1
ncclInternalError: Internal check failed.

해결방법을 하루정도 찾았는데, 결론은 NCCL_SOCKET_IFNAME의 환경변수를 변경해주는 것이다. (여기서 찾음) 
터미널에 아래와 같이 입력해주자. 

ifconfig

그럼 뭐 이용 가능한 리스트? 가 아래와 같이 나오는데, 저 NCCL_SOCKET_IFNAME을 br0, docker0, eno1 중에 하나로 설정해 줘야하는 것 같았다. (저 리스트는 서버마다 다를 수 있음) 설정해주니까 해결되었다! NCCL 같은 불행을 이제 던질 수 있게 되었다! 

반응형
저작자표시 (새창열림)

'Linux' 카테고리의 다른 글

[Linux] Huggingface model default 저장 경로 (./.cache) 변경하기 (HF_HOME 지정)  (1) 2024.09.30
[Linux] conv2d 시행 시 Runtime error: GET was unable to find an engine to execute 에러 해결  (0) 2024.05.09
[Git] 특정 브랜치만 clone하기  (0) 2024.03.05
[Linux] 갑자기 conda를 찾을 수 없을 때 ~/.bashrc 확인하기  (2) 2024.01.06
[Linux] .cache 폴더 삭제하기 - conda, pip cache 파일 삭제하기  (1) 2024.01.06
'Linux' 카테고리의 다른 글
  • [Linux] Huggingface model default 저장 경로 (./.cache) 변경하기 (HF_HOME 지정)
  • [Linux] conv2d 시행 시 Runtime error: GET was unable to find an engine to execute 에러 해결
  • [Git] 특정 브랜치만 clone하기
  • [Linux] 갑자기 conda를 찾을 수 없을 때 ~/.bashrc 확인하기
당니이
당니이
씩씩하게 공부하기 📚💻
  • 당니이
    다은이의 컴퓨터 공부
    당니이
  • 전체
    오늘
    어제
    • 분류 전체보기 (136)
      • Achieved 👩🏻 (14)
        • 생각들 (2)
        • TIL (6)
        • Trial and Error (1)
        • Inspiration ✨ (0)
        • 미국 박사 준비 🎓 (1)
      • Computer Vision💖 (39)
        • Basic (9)
        • Video (5)
        • Continual Learning (7)
        • Generative model (2)
        • Domain (DA & DG) (5)
        • Multimodal (8)
        • Multitask Learning (1)
        • Segmentation (1)
        • Colorization (1)
      • RL 🤖 (1)
      • Autonomous Driving 🚙 (11)
        • Geometry (4)
        • LiDAR 3D Detection (1)
        • Trajectory prediction (2)
        • Lane Detection (1)
        • HDmap (3)
      • Linux (15)
      • PyTorch👩🏻‍💻 (10)
      • Linear Algebra (2)
      • Python (5)
      • NLP (10)
        • Article 📑 (1)
      • Algorithms 💻 (22)
        • Basic (8)
        • BAEKJOON (8)
        • Programmers (2)
      • ML (1)
        • 통계적 머신러닝(20-2) (1)
      • SQL (3)
      • 기초금융 💵 (1)
  • 블로그 메뉴

    • 홈
    • About me
  • 링크

    • 나의 소박한 github
    • Naver 블로그
  • 공지사항

  • 인기 글

  • 태그

    CV
    domain generalization
    LLM
    알고리즘
    continual learning
    conda
    dfs
    코딩테스트
    자료구조
    리눅스
    Python
    Linux
    백준
    pytorch
    CL
    domain adaptation
    백트래킹
    NLP
    til
    Incremental Learning
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
당니이
[TIL] torch.distributed.DistBackendError: NCCL error, Internal check failed 에러 해결하기
상단으로

티스토리툴바