PyTorch 환경에서 train 할 때, CUDA OOM(Out Of Memory) 에러 때문에 여러개의 gpu로 동시에 병렬적으로 train 하고싶을 때가 있다. 이때는 torch.distributed.launch 를 사용하면 되는데 이는 다음과 같다.
$ python -m torch.distributed.launch --nproc_per_node=2 train.py --launcher pytorch
참고로 위에서 --launcher는 내가 사용하는 code의 argments 중 하나이다!
반응형
'PyTorch👩🏻💻' 카테고리의 다른 글
[PyTorch] mmcv 설치하기 / cuda 버전에 맞게 mmcv downgrade하기 / mmcv._ext error 해결 (4) | 2023.05.19 |
---|---|
[PyTorch] nvcc가 안될 때 ~/.bashrc 수정해 환경변수 설정하기 (1) | 2023.03.27 |
[TIL] OpenPCDet 가상환경 세팅하기 (cuda11.1 + spconv) (1) | 2022.06.10 |
[PyTorch] torch-sparse, torch-scatter, torch-geometric 패키지 install 하기 + 오류 해결 방법 (0) | 2022.04.30 |
[PyTorch] PyTorch Autograd 이젠 공부하자 - pytorch.autograd 총정리하기 (+code) (0) | 2022.02.16 |