Debugging

[Debugging]Parseq RuntimeError: NCCL error Call to CUDA function failed

moonzoo 2023. 1. 3. 14:38

OCR 대회를 진행하면서 Parseq 모델을 사용하면서 여러가지 Error를 접하게 됐습니다.

https://mz-moonzoo.tistory.com/6

 

https://github.com/baudm/parseq/blob/main/train.py

 

GitHub - baudm/parseq: Scene Text Recognition with Permuted Autoregressive Sequence Models (ECCV 2022)

Scene Text Recognition with Permuted Autoregressive Sequence Models (ECCV 2022) - GitHub - baudm/parseq: Scene Text Recognition with Permuted Autoregressive Sequence Models (ECCV 2022)

github.com

parseq의 train.py를 실행시키는 과정에서 

RuntimeError: NCCL error in: ../torch/csrc/distributed/c10d/ProcessGroupNCCL.cpp:45, unhandled cuda error, NCCL version 21.0.3 ncclUnhandledCudaError: Call to CUDA function failed.

 

CUDA GPU with CUDA capability sm_86 is not compatible with the current PyTorch installation. The current PyTorch install supports CUDA capabilities sm_37 sm_50 sm_60 sm_70.

CUDA 관련 에러가 발생했습니다.

 

이 경우 자신의 cuda 버전과 pytorch 버전때문에 발생하는 문제로 확인했습니다.

 

https://pytorch.org/get-started/previous-versions/

 

해결방법은 nvcc -V를 통해 자신의  Cuda 버전을 확인하고 그에 맞는 pytorch, cuda toolkit을 재설치 해주면 됩니다.

저의 경우 pip install torch==1.10.0+cu111 torchvision==0.11.0+cu111 torchaudio==0.10.0 -f https://download.pytorch.org/whl/torch_stable.html 로 설치를 진행해 이 문제를 해결했습니다.