OCR 대회를 진행하면서 Parseq 모델을 사용하면서 여러가지 Error를 접하게 됐습니다.
https://mz-moonzoo.tistory.com/6
https://github.com/baudm/parseq/blob/main/train.py
parseq의 train.py를 실행시키는 과정에서
RuntimeError: NCCL error in: ../torch/csrc/distributed/c10d/ProcessGroupNCCL.cpp:45, unhandled cuda error, NCCL version 21.0.3 ncclUnhandledCudaError: Call to CUDA function failed.
CUDA GPU with CUDA capability sm_86 is not compatible with the current PyTorch installation. The current PyTorch install supports CUDA capabilities sm_37 sm_50 sm_60 sm_70.
CUDA 관련 에러가 발생했습니다.
이 경우 자신의 cuda 버전과 pytorch 버전때문에 발생하는 문제로 확인했습니다.
https://pytorch.org/get-started/previous-versions/
해결방법은 nvcc -V를 통해 자신의 Cuda 버전을 확인하고 그에 맞는 pytorch, cuda toolkit을 재설치 해주면 됩니다.
저의 경우 pip install torch==1.10.0+cu111 torchvision==0.11.0+cu111 torchaudio==0.10.0 -f https://download.pytorch.org/whl/torch_stable.html 로 설치를 진행해 이 문제를 해결했습니다.