딥러닝 서버를 운영하다 보면, 어제까지 잘 돌아가던 모델이 아침에 갑자기 GPU를 인식하지 못하는 상황을 종종 마주하게 됩니다. 오늘은 가장 빈번하게 발생하는 두 가지 치명적인 오류, 1. 커널과 드라이버 버전 불일치(API Mismatch)와 2. 도커 컨테이너 내부의 권한 상실(Unknown Error)에 대한 원인과 해결 방법을 정리하고자 합니다. Case 1. 호스트의 nvidia-smi가 안 될 때 (API Mismatch)1. 증상 확인갑자기 nvidia-smi 명령어가 작동하지 않고, dmesg -T 명령어로 커널 로그를 확인했을 때 다음과 같은 에러가 쏟아집니다.$ dmesg -T[Mon Mar 10 02:22:38 2025] NVRM: API mismatch: the client has ..