CUDA 6

[Docker] 서버와 도커에서 GPU가 안 잡힐 때: API Mismatch & Failed to initialize NVML: Unknown Error 해결법

딥러닝 서버를 운영하다 보면, 어제까지 잘 돌아가던 모델이 아침에 갑자기 GPU를 인식하지 못하는 상황을 종종 마주하게 됩니다. 오늘은 가장 빈번하게 발생하는 두 가지 치명적인 오류, 1. 커널과 드라이버 버전 불일치(API Mismatch)와 2. 도커 컨테이너 내부의 권한 상실(Unknown Error)에 대한 원인과 해결 방법을 정리하고자 합니다. Case 1. 호스트의 nvidia-smi가 안 될 때 (API Mismatch)1. 증상 확인갑자기 nvidia-smi 명령어가 작동하지 않고, dmesg -T 명령어로 커널 로그를 확인했을 때 다음과 같은 에러가 쏟아집니다.$ dmesg -T[Mon Mar 10 02:22:38 2025] NVRM: API mismatch: the client has ..

개발/Docker 2026.02.03

[AI Tech] NVIDIA CUDA 13.1 + CUDA Tile (Python) 공개

GPU 병렬 프로그래밍도 더 이상 하드웨어 중심으로 고민하지 않아도 된다고 합니다. 그동안 SIMT 구조에서 Thread 단위로 커널을 깎느라 고생했는데, 이제 데이터를 '타일' 단위로 추상화해 다룰 수 있게 됐습니다. 데이터를 개별 요소가 아닌 '타일(Tile)' 단위로 추상화해서 텐서 코어(Tensor Core)나 TMA 같은 하드웨어 제어를 컴파일러에게 맡기는 방식입니다. 그리고 파이썬으로 이를 구현가능하다고 합니다. 기존에는 c++로 작성된 쿠다를 건드릴 엄두도 못냈는데, 이 릴리즈가 새로운 전환점이 될 수 있을 것 같습니다. https://developer.nvidia.com/blog/focus-on-your-algorithm-nvidia-cuda-tile-handles-the-hardware ..

AI Tech 2025.12.08

[Linux] Ubuntu 서버에 Docker와 NVIDIA Container Toolkit 설치 방법(GPU 활용)

0. 서론 및 목표 : 최근 AI 및 LLM 연구/개발 환경은 Python 라이브러리, CUDA 버전, 시스템 의존성 등이 복잡하게 얽혀있습니다. 이러한 의존성 문제에서 벗어나, 격리되고 재현 가능한 환경을 구축하는 가장 효율적인 방법은 Docker를 사용하는 것입니다. 하지만 기본 Docker는 CPU와 메모리만 인식할 뿐, NVIDIA GPU의 존재를 모릅니다.이 포스트에서는 Ubuntu 서버에 Docker 엔진을 설치하고, NVIDIA Container Toolkit을 연동하여 Docker 컨테이너가 호스트의 GPU 리소스를 활용할 수 있도록 설정하는 전 과정을 작성하고자 합니다. Ubuntu에 Docker 공식 리포지토리를 사용하여 최신 Docker Engine을 설치합니다.NVIDIA GPU를 ..

개발/Linux 2025.11.10

[Linux] RHEL Python 개발 환경 세팅(Nvidia-Driver, CUDA, cuDNN, Anaconda)

https://mz-moonzoo.tistory.com/112 [Linux] RHEL(Red Hat Enterprise Linux) 9.x설치 방법RHEL 설치 가이드실제 운영 환경에 변경 사항을 적용하기 전, 운영 환경과 동일한 테스트 환경을 구성하여 사전 검증을 진행하는 것은 안정적인 시스템 운영의 핵심입니다. 예를 들어, 이미 여러mz-moonzoo.tistory.com지난 글에서는 Red Hat Enterprise Linux를 설치하고, 시스템을 Red Hat에 정식으로 등록하여 dnf 저장소를 활성화하는 전 과정을 완료했습니다. Development Tools까지 설치되면서, 이제 우리는 gcc, make 등 기본 컴파일 도구까지 갖춘 RHEL 서버를 확보했습니다. 하지만 이 서버를 AI 모델 ..

개발/Linux 2025.11.10

[Environment] NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver 에러 해결 방법

상황 테스트 환경으로 Titan XP가 달린 우분투 서버를 사용하고 있는데, 이 서버에서는 드라이버 문제가 종종 발생해서 nvidia-smi를 입력하면 "NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver." 에러가 출력됩니다. 오류 발생 원인해당 에러는 nvidia 드라이버를 사용하는 딥러닝 프로세스를 종료하지 않은 채로 서버의 전원이 꺼지거나 시스템 종료하는 경우에 많이 발생한다고 하더라구요. 그랬었나 싶기도하고...ㅋㅋㅋ 이외에도 다음과 같은 문제로 인해 발생할 수도 있습니다.드라이버 미설치 또는 손상: NVIDIA 드라이버가 시스템에 설치되지 않았거나 손상.드라이버 버전 불일치: 설치된 드라이버 버전이 현재 사용..

Environment 2025.02.05

[Debugging]Parseq RuntimeError: NCCL error Call to CUDA function failed

OCR 대회를 진행하면서 Parseq 모델을 사용하면서 여러가지 Error를 접하게 됐습니다. https://mz-moonzoo.tistory.com/6 https://github.com/baudm/parseq/blob/main/train.py GitHub - baudm/parseq: Scene Text Recognition with Permuted Autoregressive Sequence Models (ECCV 2022) Scene Text Recognition with Permuted Autoregressive Sequence Models (ECCV 2022) - GitHub - baudm/parseq: Scene Text Recognition with Permuted Autoregressive S..

Debugging 2023.01.03