
♨ 계속 docker container 안에서 Failed to initialize NVML: Driver/library version mismatch 에러 발생 1. 증상 정리- 그냥 컴퓨터의 cuda, nvidia-smi는 멀쩡함- 도커 컨테이너에서 gpu 실행 후 갑자기 gpu 접근이 안 되면서 모든 프로세스 종료됨- 도커 컨테이너가 중단되거나 그러지는 않음 (딱 gpu만 안 되면서 gpu 사용 불가)- 컨테이너 여러 개에서 동시에 gpu 안 됨- 도커 컨테이너 restart 하면 바로 다시 gpu 잡히지만, 다시 도르마무- gpu 돌려놔도 계속 꺼지는 이슈가 있고, 매번 컨테이너를 재시작할 수 없으므로 문제 해결 시급 2. 해결 방안 (계속 수정 중) 2.1. docker runtime의 cgro..