반응형

NVIDIA PCI Vendor ID 로 잡히는 것이 있는지 확인

# NVIDIA Vendor ID : 10de
$ lspci -nn -d 10de:*

lspci update

최신 GPU일 경우 pci id 업데이트가 안되어서 안나올 수 있음.

$ sudo update-pciids

lspci에 Vendor ID 로 잡히는 것이 없을 경우

lspci에서 Veodor ID로 잡히는게 없을 경우 PCI Express 에서 잡히는게 없을 경우, 해당 카드가 인식자체가 되지 않았을 가능성이 있음.

  • 소비 전력 확인 및 보조 전력 확인
    소비 전력이 300W이상인데 그 이하의 적절하지 않은 부족한 전력 연결시, 인식자체가 되지 않는 현상을 확인함.
    올바르게 연결(8 Pin * 2)한 이후 정상적으로 lspci에 리스팅 된 것을 확인할 수 있었음.
반응형
반응형

Unknown runtime specified nvidia 오류

nvidia-driver를 재설치 하거나 처음 설치하고, docker를 runtime 옵션으로 nvidia 설정을 하는 경우 마주하는 경우가 있다.
이 오류는 아래와 같이 나타나기도 한다

docker: Error response from daemon: unknown or invalid runtime name: nvidia.

nvidia-docker2가 설치가 안되어 있을 가능성이 있으며, 설치되어 있지 않을 경우 설치해줄 경우 정상 동작하는 것이 확인된다.

nvidia-docker2 설치 확인

$ dpkg -l | grep nvidia-docker2

nvidia-docker2 설치

$ sudo apt install nvidia-docker2

nvidia gpg key와 저장소 추가

만약 nvidia-docker2를 못찾을 경우 저장소 추가

distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \
   && curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add - \
   && curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list

docker 재시작

$ sudo systemctl restart docker
반응형
반응형

1. Pre 

  • NSight는 NVidia에서 제공하는 Profiling Tool로 성능 최적화 등의 업무에 프로파일링 툴로 사용되기 유용하다.
  • 원격으로 SSH를 제공하기 때문에 Mac에 설치해서 서버에서 Profiling을 동작시키려고 하였으나, 정상적으로 동작되지 않아서 서버에 직접 설치하였다.
  • Site : https://developer.nvidia.com/nsight-systems

2. Download 
    다양한 포멧을 제공하는데, run파일을 이용하여 설치함
    https://developer.nvidia.com/nsight-systems/get-started

3. Execution
    $ chmod +x ./NsightSystems-linux-public-2023.2.1.122-3259852.run
    $ ./NsightSystems-linux-public-2023.2.1.122-3259852.run
    << ACCEPT 및 설치 경로 지정하면 해당 경로에 압축을 해제함 >>

4. Enviornment Setting
  임시적인 것으로 .bashrc 등에 추가하여 부팅시마다 적용되게 할 수 있으며, 실행을 했을 때에 CUDA 버전 관련해여 NSight의 오류 메시지 중에 event_paranoid를 1로 설정하라고 해서 이후에 1ㄹ로 변경하였음(참고)   
   $ echo kernel.perf_event_paranoid=2
   $ echo 2 > /proc/sys/kernel/perf_event_paranoid

5. 실행 후 설정
   실행후에 localhost의 경우 Project에서 별도의 설정없이 localhost connection으로 바로 사용가능
   Remote의 경우 SSH의 설정등을 위한 Network Information을 작성후에 연결 필요

   Target application 부분에 실행 기준 경로와 Command를 작성하면 바로 Start를 눌러 테스트가 가능한데,
   그 하단에 Enviornment vriables의 설정이 필요함. XAUTHORITY, LD_PRELOAD, DISPLAY 등의 설정이 비워져 있으며,
   영상 출력등의 기능이 포함될 경우 오류로 실행이 되지 않는 것을 확인함.
    이럴 경우 Terminal에서 변수를 그대로 입력해주면 정상적으로 동작이 실행되는 것을 확인할 수 있음
    예)
         $ echo $XAUTHORITY
         $ echo $LD_PRELOAD(나오는게 없어서 기본값 그대로 사용함(--> {LD_PRELOAD}:{}
         $ echo $DISPLAY

반응형

'개발, 웹, 블로그 > DeepLearning 상식' 카테고리의 다른 글

CUDA Version 확인 방법  (0) 2023.08.25
nvidia driver downgrade/재설치  (0) 2023.08.07
Cuda driver downgrade  (0) 2023.08.07
반응형

1. nvidia driver matching 버전 확인
 cuda-compatibility 버전 확인(https://docs.nvidia.com/deploy/cuda-compatibility/)

2. nvidia driver 삭제

$ sudo apt-get remove --purge nvidia-*
$ sudo apt-get autoremove
$ sudo apt-get update
$ reboot

3. driver 확인

$ ubuntu-drivers devices

4. Repository 추가 및 driver 설치

$ sudo add-apt-repository ppa:graphics-drivers/ppa
$ sudo apt update
$ sudo apt-get install nvidia-driver-[Version Number]
$ reboot

 

반응형
반응형

최대 설정을 하지 않으면 성능적인 차이를 보임.

다만 실제 사용되는 코어 갯수는 확인을 해봐야함.

코어가 두개만 돌고 있을 경우 NVidia Desktop(GUI)에서 우측 상단에 보면 코어 갯수 설정 모드에서 실제 동작 코어 갯수를 동작 시킬 수 있음

현재 사용되는 코어는 top으로 process 갯수를 확인해도 되고 ,

tegrastats 으로도 확인할 수 있음

$ sudo nvpmodel -m 0
$ sudo jetson_clocks
$ (/usr/bin/jetson_clocks)

 

반응형

+ Recent posts