RedHat真是我用过的最垃圾、最恶心的系统。
安装RedHat
下载的iso文件应该为*-dvd.iso
格式,安装时选择最小化安装。
删除磁盘的所有分区,点击+
创建新分区:
/boot
1 GiB/boot/efi
300 MiB/swap
8 GiB,这里还要修改文件类型为swap
/
留空会自动分配剩余空间
安装Nvidia相关的内容
安装gcc
等
配置本地安装源
首先,把之前下载的dvd.iso
挂载到系统中,首先要把iso
复制到/isos/rhel.iso
,然后再挂载。
sudo mkdir -p /isossudo cp ~/Downloads/rhel.iso /isos/rhel.isosudo mkdir -p /mnt/rhel-isosudo mount -o loop /isos/rhel.iso /mnt/rhel-iso
此时ISO内容被挂载到/mnt/rhel-iso
。
然后配置本地仓库文件:
sudo tee /etc/yum.repos.d/local.repo <<EOF[local-baseos]name=Local RHEL 9.2 BaseOSbaseurl=file:///mnt/rhel-iso/BaseOSenabled=1gpgcheck=0
[local-appstream]name=Local RHEL 9.2 AppStreambaseurl=file:///mnt/rhel-iso/AppStreamenabled=1gpgcheck=0EOF
安装gcc
和相关工具
然后进行清理sudo dnf clean all
,然后就可以进行安装了:
sudo dnf install -y gcc make kernel-devel-matched kernel-headers libglvnd-devel
安装Nvidia
驱动
下载Nvidia
驱动
从Nvidia官网下载适合你显卡的驱动,注意选择正确的操作系统版本。下载的应该是.run
文件。然后记得把下载的文件复制到/home
下。
取消默认的驱动
创建文件/etc/modprobe.d/disable-nouveau.conf
:
echo -e "blacklist nouveau\noptions nouveau modeset=0" | sudo tee /etc/modprobe.d/disable-nouveau.conf
更新initramfs
:
sudo dracut --force
然后重启。
安装Nvidia
驱动
使用Ctrl+Alt+F3
登录命令行,然后sudo ./NVIDIA-Linux-x86_64-*.run
安装驱动。重启后使用nvidia-smi
检查驱动是否安装成功。
安装Docker
下载Docker
安装包
从Docker官网下载最新版本的Docker
,下载的应该是.tar.gz
文件。然后记得把下载的文件复制到/home
下。使用sudo dnf install *.rpm
安装所有的依赖包。
然后:
sudo usermod $USER -aG docker # 添加本用户到docker的组中sudo service docker start
安装Container Toolkit
参考网址:https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html
在有网的机器上配置Nvidia
的仓库:
curl -s -L https://nvidia.github.io/libnvidia-container/stable/rpm/nvidia-container-toolkit.repo | \ sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo
然后下载相应的安装包:
sudo dnf download --resolve nvidia-container-toolkit
把下载好的包复制到无网的机器上,然后sudo dnf install *.rpm
安装所有的依赖包。
配置Docker
使用Nvidia
运行时
sudo nvidia-ctk runtime configure --runtime=dockersudo systemctl restart docker
在这里建议重启。
测试
安装完成后,可以使用以下命令测试Docker
和Nvidia
是否正常工作:
从有网的机器上使用docker save -o ./cuda-sample.tar nvcr.io/nvidia/k8s/cuda-sample:nbody
命令下载cuda-sample
镜像,然后把cuda-sample.tar
复制到无网的机器上。
在无网的机器上使用以下命令加载镜像并测试:
docker load -i cuda-sample.tardocker run --rm --gpus all nvcr.io/nvidia/k8s/cuda-sample:nbody nbody -gpu -benchmark