概述
4 . 主节点安装
建议使用开源的操作系统 Rocks Linux distribution来安装主节点,Rocks 是一个高可定制化,易于安装的适合集群计算的操作系统,它默认安装集群计算组建例如MPI, 安装文档地址如下:Rocks user guide,这里我仅仅罗列下基本的安装步骤:
- 根据第三章的步骤进行基于CD的安装。
- 安装NVIDIA和CUDA的环境包以及工具
- 安装内部网络网卡驱动,具体参考你的网卡厂商
- Nagios® Core™是个开源网络监控应用,当网络出错或者变好的时候,它会根据你的设置而发出告警。 你可以用这里的说明书连接来安装它。
- NRPE Nagios 插件可以让你在远程机器上执行Nagios插件,这样你就可以远程监控资源了,具体安装说明点这里
5. 计算节点的安装
通过一下步骤来安装计算节点的软件:
- 在主节点上,打开一个命令行,输入如下命令:
insert-ethers
- 选择 “Compute Nodes” 要添加的节点
- 将rocks CD作为第一个启动盘,打开计算节点机器的电源,或者你可以执行网络安装也行。
- 计算节点将会连接主节点,开始安装软件
- 安装 NRPE 包,具体说明点这里。
6. 监控和管理
当你把主节点和所有其他的计算节点都安装好,基本上大功告成,只欠东风了。对,使用之前得先在集群上安装监控和管理软件。此小节我将介绍GPU得管理和监控工具软件包。
6.1 GPU系统管理
NVIDIA的GPU驱动包含了也给这个东东:NVIDIA-SMI, 他是一个nvidia的系统管理软件,提供各种GPU系统信息,如下:
- 监控矩阵: GPU 温度, 主机温度;
- 系统信息:固件版本,配置信息。
- 系统状态:风扇状态,GPU故障,电源错误,ECC错误等。
NVIDIA-SMI 支持为任何计算节点进行配置。主要能力如下:
- 默认计算模式:多个主机线程可同时使用GPU设备。
- 排他进程模式:所有进程中只有一个CUDA上下文。
- 排他线程模式:同时只能有一个线程访问设备。
- 禁止模式:不允许创建任何CUDA context.
.
NVIDIA-SMI 也支持对ECC开关设置,不需要ECC的应用可以关闭此开关,以获得更高的内存带宽 。
—未完待续—–
最后
以上就是感动大侠为你收集整理的如何建立一个GPU加速的研究计算集群(二)的全部内容,希望文章能够帮你解决如何建立一个GPU加速的研究计算集群(二)所遇到的程序开发问题。
如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。
本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
发表评论 取消回复