HPC自身的调优方面,怎么考虑采用更高速的网络互联、故障检测机制、作业调度策略等方式提升吞吐和效率?
收起1、网络方面,是很关键的,我们是采用InfiniBand ,这样可以加速数据传输和通信,降低通信延迟。当然你也可以在硬件层使用RDMA结构,降低CPU负载和网络传输延迟 。
2、故障检测机制方面,上层HPC系统可以通过监控系统、日志系统,利用K8S集群的特性进行。设置调度资源使用率监控、设置状态检测,比如 livness probe, readiness probe等机制。
3、作业调度策略方面,如果是使用的K8S,则可以打些标签,定义一下priority权重,确保高优先级任务能够及时得到执行,而低优先级任务则在资源充裕时执行,以最大化集群资源的利用率。目前HPC有一般有着高效的作业调度系统,如Slurm、PBS Pro、Grid Engine等,我们就是用的PBS Pro,可根据任务的特性和优先级进行合理调度。