HPC自身的调优方面,怎么考虑采用更高速的网络互联、故障检测机制、作业调度策略等方式提升吞吐和效率?

参与8

查看其它 2 个回答强哥之神的回答

强哥之神架构师&技术经理上汽集团云计算中心

1、网络方面，是很关键的，我们是采用InfiniBand ，这样可以加速数据传输和通信，降低通信延迟。当然你也可以在硬件层使用RDMA结构，降低CPU负载和网络传输延迟。
2、故障检测机制方面，上层HPC系统可以通过监控系统、日志系统，利用K8S集群的特性进行。设置调度资源使用率监控、设置状态检测，比如 livness probe, readiness probe等机制。
3、作业调度策略方面，如果是使用的K8S，则可以打些标签，定义一下priority权重，确保高优先级任务能够及时得到执行，而低优先级任务则在资源充裕时执行，以最大化集群资源的利用率。目前HPC有一般有着高效的作业调度系统，如Slurm、PBS Pro、Grid Engine等，我们就是用的PBS Pro，可根据任务的特性和优先级进行合理调度。

互联网服务 · 2024-03-27

HPC自身的调优方面,怎么考虑采用更高速的网络互联、故障检测机制、作业调度策略等方式提升吞吐和效率?

查看其它 2 个回答强哥之神的回答

回答者

强哥之神最近回答过的问题

回答状态

HPC自身的调优方面,怎么考虑采用更高速的网络互联、故障检测机制、作业调度策略等方式提升吞吐和效率?

查看其它 2 个回答强哥之神的回答

回答者

强哥之神 最近回答过的问题

回答状态

强哥之神最近回答过的问题