HPC自身的调优方面,怎么考虑采用更高速的网络互联、故障检测机制、作业调度策略等方式提升吞吐和效率?

HPC自身的调优方面,怎么考虑采用更高速的网络互联、故障检测机制、作业调度策略等方式提升吞吐和效率?显示全部

HPC自身的调优方面,怎么考虑采用更高速的网络互联、故障检测机制、作业调度策略等方式提升吞吐和效率?

收起
参与8

查看其它 2 个回答强哥之神的回答

强哥之神强哥之神架构师&技术经理上汽集团云计算中心

1、网络方面,是很关键的,我们是采用InfiniBand ,这样可以加速数据传输和通信,降低通信延迟。当然你也可以在硬件层使用RDMA结构,降低CPU负载和网络传输延迟 。
2、故障检测机制方面,上层HPC系统可以通过监控系统、日志系统,利用K8S集群的特性进行。设置调度资源使用率监控、设置状态检测,比如 livness probe, readiness probe等机制。
3、作业调度策略方面,如果是使用的K8S,则可以打些标签,定义一下priority权重,确保高优先级任务能够及时得到执行,而低优先级任务则在资源充裕时执行,以最大化集群资源的利用率。目前HPC有一般有着高效的作业调度系统,如Slurm、PBS Pro、Grid Engine等,我们就是用的PBS Pro,可根据任务的特性和优先级进行合理调度。

互联网服务 · 2024-03-27
浏览179

回答者

强哥之神
架构师&技术经理上汽集团云计算中心
擅长领域: 云计算容器服务器

强哥之神 最近回答过的问题

回答状态

  • 发布时间:2024-03-27
  • 关注会员:4 人
  • 回答浏览:179
  • X社区推广