除了在HPC平台节点上部署Zabbix、Prometheus等监控软件进行资源利用的监控外,也需收集HPC集群的日志和事件,进工作行负载评估,资源利用分析。
HPC平台会产生大量的日志和事件数据,记录了系统的运行状态和操作历史。这些数据经过清除后,可以进行系统性能、资源利用情况和故障排除。通过日志分析工具如ELK(Elasticsearch、Logstash和Kibana)可以对日志数据进行集中管理、搜索和可视化,以便了解系统的运行情况,和硬件资源的情况
也可以通过性能分析工具来评估工作负载与硬件之间的匹配情况,这些工具可以帮助检测性能瓶颈和优化方向,例如,Intel VTune、AMD ROCm Profiler、Allinea MAP等工具提供了对应用程序的性能分析和调优功能,可以帮助识别瓶颈,并提供优化建议。