在设计Kafka持久化存储方案时,如何平衡性能和成本,并提高数据处理效率?

Kafka集群需要足够的硬盘空间来存储消息数据和元数据,也需要一些额外的空间用于缓存、日志和其他系统文件。在设计Kafka持久化存储方案时,特别是在容器云环境下,从那些方面考虑存储选型,如何平衡性能和成本,并提高数据处理效率?如何对Kafka集群的存储空间进行实时监控,如何根据...显示全部

Kafka集群需要足够的硬盘空间来存储消息数据和元数据,也需要一些额外的空间用于缓存、日志和其他系统文件。在设计Kafka持久化存储方案时,特别是在容器云环境下,从那些方面考虑存储选型,如何平衡性能和成本,并提高数据处理效率?如何对Kafka集群的存储空间进行实时监控,如何根据监控情况按需进行无缝扩容?

收起
参与4

返回洪月的回答

洪月洪月企业存储产品规划华为

在容器云环境下性能的影响因素有很多,例如虚机容器相对于裸金属容器就会带来额外的10%-15%的开销,因此从性能的角度,裸金属容器是更好的选择。
回到存储,首先为了保证性能,无论是存算一体还是存算分离都建议使用SSD盘来保证性能。在成本方面,服务器本地盘看似便宜,但因为其相对低的可靠性,一般都需要配置Kafka的三副本来提升可靠性;而使用外置存储时,则可以将数据可靠性交由存储实现,Kafka采用单副本部署,降低成本。另外在测试过程中,我们对比了单副本和三副本的性能,发现减少了副本间的数据同步可以带来性能的2倍以上线性提升。
企业NAS是存放日志和文件系统的最佳选择,可以实现多个节点的共享访问,读写。所以,除了Kafka自身数据的存储建议采用企业NAS外,同时其他数据均可采用企业NAS解决问题。成本的本质控制是看系统性能诉求,可以在全闪存和混合闪存之间进行整体性平衡。
对于存储空间的监控,有两种方式:存储管理员可以在存储的管理界面上通过配置配额、可视化容量管理界面、配额告警、配额调整等方式管理;集群管理员可以通过Prometheus观测存储卷的容量使用情况。

硬件生产 · 2023-05-12
浏览555

回答者

洪月
洪月0614
企业存储产品规划华为

洪月 最近回答过的问题

回答状态

  • 发布时间:2023-05-12
  • 关注会员:2 人
  • 回答浏览:555
  • X社区推广