分布式存储资源池容灾规划?

老师:您好 ,在分布式存储 ,容灾相对传统容灾有什么差别 ?如果需要做两地三中心 ,我们需要怎么去规划?

参与6

2同行回答

haizdlhaizdl技术经理大连
在分布式存储 ,容灾相对传统容灾有什么差别 ? 传统存储容灾,似乎大家更愿意追求存储层基于SAN环境的同步复制,追求同城双活。业务场景上也多数为关系型数据库的结构化数据,无论是应用层还是存储Block层都追求数据强一致性,并发控制非常严格。分布式存储,其生来就与集中式存储的...显示全部

在分布式存储 ,容灾相对传统容灾有什么差别 ?
传统存储容灾,似乎大家更愿意追求存储层基于SAN环境的同步复制,追求同城双活。业务场景上也多数为关系型数据库的结构化数据,无论是应用层还是存储Block层都追求数据强一致性,并发控制非常严格。分布式存储,其生来就与集中式存储的并发控制、数据组织形式、高可用模式等各个方面都有所区别,其适用的场景更多的是非结构化及半结构化数据应用场景,对数据的并发控制要求并不是那么严格。因此它的容灾更多的是异步复制的模式,不限于地域的远近。

如果需要做两地三中心 ,我们需要怎么去规划?
首先分布式存储系统属于整个IT架构当中的一部分,两地三中心架构是基于整体IT架构来做规划的,所以分布式存储系统只是局部一部分,在整体容灾目标的框架下,利用其异步复制和集群算法及适用条件(大集群还是两个集群)要求融到整个框架中。

收起
银行 · 2021-11-12
浏览999
容灾有多种方式,比如基于应用容灾,数据库容灾,基础架构硬件特性的容灾等,越接近硬件底层,容灾的通用性就越强,适配性也就越广,我的理解是您咨询的是基础架构硬件特性层面的容灾,而且不包括备份或者连续数据保护的 CDP 的部分,因为如果包括备份的话就叫灾备了。容灾只是指恢复物...显示全部

容灾有多种方式,比如基于应用容灾,数据库容灾,基础架构硬件特性的容灾等,越接近硬件底层,容灾的通用性就越强,适配性也就越广,我的理解是您咨询的是基础架构硬件特性层面的容灾,而且不包括备份或者连续数据保护的 CDP 的部分,因为如果包括备份的话就叫灾备了。容灾只是指恢复物理设备或者不同物理站点级的灾难。不包括备份恢复逻辑错误,人为错误和病毒感染的部分,因此本次回答只针对基础架构容灾的这一个部分。

虚拟机层面,超融合的容灾与传统方案类似,都是基于虚拟化技术的 HA,遇到灾难时可以实现自动切换。

在存储层面,大体上和传统基础架构的容灾都类似,细节上是有一些不同的。

如传统 SAN 存储的容灾,是需要买两个同厂商同系列的存储,或者借助存储虚拟化的双活设备接到两个存储上,然后数据同时写入两个存储,相当于灾备的安全是两个存储都独立一份同样的数据,数据的复制基于同步或者异步,同步做同城,异步做跨城不限距离的,双活是在同步复制的基础上再做个同时读写和自动切换。以存储双活为例,数据的安全相当于是靠本地的磁盘阵列内的 raid + 跨阵列的数据复制来保护,为了防止脑裂,需要配置仲裁节点,传统架构双活如果主机/虚拟机 HA ,网络冗余,存储双活(靠同厂商的阵列或独立的虚拟化引擎硬件双活),数据库双活(oracle rac)都配置了,总体可以实现 RPO=0(出现机房灾难时数据无丢失),RTO =分钟级(分钟级自动恢复业务运行),但传统双活方案成本较高(专用存储或者存储双活硬件),管理复杂(主机,SAN 交换与存储分开管理和配置),未来升级难(基于存储阵列自身的双活更换存储如果换了其他家的硬件,只能做有风险数据迁移,并且完整购买整套其他厂商的双活相关的存储和存储虚拟化硬件)。

而分布式存储,或者加上了业务主机虚拟化部分的超融合方案是分布式的,存储变成了分布式的存储,因为分布式存储是超融合的子集,超融合包括了分布式存储,所以后面我都是以覆盖范围更广的超融合来进行说明,如果单选择分布式存储,主机/虚拟化层面该怎么做就怎么做,该做 HA 的就做 HA,双活就是主机 HA +分布式存储的多数据副本来实现的,就和使用超融合本身没有什么本质区别了,无非是集成起来更麻烦一点。

以我们 SmartX 的拉伸双活方案为例,两个同城数据中心都放超融合集群,然后通过裸光纤链接,也和传统阵列的双活一样需要仲裁节点防止脑裂(可以是虚拟机),但不需要独立的存储双活的硬件设备了,在实施完双活后,两个同城的数据中心的超融合集群的底层存储会形成一个跨数据中心的统一分布式存储资源池,相当于成为了一套同城的跨地分布式存储(超融合世界主流分布式存储的双活都是这个逻辑),这时数据会分成三份,两份存在主中心(防止少量坏盘就要自动切换至备中心),一份存在同城的异地中心,这三份数据完全是同步复制,没有数据丢失。如果出现了主机房整个瘫痪,虚拟机部分会分钟级的通过虚拟机的 HA 自动切换至容灾机房上的超融合主机上运行,存储则直接拉起容灾机房的数据副本,实现 RPO = 0,即无数据丢失,以及分钟级的 RTO,即出现灾难时分钟级自动恢复业务运行,所以,超融合的可用性,是靠着跨机房的数据副本,同机房超融合的数据双副本(保护等级相当于 raid1 ),以及虚拟机 HA 来保障的。

当然,不管是传统双活方式还是超融合,该做共享卷的做共享卷,两边该做什么虚机就做什么虚机,该部署数据库双活的就部署数据库双活(比如 oracle rac),这一点和传统架构没有区别,需要的链路的类型和带宽,链路距离等要求也与传统容灾方案基本一致。

超融合双活方案成本相对较低(以 SmartX 为例,硬件节点可以用各服务器厂商的服务器,甚至利旧使用服务器,而且超融合集群加节点扩容是业务在线的,不需要停机或者人工数据迁移,就可以小规模起步按需扩展),管理简单(基础架构统一管理),未来升级简单(业务在线换掉旧服务器,加入新服务器即可,数据自动摆放迁移,无需高风险的人工数据迁移),因此从传统容灾方案转型到超融合的也越来越多了,如果一些特别关键的业务,要求更高的 RTO,比如秒级RTO ,比分钟级 RTO 更短,那么客户一般会选择基于应用负载均衡做秒级 RTO 的方案,这个可以由应用厂商提供方案,我们也有这样的第三方合作伙伴能帮助客户实现这样的目标。

容灾还有异步复制,不限物理距离,链路也可以走以太网链路(租用链路)这一点在传统阵列上还是超融合也是类似的,我们SmartX的超融合方案是将快照复制到跨城区的超融合集群来做异步复制的,这里因为篇幅的关系不在赘述。

至于两地三中心(同城双活,异地容灾),该如何规划,看下面这个架构图就理解了,这个架构图不只是包括了两地三中心的容灾,也包括了备份,CDP,甚至包括了虚拟机之间的网络安全管理以及应用级双活的方案。这个架构图中全部的技术(如备份恢复,同城双活,异地容灾,虚拟机东西向网络安全等),我们都可以靠我们自己研发的超融合的相关方案实现,而 CDP,应用级高可用方案,我们也有合作伙伴可以实现,图上的内容较多,若有兴趣,可以约我们进一步进行咨询。这个图是我们超融合在选择了自主研发的支撑金融级业务的免费 ELF 主机虚拟化时的情况,如果我们超融合选择使用了 VMware 主机虚拟化则更简单,一句话就概括了 : “凡是VMware支持的灾备方案,我们全部支持”,原本 VMware 虚拟化的灾备和安全方案和生态就已经很成熟了,就没有必要再单独画一张图了。至于具体的资源池规划到多大,比如超融合集群什么配置,多少个节点等,那就需要我们进一步详细沟通,了解到具体的情况后才确定得了。

收起
软件开发 · 2023-05-12
浏览458

提问者

笑笑
存储架构师华大基因
擅长领域: 存储云计算容器

问题来自

相关问题

相关资料

相关文章

问题状态

  • 发布时间:2021-11-05
  • 关注会员:3 人
  • 问题浏览:1584
  • 最近回答:2023-05-12
  • X社区推广