双活架构设计必读的10篇深度文章_互联网+_

又是一个“融合”(融合国庆和中秋)节假日，不过知足了，春节也仅八天假。首先祝大家节日快乐，出行顺心。然后打算给小伙伴们分享点存储相关且值得收藏的内容(或许这是我写的最后几篇有关存储盒子的文章)，同时也把近几期分享的主流厂商存储双活做个梳理和汇总，最后在给大家分享一些相关学习资料。

存储是一门既古老有现代的技术，纵观存储计算经历的一体，分离到融合的变迁，完美诠释了从服务器中来到服务器中去的存储服务思想，从DAS到如今的SDS/HCI最大的不同的就是可靠性和有效性的提升。如同宇宙，诞生于宇宙大爆炸前的一个黑洞或高质量天体，随着星系的演变、诞生和消失后，最终还是要被黑洞所吞噬再次回到起点。这两个风马牛不相及的事情都说明过程的重要性。回到存储，从EMC被收购，HDS被整合到传闻NetApp被收购来看，单纯的存储盒子是玩不动了。数据越来越多的被放在虚拟机、容器和公有/混合云上，未来的存储应该站在云平台上来考虑如何满足Cloudnative应用需求，而不是隔离单独拼存储盒子的性能和容量。应该更加专注数据云上云下流动，数据跨厂商共享，智能运维，服务质量遵从和存储即服务等。未来客户将更加青睐如同PayU和PayG的新商业模式，所以未来云计算的所有属性将被完全赋予存储。但是传统存储盒子自从从大型机上独立出来，在整个漫长发展的过程中，确实给我们带来很多回忆和难以忘却故事，今天还是聚焦分析下数据中心双活部署网络相关要求。

建设数据中心双活需要网络系统、存储系统、计算资源、应用系统等多个系统之间紧密合作才能实现。用户业务系统同时在两个数据中心运行，包括前端的全局负载均衡、服务器前端的负载均衡、服务器集群HA技术，后端的数据库系统和存储系统技术，同时为用户提供服务。

当某个数据中心的应用系统出现问题时，由另一个数据中心的应用来持续提供服务，存储双活只是数据中心双活的其中一部分，物理机和虚拟机的应用部署也也是截然不同，具体参看数据中心双活该如何构建和双活解决方案如何部署“应用”双活。

双活数据中心除了存储双活技术外，最需要考虑的技术因素就是数据中心之间网络互联需求，这些因素主要包括。

组网方式：裸光纤直连或DWDM设备；同一城域内通过城域网的核心层进行互联，不同城域间的DC通过骨干网进行互联；DC存储通过密集型光波复用DWDM或裸光纤进行直连。

集群心跳：集群心跳要求二层网络

虚拟机vMotion：在保持业务连续性的前提下，虚拟机可在跨数据中心间实现动态迁移

广播隔离：广播消息需在数据中心间实现隔离

由于VM需要在两个数据中心间漂移，一般情况要求这两个数据中心都是在一个大二层的物理架构里。

光纤链路直连，弱化距离，与传统网络架构相同；

采用大二层互联，实现大二层网络有多种解决方案。主流的大二层互联技术可关注本号，在底部回复“大二层网络”关键字获取详细资料。

与网络设备解耦，通过软件定义实现数据流的重定向，其原理就是VPN，底层网络只要IP可达，不管是在同一个VLAN还是不同的VLAN，通过再次封装，实现全新统一的隔离域，同时摆脱了VLAN数量的限制。

数据中心互联网络一般采用光纤互联。对于大于25km的光纤链路，需要增加DWDM波分设备，用于提高带宽降低时延。DWDM对于数据传输的时延起着关键的作用。

数据复制通过存储实现，所以存储层双活网络时延的限制需要格外关注，要保证两地业务数据的同步复制，就目前的技术水平来看，两地双活数据中心最远支持100km。HDS宣传GAD双活实际部署距离支持500km，测试发现距离每增加100km，时延大约增加1ms。实际上双活距离一直都不是问题，主要看网络时延和误码率，以及应用对RTT时延要求和容忍度。如果当距离超过了500km时，其应用能容忍5ms以上的时延，那所有的问题都不是问题。

当然，数据中心双活除了网络，还要关注其他因素，这些因素我先大致列出来，等国庆过完了再给小伙伴们逐一分析解释。

脑裂风险问题：如何避免脑裂是每个双机系统都要重视的问题，存储双活系统尤其如此，脑裂会带来长时间的存储读写IO HANG住，造成重大影响。

性能影响问题：因为双活系统在写入数据时，会写两次数据，尤其是通过复制功能写到远端存储的过程，传输链路的性能也会影响整体性能。

数据一致性风险问题：当写入数据时，在复制过程中，数据传递是在缓存中进行的，这样做的好处是提升了性能，问题是当出现异常宕机事件时，就会导致缓存内的数据不能写入存储中，从而造成数据的不一致。

双中心间通讯不可控问题：一是链路稳定状况不可控；二是IO延时指标不可控。这些不可控因素非常容易造成灾难性影响，轻则导致数据库读写性能灾难，重则导致数据库节点直接处于僵死状态。另外，链路的不稳定会导致存储链路频繁切换，甚至会导致集群仲裁频繁发生，这对于业务连续性更是一个灾难。

数据同步逻辑错误问题：存储层面的复制技术基本以存储块为单位进行的数据复制，假设数据块发生了逻辑错误，那么存储是无法检测到的，它会继续将坏的数据块儿同步到灾备端，如果因此数据库发生宕机，那么灾备端的数据库也同样无法正常启动。

存储网络故障泛滥问题：两个数据中心的SAN网络打通，整合为一张大的SAN网络，可能会因为局部的存储网络故障而波及到整个存储网络，造成重大影响。

集群仲裁一致性问题：所谓的仲裁一致性问题，是指双中心之间的双活存储集群和数据库集群的仲裁结果是否能保证一致性。当不一致时，对业务系统将造成灾难性影响。

存储多路径控制的策略问题：倘若采用存储厂商自己的多路径，可能存在兼容性问题，很多双活方案采用系统自带多路径缓和这一问题。

架构师技术联盟: 专注技术架构和行业解决方案，构建专业交流平台，分享一线技术实践，洞察行业前沿趋势，内容覆盖云计算、大数据、超融合、软件定义网络、数据保护和解决方案，关注即可免费下载本号技术原创资料。

<相关阅读>

深入剖析SVC Stretch Cluster双活方案

深入剖析Clustered Metro Cluster双活方案

深入剖析PowerHA/SVC HyperSwap双活方案

深入剖析HAM/GAD双活方案方案

深入剖析VIS/HyperMetro双活方案方案

深入剖析Vplex双活数据中心存储方案方案

深入剖析SRDF/Mtreo和MetroSync双活方案

深入剖析HPE、Dell和Fujitsu双活方案

请搜索“架构师技术联盟”关注WeChat公众号，获取更多精彩内容。阅读量又能说明什么，只专注做一个有情怀的技术分享平台。返回搜狐，查看更多

责任编辑：