
云计算时代,大量计算、存储资源在服务器之间横向流动。承担服务器与服务器数据传输工作的交换机,自然成了数据中心的“神经枢纽”。
等等,这么说,那万一交换机出故障,数据中心内部岂不是“断网”了吗?服务器和服务器无法对话,上层业务轻则响应变慢,重则中断。
今天,就跟大家揭秘一下,在单个交换机故障时,腾讯云的新一代高性能网络,可以在100微秒内找到新的通路,实现0断链,从而保证上层业务不受影响。
这背后的武器,就是腾讯云自研高性能网络协议——HARP(Highly Available and Reliable Protocol)。
确定性多路径传输、微秒级路径切换
数据中心网络传统采用TCP传输协议,虽然能保证稳定可靠地传输数据,但延时大、占用系统资源高,且采用单路径路由,对网络故障的容忍度低。
为此,行业纷纷基于UDP协议展开新型网络协议的探索。UDP协议虽然速度快,但可能产生“丢包”,不能确保数据百分百送达。
腾讯云HARP协议是如何实现取长补短、青出于蓝的?
通过自研的报文编号方案追踪每个报文的发送和接收状态,HARP以极低开销支持乱序接收和选择性重传,保证了报文的可靠传输。
同时,HARP通过确定性多路径传输和微秒级路径切换,为上层应用提供高可用网络服务。
HARP在每个连接内采用多路径传输,每条路径有独立的拥塞探测能力。
基于自研拥塞控制算法优良的网络控制和感知能力,HARP的路径管理模块会根据路径的拥塞情况进行调度,快速可靠地检测到路径故障,并在100微秒时间内重新探测一条新的可用路径,保证在单个交换机故障时的断链概率为0。
相比起TCP遭遇故障的典型重连恢复时间(约为1s),HARP减少了99.9%。
10000+节点、200Gbps带宽
“高可用”只是解决了服务可靠性的问题。比如腾讯云的云硬盘服务采用HARP后,即使网络发生故障,上层业务仍然可用并且性能抖动小。
同时,HARP也通过共享连接、软硬件分层、自研拥塞控制算法等技术设计,应对数据中心应用规模和需求不断发展带来的挑战。
·高可扩展
HARP通过共享连接大幅减少连接数量,实现高度的可扩展性,轻松支持10000+节点的大规模组网。
具体方式上,HARP支持裸连接、云服务器级共享、物理服务器级共享等粒度的连接模式,用以满足裸金属云服务器、云服务器、云硬盘、高性能计算(HPC)等多种业务环境的使用需求和大规模组网要求。
·高带宽
HARP采用软硬件分层的事务层和可靠传输层设计,分工明确:硬件负责需要高效和可靠传输的报文级事务;软件部分则提供高度灵活、贴合业务特性需求的消息处理,而不占用昂贵的硬件资源。
最终,HARP可以支持在10K+节点的网络规模的业务中,提供200Gbps的最高性能输出,对于AI训练、键值存储、分布式大数据应用等场景具有独特价值。
·低延时
HARP采用自研的拥塞控制算法PEAD,精确地感知网络拥塞,在维持高吞吐的同时,保证网络流的通畅。
相较于TCP,HARP消息完成时间的中位数降低了35%,同时保证99%数据包的网络排队时延降低90%。
目前,HARP已在腾讯云的块存储等具有核心需求的场景上落地,并将逐步覆盖其他业务。未来,HARP结合腾讯自研银杉智能网卡及玄灵芯片的硬件能力,将打造成为腾讯云的数据中心高性能传输底座。
相关推荐: Amy聊跨境:欧盟税号最新通知!奥地利&西班牙&法国税号热门问题
欧盟7.1新税改后,针对跨境电商企业税号注册所产生的变化如下表: 最近很多卖家都在关心的问题:税改之后,奥地利的VAT税号还需要上传亚马逊吗? 我们得到确认:不用上传,但是税号下了建议不要注销,未来如果再重新注册肯定会产生成本,另外以后想注册可能会注册不下来。…
码刀科技(www.lekshop.cn)是国内知名企业级电商平台提供商,为企业级商家提供最佳的电商平台搭建(多种模式电商平台搭建:B2B/B2B2C/B2C/O2O/新零售/跨境等)、平台管理系统开发及互联网采购解决方案服务, 联系客服了解更多.