01

60多年前,世界上第一台硬盘问世时,不知道他们是否可曾预料到今天的硬盘那么能装。请注意,是台不是块。IBM Model 350,世界上第一台硬盘,由50块24英寸的磁盘构成,总容量不到5MB,体积却是两台冰箱的大小。而今天,单块硬盘的最大容量已经逼近20TB,体积却只比手机大一些。

在半个多世纪的发展进程中,存储的进步看在眼里,从磁盘一直到SSD,脱胎换骨的变化就有很多次。毫无疑问,作为重要的基础技术组成,它和计算、网络等为推动近代的几次信息技术革命发挥了巨大的作用。

但同时一个不可否认的事实是,在共同进步的过程中,存储掉队了,近些年表现尤甚。当摩尔定律式微,我们看到了计算技术的百花齐放,ARM、GPU、量子计算……同样的,网络短短几年间就从1G到10G,现在100G算不上新鲜事,400G已经在路上。反观存储,从HDD不断提高转速、加大容量,到SSD的出现,提升也很可观,但一和计算、网络比就会发现问题。

木桶理论中,一只水桶能装多少水取决于最短的那块木板。计算、网络跑的快,存储必然拖后腿。云时代,这种差距体现的更明显。你能想象SSD云盘的性能远不及本地SSD吗?换句话说,SSD带来的存储性能变革在云上基本没有体现。在云代表着未来的大背景下,这显然是不能接受的。

存储亟待一次大的创新,来抹平与计算、网络之间的差距,特别是云上存储。

02

我们正进入一个数据井喷的时代。多年前,我们畅想车联网、医院联网、工厂联网……一切联网。今天,在5G的助推下,AIoT时代正在加速到来。而随着新时代的到来,首先必须面临的一个难题就是大量数据如何解决。

有多大?IDC去年发布的《世界的数字化 从边缘到核心》调研报告指出,全球数据量将从2018年的33ZB增至2025年的175ZB。

如何解决?把这些数据存起来倒并不难,毕竟硬盘容量越来越大。但存储不是目的,数据的价值在利用,越用越有用,这对存储系统的要求就更高了。数据得保证安全、可靠,同时要保证可用,需要的时候不掉链子,另外性能还得好、性价比要高……

当把所有这些用户需求和市场上的产品做对比时,会发现中间存在一个断档,本地SSD盘性能还可以,但是安全性、可靠性、性价比有待商榷,云盘在后几个方面表现的还不错,但性能是最大的瓶颈。

用户要的是能兼顾各个维度需求的产品,于是我们能看到存储创新的两个大方向,一个是本地存储系统不断改善安全性、可靠性、性价比,一个是云上存储不断提升性能。

因此归根结底,存储亟待一次大的革新,表面原因是它落后于计算、网络技术的发展,根源则在于存储技术已经跟不上用户需求的变化。

03

阿里云是引领此次存储变革的中坚力量之一。可能此前,业界更多关注的是阿里云针对AIoT领域发布的芯片(平头哥玄铁910),抑或是物联网操作系统Alios Things。

但殊不知,阿里云在去年年初还同期推出了业界首个百万IOPS、百微秒延时的ESSD(增强型SSD,也可理解为企业级SSD),只不过较长一段时间内其都处于测试、完善的状态,并没有太多亮相。直到今年6月28日,阿里云正式宣布ESSD商用,我们才关注到原来ESSD已经有那么多应用。

简单将ESSD和芯片及物联网操作系统做个类比,如果说阿里云的芯片和物联网操作系统在业界还有很多可以对标的产品,那ESSD可以说一骑绝尘,用惊艳来形容一点不为过。

这里举一个友商产品的参数做对比,其增强型SSD云盘是从2.4万IOPS提升到了20万IOPS,而阿里云则是直接从2万提升到了100万,差距之大显而易见。

由此也就不难理解为什么业界会如此评价阿里云ESSD,说阿里云打破了存储行业多年的瓶颈。同时也不难想象,一场关于存储的军备竞赛很快就将上演,阿里云将成为所有厂商的对标标的。

阿里巴巴研究员、阿里云智能存储产品资深总监Alex Chen

之所以这样说,是因为还有一个非常残酷的现实。根据IDC预测,到2020年,公共云存储量将超过个人设备总存储量;2022年,公共云存储量超过企业数据中心总存储量;2025年公共云存储量占有50%总存储量。落后意味着没有未来。

04

阿里云ESSD是如何做到远超业界水准的?

如果我说,阿里云ESSD首次采用智能分布式元数据管理方式,突破集群管理的能力边界;在业内首次将存储软件与SSD融合设计用于云存储场景;重新定义了新型的芯片和硬件;开发了新的网络协议……

你可能会觉得阿里云很牛,但其实没有什么直观印象。但如果借用阿里巴巴研究员、阿里云块存储产品资深研发总监朱家稷的表述,相信你马上就能明白ESSD背后的秘密,核心在于强大的盘古2.0分布式存储引擎。

演讲中,他讲了一个很形象的对比,如果我们想培养一个世界级的运动员,可能会关注三方面,一是希望他有非常好的身体素质,速度、反应、耐力、力量都是一流的;二、教会他这个项目的所有技巧,能够让他很好的协调自己的身体,发挥最大的潜能;三、把他带到各种世界级的大赛去磨练。

阿里云打造盘古2.0也是遵循这样的思路,首先重新定义存储的网络和硬件,相当于一个强健的体魄;其次,算法、架构不断优化,使其能够处理、应对各种突发事件;最后,把它放到阿里巴巴的各种应用场景里,后者拥有世界最顶级的赛场。

05

进一步把阿里云的创新重新梳理一遍,逻辑就很清晰了。

硬件层,将存储软件与SSD融合设计;重新定义新型的芯片和硬件,比如在存储芯片方面,自研Aliflash SSD,通过开放接口的方式进一步提升存储系统效率,再比如自研神龙服务器,通过MoC 卡提供 IO虚拟化的硬件卸载,持续加速存储和网络IO;开发新的网络协议……

这里着重讲一下网络方面,存储的性能和很多因素有关,而网络绝对算得上关系最密切的一个,网络的速度、稳定性对存储都会造成巨大的影响。

速度层面,存储网络从10G、25G,再到100G,以及即将到来的400G,发展很快。相较之下,稳定性有些落后。为此阿里云自研用户态TCP Luna,发展增强型的RDMA数据传输协议,使高性能网络系统稳定性大增的同时,还提升了IO性能。

另外,在向100Gbps演进的过程中,阿里云首创HPCC高性能流控算法,对于保障网络的稳定性和性能的一致性有非常大的帮助。值得一提的是,这一算法核心思想还在2019年的 SIGCOMM上得到发表。

软件层,阿里云在算法和架构方面加入了很多创新,比如智能预测的技术,通过分级的智能调度,借助微妙级的多流映射QoS,能够预防硬件的瞬时故障,实现快速发现、快速隔离,保证系统的可靠性、可用性。

经过改造,然后把盘古2.0投入阿里巴巴这个大的练兵场,每年的双十一就是最好的锻炼机会。

最终,成就了盘古2.0,也成就了ESSD。如果细数每一项革新,看起来都比较细微,可能只是比原来好一点,但这么多创新加起来,效果就不能再用加法衡量,而变成了乘法。50倍的性能提升,不是一点点改变就能实现。

06

虽然正式宣布商用才1个多月,但ESSD的增长是惊人的。据阿里巴巴研究员、阿里云智能存储产品资深总监Alex Chen介绍, 60%的阿里云头部客户在使用ESSD,截至当前,ESSD的存储规模已经达到100PB。一个了不起的成就。下面举几个具体的应用案例,看看ESSD能带来什么提升:

全球领先的游戏直播分析平台,在核心业务日志场景下全面使用ESSD云盘,降低业务时延90%;
全球第一的港口机械行业领导者,在SAP HANA上云关键业务中,全面使用ESSD云盘,提升性能300%;
亚洲领先的社交网络公司,在弹性扩容场景下,ESSD提升业务峰值性能300%;
国内领先的互联网货运调度平台,在核心订单系统、日志系统及容器场景下,全面使用ESSD云盘,提升关键业务数据库性能100%;
国内领先的创新型金融科技公司,在分析业务应用中使用ESSD作为TiDB的核心存储,相比本地盘方案可靠性提升1万倍;
这样的例子还有很多。据悉,ESSD已经大规模应用于数据密集型行业,包括自动驾驶、电商交易、互联网直播等领域,并且还在快速扩展至更多行业、更多客户。

阿里云提速的不仅仅是这些使用ESSD的应用场景,以及这些客户的业务效率,阿里云更是在提速整个存储行业的发展。