听说了么?华为存储拿下的第一,再次刷屏。

国际权威存储性能榜单IO500揭晓,华为OceanStor Pacific分布式存储以碾压性的绝对优势,斩获10节点榜第一,并拿下超过13万的综合得分。

虽说存储圈这几年在国际上屠榜不是新鲜事,但厂商们之前往往互相咬死,拉开差距实属难事,但像今年华为这样,竟然轻松刷新了上届冠军的纪录15倍,此前从未出现。

俯瞰全球,是它叹为观止的角逐胜出

与以往个别厂商偶尔巧取一两次排名靠前不同,华为交出的这份成绩无疑是真正强者的实力体现。大众最关心的是这两点:IO500意味着什么?华为数据存储究竟凭什么能以超高分力压国内外实力派存储厂商?

先说IO500榜单,这个在2017年11月被首次提出的高性能计算领域世界级存储排行榜,在每年的美国SC大会和德国ISC大会上都会刷新一次排名。历届榜首如英特尔、DDN等,无一不代表着早期数据存储领域的核心力量与最高水准。

IO500榜单是为全球存储厂商准备的性能争锋“角斗场”,这考验的是货真价实的技术较量。它的绝对权威性,主要在于其跑分的严谨性,以及对应用场景和企业选型的参考价值。

比如,10节点榜单的12项测试,包括IO业务场景的高并发创建、元数据实时查询等等。其将基准性能测试的计算节点限制在10个,评估元数据读写与系统带宽的性能极限,更能反映实际并行规模下存储系统I/O性能的强弱优劣。如此横向一对比,广大企业用户在选择存储产品时就有了参考依据。

I/O性能被用于衡量超级计算机应用效率的透明性,凭借其公正公开的测试套件,能直接避免或屏蔽恶意竞争与国际打压。

再谈谈来自华为的OceanStor Pacific。这款诞生于三年前的产品,可谓吸纳了华为分布式存储十余年研发水平的全部精华。它似乎一直在打破架构、服务和性能的边界,不论是Gartner客户之选上多年屡获殊荣,抑或是在Gartner魔力象限的位次直冲顶峰,又或是IDC报告年度市场排名牢牢把控第一,以及此番傲视群雄的IO500榜单世界纪录……这些无一不证明,在分布式存储领域,华为OceanStor Pacific的时代真的来了。

所谓名不虚传,华为OceanStor Pacific分布式存储有两大优势必须要谈:

  • 一是其场景覆盖无短板。华为分布式存储聚焦的不仅是HPC(高性能计算),而且还覆盖了教育科研、金融、医疗保健、媒体娱乐、交通安全、大数据分析等行业,关键业务的大规模突破已经扩展到了欧洲、中东、拉丁美洲、亚太等地区。
  • 二是综合能力难有对手。从跑分就可以看出,华为分布式存储此次已经把差距彻底拉开,与其他厂商处在不同量级。如果说华为分布式存储的十万多分,交出的是I/O性能的“满分答卷”,那么,还在为上万争得“头破血流”的厂商们,显然不及格。

以高分在世界登顶,华为分布式存储是如何做到的?

踏准趋势,加速数据流动

华为OceanStor Pacific分布式存储,是数字大浪中应时而生的产物。

近些年,随着经济的不断增长,数字时代下的数据量正从PB级向EB级快速演进。无论是政策还是产业,都促使数据呈现爆发式增长。

在政策层面,东数西算、数字经济的提出,让数据成为新的核心生产要素,企业数字化、智能化转型加快了数据的产生和流动。根据IDC预测,到2023年,数字经济产值将占到全球GDP的62%。

在产业层面,千行百业对数字化的依赖显著飙升。勘探行业进入三维视角,数据量因此增加了5-10倍;影视行业的分辨率从2K升级到8K,数据量增长了16倍;卫星测绘行业精度精确至2米,数据量因此增长70倍……还有自动驾驶、基因测序、精准天气预报等领域,都迎来了数据密集型应用的爆发。

数据量的骤增,让存储成本飙升。计算量的猛涨,则对存储系统的存取、传输等能力提出了严苛的要求。

传统的HPC存储在混合负载、成本、跨系统调用等多方面存在缺陷,而突破这些障碍的路径是不断融合高性能计算、大数据、人工智能等技术,向高性能数据分析HPDA(High Performance Data Analytics)的方向演进。

这里面,数据密集型应用涉及的数据,往往具有不可复制性、高流动性、计算高度复杂等特点,这对HPDA领域的数据存储提出了更加苛刻的要求。比如,架构如何设计,才能高效、经济地存取海量数据?在规模扩展场景下,如何最大限度释放数据价值?

登峰造极,熠熠生辉的数据“高速路”

HPDA强调的不是简单的存储系统升级,而是存储设计、运行模式、架构等各个方面的一次颠覆性变革。

华为做到了吗?答案是肯定的。

华为在应用、算法、网存、架构四个层面提速,提供了出色的数据并发处理性能,使存储系统更敏捷,让资源可灵活部署。值得注意的是,这些优势都是基于华为的自主创新,可见华为创新能力之强、技术积淀之深。

在应用层面,华为打造DataTurbo作为联接应用与存储的数据加速引擎组件,内置了自主创新的网卡芯片和HPC、大数据加速套件,具备I/O聚合算法、统一元数据网关、芯片I/O卸载等硬技术,实现应用处理效率的数倍提升。此外,基于计算引擎开启的缓存能力,能显著降低计算侧加载时的资源消耗和时延,实现大数据查询效率60倍的提升。

在算法层面,在科学研究、气象预报、计算模拟、医疗研究等场景中,由于运行的应用算例不同、数据类型不同,相同场景对I/O负载的要求也不尽相同。例如,在AI场景的预处理阶段、训练阶段和仿真阶段,对带宽及IOPS有着不同的需求。

面对这一现状,华为的解决方式是,通过对数据类型和I/O流的智能感知,解决由于CPU算力不足等软件问题引起的IOPS瓶颈,同时解决HPC应用中数据迁移、数据持续增加的问题。

华为具体是怎么解决的呢?从两点解决,一个是OceanStor Pacific采用对大小IO分流处理技术,用一套存储实现带宽、IOPS和OPS性能全优。另一个是通过独创的融合非结构化元数据索引,实现文件、对象和大数据等原生多协议无损互通,一份数据多端调用。

在网存协同层面,如何在存储侧解决网络慢和拥堵的问题呢?华为OceanStor Pacific通过自主创新的网络芯片支持RoCE,同时支持RDMA和IP的访问能力。这样做的好处是,在同时支持带宽、IOPS等不同类型的业务时,智能调节网络的相关参数提供更好的拥塞控制,从而大幅缩短不同大量存储节点间的数据交换时延,实现数据传输和处理的畅通无阻。

再来看看最为关键的架构层面。对于分布式存储而言,硬件架构是骨骼,软件架构是血肉,二者均十分考验厂商的技术累积。在华为融合了高效散热设计、高内聚结构等的全系列超高密硬件之上,运行的是自主创新的全对称分布式软件架构,不仅实现全局负载均衡、提供多级缓存加速等能力,还真正做好了智能IO路径与磁盘管理,避免因长时间运行而导致的磁盘碎片化。

自主创新,走出“王者”之路

从四层加速不难看出,自主创新——是华为分布式存储一贯的思路和态度。

或许有人会问,不是有Lustre开源吗?大家共创共享既能避免重复“造轮子”,又能推动存储技术发展不好吗?

问题在于,如果开源技术本身已经落后,缺乏创新变革,这样的技术对行业而言就是“灾难”,会拖慢行业发展的进度,甚至带偏方向。

虽然Lustre也采用分布式,但它的元数据和文件数据的通讯链路分开管理,需要特殊额外设备的支持,而且分布式元数据服务器管理目前仍无法实现。

与之相比,华为的优势就明显多了。比如,对于Lustre这种非对称架构,达到7对MDS时会因性能瓶颈、网元部件众多而导致IO路径漫长,而华为OceanStor Pacific分布式存储的全对称架构打破了元数据瓶颈,性能可以随容量实现绝对的线性增长,这对数据量激增的高性能计算尤为关键。

在读写上,与Lustre对负载的单一路径读写、覆盖写模式不同,华为OceanStor Pacific采用智能IO路径,让读写找到最佳、最短路径,实现动态混合IOPS性能提升20%。

在数据安全上,HPC在国家尖端科技演进中不可替代,所以基础设施的数据可靠性与业务连续性需要绝对的保障。但Lustre自身无冗余保护,纯粹依赖底层SAN阵列的RAID保护,且软件层存在开源漏洞频发、安全措施薄弱、面临随时断供等风险。而华为OceanStor Pacific具备软硬一体的深度可信协同,满足最大4节点故障时业务仍不中断。

在华为看来,自主创新才是分布式存储的新出路,能让存储实现从“量变”到“质变”的突破。更重要的是,华为有能力进行自主创新。

绝对实力够强,才能真正地一飞冲天

榜单上的高分不是纸上谈兵,在实际案例中,华为OceanStor Pacific分布式存储已经有了良好的应用。

上海交通大学采用它打造超算平台,将原先3个月的计算量缩短至四天;华西医院借助它,让全基因组分析时间从24小时压缩至7分钟;依靠它,东风岚图汽车实现多平台数据调动和海量数据容量存储,将自动驾驶开发效率提升了20%以上。

每一个故事的背后,都是华为分布式存储综合实力的展现,是行业趋势的把握、是对客户场景的理解、更是后续完备的服务等等,这需要时间积累,也需要主动深耕。

显然,华为在全球分布式存储市场上早已成为了一路领跑的先行者,引领业界向前探索,帮助业界看见未来的变革方向。

IO500榜单便是这样一个最直观的体现,相较于那些为了冲榜而送测的企业,华为分布式存储正以一种润物细无声的方式渗透进社会生活的方方面面,如此看来,登顶全球的殊荣便是顺理成章的结果。