腾讯云推出25G网卡云服务器。

阿里云ECS企业产品家族网络全面升级至25G。

……

进入2017年,25G网络被提及的更多了。而且与之前各大服务器厂商推出支持25G网络的服务器产品不同,云服务商还有一重身份是用户方,这意味着25G已不再停留在理论层面,而是经过大规模验证、广泛落地的一种技术。

时光倒退几年,恐怕没人会想到25G会收获今日之盛景。那时候,25G还没有标准,IEEE认为万兆(也就是10G)已经够用,下一步可能是40G(其标准早在2010年已经发布)。也就在那时候,Mellanox已经在做25G相关的产品,并迅速得到几家主流公司的认可、有了后来的25G以太网联盟(2014年成立)。2016年IEEE宣布25G以太网标准规范,相当于获得官方认可。

短短三年,25G已成为事实上的网络标准。想必有很多厂商悔恨,同时也成就了很多厂商。比如,凭借敏锐的嗅觉和强大的技术实力,Mellanox成为25G网络市场最大的赢家,几乎占据着90%的市场份额。

Mellanox公司亚太及中国区市场开发高级总监刘通

从25G的发展历程能明显看出两点,一、标准不一定是超前的、满足用户需求的,二、机会留给有准备的人。如Mellanox公司亚太及中国区市场开发高级总监刘通所讲,“Mellanox做25G的时候,IEEE不理解25G的意义,于是我们通过反推,用先进的技术,加上用户的实际需求推动机构接受我们的理念,达成一个更广泛的标准,现在来看我们成功了。”

200G、400G时代正在来临 

明白了这一点,也就理解了为什么Mellanox会在此时就推出200G和400G开放式以太网交换机解决方案——Spectrum-2,要知道绝大部分数据中心连25G还没有普及,依然停留在10G甚至更低。

说简单点,先人一步占领市场。从25G露头到大规模应用,只用了三年时间,200G和400G的广泛落地或许比这时间更短,因为时代变化太快了,且越来越快。

当下是一个数据大爆炸的时代,IDC预测,到2020年,全球将有44ZB的数据产生。可能有朋友对此没有概念?这里给一个参考,2010年,全球数据量刚到ZB级别,其增长速度可以想象。

大量的数据意味着对计算、存储、传输的能力要求越来越高,体现在网络上最明显的一点就是带宽越来越大,从10G、25G、40G、100G,到现在200G、400G。当然,特别指出的是,Mellanox推出的200G、400G产品并非只是愿景,而是能与当前环境进行有机的结合。

据刘通介绍,Spectrum-2具有非常强的灵活性,用户可以把一个400G的端口配置成若干个25G端口。这意味着交换机的扩展性得到了增强,过去一台小的交换机支持48个25G端口可能已经是业界最高密度了,现在Mellanox一台小的交换机就可以支持128个25G端口。

这可以理解为Mellanox 200G和400G产品特性之一,高度的灵活性、强大的扩展性。而这些能力最终会转换成性价比,为用户带来更多网络配置的可能性,满足用户更多的流量类型需求。

其二、开放性,Mellanox一直致力打造的都是开放的网络环境,从两个方面可以看出。首先,Spectrum-2支持用户自定义编程,用户可以根据自己需求开发更多的功能,比如定制他们需要的一些传输协议方式。其次,Spectrum-2兼容各种主流交换机操作系统,包括SONiC、OpenSwitch、snaproute、Linux、MLNX-OS等。

第三,性能。Mellanox产品向来以性能著称。在发布会现场,来自百度云和金山云的两位技术专家都对Mellanox产品的性能给予极高的评价(他们现在采用的是Mellanox 100G的产品)。据悉,Spectrum-2的延迟能比友商低30%。

更多Spectrum-2的特性不再一一赘述。发布会现场,Mellanox展示了与Broadcom产品的主要指标对比,差距一目了然。

智能网络是趋势 

前文讲了这么多,都是数据传输层面的,这其实也是人们对网络功能的一种思维固化,认为计算、分析这些都应该是服务器做的事。难道真的只有服务器能计算、分析?或者说就应该让服务器做这部分工作,其它不能介入?显然不是。事实上,Mellanox在这方面已经有了很多建树。

众所周知,传统架构下,一切事务都是要经过处理器的,处理器就是核心。这不可避免的带来一个问题,当CPU资源不够用的时候它就成为了瓶颈,怎么解决?或许会有人说,换性能更强的CPU。而我想说的是凡事都是有极限的,何况企业还需要考虑成本、复杂性等。

Mellanox的理念是让网络也具备计算能力。这其实跟现在业界的发展趋势非常一致,那就是给CPU减负,专事专做,让适合的工具去解决对应的问题,GPU、FPGA的走红如此,Mellanox智能网络的概念也如出一辙。因此,智能网络的未来毋庸置疑,唯一考虑的是它究竟能帮CPU分担多少。

从现阶段看,Mellanox智能网络的精髓主要体现在“卸载”两个字上,包括VXLAN协议、存储协议的卸载等,把原来必须CPU做的一部分事情剥离出来,由网络设备完成。这样带来的好处是显而易见的,比如解决了明显的瓶颈问题,使得整体计算效率提高、延迟降低。Mellanox实际测试,将传统架构改造为新型的以数据为核心的、具备网络内计算功能的架构,典型的HPC/机器学习应用通信延迟能从30-40微秒降至3-4微秒。

与此同时,通过引入新的传输协议RDMA,替换原有的TCP,也使得数据的传输效率大大提高。实际测试显示,基于Mellanox RDMA构建的深度学习平台TensorFlow性能是等同条件下TCP的2.5倍。同样的,在百度PaddlePaddle平台,这一数据也得到了验证,使用Mellanox RoCE(RDMA over Converged Ethernet,以太网环境下的RDMA)构建的网络,训练速度提升两倍。

带宽、性能、延迟、灵活性、扩展性、开放性等,这些传统网络关注的指标,以及智能化等新时代下会越来越受到关注的特性,构成了Mellanox对未来以太网发展的趋势洞察。

Mellanox算不上是一家太大的网络公司,但它有自己的专注和擅长。唯一能提供从10G、25G到400G所有网络速率的公司,唯一能提供包括芯片、适配器、交换机/网关、NPU/多核、软件、城域/广域网、电缆/模块在内端到端覆盖所有网络速率的公司,唯一一家专注做智能网络设备的公司……

这些品质成就了Mellanox的今天。截止当前,全球六大银行中的5家、前十大超大规模公司中的9家、前十大石油和天然气公司中的9家、前五大制药公司中的3家,前十大汽车制造商全部都是Mellanox的客户。

在引领了25G网络从无到普及这一趋势后,Mellanox正在激活下一个市场。很远吗?其实不远,也许就两三年时间,200G、400G的智能网络时代就将到来,而Mellanox无疑已占尽先机。 ')}