4月20日,一年一度的NAVIGATE领航者峰会在云上开启,本届峰会以“智·变”为主题。6天33个专题120+场演讲,紫光集团及旗下新华三集团携客户、合作伙伴完整呈现了一个正在“智·变”的世界。各种智能化技术的应用,让我们看到了智慧的更多可能性。英特尔将助力新华三在科技创新的路上,持续为百行百业提供优质的解决方案,共论“智·变”之道,共启“智·变”之旅。

本文来讲讲新华三网络的“智·变”。

网络亟需智能化

数据中心网络近些年最大的变革莫过于软件定义网络(Software Defined Network,SDN)的诞生,其通过使控制面与数据面分离,让网络具备了更高的敏捷性、可扩展性和可编程能力,在大幅提升网络自动化水平的同时,有效降低了用户在网络部署和运维方面的压力。

正因为此,短短几年,SDN就获得了广泛的应用,成为企业级用户部署和配置网络服务的重要选择。

不过,好景不长。随着用户业务与网络服务绑定的更为紧密,企业级网络应用规模的不断扩展,特别是在大规模云数据中心这种复杂度高、调整频繁的应用场景中,即便拥有自动化辅助手段,用户的运维和成本压力依旧很难真正缓解。

以企业园区为例,网络服务不仅要满足日常办公应用,还需为生产制造、移动办公、视频会议等不同应用、不同质量要求的场景提供支撑,这意味着网络要像服务器、存储一样随时满足业务需求的突然变化,峰值要增加资源,谷底要减少。显然,仅自动化是不够的,网络需要更智能化。

网络智能化背后,有什么秘密?

为了满足用户的实际需求,新华三于2019年推出了更具智能化属性的先知网络架构(Seer Network Architecture,以下简称SNA),并以此为基础开发数据中心网络产品解决方案。短短一年间,该技术已在众多用户部署应用,反响热烈。以山东大学为例,通过部署SNA方案,问题定位从小时级提至分钟级,网络维护工作量减少了80%。

今年,新华三对SNA再次进行了升级,嵌入了智能分析器和智能控制技术,也就是说网络智能化程度再获提升。

SNA的原理是什么?

简单来说,SNA的核心在于能够通过“感知-分析-决策”模式,将丰富的网络运维数据通过人工智能(Artificial Intelligence, AI)的训练和推理过程,转化为更优的网络策略,进而帮助最终用户有效提升网络智能分析和业务编排能力,降低成本。

具体来说,SNA架构如图一所示,其由先知服务中心、先知分析器(SeerAnalyzer)以及网络控制器(SeerEngine)三大模块组成。

其中,先知服务中心作为网络智能管理、控制和编排的核心,不仅可根据用户的业务需求实现智能编排、业务协同和资源调度,更能汇总各个网络设备的数据,在其内部AI平台中进行建模、评估、训练和调优,并形成一系列智能网络模型供调用。

网络智能化背后,有什么秘密?

图一、SNA整体架构

如果把先知服务中心比作SNA的“大脑”,那么先知分析器和网络控制器就是SNA的“手和眼”。通过Telemetry等毫秒级采集技术,先知分析器可从网络基础架构中感知和采集各类数据,并经清洗、抽取、转换等处理过程,上传到先知服务中心中。

经过先知服务中心训练和调优的模型,在云端或先知分析器中进行AI推理后,可形成有效的自动化网络部署和调优策略。而网络控制器则会根据这些策略,以可编程的方式对网络基础架构实施管理,包括实现业务的自动化部署,网络资源的最优路径调度,以及网络故障的预测告警和快速排除等。

大脑、手、眼协同配合,让网络变得更智能。目前,SNA已经能为用户提供20余种智能网络算法以及100多种网络状态洞察方法。

智慧背后的强力支撑

讲到这里,必须提到为SNA提供强大算力支持及多种训练模型优化方案的英特尔。众所周知,由交换机、路由器、无线AP等各类基础设备构成的网络中,各种事务日志、易损件状态、异常告警等信息是巨量的,如果不能有效的处理,这些数据基本等同于没用,而处理这些数据需要强大的算力。

正如新华三AI研究院院长敖襄桥所说,“SNA通过AI技术实时感知网络状态,基于网络数据分析实现自动化部署和风险预测,从而让网络能更智能、更高效地为最终用户业务提供支撑。通过引入第二代英特尔至强可扩展处理器以及面向英特尔架构优化的TensorFlow,SNA的AI训练能力获得了大幅提升,让企业网络在应对复杂业务场景时更加游刃有余。”

究竟提升有多么明显?新华三联合英特尔进行了一系列面向实际应用场景的测试。下面就以DNS隧道检测模型为例,展示一下提升后的效果。

作为网络应用中重要的基础协议之一,恶意程序经常会利用域名系统(Domain NameSystem,DNS)请求时形成的DNS隧道来对网络实施攻击,例如将数据封装在DNS请求数据包中,从而绕开内外网隔离等防御措施,造成企业内网的关键信息被透传。

由于这类恶意攻击隐藏到了DNS隧道中,因此,如图二所示,常规的网络安全检测方法,例如特征码检测、流量监测、威胁标志(Indicators Of Compromise,IOC)检测等都难以对其发挥作用。针对此,新华三以海量DNS请求报文为基础,在SNA Service Center中构建基于长短期记忆网络(Long Short-Term Memory,LSTM)的DNS隧道检测模型,来帮助用户提升网络安全等级。

网络智能化背后,有什么秘密?

图二、 基于LSTM的DNS隧道检测模型

作为递归神经网络(Recurrent Neural Networks,RNN)的重要衍生模型,LSTM可以通过3个特别的“门”结构设计,来大幅提升模型的记忆时长,因此特别适用于DNS请求这类典型的时序性数据。其可以围绕一段时间内的黑白名单数据集中正常和恶意请求的不同特征,例如主机名、DNS名称、特定字符等,来预测新的请求中可能面临的安全风险。

显而易见,更长的时序特征提取、更复杂的门结构,意味着模型在训练和推理中需要更多的计算量。为此,新华三引入第二代英特尔至强可扩展处理器和面向英特尔架构优化的TensorFlow。

网络智能化背后,有什么秘密?

图三、DNS隧道检测模型训练性能归一化对比

对比测试中,两组测试的硬件配置相同,但基准组搭配的是原生TensorFlow,对比组搭配的则是面向英特尔架构优化的TensorFlow。验证测试的黑白名单数据集包含了20000条黑名单样本和30000条白名单样本,并以10000条数据作为测试集。测试结果如图三所示,同一硬件平台,经过优化后,训练性能可提升到基准值的3.2倍。

不止于网络,一切智能化

其实,不仅仅是网络,伴随智能化浪潮来袭,更多企业级ICT设备都在朝智能化方向发展,特别是部署在大型云数据中心内,在运维和管理上同样需要AI助力的设备。

以服务器为例,早在多年前其运维就开始导入可感知其运行状态(包括使用率、耗电量、散热情况以及故障反馈)的遥测技术,以及与之相匹配的“监控-学习-行动-决定“管理机制,而随着AI的一系列应用优势,包括可利用数据训练更好用和实用的管理和策略模型,并在无需或较少人工介入的情况下及时且并发响应不同事件,有的放矢地实施策略等能力在这些设备管理和运维过程中越来越凸显其重要性,将AI方法引入这些ICT设备的管理和运维也成为大势所趋。

实际上,继SNA后,新华三已经开始携手英特尔开展服务器管理方面的智能化探索。

在实际的比对测试中,相同硬件配置下,利用第二代英特尔至强可扩展处理器与面向英特尔架构优化的TensorFlow组合,模型的推理性能可提升至基准值的2.71倍;而在进一步导入并行多实例优化后,模型的推理性能还能在不影响延时的情况下,进一步提升到基准值的10.98倍。

网络智能化背后,有什么秘密?

图四、服务器利用率模型的推理性能归一化对比测试结果

总结全文,测试数据已经说明了一切,第二代英特尔至强可扩展处理器与面向英特尔架构优化TensorFlow的组合带来的提升非常明显。因此,我们有理由相信未来更多ICT设备会采用这样的技术来提升智能化水平,而新华三和英特尔双方也必然会在更多方面展开合作。智·变,在加速。