人工智能的第三次浪潮远比前两次来的更猛烈。

今天再谈人工智能,已不是少数几个大企业的专属话题,而是一个几乎人尽皆知的概念。或许你会说并没有感受到太多人工智能的东西,但殊不知人工智能就在你身边。本文就来讲一个与很多人都密切关联的人工智能改变生活、提升企业运行效率的故事。

故事的主角MasterCard,万事达卡,相信不少朋友的银行卡上都有这个标志。

作为全球领先的支付公司,万事达卡致力为全球消费者提供一个更便利与更有效率的金融支付环境,为超过210个国家及地区的消费者、政府和商户提供服务。在2017年6月公布的《2017年BrandZ全球最具价值品牌百强榜》中,万事达卡以499.28亿美元的品牌价值在百强榜排名排第20名。

这样一家全球领先的金融企业,和人工智能之间擦出了什么火花呢?

推荐系统很重要

简单来说,万事达卡通过和英特尔合作,将人工智能(AI)的能力集成到了业务平台中,使其具备智能化的能力,从而实现对外更好服务客户,对内提升效率的目标。这其中,最典型应用的当属其推荐系统(RS)。

何为推荐系统?推荐系统(RS)是一种信息过滤工具,用于引导用户以个性化的方式从大量可能的选项中发现他们的偏好。它是为许多在线网站和移动应用程序推广销售和服务的关键工具。

有些抽象?举个形象的例子马上就能明白,如今大家打开购物网站,每个人看到的界面都不一样,这就是推荐系统的作用,它会根据个人的喜好推荐一些商品,为的是更好让你“买买买”。

别小瞧推荐系统的作用,数据统计显示,80%在Netflix上观看的电影来自推荐;60%的视频点击来自YouTube上的主页推荐。

换句话说,如果真正把推荐系统做好了、做精了,无论是用户体验,还是自身业务增长都会有明显的改观。

牵手英特尔

把推荐系统做好的难点在哪?核心在于如何给用户精准画像,这涉及到两方面,一是信息收集,二是数据分析。信息收集部分,各大企业都大同小异,所以推荐系统的重要突破点其实在于数据分析层。

目前,业界较多使用的推荐模型大致可分为三类:协同过滤、基于内容和混合系统。在万事达卡推荐系统中,使用的是协同过滤,即通过学习用户商品历史交互,通过显式的(例如,用户先前的评级)或隐式的反馈(例如,购买历史)来提出建议。由于数据约束,在万事达这个用例里面,协同过滤利用隐式数据。

讲到这里,有必要交代一下万事达卡推荐系统的一些背景信息。事实上,很早之前万事达卡就开始做推荐系统,只不过使用的是传统的机器学习。而随着数据的爆炸式增长,传统机器学习已经跟不上时代发展的需要,效率低、自动化程度低……变革已迫在眉睫。

经过一番选择比较后,万事达卡选择了英特尔为合作伙伴。双方基于英特尔AnalyticsZoo开源平台和英特尔至强可扩展处理器打造了全新的推荐系统模型,最大的改观在于从机器学习变成了深度学习。

众所周知,深度学习在性能、自动化、数据拓展、迁移性方面有着天然的优势,而这些正是推荐系统所需要的。

性能大幅提升

为了更直观的呈现深度学习和机器学习的差异性,双方进行了详细的对比测试。

先介绍一下测试环境

一、数据集。数据来自过去三年中从特定渠道收集的数据集。

不同的合格消费者:675,000
用于基准的目标商家(优惠或广告系列):2000
已知交易:14亿(原始数据53 GB)消费时间:12 – 24个月作为训练和1 – 2个月作为验证
二、生产环境Hadoop集群:

9个节点集群(3个主机主节点(HMN)节点,6个Hortonworks数据平台(HDP)节点),每个节点放在一个物理盒中
24个超级内核,384 GB内存,21TB磁盘
Hadoop发行版本:ClouderaDistributed Hadoop(CDH)5.12.1
Spark版本:2.2
Java平台,标准版开发工具包(JDK)1.8
基准库:
Analytics Zoo- bigdl_0.6.0-spark_2.2.0
Spark MLlib 2.2.0
其中,对于传统的机器学习方法,选择Spark MLlib方法的交替最小二乘(ALS)模型。

对于深度学习方法,基于最新的研究和行业实践,选择了神经协同过滤(NCF)和宽深(WAD)模型作为推荐的两个候选模型。

模型评估

利用Spark MLlib ALS的评价工具,NCF和WAD实现的推荐器用下列指标进行测量。
ROC曲线下面积(ROC AUG)
精确度与召回率曲线下面积(PR AUC)
精准度与召回率
每位客户排名前20位的精准度
同时,为了与传统的矩阵分解算法相比,在SARS2.2.0上的ALS训练采用了相同的数据和优化参数。相比之下,深度学习模型比ALS模型有显著的改进,如下表所示。

从数据对比中能直观看出,基于英特尔Analytics Zoo开源Analytics + AI平台和至强可扩展处理器打造的全新的推荐系统模型较之前的系统有全方位的提升。

只需要极小的投入

这里必须强调的是,性能提升只是全新模型带来的一个好处,甚至算不上最大的亮点。在我看来,更重要的一点在于几乎不用在原有机器学习模型的基础上做太多改动和太大的投入,新平台就能实现性能的大幅提升。

简单介绍一下英特尔Analytics Zoo平台,它是一个统一的开源Analytics + AI平台,满足企业深度学习应用程序的标准要求,能够无缝将Spark、TensorFlow、Keras 和BigDL程序集成到一个整合的流水线中,并且可以透明地扩展到大型Apache Hadoop/Spark集群中,用于分布式训练或预测,而无需额外的GPU基础设施。

所以,天然Analytics Zoo就具备很多优势,比如直接在数据集群中作数据分析,无需移动或复制数据;将深度学习功能添加到现有的分析系统或机器学习流水线中,而不是重建它们;利旧,最大程度利用现有的大数据集群和基础设施;减少特征工程工作量、自动模型优化,这是深度学习的优势;与英特尔至强可扩展处理器天生兼容,部署操作成本为零……

特别值得一提的是,在全新一代英特尔至强可扩展处理器中,英特尔还针对人工智能,包括BigDLon Apache Spark、AI推理等做了增强。也就是说,如果底层系统更新至最新一代架构,推荐系统的性能还将得到大幅提升。

如今,英特尔的这一套系统已经不仅仅被用在万事达卡的推荐系统中,后者已经使用数据流水线框架Apache NiFi构建起了企业数据流水线平台,并开发了相关的定制处理器。万事达卡通过利用Analytics Zoo的服务API,将深度学习和模型服务流程嵌入到现有的企业数据流水线中,正在服务更多业务单元。

没想到吧?你的很多消费都被人工智能预料到了,你的很多买买买离不开人工智能这个“罪魁祸首”。