百度云说:数据库在AI时代的再进化
编者按:《百度云说》是刊登百度云管理层及产品、技术专家系列观点文章的专栏。在这些文章中,将逐步揭秘百度云对行业、市场、生态、技术、产品和解决方案的实践与思考。我们希望通过这样的方式,让您更加了解百度云,同时促进行业交流,更好地服务用户。
本期《百度云说》邀请到的嘉宾是百度云副总经理王龙。他创立了百度云的数据库团队,见证了百度云数据库发展历史中所有的重要里程碑。目前,王龙为百度云数据库、运维保障、技术售后团队的负责人。
随着AI时代的来临,AI技术同样对数据库未来的发展有着重要的影响,数据库面临着又一次进化。百度云在数据库领域起步不算晚,近年来牢牢抓住了数据库技术发展趋势,在AiDB、NewSQL等领域都取得了颇多出色的建树。本文将聚焦百度云数据库的发展历程和未来规划,访谈全文如下。
Q:能否介绍一下百度云数据库的发展历程?
王龙:众所周知,百度是做搜索引擎起家的,业务跟电商、游戏等有着很大区别,因此在这之前,百度是一家弱依赖数据库的公司。随着百度公司业务的发展,像凤巢、O2O、金融等业务的出现,百度的数据维度发生了很大改变,百度的数据库技术也随之高速成长。直到今天,百度云提倡ABC三位一体唤醒万物、赋能行业的战略,百度云数据库也朝着数据库ABC化的方向进化。
具体来说,百度云数据库团队在2010年正式成立,百度云数据库产品架构经历了从单主、级联、集群、分布式到云数据库、交易数据库、安全数据库的发展历程。重要的时刻包括:
2010年之前处于简单的单机时代。
2010年开始进入三层架构时代,实现了多层级联、负载均衡、流量调度架构。
2012年开始进入分布式数据库时代,实现了多机Join、分片、故障自恢复架构。
2014年进入到云数据库时代,并在2015年、2016年陆续发布交易数据库、安全数据库,持续深化数据库在垂直领域的场景应用。
可以说,百度云数据库虽然起步较晚,但是发展十分迅速,产品几乎每年都会迈上一个重要的台阶。当前百度云数据库多项技术在国内都是领先的,并且在数据库前沿领域的探索和布局走在前列。
Q:介绍一下当前百度云数据库产品和技术的主要特点?
王龙:当前,百度云分布式数据库XDB是一款兼具高可用、灵活扩展、商业级安全等特点的数据库产品。主要特点包括:
金融级高可用,采用分布式数据库可以实现自动故障恢复,有效避免脑裂,多地域多机房容灾提供小时级从零恢复。
数据高可靠RPO->0,分布式事务强一致性,首次完整实现MySQL分布式事务ACID特性。
灵活可靠扩展的分布式设计,多种路由规则的数据切片,完美支撑业务高并发,按需弹性扩容。
低成本的云服务架构,实现数据库云化、数据压缩业界领先的分布式PC架构,可自动化运维。
5A级数据安全,数据库防火墙,内核级加密与脱敏,软硬一体化的安全保护。
Q:目前百度云数据库产品在行业领域的应用情况如何?
王龙:百度云的数据库产品在金融、交通、制造等多个领域有着广泛应用,百度云坚持数据库产品在垂直领域的场景深化。以金融行业为例,核心业务对于性能、安全性、合规性都有着极高的要求,百度云为此提供了金融数据库一体机这种产品,与金融业场景强耦合。通过一站式交付、快速部署、统一管理和维护,提供高性价比、高安全、高性能等特性,支持金融客户的商业智能分析和实时交易等典型应用。
百度云金融数据库一体机并不是百度云拍脑袋想出来的,而是通过在金融领域的长期耕耘和摸索而沉淀出来的。比如,百信银行是中国首家独立法人形式的直销银行,是国内运用ABC技术打造智能银行的领先代表,它的PaaS平台就采用了百度云PaaS技术。数据库是PaaS平台中重要的组件,百度云的数据库产品与技术很好地支撑了百信银行的各种核心业务系统,即很好地满足了金融各项监管,又很好地支撑了银行各项核心业务系统的运营。
类似百信银行的金融客户还有很多。随着百度云的工程能力进一步加强,比如百度云金融数据库一体机将会在国内更多金融机构中得到采用。
Q:金融行业对于数据安全以及合规有着极高的要求,百度云数据库产品是如何满足金融客户在这些方面的需求?
王龙:百度云的数据库产品在多家金融客户中经历了考验,全部都顺利通过了监管部门的考核。这主要得益于百度云数据库出色的多梯次纵身防御安全解决方案。
百度云数据库安全解决方案,内核级利用AES加密算法存储加密、SQL解析技术、语法解析+机器学习双引擎审计等技术实现了敏感数据“看不见”、核心数据“拿不走”、运维操作“能审计”、安全防护“全链路”,让金融客户在数据安全以及合规上得到充分保障。
Q:从百度云的角度来看,数据库技术现在正朝着什么方向发展?
王龙:数据库技术从诞生到现在已经走过了将近50年的历史,从最早IBM的数据库论文开始到2008年,传统关系型数据库(RDBMS)一直是数据库的主要发展方向;2008年之后,移动互联网、移动应用的兴起产生了海量数据,NoSQL数据库的出现则兼顾了关系型和海量数据;现在,数据库则朝着NewSQL的方向发展,所谓NewSQL就是强关系型+海量数据+横向扩展;而在未来,数据库技术一定会朝着ABC化的方向发展。
所谓数据库技术ABC化,主要体现在三个方面:第一就是AI技术与数据库的融合;第二,在业务层面,OLTP与OLAP融合,并且数据库会出现更多的领域定制;第三,软硬件会更加紧密的结合。
Q:百度云数据库在NewSQL领域是如何规划的?
王龙:百度云数据库在NewSQL有着很深的布局。
首先,百度云与开源CockroachDB有着紧密的合作。众所周知,CockroachDB是Google Spanner的开源实现,是一款非常优秀的全球分布式数据库,拥有去中心化架构、跨地域、分布式事务、多副本、强一致性等优点。百度云吸收了开源的优势,并且结合实际业务情况进行了优化和云化,让CockroachDB更加符合中国用户的业务场景。
接下来,百度云数据库将会加快NewSQL数据库产品的软硬件一体化,通过软硬件的深度融合、GPU加速等,来进一步实现产品的优化和提升。
到2020年左右,百度云数据库产品将会与AI、NLP进行深度融合。
Q:百度云在AI技术与数据库融合方面有什么进展?
王龙:AI技术正在深刻影响着数据库的未来发展,AI技术与数据库的融合是当今数据库研究的最前沿,可以说AI技术将推动数据库的再一次进化。百度云在AI技术与数据库融合方面已经在进行中,从百度云的角度来看,数据库与AI的融合主要分三个阶段:
第一个阶段是DBMS With AI,现在业界都处于这个阶段,这个阶段强调的是利用好AI技术,帮助数据库完成提升,实现自治,比如自治驱动(升级、安全、补丁)、自助调整(弹性、压缩、优化)和自治修复,像Oracle 、AWS等都公司的产品都在向数据库自治和自愈方向发展。百度云数据库产品也不例外,目前已经具备了一定的自治和自愈能力,比如,安全数据库利用机器学习进行入侵检测等。接下来,像弹性容量管理等功能也将逐步实现。
第二阶段是DB For AI,所谓DB For AI就是数据库可以支持AI业务的各种需求,像复杂数据模型、复杂计算的支持、存储过程以及GPU加速计算等。百度云已经针对这个阶段进行了相关的战略布局和研发投入。
第三阶段则是DB As AI,数据库即AI,数据库已经成为AI场景的一部分,像一些机器学习数据库未来就自身集成数据库功能和模型训练能力。这个阶段目前门槛仍然很高,百度云目前保持高度的关注状态。
文章授权转载自百度云 ')}