继NewSQL云数据库服务–CRDB推出之后,百度云近期又发布了全新数据库云服务–FusionDB数据库。此举进一步完善了百度云数据库服务产品线,为广大用户提供更加广泛和灵活的选择。

 

百度云FusionDB数据库是一款基于开源数据库项目Greenplum的MPP大规模并行处理云数据库,可提供简单、高性能和高可靠数据库云服务,并且支持标准SQL接口,拥有丰富成熟的生态工具。

 

除了通用功能外,百度云FusionDB数据库还做了系列针对性的功能增强,让用户简单、便捷地使用,从而更加专注于业务处理。

 

此次推出的新品是百度云与Pivotal达成开源生态战略合作之后的首款公有云产品,双方在产品定位、全栈优化、产品体验等多个维度上进行了深度合作和优化,相信依托于Pivotal在Greenplum十多年优秀的商用经验、开源及社区合作经验以及百度云在数据库技术的多年积累和实战经验,百度云FusionDB势必将给您带来不同寻常的优异产品体验,助力客户业务快速发展。

 

Greenplum:一切皆并行

 

在十多年前诞生之初,Greenplum就自带光环。恰逢海量数据开始呈现爆炸性增长,急需新的计算方式来满足数据的处理和存储。尤其是越来越丰富的数据类型、海量数据以及规模更庞大的处理任务逐渐成为常态,而传统的SMP(对称多处理)计算架构价格昂贵,并且扩展性极差,难以满足这种海量数据的计算需求。因此,在基于低成本的开放平台基础上提供强大的并行数据计算性能和海量数据管理能力就成为用户最迫切的需求。

 

Greenplum是Pivotal公司投入研发十多年,基于开源PostgreSQL数据库开发的一款Share-Nothing架构的分布式MPP数据库,具备高并发、高可用和高灵活等多种特性,可以对大任务、复杂任务的快速高效计算,恰到好处地满足并行数据计算性能和海量数据管理的需求。

 

Greenplum数据库引擎层是基于著名的开源数据库PostgreSQL,通过Interconnnect核心软件组件来对同一个集群中多个PostgreSQL实例进行高效协同和并行调度,由于采用Share-Nothing无共享架构,Greenplum可以实现数十个甚至数千个Sub PostgreSQL数据库实例同时开展并行计算。可以说,Greenplum数据库非常适合做大数据计算或分析平台,在金融、电信、零售等领域有着广泛应用,像数据仓库系统、ODS系统、ACRM系统、历史数据管理系统、电信流量分析系统、数据集市系统等都十分适用。

 

Pivotal 研发总监姚延栋在双方合作过程也多次表示:“Greenplum是世界上能在任意云上运行的最强大数据分析平台之一,基于百度云强大的基础设施和云服务,相信能给客户带来更优质且更具性价比的服务”。

 

自Greenplum于2015年开源以来,百度云即引入内部使用。至今,百度云FusionDB数据库已经服务金融、搜索和教育等多个百度核心业务,以优异的高性能、灵活性和稳定性完美支撑了百度多项核心业务运行。此外,百度云FusionDB数据库还在一些金融、制造的行业龙头客户中得到很好使用,助力这些客户构建自身的企业级大数据平台。

 

百度云数据库总监王龙也对此次合作充满信心:“百度云数据库团队经过十余年发展,经历过海量数据及数万台服务器规模运维洗礼,积累了丰富的数据库研发和运维经验,且在AI上有更深厚的积累,双方强强合作落地,必将给客户带来更多选择!”。

 

随着百度云FusionDB数据库的正式对外推出,将会有更多行业客户享受到百度云FusionDB数据库带来的好处。下面让我们再来看看百度云FusionDB数据库的产品特性。

 

百度云FusionDB:让并行艺术发挥极致

 

百度云FusionDB数据库拥有六大通用能力:

  • 高可靠:双副本数据存储,故障自动切换,保证数据可用性;同时,主备MASTER可确保服务稳定性。
  • 高扩展:基于计算单元的灵活扩展,根据负载灵活添加存储和计算能力;并支持在线扩展,数据重分布灵活定义,对服务影响极低。
  • 高并发:数据加载和导出高度并发,轻松实现加载数据和生成报表数据;同时,还支持多表JOIN,计算高度并行,充分利用各个计算单元资源,大幅节省成本。
  • 安全性:支持IP白名单配置,从访问源上确保服务安全;并支持最小以表为粒度的只读实例,让您灵活进行数据审计。
  • 灵活性:支持行存、列存及行列混存,根据实际业务场景灵活配置;还支持不同类型的数据压缩,节省存储成本提高处理性能。
  • 兼容性:支持标准SQL接口,支持JSON类型,支持字符串模糊匹配;支持Oracle函数兼容包、PostGIS和MADlib等第三方插件。

除上述六大通用能力外,百度云FusionDB数据库还通过常年的业务实践,沉淀出有针对性的系列增强功能,拥有更加完善的功能和兼容性,真正让并行计算发挥到极致,具体增强功能如下:

 

  • 支持异构数据库的数据接入
  • 支持MySQL数据库增量数据接入
  • 支持百度云BOS大对象存储外部表
  • 支持用户级别管理员账户,可查杀异常连接,方便管理其他用户

下面,我们以异构计算接入为例,来解读一下具体的功能。

 

  • 首先,通过dtgp工具实现异构数据接入,同时也可通过各类ETL工具直接接入外部第三方数据。
百度云与Pivotal社区合作落地,云上FusionDB让并行技术发挥极致-大数网
  • 其次,RDS增量同步可以支持RDS MySQL增量数据同步,业务无需感知数据同步,轻松实现OLTP+OLAP。
百度云与Pivotal社区合作落地,云上FusionDB让并行技术发挥极致-大数网
  • 另外,BOS对象存储外部表可以打通BOS对象存储,除直接使用BOS API访问外,还可以通过SQL语句在FusionDB中直接读写BOS存储文件,通过不同存储实现冷热数据分离。
百度云与Pivotal社区合作落地,云上FusionDB让并行技术发挥极致-大数网

典型应用场景:金融大数据分析平台

百度云FusionDB非常适用于经营分析决策和海量日志分析等场景,可以在金融、电信、零售等领域广泛使用,对订单、流水、财务等业务数据进行汇总分析和提高决策精度等场景可谓是天然适配,下面我们以金融大数据分析平台为例,解读一下如何通过百度云FusionDB数据库来构建金融大数据分析平台。

百度云与Pivotal社区合作落地,云上FusionDB让并行技术发挥极致-大数网

首先,用户可以通过多种方式将数据导入至百度云FusionDB数据库,高效生成决策数据,随后即可灵活定制小时、天或月级别报表,轻松对接相关生态工具,同时支持快速的Ad-hoc查询。

此外,用户还可以通过百度云FusionDB轻松实现各种BI报表的快速整合。

百度云与Pivotal社区合作落地,云上FusionDB让并行技术发挥极致-大数网

可以说,百度云FusionDB拥有强大的并行计算能力、多维度分析、对复杂SQL执行的支持,以及将计算结果快速、便捷导入到多种BI工具等优势,这些特征可以完美胜任金融领域的海量复杂数据分析任务,帮助用户轻松实现从数据存储、计算到展现的一体化大数据分析平台整合方案。

云上的FusionDB:让大数据分析更便捷

随着百度云FusionDB数据库即将上线,用户可以快速获取数据仓库云服务。

用户通过ETL工具将各类数据导入百度云FusionDB中,即可结合高性能并行处理能力,协助用户快速决策。同时,通过百度云FusionDB,用户对于各类海量的日志数据、结构化及半结构化数据,通过使用标准SQL语法,直接对其进行多实例并行计算和汇总,达到高效分析的效果,大幅提升数据分析的效率。

此外,百度云FusionDB为用户提供PB级数据存储、高可用、强一致和在线扩容等能力,便捷对接丰富生态工具、提供多种插件和语法完全对接PostgreSQL等多种特性。用户可以根据业务实际需求来灵活调整计算资源。

在现有合作基础上,未来百度云和Pivotal还将会持续深入探索,在机器学习、图形文本分析、地理空间分析等高级领域继续深入合作,为企业级用户带来更强大的功能,帮助用户实现更大的商业价值。

百度云FusionDB数据库已经正式发布,同时将开放邀测资格,感兴趣的用户可以点击https://cloud.baidu.com/product/fusiondb.html,了解产品详细信息。