智能运维｜三种数据、三种场景、三种ETL方式

在百度智能化运维的持续演进过程中，我们在逐步建设以智能运维机器人为核心的运维能力，将其应用于故障自愈、根因定位、智能变更等运维场景中。而建设以智能运维机器人为核心的运维能力，最基础的工作是要先建立运维的世界观（环境模型），以机器人的视角来理解运维世界、感知系统状态、获取环境变化等。

在传统运维模式中，运维数据分散在不同的系统中，这些运维数据存在几个问题：

访问方式不一致
数据术语、概念、模型不一致
系统间没有数据关联

这些问题使得我们日常的运维工作，经常需要理解、处理各种不同的数据，导致运维成本高，效率难以提升。因此希望建立运维知识库统一运维工作中的语言，对运维工作中的对象进行统一建模、收集并转录日常运维工作的资源与操作，为日常运维工作提供一种『书同文、车同轨、行同伦』的基础。（PS：借鉴自秦始皇）

本文主要介绍百度云智能运维（Noah）产品，在构建运维知识库过程中的思考。

运维知识库中的数据

运维知识库中包含了运维元数据（Meta）、状态数据（Status）、事件数据（Event）：

运维元数据（Meta）对运维实体世界进行建模，包括运维实体的属性、组成以及关联关系等；
状态数据（Status）反应系统的状态，表征服务的存活性、资源消耗或能力等；
事件数据（Event）描述对系统做的变更、服务状态的异常等事件。

ETL系统架构

运维元数据、状态数据、事件数据分布在几十个不同的系统中，随着业务的增长和相关系统的不断增加暴露出了以下几个问题：

数据分散、访问方式不一致：同一类型的数据分散在多个不同的系统，各系统提供不同的访问入口；
数据术语、概念、模型不一致：各系统使用的术语、概念、模型各不相同，例如“应用”这个概念，每个系统或工具对于Application的理解都不尽相同；
系统间数据没有建立关联：例如部署、监控和路由服务等核心场景在运维数据上没有打通，表现为部署平台、路由服务、监控系统所使用的服务管理机制各不相同，三个系统间的数据难以关联，且无联动性。

因此，依托『书同文』的理念建立运维知识库，提供一个统一的运维数据管理系统，来管理运维工作中的公共基础数据，打通系统间的数据关联，使这些数据能够遵循统一的模型被共享和使用。

为了使这些数据能够遵循统一模型，我们制定了各类数据的模型（Schema），采用ETL机制从各系统获取（Extract）数据、转换（Transform）成统一的模型、并存储（Load）在知识库中，其架构如图所示。

这些运维数据在建设时根据业务对数据时效性要求的不同，分为以下三种：

离线数据建设，例如用于运维变更效率指标统计等相关的数据；
近线数据建设，例如故障诊断过程中依赖的数据；
实时数据建设，例如智能故障自愈、智能流量调度相关的路由数据等。

对于上述不同的数据我们采用不同的ETL方式，分别是：

拉（Pull ETL），周期性从数据源拉取数据，适用于离线数据的建设；
推（Push ETL），数据源主动推送变更的数据，适用于时效性较高的近线数据建设；
Federation （Lazy ETL），在查询时从数据源获取数据，按照Schema转换后并返回，适用于实时数据建设。

1、Pull ETL

Pull ETL提供了两种数据接入方式：自适应ETL、基于SDK的自定义ETL。

自适应ETL，是我们针对适用范围较广的数据源（如百度名字服务BNS、Noah监控平台、Noah部署平台等）开发的，用户仅需配置好ETL规则，自适应调度器会自动解析规则，并将数据按规则接入运维知识库。

基于SDK的自定义ETL，是我们为其他数据源提供的ETL方式，用户基于我们提供的SDK可以开发各种数据源的ETL脚本，配置好调度策略，通用调度器根据调度策略执行ETL脚本，即可将数据接入运维知识库。

2、Push ETL

Push ETL采用消息队列（MQ），来支持时效性高的数据建设。数据源发生变更时，需要将变更消息推送至MQ，运维知识库订阅、消费这些消息，并转换、存储数据。

如下图所示，用户基于SDK开发Push ETL脚本，调度器执行脚本并保证其一直处于执行状态。数据源推送变更消息至MQ，Push ETL脚本订阅MQ中的变更消息，将变更的数据转换成统一的模型并存储在知识库中。

3、Lazy ETL

Lazy ETL是为实时数据查询而提供的ETL模式。在运维领域我们需要看到系统的某些元数据/状态的实时变化，比如实时路由数据、监控系统的时序数据等。Pull ETL由于是周期性的执行，因此在时效性上无法满足需求；Push ETL需要数据源进行改造，有一定的成本，且变更消息传输存在一定的延迟，无法实时查询到最新数据。

因此，如下图所示，我们采用另一种经典方法Federation（Lazy ETL）来实现数据集成：即运维知识库处理用户查询时，直接调用接口去访问原始数据源，按schema转换后，返回给用户。