一、简述数据治理

1.1 是什么

• 从严格的定义来讲是对组织的大数据管理并利用其进行评估、指导和监督的体系框架;
• 企业通过制定战略方针、建立组织架构、明确职责分工等,实现数据的风险可控、安全合规、绩效提升和价值创造,并提供创新的大数据服务;
• 从个人实践的层面来讲,数据治理是对存量数据治理和增量数据管控的一个过程,对存量数据实现由乱到治、建章立制,对增量数据实现严格把控、行不逾矩的约束。

1.2 为什么

在数据产生、采集、加工、存储、应用到销毁的全过程中,每个环节都可能会引入各种质量、效率或安全相关的问题。在公司早期的发展阶段,这些数据问题对公司发展的影响并不是很大,公司对问题的容忍度相对也比较高;但是,随着业务的发展,公司在利用数据资产创造价值的同时,对数据质量和稳定性要求也有所提升。此外,当数据积累得越来越多,公司对数据精细化运营程度的要求也随之提高,会逐渐发现有很多问题需要治理。

1.3 需要治理哪些问题

• 质量问题:许多公司启动数据治理主要就是因为数据质量存在问题;
• 效率问题:数据开发和管理过程中遇到影响效率的问题,很多时候盲目“堆人力”去做;
• 安全问题:数据一旦泄露,对业务影响非常之大,甚至左右整个业务的生死;
• 标准问题:业务部门较多时,各业务团队数据标准不一致,数据打通和整合过程中全是问题;
• 成本问题:某些行业数据膨胀速度飞快,在大数据基础设施上的成本越来越高。

二、浅谈华为数据治理

2.1 数据治理谁来做

很多企业将数据治理当作一个 IT 问题,交给 IT 部门负责处理,但是实际上,数据治理是一个业务问题,而不是 IT 问题;
华为的数据治理经验,就是将每一个数据,必须由对应的业务部门承担管理责任,而且必须有唯一的数据 Owner;
其中 Owner 最基本的职责,就是保证数据被识别、分类、定义以及标准化,以保证数据的定义在公司范围内是唯一的;
数据 Owner 还需要保证自己管理的数据的质量,要关注自己的数据服务,满足公司其他部门对自己管辖领域数据的需求,如果数据有争议,Owner 海负责进行裁决;
针对数据 Owner 在数据管理水平方面参差不齐的情况,华为在每一个业务部门配备一个数据管理部,其主要责任在于帮助每个业务主管从专业视角按照规范处理数据;此外在公司级别成立一个管控组织,由各领域首席专家组成委员会,在每周会议上专门对数据架构进行评审,单个业务部门定不下来的事情可以通过委员会讨论确定。

2.2 海量数据怎么管理

打破数据孤岛,意味着数据可以在各个业务系统中流动的,各个部门都要用,那么数据管理就不能仅仅从时间空间节点单点管理,而是必须要建立一套体系。
华为有数据管理总纲,还有信息架构管理、数据质量管理和数据源管理三大政策,这些都可以《华为数据之道》看到,一纲三策也就是华为的数据治理的顶层设计,帮助企业所有人统一认知,使得公司员工认识到数据工作对于华为的重要性。
除了原则政策之外,华为在公司层面成立数据管理部,代表公司指定数据管理政策、流程、方法和支撑系统;此外,华为数据还有一套系统,所有数据资产都在其中登记注册。
综上,华为制定一整套的完善的管理体系,包括管理的原则、办法,不同级别的管理组织,登记管理等等。对待数据这种新的生产要素,作为企业的重要资产,就应该像实物资产一样配备成体系的管理办法,才能为数据治理的高效运行提供保障。

2.3 数据治理的三大陷阱

在业务 Owner 存在,管理体系成立后,面对茫茫数据,不同企业业务不同,数据治理进度不同,华为的经验该当如何借鉴?
陷阱 1:数据不分类
华为公司数据一开始也是相当笼统,后续发现严重阻碍数据治理。后续将这些数据进行不同层次结构的分类进行处理。企业数据不能想着“一招鲜”的方式做数据治理,不同数据要求的数据精度不同,治理成本和方法也不一样。
对于一些重要的数据,比如用国家省份城市等名称,为避免错字、漏字等情况,避免直接输入,而是让用户进行选择,这样就不会出错。
陷阱 2:“埋头苦干”
很多企业将数据治理当作脏活累活,认为需要“放长线钓大鱼”,从头开始慢慢干,先不想收益的事情,但是华为的经验是,就得盯着价值干。
数据治理,应当盯着业务痛点,哪里问题最大就从哪里开始。比如华为在全球各国做生意,各国行政区划就是大痛点,一出错会牵连很多其它系统,甚至包括供应链系统。数据管理部便从此通点下手,将全球行政区划弄清楚,需要用的业务部门都直接从一个地方调用,增强数据一致性,也提升一线工作人员效率。
看得见的价值,不仅仅让从事数据治理工作的同事得到正反馈,也让其他同事看到数据治理带来的收益,对公司的数据治理形成良性循环。
陷阱 3:想好再做,宁愿慢一点
华为之前的教训:制度不成熟,业务也没定义清楚,IT 就直接冲上去做开发和系统搭建,结果就是花好大精力清理数据。

三、腾讯欧拉数据治理实践

3.1 欧拉数据平台简介

3.2 平台建设思路

数据治理的终态:实现数据工业化生产和应用

3.2.1 数据工业化

实现数据工业化,需要:
• 高效的业务流程定制或者固化的业务流程;
• 高效的数据模型管理或者固化的数据模型;
• 统一的存算系统或者单一数据库;

3.2.2 欧拉数据资产工厂

3.2.3 欧拉数据资产平台

数据治理,通过数据治理平台+治理专项互相牵引驱动,推进数据治理最佳实践

3.2.4 数据治理落地的驱动逻辑

3.2.5 欧拉数据治理融合解决方案

3.2.6 统一元数据是治理的基础

用 CMDB 的思想来管理数据资产(例如指标、数据表、报表、埋点)的状态,例如这些资产在特定的时间点是否存在,以及各资产之间的关系。CMDB 也可以用在影响分析、根因分析以及变更管理。CMDB 是个啥?(opens new window)

3.3 数据开发与治理

3.3.1 规范化数仓建模

规范化数据建模与开发平台可以实现开发即治理

数据建模是进行数据组织、映射的过程,通常会通过一系列简易符号、视图、代码、文本等表达数据关系、流向。

3.3.2 通过 dataops 理念提升数据生产维护效率

3.3.3 欧拉一站式处理能力

  1. 数仓规范配置;
  2. 开发规范配置;
  3. 治理平台化;
  4. 链路运维能力提升;
  5. 提交发布管理;
  6. everything can be reviewed;
  7. 支持历史版本代码、任务、模型对比。

3.3.4 欧拉-治理引擎

3.4 统一指标

3.4.1 指标生产应用现状

3.4.2 欧拉指标统一

3.4.3 欧拉建模流程

3.5 数据地图与服务

3.5.1 数据查找能力基础

3.5.2 数据资产地图

3.5.3 统一数据服务

构建 API 全流程自主生产工具,帮助开发者定制化数据快速调用数据服务,实现一站式开发

四、德邦数据治理实践

4.1 数据应用痛点

  1. 需求阶段:业务部门不清楚系统中已经存在哪些指标,也不清楚去哪里找数,只能根据自身业务需要提出指标需求;
  2. 数据打架:各部门之间数据打架,互相之间口径不一致,导致管理低效,高层无法准确决策;
  3. 设计阶段:指标开发人员不清楚系统中现有哪些应用或者数仓模型,不清楚模型计算口径、不敢用,只能竖井式开发,导致效率不高而且会造成数据口径冲突;
  4. 开发及上线之后:源系统数据质量不高导致数据分析错误,增加补丁程序,反复刷数以及数据验证,用数效率低;
  5. 开发及上线之后:源系统数据变更但是未充分进行影响分析,导致指标数据错误,通过刷数进行修复,用数效率低;

4.2 数据应用问题总结

  1. 流程未固化:数据流程不清晰,指导不明确;
  2. 源数据不准确:业务系统模型设计不遵循规范,不断打补丁;
  3. 数据口径不一致:各管理部门多,数据口径多样化;
  4. 数据不共享:多部门同时监控一个数据,缺乏数据共享,会导致数据口径不一致
  5. 数据无责任人:源数据变更,数据系统没有及时修改,无维护负责人;
  6. 数据人工处理风险高:车队提成计算等依赖人工,存在人工调整和审计风险;

4.3 解决方案

  1. 学习华为的数据治理管理模式


数据治理的开展需要数据治理变革推进组织的推动:
• 数据源于业务,IT 侧只能提供技术支持;
• IT 与业务高效协同,缺乏协同机制;
• 数据管理是变革性项目,需要自上而下推进数据治理的开展【重中之重】,这也是治理工作开展的前提保障

  1. 流程梳理

  1. 通过网易数帆线上化管理

4.4 数据治理效果

  1. 指标系统 通过指标中心结合指标管理制度实现指标增、删、改、查线上化操作,并实现指标与模型的绑定关系,打通指标共享壁垒,提高指标复用度;

在指标中心结合指标管理制度的管理需求,自定义设计指标录入模板,由产品经理在需求阶段进行指标信息录入,提供给 ETL 开发人员进行指标开发,指标上线后,可通过数据地图进行指标信息的查看,同时在页面前端指标数据展示时调用指标定义查询接口进行指标口径的查询;

  1. 模型中心

通过模型中心查看各层模型建设情况,模型设计时进行指标关系维护,提高设计效率;

  1. 数据标准:
  2. 在数据入湖时,推动源端系统进行模型的数据标准的维护,指导数据传输规范,模型设计规范、数据开发规范、数据质量规范等,确认数据传输和使用过程中有数据标准的依据;
  3. 通过数据标准模块进行数据标准制定与数据模型进行绑定,基于模型的数据标准可以生成对应的数据质量规则,同时通过数据地图可以查询模型的数据标准情况,辅助数据需求设计、开发及质量监控的活动;
  4. 数据地图

基于数据虚拟入湖之上,虚拟入湖和物理入湖的源表、数仓模型表、指标、数据标准等都可以在数据地图中查询,查看模型字段详细信息及血缘信息,辅助需求、开发及设计,提升用数效率;

  1. 数据质量
  2. 基于数据标准进行数据质量规则制定,结合数据质量度量以及改进形成数据质量闭环管理; b. 通过数据质量中心进行数据质量任务开发以及质量度量监控并结合播报进行数据质量的过程提醒,及时进行数据质量的问题发现以便改进;