京东基于主动元数据构建智能数据治理体系

Original 吕代军 DataFunSummit

2024-09-10

导读京东零售在数据管理和治理上面临着多方面的挑战：首先，数据量的持续增加导致了大量低效及冗余的数据模型，增加了维护成本并影响数据质量和准确性，用户找表难，用表难；其次，数据管理和开发使用相同账号资源，缺乏有效的变更管理，容易因误操作引起线上问题；再次，表数量和存储规模的增大，进一步加剧了计算、存储资源消耗。面对这些挑战，京东零售提出了一套全面的数据治理方案，包括建立数据标准、优化数据架构、规范数据开发流程和控制数据成本等措施，旨在通过技术手段提高数据管理的效率和效果，促进企业的数据高效运转。

今天的介绍会围绕下面五点展开：

1. 数据管理挑战

2. 数据治理体系建设

3. 主动元数据治理实践

4. 总结与未来展望

5. Q&A

分享嘉宾｜吕代军京东零售架构师

编辑整理｜王吉东

内容校对｜李瑶

出品社区｜DataFun

数据管理挑战

京东零售数据管理存在以下四大痛点：

1. 资产感知弱

找资产难：几十万张数据模型，存在大量临时表、无效表，以及大量重复/相识模型
不敢用：口径黑盒，数据质量参差不齐，业务难分辨

2. 数据架构不敏捷

架构耦合：口径、维度扩展耦合，预计算耦合
不够敏捷：大量刷岗预算任务，迭代工作量大，交付周期长，且存在大量物化宽表导致存算资源消耗多

3. 开发质量、安全问题

表结构风险：表结构的增加、删除和修改等调整缺乏管控
运营风险：参数、依赖错配；开发任务抢占线上资源；开发数据写入线上表

4. IT 资源成本不断攀升

数据规模持续增长：表数量持续增长，存储、计算资源消耗不断增长，分析场景增多
资源利用低：无效表、无效任务占比高，冷僵数据占比高，重复、相似模型占用大量资源

因此，有必要加强数据治理，让数据有序可管，从而保证企业数据管理高效运转。

数据治理体系建设

1. 数据治理思路

数据治理的整体思路是，从数据标准、数据架构、数据开发以及数据成本多方面着手，用技术去牵引数据全链路的降本增效。具体体现在以下几个方面：

制定数据标准、标准系统化、数据认证
敏捷高效的数据架构升级，快速灵活地支持业务战略目标
开发生产隔离，数据安全生产
存算治理体系建设，降低业务/企业运营成本

2. 数据治理体系建设

（1）标准治理

在数据治理体系建设中，首先是数据标准的治理。

京东零售制定并发布了零售统一数据语言标准，该标准定义了数据模型的标准要素，包括业务体系、业务域、主题、业务过程、主体、主体属性、更新周期/频率、更新方式、粒度等，数据模型通过标准要素进行描述刻画。

首先，基于该标准进行数据资产认证，对质量高、价值大的模型进行认证打标，逐步形成统一的资产目录，方便用户查找和使用；而对于质量差、价值低的模型，关停并转，释放资源。

其次，将标准要素系统化，提升维度和指标的注册效率，在开发和治理的同时实现表元信息的收集，为后续逻辑建模、系统智能巡表、智能生产做准备。

（2）架构治理

接下来是架构的治理，其核心是让架构更敏捷。

首先，基于逻辑虚拟表进行维度建模能力升级，相对物理宽表，逻辑宽表从语义上定义了数据模式，并将数据模型抽象为维度和指标，更加敏捷，大大减少后续的改动工作量。

逻辑宽表虽然方便定义，但面对大量数据，通常难以达到和物理宽表相当的查询性能和访问体验，这就需要智能物化的能力；因此系统需要基于 HBO、CBO 以及 RBO 等优化模型对分析路径进行自动决策和优化，如哪些需要提前物化，哪些无需物化；相比传统研发人员手动建表建任务，这种系统自动物化的方案节省了大量人力成本和 IT 成本。

另外，京东零售作为电商企业，用户行为大多在线上发生，有大量的数据需要处理、分析；近期在探索湖仓一体架构，利用增量状态更新和流批一体能力，提升数据处理效率，降低数据成本。

（3）开发治理

通过构建开发生产隔离能力，将账号、表、队列资源进行隔离，保障数据安全生产。

（4）资源治理

资源治理的手段主要包括存储治理和计算治理。其中存储治理包括表生命周期治理，无效表/相似表的识别与下线，转 EC、数据重分布与压缩等；计算治理包括无效任务识别与下线，低资源利用率任务治理，暴力扫描、高频失败任务治理等，以及计算算子和引擎的优化，还有计算任务错峰执行等。

各类优化治理的手段其实是相似的，但是如何让治理变得高效、安全、可持续，让用户“敢治、愿治”，是一件非常有挑战性的事情。因此我们的思路是对主动元数据进行充分挖掘，构建治理模型，并将治理可视化，让数据治理有依据有章法。

具体来讲，首先是元数据建设能力。元数据主要包括表分区存储、计算成本以及任务执行内存、CPU 利用率，分区访问等数据生产消费血缘，以及资产认证、任务等级、应用场景等元数据。在这些元数据的基础上，构建诸如智能生命周期推荐、模型识重、任务归属识别等模型，自动识别治理空间并给出相应治理建议。相比人工逐一评估，更高效客观，且可持续。最后建立了一套面向管理者、推动者、治理者的可视化看板，帮助用户看清资源分布以及治理成果、待解决问题等。在 23 年存算治理中超额完成了治理目标，同时该体系能够让整个治理活动持续的运营下去。

主动元数据治理实践

接下来通过两个案例介绍基于主动元数据的治理实践和探索。

1. 主动元数据

（1）什么是主动元数据？

Gartner 对主动元数据的定义是：一组能够持续访问、处理和分析的元数据的功能。因此，主动元数据的特点是：自动生成与更新，支持持续访问。在此基础上构建智能分析、形成决策建议，指导行动。

因此，在系统设计和运行过程中，收集元数据，利用运行时元数据与设计元数据进行对比，进而不断积累并信任元数据；最后，利用元数据在环境发生变更时，给出预警和建议，让用户及时做出反应。

（2）主动元数据管理工具核心能力

Gardener 在提出主动元数据这一概念的同时，也指出主动元数据管理工具应具备的能力，包括聚类分析、诊断资源分配、告警、推荐等。Gardener 的这一观点指引京东零售数据治理实践的方向。

接下来通过案例分享如何将主动元数据应用在数据治理能力建设上，基于主动元数据，构建智能生命周期评估体系。

2. 存储治理的挑战

存储治理存在以下挑战：

（1）盲治

缺乏数据支撑，无法准确掌握表分区消费情况以及分区存储、计算代价；
缺乏评估体系，20 万+模型，数据研发自行评估生命周期值成本高、效率低、主观性强

（2）不敢治，不愿治

数据回填效率低，占用开发人员大量工作时间
担心引发线上问题

（3）不能治

部门作为零售数仓主要建设方，大量历史数据必须全部保留

因此不论从治理推动者还是从治理者的角度来看，都迫切需要一套方案机制，保证治理工作有数据支撑，且客观公正，能够直接给出治理建议，并支持自助分析，且具备持续性。

存储治理的能力诉求包括：

因此，提出了基于主动元数据构建智能生命周期评估体系。

3. 智能生命周期评估体系建设

这里所说的生命周期是狭义的生命周期，是指一个表分区数据从写入到被删除经过了多长时间；例如某个表的生命周期是 100，意味着这份数据写入到某个分区后，100 天之后会被清除。

生命周期评估体系的建设，首先要构建代价模型，其核心是将数据的计算成本看作生产数据的“代价”，将数据的存储成本看作拥有”成本”，将两者的比值作为代价均衡系数，计算每个模型在每个分区的访问次数，两者的交点即为代价的均衡点，即为最理想的生命周期值。

此外，在实际模型构建中，还考虑模型所属分层、是否精选、认证、任务等级、加工时长等因素，在均衡的基础上，通过容忍系数使推荐的生命周期值更稳定、更符合业务场景，最终得到推荐的生命周期值。

下图是生命周期推荐模型的可视化拆解，可以帮助用户进行自助式分析。

（1）基于代价的智能生命周期评估体系

量化代价：近 90 天单分区存储，计算(CPU，内存)金额占用，以及分区访问数据。
非量化代价：模型所属分层、是否精选、认证，以及加工任务等级、任务执行时长等。

（2）生命周期评估模型可视化拆解

建设面向治理管理者、推动者、执行者的可视看板，实现数据研发自助式分析。

4. 智能生命周期消费模式识别提升

假如直接统计一张表在一段时间分区访问的范围，则统计结果会严重受到考察周期的影响。举一个例子，假设一个表有 10 个访问，每天都是访问昨天分区；当选择 15 天作为考察周期时，得到的结果是用户需要访问近 15 天的数据；而当选择 31 天作为考察周期时，则会得到用户需要访问近 31 天数据这一结果。为了消除这类干扰，选择统计表分区访问时间与分区的生成时间的差值，即偏移天数来统计访问次数。

经验证，使用这种统计方案，选择不同偏移天数得出的结果差异很小。考虑到治理的及时性，最终选择通过近 90 天的访问信息来计算均衡天数。

5. 智能生命周期产品化

由于其在识别消费模式准确度上表现优异，能够极致地挖掘治理空间，并且是基于主动的、客观的元数据自动计算得到的，非常容易复用到其他 BG、BU。在完成 POC 的试点验证后，将方案集成到大数据平台。

（1）业务策略与平台共建

业务沉淀的策略模型、治理方法与大数据平台治理工具化能力复用共建，提升治理效率，进一步赋能集团数据治理。

（2）看得清、看得全

帮助管理者、推动者、治理者看清看全治理空间、治理进展、治理收益

（3）一键式治理

一键式发起治理行动与实施治理、方便快捷

（4）自主挖掘治理模型

业务方根据自身业务特点、自主探寻治理模型、策略，满足个性化治理。

6. 智能生命周期建设效果

目前大数据平台已经构建了完善的治理功能体系，包括治理分析能力和治理实施能力。治理实施包括治理行动、通知催办、一键回滚等功能，这些功能可以大幅提升操作的效率及治理安全。将业务治理策略通过平台化工具进行整合共建，将治理经验推广到整个京东集团，赋能整个集团的存储治理。

数据驱动、智能推荐，从分散到集约、从被动到主动、从经验到智能。

智能推荐：几十万张模型自动推荐生命周期，自动识别数百 PB 治理空间
效果显著：推荐值接受度大于 70%，试点模型完成 100+PB 治理
开放赋能：集成大数据平台、赋能集团存储治理

该方案将分散在各处的主动元数据进行收集，对元数据进行挖掘识别，实现生命周期的智能推荐。由于使用主动元数据，采用同一套评估体系，因此其依据是清晰的、客观的；同时支持治理模型可视化，方便查看分区及访问明细、数据生产代价等，精准的模式识别结合平台安全回滚机制，让治理更安全、更有效。

当前能够对几十万张模型实现自动评估生命周期值，并识别出数百 PB的治理空间，推荐的生命周期值接受度大于 70%。同时，在前期试点过程中，已经完成了一百多 PB 的存储治理，每年为公司节省数千万元。

由于该体系基于主动元数据，因此能够持续、动态地推荐合理的生命周期。因此从更长的生命周期来看，数据从创建到成熟，再到最后的逐步衰退直到淘汰，我们的体系能够动态更新模型的生命周期值，同时通过能力开放，这套能力未来能为公司带来更大的价值。

7. 数据回填挑战

接下来分享另外一个基于主动元数据的治理实践——数据回填。

在离线数据开发运营中，不管是新需求迭代，还是岗位变更，都会有数据重算的需求。目前的数据补录功能尚不完善，需要手工确认等大量系统外协调工作。例如，用户需要回溯 2023 年前的数据，研发人员就需要手动检查所依赖的上游甚至更上游的数据；确认完上游数据，需要进行数据回刷，完成后再通知下游。因此，整个过程是环环相扣的，需要很多人参与沟通和衔接，不仅耗时，且效率低、易出错。

同时，很多场景直接使用线上脚本进行回溯；当业务数据远小于维表时，例如业务表每天数据量级为千万级，而需要关联的维表（如商品表）则是百亿的量级；如果按天回溯，则需要关联这个商品表超过 300 次；而反复关联会浪费大量的资源，并影响数据回溯并发度。据统计，回刷计算的资源消耗占部门计算资源消耗的 18%。

因此，考虑将上述人工确认的过程自动化，让用户只关注结果而无需关注过程，同时能够对回溯脚本进行自动优化和改写，减少大量维表的关联次数，更高效地完成数据回填。因此需要构建更高效的自动重算能力。

8. 智能回填方案架构

上图是数据回填的架构图，主要基于数据的生产血缘，包括表依赖血缘、任务依赖血缘等。

该方案主要包括以下几个功能模块：

回填感知：通过查询、订阅信息、新版本发布触发自动感知分区缺失、版本变更消息，通过分区检查器、版本变更感知器确定回填日期范围；
回填编排：构建数据生产血缘，逐层解析表分区回填依赖，编排回填拓扑；
优化执行：依据回填拓扑和任务执行的元数据，将回填日期范围拆解为不同批次，系统化创建回填实例，通过并发协调器动态提交执行实例，运行完成后对结果进行校验并通知回填结果。

该方案的核心思路是充分挖掘数据生产消费血缘，依据血缘进行自动检查和确认，从而替代手工检查，提升回填效率；该项能力的依赖项是需要算子级的数据血缘能力。目前平台已经具备此能力，同时依据任务执行元数据进行多分区合并，并提交批次，大幅降低资源消耗，使用户从关注过程到仅关注结果，把更多的时间放在有价值的事情上。目前该方案正在建设中，预计今年 Q2 上线。

总结与未来展望

1. 总结

前文的分享主要包括以下 3 部分：

（1）基于主动元数据的 Data Fabric 治理能力建设

使用数据生产、消费场景等主动元数据构建分析能力
生命周期值推荐，提升治理效率

（2）基于数据血缘的智能回填

依赖指标生产、数据生产等血缘数据构建智能高效重算能力
依据执行元数据动态分批优化执行

（3）逻辑建模、智能物化与生产

基于认证数据资产，构建资产图谱元数据，结合数据使用场景、消费场景构建 HBO，CBO，RBO 模型，实现智能物化与生产

以上都离不开主动元数据，离不开对主动元数据的充分挖掘与分析。

对于 data fabric 架构，最先由 Gartner 提出，主要是为了解决复杂数据的管理和使用问题，并且连续几年被评为十大 IT 技术发展趋势。Data fabric 架构主要包括在互联的知识图谱上访问和表示所有类型元数据，应用知识图谱技术激活元数据，将机器学习技术运用到元数据上，去简化数据集成设计、动态数据集成以及数据编排等；其中涉及的核心技术主要包括数据虚拟化、语义知识图谱以及主动元数据等。Data fabric 更多是一种架构理念，而非一种新的技术，因此每个个人或企业都可以去探索和实践 data fabric 架构，从内部实践效果来看，无论在数据治理上，还是在数据集成编排上，都取得了良好的效果。

核心技术：数据虚拟化、语义知识图谱、主动元数据

2. 未来展望

最后是对未来的展望。当前对基于主动元数据的探索和实践尚处于起步阶段，未来将持续进行探索。

首先是更自动、更智能。当前的数据任务优化仍然由人工来逐一优化治理，不仅耗时，也依赖人工经验；所以需要基于主动元数据来构建任务的智能诊断与智能调优能力，提升任务的优化效率。

此外，对于前文提到的数据模型认证。当前的认证主要依靠人工逐一认证，认证工作量非常大；而且数据会不断地新增和变更，需要持续投入大量精力。因此，需要探索语义实体识别以及图挖掘技术，去构建更智能的资产图谱，提升资产认证效率，实现从“人找资产”到“资产找人”的转变。

另一个探索是如何将治理经验沉淀出来，将其系统化，实现开发即治理。2023 年是人工智能元年，人工智能创新正在逐渐转化为实际生产力，基于人工智能的数据架构能力已经到来。希望通过今天的分享，抛砖引玉，能够对大家有一些思考和启发。以上就是我的分享，谢谢大家。

Q&A

Q1：元数据是数据的数据，在数据治理的过程中承担怎样的角色？在数据治理的过程中，对开发工程师来说，最大的挑战是什么？

A1：在数据开发或者治理过程中，更多指的是数据加工的存储成本、计算成本，以及执行信息等。在数据治理过程中，元数据承担了非常基础、非常核心的能力。例如当数据存储资源告警时，会通知用户去做数据生命周期治理，然而数据研发工程师拿到数据表时，不知道从什么地方入手，也不知道如何评估该生命周期值设置多少合适。早期往往是基于一些规则（比如原始数据永久保留，通用层保留五年，应用层保留两年等等）来制定，而这种方法带来的弊端，就是会产生很多的冷僵尸数据。因此，元数据相当于粮草，基于元数据去做分析模型，构建生命周期的评估体系；通过对元数据的挖掘，实现更高效的数据治理。而在治理过程中，对于数据治理实施者，最大的挑战包括两点，第一是不知道如何治理，设置多少合适，第二是没有时间，担心风险，所以缺乏治理的意愿。如我们构建的这些治理能力，旨在去帮助数据的开发工程师和数据治理实施者，更快速、安全地完成各项治理。

Q2：主动元数据的约束是什么？（被动元数据相对理解，收到解析即可）对于主动元数据，其规范约束性强吗？推动力如何？

A2：不管是被动元数据还是主动元数据，都有一个前提，即数据是准确可信的。由于被动元数据往往是人工收集的，已经经过了审核和验证；而主动元数据往往是系统自动生成的，因此其准确度是个非常重要的约束。包括最初做生命周期推荐时，很多信息是不完善的，因此首先联合平台提升元数据的准确性，随后才能放心地开展基于元数据的分析和推荐，否则系统可能会错误推荐，准确性差。对于推动力如何，作为零售数仓的主要建设方，很多数据需要全部保留，因此治理压力很大，必须在治理模型上进行极致的挖掘，所以引入了更严格的代价模型；在推动前期是有很大阻力，但是从去年 Q2 开始启动、Q3 开始试点，到了 Q4 在整个京东集团推广，整体上的治理效果还是比较理想的；在试点过程中，完成了超过 100PB 数据的治理，并联平台共建，平台有非常好的通知机制，支持催办、恢复等功能，推动起来还算顺利。

以上就是本次分享的内容，谢谢大家。

分享嘉宾

INTRODUCTION

吕代军

京东零售

架构师

数据架构师，先后在科技、零售行业从事数据开发与数据架构相关工作，专注于端到端数据链路优化与数据可观测体系建设，以及基于主动元数据、图技术构建智能数据治理能力，推动数据标准牵引数据集成加速。

往期推荐

一种性能和易用性更好的 ClickHouse 实时数据更新方案

LLM 快速发展时代下图基础模型初探

使用 ClickHouse 企业版技术解析

滴滴国际化出行场景指标体系建设

为何开源 OLAP 纷纷加入向量检索能力

知乎 DMP/CDP 平台的应用和实践

Alluxio：面向 AI 计算的高性能数据访问平台

基于深度学习多实验叠加效果因果推断

Alluxio 在携程大数据平台的探索与优化

GraphGPT: 大语言模型的图结构指令微调

点个在看你最好看

SPRING HAS ARRIVED

继续滑动看下一个

DataFunSummit

向上滑动看下一个

桐城一派｜突发！湖南省财政厅厅长刘文杰坠楼身亡

因为地铁逃票，警察拔枪乱射，无辜乘客爆头

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

京东基于主动元数据构建智能数据治理体系

您可能也对以下帖子感兴趣

桐城一派｜突发！湖南省财政厅厅长刘文杰坠楼身亡

因为地铁逃票，警察拔枪乱射，无辜乘客爆头

陈佩斯，这次真悬了！

不能返税、不能补贴，招商局长们怎么办？

大，无需多言，事实胜于雄辩

生成图片，分享到微信朋友圈

京东基于主动元数据构建智能数据治理体系

您可能也对以下帖子感兴趣