来福:精益管理,持续创业,财务自由❤

​降本增效!腾讯音乐数据资源管理实践经验分享

2022-10-22 21:40

导读:本文将分享腾讯音乐在数据资产管理方面的落地实践,以及我们的数据治理方法。分享的主要切入点是腾讯音乐通过数据治理完成企业内部资源管理和成本管理,达到治理数据以及降本增效的目的。主要包括以下几部分内容:


  • 数据治理的背景

  • 数据治理的方案以及实践落地

  • 数据治理效果

分享嘉宾|卢宇鹏 腾讯音乐 高级大数据开发工程师

编辑整理|李阳 宜信

出品平台|DataFunSummit


01
数据治理的背景

1. 资源增长趋势

近年来,行业内数据治理受到越来越多的关注。回顾腾讯音乐的发展历程,随着业务的不断增长,整体的资源使用情况出现快速增长的趋势。如果不通过治理手段去加以干预,最终将会积重难返导致资源成本失控。

企业的发展过程,参考诺兰阶段模型,在其快速发展的时候,数据、存储资源和计算资源都会出现迅猛的增长。目前腾讯音乐到了第五阶段,数据开始进行治理,到第六阶段的时候将开始逐渐趋向成熟,资源的使用也会相对降低,并最终达到一个平稳的状态。

2. 资源成本管理难点

在整个资源成本管理的过程中,我们遇到很多难点。

① 数据量大,涉及人员多

在企业内部,集团内部去做数据治理,涉及的人员很多,不同团队的人员,很多同事平时交流并不多,就会有很大的沟通成本。腾讯音乐是属于百p级别的数据量级,整个数据量非常庞大,所以对资源管理造成了很大的阻碍。

② 缺乏数仓建设规范,多为烟囱开发模式

我们在启动这个项目的时候,审计过往项目代码,发现很多项目在开发过程中,缺乏数仓建设规范的。审计过程中发现存在烟囱式开发(根据应用级别从底开发到头),还有一部分任务是处于“登顶式”开发,直接从流水表一路开发到应用指标。

③ 数据开发缺乏成本意识,造成资源浪费

在数据开发过程中,数据开发人员并不关注整个资源消耗、缺乏成本意识,很容易造成资源的浪费。数据开发在完成指标开发后,并不知道下游到底有没有人用、有多少人在用,所以对于数据表的管理绝大部分会采用相对不合理的长期存储或者永久性存储,会对存储资源造成很大的浪费。

③ 缺乏数据配套优化工具

在整个治理数据成本管理过程中,中台团队缺乏一些配套工具去做优化评估。比如提供用户名下有多少数据资产,多少表在被第三方调用等。

02

数据治理方案及实践

这部分将介绍腾讯音乐在数据治理过程中,具体的方法论以及最终的一些实践。

1. 宏观治理-方法论

我们发现在资源管理的过程中,难以推进的最主要原因就是吃“大锅饭”,因此我们针对整个资源管理去做分层和责任拆分。

首先按照业务线拆分,如QQ音乐、全民K歌等,然后会按照数据域拆分,如流量域、会员域、直播域等,再下一级就会拆分到相应的中心相应的部门,最后会按照数据的存储模式,把数据拆分到某个人或者某个中心,从而去推动成本以及资源的优化。

在开发过程中,很难判断哪些数据是优质的,哪些数据是应该存的,哪些数据是不应该存那么久的。所以我们定义了一个存储健康度,一是考量生命周期的合理性,二是参考整个表的数据总量,从这些角度去衡量这个生命周期是否合理。其次是分层的管理,如果启用我们整个数仓模型,数据表应该在数仓中到底是放在什么样的位置,它这样的引用方式是否合理。

关于数据时间,我们会定义访问频次,数据如果是长时间没有更新,我们就认为这个数据可能价值并不是那么高,那么就要考虑是否有必要存这么久。

我们对数仓的表做了5级分层,根据经验把它划分为停用表、僵尸表、普通表、主干表和核心表:

  • 停用表,是一些长期没有更新的表。

  • 僵尸表,是虽然有更新但无访问无扇出,且下游没有依赖的表。这种表在腾讯音乐大量存在,占比相对较高,是我们重点去治理的表。

  • 普通表,定义的范围就是一些低访问低扇出的表。

  • 主干表就是高访问或者高扇出的表。

  • 核心表就是企业中最重要的数据资产,是一些高访问且高扇出的表。

2. 宏观治理-提升资源利用效率

从宏观治理的角度,需要提升整个资源的有效利用率。一般情况下,资源使用率会出现波峰波谷的情况。从使用率来看,资源组的使用率差异很大,有些时段是满载状态,有些时段会出现空闲的状态。针对这样的分布形态,如何去做优化?我们首先是筛选了近70个应用组,通过资源使用分布可以看到近一半的应用组资源使用率,平均一天资源使用率不到10%。

从一个企业的视角去看,各个应用组都会存在波峰波谷现象,我们要用一些手段去把它“填平”。我们引用了企业内部的一个资源时租系统,这是基于规则性的资源动态负载,它利用公共的资源池将各下属应用组的资源使用精确到小时级,达到提升平均利用率的目的。例如左上图这种资源利用率,0~6点资源可能只会用到平时的百分之30%,而6点到下午2点会用到平时的120%,过了2点之后又会回到平时的30%或50%。我们通过资源时租系统对资源进行了优化,按需分配时段的计算资源。通过治理之后,平均的应用组的利用率可以提升至80%。

3. 宏观治理-分级存储

下面讲一些存储方面的实践

我们会把存储进行分级,我们认为数据大概可以分成三类:

  • 第一类是样本类型数据

这类数据样本量很大,存储量也会很大,存储周期可能会相对较长。针对于这种情况,我们的方案是降低存储副本,副本是由三个变为两个。

  • 第二类是流水数据

绝大部分企业都期望对流水数据进行永久存储。但是我们在进行元数据管理的过程中发现即使是高频访问的流水数据,正常情况下最长的追溯时间也不超过3年,但是数据的整个存储周期长达10年。所以我们针对流水数据按访问进行拆分,三年前的数据异地冷备到相对便宜的存储介质中,而热访问的数据(近三年的数据),会放在就近机房的HDFS存储上面,通过这样的方式来降低整个存储的成本。

  • 第三级是指标级数据

这也是我们最常用的一些数据。我们的治理方式主要是通过推荐生命周期、近期访问时间、访问热度三个维度,来控制整个指标表的生命周期,达到存储成本的削减。

4. 宏观治理-数据治理范围

数据治理的范围非常广,有数据地图治理、数仓治理,还有数据质量、数据安全治理等等。今天聚焦到数据地图方向,分享我们企业内部是如何去做这件事情的。

数据地图主要划分为元数据管理、数据血缘以及数据价值。

首先谈谈元数据治理。元数据治理可以划分成两个领域,第一个是业务性元数据治理,也就是业务数据开发最常见的一个指标管理。第二个是技术性元数据治理,它会涵盖成本的管理,数据质量以及数据安全,最终这些元数据都会体现在数据价值上。

元数据治理过程中我们也遇到了一些问题:

第一个是业务口径不统一,因为我们会存在多条业务线,一个常见的指标在多业务线甚至多个开发中心都会存在不一样的统计口径。这样会导致在跨业务引用数据时,因为口径差异难以解读,数据引用成本就非常高。

第二个是数据质量比较差,缺乏有效的监控手段。这是一个很大的问题,如果没有数据的异常的管理,由业务或者由数据使用方发现数据的异常,再来推动数据开发进行数据排查,问题修复的周期会变长。

第三个是数据开发人员缺少成本意识,会导致产生大量的冗余存储,对整个存储资源造成浪费。同时数据在生产过程中是缺乏安全级别标识,如果用户在引用这个数据过程中没有安全级别标识、没有安全的管理,那么就会存在敏感数据信息泄露的风险。

第四个是缺乏数据建设规范的手段。数据生产中伴随着大量垃圾元数据产生,我们去审计整个数仓元数据的过程中发现存在近50%的“无效数据”。无效数据表的定义是指:在下游是完全没有依赖的,甚至没有任何引用或任何访问。这种数据不仅会造成资源的极大浪费,还会对整个元数据产生污染,导致整个元数据管理难度会相对较高。

最后一个是缺乏数据质量量化手。中台很难去衡量数据到底是不是有用,如果没有一个合理的元数据管理,就不知道数据到底是被谁访问了,访问了多少次,下游到底有哪些依赖,这个表到底是不是一个高价值的表,有没有必要去存放这么久,有没有必要去花费计算资源等等。

5. Lego元数据

面对这些问题,我们的Lego元数据是如何解决的?

首先,我们有一个数据总线,会实时地拉取以及批量地回溯,这是为了进行数据一致性校准,采集腾讯音乐内部自建的一些数据平台元数据变更,用来构建整个元数据的模型展示。此外血缘节点还会附带数据的成本信息以及数据安全信息提供给数据服务查询。

推荐访问生命周期,是根据数据最近的访问情况得出的一个指标。结合数据访问频次很容易判断一个表的数据价值分层情况。例如文中展示的A表,访问频次非常高且存储生命周期达到1000天,但是它的推荐生命周期只有600多天。这就属于典型的核心流水表,适用进行异地冷备的方式优化存储。

对非敏感数据,我们会直接采集抽样数据到元数据平台里,用户可以去预览随机的200条数据,来确定是否是预期表。如果确定想要,才会去基于这个数据做进一步的授权、加工,这样可以有效地提升数据的分层率,减少数据冗余计算。

针对使用,例如 superset 上配置的图卡看板,最终都会展示在整个血缘链路上,通过血源系统提供的详情信息,可以很容易地分辨这个表是不是一个很重要的表,这就是一个表价值的体现。

此外我们还做了一些预警,平台会检测一个应用组资源池近期的使用情况,当前规则是过去15天内,如果它的平均应用率低于50%,就会推送一个资源预警通知,催促相关责任人进行优化。

03

数据治理的效果

整个业务达成的效果如上图所示,从资源角度去看,通过数据治理,尽管业务持续发展,但计算资源、存储资源都有了较大的下降,资源利用率得到了显著提升。另外通过去除无效元数据,整个表数据总量出现了断崖式的削减,精简了元数据。

04

Q&A环节

Q1:数据治理过程中,对于核心表、停用表,以及分层存储、元数据治理等工作,是在数据标准和数据质量管理之前确定好的吗?

A1:这些标准和定义和数据管理是并行的。虽然我们会利用方法论制定标准和定义数据表,但是随着数据管理的持续加深,标准和定义会不断的修正,所以真正在推行过程中是并行存在的,并不存在于先后之间。

今天的分享就到这里,谢谢大家。

|分享嘉宾|



卢宇鹏

腾讯音乐 高级大数据开发工程师

主要从事大数据平台建设,现任腾讯音乐业务数据智能中心高级大数据开发工程师。


|往期文章推荐|

数据治理隐私计算大数据存储大数据计算

智能金融多维分析大数据架构产品经理

搜推广知识图谱NLP智能风控数据科学

原创经典图机器学习AI基础设施数字人与多媒体

|免费直播&资料|

|DataFun新媒体矩阵|

|商务合作|

|关于DataFun|

专注于大数据、人工智能技术应用的分享与交流。发起于2017年,在北京、上海、深圳、杭州等城市举办超过100+线下和100+线上沙龙、论坛及峰会,已邀请超过2000位专家和学者参与分享。其公众号 DataFunTalk 累计生产原创文章800+,百万+阅读,15万+精准粉丝


来源: mp.weixin.qq.com/s/?source_url=https%3A%2F%2Fmp.weixin.qq.com%2Fs%2FMNNvCAM8t4Lzgm9mzlB2ug&id=154ce78a67ce5363ee19a172906b1784

阅读:1489974 | 评论:0 | 标签:腾讯 管理 自媒体

想收藏或者和大家分享这篇好文章→复制链接地址

“​降本增效!腾讯音乐数据资源管理实践经验分享”共有0条留言

发表评论

姓名:

邮箱:

网址:

验证码:

公告

收集各种优质投资、金融、时政的文章,帮助一级/二级投资人做出正确判断,收获α+β收益

标签云