当前位置:首页 > 网文库 > 正文

网易杭研PMO数仓建设是如何从0到0.1的

时间:2021-01-11   来源:网易杭研项目管理 廖永洲
只要我们拥有主干,我们就可以从各类维度表和事实表中,取得各层级的属性,从而形成一张宽表。在PMO数仓中,这样一张表,存在着两个非常关键的数据项,分别是epic(后来被我们称之为目标)和单据所在的jira项目(后来我们称之为子产品),为后面我们打通JIRA和EP数据库提供了关键线索。
当然,这样的设计也具备一些缺点,比如数据冗余,在此不再赘述。但其中的思想,在后来整个数仓的数据流设计中,扮演着非常重要的角色。简单说,就是抽取出其中的核心信息,然后在此基础上添砖加瓦。
数据处理(ETL实践举例)
数仓开发任务多而复杂,SQL语言编写类似软件工程,恰当的工程设计将具备更高的运行效率,同时也具备较好的稳定性,在业务不断发展的情况下,后续开发将具备更强的可扩展性和可维护性。
比如,在数据开发层面,数仓在数据源上做解耦。在项目管理主题域,可分为JIRA数据作业流和EP数据作业流等。各任务流直接可能有依赖,但作业流的数据处理任务完全分开,互不干扰。这样,在做数据来源抽取时,就可以直接抽取某一平台数据,而不需要一下子抽取所有平台数据。
再比如,在实际工作中,我们发现有些数据对于实时性的要求略高,如果将各个主题域的开发任务混在一起,那么做数据更新的时候效率将非常低。而现实中,各个领域其实是相互依赖的,这对模块化产生了一定的难度。但无论如何,我们还是针对各主题域及其子主题域,进行模块化处理。从最开始更新一次数据可能要个把小时,到现在最多也只需要10分钟。
还有就是数仓的“中间件”设计,其实类似代码的重构,提高代码复用率,同时方便后续调用。通过抽取数仓中的公共代码,做成中间表,来供使用者反复调用。
举个例子,几乎所有的主题域都需要关联产品属性,如果大家使用过杭研运维的CMDB,你大概会知道运维的产品树是:
一级部门-二级部门-产品-应用-集群。
数仓也有类似的产品树,即部门-产品-子产品-业务线。我们将之抽象出来,并形成一张公共表,任何主题域的表需要这个信息都可以快速拿到这串信息。
还有其他关于ETL过程的实践,但本人并不是数据开发,在这方面确实还不够专业,很多事情都是加班研究完成的(此处是为了让我主管看到),有什么更专业更好的方法欢迎大家多多指教。
开发协作规范
为了抛弃“小作坊”式的开发模式,我们需要对数仓的开发进行规范化操作,当数据足够复杂庞大的时候,规范将提高效率,安全性和稳定性。
下面以命名规范和资源管理举例。
PMO数仓命名规范
数仓作为一个仓库,如何迅速区分和找到想要的数据,是一个关键。清晰明确的命名规则将使得我们得以实现快速准确地检索到对应的数据表。在参考业界其他人的做法后,我也制定了数仓的命名规范。如上所述,pmo数仓整体架构,纵向上分3层。
横向上,按主题域分不同的主题,如项目管理pro,需求管理req,质量管理qa(可能还会扩充),进一步的子主题,有目标(objective),项目(project)等。
猛犸任务命名规则
猛犸传输任务,任务名即为表名;
有数模型名即为表名;(公共输出的模型,不建议在有数上进行表关联)。
表命名规则
公共表命名规则
数据源_数据层_主题域_子主题域(如有)_表描述
例如:
通过sql任务,处理JIRA的issue基础表,用于立项相关人力统计;表的目的是做正确的issue关系处理,输出一张临时过程表:jira_dwl_pro_typechange
在有数上抽取供使用的表,如ep_objective_basicinfo,应为ep_dml_pro_objective_basicinfo
非公共任务命名规则
统一用自己所在业务部门做前缀,如前面提到的任务,则是:
cld_jira_dwl_pro_typechange(cld指的是云计算)
数仓人员自己的私人任务
统一以自己的名字首字母缩写作为前缀
若表中包含多个数据源,则表的主键为归属哪个数据源,则该表属于哪个数据源
字段命名规则
当数据维度增多,字段名称的重复性则较大。此时需要对数据项进行重命名,尤其是DML表。
如,对于project表,统一加上project前缀,project_name即为项目名称;
对于advise表,则是advise_name,或者advise_verifier。
PMO数仓资源管理
资源不便公开出来。这里的意思,和运维提高资源利用率是一样的,在保证任务运行不冲突的前提下,尽量高效。我们的做法是,将所有的任务按主题域,公共或
分享到:
免责声明:

1、PMO评论发布的所有资讯与文章是出于为业界传递更多信息之目的,并不意味着赞同其观点或证实其描述。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请浏览者仅作参考,并请自行核实相关内容。

2、本站部分内容转载于其他网站和媒体,版权归原作者或原发布媒体所有。如文章涉及版权等问题,请联系本站,我们将在两个工作日内进行删除或修改处理。敬请谅解!

延伸阅读:

本站推荐

  • 独家PMO、项目经理和敏捷教练学习材料,欢迎阅读!

    第十二届中国PMO大会会刊资料,主题 :拥抱变革 展现PMO力量;第十一届PMO大会(线上会议)会刊资料,主题:解码战略 赋能项目 PMO笃行致远;第十届P...

  • 第十二届中国PMO大会在京成功召开

    由PMO评论主办,以“拥抱变革 展现PMO力量”为主题的第十二届中国PMO大会在京成功召开。全国项目管理标准化技术委员会俞彪秘书长、《项目管理技术》杂志...

  • 2022第十一届PMO大会(线上会议)成功召开

    PMO大会是PMO评论主办的全国PMO专业人士年度盛会,是业内了解PMO前沿理论与资讯,分享PMO最佳实践经验,彰显PMO价值的高端会议交流平台。至今,PMO大会已...

  • 2022第三届中国项目经理大会成功召开

    由PMO评论主办,以“鏖战项目 使命必达”为主题的2022第三届中国项目经理大会于11月26-27日、12月3日以三天线上会议形式成功召开,大会特邀29位来自华为...

  • 2022首届中国敏捷大会成功召开

    12月17-18日,由PMO评论主办,以“拥抱变化 拥抱敏捷”为主题的2022首届中国敏捷大会以线上会议形式成功召开,大会特邀来自腾讯、京东、美的、海尔、OPP...

  • 2021第十届PMO大会线上会议成功举办

    由PMO评论主办,以“探索中奋进 领航PMO新时代”为主题的第十届PMO大会于2021年8月28-29日、9月4-5日以线上会议形式成功举办。来自华为、亚马逊、京东、...

  • 第二届中国项目经理线上会议成功召开

    11月27日,由PMO评论主办的第二届中国项目经理线上会议顺利召开。本次会议主题为:“执项目牛耳 悟管理精髓”,来自腾讯、京东、阿里云、大族激光、用友...

  • 从联想的战略升级解剖PMO的价值︱PMO案例分享

    PMO:Project Management Office,项目管理办公室。一般企业的PMO有两种大的存在形态:1)公司的主营业务本身就是以项目开展的,公司需要成立PMO管理业...

more >>

活动圈

more >>

公开课

more >>

书刊柜

  • 《娓娓道来:高效项目管理100法》

    《娓娓道来:高效项目管理100法》

    本书从项目管理的十大知识领域出发,对每个知识领域所涉及的核心知识点进行剖析。无论是计划管理的“边界条件”、风险管理的...

  • 《PMO论文集(2016)》介绍

    《PMO论文集(2016)》介绍

    和人力资源部、行政办公室等职能部门相比,PMO(项目管理办公室)无疑是很年轻的,国外最早出现这一部门是在20世纪90年代,而...

  • 《成功的项目始于卓越的管理》

    《成功的项目始于卓越的管理》

    《成功的项目始于卓越的管理》重点介绍了很多浪潮在推动组织级项目管理过程中使用的一些卓有成效的方法、工具、模板,如项目...

Copyright © 2023 PMO评论 版权所有 备案号:京ICP备17062359号-2 如转载本站文章,请注明原作者和原发布媒体

本着互联网分享精神,本站部分内容转载于其他网站和媒体,如稿件涉及版权等问题,请联系本站进行删除或修改处理

客服电话:010-89506650 89504891 非工作时间可联系:18701278071(微信) QQ在线:511524637

新闻与原创文章投稿:tougao#chinapmo.com 客服邮箱:info#cpmta.com(请将#换成@)

PMO评论网微信公众号

PMO评论网微信公众号

PMO评论网微信公众号

PMO大会微信公众号