网站注册管理策划方案,品牌推广的作用,网站如何进行推广,网站设计h5简介#xff1a;如何去建立一套 “高度自动化体系化的知识管理系统#xff0c;重构知识的供给模式”。是不是看不懂#xff1f;而且有点冲#xff1f;是不是谜语人附体#xff1f;别急#xff0c;本文作者将会做详细的说明。 作者 | 七惜 来源 | 阿里技术公众号
一…简介如何去建立一套 “高度自动化体系化的知识管理系统重构知识的供给模式”。是不是看不懂而且有点冲是不是谜语人附体别急本文作者将会做详细的说明。 作者 | 七惜 来源 | 阿里技术公众号
一 前言
我们想尝试去建立一套 “高度自动化体系化的知识管理系统重构知识的供给模式”。
是不是看不懂而且有点冲是不是谜语人附体别急下面我会详细的说明我想做啥和已经做了啥。
1 平台现状
阶段分析
孵化一个Idea到产品最终简单易用通常会经历三个阶段。 阶段一做通做对
阶段意义对idea和方案的有效性与合理性进行验证探索。这个阶段一般资源很少也比较孤独。不过如果顺利解决了核心问题那系统将初具业务价值。
阶段产品小程序数据平台 DONE 交付500指标
阶段二做大做深
阶段意义开始在初版的基础上去做边界的探索。通过接入更多的场景更大范围的解决业务问题来打磨方案拓宽能力边界并摸索沉淀下最优实践。
阶段产品Foundry基础数据平台 ING
阶段三做精做好
阶段意义这是做减法和重构的过程通过前面的探索清晰的定义下系统的边界并对交互和性能等方面做更深的耕耘。
阶段产品业务数据平台 Prepare
阶段成果
目前Idea正经历第二阶段在手淘进行更大范围的探索与落地。
业务支撑支撑手淘4个域9个模块的229个指标的数据产出全链路AB实验apm启动性能广告大盘购物车首页坑位搜索结果页手淘稳定性等。同时也迁移生产了生态开放小程序小部件相关的数据。
能力建设在《小程序数据平台》的基础上进一步针对自动化构建能力进行了补强数据资产管理方面扩充了多租户资产隔离文件管理等能力方便我们更好的管理指标 同时也进行了一些数据应用的探索如数据开发服务即席查询能力等。
2 整体架构 3 页面概览 二 数据平台到底要做个啥
所以建设高度自动化体系化的知识管理系统重构知识的供给模式到底是啥意思
解释清楚这个目标只需要解释清楚如下两个问题
“数据”是如何影响“业务决策”的数据”影响“决策”的过程中有哪些问题和机会
问题一“数据”如何影响“业务决策”
数据生产消费生命周期 现实世界中我们可以把数据的生命周期抽象成5个部分“事实-信息-知识-智慧-决策行动-回到 事实”。下面给出我个人理解的每个部分的含义
事实代表数据被如实的记录ODS事实是庞杂冗余无意义的。只有通过分类和清洗才能得到对人有意义的信息。信息代表事实中是有意义的部分DWD DIM信息是对一类事实情况的描述。而当信息通过业务的定义与提炼加工就能生产出有用的知识。知识代表信息加工出的有用的部分我称之为知识ADS。比如巴菲特是股神这是信息。而买qqq对与普通人来说整体收益不从不错可以考虑月供qqq这是知识。智慧不同的知识相互碰撞演绎推导能产生新的知识我们称这种为智慧智慧是能预测未来的。借用我的好友骨玉(zherui.lzr)的总结知识是有用的而智慧是能预测未来的决策/行动通过智慧了解未知研判未来做出决策行动落地从而产生新的事实结果进入下一轮循环。
举个例子
吾有一友名叫老王不住隔壁。
老王有座山山上有野花野草鸡苹果等各种动植物事实。 其中鸡和苹果比较有价值于是老王就把他们圈起来养殖从事实中梳理出有价值的信息。并定时喂食施肥除虫后来鸡和苹果都顺利长大成熟成为了能吃能卖的农产品信息加工成了有用的知识。 后来老王又发现鸡比苹果利润高很多如果只养鸡能多赚50%知识推演出可预测未来的智慧。于是第二年他决定只养鸡决策/行动。后来禽流感来袭山头只剩野花了老王血本无归一盘算还是出租稳当于是老王把山一租又回来写代码了。第二轮数据的生产消费闭环
这个故事中
老王山头上的各种动植物就是事实事实的核心要求是全面真实而核心行为是采集记录。动植物中的鸡和苹果就是信息信息的核心要求是有意义而核心行为上是梳理和清洗。把鸡和苹果养殖大就是知识知识的核心要求是有价值有用而核心行为上是加工和提炼。可以自己吃转化成身体的养分也可以卖钱投资再生产。这是对老王有用的。 在数据中就是指标了。老王发现养鸡更赚钱就是智慧智慧的核心要求是可预测未知而核心行为是使用知识进行演绎推导。最终只养鸡就是决策/行动决策和行动将产生新的事实进入下一轮循环。那我们来试着回答一下第一个问题“数据”如何影响“业务决策”
答首先我们通过埋点采集得到原始的事实实时数据从事实中梳理清洗得到信息明细随后通过定义和加工融合各类维度维度能得到对应的知识业务指标。而用户通过各类途径获得到指标后通过演绎推导等方法预测业务的发展然后并做出下一步的决策。
问题二“数据”影响“决策”的过程中有哪些问题和机会
我们简化一下
我们把事实梳理成信息信息加工成知识的整个过程称为知识生产。
通过智慧预测未来影响业务决策的过程称为业务决策。
而知识管理沉淀运输供给等中间环节称之为知识供给和知识获取。
这里面的每个部分其实都存在问题也包含了很多的机会。 知识生产缺乏标准化自动化的工程体系来生产指标
问题
1、缺乏标准化协议
需求流程标准数仓分层标准计算模型标准2、缺乏自动化能力
需求吞吐瓶颈纯研发人肉开发存在研发资源瓶颈需求吞吐量跟不上业务发展速度业务诉求无法得到及时满足。我们希望80%的以上指标自动化生产。计算存储资源浪费每个Project都存在非常多相同指标重复开发的情况。 这就导致了指标的重复计算重复存储浪费资源浪费钱。解法建立一套标准化自动化的工程体系去自动化的生产指标。并以此为基础拓展进行知识的供给。
知识供给缺少体系化的数据资产管理能力。
问题
数据指标失真业务常常会发现指标不对或者之前对最近突然不对了。更有甚者根本不知道指标对不对。导致大家对指标失去信赖徒增非常多的沟通成本。数据资产管理混乱一个指标好多人在生产指标的信息存放在各种地方信哪个SQL是脚本语言代码可谓千人千面没有标准注释同事离职交接时的体验尤为酸爽。数据资产不透明DAU研发效能如何定义 知道定义后那对应的表和字段是什么哪里可以查嘛 同时算子维度范围等配置明明都是一样的但生产时却无法复用。
解法需要体系化的管理指标并保证指标的准确性。当然这个重度依赖标准化自动化的知识生产能力。
知识获取知识获取效率低下
问题
指标获取效率低下运营有数据诉求不知道去哪里获取。知道哪里获取后常常也要等待研发处理获取的效率低下。口径获取效率低下研发同学常常有了解口径的诉求一样不知道去哪里查看。
解法提供统一的获取指标与口径的门户进一步可以初步实现自动化的需求分析。
业务决策缺乏有效的工具和方法论支撑。
问题
不知该用哪些指标不知如何使用指标不知哪个指标能反应真实的业务效果不知如何分析业务的北极星指标是啥不知如何影响指标不知道有哪些措施和行为能影响指标。
解法需要提供丰富的数据应用与有效数据方法论。
可以看到大部分沟通无非两件事
告诉我口径PHA轻应用是什么应用数DAU可交互时长和研发效率数据都是怎么定义的来源UV怎么计算把指标给我指标在哪里具体Sql逻辑是啥
通过平台自动化生成后可以通过如下方式自行获取 除了Sql表达式直观明了外还能在元数据管理中查看每个配置的含义当然目前交互联动还做的不够好人不够呀。因为指标是通过各配置直接生成的所以也可以保证口径与数据是强一致的。 至此可以回答一下数据平台到底要做个啥 核心是通过标准化的数仓分层建设利用平台自动化的生产管理和交付数据知识)。并沉淀算子统计范围维度等数据资产。
业务视角上将统一通过基础数据平台生产和获取指标查询口径并与其他系统进行联动。只要有一点Sql基础的运营/PD等都能自助配置出新的指标打破纯研发纯人肉生产指标的瓶颈。这就是所谓的“高度自动化体系化的知识管理系统重构知识的供给模式”。
不知道各位理解了没有。对于要做什么我就介绍这么多了......下面来大致介绍一下核心能力的具体落地方案。
三 数据平台核心技术简介
回到技术上我们的能力建设也是围绕这4点去搞。 1 知识生产—数据自动化生产能力建设
核心流程概览 指标的生成5步
1数仓分层建设kimball维度建模-星型模型
事实以明细为粒度进行数据域拆分如2001浏览域2101点击域2201曝光域交易域来源去向域业务统计域其他业务域等等。维度录入相关的Dim维表
2关系染色RelationColoring
明细事实表和维表的主键关系。
3维度染色DimensionColoring
动态填充需要的维度字段非全量冗余可以灵活适应维表的变更通过RelationColoring DimensionColoring可以完全屏蔽了复杂的关联操作Join。
4结果组装AssembleIndicator
标准Sql生产CREATE VIEW AS SELECT “Operate算子stat统计包” FROM “ColoringView染色视图” WHERE Scope统计范围 GROUP BY PeriodDim周期维度 Dim业务维度。5数据探查IndicatorResult
起Odps任务 SELECT * FROM Indicator WHERE dim LIMIT xxx; 得到结果后存入缓存便于用户进行数据探查。复合指标生成3步将多个单指标融合成单一报表
1指标圈选
2复合指标生成
可以理解成将多张表合并为1张。这一直是难题因为普通报表在生成之时就丢失了所有的过程逻辑即使存下来的也只是工程端无法规模化解析的非结构化信息。 而平台自动化生成的指标就刚好解决了这个问题。这也让指标合并成为了可能。
维度能力 多指标交并集处理 维度圈选能力黑白名单多维cube精确维度组合 维度缺省值处理处理cube后数据异常膨胀和整体维度统计值因null失准的问题 事实字段为Null处理各类型字段的默认缺省值设置。维表字段为Null处理Left Join 维度缺值导致的Null处理。
指标拼接
行 - 列 - 行 行存转列存分离出算子详细Name与Value. 再列存转行存生成可用的大宽表
3数据探查 指标物化服务依赖OpenDataworks的开放能力注意申请流程和QPS
文件创建视图转表Sql生成配置提交部署调度运维外表同步核心挑战性能
性能是自动化指标产出的难点也会是之后的亮点。我们希望通过平台生成指标的效率能最大程度的接近开发人员手动优化的性能。当然这往深了做是一个可以无限探索下去的领域。 拿平台来讲目前最大的瓶颈在多维分析的支持我们支持了维度的全量Cube而想要更好的性能则需要去配置精准的Grouping Sets而这又会大大增加前台页面的配置成本如何权衡呢是用针对高级用户提供独立的高级配置还是什么方法 我们也还在进一步探索。
2 知识供给—资产管理能力建设
7大资产管理
1指标2个
CompositeIndicator 复合指标 Indicator 原子指标
2元数据5个 Operate 算子 基础算子stat统计包均值标准差方差 Dim维度 Dim业务维度PeriodDim周期维度Scope 统计范围Domain 数据域/数据模型Table 基础表多租户管理 空间管理 工程配置Odps配置Dataworks配置Holo配置等人员管理资产隔离 开发中 权限管控 元数据权限文件权限视图权限表权限等
数据能力管理
即席查询 数据开放 开放接口指标与其口径详情查询指标变更消息
3 知识获取统一的知识获取门户设计中
这块我认为非常非常重要是可以用小成本撬动平使用体验的大幅提升也有可能成为平台核心入口。应该在能力建设的同时重点开发的方向。但是吧这块目前还没有具体的产品形态我有一些初步的设想和方案后续和产品一起设计后最终方案再具体补充
我希望设计一个统一的门户页面当任何用户有口径问题和数据需求时可以先到该页面进行对应的关键词的搜索。平台通过智能识别返回给用户具体指标算子统计范围和维度的推荐信息。有指标能直接用最好没有也可以根据口径信息自行配置所需的指标。
技术侧平台数据资产同步到至搜索引擎当然还有三个核心处理技术点处理一下1关键字提取与分词规则 2搜索结果FunctionScore加权 3:结果分类引导。 4 业务决策有效的工具和知识使用方法的方法论支撑
说实话优先级上还没到这块的轮次。 因为业务千变万化也许这就是个伪命题。 不过从技术侧来看业务决策功能是属于应用层的范畴搭建好了底层基础上层的千变万化都是能灵活快速的进行支持的我们将一边夯实基础一边与业务方一起探索具体等场景。
5 其他
关于优化我认为几个比较核心的优化方向 1、知识门户 2、指标管理与元数据的联动 3、核心链路运维与逆向流程 4、性能。
关于能力供给平台本身目前只针对内部白名单进行使用等我们打磨到自己满意了会进一步开放。 当然设计之初核心能力与应用层就是解耦的所以也有可能之后会将核心能力以SDK的形式进行开放各业务方按需进行形态的建设。敬请期待
四 小结
技术细节还有很多很多篇幅限制这里就大致介绍一下核心要做的事情。能完成一个Idea的探索并有机会和大家分享进一步思考探索优化落地还是挺有成就感的也收获颇丰起码从一个纯JAVA工程同学成为了数据Project的独立Owner。当然平台目前仍处于做大做深的阶段距离能力健全体验优秀还有很长很长的路要走需要很多的人力去堆。
都说数据越开放产生的价值越高。所以平台虽然还稚嫩但我对平台的价值坚信不疑大家一起继续打磨继续加油。
原文链接
本文为阿里云原创内容未经允许不得转载。