黄浦网站设计,西安网站开发公司地址,网络推广工作,服装网站建设规划方案在做多年的数据仓库项目#xff0c;数据湖也在做#xff0c;但是做完发现#xff0c;这个不是传统数据库里面的ODS吗#xff1f;
好多公司做数据湖#xff0c;就是把数据湖做成了ODS层#xff08;贴源数据层#xff09;#xff0c;难道真的数据湖就是这样等于ODS吗数据湖也在做但是做完发现这个不是传统数据库里面的ODS吗
好多公司做数据湖就是把数据湖做成了ODS层贴源数据层难道真的数据湖就是这样等于ODS吗最近在接触国外一些数据湖项目才发现我们还是传统的思路。
数据湖在我们的理解里面最多的词,流批一体“iceberghudi”“存算分离”是不是很多公司都是这样做的。但是这个真的数据湖吗。你问他数据湖有那些特点他会说CDCsparkflink流批一体三剑客iecberg,hudi和dealta。ppt 画的内容重点都在讲cdc ,flink 里面各种算子。等等。数据湖是这样吗销售在讲数据湖ppt 画一个湖湖里有个猫在钓鱼钓到鱼装到数据仓里面。大数人理解都是这样可是我问湖里面有没有螃蟹非结构化钓到螃蟹放到哪里这些人都傻眼了还有一些人硬套iceberg 社区各种问iceberg 怎么存非结构化。
我们数据湖做出来的内容还是ODS数仓数据集市报表这一套流程。无非从技术上多了cdc实时计算flink存算分离doris hadoopMPP 这一大堆技术。并且ODS大部分就是做数仓的团队在维护业务人员想用数据都是给做成报表或者做成数据接口API更有把数据卸载另外一个数据库给到业务系统。
最近在接触一个国外的一家公司数据湖项目先说一些了解的情况用的技术都差不都用的微软的Azure,对象存储微软一套开发工厂pgsql数仓BI。技术没有啥新奇的。具体说一下他们数据湖怎么做的。
他们对数据湖的概念是业务系统不是IT部门做数仓一个团队搞得。数据湖是所有团队参与的。比如他们有数据湖管理平台。主要数据接入数据权限管理数据大部分是业务系统上传的csv文件个别有json.也有从数据库cdc数据。他们会结合对象存储。划分权限。每个部门或者个人都有你文件夹的权限。你可以上传你部门的数据但是别人是看不到的如果数仓需要拿你的数据需要你给一个路径或者文件地址。类似百度网盘。里面会有数据文件。需要处理会有专门人处理数据。第二功能就是可以上传任何数据csv,图片视频ParquetAvro ,啥格式都有。如果数仓要数据或者ML算法那边需要数据就会给一个目录路径。第三个就是对每个文件有生命周期或者权限记录跟踪这个文件分享后谁有权限操作给谁用。文件是离线的还是实时更新的。都有日志记录。
他们的平台其实没有啥新奇但是对数据湖的理解。这里面的权限支持各种文件的录入。数据文件的分享交互而不是数据库表。他们给你的是一个元数据。里面描述的文件路径加工方式数据文件格式。当然里面也有iceberg表但是它只是数据文件的一种而给你的只是文件目录里面记录Parquet 格式的文件但是你可以从元数据看到表的信息。至于说你怎么加工你只管去这里面获取数据就行。如果是离线的里面每天会生成文件夹。按照日期定时生成目录。元数据里面会告诉你数据的频度。你可以根据情况使用。
其实他们数据湖的数据还是各个业务系统的所属权。而不是我们在hive 里面建设好几个库或者一个库在表的前面加上业务编号。这些数据采集后属于谁的其实都没有明确。我们因为是数仓团队接入的理论上还是数仓的。其他团队要用或者修改你肯定不愿意。你怕把你的ods给整坏了。
他们的基于数据目录元数据 平台管理。只是给你分享数据目录这个概念我觉得应该才是数据湖的形状属性。数据湖一定是鱼虾海豚鲨鱼啥都应该有。不是两个数据库相互导数据。数据湖一定是多部门参与多团队共建。而不是某一个团队的专属。
最后总结1.数据湖的数据接入应该多样性csvcdc数据文件http等等都应该可以对接。2.数据湖还是要以文件存储什么文件都可以要有权限管理。3.基于数据元的管理要对文件的描述不管是结构化非机构都应该有元数据描述。4.可以分享数据文件数据文件应该还是有归属权是谁的数据文件就是谁的资产你想给谁可以分享。共同参与。