当前位置: 首页 > news >正文

鼓楼网站seo搜索引擎优化2345高级版

鼓楼网站seo搜索引擎优化,2345高级版,wordpress 管理入口,搭建cms网站大数据开发#xff08;离线实时音乐数仓#xff09; 一、数据库与ER建模1、数据库三范式2、ER实体关系模型 二、数据仓库与维度建模1、数据仓库#xff08;Data Warehouse、DW、DWH#xff09;1、关系型数据库很难将这些数据转换成企业真正需要的决策信息#xff0c;原因如… 大数据开发离线实时音乐数仓 一、数据库与ER建模1、数据库三范式2、ER实体关系模型 二、数据仓库与维度建模1、数据仓库Data Warehouse、DW、DWH1、关系型数据库很难将这些数据转换成企业真正需要的决策信息原因如下2、数据仓库是面向主题的、集成的非简单的数据堆积、相对稳定的、反应历史变化的数据集合数仓中的数据是有组织有结构的存储数据集合用于对管理决策过程的支持。 2、维度建模1、事实表2、维度表3、星型模型、雪花型模型 三、数据仓库的分层1、数据仓库分层设计2、数据仓库分层案例 四、项目架构.五、数据来源及采集六、数据仓库模型七、Azkaban八、Superset九、第一个业务歌曲热度与歌手热度排行1、需求2、模型设计3、数据处理流程4、使用 Azkaban 配置任务流4、使用 SuperSet 数据可视化 十、第二个业务机器详细信息统计1、需求2、模型设计3、数据处理流程4、使用 Azkaban 配置任务流5、使用 SuperSet 数据可视化 十一、第三个业务日活跃用户统计1、需求2、 模型设计3、 数据处理流程4、使用 Azkaban 配置任务流5、使用 SuperSet 数据可视化 十二、第四个业务商户营收统计1、需求2、模型设计3、数据处理流程4、使用 Azkaban 配置任务流 十三、第五个业务地区营收日报统计1、需求2、模型设计3、数据处理流程4、使用 Azkaban 配置任务流 十四、第六个业务实时统计所有用户的 pvuv1、需求2、数据采集接口及数据生产3、数据处理流程 十五、 第七个业务实时统计歌曲热榜1、需求2、数据采集接口及数据生产3、数据处理流程 一、数据库与ER建模 1、数据库三范式 第一范式原子性字段不可分 第二范式唯一性一个表只能说明一个事物有主键非主键字段依赖主键 第三范式非主键字段不能相互依赖不存在传递依赖 2、ER实体关系模型 将事物抽象为“实体”、“属性”、“关系”来表示数据关联和事物描述。 一对一关系、一对多关系、多对多关系。 二、数据仓库与维度建模 1、数据仓库Data Warehouse、DW、DWH 1、关系型数据库很难将这些数据转换成企业真正需要的决策信息原因如下 1、一个企业中可能有很多管理系统平台企业数据分散在多种互不兼容的系统中。 2、关系型数据库中存储的数据一般是最基本的、日常事务处理的、面向业务操作的数据 数据一般可以更新状态删除数据条目等。 3、对于战略决策来说决策者必须从不同的商业角度观察数据关系型数据库只是面向 基本的业务操作。 2、数据仓库是面向主题的、集成的非简单的数据堆积、相对稳定的、反应历史变化的数据集合数仓中的数据是有组织有结构的存储数据集合用于对管理决策过程的支持。 面向主题主题是指使用数据仓库进行决策时所关心的重点方面每个主题都对应一个相应的分析领域一个主题通常与多个信息系统相关。 数据集成在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的必须消除源数据中的不一致性以保证数据仓库内的信息是关于整个企业的一致的全局信息这个过程中会有 ETL 操作以保证数据的一致性、完整性、有效性、精确性。 相对稳定数据操作主要是数据查询。 反映历史变化记录企业从过去某一时点(如开始应用数据仓库的时点)到当前的各个阶段的信息。 2、维度建模 实体-关系ER建模遵循第三范式以消除数据冗余为目标的设计技术。维度建模是面向分析为了提高查询性能可以增加数据冗余反规范化的设计技术。 1、事实表 1、事实表中每个列通常要么是键值列要么是度量列。在以上事实表的示例中“地区 ID”、“产品 ID”、“月份 ID”为键值列“销售量”、“销售额”为度量列所谓度量列就是列的数据可度量度量列一般为可统计的数值列。 2、事实表中一般会使用一个代号或者整数来代表维度成员而不使用描述性的名称。 3、在事实表中使用代号或者整数键值时维度成员的名称需要放在另一种表中也就是维度表。 4、在数据仓库中事实表的前缀为“fact”。 2、维度表 维度表包含了维度的每个成员的特定名称。 1、“产品名称”是产品维度表中的一个属性维度表中可以包含很多属性列。 2、维度表中的键属性必须为维度的每个成员包含一个对应的唯一值。 3、在维度表中“产品 ID”类似关系型数据库中的主键在事实表中“产品 ID”类似关系型数据库中的外键。 4、在数据仓库中维度表的前缀为dim 3、星型模型、雪花型模型 星型模型所有的维度表都由连接键连接到事实表 雪花型模型有一个或多个维表没有直接连接到事实表上而是通过其他维表连接到事实表上 对于雪花模型一般符合三范式设计;而星型模型维度表设计不符合三范式设计利用冗余牺牲空间来避免模型过于复杂提高易用性和分析效率。 三、数据仓库的分层 1、数据仓库分层设计 ODSOperational Data Store层 - 操作数据层 为了考虑后续可能需要追溯数据问题因此对于这一层就不建议做过多的数据清洗工作原封不动地接入原始数据即可。 DWData Warehouse层 - 数据仓库层 将从 ODS 层中获得的数据按照主题建立各种数据模型每一个主题对应一个宏观的分析领域数据仓库层排除对决策无用的数据提供特定主题的简明视图。DW 层又细分为 DWDData Warehouse Detail层、DWMData Warehouse Middle层和 DWSData Warehouse Service层。 数据明细层DWDData Warehouse Detail 提供更干净的数据退化维度。 数据中间层DWMData Warehouse Middle 对通用的维度进行聚合操作算出相应的统计指标方便复用。 数据服务层DWSData Warehouse Service 按照主题划分如订单、用户等生成字段比较多的宽表。 DM(Data Mart)层 - 数据集市层 整合汇总成分析某一个主题域的报表数据。 2、数据仓库分层案例 四、项目架构. 五、数据来源及采集 一类是产生的订单数据会记录到业务数据库。后期直接通过 sqoop 直接抽取 MySQL 中的数据到 HDFS。另外一类是通过 http 请求上传到专门采集数据的日志服务器上每天由运维人员将数据打包上传到数据中心平台某个目录下然后由定时任务定时来执行 Spark 任务拉取数据上传至 HDFS 中。这里读取压缩数据使用 SparkCore 进行处理处理之后将数据以 parquet 格式或者 json 格式存储在 HDFS 中即可。 六、数据仓库模型 数据仓库按照主题分为三个主题用户、机器、内容歌曲相关、歌手相关。每个主题下面都有对应的表。数据仓库的设计分为三层如下 ODS 层 外部数据源网易云爬取歌曲热度数据、歌手热度数据爬取数据是 json 格式的数据。 内部数据源主要有 MySQL 和客户端上传 json 数据。MySQL 使用 Sqoop 抽取数据到 HDFS 中导入 ODS 层。客户端产生日志到客户端服务器客户端服务器由运维人员每天将数据压缩成包导入到 HDFS。 EDS 层 负责信息集成、轻度汇总类数据。例如将 ODS据进行清洗。 以上 ODS 层和 EDS 层使用 Spark 代码处理数据然后利用 SparkSQL 读取 ODS 层数据保存到 Hive 的 EDS 层。 DM 层 DM 层的数据有一部分是存储在 Hive 表中或者保存分析结果到 MySQL、HBase。 EDS 层数据是 parquet 格式的数据放在 Hive 的主要原因是后期使用 Kylin 查询一些业务数据放 MySQL 的都是结果数据放在 HBase 的原因是设涉及到大表的明细查询。 七、Azkaban 工作流的调度器 八、Superset 轻量级的数据查询和可视化方案。 九、第一个业务歌曲热度与歌手热度排行 1、需求 需求是根据用户在各个歌曲点唱机上的点歌行为来统计最近昨日近 7 日近 30 日的歌曲点唱量、歌曲点赞量、点唱用户数、点唱订单数、7 日和 30 日最高点唱量、7 日和30 日最高点赞量及各个周期的歌曲热度和歌手热度。 2、模型设计 歌曲歌手的基本信息 这些信息放在业务系统的关系型数据库 MySql song 表中。通过 sqoop 每天定覆盖抽取到数据仓库 Hive 中的 ODS 层中。用户在机器上的点歌行为数据 这部分数据是用户在各个机器上当天的点歌播放行为数据这些数据是运维每天零点打包以 gz 压缩文件的方式上传到HDFS平台。 3、数据处理流程 1、准备客户端日志上传至 HDFS 中 2、清洗客户端日志数据保存到数仓 ODS 层 3、抽取 MySQL 中 song 数据到Hive ODS 4、清洗“歌库歌曲表”生成“歌曲基本信息日全量表” 是对原来数据字段切分脏数据过滤时间格式整理字段提取等操作。 5、EDS 层生成“歌曲特征日统计表” 6、统计歌手和歌曲热度 注意问题 1 注意问题 2 “TW_SONG_FTUR_D”进行统计得到歌手影响力指数日统计表“TW_SINGER_RSI_D”和歌曲影响力指数日统计表“TW_SONG_RSI_D”时分别还将对应的结果使用 SparkSQL 保存到了 MySQL 中。 4、使用 Azkaban 配置任务流 1、清洗客户端日志脚本 2、mysql 数据抽取数据到 Hive ODS脚本 3、清洗歌库歌曲表脚本 4、生成歌曲特征日统计表脚本 5、生成歌曲热度表脚本 6、生成歌手热度表脚本 7、编写 azkaban 各个 job 组成任务流 8、将以上 6 个 job 打包到压缩包中在 azkaban 中提交执行即可。 4、使用 SuperSet 数据可视化 1、登录 superset 2、 加载数据源 3、加载数据表 4、修改表中对应字段显示名称 5、编辑图表 6、面板可视化展示 十、第二个业务机器详细信息统计 1、需求 2、模型设计 3、数据处理流程 1、将数据导入到对应的 MySQL 业务库中 2、使用 Sqoop 抽取数据到 Hive ODS层 3、代码对 ODS 层数据进行 ETL 清洗 4、使用 Azkaban 配置任务流 1、首先在 Hive 中创建对应的 ODSEDS 层的表 2、准备好抽取 MySql 数据表的脚本 3、编写提交 Spark 任务处理数据 4、编写 azkaban 任务流并提交执行 5、使用 SuperSet 数据可视化 十一、第三个业务日活跃用户统计 1、需求 每天统计最近 7 日活跃用户的详细信息 2、 模型设计 最终获取 7 日用户活跃信息从 EDS 层“TW_USR_BASEINFO_D表统计得到这里将统计到的 7 日活跃用户情况存放在 DM 层这里通过 SparkSQL直接将结果存放在“user_7days_active”表中提供查询展示。 3、 数据处理流程 1、将数据导入 mysql 数据库中 2、使用 Sqoop 抽取 mysql 数据到ODS层 3、使用 SparkSQL 对 ODS 层数据进行清洗 4、使用 Azkaban 配置任务流 1、确保在 Hive 中创建各个 ODS 层表及 EDS 层表 2、准备抽取 mysql 数据的 sqoop 脚本 3、编写提交 Spark 任务处理数据的脚本 4、编写 azkaban 任务进行提交 5、使用 SuperSet 数据可视化 十二、第四个业务商户营收统计 1、需求 指的是统计投资人、代理人、合伙人各部分营收情况 2、模型设计 1、TW_MAC_BASEINFO_D 机器基础信息日全量表 含每天统计到的机器的歌库版本、系统版本、所处位置、门店名称、场景情况、投资人分层比例、代理人分层比例、合伙人分层比例、公司分层比例、代理人信息等数据。 2、TW_MAC_LOC_D 机器位置信息日统计表 高德api获取每天机器所在的位置 。 3、TW_CNSM_BRIEF_D 消费退款订单流水日增量表 根据消费退款订单流水日增量表可以统计得到每天每个机器的订单、收入、退款情况后期统计商户营收情况时需要从此表中获取对应每台机器当天的订单、收入、退款情况。 4、TW_USR_BASEINFO_D 活跃用户基础信息日增量表 3、数据处理流程 1、将各个业务库的数据导入到 Mysql 中 2、在 Hive 中创建以上模型设计的表 3、执行第二个业务-机器详细信息统计 4、执行第三个业务-日活跃用户统计 5、使用 sqoop 抽取 mysql 数据到 ODS 使用 Sqoop 每天增量抽取 mysql “ycak”库下的 user_location 用户位日增量表数据到 ODS 层 TO_YCAK_USR_LOC_D表中。 使用 Sqoop 每天增量抽取 MySQL“ycak”库下的“machine_consume_detail”机器消费订单明细表到 ODS 层的 TO_YCAK_CNSM_D表。 6、使用 SparkSQL 处理 ODS 层数据得到 EDS层数据 清洗用户位置记录日增量表数据、清洗机器消费订单明细增量表 7、针对 EDS 层数据聚合得到 TW_MAC_STAT_D 机器日统计表数据 8、 针对 TW_MAC_STAT_D 机器日统计表数据得到 DM 层数据 4、使用 Azkaban 配置任务流 十三、第五个业务地区营收日报统计 1、需求 根据“机器日营收情况统计表”每天统计省市总营收、总退款、总订单数、总退款订单数、总消费用户数、同退款用户数。 2、模型设计 根据业务四中统计的“TW_MAC_STAT_D”机器日营收情况统计表按照省市字段聚合得到以上各个指标。 在 Hive 中建表TM_MAC_REGION_STAT_D 地区营收日统计表。 3、数据处理流程 使用 SparkSQL 对 ODS 层数据进行清洗。 4、使用 Azkaban 配置任务流 十四、第六个业务实时统计所有用户的 pvuv 1、需求 全网用户在实时操作机器的同时可以使用数据采集接口将实时用户登录操作数据进行采集针对这些数据可以实时统计每台机器实时的 pv/uv,以及pv/uv并需要实时保存至 Redis 或者关系型数据库 mysql 中。 2、数据采集接口及数据生产 数据采集接口原理是利用 SpringBoot 提供日志采集服务接口在 web 系统中当用户操作某个需要监控的行为时调用 SpringBoot 对应的数据服务接口通过 Log4j 日志功能将对应的日志实时写入到指定的目录日志文件中再通过 Flume 监控对应的日志目录将日志实时采集到 Kafka 中进而使用流式处理框架进行数据分析处理。 3、数据处理流程 1、在 Kafka 中创建对应的日志接收 topic 2、将日志采集接口打包部署到 mynode5 节点上 3、启动 Flume 日志采集脚本监控目录日志 Flume 配置文件配置读取目录下的日志到 Kafka中 4、启动 SparkStreaming 读取 Kafka 中数据实时统计PV,UV 5、启动生产数据代码“ProdeceUserLoginLog”调用日志采集接口生产数据 6、在 Redis 中查看对应的结果 十五、 第七个业务实时统计歌曲热榜 1、需求 实时采集用户在机器上点播歌曲的日志数据统计每分钟歌曲点播热榜。将结果保存到关系型数据库 mysql 中。 2、数据采集接口及数据生产 数据采集接口原理是利用 SpringBoot 提供日志采集服务接口在 web 系统中当用户操作某个需要监控的行为时调用 SpringBoot 对应的数据服务接口通过 Log4j 日志功能将对应的日志实时写入到指定的目录日志文件中再通过 Flume监控对应的日志目录将日志实时采集到 Kafka 中进而使用流式处理框架进行数据分析处理。 3、数据处理流程 1、在 Kafka 中创建对应的日志接收 topic 2、将日志采集接口打包部署到 mynode5 节点上 3、启动 Flume 日志采集脚本监控目录日志 Flume 配置文件配置读取目录下的日志到 Kafka中 4、启动 SparkStreaming 读取 Kafka 中数据实时统计PV,UV 5、启动生产数据代码“ProdeceUserLoginLog”调用日志采集接口生产数据 6、在 Redis 中查看对应的结果
http://www.pierceye.com/news/650076/

相关文章:

  • 免费1级做看网站上海策朋网站设计公司
  • 自贡做网站的公司wordpress网站加密码
  • 长春建设网站公司哪家好学校网站建设实施方案
  • 邯郸网站优化怎么用建设通网站会员共享密码
  • 怎么使自己做的网站有音乐简易 建站
  • 如何做免费网站制作郑州网站建设搜索优化
  • 北京网站制作17页谈谈对seo的理解
  • 西安专业建网站网站可信度必须做吗
  • 做神马网站如何做网站的推广
  • 如何提高网站排名的方法建设一个商业网站费用
  • 电商网站平台有哪些做自己的第一个网站
  • 源码资源下载站百度指数 多少流量 网站名
  • 合肥比较好的网站建设公司青阳网站建设
  • 上海地产网站建设甘肃建设厅网站二级建造师报名时间
  • 扬州网站建设推广泊头网站建设甘肃
  • 什么行业要做网站建设推广这些水墨网站设计欣赏
  • 渠道网站wap百度
  • 在网站上如何做天气预报栏wordpress 分类列表
  • 做网站需要投资多少钱做网站的销售团队
  • 苏州哪个公司做门户网站seo优化方案报价
  • 电力建设官方网站做网站送优化
  • 门户网站建设模式包括网站群和中企动力企业邮箱登陆首页
  • 做调查网站的问卷哪个给的钱高wordpress邮箱注册功能
  • 上海php网站开发基于php网站建设
  • 大丰专业做网站做旅游网站当地人服务赚钱吗
  • 长沙网站制作公司推荐seo关键词排名优化
  • 内蒙古住房与城乡建设部网站广州十大软件公司排名
  • 营销型网站 易网拓德阳做网站
  • 网站建设seo虾哥网络购物网站技术实施方案
  • 门户网站框架下载陕西省建设工会网站