当前位置: 首页 > news >正文

潍坊外贸网站建设wordpress 获取文章的分类id

潍坊外贸网站建设,wordpress 获取文章的分类id,网站建设人员要求,东莞企业网站制作推广运营文章目录 1 前言1.1 实现目的 2 数据集2.2 数据集概况2.3 数据字段 3 实现效果3.1 地铁数据整体概况3.2 平均指标3.3 地铁2018年9月开通运营的线路3.4 客流量相关统计3.4.1 线路客流量排行3.4.2 站点客流量排行3.4.3 入站客流排行3.4.4 整体客流随时间变化趋势3.4.5 不同线路客… 文章目录 1 前言1.1 实现目的 2 数据集2.2 数据集概况2.3 数据字段 3 实现效果3.1 地铁数据整体概况3.2 平均指标3.3 地铁2018年9月开通运营的线路3.4 客流量相关统计3.4.1 线路客流量排行3.4.2 站点客流量排行3.4.3 入站客流排行3.4.4 整体客流随时间变化趋势3.4.5 不同线路客流随时间变化3.4.6 不同线路的客流组成 3.5 收入消费指标统计3.5.1 线路收入排行3.5.2 各个站点对线路收入的贡献3.5.3 不同消费金额次数占比 3.6 完整乘车记录中客流统计3.6.1 数据过滤3.6.2 不同乘车区间客流量排行3.6.3 不同线路区间客流排行 3.7 实时计算3.7.1 将站点客流数据写入 Hbase 中3.7.2 按照不同的业务场景从Hbase中读取数据 4 最后 1 前言 优质竞赛项目系列今天要分享的是 地铁大数据客流分析系统 该项目较为新颖适合作为竞赛课题方向学长非常推荐 更多资料, 项目分享 https://gitee.com/dancheng-senior/postgraduate 1.1 实现目的 使用 Flink 完成数据清洗和聚合使用 Elasticsearch Kibana 的的技术路线完成了客流信息地铁收入、乘客车费、乘车区间和乘车时间的查询和可视化。 在此基础上还使用 Flink 实现了计算各线路、站点和乘车区间的客流信息等实时计算功能并将实时计算的结果写入到Hbase中供下游业务查询使用。 2 数据集 2.2 数据集概况 数据集共用 1337000 条信息其中包括 447708 条巴士的乘车信息和 781472 条地铁的出入站信息。巴士数据和地铁数据存在明显的不同 乘坐巴士只需要上车的时候刷卡因此一条记录就是一次乘车记录而地铁在进出站时均需要刷卡因此需要同时拥有一张交通卡的进出站记录才能构成一条完整的乘车记录 由于巴士的乘车记录比较简单所有本项目中主要针对地铁的乘车记录进行计算和分析地铁部分数据集的日期是北京时间 2018-09-01 05:00 ~ 2018-09-01-11:35 2.3 数据字段 3 实现效果 3.1 地铁数据整体概况 本项目只针对地铁的乘车记录进行分析下面对数据集的整体概况做介绍如图 1 所示当日(2018-09-01 05:00 ~ 2018-09-01-11:35)共计有 8 条线路的 170 个站点完成了 781472 人次的出入站其中入站 415741 人次、出站 365731 人次实际营业收入 1426697.15 元。因为不是一个完整的运营日所以出入站乘客人次并不相等。 3.2 平均指标 3.3 地铁2018年9月开通运营的线路 2018年9月该地区地铁共计有8条线路投入运行分别是1号线、2号线、3号线、4号线、5号线、7号线、9号线、11号线其具体线路图入下所示。 3.4 客流量相关统计 有关使用 Elasticsearch Kibana实现数据可视化的具体细节。 3.4.1 线路客流量排行 如图所示是线路的客流排行榜其中蓝色是入站客流绿色是出站客流根据图中信息可得到 总客流排名5 号线、3 号线、1 号线、4 号线、2 号线、7 号线、11 号线、9 号线 入站客流排名5 号线、3 号线、1 号线、4 号线、7 号线、11 号线、9 号线、2 号线 出站客流排名1 号线、5 号线、3 号线、2 号线、4 号线、7 号线、11 号线、9 号线 3.4.2 站点客流量排行 总客流量的排行 从图站点总客流排行可以看出五和、布吉站深圳东火车站、罗湖站深圳火车站、深圳北深圳北高铁站和民治分列前五其中五和、布吉和民治入站客流明显多于出站客流而罗湖站和深圳北则完全相反这些车站基本都是不同线路的换乘车站。 3.4.3 入站客流排行 对于入站客流五和、布吉深圳东火车站、丹竹头、民治和龙华分列前五 3.4.4 整体客流随时间变化趋势 从图 中可以看出出入站客流随时间变化都出现了明显的高峰但是具体来说又存在不同 入站客流的高峰在 08:30 附近早于出站客流高峰的 08:45 附近在 08:37 之前入站的客流都是多于出站客流出站客流在 08:35-08:55 出现了大幅增加这也与大部分公司固定的 9 点上班相吻合。整体来说入站客流的波动性没有出站客流那么剧烈因为入站客流相对于地铁到站瞬间大量出站乘客来说相对更平稳没有那么明显的波峰出现。 3.4.5 不同线路客流随时间变化 由于图表篇幅的限制只显示客流量前四的线路。从图 2.8 中可以看出 地铁 5 号线、地铁 3 号线、地铁 1 号线在不同时间段客流量的变化较大尤其是是 5 号线早高峰十分明显由此推测人们的工作地点多集中在 5 号线附近从客流量也可以佐证这个观点。 3.4.6 不同线路的客流组成 以客流量最多的五号线为例从图 2.9 可以看出五和、深圳北、民治三个站点的客流分别占全线客流的 9.53 9.53% 9.53、 7.96 7.96% 7.96、 7.24 7.24% 7.24同时这三个站的客流量也排名所以站点客流的第一、第四和第五位右侧图例从上到下客流量依次减少。 3.5 收入消费指标统计 3.5.1 线路收入排行 从图 可以看出虽然 1 号线的客流量只能排在 5 号线和 3 号线之后屈居第三但是其线路的收入却排名第一。而客流量第四的 4 号线其收入只能排在第六位。 3.5.2 各个站点对线路收入的贡献 以收入最多的地铁 1 号线为例罗湖站、会展中心站和桃园站对全线的收入贡献分列前三而前海湾则是全线副班长贡献最少。右侧图例从上到下对线路收入贡献依次减少。 3.5.3 不同消费金额次数占比 从图中可以看出、实际消费金额为 2.85、1.9、4.75、3.8和5.7排名总消费次数的前五。 值得注意的是消费金额为0在总消费次数中的占比为 2.13 2.13% 2.13这个一方面是深圳地铁确实对部分人群免费乘坐另外一部分是有内部员工卡产生的。 3.6 完整乘车记录中客流统计 3.6.1 数据过滤 数据中存在大量的数据不能构成完整的情况如 对于一张卡只有入站或车站单条记录的显然不能构成一条完整的行程记录对于入站点和出现点相同的情况显然是不合理的数据同样不能构成一条合理行程记录对于入站时间在 06:00 之前的记录同样不计算在内因为深圳地铁的所有线路平均首班车时间在06:20左右所以猜测可站点对外开放时间不会早于6:00。对于按照时间排序之后同一张卡出现连续两次均为入站或出站的视为不合法数据 入站时间早于06:00和入站点出站点相同的数据 ​ 深圳地铁的运营时间都是 6 点以后所以之前的数据记录均有内部工作人员活所产生视为无效数据如卡号为 HHJJAFGAH 的用户在同一条线路的同一站点产生的这 6 条数据从实际消费金额为 0.0 也可以佐证此推论1535752434000,HHJJAFGAH,0.0,0.0,地铁入站,地铁二号线,0,大剧院,AGM-109,260036109 2018/9/1 5:53:541535752629000,HHJJAFGAH,2.0,0.0,地铁出站,地铁二号线,0,大剧院,AGM-117,260036117 2018/9/1 5:57:91535754065000,HHJJAFGAH,0.0,0.0,地铁入站,地铁二号线,0,大剧院,AGM-109,260036109 2018/9/1 6:21:51535754386000,HHJJAFGAH,2.0,0.0,地铁出站,地铁二号线,0,大剧院,AGM-117,260036117 2018/9/1 6:26:261535758541000,HHJJAFGAH,0.0,0.0,地铁入站,地铁二号线,0,大剧院,AGM-113,2600361131535758687000,HHJJAFGAH,2.0,0.0,地铁出站,地铁二号线,0,大剧院,AGM-105,260036105随然该持卡人极可能是内部用户但是下面这条数据将被作为有效数据因为乘车事件是真实发生的从大剧院 - 晒布1535766418000,HHJJAFGAH,0.0,0.0,地铁入站,地铁二号线,0,大剧院,AGM-117,260036117 2018/9/1 9:46:581535767398000,HHJJAFGAH,2.0,0.0,地铁出站,地铁三号线,0,晒布,AGM-105,261013105 2018/9/1 10:3:18连续两次均为入站的数据1535755820000,CBCGDHCBB,0.0,0.0,地铁入站,地铁五号线,0,太安,AGT-118,2630351181535759424000,CBCGDHCBB,0.0,0.0,地铁入站,地铁四号线,0,清湖,AGM-105,2620111051535759862000,CBCGDHCBB,2.0,1.9,地铁出站,地铁四号线,0,清湖,AGM-108,2620111081535756340000,HHACJJFHE,0.0,0.0,地铁入站,地铁四号线,0,莲花北,AGM-109,2620201091535756926000,HHACJJFHE,0.0,0.0,地铁入站,地铁四号线,0,上梅林,AGM-110,2620191101535757664000,HHACJJFHE,2.0,0.0,地铁出站,地铁四号线,0,上梅林,AGM-104,2620191041535758092000,HHACJJFHE,0.0,0.0,地铁入站,地铁四号线,0,上梅林,AGM-110,2620191101535758342000,HHACJJFHE,2.0,0.0,地铁出站,地铁四号线,0,莲花北,AGM-107,262020107 经过以上指标过滤之后得到能够构成完整且合理的出入站记录 572156 条每两条记录组成一条完整的行程记录 因此有 286078 条合法行程记录其中包含了入站和出站的时间、线路、站点、刷卡设备等还能计算出单次乘车所用时间。 3.6.2 不同乘车区间客流量排行 排名前三的乘车区间是赤尾 — 华强北福民福田 — 口岸、五和 — 深圳北 3.6.3 不同线路区间客流排行 从图可以看出5 号线直达3 号线直达和 1 号线直达的客流最多。 3.7 实时计算 通过Flink可以实时计算过去的某个时间段内个站点的出入站客流量以及总客流量不同站点区间的客流量以及不同线路区间的客流量等指标。 对于实时计算的结果可以使用 Redis 或者 Hbase 来进行存储对于两者的技术特点对比如下 Redis作为纯内存NoSQL虽然读写性能十分优秀但其支持的数据量通常受内存限制而HBase没有这个限制可以存储远超内存大小的数据HBase采用WAL先记录日志再写入数据理论上不会丢失数据。而Redis采用的是异步复制数据在failover时可能会丢失数据客流信息作为基本不需要再次变动已经固化 非常适合使用 HBase 来存储。 综上本项目中使用 Hbase 来存储实时计算的数据结果。 3.7.1 将站点客流数据写入 Hbase 中 首先在 Hbase shell 中使用以下命令建立存储表 ​ create ‘StationTraffic’, {NAME ‘traffic’} 执行 com.ngt.traffic.HBaseWriterStationTraffic 将站点的客流信息写入 Hbase 中 ​ # 时间 客流排名 2018-09-01 11:30 001 columntraffic:count, timestamp1609614078234, value117 2018-09-01 11:30 001 columntraffic:name, timestamp1609614078234,value\xE8\x80\x81\xE8\xA1\x97 代码中统计的是过去五分钟的客流量信息每一分钟滚动一次 ​ .timeWindow(Time.minutes(5), Time.minutes(1)) 3.7.2 按照不同的业务场景从Hbase中读取数据 执行 com.ngt.traffic.HBaseReaderStationTraffic 实现相关功能 需求1查询 2018-09-01 08:30 - 2018-09-01 08:45 各站点最近五分钟的客流 ​ case class Traffic(time: String, rank: String, station: String, count: String) val dataStream1: DataStream[(String, String)] // 表名列族名起始Rowkey终止Rowkey(取不到) env.addSource(new HBaseReader(“StationTraffic”, “traffic”,“2018-09-01 08:30”, “2018-09-01 08:46”)) dataStream1.map(x {val keys: Array[String] x._1.split( )val values: Array[String] x._2.split(_)Traffic(时间: keys(1), 站点: values(1), 排名: keys(2), 客流量: values(0)) }) .map(data {println(data.time, data.rank, data.station, data.count) })--------------------------------------- (时间:08:30,排名:001,站点:五和,客流量:548) (时间:08:30,排名:002,站点:民治,客流量:386) (时间:08:30,排名:003,站点:布吉,客流量:369) (时间:08:30,排名:004,站点:丹竹头,客流量:343) (时间:08:30,排名:005,站点:南山站,客流量:340) (时间:08:30,排名:006,站点:深圳北,客流量:313) (时间:08:30,排名:007,站点:罗湖站,客流量:306) ......需求2查询 2018-09-01 06:30 - 2018-09-01 11:30 客流量排名前 3 的站点 ​ val dataStream2: DataStream[(String, String)] env.addSource(new HBaseReader(“StationTraffic”, “traffic”,“2018-09-01 06:30”, “2018-09-01 11:31”)) dataStream2.map(x {val keys: Array[String] x._1.split( )val values: Array[String] x._2.split(_)Traffic(时间: keys(1), 排名: keys(2), 站点: values(1), 客流量: values(0)) }) .filter(_.rank.substring(3).toInt 3) .map(data {println(data.time, data.rank, data.station, data.count) }) --------------------------------------- (时间:08:30,排名:001,站点:五和,客流量:548) (时间:08:30,排名:002,站点:民治,客流量:386) (时间:08:30,排名:003,站点:布吉,客流量:369) (时间:08:31,排名:001,站点:五和,客流量:577) (时间:08:31,排名:002,站点:南山站,客流量:436) (时间:08:31,排名:003,站点:布吉,客流量:405) (时间:08:32,排名:001,站点:五和,客流量:602) (时间:08:32,排名:002,站点:南山站,客流量:439) (时间:08:32,排名:003,站点:布吉,客流量:413) (时间:08:33,排名:001,站点:五和,客流量:594) (时间:08:33,排名:002,站点:南山站,客流量:451) (时间:08:33,排名:003,站点:布吉,客流量:393) ......不同乘车区间是同样的道理更多的业务场景不在列举。 4 最后 更多资料, 项目分享 https://gitee.com/dancheng-senior/postgraduate
http://www.pierceye.com/news/764901/

相关文章:

  • 做装饰材料的网站dede英文网站
  • 长沙招聘网站哪个最好网站登录页面html模板
  • 网页创建网站做商城网站报价
  • 网网站建设公司网络整合营销
  • 广州本地门户网站wordpress视频格式
  • 做网站如何购买服务器自己做的网站注册用户无法收到激活邮箱的邮件
  • 商城网站系统建设中信建设有限责任公司 吴方旭
  • 辽阳市建设行业培训中心网站蒙文门户网站建设
  • 凡科建站官网入口wordpress个性首页
  • 上海信息技术做网站不连接wordpress安装
  • 高端网站开发培训免费企业黄页查询网站
  • 最新的网站开发技术全国新冠新增最新消息
  • 试玩app推广网站建设广州网站维护制作
  • 2018年网站设计公司阿里巴巴网官方网站
  • 英文网站常用字体icp备案的网站名称
  • 扬州恒通建设网站镇江润州区建设局网站
  • 关于网站制作的论文网站注册时间
  • 一个人可以备案几个网站做图去哪个网站找素材
  • 江苏建设管理信息网站自己可以做装修效果图的网站
  • html网站欣赏杭州战争网站建设
  • 乐清市做淘宝网站公司网站支付体现功能怎么做
  • 做网站公司促销海报本网站只做信息展示
  • 网站建设商城模板仿我喜欢网站源码免费
  • 工商服务网优化网站推广
  • 嘉兴网站系统总部做一个网站一般要多少钱
  • win10电脑做网站网站为什么有价值是
  • 凡科网站建设视频impreza 4 wordpress
  • 北京大兴地区网站建设国外网站设计欣赏分析
  • 如何在网站中加入百度地图广东深圳软件开发公司
  • 诸城网站建设报价兰州网站建设公司有哪些