网站换空间上怎么办,做阿里云网站,营销网络建设怎么写,中国做贸易的网站用户画像系统
1 用户画像概述
1.1 什么是用户画像
用户画像就是对现实世界中用户的数学建模。现实世界的用户通过自己各种各样的行为#xff0c;浏览购买#xff0c;或者收藏#xff0c;等等这些行为会把自己的兴趣爱好等体现在这些行为中#xff0c;比如喜欢看书就会有… 用户画像系统
1 用户画像概述
1.1 什么是用户画像
用户画像就是对现实世界中用户的数学建模。现实世界的用户通过自己各种各样的行为浏览购买或者收藏等等这些行为会把自己的兴趣爱好等体现在这些行为中比如喜欢看书就会有很多购买书的行为行为就会把兴趣爱好暴露出来我们就是要基于用户建模把他兴趣的维度给划分清楚体现出来才能充分了解用户。
用户画像是描述用户的数据是符合特定需求的对用户形式化的描述源于现实又高于现实。用户画像是通过分析挖掘用户尽可能得到多的数据信息。
1.2 用户画像作用
用户精细化营销广告推送给谁优惠券如何发放等
商户精细化支持活动精准推送定价策略
个性化商品推荐购物推荐
趋势预测销售预测票房预测
大数据报告 2 用户标签画像
2.1 什么是标签
标签是某一种用户特征的符号表示在商家眼里你会被贴上各种各样的标签比如男性高富帅高学历等等。一个人有很多标签当商家想要了解客户的时候就要基于这些标签来生成用户画像所以用户画像其实就是一个整体包含了多个维度由不同的标签的集合组成的所以用户画像可以用标签的集合来表示。
2.2 用户标签的数学描述
用户标签的数学表示就是维度和特征空间标签是特征空间中的维度比如说你的基本信息就是你的性别和年龄通过性别和年龄构成一个二维空间这个二维空间可以把任何用户放到这个空间中去这个二维空间就是非常简单的特征空间。在实际当中你的标签可能上百上千上万个。
每个标签都是特征空间中的基向量向量有方向有大小的量基向量之间有关联不一定是正交的
用户画像本质就是特征空间中的高维向量
用户标签举例引用下图 3 用户画像系统流程
总体来用可以分成离线部分和在线部分用户画像所需要的基础数据需要离线的先存储下来再基于里面的数据进行建模在线部分使得业务更加完善更加充实所以总体大的部分是在离线这一端去做的。传统数据仓库也是一样的在数据仓库中按照主题建模也会包含到用户画像这个过程。
流程分为5个步骤
1明确问题①追求数据的的匹配②明确需求是分类问题还是聚类问题还是推荐等③数据的规模重要特征的覆盖度等
2数据预处理进来的数据是多种多样的如日志数据第三方合作伙伴传过来接口的数据这些数据都不是很规范对同一个维度的表述有各自的标准比如说男女的描述有些用M|F有些用0|1表示。①数据的集成数据的冗余数值的冲突②数据采样③数据清洗缺失值处理噪声数据
3特征工程①特征提取业务日志web抓取的数据第三方数据②特征处理特征清洗特征预处理如值处理特征选择特征组合降维③特征监控指标的实效性覆盖率异常值
4模型算法统计分类回归聚类语义高维偏好等
5产生如个性化推荐个性化广告
4 用户画像架构 5 性别预测分析步骤
1明确问题①属于数据挖掘中的哪一类分类聚类还是推荐等年龄预测属于分类问题②数据集规模数据集是否够大分类需要大数据集③问题假设数据是否满足所有问题的假设男女的行为是否不同比如买手机行为不带有性别特征买口红香烟等就带有性别特征。
2数据预处理
3特征工程①单个特征分析1数值型特征的处理如使用app时长可用高中低三个档次将启动次数分段成离散值2类别型特征的处理如用户使用的设备是华为或者小米这是类别特征可用采用0-1编码来处理3数据归一化。
②多个特征分析1设备类型是否决定了类型做相关性分析计算相关系数。2app启动次数和停留时长完全正相关结果表明特别相关去掉停留时长或启动次数2如果特征太多需要做降维处理
③文本数据处理的典型步骤网页-》分词-》去停用次-》向量化。 分词可以采用jieba分词去停用词停用词表除了加入常规的停用词外还可将DF较高的词加入停用词表向量化一般是将文本转换为TF或TF-IDF向量
④算法和模型1:选择算法需要考虑的因素如训练集的大小特征维度的大小要解决的问题是否是线性可分的所有特征是独立的吗需不需要考虑过拟合问题对性能有哪些要求等。
⑤算法和模型的评价分类模型采用混淆矩阵可参见分类模型评估的文章https://blog.csdn.net/weixin_43786255/article/details/100174121