当前位置: 首页 > news >正文

html网站首页手机网站排名优化软件

html网站首页,手机网站排名优化软件,怎样让网站被百度收录,钓鱼网站的制作教程引言近年来涌现出越来越多的非结构化数据#xff0c;我们很难直接利用传统的分析方法从这些数据中获得信息。但是新技术的出现使得我们可以从这些轻易地解析非结构化数据#xff0c;并提取出重要信息。主题模型是处理非结构化数据的一种常用方法#xff0c;从名字中就可以看…引言近年来涌现出越来越多的非结构化数据我们很难直接利用传统的分析方法从这些数据中获得信息。但是新技术的出现使得我们可以从这些轻易地解析非结构化数据并提取出重要信息。主题模型是处理非结构化数据的一种常用方法从名字中就可以看出该模型的主要功能就是从文本数据中提取潜在的主题信息。主题模型不同于其他的基于规则或字典的搜索方法它是一种无监督学习的方法。主题可以由语料库中的共现词项所定义一个好的主题模型的拟合结果应该如下所示——“health”、“doctor”、“patient”、“hospital”构成医疗保健主题而“farm”、“crops”、“wheat”则构成农业主题。主题模型的适用领域有文档聚类、信息提取和特征选择。比如纽约时报利用主题模型的结果来提升文章推荐引擎的功能。许多专家将主题模型应用到招聘领域中利用主题模型来提取工作要求中的潜在信息并用模型的拟合结果来匹配候选人。此外主题模型还被用于处理大规模的非结构化数据如邮件、顾客评论和用户社交数据。如果你不熟悉主题模型的话那么本文将告诉你主题模型的原理以及如何利用Python来构建主题模型。目录LDA(Latent Dirichlet Allocation) 模型LDA 模型的参数Python 实现过程数据准备数据清洗与预处理计算文档词频矩阵构建 LDA 模型拟合结果建议频数过滤法标记过滤法Batch Wise LDA特征选择LDA 模型我们可以用多种方法来处理文本数据比如 TF 和 IDF 方法。LDA模型是最流行的主题模型我们接下来将详细介绍 LDA 模型。LDA 模型假设文档是由一系列主题构成的然后再从这些主题中依据相应的概率分布生成词语。给定一个文档数据集LDA 模型主要用于识别文档中的主题分布情况。LDA 模型是一种矩阵分解技术在向量空间模型中任何语料都能被表示成一个文档词频矩阵。如下所示矩阵中包含 N 篇文档M 个词语矩阵中的数值表示词语在文档中出现的频率。LDA 模型将上述的文档词频矩阵转换成两个低维的矩阵—— M1 和 M2。其中 M1 表示文档主题矩阵M2 表示主题词语矩阵它们的维度分别是 N*K 和 K*MK 表示文档中主题的个数M 表示词语的数量。需要注意的是上述两个矩阵提供了文档主题和主题词语的初始分布情况LDA 模型通过抽样的方法来更新这两个矩阵。该模型通过更新文档中每个词语的主题归属情况来调整模型的参数值 p1 和 p2其中 $p1 p(\frac{topict}{documentd})$$p2 p(\frac{wordw}{topict})$。经过一系列的迭代计算后LDA 模型达到收敛状态此时我们即可得到一组最佳参数值。LDA 模型的参数超参数 alpha 和 beta —— alpha 表示文档—主题密度beta 则表示主题—词语密度其中 alpha 值越大表示文档中包含更多的主题而更大的 beta 值则表示主题中包含更多的词语。主题中的词数——这个参数取决于你的真实需求如果你的目标是提取主题信息那么你最好选择较多的词语。如果你的目标是提取特征那么你应该选择较少的词项。迭代次数—— LDA 算法的迭代次数Python 实现数据准备以下是一些示例数据数据清洗与预处理数据清洗是文本建模分析过程中的一个重要环节在这个过程中我们将移除标点符号、停止词并规整数据集计算文档词频矩阵构建 LDA 模型拟合结果建议主题模型的拟合结果完全取决于语料库中的特征项而语料是由一个稀疏的文档词频矩阵所构成的。降低该矩阵的维度可以提升主题模型的拟合结果根据我的个人经验主要有以下几个降维方法频数过滤法我们可以按照词语的频数进行排序然后保留频数较高的词语并将频数较低的词语剔除掉。此外我们还可以借助探索性分析的方法来决定如何设置阈值。标记过滤法通常情况下标记过滤法的效果优于频数过滤法。主题模型通过词语的共现情况来反映主题信息然而在每个主题中并不是所有的词语都是同等重要的。我们可以将这些无关紧要的词语剔除掉提升模型的拟合效果。Batch Wise LDA为了提取出文档中最重要的主题信息我们可以将语料库分割成一系列固定大小的子集。然后我们可以对每个子集数据构建多个 LDA 模型出现次数最多的主题就是该文档中最重要的主题信息。特征选择有些时候我们还可以利用 LDA 模型来选择特征。以文本分类问题为例如果训练集中包含多个类别的文档我们可以首先构建 LDA 模型然后剔除掉不同类别文档中共同出现的主题信息剩余的特征即为有助于提升文本分类模型的准确率。结语到此为止我们已经介绍完主题模型了我希望本文能够帮你了解如何处理文本数据。如果你想加深对主题模型的理解那么我建议你最好亲自练习下本文的代码并检查模型的拟合结果。如果你觉得本文对你有帮助的话你可以将此文分享给你的朋友。***原文作者Shivam Bansal译者Fibears
http://www.pierceye.com/news/386757/

相关文章:

  • 抚远佳木斯网站建设领动建站
  • 班级网站 建设模板做任务佣金网站源码
  • 网站的关键词库广州建网站培训
  • 好的网页设计网站网站排名提升工具
  • 个人网站需要那些企查查入口网页版
  • 怎么用自己主机做网站、淮南网站推广
  • 丰台网站制作网站域名.xin
  • 省建设厅网站6工作室网页模板
  • 怎么制作免费网站教程视频wordpress 准迁
  • html5新增标签seo网址超级外链工具
  • 自己做的网站访问不了建站如何挣钱
  • 网盘做网站做网站推广员工
  • 河北正规网站建设比较网页制作平台哪家好
  • 2017网站seo如何做wordpress设置登录背景
  • 网站的模块怎么做网站建设的技术支持包括
  • 青岛网站设计哪家好游戏小程序开发定制
  • 建设网站西丽提升网站建设品质
  • 大良营销网站建设方案广东东莞划定多个高风险区
  • 毕业设计做网站用什么品牌网站建设新闻
  • c 网站开发用的人多吗做it行业招标网站有哪些
  • 招聘做牙技工的网站用html框架做网站
  • 本地wordpress站点上传央企网站群建设
  • 广州免费自助建站开发wordpress公园
  • 淘宝客建网站简单网站建设优化推广
  • 长沙做网站找哪家好毕业设计开题报告网站开发
  • 可以写代码的网站有哪些问题吗网页设计与网站建设期末考试试卷
  • 美工做网站怎么收费网站设计规范
  • 建网站需要注意的问题企业整合营销
  • 2018网站开发的革新wordpress 更新数据库
  • 做现金贷的网站有哪些如何自己建立一个网站