怎么做网站导航地图,上海圣品科技 做网站,wordpress 最简洁主题,上海十大装修公司1.3 有哪些文本表示模型?它们各有什么优缺点?
场景描述
文本是一类非常重要的非结构化数据#xff0c;如何表示文本数据一直是机器学习领域的一个重要研究方向。
知识点
词袋模型(Bag of Words)TF-IDF(Term Frequency-Inverse DocumentFrequency)主题模型(Topic Model)词…1.3 有哪些文本表示模型?它们各有什么优缺点?
场景描述
文本是一类非常重要的非结构化数据如何表示文本数据一直是机器学习领域的一个重要研究方向。
知识点
词袋模型(Bag of Words)TF-IDF(Term Frequency-Inverse DocumentFrequency)主题模型(Topic Model)词嵌入模型(Word Embedding)
问题有哪些文本表示模型?它们各有什么优缺点?难度2颗星
分析与解答 词袋模型和N-gram模型 最基础的文本表示模型是词袋模型。 顾名思义就是将每篇文章看成一袋子词并忽略每个词出现的顺序。具体地说就是将整段文本以词为单位切分开然后每篇文章可以表示成一个长向量向量中的每一维代表一个单词而该维对应的权重则反映了这个词在原文章中的重要程度。常用TF-IDE来计算权重公式为 T F − I D F ( t , d ) T F ( t , d ) × I D F ( t ) ( 1.5 ) TF-IDF(t,d)TF(t,d)×IDF(t) (1.5) TF−IDF(t,d)TF(t,d)×IDF(t)(1.5) 其中TF(td)为单词t在文档d中出现的频率IDF(t)是逆文档频率用来衡量单词t对表达语义所起的重要性表示为 I D F ( t ) l o g [ ( 文章总数 ) / ( 包含单词 t 的文章总数 1 ) ] ( 1.6 ) IDF(t)log[(文章总数)/(包含单词t的文章总数1)] (1.6) IDF(t)log[(文章总数)/(包含单词t的文章总数1)](1.6) 直观的解释是如果一个单词在非常多的文章里面都出现那么它可能是一个比较通用的词汇对于区分某篇文章特殊语义的贡献较小因此对权重做一定惩罚。 N-gram模型 问题将文章进行单词级别的划分有时候并不是一种好的做法比如英文中的natural language processing(自然语言处理)一词,如果将natural,language,processing 这3个词拆分开来,所表达的含义与三个词连续出现时大相径庭。 解决通常可以将连续出现的n个词(n≤N)组成的词组(N-gram)也作为一个单独的特征放到向量表示中去构成N-gram模型。另外同一个词可能有多种词性变化却具有相似的含义。在实际应用中一般会对单词进行词干抽取(Word Stemming)处理即将不同词性的单词统一成为同一词干的形式。 主题模型 主题模型用于从文本库中发现有代表性的主题(得到每个主题上面词的分布特性)并且能够计算出每篇文章的主题分布。 词嵌入与深度学习模型 词嵌入是一类将词向量化的模型的统称核心思想是将每个词都映射成低维空间(通常K50~300维)上的一个稠密向量(DenseVector)。K维空间的每一维也可以看作一个隐含的主题只不过不像主题模型中的主题那样直观。 问题由于词嵌入将每个词映射成一个K维的向量如果一篇文档有N个词就可以用一个N×K维的矩阵来表示这篇文档但是这样的表示过于底层。 解决在实际应用中如果仅仅把这个矩阵作为原文本的表示特征输入到机器学习模型中通常很难得到令人满意的结果。因此还需要在此基础之上加工出更高层的特征。 深度学习模型 在传统的浅层机器学习模型中一个好的特征工程往往可以带来算法效果的显著提升。而深度学习模型正好为我们提供了一种自动地进行特征工程的方式模型中的每个隐层都可以认为对应着不同抽象层次的特征。从这个角度来讲深度学习模型能够打败浅层模型也就顺理成章了。 卷积神经网络和循环神经网络的结构在文本表示中取得了很好的效果主要是由于它们能够更好地对文本进行建模抽取出一些高层的语义特征。与全连接的网络结构相比卷积神经网络和循环神经网络一方面很好地抓住了文本的特性另一方面又减少了网络中待学习的参数提高了训练速度并且降低了过拟合的风险。 参考文献 《百面机器学习》 诸葛越主编 出版社人民邮电出版社北京 ISBN978-7-115-48736-0 2022年8月第1版2022年1月北京第19次印刷