当前位置: 首页 > news >正文

网站设置搜索时间教育网站模板

网站设置搜索时间,教育网站模板,免费落地页制作平台,优质的营销网站建设1 one-hot representation 该单词对应所在元素为1#xff0c;向量中其他元素均为0#xff0c;向量的维度就等于词库中的单词数目  所有向量都是互相正交的#xff0c;我们无法有效的表示两个向量间的相似度  向量维度过大。 from sklearn.feature_extraction.text…1 one-hot representation 该单词对应所在元素为1向量中其他元素均为0向量的维度就等于词库中的单词数目     所有向量都是互相正交的我们无法有效的表示两个向量间的相似度     向量维度过大。 from sklearn.feature_extraction.text import CountVectorizer import seaborn as sns import matplotlib.pyplot as plt corpus [Time flies flies like an arrow.,           Fruit flies like a banana.] vocab set([word for sen in corpus for word in sen.split( )]) one_hot_vectorizer CountVectorizer(binaryTrue) one_hot one_hot_vectorizer.fit_transform(corpus).toarray() print(one_hot_vectorizer.vocabulary_) print(one_hot) sns.heatmap(one_hot, annotTrue,cbarFalse, xticklabelsvocab, yticklabels[Sentence 2]) plt.show() {time: 6, flies: 3, like: 5, an: 0, arrow: 1, fruit: 4, banana: 2} [[1 1 0 1 0 1 1]  [0 0 1 1 1 1 0]] 2 使用sklearn计算tfidf TF-IDFterm frequency–inverse document frequency词频-逆向文件频率是一种用于信息检索information retrieval与文本挖掘text mining的常用加权技术。字词的重要性随着它在文件中出现的次数成正比增加但同时会随着它在语料库中出现的频率成反比下降。 TF是词频(Term Frequency) 词频TF表示词条关键字在文本中出现的频率。这个数字通常会被归一化(一般是词频除以文章总词数), 以防止它偏向长的文件。 IDF是逆向文件频率(Inverse Document Frequency) 逆向文件频率 (IDF) 总文件数目除以包含该词语的文件的数目再将得到的商取对数得到。罕见词的IDF很高高频词的IDF很低。 TF-IDF实际上是TF * IDF 应用 关键字计算出文章中每个词的TF-IDF值之后进行排序选取其中值最高的几个作为关键字。 文章的相似性 计算出每篇文章的关键词从中各选取相同个数的关键词合并成一个集合计算每篇文章对于这个集合中的词的词频生成两篇文章各自的词频向量进而通过欧氏距离或余弦距离求出两个向量的余弦相似度值越大就表示越相似。 from sklearn.feature_extraction.text import CountVectorizer,TfidfTransformer,TfidfVectorizer from pprint import pprint import seaborn as sns from matplotlib.pylab import plt corpus [Time flies flies like an arrow.,           Fruit flies like a banana.] one_hot_vectorizer CountVectorizer() one_hot one_hot_vectorizer.fit_transform(corpus).toarray() pprint(one_hot) #输出词频 transformer TfidfTransformer() tfidf transformer.fit_transform(one_hot) vocab one_hot_vectorizer.get_feature_names() print(vocab) #打印词典 pprint(transformer.idf_ ) #输出逆文档频率 pprint(tfidf.toarray()) #输出TFIDF sns.heatmap(tfidf.toarray(), annotTrue, cbarFalse, xticklabelsvocab,             yticklabels [Sentence 1, Sentence 2]) plt.show() array([[1, 1, 0, 2, 0, 1, 1],        [0, 0, 1, 1, 1, 1, 0]], dtypeint64) [an, arrow, banana, flies, fruit, like, time] array([1.40546511, 1.40546511, 1.40546511, 1.        , 1.40546511,        1.        , 1.40546511]) array([[0.42519636, 0.42519636, 0.        , 0.60506143, 0.        ,         0.30253071, 0.42519636],        [0.        , 0.        , 0.57615236, 0.40993715, 0.57615236,         0.40993715, 0.        ]])
http://www.pierceye.com/news/601537/

相关文章:

  • 佛山建网站费用seo推广效果怎么样
  • 如何选择网站建设公司永州网页定制
  • 淮北市重点工程建设局网站重庆哪家网站
  • 音乐网站开发背景及意义自定义建设网站
  • 商标设计网站猪八戒宝塔一键wordpress
  • 公司网站用什么开发网站 建设 计划书
  • 安陆市城乡建设局网站w10怎么做信任网站
  • wordpress上站工具内网门户网站
  • 商城网站服务器漳浦建设银行网站
  • 可视化 网站开发工具音乐网站后台管理模板
  • 网站架构功能模块及描述网站聊天怎么做
  • 京东电子商务网站的建设做网站运营需要什么资源
  • 市北建筑建网站哪家好个体户可以做网站吗
  • 怎么建自己的网站?网站优化包括哪些内容
  • 网站后台登录域名国外网站网站app
  • 山西建设工程协会网站wordpress二次元主题个人
  • 加强人社局网站建设获取小程序api
  • 服务器网站备案学生ppt模板免费下载 素材
  • 手机做网站软件运营管理培训
  • 迅博威网站建设南宁 建网站 公司
  • 河北省建设机械协会是正规网站吗网站及网页设计费用
  • 门户网站seo前期铁岭网站建设移动网站
  • 肇庆免费模板建站jsp电商网站开发流程图
  • 阿里巴巴国际站网站建设青岛网站搭建公司哪家好
  • 能看人与动物做的网站浙江企业响应式网站建设设计
  • 乌兰察布做网站公司营销策划公司有哪些职位
  • 南宁区建设银行招聘网站建设部网站申请表无法打印
  • 建一个网站怎么赚钱吗家具网站源码
  • 云优化网站建设wordpress开启icon
  • 招聘网站开发的目的与意义农特产品电商网站建设目标