当前位置: 首页 > news >正文

用自己网站做淘宝客深圳上市公司一览表

用自己网站做淘宝客,深圳上市公司一览表,服务佳的小企业网站建设,手机软件商店下载使用Spacy python库做中文词性和词频分析#xff0c;读取word并给出其中每个词的词频和词性#xff0c;写入excel表。 1、为什么选择Spacy库 相比与NLTK这个库更快和更准 2、模型比较 zh_core_web_trf模型#xff0c;模型大#xff0c;准确性高。 需要确保你的Spacy版本是…使用Spacy python库做中文词性和词频分析读取word并给出其中每个词的词频和词性写入excel表。 1、为什么选择Spacy库 相比与NLTK这个库更快和更准 2、模型比较 zh_core_web_trf模型模型大准确性高。 需要确保你的Spacy版本是最新的因为zh_core_web_trf是一个基于transformer的模型因为它包含了整个transformer模型。下载和加载这个模型可能需要一些时间并且会占用较多的内存。 传统的模型如zh_core_web_sm模型小准确性低 3、常见问题 模型下不下来,直接去github下载whl或者在csdn上下载我的资源。 cd /your_path pip install xx.whl4、代码 代码如下 import pandas as pd from docx import Document import spacy# 加载Spacy的中文模型 nlp spacy.load(zh_core_web_trf)# 读取Word文档 path_rrxx.docx doc Document(path_r) text .join([paragraph.text for paragraph in doc.paragraphs])# 分析文本 tokens nlp(text) word_freq {}for token in tokens:if token.text in word_freq:word_freq[token.text] 1else:word_freq[token.text] 1# 提取词性和词频 results [] for token in tokens:results.append([token.text, token.pos_, word_freq[token.text]])# 转换为DataFrame df pd.DataFrame(results, columns[词, 词性, 词频])# 写入Excel df.to_excel(analysis_results.xlsx, indexFalse)在没有GPU的情况下模型推理巨慢无比可以考虑使用以下的多进程方式其中nlp spacy.load(‘zh_core_web_trf’)可能无法pickle需要放入analyze_text(paragraph_text, nlp)函数内部。 import pandas as pd from docx import Document import spacy from multiprocessing import Pool, cpu_count from functools import partial import itertools# 加载Spacy的中文模型 nlp spacy.load(zh_core_web_trf)def analyze_text(paragraph_text, nlp):# 分析文本段落tokens nlp(paragraph_text)word_freq {}for token in tokens:if token.text in word_freq:word_freq[token.text] 1else:word_freq[token.text] 1# 提取词性和词频results []for token in tokens:results.append([token.text, token.pos_, word_freq[token.text]])return resultsdef main():# 读取Word文档path_r rC:\Users\xueshifeng\Desktop\合并.docxtry:doc Document(path_r)except Exception as e:print(fError occurred while loading the document: {e})returntext .join([paragraph.text for paragraph in doc.paragraphs])# 分割文本到段落级别考虑实际情况调整paragraphs [p for p in text.split( ) if p.strip()]# 创建一个进程池with Pool(processescpu_count()) as pool:# 为每个进程创建一个新的nlp实例with nlp.disable_pipes(*nlp.pipe_names):analyze_text_with_nlp partial(analyze_text, nlpnlp.clone())results pool.map(analyze_text_with_nlp, paragraphs)# 直接构建DataFrameflat_results list(itertools.chain.from_iterable(results))df pd.DataFrame(flat_results, columns[词, 词性, 词频])# 写入Exceldf.to_excel(analysis_results.xlsx, indexFalse)if __name__ __main__:main()
http://www.pierceye.com/news/480857/

相关文章:

  • 仿同程网 连锁酒店 网站模板系统模板html
  • 推广网app下载seo课程
  • 有效方法的小企业网站建设域名怎么拿来做网站
  • 网站版面如何布局做一个企业的网站怎么做的
  • 天门市城市建设管理局网站大连专业网页设计
  • 百度网站收录提交入口全攻略网站支付体现功能怎么做
  • 网站更改文章标题主流跨境电商平台有哪些
  • vue做直播网站上海最繁华的五个区
  • 做网站和微信小程序电子商务网站建设与管理的背景
  • 做网站国内阿里云虚拟主机多少钱东莞常平中学高中部
  • 用.net做购物网站灵山建设局网站
  • 烟台网站设计制作公司电话python购物网站开发流程
  • 医疗网站怎么做seo怎样通过网址浏览自己做的网站
  • 湖北现代城市建设集团网站wordpress用户头像插件
  • 徐州双语网站制作响应式网站开发pdf
  • 怎么做建设网站公司创建一个网站多少钱
  • 好看的扁平化网站wordpress插件编写
  • 深圳网站设计模板ps可以做网站动态图
  • 微信网站制作入门网站开发实施方案进度
  • 网站用户界面设计国内网站建设最好公司
  • 运城做网站费用高吗高端模板建站
  • 凡客诚品网站设计合肥网红打卡地
  • 淘宝网站代理怎么做的广西送变电建设公司铁塔厂网站
  • 自媒体网站开发网站的推广方式包括
  • 教育做的比较好的网站有哪些网站的建设及维护
  • dw设计做网站案例建设网站杭州
  • 做网站认证对网站有什么好处广西网站建设开发团队
  • 建一个网站需要哪些知识无锡大型互联网公司
  • 餐饮公司 网站建设做网站一年大概的盈利
  • 做金融怎么进基金公司网站免费行情软件网站游戏