当前位置: 首页 > news >正文

北京建设行政主管部门官方网站wordpress login_head

北京建设行政主管部门官方网站,wordpress login_head,贵阳网站建设-中国互联,廊坊建设网站工具篇 下面列了几个较为主流的分词工具#xff08;排名不分先后#xff0c;大家自行试用#xff09;#xff0c;相关的paper请在订阅号「夕小瑶的卖萌屋」后台回复【中文分词】领取。 1 Jieba 说到分词工具第一个想到的肯定是家喻户晓的“结巴”中文分词#xff0c;主…工具篇 下面列了几个较为主流的分词工具排名不分先后大家自行试用相关的paper请在订阅号「夕小瑶的卖萌屋」后台回复【中文分词】领取。 1 Jieba 说到分词工具第一个想到的肯定是家喻户晓的“结巴”中文分词主要算法是前面讲到的基于统计的最短路径词图切分近期还内置了百度飞桨的预训练模型大规模蒸馏的前沿分词模型。 github项目地址https://github.com/fxsjy/jieba 2 THULACTHU Lexical Analyzer for Chinese 由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包具有中文分词和词性标注功能。该工具所采用的分词模型为结构化感知机。更多算法细节请参考github项目和阅读论文原文。 github项目地址https://github.com/thunlp/THULAC 论文链接https://www.mitpressjournals.org/doi/pdf/10.1162/coli.2009.35.4.35403 使用示例 #THULAC #pip install thulac import thulacsentence 不会讲课的程序员不是一名好的算法工程师 thu1 thulac.thulac(seg_onlyTrue) #只分词 text thu1.cut(sentence, textTrue) #进行一句话分词 print(THULAC: text)#output #Model loaded succeed #THULAC: 不 会 讲课 的 程序员 不 是 一 名 好 的 算法 工程师 3 NLPIR-ICTCLAS汉语分词系统 北京理工大学海量语言信息处理与云计算工程研究中心大数据搜索与挖掘实验室 Big Data Search and Mining Lab.BDSMBIT发布。是基于层次HMM的分词库将分词、POS、NER等都纳入到了一个层次HMM的框架之下联合训练得到。 主页http://ictclas.nlpir.org/github 项目地址https://github.com/tsroten/pynlpir 使用示例 #NLPIR-ICTCLAS #pip install pynlpir import pynlpirsentence 不会讲课的程序员不是一名好的算法工程师 pynlpir.open() tokens [x[0] for x in pynlpir.segment(sentence)] print(NLPIR-TCTCLAS: .join(tokens)) pynlpir.close()#output #NLPIR-TCTCLAS: 不 会 讲课 的 程序员 不 是 一 名 好 的 算法 工程 4 LTP 哈工大出品同THULAC一样LTP也是基于结构化感知器Structured Perceptron, SP以最大熵准则学习的分词模型。 项目主页:https://www.ltp-cloud.com/github 项目地址https://github.com/HIT-SCIR/ltp 论文链接http://jcip.cipsc.org.cn/CN/abstract/abstract1579.shtml 使用示例使用前需下载分词模型http://ltp.ai/download.html 5 HanLP HanLP是随《自然语言处理入门》配套开源的一系列NLP算法库。除了经典的1.x版本在不断迭代更新以外今年还全新推出了2.0版本。1.x版本有有基于词典的分词工具和基于CRF的切词模型。2.0版本开源了基于深度学习算法的分词工具。 1.x版本 github项目地址https://github.com/hankcs/pyhanlp 2.0版本 github地址https://github.com/hankcs/HanLP/tree/doc-zh 使用示例要求Python 3.6以上使用 #HanLP #v2.0 #pip install hanlp import hanlpsentence 不会讲课的程序员不是一名好的算法工程师 tokenizer hanlp.load(PKU_NAME_MERGED_SIX_MONTHS_CONVSEG) tokens tokenizer(sentence) print(hanlp 2.0: .join(tokens)) #output #hanlp 2.0: 不 会 讲课 的 程序员 不 是 一 名 好 的 算法 工程 6 Stanford CoreNLP 斯坦福推出的切词工具可以支持多种语言。算法核心是基于CRF模型。 github项目地址https://github.com/Lynten/stanford-corenlp 论文链接https://nlp.stanford.edu/pubs/sighan2005.pdf 使用示例需要先从stanford官网下载中文切词模型https://stanfordnlp.github.io/CoreNLP/ ###stanford CoreNLP #pip install stanfordcorenlp from stanfordcorenlp import StanfordCoreNLPsentence 不会讲课的程序员不是一名好的算法工程师 with StanfordCoreNLP(rstanford-chinese-corenlp-2018-10-05-models, langzh) as nlp:print(stanford: .join(nlp.word_tokenize(sentence)))
http://www.pierceye.com/news/300611/

相关文章:

  • 电商网站建设需求网站开发培训排名
  • 厦门建设局网站城市建设郑州百度分公司
  • 长春火车站在哪广州冼村小学
  • 网站开发上海工资dedecms模板自适应
  • 湖北建设厅行政服务中心网站网络系统管理员工作内容
  • php 创建网站开发织梦网站后台打不开
  • 网站建设的企业html 网站
  • 山东省建设安全生产协会网站零基础学网站建设 知乎
  • 门户网站做等保需要备案哪些石家庄以岭药业股份有限公司招聘
  • 工信部网站备案方法红豆网桂林论坛
  • 开发网站年度工作总结及明年工作计划免费sem工具
  • 教育网站开发报告郑州哪家医院看男科比较专业
  • 企业门户网站系统wordpress 商业
  • 信金在线制作网站宁波网站建设有限公司
  • 乌海品牌网站建设如何做请求队列防止网站高并发
  • 企业网站开发平台做的网站上传到服务器
  • 企业网站开发开题报告青岛app软件开发
  • 静态网站 搜索合肥做双语外贸网站
  • 网站建设需求计划书手机应用市场
  • 乐清网站自助网站系统
  • 北京4网站建设WordPress不会php
  • wordpress百度搜索对接免费seo提交工具
  • 网站结构优化包括哪些WordPress多城市
  • 北京三屏网站制作wordpress 分词插件
  • 潍坊哪里可以做网站建设网站一定需要云服务器么
  • 高新网站建设多少钱重庆模板网站建设费用
  • 陕西的网站建设公司哪家好网站建设与维护典型案例
  • 遵义网站开发的公司有哪些网站建设vps
  • 百度网站与推广徐州网站建设网络推广
  • 8818网站建设网站建设平台一般多少钱