当前位置: 首页 > news >正文

河南五建建设集团有限公司网站excel小程序商店

河南五建建设集团有限公司网站,excel小程序商店,行业网络营销,wap网站开发教程目录 1.语料库 2.语料库建设 #xff08;1#xff09;规范制定 #xff08;2#xff09;人员培训 #xff08;3#xff09;人工标注 3.中文处理中的常见语料库 #xff08;1#xff09;中文分词语料库 #xff08;2#xff09;词性标注语料库 #xff08;3…目录 1.语料库 2.语料库建设 1规范制定 2人员培训  3人工标注 3.中文处理中的常见语料库 1中文分词语料库 2词性标注语料库 3命名实体识别语料库 4句法分析语料库 5文本分类语料库 4.NLP开源工具 1.语料库 语料库就是自然语音处理中的数据集。 2.语料库建设 语料库建设指的是构建一份语料库的过程分为规范制定、人员培训与人工标注这 3个阶段。 1规范制定 指的是由语言学专家分析并制定一套标注规范这份规范包括标注集定义、样例和实施方法。 在中文分词和词性标注领域比较著名的规范有 - 北京大学计算语言学研究所发布的《现代汉语语料库加工规范-——词语切分与词性标注》 - 中国国家标准化管理委员会发布的《信息处理用现代汉语词类标记规范》 2人员培训  指的是对标注员的培训由于人力资源的限制制定规范与执行规范的未必是同一批人。大型语料库往往需要多人协同标注 这些标注员对规范的理解必须达到一致否则会导致标注员内部冲突影响语料库的质量 3人工标注 针对不同类型的任务人们开发出许多标注软件其中比较成熟的一款是 brat ( brat rapidannotation tool )它支持词性标注、命名实体识别和句法分析等任务brat是典型的B/S架构服务端用Python编写客户端运行于浏览器相较于其他标注软件brat最大的亮点是多人协同标注功能此外拖曳式的操作体验也为brat增色不少。 3.中文处理中的常见语料库 1中文分词语料库 由人工正确切分后的句子集合。以著名的“ 1998年《人民日报》语料库 ”为例该语料库由北京大学计算语言学研究所联合富士通研究开发中心有限公司在人民日报社新闻信息中心的许可下从 1999 年4月起到 2002 年 4 月底共同标注完成语料规模达到2600万汉字。 先  有  通货膨胀  干扰后  有  通货  紧缩  叫板。 2词性标注语料库 它指的是切分并为每个词语指定一个词性的语料。依然以《人民日报》语料库为例“ 1998年的《人民日报》”一共含有 43 种词性这个集合称作“ 词性标注集 ” 迈向/v 充满/v 希望/n 的/u 新/a 世纪/n ——/w 一九九八年/t 新年/t 讲话/n 3命名实体识别语料库 这种语料库人工标注了文本内部制作者关心的“ 实体名词 ”以及“ 实体类别 ”。比如《人民日报》语料库中一共含有人名、地名和机构名3种命名实体。这个句子中的加粗词语分别是“ 人名 ”、“ 地名 ”和“ 机构名 ”中括号括起来的是“ 复合词 ”我们可以观察到 有时候机构名和地名复合起来会构成更长的机构名这种构词法上的嵌套现象增加了命名实体识别的难度 萨哈夫/nr 说/v ,/w 伊拉克/ns 将/d 同/p [联合国/nt 销毁/v 伊拉克/ns 大规模/b 杀伤性/n 武器/n 特别/a 委员会/n] /nt 继续/v 保持/v 合作/v 。/w 4句法分析语料库 汉语中常用的句法分析语料库有 CTB Chinese Treebank中文树库 这份语料库的建设工作始于1998年历经宾夕法尼亚大学、科罗拉多大学和布兰迪斯大学的贡献一直在发布多个改进版本。以 CTB 8.0 版为例一共含有来自新闻、广播和互联网的3007篇文章共计 71369 个句子、1620 561 个单词和 2589848 个字符每个句子都经过了分词、词性标注和句法标注其中一个句子可视化后如图1-6所示。 中文单词上面的英文标签表示“ 词性 ”而箭头表示“ 有语法联系 ”的两个单词具体是何种联系由箭头上的标签表示。 5文本分类语料库 它指的是人工标注了“ 所属分类 ”的文章构成的语料库。相较于上面介绍的 4 种语料库文本分类语料库的数据量明显要大很多。 eg以著名的搜狗文本分类语料库为例 一共包含汽车、财经、IT、健康、体育、旅游、教育、招聘、文化、军事 10 个类别每个类别下含有8000篇新闻。 另外一些新闻网站上的栏目经过了编辑的手工整理相互之间的区分度较高也可作为文本分类语料库使用。 “ 情感分类语料库 ”则是文本分类语料库的一个子集无非是类别限定为“ 正面 ”“ 负面 ”等而已。 notes 如果这些语料库中的类目、规模不满足实际需求我们还可以按需自行标注 标注的过程实际上就是把许多文档整理后放到不同的文件夹中 4.NLP开源工具 目前开源界贡献了许多优秀的NLP工具它们为我们提供了多种选择。下边介绍最为主流的几种。比如教学常用的NLTK ( Natural Language Toolkit )、斯坦福大学开发的CoreNLP以及国内哈工大开发的 LTP ( Language Technology Platform )、何晗开发的HanLP ( Han Language Processing )下面是上述工具的比较。 我们将使用hanlp进行学习具体安装使用会记录在下一笔记。
http://www.pierceye.com/news/105266/

相关文章:

  • 织梦网站被攻击小型门户网站建设方案
  • 长沙网站托管公司排名静态网站结构如何更新
  • 网站建设 宜宾湖州网站建设培训教程
  • 网站建设脚本什么叫营销型网站
  • 沧州网站建设专业的公司4000-262-seo优化与品牌官网定制
  • 网页游戏推广网站怎么做如何创建平台类网站
  • 十堰英文网站建设学校教育网站模板
  • 学校网页网站模板免费下载微信的微网站
  • 网站开发的解决方案小型行业网站建设维护成本
  • 浏阳市网站建设百度中心人工电话号码
  • 高端外贸网站制作智慧团建网站没有验证码
  • 做网站需要买服务器么网站建设营销外包公司排名
  • 网站建设中要多使用图片258网站建设
  • 做多语言网站教程开网页慢是什么原因
  • 汽车商城网站模板seo公司网站推广
  • 网站备案查询工信部官网网站建设费用推荐网络专业
  • 网站开发费用是研发费用国内做seo最好公司
  • 什么是网站建设公司企业网站后台管理
  • 做网站阿里巴巴好还是百度好柠檬网络科技网站建设
  • 做个网站要多少钱网站建设工作 方案
  • 一个主体如何添加网站室内设计公司的名字
  • 中国建设学会网站洛阳市住房和城乡建设局网站
  • 北京网站优化方式做物流的网站都有什么风险
  • 零基础学做网站页怎么部署wordpress
  • 网站如何做死链接提交筑站网络推广
  • 小说网站开发php网站后台如何修改文字
  • 网站制作是那个带有客户案例的网站
  • 中国纪检监察报数字报湛江关键词优化平台
  • 网站品牌词如何优化东莞公司网站建设营销型网站建设
  • 鞍山网站建设营销想把自己做的网站放到网上