当前位置: 首页 > news >正文

idea可以做网站吗郑州做网站找哪家好

idea可以做网站吗,郑州做网站找哪家好,电商平台是干什么的,深圳市文化广电旅游体育局文章目录 一、词与分词1、词 vs 词素2、世界语言分类 二、分词的原因与基本原因1、为什么要分词2、分词规范3、分词的主要难点-切分歧义如何排除切分歧义利用词法信息利用句法信息利用语义信息利用语用、语境信息 4、分词的主要难点-未登录词未登录词如何识别未登录词 三、分词… 文章目录 一、词与分词1、词 vs 词素2、世界语言分类 二、分词的原因与基本原因1、为什么要分词2、分词规范3、分词的主要难点-切分歧义如何排除切分歧义利用词法信息利用句法信息利用语义信息利用语用、语境信息 4、分词的主要难点-未登录词未登录词如何识别未登录词 三、分词的一般方法1、基于词典的方法(又称机械分词方法)1. 正向最大匹配算法2. 逆向最大匹配算法 2、基于统计的分词方法3、基于理解的分词方法4、词典与统计相结合的词汇切分方法 一、词与分词 1、词 vs 词素 词是语言中能够独立运用的最小单位是指词在语法结构中的地位和作用而言的。从语言的词本身来讲很多词可以进一步分析成若干个最小的音义统一体即词素。词素是构成词的要素。词素是比词低一级的单位。 参考黄伯荣和廖旭东老师的《现代汉语上》P251中介绍的“替代法”。简单来说能被替换的是词不能被替换的是词素。比如说“茶杯”这个词“茶杯”中的“茶”可以替换成“水”“杯”又可以替换成“叶”所以“茶杯”是一个词有两个词素。但是“彷徨”这个词中“彷”和“徨”都不能被替换所以“彷徨”是一个词素不过同时也是一个词。“茶杯”和“彷徨”都有两个字也都是一个词。但是“茶杯”是一个由两个语素组成的词而“彷徨”既是一个由一个语素组成的词。。。 2、世界语言分类 传统语言学根据词的结构将世界语言分为三类孤立语、黏着语、屈折语 孤立语又称“词根语”、“无形态语”以汉语为代表 词内没有专门表示语法意义的附加成分形态变化很少语法关系靠词序和虚词来表示例如“我吃饭”中的“我”、“吃”、“饭”都是独立的词词序和上下文决定了它们之间的语法关系。 黏着语又称“胶着语”以日语为代表 词内有专门表示语法意义的附加成分一个附加成分表达一种语法意义词根或词干跟附加成分结合不紧密 曲折语以英语为代表 用词的形态变化表示语法关系词根或词干跟词的附加成分结合的很紧密一个附加成分表达多种语法意义 孤立语和黏着语存在分词问题 在孤立语言和黏着语言中由于词本身没有太多的形态变化因此分词相对较简单。在汉语中词语之间一般使用空格或标点符号进行分隔每个词都具有独立的语义和语法功能。 二、分词的原因与基本原因 1、为什么要分词 汉语的机器自动分词是汉语信息处理系统的重要组成部分正确的机器自动分词是正确的中文信息处理的基础 文本检索 和服 | 务 | 于三日后裁制完毕并呈送将军府中。王府饭店的设施 | 和 | 服务 | 是一流的。 如果不分词或者“和服务”分词有误都会导致荒谬的检索结果。 文语转换 他们是来 | 查 | 金泰 | 撞人那件事的。(“查”读音为cha行侠仗义的 | 查金泰 | 远近闻名。“查”读音为zha) 2、分词规范 中国国家标准GB13715 刘源等《信息处理用现代汉语分词规范及自动分词方法》分词规范内容实录 二字或三字词以及结合紧密、使用稳定的 发展 可爱 红旗对不起 自行车 青霉素 四字成语一律为分词单位以及四字词或结合紧密、使用稳定的四字词组 胸有成竹 欣欣向荣社会主义 春夏秋冬 由此可见 五字和五字以上的谚语、格言等分开后如不违背原有组合的意义应予切分 时间/就/是/生命/失败/是/成功/之/母 3、分词的主要难点-切分歧义 如何排除切分歧义 利用前趋字串和后继字串在词法、句法、语义、语用方面的信息。 利用词法信息 湖上有几只美丽的白/天鹅加入规则“如果交段与其后继字串组成名词则将该歧义词首字单切否则确认该歧义词为词”。 利用句法信息 利用歧义字串与前趋字串和后继字串的搭配关系等句 法信息确定正确切分例一阵/风/吹/过来/了加入规则“如果歧义字段是量词且直接前趋字串是数词那么歧义字段的首段单切否则该歧义字段成词” 利用语义信息 例学生会兴奋得手舞足蹈学生/会/兴奋/得/手舞足蹈学生会/兴奋/得/手舞足蹈加入规则“如果歧义切分字段后继动词的义项中含有动作发出者为“人”这个义素则歧义字段的尾字单切否则该歧义字段成词” 利用语用、语境信息 日本保留和尚使用的古代庙宇已经不多了乒乓球拍卖完了 4、分词的主要难点-未登录词 未登录词 就是在词典中没有登录过的人名中国人名和外国人译名、地名、机构名、新词语、缩略语等。当采用匹配的方法来切词时由于词典中没有登录这些词会引起自动切词的困难。歧义切分字段在汉语书面文本中所占的比例并不很大在实际的书面文本中特别是在新闻类文本中未登录词的处理是书面文本自动切分的一个十分突出的问题。这是汉语书面语自动切分的另一个难点。 如何识别未登录词 汉语自然语言处理的经典难题之一人们探索了多种方法如互信息、期望方差法、语言模型法等等基于最大熵、马尔科夫模型等统计分类模型是比较常用的方法 三、分词的一般方法 中文词汇切分技术大体上可以分为 1.基于词典的词汇切分方法又称机械词汇切分 2.基于统计的词汇切分方法 3.基于理解的词汇切分方法 4.词典与统计相结合的词汇切分方法 1、基于词典的方法(又称机械分词方法) 本质上是字符串匹配的方法将一串文本中的文字片段和已有的词典进行匹配如果匹配到则此文字片段就作为一个分词结果。 1正向最大匹配法从左到右的方向 2逆向最大匹配法从右到左的方向 3最小切分每一句中切出的词数最小 4双向最大匹配进行从左到右、从右到左两次扫描 优点是速度快时间复杂度可以保持在On,实现简单效果尚可但对歧义和未登录词处理效果不佳 基本就是不处理~ 1. 正向最大匹配算法 基于词典词汇切分中最大正向匹配是基于“每次从句子中切分出尽量长的词语”的原理。即一个词的长度越长从这个词中所获取的信息就有可能更多同时也更确切。比如“王小花”这是一个人名假设其存在于词典中而“王”、“小”、“花”三个也均为词典中存在的单字词倘若我们将“王小花”分为“王/小/花”这将让人不知所云而使用最长匹配的方法将会匹配出“王小花”这个三字词。 ch_dict [基于, 解析, 语义解析, 方法, 逻辑, 逻辑形式, 产生,更可, 解释, 可解释, 推理过程] sentence 基于语义解析的方法由于逻辑形式而产生了更可解释的推理过程 segment_list [] # 存放分词后的分词词组 # print(sentence) # 例句不为空时循环地进行分词操作while len(sentence) 1:# 最大匹配单词的长度为5当然实际意义从3开始即可因为词典最大单词长度为3max_match_len 5# 当匹配单词长度大于1时循环判断分词while max_match_len 1:# 判断前 max_match_len 个字符是否存在于字典if sentence[0:max_match_len] in ch_dict:segment_list.append(sentence[0:max_match_len]) # 追加到分词词组中sentence sentence[max_match_len:len(sentence)] # 将符合的词语从原例句中截取# 退出循环重新从max_match_len最长匹配数开始匹配截取breakmax_match_len - 1 # max_match_len累减开始匹配4个字符3个字符# 只剩下一个汉字时说明当前不再存在任何符合的词语直接截取一个汉字作为词组if max_match_len 1:segment_list.append(sentence[0:1]) # 追加单个汉字词语sentence sentence[1:len(sentence)] # 截取例句# 输出进行分词后的例句 print(/.join(segment_list))基于/语义解析/的/方法/由/于/逻辑形式/而/产生/了/更可/解释/的/推理过程2. 逆向最大匹配算法 从右到左取词每次取尽可能长的词匹配词典中的词语。 2、基于统计的分词方法 基于统计的分词方法是在给定大量已经分词的文本的前提下利用统计机器学习模型学习词语切分的规律称为训练从而实现对未知文本的切分。例如最大概率分词方法和最大熵分词方法等。随着大规模语料库的建立统计机器学习方法的研究和发展基于统计的中文分词方法渐渐成为了主流方法。主要的统计模型有N元文法模型N-gram隐马尔可夫模型Hidden Markov Model HMM最大熵模型ME条件随机场模型Conditional Random FieldsCRF等 3、基于理解的分词方法 基于理解的分词方法是通过让计算机模拟人对句子的理解达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析利用句法信息和语义信息来处理歧义现象。它通常包括三个部分分词子系统、句法语义子系统、总控部分。在总控部分的协调下语法子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性难以将各种语言信息组织成机器可直接读取的形式因此目前基于理解的分词系统还处在试验阶段。 4、词典与统计相结合的词汇切分方法 利用词典匹配和统计模型的方法结合了基于词典的规则和基于统计的概率模型以提高分词准确性和效率。
http://www.pierceye.com/news/133398/

相关文章:

  • 网站开发文档撰写企业管理培训课程图片
  • 网站开发公司资质wordpress文章管理模板
  • 建筑网站知识大全江苏有哪些网站建设的公司
  • 江汉网站建设用js做网站登录
  • wordpress做购物网站河南省建设工程造价协会网站
  • wex5可以做网站吗爱射影院网站建设中
  • 网站建设多选题百度文库做好中心网站建设工作总结
  • 网站开发都用phpwordpress文章内图片幻灯片
  • 岳阳网站建设企业绿色大气漂亮dedecms茶叶企业网站
  • 网站建设使用虚拟主机的优点与缺点做百科网站
  • 网站被墙是谁做的电影网站模板
  • 合肥建设网官方网站网页设计网站制作公司
  • 外贸网站建设评价网站的营销方案
  • 邯郸专业做wap网站中国设计网址导航
  • 邯郸移动网站建设价格官方网站车联网是谁做
  • 哪个网站可以做高像素动图个人网站排版设计
  • 多少网站域名采用中文做一个电子商务网站在哪里做
  • 家装设计学校沈阳网站建设优化企业
  • 网站开发公司售后服务触屏端网站开发
  • 建设银行网站注销吗网页制作作品
  • 家具网站建设目的及功能定位网页游戏在哪里制作
  • 高端网站开发步骤网站设计制作如何评价
  • 漳州企业网站建设制作做发型的网站
  • 承包酒席可以做网站吗网站建设小组的运营模式
  • 保定网站建设公司哪家好酒店网站建设必要性
  • 电子商务网站建设设计报告建网站免费软件
  • 广州高端优秀网站改版设计公司网页编辑框
  • 摄影网站的需求分析wordpress英文版变成中文版
  • 网站营销公司wordpress 无效的文章类型
  • 网站一级页面标题怎么做茶网站设计素材下载