怎样建网站,橘子seo工具,沈阳市做网站的公司,建设网站建设目的意义能做什么#xff1f;
自然语言处理#xff1a; 如何让计算机能够自动或半自动地理解自然语言文本#xff0c;懂得人的意图和心声#xff1f;如何让计算机实现海量语言文本的自动处理、挖掘和有效利用#xff0c;满足不同用户的各种需求#xff0c;实现个性化信息服务
自然语言处理 如何让计算机能够自动或半自动地理解自然语言文本懂得人的意图和心声如何让计算机实现海量语言文本的自动处理、挖掘和有效利用满足不同用户的各种需求实现个性化信息服务
基本概念 语言学研究语言的本质、结构和发展规律的科学。 类别 历时语言学 (diachronic linguistics)或称历史语言学 (historical linguistics)、共时语言学 (synchronic linguistics)、描述语言学 (descriptive linguistics)、对比语言学(contrastive linguistics)、结构语言学 (structural linguistics) 等等。 语音学 (phonetics) 研究人类发音特点特别是语音发音特点并提出各种语音描述、分类和转写方法的科学。包括: (1)发音语音学(articulatory phonetics)研究发音器官如何产生语音(2)声学语音学(acoustic phonetics)研究口耳之间传递语音的物理属性(3)听觉语音学(auditory phonetics), 研究人通过耳、听觉神经和大脑对语音的知觉反应 计算语言学(Computational Linguistics)CL 通过建立形式化的计算模型来分析、理解和生成自然语言的学科是人工智能和语言学的分支学科。与内容接近的学科自然语言处理相比较计算语言学更加侧重基础理论和方法的研究。 自然语言理解(Natural Language Understanding, NLU) 自然语言理解是探索人类自身语言能力和语言思维活动的本质研究模仿人类语言认知过程的自然语言处理方法和实现技术的一门学科。它是人工智能早 期研究的领域之一是一门在语言学、计算机科学、 认知科学、信息论和数学等多学科基础上形成的交叉 学科。 智能 关于“理解”的标准 如何判断计算机系统的智能 与有意识的个体人比较如何表现反应相互作用 方法图灵设计的“模仿游戏” 图灵实验(Turing test) 仍有争议不易进行只能说从表现上来看和人相似 自然语言处理nlp 自然语言处理是研究如何利用计算机技术对语言文本句子、篇章或话语等进行处理和加工的一门学科研究内容包括对词法、句法、语义和语用等信息的识别、分类、提取、转换和生成等各种处理方法和实现技术。 三个不同的语系 屈折语(fusional language/ inflectional language): 用词的形态变化表示语法关系如英语、法语等。 黏着语(agglutinative language): 词内有专门表示语法意义的附加成分词根或词干与附加成分的结合不紧密如日语、韩语、土耳其语等。 孤立语(analytic language)(分析语, isolating language): 形态变化少语法关系靠词序和虚词表示如汉语。 中文信息处理针对中文的自然语言处理技术
计算语言学也称自然语言处理或自然语言理解——人类语言技术HLT 4.研究内容 机器翻译 (Machine translation, MT)实现一种语言到另一种语言的自动翻译。 应用文献翻译、网页辅助浏览等。 信息检索 信息检索也称情报检索就是利用计算机系统从大量文档中找到符合用户需要的相关信息。 自动文摘 将原文档的主要内容或某方面的信息自动提取出来并形成原文档的摘要或缩写观点挖掘 问答系统 (Question-answering system) 通过计算机系统对人提出的问题的理解利用自动推理等手段在有关知识资源中自动求解答案并做出相应的回答。问答技术有时与语音技术和多模态输入/输出技术以及人机交互技术等相结合构成人机对话系统 (man-computer dialogue system) 信息过滤 (Information filtering) 通过计算机系统自动识别和过滤那些满足特定条件的文档信息。 信息抽取 (Information extraction) 从指定文档中或者海量文本中抽取出用户感兴趣的信息。实体关系抽取 (entity relation extraction)。社会网络 (social network) 文档分类 (Document categorization) 文档分类也叫文本自动分类 (Text categorization / classification) 或信息分类(Information categorization / classification)其目的就是利用计算机系统对大量的文档按照一定的分类标准例如根据主题或内容划分等实现自动归类。情感分类(Sentimental classification) 应用图书管理、情报获取、网络内容监控等 语音识别 (automatic speech recognition, ASR) 将输入语音信号自动转换成书面文字。 应用文字录入、人机通讯、语音翻译等等。 困难大量存在的同音词、近音词、集外词、口音等等。 文语转换/ 语音合成 (text-to-speech synthesis) 将书面文本自动转换成对应的语音表征。 应用朗读系统、人机语音接口等等。 说话人识别/认同/验证 (speaker recognition/ identification/ verification) 对一言语样品做声学分析依此推断(确定或验证)说话人的身份。 应用信息安全、防伪等等 一般将语音识别、语音合成和说话人识别等以语音信号为主要研究对象的语音技术独立出来 而其他以文本(词汇/句子/篇章等)为主要处理对象的研究内容作为自然语言处理的主体
基本问题
形态学 (Morphology) 问题 研究词(word) 由有意义的基本单位词素(morphemes)的构成问题。单词的识别/ 汉语的分词问题。词素词根、前缀、后缀、词尾 句法 (Syntax) 问题 研究句子结构成分之间的相互关系和组成句子序列的规则 语义 (Semantics) 问题 研究如何从一个语句中词的意义以及这些词在该语句中句法结构中的作用来推导出该语句的意义 语用学(Pragmatics) 问题 研究在不同上下文中语句的应用以及上下文对语句理解所产生的影响。从狭隘的语言学观点看语用学处理的是语言结构中有形式体现的那些语境。相反语用学最宽泛的定义是研究语义学未能涵盖的那些意义。 语音学(Phonetics) 问题 研究语音特性、语音描述、分类及转写方法等
主要困难 大量歧义(ambiguity)现象 词法歧义 自动化/研究所/取得/的/成就自动化/研究/所/取得/的/成就 词性歧义结构歧义 喜欢乡下的孩子。关于鲁迅的文章。 语义歧义 一词多义比喻eg 他说:“她这个人真有意思(funny)”。她说:“他这个人怪有意思的(funny)”。于是人们以为他们有了意思(wish)并让他向她 意思意思(express)。他火了:“我根本没有那个意思(thought)”她也生气了:“你们这么说是什么意思(intention)”事后有人说:“真有意思(funny)”。也有人说“真没意思(nonsense)”。要把权力装进制度的笼子老虎苍蝇一起打。破四旧除四害消灭一切牛鬼蛇神。 语音歧义大量同音现象多音字及韵律等歧义语音合成的困难 一字多音韵律、声调、语气、重音 大量未知语言现象 新词、人名、地名、术语等新含义苹果新用法和新句型等 归结其挑战有 普遍存在的不确定性词法、句法、语义、语用和语音各个层面未知语言现象的不可预测性新的词汇、新的术语、新的语义和语法无处不在始终面临的数据不充分性有限的语言集合永远无法涵盖开放的语言现象语言知识表达的复杂性语义知识的模糊性和错综复杂的关联性难以用常规方法有效地描述为语义计算带来了极大的困难 机器翻译中映射单元的不对等性词法表达不相同、句法结构不一致、语义概念不对等
基本研究方法
理性主义通常通过一些特殊的语句或语言现象的研究来得到对人的语言能力的认识而这些语句和语言现象在实际的应用中并不常见 问题求解的基本思路基于规则的分析方法建立符号处理系统规则库开发N N -- NP词典标注: #工作N(uc)V推导算法设计归约、推导、歧义消解方法知识库 推理系统 --NLP 系统理论基础Chomsky 的文法理论 经验主义偏重于对大规模语言数据中人们所实际使用的普通语句的统计。 求解问题的思路基于大规模真实语料(语言数据)建立计算方法大规模真实数据的收集、标注真实性、代表性、标注信息 ……统计模型建立模型的复杂性、有效性、参数训练方法 ……理论基础统计学、信息论、机器学习语料库 统计模型 -- NLP 系统
两种方法的实例
例子 以机器翻译为例给定英语句子There is a book on the desk.将其翻译成汉语
基于规则的方法
基于规则的方法 对英语句子进行词法分析 There/Ad is/Vbe a/Det book/N on/P the/Det desk/N ./Puc 对英语句子进行句法结构分析 利用转换规则将英语句子结构转换成汉语句子结构 根据转换后的句子结构利用词典和生成规则生成翻译的结果句子
数据驱动的方法SMT和NMT 基于统计的方法
贝叶斯判别 三个关键问题 估计语言模型概率 p©估计翻译模型概率 p(E|C)快速有效地搜索候选译文C使p©×p(E|C)最大。 主要任务 收集大规模双语句子对、目标语言句子参数训练与模型优化
研究现状
基本现状 部分问题得到了解决可以为人们提供辅助性帮助如专业领域文档翻译电子词典搜索引擎文字录入等 基础问题研究仍任重而道远如语义表示和计算、高质量的自动翻译等 社会需求日益迫切信息服务、通讯、网络内容管理、情报处理、国家安全等; 许多技术离真正实用的目标还有相当的距离尚未建立起有效、完善的理论体系