土特产网站建设事业计划书,亚马逊html编辑器,网站短期培训能学什么,wordpress调用新浪微博NLP复习资料-三~五章1.第三章#xff1a;形式语言2.第四章#xff1a;语料库3.第五章#xff1a;语言模型国科大#xff0c;宗老师《自然语言处理》课程复习笔记#xff0c;个人整理#xff0c;仅供参考。1.第三章#xff1a;形式语言
1.语言描述的三种途径#xff1a…
NLP复习资料-三~五章1.第三章形式语言2.第四章语料库3.第五章语言模型国科大宗老师《自然语言处理》课程复习笔记个人整理仅供参考。1.第三章形式语言
1.语言描述的三种途径穷举法、语法描述形式语言、自动机
2.形式语言四元组表示最左推导最右推导例3-1
3.p27. L(G0)L(G1)L(G2)L(G3)
4.p30上下文无关文法产生语言的句子派生树、文法的二义性有不止一棵以上的派生树关于 鲁迅的文章-关于鲁迅 的 文章
5.有限自动机五元组表示P39状态变换图
6.例3.8 正则文法与有限自动机之间的转换
7p59 例3.9下推自动机的处理步骤
8.有限自动机用于英语的单词拼写检查采用深度优先算法在自动机选择编辑距离最小路径。P64编辑距离P69 X截取范围的确定 P
9有限状态转换机用于英语单词形态分析不仅有状态转换还有输出补全单词和一个
2.第四章语料库
1.语料库发展的三个阶段 20世纪50年代中期早期、 1957-20世纪80年代沉积时期、 20世纪80年代后复苏发展时期主要特征第二代语料库相继建成、基于语料库的研究项目增多语料库复苏的原因P15计算机迅速发展、转换生成语言学派对语料库语言的批判不都正确。
2.语料库的类型P21同质/异质系统/专用单语/多语平衡语料库语料的代表性和平衡性平行语料库双语平行语料库机器翻译共时语料库/历时语料库
3.语料库建设中的问题 设计时问题静态与动态代表性与平衡性规模管理与维护 开发中为题规范问题产权问题p36
4.典型语料库和记一两个吧 宾夕法尼亚大学的中文树库词性33类句法23类P42 北京大学开发的CLKBp61 词汇知识库: 普林斯顿大学WordNet p78 知网HowNet p85
3.第五章语言模型
1基于大规模语料库出现了自然语言的统计处理方法那么如何计算一个句子的概率呢依据组成句子的词语的联合概率计算词之间不独立不行那就考虑在历史词的基础上考虑当前词的概率然后连乘。参数空间太大不行那就只考虑前n个历史词汇。OK呀~
2.p11 n元文法n个邻近的词构成一个词序列。P12句子n元次序列划分的例子。
3.N元文法的两个应用-音字转换、汉语分词选择概率最大的那个作为输出就对了。
4.参数估计–n元文法中连乘的每个概率的计算训练语料库中历史一共出现的次数为分母历史与当前一同出现的为分子一除搞定。P27计算题
5.n元文法最主要的一个问题数据稀疏要计算语料库中没见到的情况怎么办–数据平滑呀基本思想–劫富济贫。加1法p37计算题。减值法good-turingP41公式推导。Back-off方法P47基本思想。绝对减值法和线性减值法的思想。删除价值法低阶代替高阶线性插值
5.模型自适应前两种方法都是线性插值多个模型1缓存模型p622不同类型模型p67 3最大熵模型p69
6.应用举例汉语分词 p77以词序列为基本单位效果不好改成词类序列为基本单位。P81语言模型和生成模型。P87的训练步骤 p93分词与词性标注一体化的方法