xxx网站建设与优化推广,亚马逊免费视频,小程序后台,wordpress主题 站长目录 1.中文分词
2.词典分词
#xff08;1#xff09;词的定义
#xff08;2#xff09;词典性质——齐夫定律 #xff08;3#xff09;词典
#xff08;4#xff09;加载词典 #xff08;5#xff09;hanlp词典路径 1.中文分词
中文分词#xff1a;指的是将一…目录 1.中文分词
2.词典分词
1词的定义
2词典性质——齐夫定律 3词典
4加载词典 5hanlp词典路径 1.中文分词
中文分词指的是将一段文本拆分为一系列单词的过程这些单词顺序拼接后等于原文本。中文分词算法大致分为基于词典规则与基于机器学习这两大派。词典分词是最简单、最常见的分词算法仅需一部词典和一套查词典的规则即可。给定一部词典词典分词就是一个确定的查词和输出的规则系统。
2.词典分词
1词的定义 在基于词典的中文分词中词的定义要现实得多词典中的字符串就是词。根据此定义词典之外的字符串就不是词了。这个推论或许不符合读者的期望但这就是词典分词故有的弱点。事实上语言中的词汇数量是无穷的无法用任何词典完整收录。
2词典性质——齐夫定律 齐夫定律一个单词的词频与它的词频排名成反比。就是说虽然存在很多生词但生词的词频较小趋近于0平时很难碰到。至少在常见的单词的切分上可以放心地试一试词典分词。 3词典
互联网上有许多公开的中文词库比如
搜狗实验室发布的互联网词库SogouW,其中有15万个词条https://www.sogou.com/labs/resource/w.php
清华大学开放中文词库(THUOCL)http://thunlp.org
何晗发布的千万级巨型汉语词库千万级词条http://www.hankcs.com/nlp/corpus/tens-of-millions-of-giant-chinese-word-library-share.html
4加载词典
from pyhanlp import *def load_dictionary():加载HanLP中的mini词库:return: 一个set形式的词库IOUtil JClass(com.hankcs.hanlp.corpus.io.IOUtil) # ①path HanLP.Config.CoreDictionaryPath.replace(.txt, .mini.txt) # ②dic IOUtil.loadDictionary([path]) # ③return set(dic.keySet())if __name__ __main__:dic load_dictionary()print(len(dic))print(list(dic)[0]) JClass 函数是连通Java和Python 的桥梁用来根据Java路径名得到一个Python类。 ①处利用JClass取得了HanLP中的IOUti1工具类②处则取得了HanLP的配置项Config中的词典路径。我们写在配置文件中的条目最终会被读入这个结构中比如配置文件写作CoreDictionaryPathdata/dictionary/CoreNatureDictionary.txt该配置将被读人HanLP.Config.CoreDictionaryPath。这里我们想要加载mini 词典因为其体积更小加载起来更快。于是②处将这个路径替换为mini词典的路径。在③处我们像对待普通Python 工具类一样调用了IOUti1的静态方法 loadDictionary。该方法支持将多个文件读入同一个词典中因此需要传入一个1ist。它返回一个Java Map对象前面提到过我们不关心Map中的值于是我们只取它的键keySet并将其转换为一个Python原生的set 对象。这样接下来的代码就不必考虑与Java的交互Python用户从此回到了自己熟悉的环境中。 5hanlp词典路径
路径为HanLP/data/dictionaray/CoreNatureDictionaray.mini.txt