汉语分词软件的使用 (python底下)(推荐2篇)
【简介】感谢网友“loki”参与投稿,今天小编在这给大家整理了汉语分词软件的使用 (python底下)(共2篇),我们一起来阅读吧!
篇1:汉语分词软件的使用 (python底下)
目前我常常使用的分词有结巴分词、NLPIR分词等等
最近是在使用结巴分词,稍微做一下推荐,还是蛮好用的,
一、结巴分词简介
利用结巴分词进行中文分词,基本实现原理有三:
基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)
采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合
对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法
二、安装及使用(Linux)
1.下载工具包,解压后进入目录下,运行:python setup.py install
Hint:a.一个良好的习惯是,对于下载下来的软件,先看readme ,再进行操作。(没有阅读readme,直接尝试+百度,会走很多弯路);
b.当时运行安装命令时,出现错误:no permission! (有些人可能会遇见这种问题,这是因为权限不够的。 执行:sudo !! 其中“!!”表示上一条命令,这里指的就是上面的安装命令),使用sudo后便可正常运行。
…… 此处隐藏1154字 ……
比较详细Python正则表达式操作指
Python字符串的encode与decode研
Python open读写文件实现脚本
Python enumerate遍历数组示例应
Python 深入理解yield
Python+Django在windows下的开发
python 文件和路径操作函数小结
python 字符串split的用法分享