汉语分词软件的使用 (python底下)(推荐2篇)

loki 分享 时间: 收藏本文

【简介】感谢网友“loki”参与投稿,今天小编在这给大家整理了汉语分词软件的使用 (python底下)(共2篇),我们一起来阅读吧!

篇1:汉语分词软件的使用 (python底下)

目前我常常使用的分词有结巴分词、NLPIR分词等等

最近是在使用结巴分词,稍微做一下推荐,还是蛮好用的,

一、结巴分词简介

利用结巴分词进行中文分词,基本实现原理有三:

基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)

采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合

对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法

二、安装及使用(Linux)

1.下载工具包,解压后进入目录下,运行:python setup.py install

Hint:a.一个良好的习惯是,对于下载下来的软件,先看readme ,再进行操作。(没有阅读readme,直接尝试+百度,会走很多弯路);

b.当时运行安装命令时,出现错误:no permission! (有些人可能会遇见这种问题,这是因为权限不够的。 执行:sudo !! 其中“!!”表示上一条命令,这里指的就是上面的安装命令),使用sudo后便可正常运行。

…… 此处隐藏1154字 ……

比较详细Python正则表达式操作指

Python字符串的encode与decode研

Python open读写文件实现脚本

Python enumerate遍历数组示例应

Python 深入理解yield

Python+Django在windows下的开发

python 文件和路径操作函数小结

python 字符串split的用法分享