python 中文分词工具:jieba 结巴分词
发布于 作者:苏南大叔 来源:程序如此灵动~ 我们相信:世界是美好的,你是我也是。平行空间的世界里面,不同版本的生活也在继续...
通过正文提取算法,拿到正文之后,就可以对正文进行处理了。不过苏南大叔通过不写规则的办法,匹配到的正文内容,效果其实并不是太理想。所以,暂时,还是通过写规则的办法,有针对性地匹配出正文吧。拿到正文之后,苏南大叔计划进行分词处理。找出目标词汇,自动打tag
标签。用到的python
库是:jieba
。
本文的实验环境是:python3.7.0
、jieba 0.39
。
jieba
介绍
jieba分词算法使用了基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能生成词情况所构成的有向无环图(DAG), 再采用了动态规划查找最大概率路径,找出基于词频的最大切分组合,对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法。
安装jieba
的方式:
pip install jieba
因为苏南大叔的系统中,有两个pip
,实验结果表明:无论是pip2
还是pip3
,都可以正常使用jieba
这个库。就是说python2
和python3
,都不用特别处理区分对待的。
使用范例
下面的代码片段,是基于python3.7.0
进行实验的。
import jieba
seg_list = jieba.cut("苏南大叔毕业于北京大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式
seg_list = jieba.cut("苏南大叔毕业于北京大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 精确模式
seg_list = jieba.cut("苏南大叔毕业于北京大学") # 默认是精确模式
print(", ".join(seg_list))
seg_list = jieba.cut_for_search("苏南大叔毕业于北京大学,后在日本京都大学深造") # 搜索引擎模式
print(", ".join(seg_list))
在上述代码片段中,jieba
使用了三种模式,其中cut
的默认模式就是精确模式
,也就是cut_all=False
。当然,还有个搜索引擎模式,叫做cut_for_search()
。
总结
苏南大叔偶然间发现,这个jieba
和jparser
貌似是同一个作者,瞬间肃然起敬啊。苏南大叔就是在学习使用python
,大神是在改善拓展python
,境界上实在是有差别啊。
这里仅仅测试jieba
的基本用法,当然更多jieba
相关的经验文字,可以通过下面的链接发现:
好了,想继续看苏南大叔的python
调试经验的,请点击下面的链接即可。
如果本文对您有帮助,或者节约了您的时间,欢迎打赏瓶饮料,建立下友谊关系。
本博客不欢迎:各种镜像采集行为。请尊重原创文章内容,转载请保留作者链接。
本博客不欢迎:各种镜像采集行为。请尊重原创文章内容,转载请保留作者链接。