我们相信:世界是美好的,你是我也是。平行空间的世界里面,不同版本的生活也在继续...

通过正文提取算法,拿到正文之后,就可以对正文进行处理了。不过苏南大叔通过不写规则的办法,匹配到的正文内容,效果其实并不是太理想。所以,暂时,还是通过写规则的办法,有针对性地匹配出正文吧。拿到正文之后,苏南大叔计划进行分词处理。找出目标词汇,自动打tag标签。用到的python库是:jieba

苏南大叔:python 中文分词工具:jieba 结巴分词 - python-jieba
python 中文分词工具:jieba 结巴分词(图3-1)

本文的实验环境是:python3.7.0jieba 0.39

jieba介绍

jieba分词算法使用了基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能生成词情况所构成的有向无环图(DAG), 再采用了动态规划查找最大概率路径,找出基于词频的最大切分组合,对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法。

安装jieba的方式:

pip install jieba

因为苏南大叔的系统中,有两个pip,实验结果表明:无论是pip2还是pip3,都可以正常使用jieba这个库。就是说python2python3,都不用特别处理区分对待的。

苏南大叔:python 中文分词工具:jieba 结巴分词 - pip-install-jieba
python 中文分词工具:jieba 结巴分词(图3-2)

使用范例

下面的代码片段,是基于python3.7.0进行实验的。

import jieba

seg_list = jieba.cut("苏南大叔毕业于北京大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式

seg_list = jieba.cut("苏南大叔毕业于北京大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("苏南大叔毕业于北京大学")  # 默认是精确模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("苏南大叔毕业于北京大学,后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))

在上述代码片段中,jieba使用了三种模式,其中cut的默认模式就是精确模式,也就是cut_all=False。当然,还有个搜索引擎模式,叫做cut_for_search()

苏南大叔:python 中文分词工具:jieba 结巴分词 - jieba-mode
python 中文分词工具:jieba 结巴分词(图3-3)

总结

苏南大叔偶然间发现,这个jiebajparser貌似是同一个作者,瞬间肃然起敬啊。苏南大叔就是在学习使用python,大神是在改善拓展python,境界上实在是有差别啊。

这里仅仅测试jieba的基本用法,当然更多jieba相关的经验文字,可以通过下面的链接发现:

好了,想继续看苏南大叔的python调试经验的,请点击下面的链接即可。

如果本文对您有帮助,或者节约了您的时间,欢迎打赏瓶饮料,建立下友谊关系。
本博客不欢迎:各种镜像采集行为。请尊重原创文章内容,转载请保留作者链接。

 【福利】 腾讯云最新爆款活动!1核2G云服务器首年50元!

 【源码】本文代码片段及相关软件,请点此获取更多信息

 【绝密】秘籍文章入口,仅传授于有缘之人   python    jieba