如果本文对您有帮助,或者节约了您的时间,欢迎打赏瓶饮料,建立下友谊关系。
本博客不欢迎:各种镜像采集行为。请尊重原创文章内容,转载请保留链接信息。

通过正文提取算法,拿到正文之后,就可以对正文进行处理了。不过苏南大叔通过不写规则的办法,匹配到的正文内容,效果其实并不是太理想。所以,暂时,还是通过写规则的办法,有针对性地匹配出正文吧。拿到正文之后,苏南大叔计划进行分词处理。找出目标词汇,自动打tag标签。用到的python库是:jieba

python 中文分词工具:jieba 结巴分词 - python-jieba
python 中文分词工具:jieba 结巴分词(图3-1)

本文的实验环境是:python3.7.0jieba 0.39

jieba介绍

jieba分词算法使用了基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能生成词情况所构成的有向无环图(DAG), 再采用了动态规划查找最大概率路径,找出基于词频的最大切分组合,对于未登录词,采用了基于汉字成词能力的HMM模型,使用了Viterbi算法。

安装jieba的方式:

pip install jieba

因为苏南大叔的系统中,有两个pip,实验结果表明:无论是pip2还是pip3,都可以正常使用jieba这个库。就是说python2python3,都不用特别处理区分对待的。

python 中文分词工具:jieba 结巴分词 - pip-install-jieba
python 中文分词工具:jieba 结巴分词(图3-2)

使用范例

下面的代码片段,是基于python3.7.0进行实验的。

import jieba

seg_list = jieba.cut("苏南大叔毕业于北京大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式

seg_list = jieba.cut("苏南大叔毕业于北京大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("苏南大叔毕业于北京大学")  # 默认是精确模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("苏南大叔毕业于北京大学,后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))

在上述代码片段中,jieba使用了三种模式,其中cut的默认模式就是精确模式,也就是cut_all=False。当然,还有个搜索引擎模式,叫做cut_for_search()

python 中文分词工具:jieba 结巴分词 - jieba-mode
python 中文分词工具:jieba 结巴分词(图3-3)

总结

苏南大叔偶然间发现,这个jiebajparser貌似是同一个作者,瞬间肃然起敬啊。苏南大叔就是在学习使用python,大神是在改善拓展python,境界上实在是有差别啊。

这里仅仅测试jieba的基本用法,当然更多jieba相关的经验文字,可以通过下面的链接发现:

好了,想继续看苏南大叔的python调试经验的,请点击下面的链接即可。

 【源码】本文代码片段及相关软件,请点此获取

 【绝密】秘籍文章入口,仅传授于有缘之人   python    jieba

本站的忠实读者小伙伴,正在阅读下面这些文章:

欢迎转载传播本篇原创文章,转载请保留链接及作者信息。
欢迎指正文字或逻辑错误,将会择优在文末列出您的信息。
本站采用创作共用版权协议, 要求署名、非商业用途和相同方式共享。
转载本站内容必须也遵循“署名-非商业用途-相同方式共享”的创作共用协议。
未经许可,规模化镜像抄袭本站内容的行为,将会根据有关法律法规进行维权。
程序如此灵动~》下所有原创文章,如被用于商业用途,请您按规定支付稿费。

苏南大叔需要你的支持

感谢您的打赏,让我更有动力,将更多精彩教程文章,呈现给大家!谢谢!