python 中文分词工具：jieba 结巴分词

发布于2018年12月29日作者：苏南大叔来源：程序如此灵动~

我们相信：世界是美好的，你是我也是。来玩一下解压小游戏吧！

通过正文提取算法，拿到正文之后，就可以对正文进行处理了。不过苏南大叔通过不写规则的办法，匹配到的正文内容，效果其实并不是太理想。所以，暂时，还是通过写规则的办法，有针对性地匹配出正文吧。拿到正文之后，苏南大叔计划进行分词处理。找出目标词汇，自动打tag标签。用到的python库是：jieba。

苏南大叔：python 中文分词工具：jieba 结巴分词 - python-jieba — python 中文分词工具：jieba 结巴分词（图3-1）

本文的实验环境是：python3.7.0、jieba 0.39。

`jieba`介绍

jieba分词算法使用了基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能生成词情况所构成的有向无环图(DAG), 再采用了动态规划查找最大概率路径，找出基于词频的最大切分组合，对于未登录词，采用了基于汉字成词能力的HMM模型，使用了Viterbi算法。

https://github.com/fxsjy/jieba

安装jieba的方式：

pip install jieba

因为苏南大叔的系统中，有两个pip，实验结果表明：无论是pip2还是pip3，都可以正常使用jieba这个库。就是说python2和python3，都不用特别处理区分对待的。

苏南大叔：python 中文分词工具：jieba 结巴分词 - pip-install-jieba — python 中文分词工具：jieba 结巴分词（图3-2）

使用范例

下面的代码片段，是基于python3.7.0进行实验的。

import jieba

seg_list = jieba.cut("苏南大叔毕业于北京大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list)) # 全模式

seg_list = jieba.cut("苏南大叔毕业于北京大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("苏南大叔毕业于北京大学")  # 默认是精确模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("苏南大叔毕业于北京大学，后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))

在上述代码片段中，jieba使用了三种模式，其中cut的默认模式就是精确模式，也就是cut_all=False。当然，还有个搜索引擎模式，叫做cut_for_search()。

苏南大叔：python 中文分词工具：jieba 结巴分词 - jieba-mode — python 中文分词工具：jieba 结巴分词（图3-3）

总结

苏南大叔偶然间发现，这个jieba和jparser貌似是同一个作者，瞬间肃然起敬啊。苏南大叔就是在学习使用python，大神是在改善拓展python，境界上实在是有差别啊。

这里仅仅测试jieba的基本用法，当然更多jieba相关的经验文字，可以通过下面的链接发现：

https://newsn.net/tag/jieba/

好了，想继续看苏南大叔的python调试经验的，请点击下面的链接即可。

https://newsn.net/tag/python/

如果本文对您有帮助，或者节约了您的时间，欢迎打赏瓶饮料，建立下友谊关系。

本博客不欢迎：各种镜像采集行为。请尊重原创文章内容，转载请保留作者链接。

【福利】腾讯云最新爆款活动！1核2G云服务器首年50元！

【源码】本文代码片段及相关软件，请点此获取更多信息

【绝密】秘籍文章入口，仅传授于有缘之人 python jieba

如何使用 Gradio 快速创建机器学习模型的预测界面？
什么是余弦相似度？python如何计算余弦相似度？
pip install git+，单步变多步，分步骤执行经验总结
数据可视化，如何理解箱线图？箱线图各元素表示什么含义？
数据可视化，如何利用plot画box箱线图？箱线图基础绘制
python计算分位数，系列数据的分位数数学计算方法

前一篇后一篇联系苏南打赏大叔【真香警告】本站同款服务器，赞助商腾讯云

	原创不易，转载请保留链接，谢绝镜像采集
	如果能解决您的困扰，那么想必定是极好的
	快来这里！大家都在这儿等你讨论这个问题

jieba介绍

使用范例

总结

`jieba`介绍