结巴分词,如何基于TF-IDF算法提取文章关键词(标签)?
发布于 作者:苏南大叔 来源:程序如此灵动~

结巴分词,主要是用于分词的。如果对于文章seo来说,一般都是需要设置关键词的。从另外的角度来看的话,这个关键词也可以称之为标签。那么,结巴分词如何自动提取标签呢?这就是本文要讨论的问题。本文描述的是:基于TF-IDF算法的关键词提取方式。

大家好,这里是苏南大叔的程序如此灵动博客,本文描述结巴分词如何提取标签(关键词),其实是基于TF-IDF算法对分词结果进行权重排序的问题。测试环境:win10
,python@3.6.8
,jieba@0.42.1
。
结巴提取标签的原理
结巴分词自动提取标签的原理,就是对分词结果进行权重排序,然后把权重高的作为标签(关键词)。
那么,先回顾一下结巴分词和添加自定义词组。
运行结果是:
最终的关键词就是从这些列表中进行筛选获得的。

结巴分词提取标签函数
这个会列出所有的可供挑选的词儿,按权重排序,而且显然这个结果是经过停用词筛选的。
选择前几个标签
运行结果:
显示标签权重
权重都是相对的,同一个句子,参数不同时权重也不同,并不是固定值。
对词性进行筛选
运行结果:
上述例子中,n
表示名词,nr
表示人名。更多的词性表示大全,请参考:
最全参数的例子
运行结果:
对带权重结果进行遍历
或者
最可能的seo使用方式
结巴分词用于seo的这个提取文章关键词的结果,sentence可以设置为文章的内容。可以设置一下jieba.analyse.extract_tags
的topK
和allowPOS
这两个参数,就可以获得满意的结果。
运行结果:
对于SEO
来说,这个结果就是用于下面这个标签里面的。
相关链接
- https://newsn.net/say/nlp-code.html
- https://newsn.net/say/jieba-lcut.html
- https://newsn.net/say/jieba-load_userdict.html
总结
使用结巴分词提取文章关键词的操作,就这些。更多结巴分词的文字,请点击:


