python代码,如何手工统计一篇文章的词频Top5分词?
发布于 作者:苏南大叔 来源:程序如此灵动~

前面的文章里面提到:结巴分词基于TF-IDF
算法来提取标签。其中的TF
就是词频,算法上就是统计出目标词出现的次数,然后再除以一个文章的词儿总数(或者其它的数)。TF
要求:目标词在当前文章里面出现的次数多,词频就越高。IDF
的意思就是:目标词在其它的文档里面,出现的次数低。

大家好,这里是苏南大叔的程序如此灵动博客,这里记录苏南大叔和计算机代码的故事。本文描述手工统计一篇文章的词频,或者说手工获得一篇文章的TOP5关键词。测试环境:win10
,python@3.6.8
。
前文回顾
这里先回顾一下词频统计相关的几篇文章:
- 《基于TF-IDF算法提取文章关键词》 https://newsn.net/say/jieba-analyse-extract_tags.html
- 《基于TextRank算法提取文章关键词》 https://newsn.net/say/jieba-analyse-textrank.html
- 《利用CountVectorizer来做词频统计》 https://newsn.net/say/python-count-vectorizer.html
上面每篇文章,都涉及了一个词频统计的方法,在本文中手工来统计一次词频。本文要统计的文字是上面的第三篇文章。先做点准备工作:
第一步,把下面的文字正文,复制出来保存为content.txt
。
第二步,下载下面的停用词列表,保存为stop_words.txt
,然后稍作修改。

读取content.txt
读取stop_words.txt

分词并过滤停用词
这个地方的这个分词结果过滤的语句写的很精简,是吧?
分词统计

最终调用
调用结果:
相关文章
- https://newsn.net/say/jieba-analyse-extract_tags.html
- https://newsn.net/say/jieba-analyse-textrank.html
- https://newsn.net/say/python-count-vectorizer.html
总结
更多nlp
自然语言处理文章,请参考:


