snownlp对比jieba,如何处理分词和获得分词词性?发布于2022年09月29日 python snownlp在自然语言处理领域,是以情感分析特长而闻名的。它的很多功能和著名的jieba分词相比,两者是有很多重复的功能的。那么,本文就来对比一下snownlp和jieba的分词和获得词性功能。大家好,这里是苏南... 阅读更多
python语言,如何理解zip函数?如何打印zip类型数据?发布于2022年09月28日 python 在python语言里面,有很多奇怪的数据类型,其中一个就是zip数据类型。据苏南大叔的理解,它和平时所说的zip压缩格式,还是不一样的。苏南大叔的理解是:zip类型就是个类似dict类型的数据类型。具有的公用就两个... 阅读更多
python代码,如何手工统计一篇文章的词频Top5分词?发布于2022年09月27日 python 前面的文章里面提到:结巴分词基于TF-IDF算法来提取标签。其中的TF就是词频,算法上就是统计出目标词出现的次数,然后再除以一个文章的词儿总数(或者其它的数)。TF要求:目标词在当前文章里面出现的次数多,词频就越高... 阅读更多
python如何利用pathlib模块,获得指定目录下的文件列表发布于2022年09月26日 python 书接上文,需求是获得指定目录下面的文件或文件夹名称集合。上一篇文章中,使用了python下的glob.glob()以及glob.iglob()来实现这个需求。但是,遗留着一个重要问题,就是一些特殊文件(例如.hta... 阅读更多
python如何利用glob模块,获得指定目录下的文件列表发布于2022年09月25日 python 本文要说的是python下的glob模块,它可以获取指定目录下面的文件列表。使用起来也很简单,就一个函数。然后加个类似正则的文件名字符串表述,就可以了。但是,这个glob模块有个天然的问题,究竟是什么问题呢?请阅读... 阅读更多