CountVectorizer模型,如何控制词汇表?fit和transform方法发布于2023年12月19日 python CountVectorizer词袋模型,可以用于语料库的词频统计。对于中文来说,还需要配合类似“结巴分词”之类的分词程序。那么,本文重点要说的是:面对无穷多的语料,CountVectorizer如何控制词汇表数量呢... 阅读更多
利用CountVectorizer词袋模型,如何对中文语料库词频统计?发布于2023年12月18日 python CountVectorizer被称之为词袋模型,它来自于sklearn,日常用于词频统计。苏南大叔在之前也写过有关CountVectorizer词频统计的文章。不过,现在对CountVectorizer又有了新的理... 阅读更多
基于python,dict字典类型按key排序/按value排序的解决方案发布于2023年12月17日 python 为了更好的理解词频统计,可能需要对词频统计的结果进行加工。其中,就有对字典类型数据进行排序的需求。本文,正是对这种字典排序需求,进行代码理论准备的。苏南大叔的“程序如此灵动”技术博客,记录苏南大叔的代码经验总结。本... 阅读更多
基于python,翻转dict字典类型数据变量的四种方案发布于2023年12月16日 python 苏南大叔在本文中,将要总结dict字典类型的数据翻转的四种方案,代码是基于python的。四种不同的方案中,利用的函数也都是不同的。具体请参考字典类型翻转方案的正文。苏南大叔的“程序如此灵动”技术博客,记录苏南大叔... 阅读更多
sklearn数据集,月亮数据集如何分类?如何画月亮散点图?发布于2023年12月15日 python 目光再次回到sklearn的数据集上,除了常见的鸢尾花数据集,也有一些其它数据集。本文讲述其中的月亮数据集,故名意思,就是对应的数据点可以组成两个弯月亮形状。当然,这个弯月形状,也可以说是半环形状。苏南大叔的“程序... 阅读更多