mac系统,如何安装python3?命令行如何识别pip命令?发布于2023年12月23日 python 在mac系统下安装python,是一种很奇怪的体验。安装完python后,命令行里面并没有识别出python这个命令,您说奇怪不奇怪。识别出python后,却依然不能识别pip命令。这奇怪不奇怪?安装完pip命令后... 阅读更多
python读取文本文件,按行分割为list格式的最佳实践发布于2023年12月20日 python 本文的.txt文本转list的问题,还是由机器学习中的CountVectorizer词袋模型所引起的。停用词列表需要一个list格式变量,而停用词列表又基本上都存放在.txt文本文件里面。所以,这里需要对两者做个转... 阅读更多
CountVectorizer模型,如何控制词汇表?fit和transform方法发布于2023年12月19日 python CountVectorizer词袋模型,可以用于语料库的词频统计。对于中文来说,还需要配合类似“结巴分词”之类的分词程序。那么,本文重点要说的是:面对无穷多的语料,CountVectorizer如何控制词汇表数量呢... 阅读更多
利用CountVectorizer词袋模型,如何对中文语料库词频统计?发布于2023年12月18日 python CountVectorizer被称之为词袋模型,它来自于sklearn,日常用于词频统计。苏南大叔在之前也写过有关CountVectorizer词频统计的文章。不过,现在对CountVectorizer又有了新的理... 阅读更多
基于python,dict字典类型按key排序/按value排序的解决方案发布于2023年12月17日 python 为了更好的理解词频统计,可能需要对词频统计的结果进行加工。其中,就有对字典类型数据进行排序的需求。本文,正是对这种字典排序需求,进行代码理论准备的。苏南大叔的“程序如此灵动”技术博客,记录苏南大叔的代码经验总结。本... 阅读更多