无法打开github.com,如何下载项目代码?git clone命令加速发布于2023年12月21日 运维测试 程序员最喜欢的网站github.com,在国内环境下,那是时好时坏。一会儿能打开,一会儿又不能打开。一言难尽是不?苏南大叔下载上面代码的时候,一般会采用直接https下载master.zip的方式。当然,也必然是费... 阅读更多
python读取文本文件,按行分割为list格式的最佳实践发布于2023年12月20日 python 本文的.txt文本转list的问题,还是由机器学习中的CountVectorizer词袋模型所引起的。停用词列表需要一个list格式变量,而停用词列表又基本上都存放在.txt文本文件里面。所以,这里需要对两者做个转... 阅读更多
CountVectorizer模型,如何控制词汇表?fit和transform方法发布于2023年12月19日 python CountVectorizer词袋模型,可以用于语料库的词频统计。对于中文来说,还需要配合类似“结巴分词”之类的分词程序。那么,本文重点要说的是:面对无穷多的语料,CountVectorizer如何控制词汇表数量呢... 阅读更多
利用CountVectorizer词袋模型,如何对中文语料库词频统计?发布于2023年12月18日 python CountVectorizer被称之为词袋模型,它来自于sklearn,日常用于词频统计。苏南大叔在之前也写过有关CountVectorizer词频统计的文章。不过,现在对CountVectorizer又有了新的理... 阅读更多
基于python,dict字典类型按key排序/按value排序的解决方案发布于2023年12月17日 python 为了更好的理解词频统计,可能需要对词频统计的结果进行加工。其中,就有对字典类型数据进行排序的需求。本文,正是对这种字典排序需求,进行代码理论准备的。苏南大叔的“程序如此灵动”技术博客,记录苏南大叔的代码经验总结。本... 阅读更多