mysql客户端导入sql文件失败,报错"没有可以映射到的字符"发布于2023年12月22日 MySQL 在使用各种mysql客户端导入.sql文件的时候,经常会导入失败。提示信息是:"在多字节的目标代码页中,没有此 Unicode 字符可以映射到的字符"。这是各种不同mysql客户端导入sql语句时的通病,经常见到。... 阅读更多
python读取文本文件,按行分割为list格式的最佳实践发布于2023年12月20日 python 本文的.txt文本转list的问题,还是由机器学习中的CountVectorizer词袋模型所引起的。停用词列表需要一个list格式变量,而停用词列表又基本上都存放在.txt文本文件里面。所以,这里需要对两者做个转... 阅读更多
CountVectorizer模型,如何控制词汇表?fit和transform方法发布于2023年12月19日 python CountVectorizer词袋模型,可以用于语料库的词频统计。对于中文来说,还需要配合类似“结巴分词”之类的分词程序。那么,本文重点要说的是:面对无穷多的语料,CountVectorizer如何控制词汇表数量呢... 阅读更多
利用CountVectorizer词袋模型,如何对中文语料库词频统计?发布于2023年12月18日 python CountVectorizer被称之为词袋模型,它来自于sklearn,日常用于词频统计。苏南大叔在之前也写过有关CountVectorizer词频统计的文章。不过,现在对CountVectorizer又有了新的理... 阅读更多
基于python,dict字典类型按key排序/按value排序的解决方案发布于2023年12月17日 python 为了更好的理解词频统计,可能需要对词频统计的结果进行加工。其中,就有对字典类型数据进行排序的需求。本文,正是对这种字典排序需求,进行代码理论准备的。苏南大叔的“程序如此灵动”技术博客,记录苏南大叔的代码经验总结。本... 阅读更多