机器学习,如何利用CountVectorizer来做词频统计?发布于2022年07月15日 python 在python代码中,如何做词频统计呢?如果做的是中文词频统计呢?有哪些地方需要做设置?本文中利用python的CountVectorizer来做词频统计,可以统计英文(以空格分割),也可以统计中文(用逗号分割)。... 阅读更多
vscode编辑器,如何解决相对路径文件读取失败的问题?发布于2022年07月14日 python 在vscode中,使用代码读取文件的时候,如果使用相对路径的话,就可能会出现文件无法找到的情况。实际上,就是当前程序的运行路径问题。相对文件路径就是从当前运行环境上叠加的,而不是当前被运行的代码进行叠加的,所以会出... 阅读更多
jieba结巴分词,分词方法cut和lcut有什么区别?发布于2022年07月13日 python 在结巴分词里面,有个.lcut()还有个.cut()方法。那么,这两个方法有什么区别呢?按照既往经验trim和ltrim的区别来说,l意思是left,那么lcut()中的l也是left的意思么?这就是本文中要讨论的... 阅读更多
jieba结巴分词,如何加载自定义分词词典?条目词性权重发布于2022年07月12日 python jieba结巴分词,如果对于分词结果不满意的话,可以使用load_userdict函数加载自定义分词词典,也可以使用add_word函数加载某一条条目,同时还可以自定义词性和权重,通过调整权重就可以影响最终的分词结... 阅读更多
jieba结巴分词,常用分词函数有哪些?如何获得分词词性?发布于2022年07月11日 python 结巴分词是python代码中,最常使用的分词组件,它可以自定义词典,也可以有多种分词使用方式。那么,jieba结巴分词,最常见的分词使用形式是哪些呢?如何才能获得良好的分词结果呢?这些是本文中要讨论的问题。大家好,... 阅读更多