python2 中有关文件中文编码的处理方案发布于2018年12月31日 python 在说明python的中文分词库jieba的时候,苏南大叔使用的是python3执行的相关代码。那么在python2下,这个jieba的测试代码,也是可以运行的。不过,却可能会遇到两个编码有关的错误提示。本文中,苏南... 阅读更多
python 正文抽取试验:readability、newspaper发布于2018年12月30日 python 本文中,苏南大叔描述的是:python如何免正则表达式分析出文章正文。当然,这篇文字如果非要往高大上说的话,就可以扯上ai之类的高大上名词。反正,宗旨就是这样的:不写正则表达式,仅使用python现有的第三方模块,... 阅读更多
python 中文分词工具:jieba 结巴分词发布于2018年12月29日 python 通过正文提取算法,拿到正文之后,就可以对正文进行处理了。不过苏南大叔通过不写规则的办法,匹配到的正文内容,效果其实并不是太理想。所以,暂时,还是通过写规则的办法,有针对性地匹配出正文吧。拿到正文之后,苏南大叔计划进... 阅读更多
pip 如何从 git 源码仓库直接 install ?urllib2 403 问题的解决方案发布于2018年12月28日 python pip install出错怎么办?不知道名称怎么办?如何安装自己的源码?在本文中,苏南大叔讲述一个非常另类的pip install的方式。即:从git源码库安装pip包,这个操作,是不是非常地另类?本次特约出境的嘉... 阅读更多
pip install 时,报错 Cannot uninstall 'six' 的解决方案发布于2018年12月27日 python 在试用pip install某模块时,出现了下面这个有关six的报错信息,看起来是相当的奇怪。苏南大叔查阅了相关issue,使用了强制升级six的方法,解决了这个问题,顺利继续安装相关模块。那么到底如何解决Cann... 阅读更多