python 正文抽取试验:readability、newspaper发布于2018年12月30日 python 本文中,苏南大叔描述的是:python如何免正则表达式分析出文章正文。当然,这篇文字如果非要往高大上说的话,就可以扯上ai之类的高大上名词。反正,宗旨就是这样的:不写正则表达式,仅使用python现有的第三方模块,... 阅读更多
python 中文分词工具:jieba 结巴分词发布于2018年12月29日 python 通过正文提取算法,拿到正文之后,就可以对正文进行处理了。不过苏南大叔通过不写规则的办法,匹配到的正文内容,效果其实并不是太理想。所以,暂时,还是通过写规则的办法,有针对性地匹配出正文吧。拿到正文之后,苏南大叔计划进... 阅读更多
pip 如何从 git 源码仓库直接 install ?urllib2 403 问题的解决方案发布于2018年12月28日 python pip install出错怎么办?不知道名称怎么办?如何安装自己的源码?在本文中,苏南大叔讲述一个非常另类的pip install的方式。即:从git源码库安装pip包,这个操作,是不是非常地另类?本次特约出境的嘉... 阅读更多
pip install 时,报错 Cannot uninstall 'six' 的解决方案发布于2018年12月27日 python 在试用pip install某模块时,出现了下面这个有关six的报错信息,看起来是相当的奇怪。苏南大叔查阅了相关issue,使用了强制升级six的方法,解决了这个问题,顺利继续安装相关模块。那么到底如何解决Cann... 阅读更多
node 如何把图片文件转换为 base64 形式?发布于2018年12月26日 后端编程 对于网页来说,一个图片的存储形式有很多种了。其中一种就是图片的内容以base64编码的形式存在于html之中,而不是以更加常见的图片单独存放的形式,存放于网络之中。苏南大叔在本文中,讲述的就是,node如何把一个图... 阅读更多