scrapy抓取项目,如何处理duplicate request的问题?发布于2022年02月16日 python scrapy抓取项目,因为是一个循环抓取的过程,期间会处理不同的url地址。那么,就如500状态码会阻止代码运行一样,重复的url也会阻止代码的继续执行,这简直不要太不合情理。大家好,这里苏南大叔的“程序如此灵动”... 阅读更多
scrapy抓取结果保存为文件,如何解决中文乱码问题?发布于2022年02月15日 python 又是中文乱码问题,本文介绍scrapy保存结果到json或者xml文件的时候,中文乱码的问题。那么,该如何才能解决这个问题呢?大家好,这里是苏南大叔的“程序如此灵动”博客。本文解决scrapy抓取文章结果乱码的问题... 阅读更多
scrapy抓取,如何改写非200状态码的response返回值?发布于2022年02月14日 python scrapy目前是非常火热的抓取框架,苏南大叔以前更新过这个scrapy框架的部分教程。目前,对以前的内容进行一些适当的补充。本文中,解决的问题是scrapy抓取文件的时候,会碰到一些非200状态码的情况,比如:5... 阅读更多
腾讯ai实验室发布的nlp语料库,如何转化为向量bin文件?发布于2022年02月13日 python 腾讯ai实验室出品的nlp语料库是如何利用的?这个nlp语料库如何下载?这个txt文件如何转化为bin文件?这些就是本文要解决的问题。这里是苏南大叔的程序如此灵动博客,感谢您的访问。本文测试环境:win10,pyt... 阅读更多
python的xlrd不能解析xlsx文件,如何解决?发布于2022年02月12日 python 这里需要使用python对xlsx文件进行读取操作,使用了xlrd库。但是,通过pip安装到xlrd库,却报错无法解析xlsx文件。这究竟是怎么回事呢?大家好,这里苏南大叔的“程序如此灵动”博客。本文记录xlrd库... 阅读更多