运行scrapy爬虫时,提示不能识别crawl命令,该如何处理?发布于2020年04月29日 python 近期,苏南大叔在箱子底里面翻出了一个scrapy项目,因为目标网站改版,所以需要修复一些抓取规则。在调试的过程中,发现了一些小问题,比如本文中所描述的一个弱智问题,非常弱智。但是,估计读者你还是犯了这个问题了吧?否... 阅读更多
scrapy爬虫系列:利用pymysql操作mysql数据库发布于2018年09月07日 大数据分析 苏南大叔在本篇文章中,继续讲述scrapy如何处理item数据,如何把抓取到的item数据,持久化到mysql数据库之中。本文的主要战场是:piplines.py这个文件。在python中,配合mysql的库文件也... 阅读更多
scrapy爬虫系列:数据结构体item及数据处理逻辑pipline发布于2018年09月06日 大数据分析 pipline是scrapy系列处理数据的地方,在pipline里面,可以把采集到的数据持久化。而scrapy就是item就是数据的标准格式,有点像以前c#时代的model,定义数据属性的地方。那么,通常意义上的,... 阅读更多
scrapy爬虫系列:页面数据查询的三种方式发布于2018年09月05日 大数据分析 scrapy获取到response对象后,需要对response对象进行解析,才能取到后续数据。本文中,苏南大叔将对scrapy解析数据的几种方式,进行总结说明。这其中包括官方推荐的.css,.xpath方式,当然... 阅读更多
scrapy爬虫系列:如何使用pycharm调试scrapy程序发布于2018年09月04日 大数据分析 本文描述如何利用pycharm单步调试 scrapy的项目代码,方式主要有两种,适用的途径是不一样的。但对于调试这件事情来说,这两种方案效果都是一致的,有效。不过对于通过pycharm运行scrapy项目来说,这两... 阅读更多