scrapy爬虫系列:利用pymysql操作mysql数据库发布于2018年09月07日 数据分析 苏南大叔在本篇文章中,继续讲述scrapy如何处理item数据,如何把抓取到的item数据,持久化到mysql数据库之中。本文的主要战场是:piplines.py这个文件。在python中,配合mysql的库文件也... 阅读更多
scrapy爬虫系列:数据结构体item及数据处理逻辑pipline发布于2018年09月06日 数据分析 pipline是scrapy系列处理数据的地方,在pipline里面,可以把采集到的数据持久化。而scrapy就是item就是数据的标准格式,有点像以前c#时代的model,定义数据属性的地方。那么,通常意义上的,... 阅读更多
scrapy爬虫系列:页面数据查询的三种方式发布于2018年09月05日 数据分析 scrapy获取到response对象后,需要对response对象进行解析,才能取到后续数据。本文中,苏南大叔将对scrapy解析数据的几种方式,进行总结说明。这其中包括官方推荐的.css,.xpath方式,当然... 阅读更多
scrapy爬虫系列:如何使用pycharm调试scrapy程序发布于2018年09月04日 数据分析 本文描述如何利用pycharm单步调试 scrapy的项目代码,方式主要有两种,适用的途径是不一样的。但对于调试这件事情来说,这两种方案效果都是一致的,有效。不过对于通过pycharm运行scrapy项目来说,这两... 阅读更多
scrapy爬虫系列:shell命令行测试模式发布于2018年09月03日 数据分析 scrapy的命令行模式,非常适合调试parse()内的具体语句。通过这个命令行,可以实验.css和.path函数,是否可以返回预想中的值。scrapy的shell模式,使用起来是非常的简单。本文只涉及scrapy... 阅读更多