我们相信:世界是美好的,你是我也是。平行空间的世界里面,不同版本的生活也在继续...

关于scrapy的安装,在scrapy官方文档中,官方重点推荐的condavirtualenv。不过,对于苏南大叔写的scrapy小白入门教程来说,直接越过这部分的内容,来到如何使用scrapy部分。越过的原因,因为现在scrapy是已经安装好,而且新手也没有机会使用virtualenv。官方的文档,很有把简单的事情说复杂的嫌疑。对于新手来说,可能越看越迷糊。

苏南大叔:scrapy爬虫系列:scrapy新建并运行新爬虫 - scrapy_new_spider
scrapy爬虫系列:scrapy新建并运行新爬虫(图7-1)

苏南大叔决定:就暂时搁置condavirtualenv之类的议题,以后再说吧。在本文中,苏南大叔描述的话题是:scrapy如何新建并运行一个新的爬虫。

创建新的项目

scrapy startproject <name>

苏南大叔:scrapy爬虫系列:scrapy新建并运行新爬虫 - scrapy-start
scrapy爬虫系列:scrapy新建并运行新爬虫(图7-2)

初始化的项目里面的文件显然比入门demo要多很多。

目前的目录结构里面,还没有scrapy级别上的爬虫,请根据下一步步骤,生成第一个爬虫

创建第一个爬虫

cd <proj_name>
scrapy genspider <spider_name> <target_domain>

注意,scrapy genspider的执行位置。苏南大叔,主要需要指定爬虫的名字seo1,和目标网址www.baidu.com。目标网址大家选个自己喜欢的测试网址即可。

苏南大叔:scrapy爬虫系列:scrapy新建并运行新爬虫 - scrapy-new-spider
scrapy爬虫系列:scrapy新建并运行新爬虫(图7-3)

这个时候,就会生成一个/<proj_mame>/<proj_mame>/spiders/<spider_name>.py文件。这里的<spider_name>.py文件的代码内容,就和入门demo里面的例子是基本类似的了。

苏南大叔:scrapy爬虫系列:scrapy新建并运行新爬虫 - spider_code
scrapy爬虫系列:scrapy新建并运行新爬虫(图7-4)

苏南大叔把scrapy的入门范例代码放过来,做测试。

苏南大叔:scrapy爬虫系列:scrapy新建并运行新爬虫 - spider-code-new
scrapy爬虫系列:scrapy新建并运行新爬虫(图7-5)

运行第一个爬虫

注意本命令的执行位置,是项目的根目录,就是代码个数看起来最多的这个目录。官方提供的命令是:

scrapy crawl <spider_name>

苏南大叔为了查看结果,那么增加了上一节中,我们已经讨论过的-o参数。输出数据到某个具体的数据文件。

scrapy crawl <spider_name> -o <data_path>

苏南大叔:scrapy爬虫系列:scrapy新建并运行新爬虫 - scrapy-crawl
scrapy爬虫系列:scrapy新建并运行新爬虫(图7-6)

苏南大叔:scrapy爬虫系列:scrapy新建并运行新爬虫 - scrapy-crawl-xml
scrapy爬虫系列:scrapy新建并运行新爬虫(图7-7)

相关链接

结论

成功从一到多,从简单到复杂。再次成功运行入门scrapy的demo。离成功又进一步。加油!想和苏南大叔一起进步学习scrapy么?请查看苏南大叔的scrapy系列教程吧。

如果本文对您有帮助,或者节约了您的时间,欢迎打赏瓶饮料,建立下友谊关系。
本博客不欢迎:各种镜像采集行为。请尊重原创文章内容,转载请保留作者链接。

 【福利】 腾讯云最新爆款活动!1核2G云服务器首年50元!

 【源码】本文代码片段及相关软件,请点此获取更多信息

 【绝密】秘籍文章入口,仅传授于有缘之人   python    scrapy