scrapy爬虫系列:scrapy新建并运行新爬虫
发布于 作者:苏南大叔 来源:程序如此灵动~
关于scrapy的安装,在scrapy官方文档中,官方重点推荐的conda和virtualenv。不过,对于苏南大叔写的scrapy小白入门教程来说,直接越过这部分的内容,来到如何使用scrapy部分。越过的原因,因为现在scrapy是已经安装好,而且新手也没有机会使用virtualenv。官方的文档,很有把简单的事情说复杂的嫌疑。对于新手来说,可能越看越迷糊。

苏南大叔决定:就暂时搁置conda和virtualenv之类的议题,以后再说吧。在本文中,苏南大叔描述的话题是:scrapy如何新建并运行一个新的爬虫。
创建新的项目
scrapy startproject <name>
初始化的项目里面的文件显然比入门demo要多很多。
目前的目录结构里面,还没有scrapy级别上的爬虫,请根据下一步步骤,生成第一个爬虫。
创建第一个爬虫
cd <proj_name>
scrapy genspider <spider_name> <target_domain>注意,scrapy genspider的执行位置。苏南大叔,主要需要指定爬虫的名字seo1,和目标网址www.baidu.com。目标网址大家选个自己喜欢的测试网址即可。

这个时候,就会生成一个/<proj_mame>/<proj_mame>/spiders/<spider_name>.py文件。这里的<spider_name>.py文件的代码内容,就和入门demo里面的例子是基本类似的了。

苏南大叔把scrapy的入门范例代码放过来,做测试。

运行第一个爬虫
注意本命令的执行位置,是项目的根目录,就是代码个数看起来最多的这个目录。官方提供的命令是:
scrapy crawl <spider_name>苏南大叔为了查看结果,那么增加了上一节中,我们已经讨论过的-o参数。输出数据到某个具体的数据文件。
scrapy crawl <spider_name> -o <data_path>

相关链接
结论
成功从一到多,从简单到复杂。再次成功运行入门scrapy的demo。离成功又进一步。加油!想和苏南大叔一起进步学习scrapy么?请查看苏南大叔的scrapy系列教程吧。