scrapy爬虫系列:scrapy新建并运行新爬虫
发布于 作者:苏南大叔 来源:程序如此灵动~ 我们相信:世界是美好的,你是我也是。平行空间的世界里面,不同版本的生活也在继续...
关于scrapy
的安装,在scrapy
官方文档中,官方重点推荐的conda
和virtualenv
。不过,对于苏南大叔写的scrapy
小白入门教程来说,直接越过这部分的内容,来到如何使用scrapy
部分。越过的原因,因为现在scrapy
是已经安装好,而且新手也没有机会使用virtualenv
。官方的文档,很有把简单的事情说复杂的嫌疑。对于新手来说,可能越看越迷糊。
苏南大叔决定:就暂时搁置conda
和virtualenv
之类的议题,以后再说吧。在本文中,苏南大叔描述的话题是:scrapy
如何新建并运行一个新的爬虫。
创建新的项目
scrapy startproject <name>
初始化的项目里面的文件显然比入门demo
要多很多。
目前的目录结构里面,还没有scrapy
级别上的爬虫,请根据下一步步骤,生成第一个爬虫
。
创建第一个爬虫
cd <proj_name>
scrapy genspider <spider_name> <target_domain>
注意,scrapy genspider
的执行位置。苏南大叔,主要需要指定爬虫的名字seo1
,和目标网址www.baidu.com
。目标网址大家选个自己喜欢的测试网址即可。
这个时候,就会生成一个/<proj_mame>/<proj_mame>/spiders/<spider_name>.py
文件。这里的<spider_name>.py
文件的代码内容,就和入门demo里面的例子是基本类似的了。
苏南大叔把scrapy
的入门范例代码放过来,做测试。
运行第一个爬虫
注意本命令的执行位置,是项目的根目录,就是代码个数看起来最多的这个目录。官方提供的命令是:
scrapy crawl <spider_name>
苏南大叔为了查看结果,那么增加了上一节中,我们已经讨论过的-o
参数。输出数据到某个具体的数据文件。
scrapy crawl <spider_name> -o <data_path>
相关链接
结论
成功从一到多,从简单到复杂。再次成功运行入门scrapy
的demo。离成功又进一步。加油!想和苏南大叔一起进步学习scrapy
么?请查看苏南大叔的scrapy
系列教程吧。
如果本文对您有帮助,或者节约了您的时间,欢迎打赏瓶饮料,建立下友谊关系。
本博客不欢迎:各种镜像采集行为。请尊重原创文章内容,转载请保留作者链接。
本博客不欢迎:各种镜像采集行为。请尊重原创文章内容,转载请保留作者链接。