如果本文对您有帮助,或者节约了您的时间,欢迎打赏瓶饮料,建立下友谊关系。
本博客不欢迎:各种镜像采集行为。请尊重原创文章内容,转载请保留链接信息。

关于scrapy的安装,在scrapy官方文档中,官方重点推荐的condavirtualenv。不过,对于苏南大叔写的scrapy小白入门教程来说,直接越过这部分的内容,来到如何使用scrapy部分。越过的原因,因为现在scrapy是已经安装好,而且新手也没有机会使用virtualenv。官方的文档,很有把简单的事情说复杂的嫌疑。对于新手来说,可能越看越迷糊。

苏南大叔决定:就暂时搁置condavirtualenv之类的议题,以后再说吧。在本文中,苏南大叔描述的话题是:scrapy如何新建并运行一个新的爬虫。

创建新的项目

scrapy startproject <name>

scrapy爬虫系列:scrapy新建并运行新爬虫 - scrapy-start
scrapy爬虫系列:scrapy新建并运行新爬虫(图6-1)

初始化的项目里面的文件显然比入门demo要多很多。

目前的目录结构里面,还没有scrapy级别上的爬虫,请根据下一步步骤,生成第一个爬虫

创建第一个爬虫

cd <proj_name>
scrapy genspider <spider_name> <target_domain>

注意,scrapy genspider的执行位置。苏南大叔,主要需要指定爬虫的名字seo1,和目标网址www.baidu.com。目标网址大家选个自己喜欢的测试网址即可。

scrapy爬虫系列:scrapy新建并运行新爬虫 - scrapy-new-spider
scrapy爬虫系列:scrapy新建并运行新爬虫(图6-2)

这个时候,就会生成一个/<proj_mame>/<proj_mame>/spiders/<spider_name>.py文件。这里的<spider_name>.py文件的代码内容,就和入门demo里面的例子是基本类似的了。

scrapy爬虫系列:scrapy新建并运行新爬虫 - spider_code
scrapy爬虫系列:scrapy新建并运行新爬虫(图6-3)

苏南大叔把scrapy的入门范例代码放过来,做测试。

scrapy爬虫系列:scrapy新建并运行新爬虫 - spider-code-new
scrapy爬虫系列:scrapy新建并运行新爬虫(图6-4)

运行第一个爬虫

注意本命令的执行位置,是项目的根目录,就是代码个数看起来最多的这个目录。官方提供的命令是:

scrapy crawl <spider_name>

苏南大叔为了查看结果,那么增加了上一节中,我们已经讨论过的-o参数。输出数据到某个具体的数据文件。

scrapy crawl <spider_name> -o <data_path>

scrapy爬虫系列:scrapy新建并运行新爬虫 - scrapy-crawl
scrapy爬虫系列:scrapy新建并运行新爬虫(图6-5)

scrapy爬虫系列:scrapy新建并运行新爬虫 - scrapy-crawl-xml
scrapy爬虫系列:scrapy新建并运行新爬虫(图6-6)

相关链接

结论

成功从一到多,从简单到复杂。再次成功运行入门scrapy的demo。离成功又进一步。加油!想和苏南大叔一起进步学习scrapy么?请查看苏南大叔的scrapy系列教程吧。

 【源码】代码片段及相关软件点此获取

 【python】秘籍文章入口,仅传授于有缘之人   python    scrapy

本站的忠实读者小伙伴,正在阅读下面这些文章:

欢迎转载传播本篇原创文章,转载请保留链接及作者信息。
欢迎指正文字或逻辑错误,将会择优在文末列出您的信息。
本站采用创作共用版权协议, 要求署名、非商业用途和相同方式共享。
转载本站内容必须也遵循“署名-非商业用途-相同方式共享”的创作共用协议。
未经许可,规模化镜像抄袭本站内容的行为,将会根据有关法律法规进行维权。
程序如此灵动~》下所有原创文章,如被用于商业用途,请您按规定支付稿费。

苏南大叔需要你的支持

感谢您的打赏,让我更有动力,将更多精彩教程文章,呈现给大家!谢谢!