scrapy爬虫系列：scrapy新建并运行新爬虫

发布于2018年09月02日作者：苏南大叔来源：程序如此灵动~

我们相信：世界是美好的，你是我也是。来玩一下解压小游戏吧！

关于scrapy的安装，在scrapy官方文档中，官方重点推荐的conda和virtualenv。不过，对于苏南大叔写的scrapy小白入门教程来说，直接越过这部分的内容，来到如何使用scrapy部分。越过的原因，因为现在scrapy是已经安装好，而且新手也没有机会使用virtualenv。官方的文档，很有把简单的事情说复杂的嫌疑。对于新手来说，可能越看越迷糊。

苏南大叔：scrapy爬虫系列：scrapy新建并运行新爬虫 - scrapy_new_spider — scrapy爬虫系列：scrapy新建并运行新爬虫（图7-1）

苏南大叔决定：就暂时搁置conda和virtualenv之类的议题，以后再说吧。在本文中，苏南大叔描述的话题是：scrapy如何新建并运行一个新的爬虫。

创建新的项目

scrapy startproject <name>

苏南大叔：scrapy爬虫系列：scrapy新建并运行新爬虫 - scrapy-start — scrapy爬虫系列：scrapy新建并运行新爬虫（图7-2）

初始化的项目里面的文件显然比入门demo要多很多。

目前的目录结构里面，还没有scrapy级别上的爬虫，请根据下一步步骤，生成第一个爬虫。

创建第一个爬虫

cd <proj_name>
scrapy genspider <spider_name> <target_domain>

注意，scrapy genspider的执行位置。苏南大叔，主要需要指定爬虫的名字seo1，和目标网址www.baidu.com。目标网址大家选个自己喜欢的测试网址即可。

这个时候，就会生成一个/<proj_mame>/<proj_mame>/spiders/<spider_name>.py文件。这里的<spider_name>.py文件的代码内容，就和入门demo里面的例子是基本类似的了。

苏南大叔：scrapy爬虫系列：scrapy新建并运行新爬虫 - spider_code — scrapy爬虫系列：scrapy新建并运行新爬虫（图7-4）

苏南大叔把scrapy的入门范例代码放过来，做测试。

苏南大叔：scrapy爬虫系列：scrapy新建并运行新爬虫 - spider-code-new — scrapy爬虫系列：scrapy新建并运行新爬虫（图7-5）

运行第一个爬虫

注意本命令的执行位置，是项目的根目录，就是代码个数看起来最多的这个目录。官方提供的命令是：

scrapy crawl <spider_name>

苏南大叔为了查看结果，那么增加了上一节中，我们已经讨论过的-o参数。输出数据到某个具体的数据文件。

scrapy crawl <spider_name> -o <data_path>

苏南大叔：scrapy爬虫系列：scrapy新建并运行新爬虫 - scrapy-crawl — scrapy爬虫系列：scrapy新建并运行新爬虫（图7-6）

苏南大叔：scrapy爬虫系列：scrapy新建并运行新爬虫 - scrapy-crawl-xml — scrapy爬虫系列：scrapy新建并运行新爬虫（图7-7）

结论

成功从一到多，从简单到复杂。再次成功运行入门scrapy的demo。离成功又进一步。加油！想和苏南大叔一起进步学习scrapy么？请查看苏南大叔的scrapy系列教程吧。

https://newsn.net/tag/scrapy/

如果本文对您有帮助，或者节约了您的时间，欢迎打赏瓶饮料，建立下友谊关系。

本博客不欢迎：各种镜像采集行为。请尊重原创文章内容，转载请保留作者链接。

【福利】腾讯云最新爆款活动！1核2G云服务器首年50元！

【源码】本文代码片段及相关软件，请点此获取更多信息

【绝密】秘籍文章入口，仅传授于有缘之人 python scrapy

基于python，COCO数据集特定分类图片标注查看器实现
如何理解标量、向量和张量？零维到三维的演变可视化
python项目管理poetry，poetry install的虚拟环境在哪里？
python项目管理poetry，如何配置镜像？国内加速地址
对标pip，如何使用poetry管理python项目依赖与配置？
如何使用 Gradio 快速创建机器学习模型的预测界面？

前一篇后一篇联系苏南打赏大叔【真香警告】本站同款服务器，赞助商腾讯云

	原创不易，转载请保留链接，谢绝镜像采集
	如果能解决您的困扰，那么想必定是极好的
	快来这里！大家都在这儿等你讨论这个问题

创建新的项目

创建第一个爬虫

运行第一个爬虫

相关链接

结论