开启Scrapy爬虫之路！听说你scrapy都不会用？( 二 ) 摘要七夜大佬的《python爬虫开发与项目

view

# 和fetch类似都是查看spider看到的是否和你看到的一致，便于排错scrapy view 12

version

# 查看scrapy版本scrapy version122.2项目命令项目命令比较简单，感觉没什么好说的,我也没怎么详细测试，直接参考这篇【scrapy 命令行：scrpay项目命令】
3.scrapy框架介绍Scrapy 是一个用python写的Crawler Framework,简单轻巧，并且十分方便，使用Twisted这个一部网络库来处理网络通信，架构清晰，并包含了各种中间件接口，可以灵活地完成各种需求，整体架构组成如下图

文章插图

Scrapy引擎(Engine): 引擎负责控制数据流在系统的所有组件中流动，并在相应动作发生时触发事件；
调度器(Scheduler): 调度器从引擎接收request 并将他们入队，以便之后引擎请求request时提供引擎；
下载器(Downloader): 下载器负责获取页面数据并提供给引擎，而后提供给Spider；
Spider: Spider是Scrapy用户编写用于分析Response 并提取Item(即获取到的Item)或额外跟进的URL的类,每个Spider负责处理一个特定（或一些）网站
Item Pipeline: Item Pipeline 负责处理被Spider提取出来的Item .典型的处理有清理验证及持久化（例如存储到数据库中）；
下载器中间件（Downloader middlewares）: 下载器中间件是在引擎及下载器之间的特定钩子（specific hook）,处理Downloader传递给引擎的Response 。其提供了一个简单的机制，通过插入自定义代码来扩展Scrapy功能；
Spider中间件（Spider middlwares）: Spider中间件是在引擎及Spider之间的特定钩子（specific hook）, 处理Spider的输入（response）和输出（items 及request）其中提供了一个简便的机制，通过插入自定义代码来实现Scrapy功能。

4.Scrapy中数据流的流转

引擎打开一个网站（open a domain）,找到处理该网站的Spider 并向该Spider请求第一个要爬取的URL
引擎从Spider中获取第一个要爬取的URL并通过调度器（Schedule）以Request进行调度
引擎向调度器请求下一个要爬取的URL
调度器返回下一个要爬取的URL给引擎，引擎降URL通过下载中间件（请求(request)方向）转发给下载器（Downloader）
一旦页面下载完毕，下载器生成一个该页面的Response ，并将其通过下载中间件（返回(response)方向）发送给引擎
引擎从下载器中接收到Response并通过Spider中间件（输入方向）发送给Spider处理
Spider处理Response并返回爬取到的Item及（跟进的）新的Request给引擎
引擎将（Spider返回的）爬取到的Item 给Item Pipeline,将（Spider返回的）Request给调度器
（从第二步）重复直到调度器中没有更多的Request ，引擎关闭网站

5.第一个scrapy爬虫七夜大佬《》的案例项目，由于书买的比较早，里面用的还是python2自己动手在python3的环境下实现一下
5.1创建项目# 创建一个名为cnblogSpider 的Scrapy项目scrapy startproject cnblogSpider12

文章插图
创建好项目之后，直接使用pycharm打开，继续工作即可结构性文件自动生成，把框架填充起来即可

文章插图

scrapy.cfg: 项目部署文件
cnblogSpider/ ：给项目的python模块，之后可以在此加入代码
- 上一页
- 1
- 2
- 3
- 下一页