开启Scrapy爬虫之路!听说你scrapy都不会用?

摘要七夜大佬的《python爬虫开发与项目实战》 , 买了好多年了 , 学习了好多东西 , 基本上爬虫都是在这里面学的 , 后期的scrapy框架爬虫一直不得门而入 , 前段时间补了下面向对象的知识 , 今天突然顿悟了!写个笔记记录下学习过程
1.scrapy安装# -i参数后跟清华镜像源 , 加速下载 , 其他pip的包也可这么操作pip install Scrapy -i测试如下图表示安装成功
开启Scrapy爬虫之路!听说你scrapy都不会用?文章插图
其他参考方法:win7安装scrapy
2.相关命令介绍scrapy命令分为

  • 全局命令:全局命令就是在哪都能用;
  • 项目命令:项目命令就是只能依托你的项目;
2.1全局命令全局命令就是上图安装测试时主动跳出来的那些命令
startproject、genspider、settings、runspider、shell、fetch、view、version
比较常用的有三个:
scrapy startproject project_name # 创建项目scrapy crawl spider_name # 运行名为spider_name的爬虫项目# 调试网址为的网站scrapy shell ""全局命令就是不依托项目存在的 , 也就是不关你有木有项目都能运行 , 比如:startproject它就是创建项目的命令 , 肯定是没有项目也能运行;
详细用法说明:
  • startproject# 使用频次最高 , 用于项目创建 , eg:创建一个名为:cnblogSpider的项目 scrapy strartproject cnblogSpider
genspider
# 用于创建爬虫模板 , example是spider名称,生成文件在spiders下面 , 也是后面写爬虫的地方# 注意spider名称不能和项目相同scrapy genspider example example.com
开启Scrapy爬虫之路!听说你scrapy都不会用?文章插图
settings
# 查看scray参数设置scrapy settings --get DOWNLOAD_DELAY # 查看爬虫的下载延迟scrapy settings --get BOT_NAME # 爬虫的名字【开启Scrapy爬虫之路!听说你scrapy都不会用?】runspider运行蜘蛛除了使用前面所说的scrapy crawl XX之外 , 我们还能用:runspider;crawl是基于项目运行 , runspide是基于文件运行 , 也就是说你按照scrapy的蜘蛛格式编写了一个py文件 , 如果不想创建项目 , 就可以使用runspider , eg:编写了一个:test.py的蜘蛛 , 你要直接运行就是:
scrapy runspider test.pyshell
# 这个命令比较重要 , 主要是调试用 , 里面还有很多细节的命令# 最简单常用的的就是调试 , 查看我们的选择器到底有木有正确选中某个元素scrapy shell ""# 然后我们可以直接执行response命令 , #比如我们要测试我们获取标题的选择器正不正确:response.css("title").extract_first()# 以及测试xpath路径选择是否正确response.xpath("//*[@id='mainContent']/div/div/div[2]/a/span").extract()