『网络爬虫』一篇文章带你了解webscraper爬虫插件


最近看到很多同学都在研究爬虫 , 然后我想到了一款尘封已久的插件 , 很早之前在我刚接触爬虫的时候用过 , 不过自从上了python爬虫过后 , 慢慢就搁置了 , 今天花时间撸一篇教程 , 给同学们安利这款插件 , 如果刚开始学爬虫 , 它一定是你通往人生巅峰的不二人选哦!
废话不多说 , 这款插件全名叫webscraper , 适用于chrome浏览器 , 今天争取用一篇文章带大家掌握webscraper的核心要点 , 好了 , 开始我们今天的webscraper探索之旅!
一:安装webscraper
首先下载插件 , 百度搜webscraper有很多资源 , 这里就不做过多介绍了 , 文末给大家附上网盘链接 , 大家也可以自行下载 , 下载过后 , 将插件包进行解压 , 解压完成后 , 下一步就是在chrome浏览器导入啦!
step 1(更多工具-->扩展程序):
『网络爬虫』一篇文章带你了解webscraper爬虫插件
本文插图
step 2(加载插件包):
在扩展程序页面 , 点击加载已解压的扩展程序 , 选择刚刚解压好的插件包 , 至此 , 即可成功导入webscraper插件 , 加载完后 , 记得选择启用该插件哈 , 如下图的位置 , 启用过后 , webscraper的图表就会展示在浏览器的工具栏上 , 至此即说明webscraper导入成功!
『网络爬虫』一篇文章带你了解webscraper爬虫插件
本文插图
浏览器上显示webscraper图标 , 即可说明该插件导入成功!可正常使用了!
『网络爬虫』一篇文章带你了解webscraper爬虫插件
本文插图
二:构造一个完整的爬虫流程
插件安装完成后 , 接下来我们来用webscraper构建一个完整的爬虫项目:
step 1(create sitemap):
首先 , 打开webscraper配置框 , 有两种方式 , 一种是鼠标右键 , 选择检查 , 打开开发者工具 , 另一种直接按F12快捷启动开发者工具 , 如下图所示 , 在开发者工具的栏目里 , 我们选择webscraper , 即可进入webscraper的主配置框 。

『网络爬虫』一篇文章带你了解webscraper爬虫插件
本文插图
打开后 , 第一步 , 我们先创建爬虫站点 , 点击create new sitemap , 选择create sitemap , 在配置框里配置sitemap name 以及 start url , 其中start url为爬虫的起始页 , 配置如下图所示 , 再点击下方的create sitemap , 即可成功创建 。 我们在这里以CSDN为例 , 创建一个name为csdn , starturl为https://www.csdn.net/的sitemap 。
『网络爬虫』一篇文章带你了解webscraper爬虫插件
本文插图
step 2(Add selector):
创建好sitemap后 , 第二步则创建selector , selector为爬取数据的选择器 , 需要通过它来选择我们想要抓取的数据
『网络爬虫』一篇文章带你了解webscraper爬虫插件
本文插图
我们来看Add selector有哪些需要配置的属性:

『网络爬虫』一篇文章带你了解webscraper爬虫插件
本文插图
ID:选择器ID , 给选择器命名
Type:选择器抓取的数据属性 , 有Text、Link、image、table、HTML、element等多种类型 , 我们一般常用的就是Text、link、element这几种类型 。
selector:选择抓取元素 , 点击select , 然后鼠标选择我们想要抓取的元素位置即可 , 鼠标选中后 , 页面上会进行高亮显示 , 高亮框则是我们要抓取的元素 , 效果如下图 , 具体返回的数据视我们选择的type而定 , 如果type选择的是text , 则返回选中区域类的文本数据 , 如果选择的是link , 则返回链接 , 如果选择的是element , 则会将整个区域的所有元素进行返回 。