『网络爬虫』一篇文章带你了解webscraper爬虫插件 |Chrome|浏览器|HTML|

最近看到很多同学都在研究爬虫，然后我想到了一款尘封已久的插件，很早之前在我刚接触爬虫的时候用过，不过自从上了python爬虫过后，慢慢就搁置了，今天花时间撸一篇教程，给同学们安利这款插件，如果刚开始学爬虫，它一定是你通往人生巅峰的不二人选哦！
废话不多说，这款插件全名叫webscraper ，适用于chrome浏览器，今天争取用一篇文章带大家掌握webscraper的核心要点，好了，开始我们今天的webscraper探索之旅！
一：安装webscraper
首先下载插件，百度搜webscraper有很多资源，这里就不做过多介绍了，文末给大家附上网盘链接，大家也可以自行下载，下载过后，将插件包进行解压，解压完成后，下一步就是在chrome浏览器导入啦！
step 1（更多工具-->扩展程序）：

本文插图
step 2（加载插件包）：
在扩展程序页面，点击加载已解压的扩展程序，选择刚刚解压好的插件包，至此，即可成功导入webscraper插件，加载完后，记得选择启用该插件哈，如下图的位置，启用过后， webscraper的图表就会展示在浏览器的工具栏上，至此即说明webscraper导入成功！

本文插图
浏览器上显示webscraper图标，即可说明该插件导入成功！可正常使用了！

本文插图
二：构造一个完整的爬虫流程
插件安装完成后，接下来我们来用webscraper构建一个完整的爬虫项目：
step 1（create sitemap）：
首先，打开webscraper配置框，有两种方式，一种是鼠标右键，选择检查，打开开发者工具，另一种直接按F12快捷启动开发者工具，如下图所示，在开发者工具的栏目里，我们选择webscraper ，即可进入webscraper的主配置框。

本文插图
打开后，第一步，我们先创建爬虫站点，点击create new sitemap ，选择create sitemap ，在配置框里配置sitemap name 以及 start url ，其中start url为爬虫的起始页，配置如下图所示，再点击下方的create sitemap ，即可成功创建。我们在这里以CSDN为例，创建一个name为csdn ， starturl为https://www.csdn.net/的sitemap 。

本文插图
step 2（Add selector）：
创建好sitemap后，第二步则创建selector ， selector为爬取数据的选择器，需要通过它来选择我们想要抓取的数据

本文插图
我们来看Add selector有哪些需要配置的属性：

本文插图
ID：选择器ID ，给选择器命名
Type：选择器抓取的数据属性，有Text、Link、image、table、HTML、element等多种类型，我们一般常用的就是Text、link、element这几种类型。
selector：选择抓取元素，点击select ，然后鼠标选择我们想要抓取的元素位置即可，鼠标选中后，页面上会进行高亮显示，高亮框则是我们要抓取的元素，效果如下图，具体返回的数据视我们选择的type而定，如果type选择的是text ，则返回选中区域类的文本数据，如果选择的是link ，则返回链接，如果选择的是element ，则会将整个区域的所有元素进行返回。