『网络爬虫』一篇文章带你了解webscraper爬虫插件
最近看到很多同学都在研究爬虫 , 然后我想到了一款尘封已久的插件 , 很早之前在我刚接触爬虫的时候用过 , 不过自从上了python爬虫过后 , 慢慢就搁置了 , 今天花时间撸一篇教程 , 给同学们安利这款插件 , 如果刚开始学爬虫 , 它一定是你通往人生巅峰的不二人选哦!
废话不多说 , 这款插件全名叫webscraper , 适用于chrome浏览器 , 今天争取用一篇文章带大家掌握webscraper的核心要点 , 好了 , 开始我们今天的webscraper探索之旅!
一:安装webscraper
首先下载插件 , 百度搜webscraper有很多资源 , 这里就不做过多介绍了 , 文末给大家附上网盘链接 , 大家也可以自行下载 , 下载过后 , 将插件包进行解压 , 解压完成后 , 下一步就是在chrome浏览器导入啦!
step 1(更多工具-->扩展程序):
本文插图
step 2(加载插件包):
在扩展程序页面 , 点击加载已解压的扩展程序 , 选择刚刚解压好的插件包 , 至此 , 即可成功导入webscraper插件 , 加载完后 , 记得选择启用该插件哈 , 如下图的位置 , 启用过后 , webscraper的图表就会展示在浏览器的工具栏上 , 至此即说明webscraper导入成功!
本文插图
浏览器上显示webscraper图标 , 即可说明该插件导入成功!可正常使用了!
本文插图
二:构造一个完整的爬虫流程
插件安装完成后 , 接下来我们来用webscraper构建一个完整的爬虫项目:
step 1(create sitemap):
首先 , 打开webscraper配置框 , 有两种方式 , 一种是鼠标右键 , 选择检查 , 打开开发者工具 , 另一种直接按F12快捷启动开发者工具 , 如下图所示 , 在开发者工具的栏目里 , 我们选择webscraper , 即可进入webscraper的主配置框 。
本文插图
打开后 , 第一步 , 我们先创建爬虫站点 , 点击create new sitemap , 选择create sitemap , 在配置框里配置sitemap name 以及 start url , 其中start url为爬虫的起始页 , 配置如下图所示 , 再点击下方的create sitemap , 即可成功创建 。 我们在这里以CSDN为例 , 创建一个name为csdn , starturl为https://www.csdn.net/的sitemap 。
本文插图
step 2(Add selector):
创建好sitemap后 , 第二步则创建selector , selector为爬取数据的选择器 , 需要通过它来选择我们想要抓取的数据
本文插图
我们来看Add selector有哪些需要配置的属性:
本文插图
ID:选择器ID , 给选择器命名
Type:选择器抓取的数据属性 , 有Text、Link、image、table、HTML、element等多种类型 , 我们一般常用的就是Text、link、element这几种类型 。
selector:选择抓取元素 , 点击select , 然后鼠标选择我们想要抓取的元素位置即可 , 鼠标选中后 , 页面上会进行高亮显示 , 高亮框则是我们要抓取的元素 , 效果如下图 , 具体返回的数据视我们选择的type而定 , 如果type选择的是text , 则返回选中区域类的文本数据 , 如果选择的是link , 则返回链接 , 如果选择的是element , 则会将整个区域的所有元素进行返回 。
- 管见参考过目不忘的读书法
- 澳门@打击贷款类电信网络诈骗犯罪,公安机关一网下去,抓了798人!
- 网络赌博:5大计划单列市首季,深圳厦门惊喜,青岛超过宁波,一项指标超高
- 央视开放网络售票,印度铁路拟分阶段恢复客运列车运营
- 定西公安姜春煌主持召开党委会专题研究打击治理电信网络新型违法犯罪工作
- 红网国网湖南电力扶贫记丨贫困村首次“触电” 网络直播1小时“带货”3600单
- 热点科技咨询感知“大咖”秀之一:创业超女“洞见”网络安全之路
- 南方PLUS更改合同不能“店大欺客”,叮咚快评|网络作家大战阅文集团
- 重庆之声生产线接入网络提升产量30%,重庆用友:机器换人·数据换脑
- hawk26讲武堂获得演习机会,疫情之下美军特种部队如何训练?通过网络整合资源