『网络爬虫』一篇文章带你了解webscraper爬虫插件( 三 )
本文插图
接着 , 第二步 , 构建子selector , 从父selector点击进去 , 即可进入子selector的配置框 , 接着分别配置title和author两个selector即可 。
本文插图
配置子selector需要注意两点 , 第一 , multiple不能再勾选 , 这里只是对单个元素再次进行解析 。 第二就是 , 在选择子selector的时候 , 要在标黄的区域框进行选择 , 标黄的区域即是父selector选择的元素区域 。
本文插图
【『网络爬虫』一篇文章带你了解webscraper爬虫插件】设置好后 , 再进行抓取 , 这次 , 终于看到我们的数据恢复正常啦!
本文插图
还有种多级页面抓取场景是进入到二级页面继续抓取数据 , 在本场景 , 我们想点开每一个文章 , 然后抓取文章的详情内容 , 这种场景又怎么实现呢?
利用多级结构也能轻松实现 , 我们首先构建一个抓取文章链接的子selector , 然后在该链接selector之下再构建子selector , 这时的子selector抓取的元素就变成了该链接的详情文章页面了 。 按照常规的配置方式 , 我们再配置抓取文章详情的selector即可 。
第一步 , 先构建链接selector , 这里抓取的是链接 , selector type需要选择link , 我们这里构建了一个名为href的selector 。
本文插图
第二步 , 进入到href selector的子selector配置页面 , 配置文章详情页的抓取内容 , 这里我们构建了文章详情页里的title和content两个选择器 。
本文插图
构建完成后 , 我们来看下整个抓取结构 , 可通过selector graph来查看 , 整个抓取结构呈三级结构 , 第一级为elements的抓取 , 主要是解决数据一一映射的问题 , 第二级为子页面抓取 , 通过链接构建子selector来实现 。
至此 , 我们的子页面抓取配置完成 。
本文插图
四:翻页场景的设计模式
我们前面讲述的都是抓取单页内容 , 但是实际情况中 , 翻页场景比比皆是 , 因为一页所展示的数据有限 , 我们需要通过翻页来获取更多的数据 , 对于这种场景 , 我们首先介绍一种通过改变URL来获取翻页数据的方法 , 来看这个例子 。
这是亿欧新闻网站 , 我们可以发现一个规律 , 当我们切换页面的时候 , 它的url会随着页数而发生变化 , 这种有规律的翻页场景 , 我们可以通过设置starturl来实现 , 如下的设置方式表示在1到100进行轮询 , 间隔为1 。
本文插图
那对于一些无规律的翻页场景呢 , 我们又有哪些翻页设计模式可以参考呢?常规的做法我们可以利用循环嵌套抓取结构来实现翻页抓取 , 还是以亿欧网站为例 , 我们来看如何设计一个循环嵌套抓取结构 。
首先在一级selector增加一个获取下一页链接的selector 。 该next selector获取当前页面的下一页链接 。 elements selector获取当前页面的元素 。
- 管见参考过目不忘的读书法
- 澳门@打击贷款类电信网络诈骗犯罪,公安机关一网下去,抓了798人!
- 网络赌博:5大计划单列市首季,深圳厦门惊喜,青岛超过宁波,一项指标超高
- 央视开放网络售票,印度铁路拟分阶段恢复客运列车运营
- 定西公安姜春煌主持召开党委会专题研究打击治理电信网络新型违法犯罪工作
- 红网国网湖南电力扶贫记丨贫困村首次“触电” 网络直播1小时“带货”3600单
- 热点科技咨询感知“大咖”秀之一:创业超女“洞见”网络安全之路
- 南方PLUS更改合同不能“店大欺客”,叮咚快评|网络作家大战阅文集团
- 重庆之声生产线接入网络提升产量30%,重庆用友:机器换人·数据换脑
- hawk26讲武堂获得演习机会,疫情之下美军特种部队如何训练?通过网络整合资源