『网络爬虫』一篇文章带你了解webscraper爬虫插件( 三 )


『网络爬虫』一篇文章带你了解webscraper爬虫插件
本文插图
接着 , 第二步 , 构建子selector , 从父selector点击进去 , 即可进入子selector的配置框 , 接着分别配置title和author两个selector即可 。
『网络爬虫』一篇文章带你了解webscraper爬虫插件
本文插图
配置子selector需要注意两点 , 第一 , multiple不能再勾选 , 这里只是对单个元素再次进行解析 。 第二就是 , 在选择子selector的时候 , 要在标黄的区域框进行选择 , 标黄的区域即是父selector选择的元素区域 。

『网络爬虫』一篇文章带你了解webscraper爬虫插件
本文插图
【『网络爬虫』一篇文章带你了解webscraper爬虫插件】设置好后 , 再进行抓取 , 这次 , 终于看到我们的数据恢复正常啦!
『网络爬虫』一篇文章带你了解webscraper爬虫插件
本文插图
还有种多级页面抓取场景是进入到二级页面继续抓取数据 , 在本场景 , 我们想点开每一个文章 , 然后抓取文章的详情内容 , 这种场景又怎么实现呢?
利用多级结构也能轻松实现 , 我们首先构建一个抓取文章链接的子selector , 然后在该链接selector之下再构建子selector , 这时的子selector抓取的元素就变成了该链接的详情文章页面了 。 按照常规的配置方式 , 我们再配置抓取文章详情的selector即可 。
第一步 , 先构建链接selector , 这里抓取的是链接 , selector type需要选择link , 我们这里构建了一个名为href的selector 。
『网络爬虫』一篇文章带你了解webscraper爬虫插件
本文插图
第二步 , 进入到href selector的子selector配置页面 , 配置文章详情页的抓取内容 , 这里我们构建了文章详情页里的title和content两个选择器 。
『网络爬虫』一篇文章带你了解webscraper爬虫插件
本文插图
构建完成后 , 我们来看下整个抓取结构 , 可通过selector graph来查看 , 整个抓取结构呈三级结构 , 第一级为elements的抓取 , 主要是解决数据一一映射的问题 , 第二级为子页面抓取 , 通过链接构建子selector来实现 。
至此 , 我们的子页面抓取配置完成 。
『网络爬虫』一篇文章带你了解webscraper爬虫插件
本文插图
四:翻页场景的设计模式
我们前面讲述的都是抓取单页内容 , 但是实际情况中 , 翻页场景比比皆是 , 因为一页所展示的数据有限 , 我们需要通过翻页来获取更多的数据 , 对于这种场景 , 我们首先介绍一种通过改变URL来获取翻页数据的方法 , 来看这个例子 。
这是亿欧新闻网站 , 我们可以发现一个规律 , 当我们切换页面的时候 , 它的url会随着页数而发生变化 , 这种有规律的翻页场景 , 我们可以通过设置starturl来实现 , 如下的设置方式表示在1到100进行轮询 , 间隔为1 。
『网络爬虫』一篇文章带你了解webscraper爬虫插件
本文插图
那对于一些无规律的翻页场景呢 , 我们又有哪些翻页设计模式可以参考呢?常规的做法我们可以利用循环嵌套抓取结构来实现翻页抓取 , 还是以亿欧网站为例 , 我们来看如何设计一个循环嵌套抓取结构 。
首先在一级selector增加一个获取下一页链接的selector 。 该next selector获取当前页面的下一页链接 。 elements selector获取当前页面的元素 。
『网络爬虫』一篇文章带你了解webscraper爬虫插件