『网络爬虫』一篇文章带你了解webscraper爬虫插件( 三 ) |Chrome|浏览器|HTML|

本文插图
接着，第二步，构建子selector ，从父selector点击进去，即可进入子selector的配置框，接着分别配置title和author两个selector即可。

本文插图
配置子selector需要注意两点，第一， multiple不能再勾选，这里只是对单个元素再次进行解析。第二就是，在选择子selector的时候，要在标黄的区域框进行选择，标黄的区域即是父selector选择的元素区域。

本文插图
【『网络爬虫』一篇文章带你了解webscraper爬虫插件】设置好后，再进行抓取，这次，终于看到我们的数据恢复正常啦！

本文插图
还有种多级页面抓取场景是进入到二级页面继续抓取数据，在本场景，我们想点开每一个文章，然后抓取文章的详情内容，这种场景又怎么实现呢？
利用多级结构也能轻松实现，我们首先构建一个抓取文章链接的子selector ，然后在该链接selector之下再构建子selector ，这时的子selector抓取的元素就变成了该链接的详情文章页面了。按照常规的配置方式，我们再配置抓取文章详情的selector即可。
第一步，先构建链接selector ，这里抓取的是链接， selector type需要选择link ，我们这里构建了一个名为href的selector 。

本文插图
第二步，进入到href selector的子selector配置页面，配置文章详情页的抓取内容，这里我们构建了文章详情页里的title和content两个选择器。

本文插图
构建完成后，我们来看下整个抓取结构，可通过selector graph来查看，整个抓取结构呈三级结构，第一级为elements的抓取，主要是解决数据一一映射的问题，第二级为子页面抓取，通过链接构建子selector来实现。
至此，我们的子页面抓取配置完成。

本文插图
四：翻页场景的设计模式
我们前面讲述的都是抓取单页内容，但是实际情况中，翻页场景比比皆是，因为一页所展示的数据有限，我们需要通过翻页来获取更多的数据，对于这种场景，我们首先介绍一种通过改变URL来获取翻页数据的方法，来看这个例子。
这是亿欧新闻网站，我们可以发现一个规律，当我们切换页面的时候，它的url会随着页数而发生变化，这种有规律的翻页场景，我们可以通过设置starturl来实现，如下的设置方式表示在1到100进行轮询，间隔为1 。

本文插图
那对于一些无规律的翻页场景呢，我们又有哪些翻页设计模式可以参考呢？常规的做法我们可以利用循环嵌套抓取结构来实现翻页抓取，还是以亿欧网站为例，我们来看如何设计一个循环嵌套抓取结构。
首先在一级selector增加一个获取下一页链接的selector 。该next selector获取当前页面的下一页链接。 elements selector获取当前页面的元素。