爬虫入门,这些知识你必须了解
原标题:爬虫入门 , 这些知识你必须了解
网络爬虫是一种按照一定的规则 , 自动地抓取万维网信息的程序或者脚本 。 简单来说 , 网络爬虫就是一段程序 , 它模拟人类访问互联网的形式 , 不停地从网络上抓取我们需要的数据 。 我们可以定制各种各样的爬虫 , 来满足不同的需求 , 如果法律允许 , 你可以采集在网页上看到的、任何你想要获得的数据 。
网络爬虫的抓取策略有很多种 , 但不论方法如何 , 其基本目标一致:优先性选取重要网页进行爬取 。 下面天启IP给大家重点介绍几种常见的抓取策略:
文章图片
爬虫入门 , 这些知识你必须了解
1.宽度优先遍历策略
宽度优先遍历策略的基本思路是 , 将新下载网页中发现的链接直接插入待抓取URL队列的末尾 。 也就是指网络爬虫会先抓取起始网页中链接的所有网页 , 然后再选择其中的一个链接网页 , 继续抓取在此网页中链接的所有网页 。
2.深度优先遍历策略
深度优先遍历策略是指网络爬虫会从起始页开始 , 一个链接一个链接跟踪下去 , 处理完这条线路之后再转入下一个起始页 , 继续跟踪链接 。
3.大站优先策略
对于待抓取URL队列中的所有网页 , 根据所属的网站进行分类 。 对于待下载页面数多的网站 , 优先下载 。 这个策略也因此叫做大站优先策略 。
4.反向链接数策略
反向链接数是指一个网页被其他网页链接指向的数量 。 反向链接数表示的是一个网页的内容受到其他人的推荐的程度 。 因此 , 很多时候搜索引擎的抓取系统会使用这个指标来评价网页的重要程度 , 从而决定不同网页的抓取先后顺序 。
5.PartialPageRank策略
【爬虫入门,这些知识你必须了解】PartialPageRank算法借鉴了PageRank算法的思想:对于已经下载的网页 , 连同待抓取URL队列中的URL , 形成网页集合 , 计算每个页面的PageRank值 , 计算完之后 , 将待抓取URL队列中的URL按照PageRank值的大小排列 , 并按照该顺序抓取页面 。
- 谁说碎花裙是少女专属?春季掌握这些搭配思路,轻松解锁轻熟美
- 这些手表口碑很差,销量却很火爆,玩表的到底是怎么想的?
- 这些明星硬把配角演成了主角,最厉害的是他,把男五号演成男主角!
- 核电产业迎发展新机遇,这些概念股已被机构密集调研
- “一个月三千,你就给孩子吃这些?”贵族幼儿园的饮食让宝妈愤怒
- 十二星座男各有这些表现,就是把你当真爱了
- 爷爷|搞笑GIF: 这些葫芦娃, 这么黑, 应该是被它爷爷用酱油浇大的
- 一件卫衣,搭配整个衣柜!春夏舒适又时尚,记住这些小诀窍
- 期货盈利过千万的赢家用的是这些交易原则?
- 为什么被剩下的总是这些星座女,扎心...