几个主流搜索引擎蜘蛛的名称

几个主流搜索引擎蜘蛛的名称

几个主流搜索引擎蜘蛛的名称

文章插图
1.Google蜘蛛名称1)Googlebot:从Google的网站索引和新闻索引中抓取网页2)Googlebot-Mobile针对Google的移动索引抓取网页3)Googlebot-Image:针对Google的图片索引抓取网页4)Mediapartners-Google:抓取网页确定AdSense的内容 。只有在你的网站上展示AdSense广告的情况下 , Google才会使用此漫游器来抓取您的网站 。
只有在你使用GoogleAdWords为你的网站做广告的情况下 , Google才会使用此漫游器 。2.百度蜘蛛名称:Baiduspider首字母B大写 , 其余为小写3.雅虎(Yahoo!)蜘蛛名称:1)Yahoo!搜索蜘蛛名称:Yahoo!Slurp.2)Yahoo!搜索引擎广告蜘蛛:Yahoo!-AdCrawler.用来抓取Yahoo!搜索引擎广告登陆页网页4.有道蜘蛛名称:YodaoBot5.腾讯搜搜soso蜘蛛名称:Sosospider首字母S大写 , 其余为小写6.搜狗(sogou)蜘蛛名称:sogouspider7.Live蜘蛛名称1)MSNBot:Mainwebcrawler(www.live.com)2)MSNBot-Media:Images&allothermedia(images.live.com)3)MSNBot-NewsBlogs:Newsandblogs(search.live.com/news)4)MSNBot-Products:Products&shopping(products.live.com)5)MSNBot-Academic:Academicsearch(academic.live.com)拓展阅读:搜索引擎蜘蛛抓取网页规则分析
一.爬虫框架我们可以将网页当作是蜘蛛的晚餐 , 晚餐包括:已下载的网页 。已经被蜘蛛抓取到的网页内容 , 放在肚子里了 。已过期网页 。
蜘蛛每次抓取的网页很多 , 有一些已经坏在肚子里了 。待下载网页 。看到了食物 , 蜘蛛就要去抓取它 。
可知网页 。还没被下载和发现 , 但蜘蛛能够感觉到他们 , 早晚会去抓取它 。不可知网页 。
互联网太大 , 很多页面蜘蛛无法发现 , 可能永远也找不到 , 这部份占比很高 。通过以上划分 , 我们可以很清楚的理解搜索引擎蜘蛛的工作及面临的挑战 。大多数蜘蛛是按照这样的框架去爬行 。
但也不完全一定 , 凡事总有特殊 , 根据职能的'不同 , 蜘蛛系统存在一些差异 。
二.爬虫类型
1.批量型蜘蛛 。这类蜘蛛有明确的抓取范围和目标 , 当蜘蛛完成目标和任务后就停止抓取 。具体目标是什么?可能是抓取网页数量 , 网页大小 , 抓取时间等 。

2.增量型蜘蛛这类蜘蛛和批量型蜘蛛不同 , 他们会持续不断的抓取 , 对于抓取到的网页会定期抓取更新 。因为互联网中的网页是随时处于更新状态中 , 增量型蜘蛛需要能够反映出这种更新 。
3.垂直性蜘蛛这种蜘蛛只关注特定主题或者特定的行业网页 。以健康网站为例子 , 这类专门的蜘蛛会只抓取健康相关主题 , 其它主题内容的网页则不抓取 。
考验这只蜘蛛的难点是如何去更精准的识别内容所属于行业 。目前来看 , 很多垂直类行业网站是需要这种蜘蛛去抓取的 。
三.抓取策略蜘蛛通过种子URL进行爬行拓展 , 列出大量待抓取URL 。但是待抓取URL数量庞大 , 蜘蛛如何确定抓取顺序先后呢?蜘蛛抓取的策略有很多种 , 但最终目的是一个:优先抓取重要的网页 。
评价页面是否重要 , 蜘蛛会根据页面内容原创程度 , 链接权重分析等众多方式来进行计算 。比较有代表性的抓取策略如下:
1.宽度优先策略宽度优先是指:蜘蛛在抓取一个网页后 , 继续将该网页所包含的其它页面按顺序进行进一步抓取 。这种思想看似简单 , 其实却很实用 。
因为大多数网页都是按优先级进行排序 , 重要的页面会优先在页面上进行推荐 。
2.PageRank策略PageRank是一种非常著名的链接分析方法 , 主要是用来衡量网页权重 。如谷歌的PR , 就是典型的PageRank算法 。
通过PageRank算法我们可以找出哪些页面是更重要的 , 然后蜘蛛优先去抓取这些重要性的页面 。
3.大站优先策略这个很容易理解 , 大网站通常拥有更多的`内容页面 , 并且质量也会更高 。蜘蛛会先分析网站归类与属性 。如果这个网站已经收录很多 , 或者在搜索引擎系统中权重很高 , 则优先考虑收录 。

四.网页更新互联网中的页面大多会保持更新 , 这样就要求蜘蛛所存储的页面也能及时更新 , 保持一致性 。打个比喻:一个网页之前排名很好 , 如果页面已经被删 , 却还有排名 , 那体验就很不好 。因此搜索引擎需要随时了解这些并更新页面 , 将最新的页面提供给用户 。