百度蜘蛛建立重要索引库的原则是什么,哪些网页不能建立索引


百度蜘蛛建立重要索引库的原则是什么,哪些网页不能建立索引文章插图
话题一、百度优先建设重要索引库的原则 。
Baiduspider抓多少页不重要 。 重要的是建立了多少页的索引数据库 , 这就是我们常说的建立数据库 。 众所周知 , 搜索引擎的索引库是分级的 , 优质的网页分配给重要的索引库 , 普通的网页待在普通的库中 , 更差的网页分配给低级库作为补充材料 。 目前 , 60%的搜索需求只需调用重要索引库即可满足 。 这说明了为什么有些网站的收录量很高 , 但流量不理想 。
那什么样的网页可以加入到高质量的索引库中呢?其实 , 总的原则是对用户的价值 。 包括以下内容:
【百度蜘蛛建立重要索引库的原则是什么,哪些网页不能建立索引】一、高价值原始内容页面:百度将原始定义为一定成本、积累大量经验后形成的文章 。 不要再问我们伪原件是否是原件了 。
二、重要的个人页面:在这里举个例子 , 科比在新浪微博上开户 , 他需要经常更新 , 但对百度来说仍然是重要的页面 。
三、内容高质量的主题页:主题页的内容不一定完全原创 , 可以很好地整合各方面的内容 , 增加新鲜的内容 , 如观点和评论 , 丰富用户的全面内容 。
四.有时效性和价值的页面:这里 , 时效性和价值并列 , 缺一不可 。 有些网站为了产生时效性的内容页面做了很多收集工作 , 产生了很多没有价值的页面 , 百度也不想看 。
话题2 , 哪个网页不能进入索引库 。
优秀的网页进入索引库 , 但实际上网上的大部分网站都没有被百度收录 。 不是百度没发现 , 而是数据库建之前的筛选过程被过滤掉了 。 什么样的网页在最初的阶段被过滤了呢
1、重复内容的网页:网上现有的内容 , 百度不必再收录了 。
2、主体内容空白的网页 。
有些内容 , 比如JS、AJAX , 使用的是百度蜘蛛无法分析的技术 。 通过访问 , 用户可以看到丰富的内容 , 但是仍然被搜索引擎所抛弃 。
加载速度过慢的网页也可能作为空页处理 , 注意广告加载时间在网页整体的加载时间内 。
许多主体不突出的网页即使被抓住也会在这个阶段被抛弃 。
有些作弊网页 。