百度蜘蛛建立重要索引库的原则是什么,哪些网页不能建立索引
文章插图
话题一、百度优先建设重要索引库的原则 。
Baiduspider抓多少页不重要 。 重要的是建立了多少页的索引数据库 , 这就是我们常说的建立数据库 。 众所周知 , 搜索引擎的索引库是分级的 , 优质的网页分配给重要的索引库 , 普通的网页待在普通的库中 , 更差的网页分配给低级库作为补充材料 。 目前 , 60%的搜索需求只需调用重要索引库即可满足 。 这说明了为什么有些网站的收录量很高 , 但流量不理想 。
那什么样的网页可以加入到高质量的索引库中呢?其实 , 总的原则是对用户的价值 。 包括以下内容:
【百度蜘蛛建立重要索引库的原则是什么,哪些网页不能建立索引】一、高价值原始内容页面:百度将原始定义为一定成本、积累大量经验后形成的文章 。 不要再问我们伪原件是否是原件了 。
二、重要的个人页面:在这里举个例子 , 科比在新浪微博上开户 , 他需要经常更新 , 但对百度来说仍然是重要的页面 。
三、内容高质量的主题页:主题页的内容不一定完全原创 , 可以很好地整合各方面的内容 , 增加新鲜的内容 , 如观点和评论 , 丰富用户的全面内容 。
四.有时效性和价值的页面:这里 , 时效性和价值并列 , 缺一不可 。 有些网站为了产生时效性的内容页面做了很多收集工作 , 产生了很多没有价值的页面 , 百度也不想看 。
话题2 , 哪个网页不能进入索引库 。
优秀的网页进入索引库 , 但实际上网上的大部分网站都没有被百度收录 。 不是百度没发现 , 而是数据库建之前的筛选过程被过滤掉了 。 什么样的网页在最初的阶段被过滤了呢
1、重复内容的网页:网上现有的内容 , 百度不必再收录了 。
2、主体内容空白的网页 。
有些内容 , 比如JS、AJAX , 使用的是百度蜘蛛无法分析的技术 。 通过访问 , 用户可以看到丰富的内容 , 但是仍然被搜索引擎所抛弃 。
加载速度过慢的网页也可能作为空页处理 , 注意广告加载时间在网页整体的加载时间内 。
许多主体不突出的网页即使被抓住也会在这个阶段被抛弃 。
有些作弊网页 。
- 用户|2020互联网「年终盘点」之盘点:百度最泪目,趣头条接地气
- Google AI建立了一个能够分析烘焙食谱的机器学习模型
- 2021年互联网巨头第一仗!飞书开撕微信,阿里华为百度全都入局
- 2020百度地图生态大会:开放平台十周年 为行业送出多个解决方案“大礼包”
- 一个人完成AI开发和部署 百度飞桨实现铁路货车车号精准检测
- 百度网盘主体公司发生变更,市值翻倍正值拆分上市好时机?
- 从工程师到“水果猎人”他在百度做科普
- 百度华为阿里领衔,聚焦最值得关注的十家人工智能公司
- 网课平台专项整治第三批问题网站平台曝光 涉新浪微博、百度贴吧
- 百度|百度输入法“AI助聊”功能使用指南来了!纠错、预测、帮写轻松搞定