中年|一篇文章带你搞懂网络爬虫过程中伪装浏览器的请求头常见字段


大家在学习网络爬虫的过程中 , 肯定都会用到F12这个快捷键 , 或者在网页上点击右键—&gt检查 , 进入到网页元素审查模式中去 , 其中请求头是我们重点关注的内容 , 如下图所示:

中年|一篇文章带你搞懂网络爬虫过程中伪装浏览器的请求头常见字段
本文插图
请求头通常在爬虫过程中 , 是为了伪装浏览器 , 这样就可以悄悄的获取网页数据了 。 但是我们经常遇到的请求头中 , 基本上是英文 , 关于英文的意思 , 有时候我们看的并不是很明白 。
今天小编就请求头中的常用字段 , 整理一篇小文章 , 供大家一起学习下 。 希望后面大家在构造请求头的时候 , 不用像以前那么蒙就可以了 。
/2 常见字段(一)/
常见字段(一) , 如下所示:
【中年|一篇文章带你搞懂网络爬虫过程中伪装浏览器的请求头常见字段】Accept: text/htnl, application/xhtml+xml, application/xmlq=0.9,中/*q=08Accept字段主要用来表示浏览器能够支持的内容类型有哪些 。 text html表示HTMⅡL文档 。 application/ xhtml+xm表示 XHTML文档 。 application/xml表示XMAL文档 。 q代表权重系数,值介于0和1之间 。 所以这一行字段信息表示浏览器可以支持 text/html,application/xml、/等内容类型,支持的优先顺序从左到右依次排列 。
/3 常见字段(二)/
常见字段(二) , 如下所示:
accept-encoding:gzip, deflateaccept-encoding字段主要用来表示浏览器支持的压缩编码有哪些 。 gzip是压缩编码的一种 。 deflate是一种无损数据压缩算法 。 这一行字段信息表示浏览器可以支持gzp、 deflate等压缩编码 。
/4 常见字段(三)/
常见字段(三) , 如下所示:
Accept- Language:zhCN,zhq=0.8,en-USq=0.5,cnq=0.3Accept-language主要用来表示浏览器所支持的语言类型 。 zh-CN表示简体中文语言 。 zh表示中文,CN表示简体en-Us表示英语(美国)语言en表示英语语言所以之一行字段表示浏览器可以支持zh-CN、zh、en-US、cn等语言 。
/5 常见字段(四)/
常见字段(四) , 如下所示:
User- Agent: Mozilla5.0( Windows NT61WOw64rv:47.0) Gecko20100101Firefox/47.0user-agent字段主要表示用户代理,服务器可以通过该字段识别出客户端的浏览器类客户端的操作系统及版本号型、浏览器版本号主要以伪造该字段进行网页排版引擎等客户端信息 。 所以之前要模拟浏览器登录 , 主要以伪造该字段进行 。 Mozilla5.0表示浏览器名和版本号Windows NT61WOw64rv:47.0 表示客户端操作系统对应信息Gecko表示网页排版引擎对应信息 。 Firefox/47.0表示火狐浏览器所以这一行字段表示信息为对应的用户代理信息是Mozilla5.0( Windows NT61WOw64rv:47.0) Gecko20100101Firefox/47.0
/6 常见字段(五)/
常见字段(五) , 如下所示:
Connection:keep-aliveConnection表示客户端与服务器的连接类型,对应的字段值主要有两种分页标题keep-alive表示持久性连接 。 close表示单方面关闭连接,让连接断开 。 所以此时,这一行字段表示客户端与服务器的连接是持久性连接 。
/7 常见字段(六)/
常见字段(六) , 如下所示:
Host: wwwyouku.conHost字段表示请求的服务器网址是什么,此时这一行字段表示请求的服务器网址是www,youku,con 。 常见字段7: Referer:网址Referer字段主要表示来源网址地址,比如我们从htp:/ www,youku.conm网址中访问了该网址下的子页面http/tvyouku.com?spm=0.0.topnav.5-1-3!2-A.Onqoef,那么此时来源网址为htp:/ www,youku,con,即此时 Referer字段的值为http://www.youku. com