『天津冯十一』我决定开启爬虫之旅,学了41天python基础知识

针对我要学爬虫的目的 , 很多朋友都给出了一个简单干脆的学习路径:
别怂 , 直接干!
什么基础知识、函数、对象 , 扯这些都没用 , 在干中学 , 才是最快的成长办法 。
可是 , 找什么项目呢?
一上来弄个爬豆瓣、爬淘宝肯定不现实 , 别说我不会 , 就是看代码都未必能看懂 。
最终 , 我从网上找了一段最短的代码 。
『天津冯十一』我决定开启爬虫之旅,学了41天python基础知识
文章图片
这代码是干啥的?有啥用?
说实话 , 除了百度的网址我知道 , 其他我也说不好 。
一步步试吧 。
然而 , 在PyCharm里并不能运行 , 提示我没有安装requests这个模块 。
找到度娘 , 虎躯一震 , 散发出我的王霸之气 , 度娘一阵娇羞之后 , 终于老实了 。
成功找到模块安装方法 , 非常简单:
在命令窗口 , 直接输入pipinstallrequests , 即可安装 。
这里多说一句 , 我是windows系统 , 有使用linux的 , 请自己找度娘 。
『天津冯十一』我决定开启爬虫之旅,学了41天python基础知识
文章图片
安装成功 , 兴冲冲的进入PyCharm , 竟然还是不行?
【『天津冯十一』我决定开启爬虫之旅,学了41天python基础知识】哎 , 继续找可爱的小度娘吧 。
哦 , 原来光安装还不行 , 还要设置好才可以 , 真麻烦 。
进入file—>setting—>Project:***—>ProjectInterpreter , 点击右边的“+”号 , 在再搜索栏输入requests(千万别输错) , 成功导入!
『天津冯十一』我决定开启爬虫之旅,学了41天python基础知识
文章图片
退出导入界面 , ProjectInterpreter的界面是酱紫的 。
『天津冯十一』我决定开启爬虫之旅,学了41天python基础知识
文章图片
这时候 , 再运行这四行代码 , 成功!
『天津冯十一』我决定开启爬虫之旅,学了41天python基础知识
文章图片
好了 , 下一步开始好好研究下这几行代码啥意思吧 。
第一行 , 不用说 , 导入requests模块 。
第二行 , 我理解这个get方法就是模拟用户访问百度呗 。
使用Ctrl+Q查看一下requests吧 。
『天津冯十一』我决定开启爬虫之旅,学了41天python基础知识
文章图片
get使用是一样的 , 看来括号里面放网址是固定用法 。
后面那个status_cod得出的200是什么鬼?
扭头看度娘冲我招手:“大爷 , 来玩啊 。 ”
哎 , 按摩下腰 , 过去看看吧 。
原来status_cod的意思就是获取返回状态 , 200(称为响应码)意为成功响应 。
下一行content的意思是获取页面内容 。
再说回自己的程序:res.encoding='utf-8'
encoding是获取网页编码 , utf-8前几天学廖雪峰教程时候见过 , 是针对Unicode的一种可变长度字符编码 。
但是上面这行代码貌似没啥用呢 , 因为我把他删了 , 完全不影响最后的运行结果啊 。
『天津冯十一』我决定开启爬虫之旅,学了41天python基础知识
文章图片
最后一行:print(res.text)
通过text来获取网页的内容 。
所以最后的输出结果就该是百度首页源代码 , 这个我大概能猜到 。
但是 , 为什么不是全部呢?
只显示了一部分啊 , 难道是跟浏览器有关系嘛 。。。
今天学习至此结束 , 这种跟度娘上上下下、九浅一深的学习 , 还真蛮有意思的 。
『天津冯十一』我决定开启爬虫之旅,学了41天python基础知识