『天津冯十一』我决定开启爬虫之旅,学了41天python基础知识
针对我要学爬虫的目的 , 很多朋友都给出了一个简单干脆的学习路径:
别怂 , 直接干!
什么基础知识、函数、对象 , 扯这些都没用 , 在干中学 , 才是最快的成长办法 。
可是 , 找什么项目呢?
一上来弄个爬豆瓣、爬淘宝肯定不现实 , 别说我不会 , 就是看代码都未必能看懂 。
最终 , 我从网上找了一段最短的代码 。
文章图片
这代码是干啥的?有啥用?
说实话 , 除了百度的网址我知道 , 其他我也说不好 。
一步步试吧 。
然而 , 在PyCharm里并不能运行 , 提示我没有安装requests这个模块 。
找到度娘 , 虎躯一震 , 散发出我的王霸之气 , 度娘一阵娇羞之后 , 终于老实了 。
成功找到模块安装方法 , 非常简单:
在命令窗口 , 直接输入pipinstallrequests , 即可安装 。
这里多说一句 , 我是windows系统 , 有使用linux的 , 请自己找度娘 。
文章图片
安装成功 , 兴冲冲的进入PyCharm , 竟然还是不行?
【『天津冯十一』我决定开启爬虫之旅,学了41天python基础知识】哎 , 继续找可爱的小度娘吧 。
哦 , 原来光安装还不行 , 还要设置好才可以 , 真麻烦 。
进入file—>setting—>Project:***—>ProjectInterpreter , 点击右边的“+”号 , 在再搜索栏输入requests(千万别输错) , 成功导入!
文章图片
退出导入界面 , ProjectInterpreter的界面是酱紫的 。
文章图片
这时候 , 再运行这四行代码 , 成功!
文章图片
好了 , 下一步开始好好研究下这几行代码啥意思吧 。
第一行 , 不用说 , 导入requests模块 。
第二行 , 我理解这个get方法就是模拟用户访问百度呗 。
使用Ctrl+Q查看一下requests吧 。
文章图片
get使用是一样的 , 看来括号里面放网址是固定用法 。
后面那个status_cod得出的200是什么鬼?
扭头看度娘冲我招手:“大爷 , 来玩啊 。 ”
哎 , 按摩下腰 , 过去看看吧 。
原来status_cod的意思就是获取返回状态 , 200(称为响应码)意为成功响应 。
下一行content的意思是获取页面内容 。
再说回自己的程序:res.encoding='utf-8'
encoding是获取网页编码 , utf-8前几天学廖雪峰教程时候见过 , 是针对Unicode的一种可变长度字符编码 。
但是上面这行代码貌似没啥用呢 , 因为我把他删了 , 完全不影响最后的运行结果啊 。
文章图片
最后一行:print(res.text)
通过text来获取网页的内容 。
所以最后的输出结果就该是百度首页源代码 , 这个我大概能猜到 。
但是 , 为什么不是全部呢?
只显示了一部分啊 , 难道是跟浏览器有关系嘛 。。。
今天学习至此结束 , 这种跟度娘上上下下、九浅一深的学习 , 还真蛮有意思的 。
- 天津经济技术开发区“海陆空”五大集群助力泰达跻身“国字头”数字服务出口基地
- 天津EV3中国市场需求猛增,【EV产品】降价后,特斯拉Model
- 双十一▲什么时候买手机最划算?记住这四个时间点,不花冤枉钱!
- 微天津▲天津移动5G终端用户突破20万
- 林荣浩■助力全国IT的数据化运营,神州邦邦于天津新增IT服务平台运营中心
- 「智东西」芯片制造“大国重器”背后的九九八十一难
- 【天津临港园区运营服务平台】无人机安全飞行的“保护伞”——“无人机装调检修工”新职业正式发布
- 「天津生活通」这项黑科技秒杀单反相机!,刚刚!小米又放大招了!新机全面曝光
- 邓锄头挖科技@高级产品不会告诉你的“十一条”需求沟通中超有效的注意事项!
- 『湖北经视』日均超过去年双“十一”,武汉:邮政快递量陡增