文章图片
文章图片
文章图片
文章图片
文章图片
这篇是纯干货分享 , 对python感兴趣的可以认真看起来!
小白想要入门Python爬虫 , 首先得了解爬虫的基本工作原理和相关的理论基础 , 爬虫简介部分就不细说了 , 都可以百度得到 。
爬虫工作原理总结来讲就是四部曲:
发送请求-获取页面-解析页面-保存内容
接下来我会对Python爬虫各部分的学习框架进行拆分讲解
第一理论基础:Python编程
不用担心Python编程会很难学 , 在跟Java、C语言相比 , Python算是一门较容易学的编程语言了 , 语言简洁高效 , 易上手操作 , 对新手小白很友好 。
学习Python爬虫无非就是先把Python基础知识学好 , 像Python开发环境使用、基础语法、常量与变量、算数、条件循环语句、数据结构类型、字符串、正则表达式、基本函数、异常处理这些 , 内容是有一点多 , 但难度不是很大 , 0基础新手小白需要花点心思和时间去理解这些概念涵义 。
基础之后可以逐步学习Python面向对象的编程、类、多重继承、模块、异常机制、多进程与线程等内容
Python编程重在理清语法逻辑 , 熟练代码 , 掌握最核心的语法应用 , 比如字符串、正则表达式、循环语句等 , 这些在爬虫中几乎都要用到 。
核心知识点可参考下面这张图 , 具体的知识点讲解已经整理好 , 文末有惊喜!
一开始接触基础不必太着急 , 先大概了解一下Python的基础知识 , 有些东西一开始不太理解到后面接触的知识范围广了 , 会突然有豁然开朗的感觉 。
Python入门教材的话新手有一本入门学习的书籍就够了 , 多了也看不完 , 最后还是躺在桌子上吃灰了 , 我比较推荐的是《Python编程:入门到实践》
第二爬虫学习路线
爬虫核心技巧
技巧一:请求库
请求库有:requests、selenium、urllib、aiohttp , 我个人比较推荐新手小白掌握urllib和requests请求库 。
urllib库
是Python内置的HTTP请求库 , 不需要额外安装即可使用 , 包含以下4个模块:
request 打开和读取 URL , 最基本的HTTP请求模块 , 可以用来模拟发送请求
error 包含 urllib.request 抛出的异常 , 如果出现请求错误 , 我们可以捕获这些异常 , 然后进行重试或其他操作以保证程序不会意外终止 。
parse 用于解析 URL , 比如拆分、解析、合并等 。
robotparser 用于解析 robots.txt 文件 , 主要是用来识别网站的robots.txt文件 , 然后判断哪些网站可以爬 , 哪些网站不可以爬 。
urllib库 爬虫抓取百度贴吧示例
需要注意的是urllib不能自动判断重定向 , 需要自己解析重定向的链接并重新请求 。
如果你只是爬取一般的网页 , 那么Python自带的urllib库足够用了 , 如果是想要爬取异步加载的动态网站 , requests库会方便很多 。
requests库
功能强大的爬取网页信息的第三方库 , 可以进行自动爬取HTML页面及自动网络请求提交的操作 。
requests库的主要方法:
Response对象
requests库爬取豆瓣短评示例:
爬虫案例:中国高校排名
- Python|红米Note11T突然上架,天玑8100加持,红米K50降价
- Python|字节大佬总结的最详细Python知识图谱,一目了然,轻松学Python
- Python|Python爬虫知识梳理大全(一)!
- 安卓|618大促将至,小白用户入手游戏本,这些选购细节得注意了
- Python|Python 3.11比3.10 快60%:使用冒泡排序和递归函数对比测试
- Python|618即将来临,媲美iPhone 13的高端机怎么选?这份购买攻略请查收
- Python|嵌入式开发:在MicroPython中优化堆的5个技巧
- Python|华为本月还有发布会?笔记本电脑、办公品类、显示器等都有
- Python|手机系统到底该不该升级?除了这两个系统,其他的系统都没区别
- Python|2050显卡加OS Turbo,荣耀轻薄本简评