文章图片
接下来我们会通过几篇文章整理并总结有关于python爬虫的相关知识 , 主要包括爬取网页、解析数据以及异步爬取的方法等内容 。
1.在用Python爬取数据的时候 , 我们通常用什么来爬取数据?
通常相对简单的爬取数据的方法是通过requests模块进行的 。
2.requests模块怎么用?
我们在进行爬取数据之前 , 需要先通过pycharm来安装requests模块 。
第一步 , 导入requests模块:
import requests
第二步 , 获取requests所需要的参数:
① url 。 需要爬取的网页地址
②get或者post请求 。 可以通过所需爬取的网页中的headers中的Request Method进行判断 。
③是否带有参数 。 我们同样通过所爬取的网址或者headers中是否携带参数 。
④UA伪装 。 通过headers中-User-Agent获取 。
⑤获取响应数据 。
第三步 , 爬取数据 。
以爬取豆瓣电影 Top 250该网页为例 , 我们要爬取该网页的数据 , 首先进行几个简单的参数获取:
url地址很容易获取到 , 通过查看Request Method , 我们知道该网页发送的是get请求;获取的响应类型是文本类型 , 因此代码书写如下:
import requests
url='https://movie.douban.com/top250'
headers={
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML like Gecko) Chrome/94.0.4606.81 Safari/537.36'
response=requests.get(url=urlheaders=headers).text
print(response)
【Python|Python爬虫知识梳理大全(一)!】
- Python|Python 3.11比3.10 快60%:使用冒泡排序和递归函数对比测试
- Python|618即将来临,媲美iPhone 13的高端机怎么选?这份购买攻略请查收
- Python|嵌入式开发:在MicroPython中优化堆的5个技巧
- Python|华为本月还有发布会?笔记本电脑、办公品类、显示器等都有
- Python|手机系统到底该不该升级?除了这两个系统,其他的系统都没区别
- Python|2050显卡加OS Turbo,荣耀轻薄本简评
- python知识手册|字节跳动竟然斥巨资开发出《Python知识手册》,高清PDF
- |综合布线系统的组成及类型(附案例解析),新手小白必备的知识
- 软件|电脑新手的十个基础知识
- Python|全球最值得买的3款手机,看看你的上榜了么?