Python|Python爬虫知识梳理大全（一）！ Python

文章图片

接下来我们会通过几篇文章整理并总结有关于python爬虫的相关知识，主要包括爬取网页、解析数据以及异步爬取的方法等内容。

1.在用Python爬取数据的时候，我们通常用什么来爬取数据？
通常相对简单的爬取数据的方法是通过requests模块进行的。
2.requests模块怎么用？
我们在进行爬取数据之前，需要先通过pycharm来安装requests模块。
第一步，导入requests模块：
import requests
第二步，获取requests所需要的参数：
① url 。需要爬取的网页地址
②get或者post请求。可以通过所需爬取的网页中的headers中的Request Method进行判断。
③是否带有参数。我们同样通过所爬取的网址或者headers中是否携带参数。
④UA伪装。通过headers中-User-Agent获取。
⑤获取响应数据。

第三步，爬取数据。
以爬取豆瓣电影 Top 250该网页为例，我们要爬取该网页的数据，首先进行几个简单的参数获取：
url地址很容易获取到，通过查看Request Method ，我们知道该网页发送的是get请求；获取的响应类型是文本类型，因此代码书写如下：
import requests
url='https://movie.douban.com/top250'
headers={
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML like Gecko) Chrome/94.0.4606.81 Safari/537.36'

response=requests.get(url=urlheaders=headers).text
print(response)
【Python|Python爬虫知识梳理大全（一）！】