Python|Python爬虫知识梳理大全(一)!

Python|Python爬虫知识梳理大全(一)!

文章图片

Python|Python爬虫知识梳理大全(一)!

接下来我们会通过几篇文章整理并总结有关于python爬虫的相关知识 , 主要包括爬取网页、解析数据以及异步爬取的方法等内容 。

1.在用Python爬取数据的时候 , 我们通常用什么来爬取数据?
通常相对简单的爬取数据的方法是通过requests模块进行的 。
2.requests模块怎么用?
我们在进行爬取数据之前 , 需要先通过pycharm来安装requests模块 。
第一步 , 导入requests模块:
import requests
第二步 , 获取requests所需要的参数:
① url 。 需要爬取的网页地址
②get或者post请求 。 可以通过所需爬取的网页中的headers中的Request Method进行判断 。
③是否带有参数 。 我们同样通过所爬取的网址或者headers中是否携带参数 。
④UA伪装 。 通过headers中-User-Agent获取 。
⑤获取响应数据 。

第三步 , 爬取数据 。
以爬取豆瓣电影 Top 250该网页为例 , 我们要爬取该网页的数据 , 首先进行几个简单的参数获取:
url地址很容易获取到 , 通过查看Request Method , 我们知道该网页发送的是get请求;获取的响应类型是文本类型 , 因此代码书写如下:
import requests
url='https://movie.douban.com/top250'
headers={
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML like Gecko) Chrome/94.0.4606.81 Safari/537.36'

response=requests.get(url=urlheaders=headers).text
print(response)
【Python|Python爬虫知识梳理大全(一)!】