Python|Python爬取2万条相亲数据!看看中国单身男女都在挑什么


Python|Python爬取2万条相亲数据!看看中国单身男女都在挑什么
文章图片
Python|Python爬取2万条相亲数据!看看中国单身男女都在挑什么
文章图片
Python|Python爬取2万条相亲数据!看看中国单身男女都在挑什么
文章图片
Python|Python爬取2万条相亲数据!看看中国单身男女都在挑什么
文章图片
Python|Python爬取2万条相亲数据!看看中国单身男女都在挑什么
文章图片
Python|Python爬取2万条相亲数据!看看中国单身男女都在挑什么
文章图片
Python|Python爬取2万条相亲数据!看看中国单身男女都在挑什么
文章图片
Python|Python爬取2万条相亲数据!看看中国单身男女都在挑什么
文章图片
Python|Python爬取2万条相亲数据!看看中国单身男女都在挑什么
文章图片
Python|Python爬取2万条相亲数据!看看中国单身男女都在挑什么
文章图片
Python|Python爬取2万条相亲数据!看看中国单身男女都在挑什么
文章图片
Python|Python爬取2万条相亲数据!看看中国单身男女都在挑什么
想必昨天的七夕节 , 一定是有人欢喜有人忧的一天 , 朋友圈里的晒照惹恼了我的一个程序员朋友 , 在昨晚怒爬2万条相亲网站数据 , 做了一次相亲男女画像!
话不多说 , 我们今天就以某相亲网站为例子 , 爬取搜索页面当中所有的用户信息 , 包括“用户ID”、“年龄”、“城市”、“学历”、“属相”等内容 , 使用的工具是爬虫工具pycharm 。
首先老规矩 , 爬虫之前我们先分析一些目标网页的构成 , 我们进入网站的搜索页面 , 摁下F12打开开发者工具 , 找到网页选项 , 看一下网页的Request URL和请求方式、user-agent等基本信息:
请求方式是post , 说明我们不用去源代码里找标签了 , 所有的数据都存放在网页的json文件当中 , 这倒是方便很多 , 我们直接通过链接直接获取API文件 , 不需要进行网页解析 , 点击HTR后点击“请求”就能看到表单数据了 。
很显然 , “sex”就是性别 , “f”是“female”的缩写 , “p”代表着页码 , 因为搜索页面一共有10页 , 所以我们需要构造一下完整的请求url 。
当网页页码发生变化的时候 , 我们发现url当中只有p值发生了变化 , 因此只需要改变p值就能构造对应的URL 。
好了 , 网页的构成都分析好了 , 下一步就要开始在pycharm当中写爬虫了 , 通过上面的url , 我们可以获取到服务器返回的 json格式的用户信息 , 部分源代码如下:
爬取的过程就不详细讲解了 , 因为这个网站还需要进行模拟登陆 , 所以需要登陆后将 cookie 放入爬虫的请求头中 , 这样便可正确访问数据 。 经过爬取后的数据清洗后如下: