三、爬取结果
运行上述代码,西刺代理每页显示100条IP信息,这里以爬取前50页5000条IP信息为例 。结果如下:
文章插图
打开保存到本地的CSV文件,如下 。可见5000条信息全部爬取成功 。
文章插图
四、IP验证
IP虽然爬取下来了,但是能不能用确是不一定的,实际上,代理IP一般都是收费的,所以免费的东西,自然没好货,不出意外的话,爬取下来的IP绝大多数是不能用的,所以需要验证下 。
这里提供两种方法:
1、利用python 。由于使用第二种方法,这里对第一种方法只提供想法 。将爬取下来的ip使用requests库的代理方法,进行某个网页的访问,通过判断请求的响应码是否为200来判断ip是否可用(这里应该再加上个响应时间),若响应码为200则保留,否则剔除 。但显然,这种方法太浪费时间 。
2、利用一个叫花刺代理的软件,安装后,可直接批量检查爬取下来的IP是否可用,这里使用该软件对刚刚爬取下来的5000个IP进行检验 。
首先,将刚刚爬取下来的数据通过以下代码:导出IP地址和端口信息,并保存为txt格式(该软件识别txt),代码如下 。
import pandas as pddata = pd.read_csv(r'C:\Users\zhche\Desktop\IP_data.csv',sep=',',encoding='utf-8-sig')lists = data.values.tolist()for list in lists: IP = list[0] port = list[4] proxy = str(IP) + ':' + str(port) with open('ip.txt','a',encoding = 'utf-8') as f: f.write(proxy+'\n')
运行后,找到保存到本地的txt,如下:
文章插图
然后,将该txt文件导入到花刺代理软件中,点击“验证全部”,结果如下 。
文章插图
没有看错,5000个IP中只有3个能用,得出一个至理——便宜没好货 。
所以平时需要用数量来代替该不足,通过抓取上万个IP来寻找几个有用的 。
【爬取了五千多个代理IP 花刺代理验证1.8】
- 了解工程类别如何划分标准 工程类别怎么填
- 地球一共灭亡了几次 地球上发生的五次灭绝
- 古老炖法醇香扑鼻吃了还想吃 炖五花肉怎么炖法最好吃
- 中国登上月球了吗 中国为何登不上月球
- 男人知道前女友新恋情什么感觉 为什么遇到了前男友心里难受
- 山西首富李兆会去哪里了? 李兆会现状如何在干嘛
- 多肉长花剑了怎么处理 多肉长出花剑或开了花,要掐掉吗-
- 汉朝为什么强大又灭亡了 汉朝为何会灭亡
- 街亭之战谁赢过马谡 三国时期马谡曾在街亭一战败给了哪位魏国大将
- 教你生根技巧7天冒出大白根 君子兰根烂没了怎么处理