越来越多的人需要代理IP,主要是因为代理IP可以帮助他们实现以下几个方面的需求:
- 访问限制:有些网站或服务可能会根据你的地理位置、IP地址等信息进行限制,导致你无法访问。使用代理IP可以模拟其他地区的IP地址,解除访问限制。
- 隐私保护:使用代理IP可以隐藏你的真实IP地址,保护个人隐私,避免被追踪、监视和攻击。
- 数据采集:对于一些需要大量采集数据的应用场景,如搜索引擎排名、竞品分析等,使用代理IP可以避免被目标网站识别出来,从而实现更好的数据采集效果。
常用的代理IP主要包括以下几种:
- HTTP代理:HTTP代理是最常见的一种代理方式,支持HTTP协议的网站都可以通过这种代理方式访问。HTTP代理适合那些不需要高度安全性的应用场景。
- HTTPS代理:HTTPS代理是在HTTP代理的基础上增加了SSL/TLS加密功能,提高了数据传输的安全性。适合对安全性要求较高的应用场景,如在线支付、网银等。
- SOCKS代理:SOCKS代理是一种比HTTP和HTTPS代理更加通用的协议,支持TCP、UDP等多种协议,适合P2P、游戏、聊天等应用场景。
- 隧道代理:隧道代理是一种将数据进行封装加密的代理方式,可以有效地保护数据安全性,防止被窃听和篡改。适合需要高度安全性保护的应用场景,如金融、政府、军事等领域。
代理ip主要有免费的和付费的,在这里就不推荐免费的,用过免费的都知道,免费的代理除了免费之外,一点优点都没有。
以下是对部分代理供应商的 HTTP 隧道代理测试:
一、测试环境
- 系统:CentOS Linux release 7.9.2009 (Core)
- 语言:Python 2.7
- gevent==1.1.2
- requests==2.18.4
- pymysql==0.9.3
- prettytable==1.0.1
- toml==0.10.2
- 数据库:MySQL
二、测试对象
九家代理供应商的隧道代理产品:
三、测试网站
以下测试网站除了少部分验证 header 中某些参数以外,没有其他反爬,具体表现是同一个 IP 频繁请求会出现验证码、403、跳转登录、返回 JS 二次设置 Cookie 等情况,测试中已排除其他反爬,保证了测试结果只与 IP 的质量有关:
- 小红书:社区精选,随机文章详情页:xiaohongshu.com/discove
- 亚马逊:随机商品详情页:amazon.com/product-revi
- 天眼查:随机公司详情页:tianyancha.com/company/
- 58同城:招聘搜索结果页:bd.58.com/job/pn1/?
- 安居客:二手房随机小区:beijing.anjuke.com/comm
- 拼多多:网页端随机商品分类详细信息接口:yangkeduo.com/proxy/api
- 百度贴吧:首页:tieba.baidu.com/
四、测试指标
数据量:
- 统一 50 并发,测试时间 2 天
- 每个代理商累计请求量均 > 50 万,部分 > 300 万
主要指标解释:
- 请求成功:指成功请求 URL 并拿到响应,不管是否返回的是反爬内容
- 业务成功:指在请求成功的前提下,拿到正确的数据,连接失败、超时、被反爬均视为失败
- 反爬识别:出现验证码、403、跳转登录等情况
- 请求超时:timeout = 10
- 代理报错:基本上是 502、503、SSLError 报错
五、数据分析
总体数据统计


由上表可知(排名分先后,从左到右):
- 请求成功率:1. 小象 2. 快代理 3. 青果云
- 业务成功率:1. 快代理 2. 青果云 3. 小象
- 反爬识别率:1. 蜻蜓 2. 阿布云 3. 快代理
- 请求超时占比:1. 阿布云 2. 快代理 = 小象 3. 蜻蜓
- 代理报错占比:1. 青果云 2. 快代理 3. 小象
- 平均响应(s):1. 快代理 2. 阿布云 3. 青果云
六 、总结


