爬虫工程师必看：Scrapy中间件集成代理池教程

做爬虫最头疼的就是遇到IP被封，特别是大规模数据采集时，单IP根本扛不住高频请求。今天教大家用Scrapy中间件+天启代理IP池的组合拳，让爬虫存活率提升80%的实战方案。

为什么需要专业代理池？

实测某电商平台每小时允许单个IP请求上限为500次：

方案	存活时间	采集成功率
单IP直连	1.2小时	38%
免费代理池	4小时	65%
天启代理池	72小时+	≥99%

天启代理的自建机房纯净网络能避免IP污染，200+城市节点支持多地区灵活切换，实测响应延迟控制在10ms以内。

三步搭建智能代理中间件

第一步：创建代理中间件
在middlewares.py中添加以下代码：

 import requests from scrapy import signals

class TianqiProxyMiddleware:

def init(self):

self.api_url = "https://api.tianqiip.com/socks5/getip"

 def get_proxy(self):
    params = {
        "key": "你的API密钥",
        "count": 10,
        "city_code": "310000"  # 上海地区代码
    }
    resp = requests.get(self.api_url, params=params)
    return resp.json()['data'][0]['proxy']

def process_request(self, request, spider):
    request.meta['proxy'] = self.get_proxy()
    # 设置5分钟自动更换IP
    request.meta['dont_retry'] = True  
    request.meta['download_timeout'] = 300

第二步：配置settings.py
启用中间件并优化参数：

 DOWNLOADER_MIDDLEWARES = { 'your_project.middlewares.TianqiProxyMiddleware': 543, } # 设置天启代理API响应阈值 PROXY_REFRESH_INTERVAL = 300 # 5分钟更换IP

第三步：异常处理机制
在中间件中增加IP有效性验证：

 def process_exception(self, request, exception, spider): if isinstance(exception, (TimeoutError, ConnectionError)): current_proxy = request.meta.get('proxy') self.blacklist_proxy(current_proxy) # 将失效IP加入黑名单 return request.replace(url=request.url)