Java爬虫中添加代理IP的方法
1. 使用 HttpClient 库
在Java中,您可以使用 HttpClient 库来发送HTTP请求并添加代理IP。首先,确保您已经导入 HttpClient 库到您的项目中。
import org.apache.http.HttpHost; import org.apache.http.client.config.RequestConfig; import org.apache.http.client.methods.HttpGet; import org.apache.http.impl.client.CloseableHttpClient; import org.apache.http.impl.client.HttpClients; import org.apache.http.util.EntityUtils;
2. 创建代理IP对象
创建代理IP对象并设置代理IP地址和端口号。
HttpHost proxy = new HttpHost("代理IP地址", 代理端口号);
3. 设置代理IP配置
使用 RequestConfig 对象设置代理IP配置。
RequestConfig config = RequestConfig.custom() .setProxy(proxy) .build();
4. 创建 HttpClient 对象
创建 CloseableHttpClient 对象,并将代理IP配置添加到请求中。
CloseableHttpClient httpClient = HttpClients.custom() .setDefaultRequestConfig(config) .build();
5. 发送带代理IP的请求
使用创建的 HttpClient 对象发送带有代理IP的请求。
HttpGet request = new HttpGet("目标URL"); CloseableHttpResponse response = httpClient.execute(request); String responseBody = EntityUtils.toString(response.getEntity()); System.out.println(responseBody); httpClient.close();
通过以上步骤,您可以在Java爬虫程序中成功添加代理IP,并发送带有代理IP的HTTP请求,实现对目标网站数据的爬取。