python如何收集大量ip代理地址

1,254次阅读

python如何收集大量ip代理地址

最近一直教大家用爬虫采集数据，想必大家手上ip地址不太够用。在节省资源的情况下，我们可以去找寻一些获取ip的办法，这样我们在爬取数据的时候速度也能有一个提升。其他的话小编也不多说，毕竟大家急着想要几个新ip区使用。接下来就进入我们本篇的正题抓取高匿ip代理的方法教学吧。

很多网站都有反爬虫机制，只用一个ip去频繁访问网站的话，很容易引起网站管理员的注意，如果管理员将这个ip加入黑名单，那么这个爬虫就废掉了。所以，想要做大型的爬虫的话，基本上是必须要面对ip的问题。

那么问题来了，我们去哪里搞代理ip呢？？第一种方法就是买买买！！没有什么事情是用钱解决不了的，如果有，那就加倍。

当然，网上也有一堆免费的ip代理，但是，免费的质量参差不齐，所以就需要进行筛选。以ipipgo代理为例：用爬虫爬取国内的高匿代理IP，并进行验证。（只爬取前五页，后面的失效太多，没有必要去验证了。）

class XiciSpider(scrapy.Spider):
    name = 'xici'
    allowed_domains = ['xicidaili.com']
    start_urls = []
    for i in range(1, 6):
        start_urls.append('http://www.shenlongip.com/nn/' + str(i))
 
    def parse(self, response):
        ip = response.xpath('//tr[@class]/td[2]/text()').extract()
        port = response.xpath('//tr[@class]/td[3]/text()').extract()
        agreement_type = response.xpath('//tr[@class]/td[6]/text()').extract()
        proxies = zip(ip, port, agreement_type)
        # print(proxies)
 
        # 验证代理是否可用
        for ip, port, agreement_type in proxies:
            proxy = {'http': agreement_type.lower() + '://' + ip + ':' + port,
                     'https': agreement_type.lower() + '://' + ip + ':' + port}
            try:
                # 设置代理链接  如果状态码为200 则表示该代理可以使用
                print(proxy)
                resp = requests.get('http://icanhazip.com', proxies=proxy, timeout=2)
                print(resp.status_code)
                if resp.status_code == 200:
                    print(resp.text)
                    # print('success %s' % ip)
                    item = DailiItem()
                    item['proxy'] = proxy
                    yield item
            except:
                print('fail %s' % ip)

Pipeline：

class DailiPipeline(object):
 
    def __init__(self):
        self.file = open('proxy.txt', 'w')
 
    def process_item(self, item, spider):
        self.file.write(str(item['proxy']) + '\n')
        return item
 
    def close_spider(self, spider):
        self.file.close()

运行的结果小编就不放出来了，小伙伴们自己尝试一下，毕竟ip地址都很紧缺，本着先到先得的原则，大家赶紧行动起来吧。

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2021-05-22

复制链接

赏

python如何收集大量ip代理地址

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置