python分布式爬虫scrapy的使用范围

1,838次阅读

在分布式爬虫中构建好了scrapy之后，不着急去使用框架进行爬取。我们先来思考一个问题，scrapy是否可以独立在python分布式爬虫中使用。虽然知识之间是互通的，但是对使用的条件有所限制。我们在使用之前需要明确scrapy框架的使用范围，才不能导致最后运行结果时的出错。下面我们就scrapy在python分布式爬虫的使用范围进行讨论。

1.scrapy框架是否可以自己实现分布式？

不可以。原因有二。

其一：因为多台机器上部署的scrapy会各自拥有各自的调度器，这样就使得多台机器无法分配start_urls列表中的url。（多台机器无法共享同一个调度器）

其二：多台机器爬取到的数据无法通过同一个管道对数据进行统一的数据持久出存储。（多台机器无法共享同一个管道）

2.基于scrapy-redis组件的分布式爬虫

scrapy-redis组件中为我们封装好了可以被多台机器共享的调度器和管道，我们可以直接使用并实现分布式数据爬取。

实现方式：

基于该组件的RedisSpider类
基于该组件的RedisCrawlSpider类

3.分布式实现流程：上述两种不同方式的分布式实现流程是统一的

3.1 下载scrapy-redis组件：

pip install scrapy-redis

3.2 redis配置文件的配置：

注释该行：bind 127.0.0.1，表示可以让其他ip访问redis

将yes该为no：protected-mode no，表示可以让其他ip操作redis

3.3 修改爬虫文件中的相关代码：

将爬虫类的父类修改成基于RedisSpider或者RedisCrawlSpider。注意：如果原始爬虫文件是基于 Spider的，则应该将父类修改成RedisSpider，如果原始爬虫文件是基于CrawlSpider的，则应该将其父类修改成RedisCrawlSpider。

注释或者删除start_urls列表，切加入redis_key属性，属性值为scrpy-redis组件中调度器队列的名称

3.4 在配置文件中进行相关配置，开启使用scrapy-redis组件中封装好的管道

python分布式爬虫scrapy的使用范围

看完本篇文章我们知道，因为两点的限制，scrapy框架是不能在python分布式爬虫独立运用的，但是我们可以配合其他的一些函数来运行，这点小伙伴们可要记住啦。

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python基础教程

2021-05-21

# Scrapy

复制链接

赏

python分布式爬虫scrapy的使用范围

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置