python的爬虫框架scrapy原理

1,973次阅读

日前，小编受大多小伙伴要求，给大家讲述了关于爬虫里最常见模块的使用，小伙伴们反映在实际操作上非常好用，但是只是生搬硬套，因为没有对这个架框本身进行详细的了解，小编想了下，如果对于架框本身了解清晰透彻，那么对之后的架框使用也肯定是活灵活现，因此，再给大家整理篇，希望对大家受用。

1、Scrapy爬虫框架

Scrapy是一个使用Python编程语言编写的爬虫框架，任何人都可以根据自己的需求进行修改，并且使用起来非常的方便。它可以应用在数据采集、数据挖掘、网络异常用户检测、存储数据等方面。

Scrapy使用了Twisted异步网络库来处理网络通讯。整体架构大致如下图所示。

python的爬虫框架scrapy原理

2、由上图可知Scrapy爬虫框架主要由5个部分组成。

Scrapy Engine（Scrapy引擎），Scheduler（调度器），Downloader（下载器），Spiders（蜘蛛），Item Pipeline（项目管道）。

3、这五大组件及其中间件的功能如下：

1) Scrapy引擎

2) Scheduler（调度器）

3) Downloader（下载器）

4) Spiders（蜘蛛）

5) Item Pipeline（项目管道）

6) 中间件（Middlewares）

好啦，以上就是基础的架框内容，大家一定要仔细了解好这个流程原理，这样我们才可以更好的学习使用这个架框，灵活的实现应用哦~

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python基础教程

2021-06-01

复制链接

赏

HTTP代理设置详解：一步步配置指南