scrapy的概念和流程 - Python基础教程

国外IP代理推荐：
IPIPGO|全球住宅代理IP（>>>点击注册免费测试<<<）
LoongProxy|全球静态代理IP（>>>点击注册免费测试<<<）
神龙海外|全球动态代理IP（>>>点击注册免费测试<<<）
国内IP代理推荐：
天启|企业级代理IP（>>>点击注册免费测试<<<）
神龙|纯净稳定代理IP（>>>点击注册免费测试<<<）
全民|优质代理IP（>>>点击注册免费测试<<<）

scrapy的概念和流程

777次阅读

每日分享：

镜子很脏的时候我们并不会误认为是我们的脸脏，那为什么别人随口说出糟糕的话时，我们要觉得糟糕的是我们自己呢？

融入人群，可以啊，但人群有什么好融入的

所谓的听懂不一定是懂对方对你讲什么，而是懂对方为什么要对你讲

目标：

了解scrapy的概念
了解scrapy框架的作用
掌握scrapy框架的运行流程
掌握scrapy中每个模块的作用

scrapy是一个python编写的开源网络爬虫框架，它是一个被设计用于爬取网络数据、提取结构性数据的框架。

scrapy使用了Twisted['twistid]异步网络框架，可以加快我们的下载速度

scrapy文档地址：初窥Scrapy — Scrapy 1.0.5 文档

少量的代码就能快速的抓取

scrapy的概念和流程

scrapy的概念和流程

scrapy的概念和流程

流程：

爬虫中起始的url构造成request对象–>爬虫中间件–>引擎–>调度器
调度器把request–>引擎–>下载中间件—>下载器
下载器发送请求，获取response响应—->下载中间件—->引擎—>爬虫中间件—>爬虫
爬虫提取url地址，组装成request对象—->爬虫中间件—>引擎—>调度器，重复步骤2
爬虫提取数据—>引擎—>管道处理和保存数据

注意：

绿色线条表示数据的传递
中间件的位置决定了其作用
所有模块之间相互独立，只和引擎进行交互

request请求对象：由url method post_data headers等构成
response响应对象：由url body status headers等构成
item数据对象：本质是个字典

scrapy的概念和流程

爬虫中间件和下载中间件只是运行逻辑位置不同，作用是重复的：如替换UA等等

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-19

复制链接

赏

相关文章：

版权声明：由Python教程2022-10-19发表，共计770字。

新手QQ群：570568346，欢迎进群讨论

Python51学习

国外IP代理推荐：
IPIPGO|全球住宅代理IP（>>>点击注册免费测试<<<）
LoongProxy|全球静态代理IP（>>>点击注册免费测试<<<）
神龙海外|海外动态代理IP（>>>点击注册免费测试<<<）
国内IP代理推荐：
天启|企业级代理IP（>>>点击注册免费测试<<<）
神龙|纯净稳定代理IP（>>>点击注册免费测试<<<）
全民|国内代理IP（>>>点击注册免费测试<<<）

python字符串怎么去空格

【Python 爬虫】简单的网页爬虫-python爬虫调用网页js

python爬虫案例实战从零开始一站通

爬虫——beautiful演练及语法

TimedCache 带时间缓存工具类，附加监听回调

爬虫中js的解析

天启|企业级代理IP免费测试>>>>>神龙|纯净稳定代理IP免费测试>>>>>IPIPGO|全球住宅代理IP免费测试>>>>>神龙|国外动态代理IP免费测试>>>>>LoongProxy|全球静态代理IP免费测试>>>>>全民|国内代理IP免费测试