Python爬虫：scrapy基本使用（初始化配置）

1,461次阅读

什么是框架：集成了很多功能并且具有很强通用性的一个项目模板

如何学习框架：专门学习框架封装的各种功能的详细用法

什么是scrapy：爬虫中封装好的一个明星框架，功能：高性能的持久化存储、异步的数据下载、高性能的数据解析、分布式

在cmd命令行中：
1、cd xxxxxx（文件夹名称，用来存放工程）
2、scrapy startproject xxxxxx（工程名称）
3、cd xxxxxx（工程名称）
4、在spiders子目录中创建一个爬虫文件：
scrapy genspider spiderName www.xxx.com
其中spiderName是爬虫文件的名称，可以自己设置
其中www.xxx.com是url，可以自己设置
5、执行工程：scrapy crawl spiderName

settings.py是配置文件，需要经常使用。
修改里面的ROBOTSTXT_OBEY = False
LOG_LEVEL = ‘ERROR’ #显示指定类型的日志信息
修改里面的USER_AGENT = ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36’

以下是创建的爬虫文件的基本框架：

import scrapy

#Spider是父类 class FirstSpider(scrapy.Spider): #爬虫文件的名称：爬虫源文件的一个唯一标识 name = 'first' #允许的域名：用来限定start_urls列表中哪些url可以进行请求发送，一般不用 # allowed_domains = ['www.baidu.com']

#起始的url列表：该列表中存放的url会被scrapy自动进行请求的发送 start_urls = ['https://www.baidu.com/','https://www.sogou.com/'] #列表中可以有多个url

#用作于数据解析：response参数表示的是请求成功后对应的响应对象 #parse函数会被调用多次，调用的次数等于start_urls里面url的数量 def parse(self, response): print(response)

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-25

# Python爬虫

复制链接

赏

Python爬虫：scrapy基本使用（初始化配置）

创建一个工程：

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置