Python爬虫:scrapy基本使用(初始化配置)

559次阅读
没有评论
Python爬虫:scrapy基本使用(初始化配置)

什么是框架:集成了很多功能并且具有很强通用性的一个项目模板

如何学习框架:专门学习框架封装的各种功能的详细用法

什么是scrapy:爬虫中封装好的一个明星框架,功能:高性能的持久化存储、异步的数据下载、高性能的数据解析、分布式

创建一个工程:

在cmd命令行中:
1、cd xxxxxx(文件夹名称,用来存放工程)
2、scrapy startproject xxxxxx(工程名称)
3、cd xxxxxx(工程名称)
4、在spiders子目录中创建一个爬虫文件:
scrapy genspider spiderName www.xxx.com
其中spiderName是爬虫文件的名称,可以自己设置
其中www.xxx.com是url,可以自己设置
5、执行工程:scrapy crawl spiderName

settings.py是配置文件,需要经常使用。
修改里面的ROBOTSTXT_OBEY = False
LOG_LEVEL = ‘ERROR’ #显示指定类型的日志信息
修改里面的USER_AGENT = ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36’

以下是创建的爬虫文件的基本框架:

import scrapy

#Spider是父类 class FirstSpider(scrapy.Spider): #爬虫文件的名称:爬虫源文件的一个唯一标识 name = 'first' #允许的域名:用来限定start_urls列表中哪些url可以进行请求发送,一般不用 # allowed_domains = ['www.baidu.com']

#起始的url列表:该列表中存放的url会被scrapy自动进行请求的发送 start_urls = ['https://www.baidu.com/','https://www.sogou.com/'] #列表中可以有多个url

#用作于数据解析:response参数表示的是请求成功后对应的响应对象 #parse函数会被调用多次,调用的次数等于start_urls里面url的数量 def parse(self, response): print(response)

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

相关文章:

版权声明:Python教程2022-10-25发表,共计977字。
新手QQ群:570568346,欢迎进群讨论 Python51学习