python的爬虫框架scrapy怎么用命令行

2,115次阅读

我们在进行爬虫架框的使用时候，有没有想过，这个架框是否好用？有没有更好用的？或者怎么可以创新更便捷的去完成我们的项目，毕竟所有的东西都是人为制作的，像语言也一样，因此，只有在不断的完善过程里，才能更提供便利，因此，对于架框上，也都一定的优化，而这个内容就是我们接下来要说的python的爬虫框架scrapy怎么用命令行。

关于命令详细使用

命令的使用范围

这里的命令分为全局的命令和项目的命令，全局的命令表示可以在任何地方使用，而项目的命令只能在项目目录下使用

全局的命令有：

startproject
genspider
settings
runspider
shell
fetch
view
version

项目命令有：

crawl
check
list
edit
parse
Bench

startproject

这个命令没什么过多的用法，就是在创建爬虫项目的时候用

genspider

用于生成爬虫，这里scrapy提供给我们不同的几种模板生成spider,默认用的是basic,我们可以通过命令查看所有的模板

crawl

这个是用去启动spider爬虫格式为：scrapy crawl 爬虫名字

这里需要注意这里的爬虫名字和通过scrapy genspider 生成爬虫的名字是一致的

fetch

scrapy fetch url地址

该命令会通过scrapy downloader 讲网页的源代码下载下来并显示出来

这里有一些参数：

–nolog 不打印日志

–headers 打印响应头信息

–no-redirect 不做跳转

以上就是常见的命令行的符号代码，以及他们的使用内容，如果大家又需要提高爬取效率的，一定要使用这些内容，会让大家的项目事半功倍哦~

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python基础教程

2021-06-01

# Scrapy # 爬虫框架

复制链接

赏

python的爬虫框架scrapy怎么用命令行

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置