scrapy数据提取-实战-起点

900次阅读

首先是参加项目

打开pycharm后点开命令行，

scrapy startproject Qidian

cd Qidian

scrapy genspider qidian qidian.com

然后打开qidian.py

把start_url修改成我们开始爬的地址

scrapy数据提取-实战-起点

下面的def修改为

    def parse(self, response):
        print(response.text)

然后新建一个py文件，

from scrapy.cmdline import execute
execute('scrapy crawl qidian'.split())

右键运行

scrapy数据提取-实战-起点

可以看到结果已经出来了

那么回到网站来分析一下，

首先是名字

scrapy数据提取-实战-起点

在h2标签下的a标签里面，直接用xpath来定位。

回到pycharm

scrapy数据提取-实战-起点

再来找作者

scrapy数据提取-实战-起点

运行一下

scrapy数据提取-实战-起点

加个extract来提取一下

scrapy数据提取-实战-起点

还记得 scrapy生成格式导出如：JSON，CSV和XML 吗

我们回到pycharm修改一下

scrapy数据提取-实战-起点

这里的话直接运行是没什么效果的，要到命令行执行

scrapy crawl qidian -o book.json

scrapy数据提取-实战-起点

打开之后是编码

scrapy数据提取-实战-起点

如果点一个xml的话就是文字，

scrapy数据提取-实战-起点

而改成CSV的话，就舒服了

scrapy数据提取-实战-起点

通过这个小小的案例就会发现，用scrapy来爬可比平时一点一点来爬方便多了！

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-19

# Python爬虫

复制链接

赏

scrapy数据提取-实战-起点

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置