scrapy多层爬取 - Python基础教程

国外IP代理推荐：
IPIPGO|全球住宅代理IP（>>>点击注册免费测试<<<）
LoongProxy|全球静态代理IP（>>>点击注册免费测试<<<）
神龙海外|全球动态代理IP（>>>点击注册免费测试<<<）
国内IP代理推荐：
天启|企业级代理IP（>>>点击注册免费测试<<<）
神龙|纯净稳定代理IP（>>>点击注册免费测试<<<）
全民|优质代理IP（>>>点击注册免费测试<<<）

scrapy多层爬取

1,357次阅读

想了很久最终还是决定把分层爬取加上
最关键的是这几行：

#获取详情页网址 security_item['url'] = i_item.xpath(".//div[@class='row2']/h3/a/@href").extract()[0] #跳转detail_parse方法，抓取数据以后返回 yield scrapy.Request(security_item['url'],meta={'security_item':security_item},callback=self.detail_parse)

最后引入的detail_parse方法：

def detail_parse(self,response): security_item = response.meta['security_item'] security_item['detail'] = response.xpath("//div[@class='mianLeft']/div[@class='de_p']").xpath('string(.)').extract()[0] return security_item

这样就完美解决啦！
给源代码截个图吧
scrapy多层爬取

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-25

复制链接

赏

相关文章：

版权声明：由Python教程2022-10-25发表，共计585字。

新手QQ群：570568346，欢迎进群讨论

Python51学习

国外IP代理推荐：
IPIPGO|全球住宅代理IP（>>>点击注册免费测试<<<）
LoongProxy|全球静态代理IP（>>>点击注册免费测试<<<）
神龙海外|海外动态代理IP（>>>点击注册免费测试<<<）
国内IP代理推荐：
天启|企业级代理IP（>>>点击注册免费测试<<<）
神龙|纯净稳定代理IP（>>>点击注册免费测试<<<）
全民|国内代理IP（>>>点击注册免费测试<<<）

scrapy笔记2—实现多级页面信息分别爬取

如何改造 Scrapy 从而实现多网站大规模爬取？

爬虫代理ip地址是什么意思啊

Python爬虫编程思想（159）：Scrapy中的爬虫中间件

Scrapy爬取多层级网页内容的方式

scrapy抓取的中文结果乱码解决办法

天启|企业级代理IP免费测试>>>>>神龙|纯净稳定代理IP免费测试>>>>>IPIPGO|全球住宅代理IP免费测试>>>>>神龙|国外动态代理IP免费测试>>>>>LoongProxy|全球静态代理IP免费测试>>>>>全民|国内代理IP免费测试