Python爬虫编程思想(149):使用Scrapy抓取数据,并通过XPath指定解析规则

974次阅读
没有评论
Python爬虫编程思想(149):使用Scrapy抓取数据,并通过XPath指定解析规则

        本文的案例会在parse方法中通过response参数设置XPath,然后从HTML代码中过滤出我们感兴趣的信息,最后将这些信息输出到PyCharm的Console中。

       下面的例子通过XPath过滤出指定页面的博文列表,并利用Beautiful Soup对博文的相关信息进一步过滤,最后在Console中输出博文标题等信息。

import scrapy from bs4 import * class BlogSpider(scrapy.Spider): name = ‘BlogSpider’ start_urls = [ ‘https://geekori.com/blogsCenter.php?uid=geekori’ ] def parse(self,response): # 过滤出指定页面所有的博文 sectionList = response.xpath(‘//*[@id=”all”]/div[1]/section’).extract() # 对博文列表进行迭代 for section in sectionList: # 利用BeautifulSoup对每一篇博文的相关信息进行过滤 bs = BeautifulSoup(section,’lxml’) articleDict = {} a = bs.find(‘a’) # 获取博文标题

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

相关文章:

版权声明:Python教程2022-10-25发表,共计546字。
新手QQ群:570568346,欢迎进群讨论 Python51学习