实战讲解四种不同的爬虫解析数据方法，必须掌握！

902次阅读

没有评论

爬虫解析数据有很多种，爬取不同的数据，返回的数据类型不一样，有html、json、xml、文本（字符串）等多种格式！

掌握这四种解析数据的方式，无论什么样的数据格式都可以轻松应对处理。

这四种方式分别是：1.xpath、2.bs4、3.json、4.正则。

下面以实战方式讲解这四种技术如何使用！！！

1.请求数据

请求链接如下，以小说网站：新笔趣阁，为案例进行讲解

http://www.xbiquge.la/xuanhuanxiaosh

导入相应的库

import requests from lxml import etree

开始请求数据

headers = { 'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36', } url="http://www.xbiquge.la/xuanhuanxiaoshuo/" res = requests.get(url,headers=headers) res.encoding = 'utf-8' text = res.text

2.解析数据

比如我们要获取下面这些数据（小说名称）

实战讲解四种不同的爬虫解析数据方法，必须掌握！
分析网页标签

数据在class=“l”-> ul ->li标签中

selector = etree.HTML(text) list = selector.xpath('//*[@class="l"]/ul/li')

解析li中数据
实战讲解四种不同的爬虫解析数据方法，必须掌握！
可以看到，数据在li->span->a 标签中

for i in list: title = i.xpath('.//span/a/text()') href = i.xpath('.//span/a/@href') print(title) print(href) print("——–")

实战讲解四种不同的爬虫解析数据方法，必须掌握！

1.请求数据

请求链接如下，同样以小说网站：新笔趣阁，为案例进行讲解

http://www.xbiquge.la/xuanhuanxiaoshuo/

导入相应的库

import requests from bs4 import BeautifulSoup

开始请求数据

headers = { 'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36', } url="http://www.xbiquge.la/xuanhuanxiaoshuo/" res = requests.get(url,headers=headers) res.encoding = 'utf-8' text = res.text

2.解析数据

比如我们要获取下面这些数据（小说名称）

实战讲解四种不同的爬虫解析数据方法，必须掌握！
分析网页标签

可以看到，数据在span中（class=“s2”) 标签中

方法一：

list = soup.find_all(attrs={'class':'s2'}) for i in list: print(i.a.get_text()) print(i.a.get("href")) print("——–") print(len(list))

实战讲解四种不同的爬虫解析数据方法，必须掌握！
方法二：

# 获取所有的链接 all_link = [(link.a['href'], link.a.get_text()) for link in soup.find_all('li')] for i in all_link: print(i)

实战讲解四种不同的爬虫解析数据方法，必须掌握！

1.请求数据

请求链接如下，获取ip定位，为案例进行讲解

https://restapi.amap.com/v3/ip?key=0113a13c88697dcea6a445584d535837&ip=123.123.123.123

导入相应的库

import requests import json

开始请求数据 ip = "123.123.123.123" url="https://restapi.amap.com/v3/ip?key=0113a13c88697dcea6a445584d535837&ip="+str(ip) res = requests.get(url,headers=headers) res.encoding = 'utf-8' text = res.text

2.解析数据
实战讲解四种不同的爬虫解析数据方法，必须掌握！
比如我们要获取下面这些数据（省份和城市）

text = res.text print(text) ##text不是json类型的话，则转为json类型 text = json.loads(text) print("省份="+text['province']+",城市="+text['city'])

实战讲解四种不同的爬虫解析数据方法，必须掌握！

1.请求数据

请求链接如下，以小说网站：新笔趣阁，为案例进行讲解
http://www.xbiquge.la/xuanhuanxiaoshuo/

导入相应的库

import requests import re

开始请求数据

headers = { 'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36', } url="http://www.xbiquge.la/xuanhuanxiaoshuo/" res = requests.get(url,headers=headers) res.encoding = 'utf-8' text = res.text

2.解析数据

比如我们要获取下面这些数据（小说名称）

实战讲解四种不同的爬虫解析数据方法，必须掌握！
分析网页html

可以看到，数据在li->span->a 标签中，a标签前有“《”，后有“》”

pattern = re.compile('《.*?》') items = re.findall(pattern, text)

for i in items: print(i)

实战讲解四种不同的爬虫解析数据方法，必须掌握！

在这里还是要推荐下我自己建的Python学习群:645415122，群里都是学Python的，如果你想学或者正在学习Python ，欢迎你加入，大家都是软件开发党，不定期分享干货（只有Python软件开发相关的），包括我自己整理的一份2021最新的Python进阶资料和零基础教学，欢迎进阶中和对Python感兴趣的小伙伴加入！

**以下内容无用，为本篇博客被搜索引擎抓取使用
(*￣︶￣)(*￣︶￣)(*￣︶￣)(*￣︶￣)(*￣︶￣)(*￣︶￣)(*￣︶￣)(*￣︶￣)
python 是干什么的零基础学 python 要多久 python 为什么叫爬虫
python 爬虫菜鸟教程 python 爬虫万能代码 python 爬虫怎么挣钱
python 基础教程网络爬虫 python python 爬虫经典例子
python 爬虫
(*￣︶￣)(*￣︶￣)(*￣︶￣)(*￣︶￣)(*￣︶￣)(*￣︶￣)(￣︶￣)(￣︶￣)
以上内容无用，为本篇博客被搜索引擎抓取使用

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-27

# Python爬虫

复制链接

赏

实战讲解四种不同的爬虫解析数据方法，必须掌握！

1、Xpath

2、Bs4

3、json

4、正则表达式

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置