python爬虫如何用xpath抓取信息

843次阅读

在学习了python爬虫模块后，小编对于获取数据的方法仿佛打开了新的思路。方法之间没有哪种可以不局限于所有的使用环境，小编在每次写的时候都会注明使用，小伙伴们看的时候需要留意，不然运行后弄出乌龙就尴尬了。下面我们一起来看看xpath是如何在python爬虫中抓取信息的吧。

我们使用xpath语法来提取我们所需的信息。不熟悉xpath语法的自行学习一下，很快就能上手，难度不高。首先我们在chrome浏览器里进入豆瓣电影TOP250页面并按F12打开开发者工具。

python爬虫如何用xpath抓取信息

我们可以看到每一部电影的信息都在一个<li>…<li>里，打开后可以找到我们想要的全部信息，其中spider中初始的request是通过调用 start_requests() 来获取的。 start_requests() 读取 start_urls 中的URL，并以 parse 为回调函数生成 Request。看一下代码：

python爬虫如何用xpath抓取信息

以上就是xpath语言在python爬虫中抓取信息的方法了，没想到小小的语法还有这么多的作用吧。

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2021-05-25

# 抓取数据

复制链接

赏

python爬虫如何用xpath抓取信息

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置