一个简单的爬虫实例

994次阅读

貌似学习python就绕不过爬虫，今天看了很多资料，各式各样的爬虫，各种尝试，最后还是只能搞定入门级的，嗯，一步步来吧……

import requests from lxml import html url=’https://music.douban.com/’ #需要爬的网址 page=requests.Session().get(url) tree=html.fromstring(page.text) result=tree.xpath(‘//tr//a/text()’) #需要获取的数据 result1=tree.xpath(‘//tr//a/@href’) result2=tree.xpath(‘//tr[last()]//a/@href’) print(result) print(result1) print(result2)

我们爬取一下豆瓣音乐专区，其中url便是我们要爬取的网址，而tree.xpath()中的内容便是该网址中我们要获取的数据，显而易见，该程序爬取了三部分内容，//tr//a/text()便是需要抓取内容的路径，意思是所有标签下的tr标签的所有a标签的文本内容，是不是有点绕口，其实这就是一个相对路径，注意一个‘/’和两个‘/’的区别，可以分别理解成绝对路径和“所有”~~

第二个爬取的内容为a标签的href属性值，第三个为最后一个tr标签下的所有a标签的href属性值。

看结果吧：

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-28

# Python爬虫

复制链接

赏

一个简单的爬虫实例

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置