爬虫系列之requests

652次阅读

爬取百度内容：

1 import requests 2 url = “https://www.baidu.com“ 3 4 if __name__ == ‘__main__‘: 5 try: 6 kv = {‘user-agent‘: ‘Mozilla/5.0‘} 7 r = requests.get(url, headers=kv) 8 r.raise_for_status() #返回状态值，如果不是200，则抛出异常 9 r.encoding = r.apparent_encoding 10 print(r.text) 11 #print(r.request.headers) 12 except: 13 print(“爬虫失败“)

在URL中填上http://www.baidu.com/s?wd=keyword，keyword就是我们要百度搜索的内容，在requests中有params参数，可以把参数追加到URL中。

1 import requests 2 url = “http://www.baidu.com/s“ 3 keyword = “python“ 4 5 if __name__ == ‘__main__‘: 6 try: 7 kv = {‘user-agent‘: ‘Mozilla/5.0‘} 8 wd = {‘wd‘: keyword} 9 r = requests.get(url, headers=kv, params=wd) 10 print(r.request.url) 11 r.raise_for_status() 12 r.encoding = r.apparent_encoding 13 print(len(r.text)) 14 except: 15 print(“爬虫失败“)

爬虫系列之requests

爬取图片

1 import requests 2 import os 3 url = “http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg“ 4 5 kv = {‘header‘: ‘Mozilla/5.0‘} 6 root = “D://pic_save//“ 7 path = root + url.split(‘/‘)[-1] 8 9 if __name__ == ‘__main__‘: 10 try: 11 if not os.path.exists(root): 12 os.mkdir(root) 13 if not os.path.exists(path): 14 r = requests.get(url, headers=kv) 15 print(r.status_code) 16 with open (path, ‘wb‘) as f: 17 f.write(r.content) 18 print(“文件已保存成功“) 19 else: 20 print(“文件已存在“) 21 except: 22 (“爬虫失败“)

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-11-01

# Python爬虫

复制链接

赏

爬虫系列之requests

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置