python爬虫——简易网页采集器学习笔记

692次阅读

UA
1、UA ：User-Agent(请求载体的身份标识)
2、UA检测：门户网站的服务器会检测对应请求的载体身份标识，如果检测到请求的载体身份标识为某一款浏览器，说明该请求是一个正常的请求，但是如果检测到请求的载体身份标识不是基于某一款浏览器，则表示该请求为不正常的请求（爬虫），则服务器端很可能会拒绝该请求
3、UA伪装：让爬虫对应的请求载体身份标识伪装成某一款浏览器

# 网页采集器

import requests # UA ：User-Agent(请求载体的身份标识) # UA检测：门户网站的服务器会检测对应请求的载体身份标识，如果检测到请求的载体身份标识为某一款浏览器，说明该请求是一个正常的请求， # 但是如果检测到请求的载体身份标识不是基于某一款浏览器，则表示该请求为不正常的请求（爬虫），则服务器端很可能会拒绝该请求 # UA伪装：让爬虫对应的请求载体身份标识伪装成某一款浏览器 if __name__ == '__main__': # UA伪装：将对应的请求载体身份标识伪装成某一款浏览器 headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36 Edg/97.0.1072.69' }

# 指定url url = 'https://www.sogou.com/web'

# 处理url携带的参数: 封装到字典中 kw = input('enter a word') param = { 'query': kw }

# 发送请求（携带参数） response = requests.get(url=url,params=param,headers=headers) # 获取响应数据 page_text = response.text fileName = kw + '.html' print(page_text) # 持久化存储 with open(fileName, 'w', encoding='utf-8') as fp: fp.write(page_text) print(fileName,'保存成功。。。')

成功：

python爬虫——简易网页采集器学习笔记

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-27

# Python爬虫

复制链接

赏

python爬虫——简易网页采集器学习笔记

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置