python爬虫实现网页采集器

287次阅读
没有评论
python爬虫实现网页采集器

import requests #导入requests模块 #UA:User-Agnet:请求载体身份标识 #UA检测:各大门户网站的服务器都会检测请求载体的身份标识,如果请求载体的身份标识为某一款服务器, #则该请求为正常请求,如果请求载体的身份标识为某个爬虫程序,则服务器很可能拒绝该请求 #UA伪装:将爬虫程序伪装成某款浏览器 #指定URL #如果该python文件为入口程序,则执行if语句下的代码 if __name__=="__main__":

url='https://www.sogou.com/web' #进行UA伪装,模拟浏览器,注意将User-Agent封装在一个字典中 headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.57.2 (KHTML, like Gecko) Version/5.1.7 Safari/534.57.2 ' } #url携带参数,参数封装在一个字典中 word=input('enter a word:') params ={ 'query':word } #向服务器发起请求,url携带参数,并在请求过程中处理了参数 response=requests.get(url=url,headers=headers,params=params) #获取字符串形式的响应数据 page_text=response.text #持久化存储,写入一个文件 fileName=word+'.html' with open(fileName,'w',encoding='utf8') as fp: fp.write(page_text) print(fileName+'网页采集成功!!!')

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

相关文章:

版权声明:Python教程2022-10-27发表,共计809字。
新手QQ群:570568346,欢迎进群讨论 Python51学习