python 使用代理ip爬虫

76次阅读
没有评论

Python 使用代理ip爬虫

  • 爬虫定义
  • 代理ip
    • 为什么要用代理ip
    • 代理ip来源
    • 如何代理
    • 简单吗
  • 结束

爬虫定义

网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫 百度百科爬虫.

代理ip

为什么要用代理ip

随着信息的越来越庞大,获取数据的途径也不断增多,各个渠道都不会让使用者轻易的采集到本网的信息,而通过ip访问的频率可以对该ip进行判断,是否属于脚本机器在用,从而进行拦截,导致使用者不能采集该网站的信息。

代理ip来源

目前免费的ip来源有很多,比如: IPIPGO 天启代理 神龙代理 等这些每日提供一些免费的ip网站,也可以进行注册长期使用。 另外,我们也可以手动去采集一些ip,通过脚本自动判断该ip是否可用,加入到ip池中。

如何代理

import requests proxy = { ‘http’: ‘223.241.22.100:4287’ } response = requests.get(“http://httpbin.org/ip”,proxies=proxy) print(response.text)

通过使用requests的方式,我们规定了一个字典,将’http’: ‘223.241.22.100:4287’作为一对插入进去,在请求的同时,将字典添加到参数当中,就完成了本次的ip代理。

简单吗

ip代理真的像以上说的那么简单吗?其实不是的,以上只是ip代理基本的格式,我们在用的时候需要注意以下几个方面:

  • ip是否有效,我们拿到一个ip后,不能直接用,而是需要判断一下这个ip是否可用,方法很简单,判断一下返回的code码即可;
  • 请求的链接是http还是https,这两者的请求方法虽然一样,但是,ip代理可大不一样,如下:

proxy = { ‘http’: ‘223.241.22.100:4287’, ‘https’: ‘223.241.22.100:4287’ }

要是需要访问http开头的链接,就需要http开头的ip代理,同样,如果访问https开头的链接,就需要https开头的ip代理,否则,用http代理的IP访问https的链接是不会成功的; 3. try Except,需要在第一步判断ip是否有效时进行使用,防止因为ip的不可用而意外导致程序中断。

结束

非常高兴能和小伙伴们分享本次的心得,希望能够帮助到大家。

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

相关文章:

版权声明:代理IP2022-11-28发表,共计1016字。
新手QQ群:570568346,欢迎进群讨论 Python51学习