如何通过文本文件限制爬虫

1,787次阅读

如何通过文本文件限制爬虫

我们最近讲过的一些限制爬虫方法，都需要自己手动输入代码进行调试。根据我们学过的插件安装，是不是在python爬虫中也有类似简便的办法，能轻松地起到阻拦的作用呢？小编想说有一种文本文件的方法正好符合python初学者的安装需求，接下来我们就robots.txt进行简单介绍以及其限制爬虫的方法。

robots.txt（统一小写）是一种存放于网站根目录下的ASCII编码的文本文件，它通常告诉网络搜索引擎的漫游器（又称网络蜘蛛），此网站中的哪些内容是不应被搜索引擎的漫游器获取的，哪些是可以被漫游器获取的。因为一些系统中的URL是大小写敏感的，所以robots.txt的文件名应统一为小写。robots.txt应放置于网站的根目录下。如果想单独定义搜索引擎的漫游器访问子目录时的行为，那么可以将自定的设置合并到根目录下的robots.txt，或者使用robots元数据（Metadata，又称元数据）。

robots.txt协议并不是一个规范，而只是约定俗成的，所以并不能保证网站的隐私。注意robots.txt是用字符串比较来确定是否获取URL，所以目录末尾有与没有斜杠“/”表示的是不同的URL。robots.txt允许使用类似”Disallow: *.gif”这样的通配符。

itunes的robots.txt

如何通过文本文件限制爬虫

缺点：

只是一个君子协议，对于良好的爬虫比如搜索引擎有效果，对于有目的性的爬虫不起作用

虽然我们可以通过robots.txt达到不用手写代码就能阻拦爬虫的办法，但是并不能对特定的爬虫进行拦截，所以我们对于其他限制爬虫的方法同样要了然于心。这样才能进行互补。

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2021-05-23

复制链接

赏

如何通过文本文件限制爬虫

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置