爬虫介绍

1,240次阅读

没有评论

百度百科

网络爬虫是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

网络爬虫（又称网络蜘蛛，机器人），就是模拟客户端发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。
只要浏览器能够做的事情，原则上，爬虫都能够做到。

简单来说，爬虫就是自动从网络上收集信息的一种程序，复杂点来说，就是一整套关于数据请求、处理、存储的程序。

发送请求 -> 接收响应 -> 解析网页 (-> 提取链接 -> 发送请求) -> 提取资源 -> 保存资源

实质是模拟浏览器发送 http 请求报文的过程，实际中只需要请求服务器需要的部分报文。

模拟浏览器的请求

requests 爬虫最常用的库
比起之前用到的urllib，requests模块的api更加便捷（本质就是封装了urllib3）。

urllib
提供了一系列用于操作URL的功能。

请求行、请求头、空行、请求体
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SBm9ugRo-1579768800332)(./assets/request-message.jpg#pic_center)]

使用Fiddler抓取http请求(抓包)

一个完整的 http 请求报文

POST http://columbus.os.adc.com/api/coop/requirement/tree/query/prune/page?projectId=100001 HTTP/1.1 Host: columbus.os.adc.com Connection: keep-alive Content-Length: 483 Accept: application/json, text/plain, */* Origin: http://columbus.os.adc.com User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3314.0 Safari/537.36 SE 2.X MetaSr 1.0 Content-Type: application/json;charset=UTF-8;multipart/form-data Referer: http://columbus.os.adc.com/requirement/list?projectId=100001 Accept-Encoding: gzip, deflate Accept-Language: zh-CN,zh;q=0.9 Cookie: SESSION=1e365567-bbed-4ff8-b033-6ab21dc05bd2; user=W9005349

{"projectId":"100001","title":"","assignUsers":[],"isArchived":-1}

请求行

请求方法 + 空格 +请求URL + 空格 + HTTP协议版本 + 回车换行

请求头

请求的配置信息，key-value 形式发送给服务器

Accept：浏览器可接受的MIME类型。
Accept-Charset：浏览器可接受的字符集。
Accept-Encoding：浏览器能够进行解码的数据编码方式，比如gzip。Servlet能够向支持gzip 的浏览器返回经gzip编码的HTML页面。许多情形下这可以减少5到10倍的下载时间。
Accept-Language：浏览器所希望的语言种类，当服务器能够提供一种以上的语言版本时要用到。
Content-Length：表示请求消息正文的长度。
Host：客户机通过这个头告诉服务器，想访问的主机名。Host头域指定请求资源的Intenet主机和端口号，必须表示请求url的原始服务器或网关的位置。HTTP/1.1请求必须包含主机头域，否则系统会以400状态码返回。
If-Modified-Since：客户机通过这个头告诉服务器，资源的缓存时间。只有当所请求的内容在指定的时间后又经过修改才返回它，否则返回304“Not Modified”应答。
Referer：客户机通过这个头告诉服务器，它是从哪个资源来访问服务器的(防盗链)。包含一个URL，用户从该URL代表的页面出发访问当前请求的页面。
User-Agent：User-Agent头域的内容包含发出请求的用户信息。浏览器类型，如果Servlet返回的内容与浏览器类型有关则该值非常有用。
Cookie：客户机通过这个头可以向服务器带数据，这是最重要的请求头信息之一。
Cookie2：用来说明请求端支持的cookie版本。
Range：如果服务器支持范围请求，就请求资源的指定范围。

空行

通过空行告诉服务器请求头部结束。

请求体

根据不同的请求方法包含不同的内容。
get: 空
post: 表单数据

获取特定请求返回的响应报文，提取目标数据。

响应行、响应头、空行、响应体
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NXRBMhIU-1579768800338)(./assets/response-message.jpg#pic_center)]

一个完整的 http 响应报文

HTTP/1.1 200 Server: nginx/1.12.2 Date: Thu, 23 Jan 2020 02:03:03 GMT Content-Type: application/json;charset=UTF-8 Transfer-Encoding: chunked Connection: keep-alive trace-id: 15-32349ee9-8945-438c-91a6-33ff10c0c0ee-18882 X-Content-Encoding-Over-Network: gzip

77 {"status":200,"msg":null,"data":{"result":[],"pageInfo":{"totalPages":0,"totalRecords":0,"pageNumber":1,"pageSize":5}}} 0

响应行

http协议版本 + 空格 + 状态码 + 空格 + 状态码描述 + 回车换行

http状态码

100~199：信息，服务器收到请求，需要请求者继续执行操作

200~299：成功，操作被成功接收并处理

300~399：重定向，需要进一步的操作以完成请求

400~499：客户端错误，请求包含语法错误或无法完成请求

500~599：服务器错误，服务器在处理请求的过程中发生错误

响应头

描述服务器和数据的基本信息。

Set-Cookie：设置浏览器 Cookie，以后当浏览器访问符合条件的 URL 时，会自动带上该 Cooike
Refresh：告诉浏览器隔多久刷新一次，以秒计

空行

响应头结束

响应体

网站返回的数据

提取网页链接

提取网页资源

源码中找到并提取数据

Beautiful Soup
Beautiful Soup 是 python 的一个库，其最主要的功能是从网页中抓取数据。

pyquery
据说比beautiful 好用，语法和jquery非常像。

scrapy：是Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。

nutch：是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

搜索引擎
百度、谷歌搜索就是一个巨大的爬虫程序。

爬取新闻新闻门户网站的新闻共享
比如说今日头条、一点新闻、腾讯新闻等等。他们的新闻来源，一个当然是从自己的记者这里产生，另一部分呢，就是从其他网站上，爬下来他们的记者写的文章。这样才能够做到新闻的门户级别。一个网站报道了一个新闻，其他的网站马上会给你推送相同的新闻了。这中间就是爬虫在起作用，如果是人去找新闻，不仅速度慢，还可能会重复，而且不能24小时工作。这当然就很不方便了。

为机器学习，大数据做准备
机器学习基于海量的数据样本，比如人脸识别，图像识别，语音识别，只有对大量的样本数据进行分析，才能提升程序的识别准确度。至于大数据分析更是基于海量数据，所以爬虫就是获取数据的一种途径。

分析喜欢妹子的朋友圈hh

找工作时爬取招聘网站某工种的所有招聘信息

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-24

# Python爬虫

复制链接

赏

爬虫介绍

爬虫

原理

发送请求

请求库

请求报文

请求行

请求头

空行

请求体

接收响应

响应报文

响应行

响应头

空行

响应体

解析网页

解析库

爬虫开源框架

商业场景

个人用途

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置