网络爬虫的基本概念

1,187次阅读

没有评论

1 . 数据来源：

企业产生的用户数据

政府/机构提供的公开数据

第三方数据平台购买数据

爬虫爬取数据

2 . 爬虫的定义：爬虫又称网页蜘蛛，网络机器人，是一种按照一定规则，自动抓取互联网上相应的信息。

3 . 爬虫的工作原理：

1 . 网页三大特征：

1 . 有自己唯一的URL（统一资源定位器）一个URL是由四部分组成：“协议，域名，路径，参数”。

2 . 都是使用HTML来描述页面

3 . 都使用HTTP/https（超文本传输协议）来传输HTML数据

2 . 爬虫的设计思路：

1 . 指定需要爬取的URL地址

2 . 通过HTTP/HTTPS获取对应的HTML页面

3 . 提取需要的数据

3 . 为什么选择python做爬虫？

：代码简洁，效率高，模块多，调用其他接口也方便

4 . 爬虫的分类

通用爬虫和聚焦爬虫

通用爬虫：抓取互联网所有的资源。例如：百度，谷歌等搜索引擎。

聚焦爬虫：可以选择性的抓取需要的数据

5 . DNS（domain Name System）是“域名系统”的英文缩写，用于将域名转换成ip地址

6 . HTTP/https协议：

协议概念：通信计算机双方必须遵守的约定

HTTP协议：超文本传输协议，是一个基于请求与响应，无状态的应用层协议

https协议：是以安全为目标的HTTP通道，建立一个信息安全的通道，保证数据传输的安全

7 . HTTP三次握手和四处挥手

三次握手：是指建立链接时，需要客户端和服务器总共发送三个包，进行三次握手的主要作用就是为了确认双方接收能力和发送能力是否正常

四次挥手：断开链接时，第一次挥手：客户端发送一个请求用来关闭客户端与服务器的数据传输，第二次挥手：服务器收到客户端发来的请求，第三次挥手：服务器关闭与客户端的链接，并发送一个请求给客户端，第四次挥手：关闭链接

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-24

# Python爬虫

复制链接

赏

网络爬虫的基本概念

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置