爬虫入门必学——常见的几种网站类型

813次阅读

没有评论

在学习爬虫前，我们需要先掌握网站类型，才能根据网站类型，使用适用的方法来编写爬虫获取数据。

今天小编就以国内知名的ForeSpider爬虫软件能够采集的网站类型为例，来为大家盘点一下数据采集常见的几种网站类型。

l常见网站类型

1.js页面

JavaScript是一种属于网络的脚本语言,被广泛用于Web应用开发,常用来为网页添加各式各样的动态功能,为用户提供更流畅美观的浏览效果。通常JavaScript脚本是通过嵌入在HTML中来实现自身的功能的。

ForeSpider数据抓取工具可自动解析JS，采集基于js页面中的数据，即可采集页面中包含JS的数据。

爬虫入门必学——常见的几种网站类型

Ajax即异步的JavaScript和XML，它不是一门编程语言，而是利用JavaScript在保证页面不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页的技术。

我们浏览网页的时候，经常会遇到这样的情况，浏览某页面时，往后拉页面，页面链接并没有变化，但是网页中却多了新内容，这就是通过Ajax获取新数据并呈现出来的过程。

爬虫入门必学——常见的几种网站类型

ForeSpider数据采集系统支持Ajax技术,可采集Ajax网页中的内容。

2.post/get请求

在html语言中，有两种方式给服务器发送表单（你在网页中填写的一些数据）。一种是POST一种是GET。POST把表单打包后隐藏在后台发送给服务器；GET把表单打包发送前，附加到URL（网址）的后面。

爬虫入门必学——常见的几种网站类型

ForeSpider采集器可采集数据在post/get请求中的网页内容，即采集post/get请求中的数据。

3.需要Cookie的网站

Cookie指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据。Cookie基于 Internet的各种服务系统应运而生，是由 Web 服务器保存在用户浏览器上的小文本文件，它可以包含有关用户的信息，是用户获取、交流、传递信息的主要场所之一，无论何时用户链接到服务器，Web 站点都可以访问 Cookie 信息。

爬虫入门必学——常见的几种网站类型

一般用户的账号信息记录在cookie中，爬虫爬取数据的时候，可以使用cookie模拟登录状态，从而获取到数据。

ForeSpider数据采集分析引擎可设置cookie来模拟登陆，从而采集需要用到cookie的网站内容。

爬虫入门必学——常见的几种网站类型

4. 采集需要OAuth认证的网页数据

OAUTH协议为用户资源的授权提供了一个安全的、开放而又简易的标准。同时，任何第三方都可以使用OAUTH认证服务，任何服务提供商都可以实现自身的OAUTH认证服务，因而OAUTH是开放的。

业界提供了OAUTH的多种实现如PHP、Java Script，Java，Ruby等各种语言开发包，大大节约了程序员的时间，因而OAUTH是简易的。互联网很多服务如Open API，很多大公司如Google，Yahoo，Microsoft等都提供了OAUTH认证服务，这些都足以说明OAUTH标准逐渐成为开放资源授权的标准。

ForeSpider爬虫软件支持OAuth认证，可以采集需要OAuth认证的页面中的数据。

爬虫入门必学——常见的几种网站类型

l 前嗅简介

前嗅大数据，国内领先的研发型大数据专家，多年来致力于为大数据技术的研究与开发，自主研发了一整套从数据采集、分析、处理、管理到应用、营销的大数据产品。前嗅致力于打造国内第一家深度大数据平台！

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-24

# Python爬虫

复制链接

赏

爬虫入门必学——常见的几种网站类型

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置