Python 爬虫基础入门

1,654次阅读

没有评论

1.你是否在夜深人静的时候，想看一些会让你更睡不着的图片却苦于没有资源？ 2.你是否在节假日出行高峰的时候，想快速抢购火车票成功？ 3.你是否在网上购物的时候，想快速且精准的定位到口碑质量最好的商品？

通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程。

抓取互联网上的数据，为我所用，有了大量的数据，就如同有了一个数据银行一样，下一步做的就是如何将这些爬取的数据产品化，商业化

Python

使用http库向目标站点发起请求，即发送一个Request Request包含：请求头、请求体等 Request模块缺陷：不能执行JS 和CSS 代码

如果服务器能正常响应，则会得到一个Response Response包含：html，json，图片，视频等

解析html数据：正则表达式（RE模块），第三方解析库如Beautifulsoup，pyquery等解析json数据：json模块解析二进制数据:以wb的方式写入文件

数据库（MySQL，Mongdb、Redis）文件

Python

Request：用户将自己的信息通过浏览器（socket client）发送给服务器（socket server） Response：服务器接收请求，分析用户发来的请求信息，然后返回数据（返回的数据中可能包含其他链接，如：图片，js，css等） ps：浏览器在接收Response后，会解析其内容来显示给用户，而爬虫程序在模拟浏览器发送请求然后接收Response后，是要提取其中的有用数据。

Python

常见的请求方式：GET / POST

url全球统一资源定位符，用来定义互联网上一个唯一的资源例如：一张图片、一个文件、一段视频都可以用url唯一确定；网页的加载过程是：加载一个网页，通常都是先加载document文档，在解析document文档的时候，遇到链接，则针对超链接发起下载图片的请求

Python

User-agent：请求头中如果没有user-agent客户端配置，服务端可能将你当做一个非法用户host； cookies：cookie用来保存登录信息注意：一般做爬虫都会加上请求头请求头需要注意的参数：（1）Referrer：访问源至哪里来（一些大型网站，会通过Referrer 做防盗链策略；所有爬虫也要注意模拟）（2）User-Agent:访问的浏览器（要加上否则会被当成爬虫程序）（3）cookie：请求头注意携带

Python

如果是get方式，请求体没有内容（get请求的请求体放在 url后面参数中，直接能看到）如果是post方式，请求体是format data ps： 1、登录窗口，文件上传等，信息都会被附加到请求体内 2、登录，输入错误的用户名密码，然后提交，就可以看到post，正确登录后页面通常会跳转，无法捕捉到 post

Python

200：代表成功 301：代表跳转 404：文件不存在 403：无权限访问 502：服务器错误

Python

响应头需要注意的参数：（1）Set-Cookie:BDSVRTM=0; path=/：可能有多个，是来告诉浏览器，把cookie保存下来（2）Content-Location：服务端响应头中包含Location返回浏览器之后，浏览器就会重新访问另一个页面

Python

JSO数据如网页html，图片二进制数据等

爬取—>解析—>存储

请求库：requests,selenium（可以驱动浏览器解析渲染CSS和JS，但有性能劣势（有用没用的网页都会加载）；）解析库：正则，beautifulsoup，pyquery 存储库：文件，MySQL，Mongodb，Redis~~

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-11-01

# Python爬虫

复制链接

赏

Python 爬虫基础入门

爬虫需求

爬虫简介

爬虫的价值

爬虫流程

1.发送请求request

2.获取响应内容 response

3.解析内容

4.保存数据

HTTP的请求和响应

请求响应过程

Request内容

1.请求方式：

2.请求的URL

3.请求头

4.请求体

响应Response

1.响应状态码

2.respone header

3.preview就是网页源代码

总结

爬虫流程：

爬虫所需工具：

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置