欢迎来到Python教程自学网!
当前位置: 首页 > Python基础教程 > python怎么爬虫?

python怎么爬虫?

   

利用python进行爬虫有一套非常完整的流程情况,首先通过发送请求,然后获取响应内容,在分析响应的内容,最后保存数据,也就是获取数据,这就是一系列的爬虫过程了,爬虫的作用就是能在互联网上获取众多信息中,我们所需要的主要信息,然后快速进行拨取,好啦,下面来详细看下怎么去爬虫。

爬虫概况:

模拟浏览器发送请求(获取网页代码)->提取有用的数据->存放于数据库或文件中

爬虫流程:

1、发起请求

使用http库向目标站点发起请求,即发送一个Request

Request包含:请求头、请求体等

Request模块缺陷:不能执行JS 和CSS 代码

2、获取响应内容

如果服务器能正常响应,则会得到一个Response,包含:html,json,图片,视频等。

3、解析内容

解析html数据:正则表达式,第三方解析库如Beautifulsoup,pyquery等

解析json数据:json模块

解析二进制数据:以wb的方式写入文件

4、保存数据

数据库(MySQL,Mongdb、Redis)、文件

以上就是关于python进行爬虫的所有流程与步骤了,大家可以根据自己所需,按照步骤进行爬取哦~