python怎么爬虫？

2,451次阅读

利用python进行爬虫有一套非常完整的流程情况，首先通过发送请求，然后获取响应内容，在分析响应的内容，最后保存数据，也就是获取数据，这就是一系列的爬虫过程了，爬虫的作用就是能在互联网上获取众多信息中，我们所需要的主要信息，然后快速进行拨取，好啦，下面来详细看下怎么去爬虫。

爬虫概况：

模拟浏览器发送请求(获取网页代码)->提取有用的数据->存放于数据库或文件中

爬虫流程：

1、发起请求

使用http库向目标站点发起请求，即发送一个Request

Request包含：请求头、请求体等

Request模块缺陷：不能执行JS 和CSS 代码

2、获取响应内容

如果服务器能正常响应，则会得到一个Response，包含：html，json，图片，视频等。

3、解析内容

解析html数据：正则表达式，第三方解析库如Beautifulsoup，pyquery等

解析json数据：json模块

解析二进制数据：以wb的方式写入文件

4、保存数据

数据库（MySQL，Mongdb、Redis）、文件

以上就是关于python进行爬虫的所有流程与步骤了，大家可以根据自己所需，按照步骤进行爬取哦~

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python基础教程

2021-07-14

复制链接

赏

HTTP代理设置详解：一步步配置指南