爬虫基本知识，如何发起请求，进行分析

886次阅读

没有评论

欢迎大家去博客冰山一树Sankey，浏览效果更好。直接右上角搜索该标题即可爬虫基本知识，如何发起请求，进行分析

CSDN主页：CSDN主页-冰山一树Sankey 博客园主页：博客园主页-冰山一树Sankey

爬虫一个实战性很强的内容，下面是一些知识点，方便日后复习，具体还要去案例看看，随机应变。这是我的github爬虫仓库github-spider，欢迎大家clone进行学习和体验。

定义

网络蜘蛛(spider)、网络机器人(robot)，抓取网络数据的程序其实就是用Python程序模仿人点击浏览器并访问网站，而且模仿的越像越好，让Web站点无法发现你不是人

爬取数据的目的

1、公司项目测试数据 2、公司业务部门及其他部门所需数据 3、数据分析

企业获取数据方式

1、公司自有数据 2、第三方数据平台购买(tushare,数据堂、贵阳大数据交易所) 3、爬虫爬取数据

Python做爬虫优势

1、Python ：请求模块、解析模块丰富成熟,强大的Scrapy网络爬虫框架 2、PHP ：对多线程、异步支持不太好 3、JAVA：代码笨重,代码量大 4、C/C++：虽然效率高,但是代码成型慢

爬虫爬取数据步骤

1、确定需要爬取的URL地址 2、由请求模块向URL地址发出请求,并得到网站的响应（网页的源码） 3、从响应内容中提取所需数据 1、所需数据,保存 2、页面中有其他需要继续跟进的URL地址,继续第2步去发请求，如此循环

直接访问网址，网址会直接判断为爬虫程序而非真人操作，可使用下面函数进行模仿

urllib.request.Request(url,headers)

1、url：请求的URL地址 2、headers：添加请求头（爬虫和反爬虫斗争的第一步） #headers={‘User-Agent’:’sdfsdfsd’}#百度

User-Agent需要去网上搜索一个进行重构，不过令人高兴的是有直接获取随机User-Agent的库

1、安装fake_useragent类库 2、引用fake_useragent类库 3、创建对象，通过random获取随机User-Agent

使用方法

from fake_useragent import UserAgent

ua=UserAgent() headers={ ‘User-Agent’: ua.random } 直接传给header对象即可

模块名导入

1、模块名：urllib.request 2、导入方式： 1、import urllib.request 2、from urllib import request

使用方法

urllib.request.urlopen(url,timeout) 参数 1、url：需要爬取的URL地址 2、timeout: 设置等待超时时间,指定时间内未得到响应抛出超时异常

进行headers重构后 req=request.Request(url=url,headers=headers) res = request.urlopen(req)

小栗子：

向测试网站（http://httpbin.org/get）发起请求，构造请求头并从响应中确认请求头信息

from urllib import request #定义常用变量 url headers url=‘http://httpbin.org/get’ headers={ ‘User-Agent’:‘Opera/9.80 (Windows NT 6.1; U; zh–cn) Presto/2.9.168 Version/11.50‘ } #1.创建请求对象 req=request.Request(url=url,headers=headers) #2.获取请求的返回对象 res=request.urlopen(req) #3.提取响应内容 html=res.read().decode(‘utf-8’) print(html)

补充：响应对象（response）方法

1、bytes = response.read() # read()得到结果为 bytes 数据类型 2、string = response.read().decode() # decode() 转为 string 数据类型 3、url = response.geturl() # 返回实际数据的URL地址 4、code = response.getcode() # 返回HTTP响应码 5、string.encode() # bytes -> string 6、bytes.decode() # string -> bytes

当需要获取其他页面就需要进行URL地址进行编码

# 模块名 urllib.parse # 导入 import urllib.parse from urllib import parse

常用方法

urllib.parse.urlencode({dict})

URL地址中一个查询参数

# 查询参数：{‘wd’ : ‘美女’} # urlencode编码后：’wd=%e7%be%8e%e5%a5%b3′ # 示例代码 query_string = {‘wd’ : ‘美女’} result = urllib.parse.urlencode(query_string) # result: ‘wd=%e7%be%8e%e5%a5%b3’

URL地址中多个查询参数 from urllib import parse params = { ‘wd’ : ‘美女’, ‘pn’ : ’50’ } params = parse.urlencode(query_string_dict) url = ‘http://www.baidu.com/s?{}’.format(params) print(url)

urllib.parse.quote(string)编码

from urllib import parse string = ‘美女’ print(parse.quote(string)) # 结果: %E7%BE%8E%E5%A5%B3 #只编译中文

urllib.parse.unquote(string)解码

from urllib import parse string = ‘%E7%BE%8E%E5%A5%B3’ result = parse.unquote(string) print(result)

获得的html页面并没有什么用处，需要使用解析模块进行解析

正则解析是一个很齐全的方法

#首先导入正则模块 import re #建立pattern对象 pattern = re.compile(‘正则表达式’,re.S) #得到解析内容 r_list = pattern.findall(html)

正则表达式写法贪婪匹配(默认) ： .* 非贪婪匹配： .*?，一般使用.*? 1、想要什么内容在正则表达式中加(.*?)，有空格或者不确定的地方就加.*? 2、多个分组,先按整体正则匹配,然后再提取()中数据。结果：[(),(),(),(),()]

正则表达式元字符

爬虫基本知识，如何发起请求，进行分析

案例：这里以明日方舟贴吧的html进行说明

爬取html页面模块

from urllib import request from urllib import parse

def get_url(wd): url=‘https://tieba.baidu.com/f?{}’ params=parse.urlencode({‘kw’:wd}) url=url.format(params) return url def request_url(url,filename): headers = { ‘User-Agent’: ‘Opera/9.80 (Windows NT 6.1; U; zh-cn) Presto/2.9.168 Version / 11.50’ } req=request.Request(url=url,headers=headers) res = request.urlopen(req) # 提取响应内容 html = res.read().decode(‘utf-8’) # 保存数据 with open(filename, ‘w’, encoding=‘utf-8’) as f: f.write(html)

if __name__ == ‘__main__’: wd=input(‘请输入搜索内容：’) url=get_url(wd) filename=wd+‘.html’ request_url(url,filename)

解析模块

import re # 明日方舟内容解析 with open(‘明日方舟.html’,‘r’,encoding=‘utf-8’) as f: 注意re表达式的写法 pattern=re.compile(‘<a rel=”noopener” href=”.*?” title=”(.*?)”.*?</div><div class=”threadlist_author pull_right”>.*?<span class=”tb_icon_author “.*?title=”(.*?)”‘,re.S) r_list=pattern.findall(f.read()) # print(r_list[0][1])

if r_list: for r in r_list: print(“名字：”,r[1].replace(“主题作者: “,“”),“\t”, “标题：”,r[0].strip())

XPath即为XML路径语言，它是一种用来确定XML文档中某部分位置的语言，同样适用于HTML文档的检索

使用流程

1、导入模块 from lxml import etree 2、创建解析对象 parse_html = etree.HTML(html) 3、解析对象调用xpath r_list = parse_html.xpath(‘xpath表达式’)

常用方法

1、contains() ：匹配属性值中包含某些字符串节点 # 查找id属性值中包含字符串 “car_” 的 li 节点 //li[contains(@id,”car_”)]

2、text() ：获取节点的文本内容 # 查找所有汽车的价格 //li/p[@class=”price”]/text()

3.匹配多路径 xpath表达式1 | xpath表达式2 | xpath表达式3

示例

1、查找所有的li节点 //li 2、获取所有汽车的名称 //li/p[@class=‘name’]/text() 3、获取比亚迪的型号 //li/p[@class=‘model’]/text() 4、获取每辆车的连接 //ul/li@href

解析得到数据需要保存，一般使用csv，mysql，Mongo

使用流程

import csv with open(‘film.csv’,’w’) as f: writer = csv.writer(f) writer.writerow([])

示例

# 单行写入（writerow([])) import csv with open(‘test.csv’,‘w’,newline=”) as f: writer = csv.writer(f) writer.writerow([‘步惊云’,’36’]) writer.writerow([‘超哥哥’,’25’]) # 多行写入(writerows([(),(),()] import csv #window下需要加newline=” 否则会有空行的现象。数据都在但是 #会隔一个空行显示一条数据 with open(‘test.csv’,‘w’,newline=”) as f: writer = csv.writer(f) writer.writerows([(‘聂风’,’36’),(‘秦霜’,’25’),(‘孔慈’,’30’)])

# 存入csv文件 – writerows() def write_html(self,film_list): L = [] with open(‘film.csv’,‘a’) as f: # 初始化写入对象,注意参数f别忘了 writer = csv.writer(f) for film in film_list: t = ( film[0].strip(), film[1].strip(), film[2].strip()[5:15] ) L.append(t) # writerows()参数为列表 writer.writerows(L)

首先需要建立一个数据库表用于存储数据

# 连接到mysql数据库 mysql -uroot -p123456 # 建库建表 create database filmsdb charset utf8; use maoyandb;

create table films( name varchar(100), star varchar(300), time date )charset=utf8;

使用流程

导入pymysql import pymysql

建立连接 self.db=pymysql.connect(host=’localhost’,user=’root’,password=’123456′,database=’filmsdb’,charset=’utf8′) 建立游标 self.cursor=self.db.cursor()

提交单条数据 ins = ‘insert into films values(%s,%s,%s)’ for film in film_list: L = ( film[0].strip(), film[1].strip(), film[2].strip() ) self.cursor.execute(ins, L) # 千万别忘了提交到数据库执行 self.db.commit()

提交多条数据 # mysql – executemany([(),(),()]) 建议使用这种 def write_html(self, film_list): L = [] ins = ‘insert into films values(%s,%s,%s)’ for film in film_list: t = ( film[0].strip(), film[1].strip(), film[2].strip() ) L.append(t) self.cursor.executemany(ins, L) # 千万别忘了提交到数据库执行 self.db.commit()

MongoDB是一个基于磁盘的菲关系型数据库（key-value）数据库，value为json串

常用命令

1.mongo #进入输入库 2.show dbs #查看所有库 3.use 库名 4.show collections #查看当前库的所有集合 5.db.集合名.find().pretty()#带格式的查询 6.db.集合名.count()#统计集合文档个数 7.db.dropDatabase()#删除数据库

使用流程

导入pymongo import pymysql

建立库 self.conn=pymongo.MongoClient(‘localhost’,27017) self.db=self.conn[‘filmsdb’]

建立表名 self.myset=self.db[‘films’]

提交数据，注意提交格式为字典格式

def write_html(self, film_list): L = [] item={} for film in film_list: item[‘name’]=film[0].strip(), film[1].strip(), film[2].strip()

L.append(item) #添加单条数据 self.myset.insert_one(item)

#添加多条数据 self.myset.insert_many(L)

requests相对于request对象，使用起来更加快速简洁，可相当于request加强版

# 向网站发起请求,并获取响应对象 res = requests.get(url,headers=headers)

常用方法

# print(res.encoding) # 取字符串 # print(res.text) # 取字节流 # print(res.content) # http响应码 # print(res.status_code) # 实际url # print(res.url)

不仅如此，对于2.3的URL地址编码，也可以直接进行赋值

import requests baseurl = ‘http://tieba.baidu.com/f?’ params = { ‘kw’ : ‘古力娜扎吧’, ‘pn’ : ’50’ } headers = {‘User-Agent’ : ‘Mozilla/4.0’} # 自动对params进行编码,然后自动和url进行拼接,去发请求 res = requests.get(url=baseurl,params=params,headers=headers) res.encoding = ‘utf-8’ print(res.text)

1、针对于需要web客户端用户名密码认证的网站 2、auth = (‘username’,’password’) 3、将auth放在requests.get()方法里面

爬虫基本知识，如何发起请求，进行分析

1、适用网站: https类型网站但是没有经过证书认证机构认证的网站 2、适用场景: 抛出 SSLError 异常则考虑使用此参数适用网站及场景

参数类型 1、verify=True(默认) : 检查证书认证 2、verify=False（常用）: 忽略证书认证 # 示例 response = requests.get( url=url, params=params, headers=headers, verify=False )

定义: 代替你原来的IP地址去对接网络的IP地址。作用: 隐藏自身真实IP,避免被封。

import requests url=‘http://httpbin.org/get’ headers={‘User-Agent’:‘Mozilla/5.0’} #定义代理，在代理网站中找免费ip proxies={ ‘http’:‘http://110.89.122.28:8080’, ‘https’:‘https://110.89.122.28:8080’ } html=requests.get(url=url,proxies=proxies,headers=headers,timeout=5).text print(html)

适用场景：Post类型请求的网站

response = requests.post(url,data=data,headers=headers) data参数：post数据（Form表单数据-字典格式）

动态数据的抓取相对于静态数据来说，就是url不是网址具体的url，具体的url需要用调试工具进行调试，然后选择网络，XHR，下面的动态加载的内容就是由web后台发过来的动态数据，其格式为json格式

这里以豆瓣为例

爬虫基本知识，如何发起请求，进行分析

标头里就是具体的json数据的请求url

爬虫基本知识，如何发起请求，进行分析

将url用于requests.get()请求响应就会得到其数据，然后进行解析即可。

下面是具体的响应数据提取方法

json.loads(json)

作用：把json格式的字符串转为Python数据类型——字典

示例：html_json = json.loads(res.text)

json.dumps(python)

作用：把 python 类型转为 json 类型

json.dump(python,f,ensure_ascii=False)

作用：将python的格式类型也就是字典，转换为json并存到文件里

json.dump(python,f,ensure_ascii=False)

第1个参数: python类型的数据(字典，列表等) 第2个参数: 文件对象第3个参数: ensure_ascii=False # 序列化时编码

json.load(f)

作用：将json文件读取,并转为python类型

对于上面的get请求后，可通requests.get().json()获得json数据，这是最简单的方法，

也可以通过requests.get().text，然后再进行loads方法

对于得到的json数据，我们可以一层一层的去提取，但是如果层数太多的化，提取就会很困难，而使用jsonpath模块就可以更加key和下标来批量提取value

安装

jsonpath是第三方模块，需要额外安装，直接使用命令pip install jsonpath即可安装使用了。

使用

from jsonpath import jsonpath #jsondata就是所取进行解析的json数据 ret = jsonpath(jsondata, ‘jsonpath语法规则字符串’)

爬虫基本知识，如何发起请求，进行分析

这里举个使用例子,提取python

import jsonpath data={‘key1’：{‘key2’:{‘key3’:{‘key4’:{‘key5′:’key6’:{‘key7′:python}}}}}}

#进行提取 result=jsonpath.jsonpath(data,’$.key1.key2.key3.key4.key5.key6.key7′)[0] #或者 result=jsonpath.jsonpath(data,’$..key7’)[0]

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-24

# Python爬虫

复制链接

赏

爬虫基本知识，如何发起请求，进行分析

爬虫基本知识，如何发起请求，进行分析

一. 网络爬虫概述

二. 爬虫请求模块

2.1 headers重构

2.1 request获取

2.2 URL地址编码模块

四. 解析

4.1 正则re解析

4.2. xpath解析

五. 数据保存

5.1 保存csv文件

5.2 Mysql数据库

5.3 Mongo数据库

六. requests获取

6.1 常用方式

6.2 URL地址编码

6.3 客户端认证-auth

6.3 SSL证书认证参数-verify

6.4 代理参数-proxies

6.5 requests.post()参数

七. 动态数据抓取

7.1 爬取方法

7.2 json模块

7.3 jsonpath模块

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置