网络爬虫学习1

952次阅读

没有评论

网络爬虫MOOC学习打卡 – 第一天
一、使用 requests.get(url) 抓取网页
- 1.从cmd中打开idle
- 2.调用requests类 —— import requests
总结

在这里插入图片描述

requests.get(url) 是用来抓取网页信息的

知识点一：
1.调用requests
2.使用 get()方法抓取百度的主页信息
3.使用 r.text用来输出抓取的信息

代码如下：

# 调用requests import requests

# 使用 get()方法抓取百度的主页信息 r = requests.get(https://www.baidu.com)

# 使用 r.text用来输出抓取的信息 r.text

这里有需要注意的地方：在输入url的时候，如果不输入http://则会报错。
网络爬虫学习1
知识点二：
1.输出内容的编码格式
2.默认编码 r.encoding
3.更精准的编码 r.apparent_encoding

可以发现网页的内容有没有编写成中文的地方，所以我们可以自己分析一下真正的编码是什么
1.估计查询：r.encoding
2.更精准查询（但是也不是完全正确的）：r.apparent_encoding

代码如下：

# 默认编码（是从头文件中分析得来的）： r.encoding

# 更精准查询（但是也不是完全正确的，是从内容分析中得来的）： r.apparent_encoding

所以我们可以更改编码方式：
我们用分析更准确的编码方式赋予r.encoding，这样得到的信息就是我们想要的了 —— 从乱码到中文

代码如下：

# 把r.apparent_encoding的编码格式赋予r.encoding r.encoding = r.apparent_encoding

# 这次再输出抓取的内容吧 r.text

结果如下：
网络爬虫学习1
不难看到，中文出现了！因为我们把编码格式从 ISO-8859-1 改成了 utf-8

知识点三：
1.状态码

“今天你连接成功了么？”

# 返回结果是 200 ，success # 返回结果为 404 或其他，fault r.status_code

没什么总结的。。放松一下读读诗吧

赠卫八处士杜甫
人生不相见，动如参与商。今夕复何夕，共此灯烛光。
少壮能几时，鬓发各已苍。访旧半为鬼，惊呼热中肠。
焉知二十载，重上君子堂。昔别君未婚，儿女忽成行。
怡然敬父执，问我来何方。问答乃未已，驱儿罗酒浆。
夜雨剪春韭，新炊间黄粱。主称会面难，一举累十觞。
十觞亦不醉，感子故意长。明日隔山岳，世事两茫茫。

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-25

# Python爬虫

复制链接

赏

网络爬虫学习1

网络爬虫MOOC学习打卡 – 第一天

文章目录

一、使用 requests.get(url) 抓取网页

1.从cmd中打开idle

2.调用requests类 —— import requests

总结

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置