python超详细零基础 bs4解析之爬取唯美图片

734次阅读

前言

本篇文章主要介绍使用bs4解析来爬取某网站上的唯美高清大图，涉及到的零碎知识较多，详细易懂，适合新手小白爬虫入门。
思路如下：
①拿到主页面的源代码，然后提取到子页面的链接地址href；
②通过href进入子页面，从子页面源代码中找到图片的下载地址，img ->src；
③下载图片；

下面通过代码讲解具体做法：

import requests from bs4 import BeautifulSoup import time url=“https://www.umei.cc/bizhitupian/weimeibizhi/” resp=requests.get(url) resp.encoding=‘utf-8’ #处理中文乱码。这里的内容需要与源代码中charset的值保持一致。 #把源码交给bs解析 main_page=BeautifulSoup(resp.text,“html.parser”) #指定html解析器 #使用find()在源代码中找到div,其属性为class且其属性值为TypeList的代码段，返回一个列表； #在这个列表中找所有的a标签 alist=main_page.find(“div”,class_=“TypeList”).find_all(“a”) #print(alist) #拿到定位到此区域下面的所有内容 for a in alist: href=a.get(“href”) #直接通过get就可以拿到属性的值 #print(href) #拿到每个子页面后面一截链接 child_href=“https://www.umei.cc”+href #通过字符串拼接，得到子页面链接 print(child_href) #拿到子页面的源码 child_page_resp=requests.get(child_href) child_page_resp.encoding=‘utf-8’ child_page_text=child_page_resp.text #从子页面中拿到图片的下载路径 child_page=BeautifulSoup(child_page_text,“html.parser”) p=child_page.find(“p”,align=“center”) img=p.find(“img”) #下载图片 src=img.get(“src”) img_resp=requests.get(src) #img_resp.content #这里拿到的是字节 img_name=src.split(“/”)[–1] #拿到url中的最后一个/以后的内容 with open(img_name,“wb”) as f: f.write(img_resp.content) #将图片内容写入文件 print(“over!!”,img_name) time.sleep(1) print(“all over!!!”)

官网首页

右键，拿到源页面代码，找到<div class=”TypeList”的位置，下方即为我们要找的每个子页面的链接地址，这个地址即为a标签中href的值（后期需要拼接）
python超详细零基础
进入其中任意一个子页面，如姜子牙

相同方式打开此页面的源代码，可以利用选中的这部分文字定位图片的链接（举的栗子是姜子牙，其他同理）

注意：find()找到一个就返回，而findall()是找所有。
得到的列表利用循环对其中的每一个子部分进行相同的操作，然后输出。
得到的链接并不是子页面的链接地址，还需要进行字符串的拼接，拼接成真正的子页面的链接。

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-28

# Python爬虫

复制链接

赏

python超详细零基础 bs4解析之爬取唯美图片

文章目录

前言

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置