python爬取网页内容的简单程序 - Python基础教程

国外IP代理推荐：
IPIPGO|全球住宅代理IP（>>>点击注册免费测试<<<）
LoongProxy|全球静态代理IP（>>>点击注册免费测试<<<）
神龙海外|全球动态代理IP（>>>点击注册免费测试<<<）
国内IP代理推荐：
天启|企业级代理IP（>>>点击注册免费测试<<<）
神龙|纯净稳定代理IP（>>>点击注册免费测试<<<）
全民|优质代理IP（>>>点击注册免费测试<<<）

python爬取网页内容的简单程序

692次阅读

''' 1.目标网址： 2.分析目标网页的标签 3.熟悉标签结构 4.导入第三方库 5.代码实现 '''

import requests from bs4 import BeautifulSoup

#要爬取的网址 url = 'https://www.biqukan.com/78_78176/523395010.html'

#1.发起请求 response = requests.get(url=url)

#2.判断是否请求成功，根据状态码判断 print('状态码',response.status_code)

#3.设置与请求的页面的相同的编码，默认浏览器 ISO–8859–1 response.encoding = 'gbk'

#4.解析请求的结构 html = response.text

#5.解析结构 soup = BeautifulSoup(html,'lxml')

#6.利用解析的实例化对象进行标签内容的获取 bs_text = soup.find_all('div', class_='showtxt') texts = bs_text[0].text #print(texts)

#7.去除空格或者空行 texts = texts.replace("'\xa0'",'\n\n')

#8.下载 file = open('超跑.txt','w',encoding='utf-8',newline='')

#9.写入 file.write(texts) #10.关闭 file.close()

print('over!')

对网页分析https://www.biqukan.com/78_78176/523395010.html
使用火狐或者谷歌按f12
查看如下
python爬取网页内容的简单程序

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-27

复制链接

赏

相关文章：

版权声明：由Python教程2022-10-27发表，共计689字。

新手QQ群：570568346，欢迎进群讨论

Python51学习

国外IP代理推荐：
IPIPGO|全球住宅代理IP（>>>点击注册免费测试<<<）
LoongProxy|全球静态代理IP（>>>点击注册免费测试<<<）
神龙海外|海外动态代理IP（>>>点击注册免费测试<<<）
国内IP代理推荐：
天启|企业级代理IP（>>>点击注册免费测试<<<）
神龙|纯净稳定代理IP（>>>点击注册免费测试<<<）
全民|国内代理IP（>>>点击注册免费测试<<<）

python中国大学排名爬虫实验报告

python 爬虫的数据分析可以做什么

用python写网络爬虫第三版

爬虫遇到验证码必须要知道的解决办法（干货）

Python之简单爬取网页内容

python爬虫（一）爬取基本网页内容

天启|企业级代理IP免费测试>>>>>神龙|纯净稳定代理IP免费测试>>>>>IPIPGO|全球住宅代理IP免费测试>>>>>神龙|国外动态代理IP免费测试>>>>>LoongProxy|全球静态代理IP免费测试>>>>>全民|国内代理IP免费测试