爬取多个页面的数据

711次阅读

代码如下：

# -*- coding:utf8 -*- #导入requests库，取别名res import requests as res #导入bs4包，取别名bs from bs4 import BeautifulSoup as bs #导入数据库驱动包 import MySQLdb #声明页面从哪开始 j = 1 #循环遍历每个页面 while j <= 111: ##获取目标网站的网页 #r代表将“”内的所有内容都默认为字符串 path = r”http://www.bengyechina.com/product/enterprise_alllist_0_0_0_” + str(j) + “.html” #请求获取目标网页的html doc = res.get(path) #准备要爬取数据的列表 names = [] imgs = [] #需要bs解析器去解析网页 text = bs(doc.text,”html.parser”) #从网页中查询类标签名为plist的下标为0的所有内容 p1 = text.select(“.plist”)[0] #从类标签名为plist的下标为0的html中查询标签为li的内容中的img中所有内容 img = text.select(“li img”) #声明变量作为下标，并初始化 i = 0 #—————爬取数据结束————— #—————数据写入数据库—————- #连接mysql数据库中的pachong数据库 #connect(“主机名”,”用户

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-25

# Python爬虫

复制链接

赏

爬取多个页面的数据

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置