Python爬虫BeautifulSoup库中常见对象有哪些

1,019次阅读

Python爬虫在运用requests库爬取网页内容时，要是需要进一步解析HTML页面格式，应调用python爬虫另一个BeautifulSoup库。BeautifulSoup库有四个常见对象，为1、HTML中的一个个标签的Tag；2、用来包装tag中的字符串的NavigableString；3、表示的是一个文档的全部内容BeautifulSoup；4、用于操作文档的注释部分Comment。本文向大家介绍。

1、Tag：

Tag通俗点讲就是HTML中的一个个标签。

# 获取title标签的所有内容 print(bs.title)

2、NavigableString：用来包装tag中的字符串

如果拿到标签后，还想获取标签中的内容。那么可以通过tag.string获取标签中的文字。

print(bs.title.string)
 
print(type(bs.title.string))

3、BeautifulSoup：

表示的是一个文档的全部内容，包含了一个值为’[document]’的属性大部分时间可以把它当做Tag对象，它支持遍历文档树和搜索文档树中描述的大部分方法。

soup.name
# '[document]'

4、Comment：

用于操作文档的注释部分，是一个特殊类型的 NavigableString 对象。

comment
# 'Hey, buddy. Want to buy a used parser'

以上就是python爬虫BeautifulSoup库有四个常见对象，需要注意的是Tag查找方式是所有内容中的第一个符合要求的标签哦。

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2021-07-18

复制链接

赏

Python爬虫BeautifulSoup库中常见对象有哪些

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置