python爬虫中html转换树形结构

1,661次阅读

python爬虫中html转换树形结构

经过一段时间的python学习，我们知道提取数据的来源不止是网页，就像抓取数据可以选择很多种库一样。在python中，BeautifulSoup和HTMLParser虽然看起来不相似，但在使用上是比较相像的。今天就html转换树形结构，小伙伴们可以尝试着用此类方法去解决，其中涉及到的新知识点我们都会额外为大家进行讲解。

BeautifulSoup就是一个专门用来从html和xml文档中提取数据的库，现在的版本是bs4。除了BeautifulSoup之外，python还具有一些其它的库，如HTMLParser等，作用都差不多。解析器结合正则表达式，很容易将我们所需要的内容提取出来。

首先安装BeautifulSoup：

$pip install beautifulsoup4

在python环境下导入字符串，创建BeautifulSoup对象：

from bs4 import BeautifulSoup
soup = BeautifulSoup(html_str, 'lxml', from_encoding='utf-8')

BeautifulSoup可以将复杂的html文档转化成树形结构，每个节点都是pyhton对象，所有的对象可以归纳为4种：
Tag
NavigableString
BeautifulSoup
Comment

HtmlParser将要接收一个字符串，输出data和新采集到的一些urls。之前写过的add_new_urls()函数接受一个可迭代对象，所以这里新的urls我们采用集合的形式（也可采用列表的形式）返回，data采用字典的形式存储并返回。

此外，我们观察到，词条内容中含有的链接为”/item/…”的形式，这并不是一个完整的url，要在前面加上“https://baike.baidu.com”进行补全，利用urlparse模块可以很方便地完成这个任务（当然也可以使用拼接字符串的方式）。

下面就是HtmlParser的完整代码：

'''
-----------------------------------------------------------------
HtmlParser
'''
import re    #正则表达式模块
import urlparse    #用来拼接url
from bs4 import BeautifulSoup
 
class HtmlParser(object):
    def parser(self, page_url, html_cont):
        '''
        解析器主函数
        parm page_url:一个url
        parm html_cont:网页内容，格式为字符串
        return: urls, 数据；格式为 set, dict
        '''
        if page_url is None or html_cont is None:
            print "page_url is None"
            return
        #建立bs对象，使用html.parser进行解析
        soup = BeautifulSoup(html_cont, 'html.parser', from_encoding='urf-8')
        print "soup established"
        #接下来分别调用两个私有函数返回urls和data
        new_urls = self._get_new_urls(page_url, soup)
        print "new_urls get"
        new_data = self._get_new_data(page_url, soup)
        print "new_data get"
        return new_urls, new_data
 
    def _get_new_urls(self, page_url, soup):
        '''
        从页面中抽取指向其他词条的链接
        parm page_url: 当前页面url
        parm soup: beautifulsoup对象
        return: 新url的set
        '''
        new_urls = set()
        #根据正则表达式规则对页面内的链接进行筛选，留下想要的链接
        links = soup.find_all('a', href=re.compile(r'/item/.+'))
        for link in links:
            #每个link都是Tag对象，Tag对象的操作方法与字典相同
            new_url = link['href']
            #借助urljoin，可以很方便地拼接url
            new_full_url = urlparse.urljoin(page_url, new_url)
            new_urls.add(new_full_url)
        return new_urls
 
    def _get_new_data(self, page_url, soup):
        '''
        提取想要的数据
        parm page_url: 当前页面url
        parm soup: beautifulsoup对象
        return: dict
        '''
        #声明字典
        data = {}
        data['url'] = page_url
        data['title'] = soup.find('dd', class_='lemmaWgt-lemmaTitle-title').find('h1').get_text()
        data['summary'] = soup.find('div', class_='lemma-summary').get_text()
 
        return data

相信经过本篇的学习，小伙伴们已经掌握了BeautifulSoup和HtmlParser的使用，毕竟二者相似的地方很多，在html转换树形结构的问题上也能够很好的处理。

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2021-05-21

复制链接

赏

python爬虫中html转换树形结构

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置