Python爬取网页数据基本步骤

394次阅读
没有评论
Python爬取网页数据基本步骤

Python爬取网页数据基本步骤:

  • from urllib import request
    response = request.urlopen(‘完整的网址’)

  • import requests
    import chardet
    url = ‘完整的网址’
    response = requests.get(url)
    response.encoding = chardet.detect(response.content)[‘encoding’]
    # 文本
    html = response.text

  • selenium (动态加载的 网页,就用这个)
    from selenium import webdriver

  • scrapy 框架

  • —– 提取 内容 ——
    一般通过 浏览的控制台,先找 统一结构。然后找父元素
    1. 正则表达式
    2. beautifulsoup
    3. selenium的相关方法
    4. xpath

    —– 存储 内容 ——-
    1. txt
    2. csv
    3. excel
    4. mongodb
    5. mysql

    神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

    相关文章:

    版权声明:Python教程2022-10-27发表,共计395字。
    新手QQ群:570568346,欢迎进群讨论 Python51学习