Python爬虫之页面解析和数据处理

883次阅读
没有评论

Python爬虫之页面解析和数据处理

页面解析和数据处理

爬虫一共就四个主要步骤:

1.明确目标 (要知道你准备在哪个范围或者网站去搜索)

2.爬 (将所有的网站的内容全部爬下来)

3.取 (去掉对我们没用处的数据)

4.处理数据(按照我们想要的方式存储和使用)

一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值。内容一般分为两部分,非结构化数据和结构化数据。

非结构化数据:先有数据,再有结构。

结构化数据:先有结构,再有数据。

1.非结构化的数据处理

1.文本、电话号码、邮箱地址  
    -->正则表达式
2.HTML文件   
     -->正则表达式,XPath,CSS选择器

2.结构化的数据处理

1.JSON文件 
    -->JSON Path
    -->转化成python类型进行操作
2.XML文件
    -->转化成python类型(xmltodict)
    -->XPath
    -->CSS选择器
    -->正则表达式

相关推荐:

Python爬虫正则表达式如何使用

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

相关文章:

版权声明:wuyou2019-12-29发表,共计426字。
新手QQ群:570568346,欢迎进群讨论 Python51学习
评论(没有评论)