什么是爬虫?有哪些用途

497次阅读
没有评论
什么是爬虫?有哪些用途
  • 数据的来源:
    • 去第三方的公司购买数据(比如企查查)
    • 去免费的数据网站下载数据(比如国家统计局)
    • 通过爬虫爬取数据
    • 人工收集数据(比如问卷调查)
  • 爬虫的概念: 模拟浏览器发送网络请求,接收请求响应
  • 爬虫的用途:   12306抢票,网络投票等
  • 爬虫的分类:    分为通用爬虫(搜索引擎聚焦爬虫(12306抢票) 、增量式网络爬虫(Incremental Web Crawler)和深层网络爬虫
  • 爬虫获取的数据的用途:
    • 进行在网页或者是app上进行展示
    • 进行数据分析或者是机器学习相关的项目
  •             6. 爬虫的流程:

                           向起始url发送请求,并获取响应

                          对响应进行提取

                           如果提取url,则继续发送请求获取响应

                           如果提取数据,则将数据进行保存

                7. Robots协议:网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取,但它仅仅是互联网中的一般约定     如: http://www.taobao.com/robots.txt

                8. 

    神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

    相关文章:

    版权声明:Python教程2022-10-24发表,共计518字。
    新手QQ群:570568346,欢迎进群讨论 Python51学习