爬虫入门需要掌握哪些库

1,336次阅读

爬虫入门需要掌握哪些库

很多工具都是为了方便使用而生，就像人们觉得走路太慢就产生了汽车，觉得渡过河流很难就造了轮船。最根本的还是为了使用出行而服务。我们现在所学的python爬虫，最开始也只有一个小的模块，因为不断地开发使用，也在不断地更新中变多。为了使用的方便，产生了一些类似库的工具，接下来我们看看有哪些吧。

请求库：

1. requests 这个库是爬虫最常用的一个库

2. Selenium Selenium 是一个自动化测试工具，利用它我们可以驱动浏览器执行特定的动作，如点击、下拉等操作对于一些用JS做谊染的页面来说，这种抓取方式是非常有效的。

3.ChomeDrive 安装了这个库，才能驱动Chrome浏览器完成相应的操作

4.GeckoDriver 使用W3C WebDriver兼容客户端与基于Gecko的浏览器进行交互的代理。

5.PhantomJS PhantomJS 是一个无界面、可脚本编程的 WebKit 浏览器引擎，它原生支持多种Web标准：Dom操作，css选择器，json，Canvas以及SVG。

6.aiohttp 之前接收requests库是一个阻塞式HTTP请求库，当我们发送一个请求后。程序会一直等待服务器响应，直到服务器响应后，程序才会最下一步处理。其实，这个过程比较耗时间。如果程序可以在等待的过程中做一些其他的事情，如进行请求的调度，响应的处理等，那么爬虫的效率就会比之前的那种方式有很大的提升。而aiohttp就是这样一个提供异步web服务的库。使用说这个库用起来还是相当方便的。

解析库：

1.lxml lxml是python的一个解析库，这个库支持HTML和xml的解析，支持XPath的解析方式，而且效率也是非常高的，深受广大程序员的热爱

2.Beautiful Soup Beautiful Soup也是python里一个HTML或XMl的解析库，它可以很方便的懂网页中提取数据，拥有强大的API和多种解析方式。

3.pyquery 同样是一个强大的网页解析工具，它提供了和 jQuery 类似的语法来解析HTML 文梢，

数据库：

1.mysql 数据库

2.MongoDB Mo goDB 是由＋＋语言编写的非关系型数据库，是一个基于分布式文件存储的开源数据库系统内容存储形式类似 JSON 对象，它的字段值可以包含其他文档、数组及文档数组，非常灵活

3.Redis 是一个基于存的高效的非关系型数据库，

存储库：

1.PyMySOL

2.PyMongo

3.redis-py

4.RedisDump

web库：

1.Flask 是一个轻量级的Web服务程序，它简单，易用，灵活

2.Tornado 是一个支持异步的Web框架，通过使用非阻塞I/O流，可以支持成千上万的开放式连接。

APP爬取相关库：

1.Charles 是一个网络抓包工具，相比 Fiddler，其功能更为强大且跨平台支持得更好。

2.mitmproxy 是一个支持HTTP和HTTPS的抓包工具，类似于Fiddler，Charles的功能，只不过它通过控制台的形式操作。

3.Android

以上的这些库目前只用了解就足够了，小伙伴们可以保存到文本，做一个下一步的使用和学习计划。

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2021-05-24

复制链接

赏

爬虫入门需要掌握哪些库

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置