Python + Selenium 入门爬虫——环境介绍及搭建

372次阅读
没有评论

    为何突然间要写博客呢?答:为了完成期末Python作业,被逼的。哈哈哈哈!博客之旅从此开始

1.1 为什么要学爬虫

    举个例子:有一天你老板叫你去股市找出哪些股票会涨,what???  我要是能够预测,我tm……

    作为员工,我们唯一的办法就是服从,可能这就是变相炒鱿鱼的理由吧,哈哈哈哈!

    废话不多说,开始我们的搜索,首先打开选股宝网站(不是广告,捂脸)https://xuangubao.cn/

    

 看到下面这样一条新闻,估计过几天曲美家居股票就会上涨,把曲美家居收藏一波

        Python

   

        往下拉又发现科大讯飞好像也不错,又保存起来

Python

     聪明的你肯定会往下拉,然后ctrl+c  ctrl+v,50个?100个?发现很麻烦,想找个替代品来代替自己的工作,爬虫就来了

  

    以下是爬虫的基本流程图

    模拟浏览器发送请求(获取网页代码)->提取有用的数据->存放于数据库或文件中

Python

    爬虫会模仿你的行为(只要你给它一些规则),然后将需要的信息保存起来,惊不惊喜,意不意外。

    接下来我们开始学习怎么爬虫,羡慕一个人成功的同时,往往会想知道他是怎么成功的

1.2 选择Python+Selenium

第一步:安装selenium

    强烈推荐默认安装python,可以免去后期百度“指定路径安装第三方库”

    命令行输入

pip install selenium

    Python

    

第二步:安装浏览器插件

selenium支持多种浏览器模拟,此处我们采用火狐浏览器,只因它快,开源

首先安装火狐浏览器,也是默认安装在C盘

插件地址:https://github.com/mozilla/geckodriver/releases

下载好这个exe文件后,把这个文件放到你的python安装目录下,例如:C:\Python36\geckdriver.exe。


1.3 开始我们的爬虫之旅

用Notepad++打开一个空白文件,输入如下代码,保存为first.py

from selenium import webdriver # 导入webdriver包

driver = webdriver.Firefox() # 初始化一个火狐浏览器实例:driver

driver.maximize_window() # 最大化浏览器

driver.get("https://xuangubao.cn/") # 通过get()方法,打开一个指定网站

driver.quit() #关闭并退出浏览器

打开cmd窗口,cd到first.py所在的路径,在cmd中输入命令: python first.py回车,可以看看是否打开火狐,打开网站,关闭火狐的效果


其他像IE、谷歌浏览器也一样

谷歌插件:https://sites.google.com/a/chromium.org/chromedriver/downloads

IE插件:https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/

什么?你电脑都没有安装python啊,怎么办呀,无疑得先学一学python的基本操作,砍树总不能没有工具吧

Python 入门资料:

1、 深入python3(强烈推荐)

可以下载HTML 或是 PDF 版本

溜了溜了,赶紧回宿舍吃粽子,溜了溜了!!!

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

相关文章:

版权声明:Python教程2022-10-28发表,共计1374字。
新手QQ群:570568346,欢迎进群讨论 Python51学习