前端简单爬数据

628次阅读

只要说到爬虫，大家的第一印象应该是python爬虫吧，确实用python写爬虫是现在的主流，而且市面上关于python爬虫的教学也挺多的，但是我的标题是用前端的方法去爬数据，当然不会给你讲python爬虫了@_@.
爬虫的一般过程就是把网站中的html页面下载下来,然后再用选择器去选择你想要的标签,比如说选择一个img标签,然后再选择他的src属性,就跨域爬取一张图片的地址,前端开发人员一看,是不是觉得相当的熟悉?这不就是

var el = document.querySelectorAll(); var el = document.querySelector(); el.getAttribute("src")

这3个东西吗?对,就只需要前端JavaScript的简单dom操作,加上chrome浏览器以及vs code ,就可以爬数据了,如果有node.js基础,会mongodb的使用就更好了.

下面就以爬取淘宝图片为案例来说明

1.用chrome浏览器打开淘宝,

前端简单爬数据

2,按F12–>选择审查元素的按钮—>然后选择你要爬取的元素,懂前端的应该都知道这个吧,然后就会跳转到该元素所对应的标签代码中
前端简单爬数据

前端简单爬数据

3,右击该元素标签,就会跳出应该框框,选择cory中的copy js path选项,

4,这时可以打开我们的vs code当然其他的编辑器也可以,只要你喜欢,用记事本也没问题;新建一个js文件,将刚刚copy的黏贴进去,再改一下选择器中的代码,将querySelector改成querySelectorAll然后将选择的内容赋值给一个变量,叫pics,然后再将这个代码赋值,黏贴会chrome中的console中回车
前端简单爬数据

5,回到chrome中的console中黏贴回车,这个时候pics里面就有很多个img标签对象了,
前端简单爬数据
6,接下来就简单了,直接for循环输出每一个img标签的src属性不就行了吗?,回到vs code然后编写循环输出的代码,这部分代码只要有JavaScript的基础应该就可以看懂的,不过有的时候log没有用,就用info也一样的,写完代码再回浏览器里粘贴输出就行了.
前端简单爬数据
7,回浏览器的console黏贴回车,就可以看到想要的图片url了,然后选择复制全部的url,就可以了

8,处理我们的数据,这个时候vscode的ctrl+D快捷键的用处就体现出来了(插一嘴,vscode的CTRL+D快捷键的功能是选择全部相同的代码,然后按ctrl+D会出现很多个光标,可以对相同的内容进行批量处理),观察发现有很多我们不用的数据比如说 VM702:2 这种,我们可以把他删了,然后给每一个url标签加上双引号,最后加上逗号,作为一个数组赋值给一个变量,就可以了,
前端简单爬数据
9,最后一步,如果我们要爬起的是有多个数据,比如说我们要爬淘宝商品的图片,价格,销量,店铺,商家信息等组合成一个对象数组,可以用上面方法分别爬取,如何再用一个循环组装成一个对象数组.