python之网络爬虫篇

732次阅读

背景：

几乎每一个网站都有一个名为robots.txt的文档，例如www.taobao.com/robots.txt，用于判断是否禁止访客获取数据。可以直接在IE或chrome输入https://www.***.***/robots.txt，即可查看其内容。

一般的网页由三部分组成：HTML（相当于人体的骨架），CSS（层叠样式表，定义了网页元素的颜色、样式等），Jscript（脚本语言，表示人的技能，实现与客户交互）

网络爬虫原理：通过requests库的get/post方式，来获取网页内容。

操作：

（1）在pycharm中安装requests包：File->setting->project interpreter->+，安装requests包

(2) get方法如下：

import requests

url = 'http://www.***.com/'

html = requests.get(url)

print(html.text)

（3）如果用的post方法，因为其返回的往往是动态数据(数据返回格式是jason)，需要传递一定的参数（如登录名或查询关键字等），因此需要先用浏览器的“开发者模式”（IE用快捷键F12），查看URL及request methods.

import requests import json response = requests.post(url, data=payload) content = json.loads(reponse.text) print(content)

对于json格式数据，可以用beautiful soup库进行分析。json数据格式类似于字典，是由key和data组成的数据对。

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-24

复制链接

赏

HTTP代理设置详解：一步步配置指南