爬虫学习心得一

967次阅读

没有评论

1.获取网页源代码（requests方法、selium方法）

2.解析网页源代码，并从中提取所需要的信息：正则表达式findall函数

3.将提取到的数据存到文件或者数据库中

4.程序的异常处理、不间断运行以及爬取间隔的设置

正则表达式匹配规则的代码应该从pycharm爬取到的代码中复制，直接从网页复制的会爬取不到

re_url = '<a id=".*?" target="_blank" cacheStrategy="qcr:-1" href="(.*?)">' re_url = '<a id=".*?" target="_blank" cachestrategy=""qcr:-1"" href="(.*？)">'

直接在网页复制源代码得来的代码,与pycharm中的代码还是有区别

2.Python中路径的写法

书写文件路径时，通常写两个反斜杠‘\’，因为Python中一个反斜杠有特殊的意义：如n表示换行符。

Python中路径书写方法1：E:\文件夹1:\文件名.文件格式。例如：

file1 = open('E:\文件夹1\test1.txt','a')#a表示文本打开方式为追加

在文件路径的字符串前加一个‘r’

Python中路径书写方法2：

file1 = open(r'D:文件夹1test1.txt','a')#a表示文本打开方式为追加

3.异常处理

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-24

# Python爬虫

复制链接

赏

爬虫学习心得一

爬取任务工作流程：

1.正则表达式

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置