爬虫学习心得一

333次阅读
没有评论
爬虫学习心得一

爬取任务工作流程:

1.获取网页源代码(requests方法、selium方法)

2.解析网页源代码,并从中提取所需要的信息:正则表达式findall函数

3.将提取到的数据存到文件或者数据库中

4.程序的异常处理、不间断运行以及爬取间隔的设置

1.正则表达式

正则表达式匹配规则的代码应该从pycharm爬取到的代码中复制,直接从网页复制的会爬取不到

re_url = '<a id=".*?" target="_blank" cacheStrategy=&quot;qcr:-1&quot; href="(.*?)">' re_url = '<a id=".*?" target="_blank" cachestrategy="&quot;qcr:-1&quot;" href="(.*?)">'

直接在网页复制源代码得来的代码,与pycharm中的代码还是有区别

2.Python中路径的写法

书写文件路径时,通常写两个反斜杠‘\’,因为Python中一个反斜杠有特殊的意义:如n表示换行符。

Python中路径书写方法1:E:\文件夹1:\文件名.文件格式。例如:

file1 = open('E:\文件夹1\test1.txt','a')#a表示文本打开方式为追加

在文件路径的字符串前加一个‘r’

Python中路径书写方法2:

file1 = open(r'D:文件夹1test1.txt','a')#a表示文本打开方式为追加

3.异常处理

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

相关文章:

版权声明:Python教程2022-10-24发表,共计654字。
新手QQ群:570568346,欢迎进群讨论 Python51学习