网络爬虫初步：从访问网页到数据解析

848次阅读

没有评论

网络爬虫这个东西看上去还是很神奇的。不过，如果你细想，或是有所研究就知道，其实爬虫并不那么高深。高深的是在我们的数据量很大的时候，就是当我们网络“图”的回环越来越多的时候，应该怎么去解决它。

本篇文章在这里只是起一个抛砖引玉的作用。本文主要是讲解了如何使用Java/Python访问网页并获得网页代码、Python模仿浏览器进行访问网页和使用Python进行数据解析。希望我们以本文开始，一步一步解开网络蜘蛛神秘的一面。

1.《自己动手写网络爬虫》

2.用python 写爬虫，去爬csdn的内容,完美解决 403 Forbidden

网络爬虫初步：从访问网页到数据解析

内容有点多，我只选取了一部分进行展示。

系统： Windows 7

CentOS 6.5

运行环境: JDK 1.7

Python 2.6.6

IDE: Eclipse Release 4.2.0

PyCharm 4.5.1

数据库: MySQL Ver 14.14 Distrib 5.1.73

对于页面抓取我们采用Java来实现，当然你可以使用其他的语言来开发。不过

下面以“博客园”的首页为例，展示一下使用Java进行网页页面抓取的过程：

public class RetrivePageSimple {

private static HttpClient httpClient = new HttpClient();

// 设置代理服务器 static { httpClient.getHostConfiguration().setProxy("58.220.2.132", 80); }

public static boolean downloadPage(String path) throws HttpException, IOException { PostMethod postMethod = new PostMethod(path);

// 执行，返回状态码 int statusCode = httpClient.executeMethod(postMethod); System.out.println(statusCode);

// 针对状态码进行处理 (简单起见，只处理返回值为200的状态码) if (statusCode == HttpStatus.SC_OK) {

String a = postMethod.getResponseBodyAsString(); System.out.println(a);

return true; }

return false; }

public static void main(String[] args) { try { RetrivePageSimple.downloadPage("http://www.cnblogs.com/"); } catch (HttpException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } } }
结果信息在这里就不再展示，太多了。。。- -!

可能你会问我，为什么上面写了使用Java版的页面抓取，这里又要写一个Python？这是有必要的。因为笔者在开发这个demo之前没有考虑一个问题。我们使用Java抓取了一个网页给Python的时候，这个网页字符串过长，无法作为参数传递。可能你会觉得保存文件是一个不错的选择，那html文件太多又要怎么办呢？是的，这里我们不得不舍弃这种让人心累的做法。

考虑到是因为参数长度的限制，这里我们在Java端只给出页面地址，抓取网页使用Python来进行。

按照最简单的方式，通常我们会像这样来使用Python网页：

import urllib2 result = urllib2.urlopen('http://blog.csdn.net/mobile/index.html') html = result.read()

print html
可是，笔者代码中使用的是CSDN的博客频道的url，CSDN对来自爬虫的访问进行一层过滤，如下我们会得到如下错误信息：

网络爬虫初步：从访问网页到数据解析

403，我被拒绝了。

前面说到我们去访问带有保护措施的网页时，会被拒绝。不过我们可以尝试使用自己的浏览器来访问它，是可以访问的。

也就是说如果我们可以在Python中去模仿自己是浏览器就可以对这个网页进行访问了。下面是Python模仿浏览器的代码：

import random import socket import urllib2 import cookielib

ERROR = { '0':'Can not open the url,checck you net', '1':'Creat download dir error', '2':'The image links is empty', '3':'Download faild', '4':'Build soup error,the html is empty', '5':'Can not save the image to your disk', }

class BrowserBase(object):

def __init__(self): socket.setdefaulttimeout(20) self._content = None

def speak(self, name, content): print '[%s]%s' % (name, content)

def open_url(self, url): """ 打开网页 """ cookie_support= urllib2.HTTPCookieProcessor(cookielib.CookieJar()) self.opener = urllib2.build_opener(cookie_support,urllib2.HTTPHandler) urllib2.install_opener(self.opener) user_agents = [ 'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11', 'Opera/9.25 (Windows NT 5.1; U; en)', 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)', 'Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Kubuntu)', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.0.12) Gecko/20070731 Ubuntu/dapper-security Firefox/1.5.0.12', 'Lynx/2.8.5rel.1 libwww-FM/2.14 SSL-MM/1.4.1 GNUTLS/1.2.9', "Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.7 (KHTML, like Gecko) Ubuntu/11.04 Chromium/16.0.912.77 Chrome/16.0.912.77 Safari/535.7", "Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:10.0) Gecko/20100101 Firefox/10.0 ", ]

agent = random.choice(user_agents) self.opener.addheaders = [("User-agent", agent), ("Accept", "*/*"), ('Referer', 'http://www.google.com')]

try: res = self.opener.open(url) self._content = res.read() # print self._content except Exception, e: self.speak(str(e)+url) raise Exception else: return res

def get_html_content(self): return self._content

def get_html_response(html): spider = BrowserBase() spider.open_url(html) return spider.get_html_content()

上面的代码是可以正常得到返回值的。如下就来看看对返回的结果的解析过程吧。

使用Python来进行Html的解析工作，是异常的简单：

import HTMLParser

class ListWebParser(HTMLParser.HTMLParser): def __init__(self): HTMLParser.HTMLParser.__init__(self) self.tagDIVFlag = False self.tagDIVAFlag = False self.tagH1Flag = False self.tagSecondHrefFlag = False

self._name = None self._address = None

def handle_starttag(self, tag, attrs): if tag == 'div': for name, value in attrs: if name == 'class' and value == 'blog_list': self.tagDIVFlag = True

if tag == 'h1': if self.tagDIVFlag: self.tagH1Flag = True # print 'h1->', self.tagH1Flag

if tag == 'a': #if self.tagDIVAFlag: #print 'h1: ', self.tagH1Flag if self.tagH1Flag: for name, value in attrs: if name == 'target' and value == '_blank': self.tagDIVAFlag = True

if name == 'href': if self.tagSecondHrefFlag: print '网址：', value self._address = value self.tagSecondHrefFlag = True

# if name == 'href' and self.tagDIVAFlag: # print '网址：', value # self._address = value

def handle_endtag(self, tag): if tag == 'div': self.tagDIVFlag = False

if tag == 'h1': self.tagH1Flag = False # print 'false h1.'

if tag == 'a': self.tagDIVAFlag = False

def handle_data(self, data): if self.tagDIVAFlag: print u"名称：", data.decode("utf-8")
如果你说你在网上查找到的Html文件没有这个麻烦。这个我是承认的，因为正常情况下，我们解析一些简单数据的确很简单。上面代码中的复杂逻辑是在处理筛选。

说到筛选，这里我用到一个小技巧（当然，当用的人多了，这就不再只是技巧。不过这种方法可以在以后的编码过程中有所借鉴）。我们通过一些tag的特殊属性（如：id, class等）来锁定块。当我们开始块的时候，我们相应的标志位会被打成True，当我们退出块的时候，我们相应标志位会被打成False。可能你觉得这太麻烦。其实，你仔细想想就会知道，这是有道理的。

1.在使用Java进行页面抓取的时候，我们用到了代理服务器。这个代理服务器的host和port是可以直接在网上查到免费的。

2.你需要准备以下jar包，并导入到你的Eclipse工程中：

网络爬虫初步：从访问网页到数据解析

3.修改MySQL的默认编码为UTF-8

这里因为会有一些中文信息，所以我们需要对MySQL进行编码格式的转换。

如果你是在Linux下编码，那么你可以参考：http://blog.csdn.net/lemon_tree12138/article/details/46375637

神龙|纯净稳定代理IP免费测试>>>>>>>>天启|企业级代理IP免费测试>>>>>>>>IPIPGO|全球住宅代理IP免费测试

发表于：Python爬虫

2022-10-27

# Python爬虫

复制链接

赏

网络爬虫初步：从访问网页到数据解析

前言：

参考：

运行效果图：

笔者环境：

开发过程：

1.使用Java抓取页面

2.使用Python抓取页面

3.使用模仿浏览器登录网站

4.数据解析

注意事项：

相关文章：

HTTP代理设置详解：一步步配置指南

什么是Socks5代理IP及其优势

Socks5代理配置教程及注意事项

什么是代理服务器IP：如何选择合适的

国外代理服务器的优势及选择建议

如何找到可靠的免费代理服务器

在线代理服务器的使用与推荐

HTTP代理服务器的设置及应用实例

静态代理IP怎么填写：步骤与示例

海外静态IP的代理选择与配置