继续分析那个爬虫程序,今天从中学习了lxml模块的基本使用。这个模块用来解析XML、HTML内容,据说速度上秒杀了”美丽的汤”。

官网: http://lxml.de/api/index.html

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
#coding=utf-8
'''
Created on 2013年11月13日
学习使用lxml
@author: dear_shen
'''
from lxml import etree
if __name__ == '__main__':
broken_str = '''
<!DOCTYPE html>
<html>
<meta charset="utf-8" />
<title>i'm title</title>
</head>
<body>
<div style="text-align: center">
<b>is a test

</body>
</html>
'''
html = etree.HTML(broken_str)
result = etree.tostring(html,pretty_print = True,method="html") #变成str
print type(result)
print result
div = html.xpath("//div") #从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
print type(div),len(div)
print type(div[0]) #div是一个包含所有div的列表,由于html代码比较简单我就直接访问了,真正抓取时候用for循环处理
print div[0].attrib.get("style","no this attribute")#取得style属性
b = html.xpath("//b")#取得为b的节点
print b[0].text#打印b节点内容

结果如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
<type 'str'>
<html>
<head>
<meta charset="utf-8">
<title>i'm title</title>
</head>
<body>
<div style="text-align: center">
<b>is a test
</b>

</body>
</html>
<type 'list'> 1
<type 'lxml.etree._Element'>
text-align: center
is a test

可以看出,自动修复了不规则的html代码并且获得了我们想要的数据。

http://lxml.de/api/lxml.html.clean.Cleaner-class.html

这个清理,默认会把page_structure=True,清理掉html、title等,所以使用时候要注意。

make_links_absolute(self, base_url=None, resolve_base_href=True)这个也很有用,提供一个base_url,将页面中所有url都转化为绝对(加上base_url)路径

至于div = html.xpath(“//div”)为什么用//,这个和xpath有关,下面列出了最有用的路径表达式:

表达式描述
nodename选取此节点的所有子节点。
/从根节点选取。
//从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
.选取当前节点。
..选取当前节点的父节点。
@选取属性。

在下面的表格中,我们已列出了一些路径表达式以及表达式的结果:

路径表达式结果
bookstore选取 bookstore 元素的所有子节点。
/bookstore选取根元素 bookstore。注释:假如路径起始于正斜杠( / ),则此路径始终代表到某元素的绝对路径!
bookstore/book选取属于 bookstore 的子元素的所有 book 元素。
//book选取所有 book 子元素,而不管它们在文档中的位置。
bookstore//book选择属于 bookstore 元素的后代的所有 book 元素,而不管它们位于 bookstore 之下的什么位置。
//@lang选取名为 lang 的所有属性。