python lxml模块

继续分析那个爬虫程序,今天从中学习了lxml模块的基本使用。这个模块用来解析XML、HTML内容,据说速度上秒杀了"美丽的汤"。

官网: http://lxml.de/api/index.html

#coding=utf-8
'''
Created on 2013年11月13日
学习使用lxml
@author: dear_shen
'''
from lxml import etree
if __name__ == '__main__':
    broken_str = '''
                    <!DOCTYPE html>
                    <html>
                    <meta charset="utf-8" />
                    <title>i'm title</title>
                    </head>
                    <body>
                    <div style="text-align: center">
                    <b>is a test

                    </body>
                    </html>
                                  '''
    html = etree.HTML(broken_str)
    result = etree.tostring(html,pretty_print = True,method="html") #变成str
    print type(result)
    print result
    div = html.xpath("//div")  #从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
    print type(div),len(div)
    print type(div[0])   #div是一个包含所有div的列表,由于html代码比较简单我就直接访问了,真正抓取时候用for循环处理
    print div[0].attrib.get("style","no this attribute")#取得style属性
    b = html.xpath("//b")#取得为b的节点
    print b[0].text#打印b节点内容

结果如下:

<type 'str'>
<html>
                    <head>
<meta charset="utf-8">
                    <title>i'm title</title>
                    </head>
                    <body>
                    <div style="text-align: center">
                    <b>is a test
                    </b>

                    </body>
                    </html>
<type 'list'> 1
<type 'lxml.etree._Element'>
text-align: center
is a test

可以看出,自动修复了不规则的html代码并且获得了我们想要的数据。

http://lxml.de/api/lxml.html.clean.Cleaner-class.html

这个清理,默认会把page_structure=True,清理掉html、title等,所以使用时候要注意。

make_links_absolute(self, base_url=None, resolve_base_href=True)这个也很有用,提供一个base_url,将页面中所有url都转化为绝对(加上base_url)路径

至于div = html.xpath("//div")为什么用//,这个和xpath有关,下面列出了最有用的路径表达式:

表达式 描述
nodename 选取此节点的所有子节点。
/ 从根节点选取。
// 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。
. 选取当前节点。
.. 选取当前节点的父节点。
@ 选取属性。

在下面的表格中,我们已列出了一些路径表达式以及表达式的结果:

路径表达式 结果
bookstore 选取 bookstore 元素的所有子节点。
/bookstore 选取根元素 bookstore。注释:假如路径起始于正斜杠( / ),则此路径始终代表到某元素的绝对路径!
bookstore/book 选取属于 bookstore 的子元素的所有 book 元素。
//book 选取所有 book 子元素,而不管它们在文档中的位置。
bookstore//book 选择属于 bookstore 元素的后代的所有 book 元素,而不管它们位于 bookstore 之下的什么位置。
//@lang 选取名为 lang 的所有属性。