python lxml模块

Roy

2013-11-13

继续分析那个爬虫程序，今天从中学习了lxml模块的基本使用。这个模块用来解析XML、HTML内容，据说速度上秒杀了"美丽的汤”。

#coding=utf-8

'''
Created on 2013年11月13日
学习使用lxml
@author: dear_shen
'''
from lxml import etree
if __name__ == '__main__':
    broken_str = '''
                    <!DOCTYPE html>
                    <html>
                    <meta charset="utf-8" />
                    <title>i'm title</title>
                    </head>
                    <body>
                    <div style="text-align: center">
                    <b>is a test

                    </body>
                    </html>
                                  '''
    html = etree.HTML(broken_str)
    result = etree.tostring(html,pretty_print = True,method="html") #变成str

    print type(result)
    print result
    div = html.xpath("//div")  #从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。

    print type(div),len(div)
    print type(div[0])   #div是一个包含所有div的列表，由于html代码比较简单我就直接访问了，真正抓取时候用for循环处理

    print div[0].attrib.get("style","no this attribute")#取得style属性

    b = html.xpath("//b")#取得为b的节点

    print b[0].text#打印b节点内容

结果如下：

<type 'str'>
<html>
                    <head>
<meta charset="utf-8">
                    <title>i'm title</title>
                    </head>
                    <body>
                    <div style="text-align: center">
                    <b>is a test
                    </b>

                    </body>
                    </html>
<type 'list'> 1
<type 'lxml.etree._Element'>
text-align: center
is a test

可以看出，自动修复了不规则的html代码并且获得了我们想要的数据。

http://lxml.de/api/lxml.html.clean.Cleaner-class.html

这个清理，默认会把page_structure=True，清理掉html、title等，所以使用时候要注意。

make_links_absolute(self, base_url=None, resolve_base_href=True)这个也很有用，提供一个base_url，将页面中所有url都转化为绝对(加上base_url)路径

至于div = html.xpath("//div”)为什么用//，这个和xpath有关，下面列出了最有用的路径表达式：

表达式	描述
nodename	选取此节点的所有子节点。
/	从根节点选取。
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。
.	选取当前节点。
..	选取当前节点的父节点。
@	选取属性。

在下面的表格中，我们已列出了一些路径表达式以及表达式的结果：

路径表达式	结果
bookstore	选取 bookstore 元素的所有子节点。
/bookstore	选取根元素 bookstore。注释：假如路径起始于正斜杠( / )，则此路径始终代表到某元素的绝对路径！
bookstore/book	选取属于 bookstore 的子元素的所有 book 元素。
//book	选取所有 book 子元素，而不管它们在文档中的位置。
bookstore//book	选择属于 bookstore 元素的后代的所有 book 元素，而不管它们位于 bookstore 之下的什么位置。
//@lang	选取名为 lang 的所有属性。