搜索
您的当前位置:首页正文

Python爬虫(十四)_BeautifulSoup4 解析器

来源:哗拓教育

CSS选择器:BeautifulSoup4

和lxml一样,Beautiful Soup也是一个HTML/XML的解析器,主要的功能也是如何解析和提取HTML/XML数据。

lxml只会局部遍历,而Beautiful Soup是基于HTML DOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。
BeautifulSoup用来解析HTML比较简单,API非常人性化,支持CSS选择器、Python标准库中的HTML解析器,也支持lxml的XML解析器。
Beautiful Soup3目前已经停止开发,推荐现在的项目使用Beautiful Soup。使用pip安装即可:pip install beautifulsoup4

抓取工具 速度 使用难道 安装难度
正则 最快 困难 无(内置)
BeautifulSoup 最简单 简单
lxml 简单 一般
抓取工具 速度 使用难道 安装难度
正则 最快 困难 无(内置)
BeautifulSoup 最简单 简单
lxml 简单 一般

实例:

首先必须要导入bs4库

# 07-urllib2_beautipulsoup_prettify

from bs4 import BeautifulSoup

html = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a  class="sister" id="link1"><!-- Elsie --></a>,
<a  class="sister" id="link2">Lacie</a> and
<a  class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
"""

#创建 Beautiful Soup 对象
soup = BeautifulSoup(html)

#打开本地 HTML 文件的方式来创建对象
#soup = BeautifulSoup(open('index.html'))

#格式化输出 soup 对象的内容
print soup.prettify()

运行结果:

<html>
 <head>
  <title>
   The Dormouse's story
  </title>
 </head>
 <body>
  <p class="title" name="dromouse">
   <b>
    The Dormouse's story
   </b>
  </p>
  <p class="story">
   Once upon a time there were three little sisters; and their names were
   <a class="sister"  id="link1">
    <!-- Elsie -->
   </a>
   ,
   <a class="sister"  id="link2">
    Lacie
   </a>
   and
   <a class="sister"  id="link3">
    Tillie
   </a>
   ;
and they lived at the bottom of a well.
  </p>
  <p class="story">
   ...
  </p>
 </body>
</html>
  • 如果我们在IPython2下执行,会看到这样一段警告:


    bs4警告
  • 意思是,如果我们没有显示地指定解析器,所以默认使用这个系统的最佳可用HTML解析器("lxml")。如果你在另一个系统中运行这段代码,或者在不同的虚拟环境中,使用不同的解析器造成行为不同。
  • 但是我们可以通过soup = BeautifulSoup(html, "lxml")

四大对象种类

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可以归纳为4种:

  • Tag
  • NaviganleString
  • BeautifulSoup
  • Comment

1.Tag

Tag通俗点讲就是HTM中的一个个标签,例如:

<head><title>The Dormouse's story</title></head>
<a class="sister"  id="link1"><!-- Elsie --></a>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>

上面的titleheadap等等标签上加上里面包括的内容就是Tag,那么试着使用Beautiful Soup来获取Tags

#-*- coding:utf-8 -*-
#08-urllib2_beautifulsoup_tag.py

from bs4 import BeautifulSoup

html = """
<html><head><title>The Dormouse's story</title></head>
<body>
<p class="title" name="dromouse"><b>The Dormouse's story</b></p>
<p class="story">Once upon a time there were three little sisters; and their names were
<a  class="sister" id="link1"><!-- Elsie --></a>,
<a  class="sister" id="link2">Lacie</a> and
<a  class="sister" id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>
<p class="story">...</p>
"""

#创建Beautiful Soup对象
soup = BeautifulSoup(html)

print soup.title
#<title>The Dormouse's story</title>

print soup.a
#<a class="sister"  id="link1"><!-- Elsie --></a>

print soup.p
#<p class="title" name="dromouse"><b>The Dormouse's story</b></p>

print type(soup.p)
# <class 'bs4.element.Tag'>

我们可以利用 soup 加标签名轻松地获取这些标签的内容,这些对象的类型是bs4.element.Tag。但是注意,它查找的是在所有内容中的第一个符合要求的标签。如果要查询所有的标签,后面会进行介绍。

对于Tag,它有两个重要的属性,是name和attrs

print soup.name
#[document]  #soup对象本身比较特殊,它的name即为[document]

print soup.head.name
#head  #对于其他内部标签,输出的值便为标签本身的名称

print soup.p.attrs
#{'class':['title'], 'name':'dromouse'}
#在这里,我们把p标签的所有属性打印出来,得到的类型是一个字典

print soup.p['class']  #soup.p.get('class')
#['title']  #还可以利用get方法,传入属性的方法,二者是等价的。  

soup.a['class'] = 'newClass'
print soup.p   #可以对这些属性和内容等等进行修改
# <p class="newClass" name="dromouse"><b>The Dormouse's story</b></p>

del soup.p['class']  #还可以对这个属性进行删除
print soup.p
# <p name="dromouse"><b>The Dormouse's story</b></p>

2. NavigableString

既然我们已经得到了标签的内容,那么问题来了,我们要想获取标签内部的文字怎么办呢?很简单,用.string即可,例如

print soup.p.string
#The Dormouse's story

print type(soup.p.string)
 <class 'bs4.element.NavigableString'>

3. BeautifulSoup

BeautifulSoup对象表示的是一个文档的内容。大部门时候,可以用它当做Tag对象,是一个特殊的Tag,我们可以分别获取它的类型,名称,以及属性来感受一下。

print type(soup.name)
#<type 'unicode'>

print soup.name
#[document]

print soup.attrs #文档本身的属性为空
#{}

4. Comment

Comment对象是一个特殊类型的NavigableString对象,其输出的内容不包括注释符号。

print soup.a
# <a class="sister"  id="link1"><!-- Elsie --></a>

print soup.a.string
#Elsie

print type(soup.a.string)
# <class 

a标签里的内容实际上是注释,但是如果我们利用.string来输出它的内容时,注释符号已经去掉了。

遍历文档树

1.直接子节点:.contents .children属性

.contents

tag的.contents属性可以将tag的子节点以列表的方式输出。

print soup.head.contents
#[<title>The Dormouse's story</title>]

输出方式为列表,我们可以用列表索引来获取它的某一个元素

print soup.head.contents[0]
#<title>The Dormouse's story</title>

.children
它返回的不是一个list,不过我们可以通过遍历获取所有子节点。
我们打印输出.children看一下,可以发现他是一个list生成器对象。

print soup.head.children
#<listiterator object at 0x7f71457f5710>

for child in soup.body.children:
  print child

结果:

<p class="title" name="dromouse"><b>The Dormouse's story</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were
<a class="sister"  id="link1"><!-- Elsie --></a>,
<a class="sister"  id="link2">Lacie</a> and
<a class="sister"  id="link3">Tillie</a>;
and they lived at the bottom of a well.</p>

<p class="story">...</p>

2. 所有子孙节点:.descendants属性

.contents和.children属性仅包含tag的直接子节点,.descendants属性可以对所有tag的子孙节点进行递归循环,和.children类似,我们也需要遍历获取其中的内容。

for child in soup.descendants:
  print child

3. 节点内容:.string属性

如果tag只有一个NavigableString类型子节点,那么这个tag可以使用.string得到子节点。如果一个tag仅有一个子节点,那么这个tag也可以使用.string,输出结果与当前唯一子节点的.string结果相同。
通俗点讲就是:如果一个标签里面没有标签了,那么.string就会返回标签里面的内容。如果标签里面只有唯一的一个标签了,那么.string也会返回最里面的内容。例如:

print soup.head.string
#The Dormouse's story

print soup.title.string
#The Dormouse's story

搜索文档树

1. find_all(name, attrs, recursive, text, **kwargs)

1) name参数

name参数可以查找所有名字为name的tag,字符串对象会自动忽略掉。

A.传字符串
最简单的过滤器是字符串,在搜索方法中传入一个字符串参数,eautiful Soup会自动查找与字符串完整匹配的内容,下面的例子用于查找文档中所有的<b>标签:

soup.find_all('b')
#[<b>The Dormouse's story</b>]

print soup.find_all('a')
#[<a class="sister"  id="link1"><!-- Elsie --></a>, <a class="sister"  id="link2">Lacie</a>, <a class="sister"  id="link3">Tillie</a>]

B.传正则表达式
如果传入正则表达式作为参数,Beautiful Soup会通过正则表达式的match()来匹配内容。下面例子中找出所有以b开头的标签,这表示<body><b>标签都应该被找到。

import re
for tag in 
  print(tag.name)

#body
#b

C.传列表
如果传入列表参数,Beautiful Soup会将与列表中任一元素匹配的内容返回 下面代码找到文档中所有<a>标签和<b>标签:

soup.find_all(['a', 'b'])

# [<b>The Dormouse's story</b>,
#  <a class="sister"  id="link1">Elsie</a>,
#  <a class="sister"  id="link2">Lacie</a>,
#  <a class="sister"  id="link3">Tillie</a>]

2) keyword参数

soup.find_all(id='link2')
# [<a class="sister"  id="link2">Lacie</a>]

3) text参数

通过text参数可以搜索文档中的字符串内容,与name参数的可选值一样,text参数接收参数值,正则表达式,列表

soup.find_all(text='Elsie')
#[u'Elsie']

soup.find_all(text=['Tillie', 'Elsie', 'Lacie'])
# [u'Elsie', u'Lacie', u'Tillie']


[u"The Dormouse's story", u"The Dormouse's story"]

CSS选择器

这就是另一种与 find_all 方法有异曲同工之妙的查找方法.

  • 写 CSS 时,标签名不加任何修饰,类名前加.,id名前加#
  • 在这里我们也可以利用类似的方法来筛选元素,用到的方法是 soup.select(),返回类型是 list
Top