# 网络爬虫简介
## 什么是爬虫？
**请求**网站并**提取**数据的自动化程序。

##  爬虫的基本流程
* 发起请求
	通过HTTP库目标站点发起请求，即发送一个Request，请求可以包含额外的headers等信息，等待服务器响应。

* 获取响应内容
	如果服务器能够正常响应，会得到一个Response，Response的内容便是所要获取的页面内容，类型可能有HTML，Json字符串，二进制数据（如图片视频）等类型。

* 解析内容
	得到的内容可能是HTML，可以用正则表达式，网页解析库进行解析。可能是Json，可以直接转为Json对象解 析，可能是二进制数据，可以做保存或者进一步的处理。

* 保存数据
	保存形式多样，可以存为文本，也可以保存至数据库，或者保存特定格式的文件。

## Request和Response

![](https://ryanpic.oss-cn-hangzhou.aliyuncs.com/20191129165152.png)


* 浏览器发送消息给给该网址所在的服务器，这个过程叫做HTTP Request。
* 服务器收到浏览器发送的消息后，能够根据浏览器发送消息的内容，做响应处理，然后把消息回传给浏览器。 这个过程叫做HTTP Response。
* 浏览器收到服务器的Response信息后，会对信息进行响应处理，然后展示。


查看浏览器的请求和响应：
![](https://ryanpic.oss-cn-hangzhou.aliyuncs.com/20191129165436.png)

![](https://ryanpic.oss-cn-hangzhou.aliyuncs.com/20191129165451.png)

### Request

**Request**是请求,在浏览器输入地址,回车,就是一个请求。

* 请求方式
	主要有get、post两种类型，另外还有HEAD、PUT、DELETE、OPTIONS等。

* 请求的URL
	URL 全称统一资源定位符，如一个网页的文档、一张图片、一个视频等都可以用URL来确定。

* 请求头
	包含请求时的头部信息，如User-Agent、host、Cookies等信息

* 请求体
	请求时额外携带的数据如表单提交时的表单数据。

###  Response

**Response**是响应,服务器根据请求,返回数据到浏览器显示,就是一个响应。

* 响应状态
	有多种响应状态，如200代表成功、301跳转、404找不到页面、502服务器错误。

* 响应头
	如内容类型、内容长度、服务器信息、设置Cookie等等。

* 响应体
	最主要的部分，包含了请求资源的内容，如网页HTML、图片二进制数据等。

例如：
```python
# 导入网络请求模块（该模块需要使用pip install requests 安装）
import requests

# 创建请求头
headers = {
"User-Agent":'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'
}

# 发送网络请求
response = requests.get(url='http://www.baidu.com',headers = headers)

 # 获取请求的内容
print(response.content.decode('utf-8')) print(response.text)

# 获取响应头
print(response.headers)

# 状态码
print(response.status_code)
```
##  能抓取什么样的数据？

* 网页文本
	如HTML文档、Json格式的文本等。

* 图片
	获取到的是二进制文件，保存为图片格式。
	
* 视频
	获取到的是二进制文件，保存为视频格式。

例如： 获取图片
```python
import requests
 
# 创建请求头

headers = {
"User-Agent":'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'
}

# 发送网络请求
response = requests.get(url=['https://www.baidu.com/img/bd_logo1.png'](http://www.baidu.com/img/bd_logo1.png'%2Cheaders),headers = headers)


# 将获取的二进制内容进行保存
with open('./baidu.png','wb') as f: f.write(response.content)
```
##  网页的解析方式

* 直接处理
	例如： 请求回来的就是一段字符串，我们可以简单处理后直接保存

* Json解析
	例如： Ajax请求回来的一般都是json格式的数据，我们就需要从json中拿出我们想要的数据。
* 正则表达式
* BeautifulSoup
* PyQuery 
* XPath

解析库的选择可以根据爬取的网页具体情况酌情选择。

## 我们抓到的网页和浏览器中看到的不一样

情况：  有时候我们抓取到的内容都是HTML代码，css链接以及JavaScript的链接，真正网页中的数据并不会出现在我们抓却到的内容中。

原因：是因为有些内容的链接是放在JavaScript代码中的，所有说我们抓取到的只是HTML网页中的JavaScript外链，  并不是真正的网页显示的内容。

解决： 我们需要找到真正的内容链接就好了。

例如： 我们请求一下头条
```python
import requests

# 创建请求头

headers = {
"User-Agent":'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'
}

# 发送网络请求

response = requests.get(url=['https://www.toutiao.com/'](http://www.toutiao.com/'%2Cheaders),headers = headers) print(response.text)
```
实际内容在下面的链接里：

![](https://ryanpic.oss-cn-hangzhou.aliyuncs.com/20191129170112.png)


##  解决动态网页的渲染问题

1. 如上面的方法，分析Ajax请求，拿到请求链接，再次发送请求，获取内容。

2. 使用selenium/webdriver (自动化的测试工具)，就像浏览器一样加载网页。

```python
from selenium import webdriver chrome = webdriver.Chrome() chrome.get('https://www.baidu.com')
```

## 保存

* 文本
* 数据库
* 二进制文件（图片，视频 ，音频）

# 网页基本组成与结构


## HTML简介

超级文本标记语言（HyperText Markup Language）是标准通用标记语言下的一个应用，也是一种规范和标准，它通过标记符号来标记要显示的网页中的各个部分。网页文件本身是一种文本文件，通过在文本文件中添加标记符，可以  告诉浏览器如何显示其中的内容（如：文字如何处理，画面如何安排，图片如何显示等）。浏览器按顺序阅读网页文  件，然后根据标记符解释和显示其标记的内容，对书写出错的标记将不指出其错误，且不停止其解释执行过程，编制  者只能通过显示效果来分析出错原因和出错部位。但需要注意的是，对于不同的浏览器，对同一标记符可能会有不完  全相同的解释，因而可能会有不同的显示效果。

**标签：**用尖括号包围的关键词我们成为标签。通常HTML标签成对出现，如：、。

Ø  开始标签：标签对中的第一个标签是开始标签，也成为开放标签。如。

Ø  结束标签：标签对中的第二个标签是结束标签，也成为闭合标签。如。

**元素：**我们把匹配的标签对以及它们包围的内容称为元素。即（元素 = 开始标签 + 内容 + 结束标签）。

Ø 块级元素：在浏览器默认显示时以新行来开始（和结束）的元素。

Ø 内联元素：又称行内元素，在浏览器默认显示时在同一行按从左至右顺序显示，不单独占一行的元素。
**属性：**开始标签中那些以名称/值对的形式出现的内容，我们称之为属性。

###  HTML元素

####  根元素

| ```<doctype>``` | 定义文档类型。   |
| --------------- | ---------------- |
| ```<html>```    | 定义 HTML 文档。 |



####  元数据元素

| ```<head>```  | 定义关于文档的信息。                               |
| ------------- | -------------------------------------------------- |
| ```<meta>```  | 定义关于 HTML 文档的元数据。                       |
| ```<link>```  | 定义文档与外部资源之间的关系，一般用于引入样式表。 |
| ```<base>```  | 定义页面上所有链接的默认地址或默认目标。           |
| ```<title>``` | 定义文档标题。                                     |
| ```<style>``` | 定义文档的样式信息。                               |




####   脚本元素

| ```<script>```   | 定义客户端脚本。                         |
| ---------------- | ---------------------------------------- |
| ```<noscript>``` | 定义当浏览器不支持脚本的时候所显示的内容 |

#### 块元素   

| ```<body>```                              | 定义文档的主体。 |
| ----------------------------------------- | ---------------- |
| ```<h1>```、   ```<h2>```...   ```<h6>``` | 定义文档标题。   |
| ```<p>```                                 | 定义文档段落。   |
| ```<blockquote>```                        | 定义块引用。     |
| ```<ul>```、   ```<ul>```、   ```<dl>```  | 定义列表。       |
| ```<table>```                             | 定义表格。       |

#### 列表元素
##### 无序列表

| ```<ul>``` | 定义无序的列表。 |
| ---------- | ---------------- |
| ```<li>``` | 定义列表项。     |

##### 有序列表

| ```<ol>``` | 定义有序的列表。 |
| ---------- | ---------------- |
| ```<li>``` | 定义列表项。     |

##### 定义列表

| ```<dl>``` | 定义定义列表。 |
| ---------- | -------------- |
| ```<dt>``` | 定义定义术语。 |
| ```<dd>``` | 定义定义描述。 |


####   表格元素

| ```<table>``` | 定义表格。         |
| ------------- | ------------------ |
| ```<thead>``` | 定义表格的页眉。   |
| ```<tbody>``` | 定义表格的主体。   |
| ```<tfoot>``` | 定义表格的页脚。   |
| ```<th>```    | 定义表格的表头行。 |
| ```<tr>```    | 定义表格的行。     |
| ```<td>```    | 定义表格单元。     |

####   文本元素

文本格式化元素

| ```<em>```     | 定义着重文字。 |
| -------------- | -------------- |
| ```<strong>``` | 定义加重语气。 |
| ```<sup>```    | 定义上标字。   |
| ```<sub>```    | 定义下标字。   |
| ```<ins>```    | 定义插入字。   |
| ```<del>```    | 定义删除字。   |
| ```<b>```      | 定义粗体文本。 |
| ```<i>```      | 定义斜体文本。 |
| ```<big>```    | 定义大号字。   |
| ```<small>```  | 定义小号字。   |

####  链接与图像

| ```<a>```    | 定义超链接                   |
| ------------ | ---------------------------- |
| ```<img>```  | 定义图像。                   |
| ```<map>```  | 定义图像地图。               |
| ```<area>``` | 定义图像地图中的可点击区域。 |

####      ```<div>``` 和    ```<span>```

| ```<div>```  | 定义文档中的分区或节（division/section）。 |
| ------------ | ------------------------------------------ |
| ```<span>``` | 定义 span，用来组合文档中的行内元素。      |

####  表单元素

| ```<form>```     | 定义供用户输入的表单。            |
| ---------------- | --------------------------------- |
| ```<input>```    | 定义输入域。                      |
| ```<textarea>``` | 定义文本域 (一个多行的输入控件)。 |
| ```<lable>```    | 定义一个控制的标签。              |
| ```<select>```   | 定义一个选择列表。                |
| ```<option>```   | 定义下拉列表中的选项。            |
| ```<optgroup>``` | 定义选项组。                      |
| ```<button>```   | 定义一个按钮。                    |
| ```<fieldset>``` | 定义域。                          |
| ```<legend>```   | 定义域的标题。                    |


## CSS

### CSS简介

CSS是一种定义样式结构如字体、颜色、位置等的语言，用于描述网页上的信息格式化和现实的方式。CSS样式可以  直接存储于HTML网页或者单独的样式单文件。无论哪一种方式，样式单包含将样式应用到指定类型的元素的规则。  外部使用时，样式单规则被放置在一个带有文件扩展名_css的外部样式单文档中。

### 2.2 CSS语法

1. css由两部分组成：选择器和声明。

**选择器**指定来声明应用于那个或者那些元素；声明用于设置元素的样式，用大括号括起来里面用分号隔开每一条。

2. 在   ```<head>```中，可以用   ```<style>```和   ```<link>```标签。

3. 选择器中有多项时，在前一项的前提下，后一项的样式为声明的样式，其他情况无效。

4. id选择器：

    * css文件中：#red {color:red;}

    * HTML文件中：    ```<p id="red">``` red    ```</p>```

5. 类选择器：

css文件中：.center {text-align:center}

HTML文件中：   ```<h1 class="center">``` center    ```</h1>```

6. 背景属性：

background-color属性：（合理的英文颜色单词或#000000，默认值为transparent为透明）为元素设置背景色。background-image属性：（url（/i/emg_01.jpg），默认值为none）用图像做背景。

background-repeat属性：（默认repeat在所有方向重复，repeat-x在水平方向重复，repeat-y垂直方向重复，no-repeat不重复）设定重复方式。

background-position属性：（top、center、bottom每种情况的left、center、right三种位置共九种；（x，y），x和y由0%到100%从坐上到右下，也可以用数字表示像素，也可以混用）设置背景图像起始位置。

background-attachment属性：（fixed当页面其他部分滚动时背景不变）固定背景图像。

background-clip属性：（border-box背景被裁剪到边框盒，padding-box背景被裁剪到内边距框，content-box背景裁  剪到内容处）规定背景的绘制区域。

background-origin属性：（border-box背景被裁剪到边框盒，padding-box背景被裁剪到内边距框，content-box背景  裁剪到内容处）规定background-position属性的位置相对于什么来定位。

background-size属性：（x，y，可以为以父元素为基础的百分比或像素做单位；cover，扩展足够大，可能有的部分  无法显示；contain，扩展至适应内容区域的最大尺寸）设置背景图像的尺寸。

7. 文本属性：

color属性：（合理英文颜色名，#00000，rgb（255，0，0））设定文本颜色。letter-spacing属性：（x，定义间距可以为负数单位像素）设定文本间距。


line-height属性：（x，可为百分比和像素，不能为负值）设定文本行高。text-align属性：（left，right，center，justify两端对齐）设定对齐方式。

text-decoration属性：（underline下划线，overline上划线，line-through横穿一条线，blink闪烁）文本划线样式修 饰。

text-indent属性：（x，可为以父元素为基础的百分比和像素）规定文本块首行文本缩进。text-shadow属性：（*x,*y,z水平阴影位置，垂直阴影位置，模糊距离，颜色）文本阴影。word-spacing属性：（x，定义间距可以为负数单位像素）设定字间距，单词以空格分开算。word-wrap属性：（break-word）在长单词或URL地址内部进行换行。

8. 字体属性：

font属性：在一个声明中可以设置所有的字体属性。

font-style属性：（italic斜体，oblique倾斜，）设置字体倾斜样式。

font-variant属性：（small-caps显示小型大写字母的字体）设置为小型大写字母。font-weight属性：（x，400为默认，700为bold粗体）设置文本粗细。

font-size属性：（x，百分比或固定值）设置字体尺寸。font-family属性：为段落设置字体。

9. 链接定义：

a:link {} 未被访问的链接

a:visited {} 已被访问的链接a:hover {} 鼠标指针移动到链接上a:active {}正在被点击的链接

hover要在link和visited之后，active要在hover之后。

text-decoration属性：（none去掉下划线，underline出现下划线）设置下划线。background-color属性：规定链接的背景色。

10. 表格属性：

border-collapse属性：（collapse将边框合并为一个单一的边框）边框样式。caption-side属性：（top在顶端，bottom在低端）表格标题位置。

empty-cells属性：（hide不在空单元格周围绘制边框）是否显示空单元格。border-width属性：（x，y，z，w，上右下左，百分比或固定值）设置边框尺寸。border-color属性：（x，y，z，w，上右下左，四个颜色值）设置边框颜色。

width属性、height属性：（x，百分比或固定值）设置表格宽度和高度。

padding属性：（x，y，z，w，上右下左，四个位置内边距）声明所有的内边距，或者用padding-bottom，padding- left，padding-right，padding-top四个属性来替换。


border-style属性：（none无，dotted点，dashed虚线）定义边框样式。

margin属性：（x，y，z，w，上右下左，百分比或固定值）设置一个声明中的外边距。

### css类型

内联方式

样式定义在单个的 HTML元素中内部样式表

样式定义在 HTML 页的头元素中外部样式表

将样式定义在一个外部的 CSS 文件中（.css 文件） 由 HTML 页面引用样式表文件

###  css选择器

1. 标签选择器（如：body,div,p,ul,li）

2. 类选择器（如：class=”head”,class=”head_logo”）

3. ID选择器（如：id=”name”,id=”name_txt”）

4. 全局选择器（如：*号）

5. 组合选择器（如：.head .head_logo,注意两选择器用空格键分开）

6. 继承选择器（如：div p,注意两选择器用空格键分开）

7. 伪类选择器（如：就是链接样式,a元素的伪类，4种不同的状态：link、visited、active、hover。）

## JavaScript

### JavaScript简介

JavaScript是一种属于网络的脚本语言,已经被广泛用于Web应用开发,常用来为网页添加各式各样的动态功能,为用户 提供更流畅美观的浏览效果。通常JavaScript脚本是通过嵌入在HTML中来实现自身的功能的。

1. 是一种解释性脚本语言。

2. 主要用来向HTML（标准通用标记语言下的一个应用）页面添加交互行为。

3. 可以直接嵌入HTML页面，但写成单独的js文件有利于结构和行为的分离。

4. 跨平台特性，在绝大多数浏览器的支持下，可以在多种平台下运行（如Windows、Linux、Mac、Android、

iOS等）。

###  JavaScript语法

1. js代码能直接嵌入网页的任何地方，通常放在   ```<head>```   ```</head>```中，但会要求用户把所有js代码都下载解析执 行以后在呈现内容；

2. 可以把代码单独的放在一个.js文件中，同时，多个页面可以引用同一份.js文件；

3. 页面中可以多次编写   ```<script>```   ```</script>```,但是浏览器会按照顺序执行这些JavaScript代码；

4. JavaScript中每个语句以 ； 结尾 每个语句块以 {…..} 注释用//或/* */

5. 所有类型都是定义变量都是用 var， 如果一个变量没有通过var申明就被使用，那么该变量就自动被申明为全局变量；




hello.html
```html
 <html>
	 <head>
		 <title>js \</title>
		 <script type="text/javascript"> console.log("Hello javascript")
		 </script>
	 </head>
	 <body>
	 </body>
 </html>

 

外部样式表

test.js
 
 alert('Hello JS')

test.html

 <html>

	 <head>
		 <title>js \</title>
		 <script type="text/javascript" src='test.js'> \</script>
	 </head>
	 <body>
	 </body>
 </html>
```

----
> **火火的总结**
>
> * HTML展示内容，网页的骨架
> *  CSS美化页面｛｝
> *  JS让页面动起来，提高浏览体验。

In [2]:
'''
案例：猫眼电影数据的爬取

分析流程：
1.分析界面的数据来源，确定请求链接
    (1)先获取一页，在获取多页
2.解析网页获取数据
3.将获取的数据进行保存
'''

import requests
import re

# 定义一个爬虫类
class MYSpider(object):
    def __init__(self,base_url,url_headers):
        # 最基础的URL
        self.base_url = base_url
        self.headers = url_headers
        
    
    # 获取第一页的内容
    def get_onePage(self,start_num):
        
        # 发送请求
        url=self.base_url.format(start_num)
        response = requests.get(url=url,headers= self.headers)
        if response.status_code == 200:
            return response.content.decode('utf-8')
        else:
            return None
        
    # 解析数据
    def parse_onePage(self,html):
          # 只取排名
        # pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?</dd>',re.S)
        
        # 获取排名和名字
#         pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?movie-item-info.*?>.*?<a'
#                              +'.*?title="(.*?)".*?>.*?</dd>',re.S)
        # 添加主演
#         pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?movie-item-info.*?>.*?<a'
#                              +'.*?title="(.*?)".*?>.*?<p class="star">(.*?)</p>.*?</dd>',re.S)
        
        # 上映时间
#         pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?movie-item-info.*?>.*?<a'
#                              +'.*?title="(.*?)".*?>.*?<p class="star">(.*?)</p>'
#                              +'.*?<p class="releasetime">(.*?)</p>.*?</dd>',re.S)
        # 评分
        pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?movie-item-info.*?>.*?<a'
                             +'.*?title="(.*?)".*?>.*?<p class="star">(.*?)</p>'
                             +'.*?<p class="releasetime">(.*?)</p>'+
                             '.*?<i class="integer">(.*?)</i>.*?<i class="fraction">(.*?)</i>.*?</dd>',re.S)
        return re.findall(pattern,html)
        
    # 保存数据
    def save_date(self,data):
        for value in data:
            list1 = []
            for valuedata in value:
                # 取出空格
                result  =  valuedata.strip()
                list1.append(result)
            
#             将列表内容链接成字符串
            movestr = " ".join(list1)+'\n'
            print(movestr)
            with open('movestr.txt','a',encoding='utf-8') as f:
                f.write(movestr)

if __name__ == "__main__":
    
    
    base_url = 'https://maoyan.com/board/4?offset={}'
    headers = {
        "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36"
    }
    myspider = MYSpider(base_url,headers)
    html = myspider.get_onePage(0)
    
    resultdata =  myspider.parse_onePage(html)
    myspider.save_date(resultdata)
#     print(resultdata)
    

1 霸王别姬 主演：张国荣,张丰毅,巩俐 上映时间：1993-07-26 9. 5

2 肖申克的救赎 主演：蒂姆·罗宾斯,摩根·弗里曼,鲍勃·冈顿 上映时间：1994-09-10(加拿大) 9. 5

3 罗马假日 主演：格利高里·派克,奥黛丽·赫本,埃迪·艾伯特 上映时间：1953-09-02(美国) 9. 1

4 这个杀手不太冷 主演：让·雷诺,加里·奥德曼,娜塔莉·波特曼 上映时间：1994-09-14(法国) 9. 5

5 泰坦尼克号 主演：莱昂纳多·迪卡普里奥,凯特·温丝莱特,比利·赞恩 上映时间：1998-04-03 9. 5

6 唐伯虎点秋香 主演：周星驰,巩俐,郑佩佩 上映时间：1993-07-01(中国香港) 9. 1

7 乱世佳人 主演：费雯·丽,克拉克·盖博,奥利维娅·德哈维兰 上映时间：1939-12-15(美国) 9. 1

8 魂断蓝桥 主演：费雯·丽,罗伯特·泰勒,露塞尔·沃特森 上映时间：1940-05-17(美国) 9. 2

9 天空之城 主演：寺田农,鹫尾真知子,龟山助清 上映时间：1992-05-01 9. 0

10 辛德勒的名单 主演：连姆·尼森,拉尔夫·费因斯,本·金斯利 上映时间：1993-12-15(美国) 9. 2



# 网络爬虫简介
## 什么是爬虫？
**请求**网站并**提取**数据的自动化程序。

##  爬虫的基本流程
* 发起请求
	通过HTTP库目标站点发起请求，即发送一个Request，请求可以包含额外的headers等信息，等待服务器响应。

* 获取响应内容
	如果服务器能够正常响应，会得到一个Response，Response的内容便是所要获取的页面内容，类型可能有HTML，Json字符串，二进制数据（如图片视频）等类型。

* 解析内容
	得到的内容可能是HTML，可以用正则表达式，网页解析库进行解析。可能是Json，可以直接转为Json对象解 析，可能是二进制数据，可以做保存或者进一步的处理。

* 保存数据
	保存形式多样，可以存为文本，也可以保存至数据库，或者保存特定格式的文件。

## Request和Response

![](https://ryanpic.oss-cn-hangzhou.aliyuncs.com/20191129165152.png)


* 浏览器发送消息给给该网址所在的服务器，这个过程叫做HTTP Request。
* 服务器收到浏览器发送的消息后，能够根据浏览器发送消息的内容，做响应处理，然后把消息回传给浏览器。 这个过程叫做HTTP Response。
* 浏览器收到服务器的Response信息后，会对信息进行响应处理，然后展示。


查看浏览器的请求和响应：
![](https://ryanpic.oss-cn-hangzhou.aliyuncs.com/20191129165436.png)

![](https://ryanpic.oss-cn-hangzhou.aliyuncs.com/20191129165451.png)

### Request

**Request**是请求,在浏览器输入地址,回车,就是一个请求。

* 请求方式
	主要有get、post两种类型，另外还有HEAD、PUT、DELETE、OPTIONS等。

* 请求的URL
	URL 全称统一资源定位符，如一个网页的文档、一张图片、一个视频等都可以用URL来确定。

* 请求头
	包含请求时的头部信息，如User-Agent、host、Cookies等信息

* 请求体
	请求时额外携带的数据如表单提交时的表单数据。

###  Response

**Response**是响应,服务器根据请求,返回数据到浏览器显示,就是一个响应。

* 响应状态
	有多种响应状态，如200代表成功、301跳转、404找不到页面、502服务器错误。

* 响应头
	如内容类型、内容长度、服务器信息、设置Cookie等等。

* 响应体
	最主要的部分，包含了请求资源的内容，如网页HTML、图片二进制数据等。

例如：
```python
# 导入网络请求模块（该模块需要使用pip install requests 安装）
import requests

# 创建请求头
headers = {
"User-Agent":'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'
}

# 发送网络请求
response = requests.get(url='http://www.baidu.com',headers = headers)

 # 获取请求的内容
print(response.content.decode('utf-8')) print(response.text)

# 获取响应头
print(response.headers)

# 状态码
print(response.status_code)
```
##  能抓取什么样的数据？

* 网页文本
	如HTML文档、Json格式的文本等。

* 图片
	获取到的是二进制文件，保存为图片格式。
	
* 视频
	获取到的是二进制文件，保存为视频格式。

例如： 获取图片
```python
import requests
 
# 创建请求头

headers = {
"User-Agent":'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'
}

# 发送网络请求
response = requests.get(url=['https://www.baidu.com/img/bd_logo1.png'](http://www.baidu.com/img/bd_logo1.png'%2Cheaders),headers = headers)


# 将获取的二进制内容进行保存
with open('./baidu.png','wb') as f: f.write(response.content)
```
##  网页的解析方式

* 直接处理
	例如： 请求回来的就是一段字符串，我们可以简单处理后直接保存

* Json解析
	例如： Ajax请求回来的一般都是json格式的数据，我们就需要从json中拿出我们想要的数据。
* 正则表达式
* BeautifulSoup
* PyQuery 
* XPath

解析库的选择可以根据爬取的网页具体情况酌情选择。

## 我们抓到的网页和浏览器中看到的不一样

情况：  有时候我们抓取到的内容都是HTML代码，css链接以及JavaScript的链接，真正网页中的数据并不会出现在我们抓却到的内容中。

原因：是因为有些内容的链接是放在JavaScript代码中的，所有说我们抓取到的只是HTML网页中的JavaScript外链，  并不是真正的网页显示的内容。

解决： 我们需要找到真正的内容链接就好了。

例如： 我们请求一下头条
```python
import requests

# 创建请求头

headers = {
"User-Agent":'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'
}

# 发送网络请求

response = requests.get(url=['https://www.toutiao.com/'](http://www.toutiao.com/'%2Cheaders),headers = headers) print(response.text)
```
实际内容在下面的链接里：

![](https://ryanpic.oss-cn-hangzhou.aliyuncs.com/20191129170112.png)


##  解决动态网页的渲染问题

1. 如上面的方法，分析Ajax请求，拿到请求链接，再次发送请求，获取内容。

2. 使用selenium/webdriver (自动化的测试工具)，就像浏览器一样加载网页。

```python
from selenium import webdriver chrome = webdriver.Chrome() chrome.get('https://www.baidu.com')
```

## 保存

* 文本
* 数据库
* 二进制文件（图片，视频 ，音频）

# 网页基本组成与结构


## HTML简介

超级文本标记语言（HyperText Markup Language）是标准通用标记语言下的一个应用，也是一种规范和标准，它通过标记符号来标记要显示的网页中的各个部分。网页文件本身是一种文本文件，通过在文本文件中添加标记符，可以  告诉浏览器如何显示其中的内容（如：文字如何处理，画面如何安排，图片如何显示等）。浏览器按顺序阅读网页文  件，然后根据标记符解释和显示其标记的内容，对书写出错的标记将不指出其错误，且不停止其解释执行过程，编制  者只能通过显示效果来分析出错原因和出错部位。但需要注意的是，对于不同的浏览器，对同一标记符可能会有不完  全相同的解释，因而可能会有不同的显示效果。

**标签：**用尖括号包围的关键词我们成为标签。通常HTML标签成对出现，如：、。

Ø  开始标签：标签对中的第一个标签是开始标签，也成为开放标签。如。

Ø  结束标签：标签对中的第二个标签是结束标签，也成为闭合标签。如。

**元素：**我们把匹配的标签对以及它们包围的内容称为元素。即（元素 = 开始标签 + 内容 + 结束标签）。

Ø 块级元素：在浏览器默认显示时以新行来开始（和结束）的元素。

Ø 内联元素：又称行内元素，在浏览器默认显示时在同一行按从左至右顺序显示，不单独占一行的元素。
**属性：**开始标签中那些以名称/值对的形式出现的内容，我们称之为属性。

###  HTML元素

####  根元素

| ```<doctype>``` | 定义文档类型。   |
| --------------- | ---------------- |
| ```<html>```    | 定义 HTML 文档。 |



####  元数据元素

| ```<head>```  | 定义关于文档的信息。                               |
| ------------- | -------------------------------------------------- |
| ```<meta>```  | 定义关于 HTML 文档的元数据。                       |
| ```<link>```  | 定义文档与外部资源之间的关系，一般用于引入样式表。 |
| ```<base>```  | 定义页面上所有链接的默认地址或默认目标。           |
| ```<title>``` | 定义文档标题。                                     |
| ```<style>``` | 定义文档的样式信息。                               |




####   脚本元素

| ```<script>```   | 定义客户端脚本。                         |
| ---------------- | ---------------------------------------- |
| ```<noscript>``` | 定义当浏览器不支持脚本的时候所显示的内容 |

#### 块元素   

| ```<body>```                              | 定义文档的主体。 |
| ----------------------------------------- | ---------------- |
| ```<h1>```、   ```<h2>```...   ```<h6>``` | 定义文档标题。   |
| ```<p>```                                 | 定义文档段落。   |
| ```<blockquote>```                        | 定义块引用。     |
| ```<ul>```、   ```<ul>```、   ```<dl>```  | 定义列表。       |
| ```<table>```                             | 定义表格。       |

#### 列表元素
##### 无序列表

| ```<ul>``` | 定义无序的列表。 |
| ---------- | ---------------- |
| ```<li>``` | 定义列表项。     |

##### 有序列表

| ```<ol>``` | 定义有序的列表。 |
| ---------- | ---------------- |
| ```<li>``` | 定义列表项。     |

##### 定义列表

| ```<dl>``` | 定义定义列表。 |
| ---------- | -------------- |
| ```<dt>``` | 定义定义术语。 |
| ```<dd>``` | 定义定义描述。 |


####   表格元素

| ```<table>``` | 定义表格。         |
| ------------- | ------------------ |
| ```<thead>``` | 定义表格的页眉。   |
| ```<tbody>``` | 定义表格的主体。   |
| ```<tfoot>``` | 定义表格的页脚。   |
| ```<th>```    | 定义表格的表头行。 |
| ```<tr>```    | 定义表格的行。     |
| ```<td>```    | 定义表格单元。     |

####   文本元素

文本格式化元素

| ```<em>```     | 定义着重文字。 |
| -------------- | -------------- |
| ```<strong>``` | 定义加重语气。 |
| ```<sup>```    | 定义上标字。   |
| ```<sub>```    | 定义下标字。   |
| ```<ins>```    | 定义插入字。   |
| ```<del>```    | 定义删除字。   |
| ```<b>```      | 定义粗体文本。 |
| ```<i>```      | 定义斜体文本。 |
| ```<big>```    | 定义大号字。   |
| ```<small>```  | 定义小号字。   |

####  链接与图像

| ```<a>```    | 定义超链接                   |
| ------------ | ---------------------------- |
| ```<img>```  | 定义图像。                   |
| ```<map>```  | 定义图像地图。               |
| ```<area>``` | 定义图像地图中的可点击区域。 |

####      ```<div>``` 和    ```<span>```

| ```<div>```  | 定义文档中的分区或节（division/section）。 |
| ------------ | ------------------------------------------ |
| ```<span>``` | 定义 span，用来组合文档中的行内元素。      |

####  表单元素

| ```<form>```     | 定义供用户输入的表单。            |
| ---------------- | --------------------------------- |
| ```<input>```    | 定义输入域。                      |
| ```<textarea>``` | 定义文本域 (一个多行的输入控件)。 |
| ```<lable>```    | 定义一个控制的标签。              |
| ```<select>```   | 定义一个选择列表。                |
| ```<option>```   | 定义下拉列表中的选项。            |
| ```<optgroup>``` | 定义选项组。                      |
| ```<button>```   | 定义一个按钮。                    |
| ```<fieldset>``` | 定义域。                          |
| ```<legend>```   | 定义域的标题。                    |


## CSS

### CSS简介

CSS是一种定义样式结构如字体、颜色、位置等的语言，用于描述网页上的信息格式化和现实的方式。CSS样式可以  直接存储于HTML网页或者单独的样式单文件。无论哪一种方式，样式单包含将样式应用到指定类型的元素的规则。  外部使用时，样式单规则被放置在一个带有文件扩展名_css的外部样式单文档中。

### 2.2 CSS语法

1. css由两部分组成：选择器和声明。

**选择器**指定来声明应用于那个或者那些元素；声明用于设置元素的样式，用大括号括起来里面用分号隔开每一条。

2. 在   ```<head>```中，可以用   ```<style>```和   ```<link>```标签。

3. 选择器中有多项时，在前一项的前提下，后一项的样式为声明的样式，其他情况无效。

4. id选择器：

    * css文件中：#red {color:red;}

    * HTML文件中：    ```<p id="red">``` red    ```</p>```

5. 类选择器：

css文件中：.center {text-align:center}

HTML文件中：   ```<h1 class="center">``` center    ```</h1>```

6. 背景属性：

background-color属性：（合理的英文颜色单词或#000000，默认值为transparent为透明）为元素设置背景色。background-image属性：（url（/i/emg_01.jpg），默认值为none）用图像做背景。

background-repeat属性：（默认repeat在所有方向重复，repeat-x在水平方向重复，repeat-y垂直方向重复，no-repeat不重复）设定重复方式。

background-position属性：（top、center、bottom每种情况的left、center、right三种位置共九种；（x，y），x和y由0%到100%从坐上到右下，也可以用数字表示像素，也可以混用）设置背景图像起始位置。

background-attachment属性：（fixed当页面其他部分滚动时背景不变）固定背景图像。

background-clip属性：（border-box背景被裁剪到边框盒，padding-box背景被裁剪到内边距框，content-box背景裁  剪到内容处）规定背景的绘制区域。

background-origin属性：（border-box背景被裁剪到边框盒，padding-box背景被裁剪到内边距框，content-box背景  裁剪到内容处）规定background-position属性的位置相对于什么来定位。

background-size属性：（x，y，可以为以父元素为基础的百分比或像素做单位；cover，扩展足够大，可能有的部分  无法显示；contain，扩展至适应内容区域的最大尺寸）设置背景图像的尺寸。

7. 文本属性：

color属性：（合理英文颜色名，#00000，rgb（255，0，0））设定文本颜色。letter-spacing属性：（x，定义间距可以为负数单位像素）设定文本间距。


line-height属性：（x，可为百分比和像素，不能为负值）设定文本行高。text-align属性：（left，right，center，justify两端对齐）设定对齐方式。

text-decoration属性：（underline下划线，overline上划线，line-through横穿一条线，blink闪烁）文本划线样式修 饰。

text-indent属性：（x，可为以父元素为基础的百分比和像素）规定文本块首行文本缩进。text-shadow属性：（*x,*y,z水平阴影位置，垂直阴影位置，模糊距离，颜色）文本阴影。word-spacing属性：（x，定义间距可以为负数单位像素）设定字间距，单词以空格分开算。word-wrap属性：（break-word）在长单词或URL地址内部进行换行。

8. 字体属性：

font属性：在一个声明中可以设置所有的字体属性。

font-style属性：（italic斜体，oblique倾斜，）设置字体倾斜样式。

font-variant属性：（small-caps显示小型大写字母的字体）设置为小型大写字母。font-weight属性：（x，400为默认，700为bold粗体）设置文本粗细。

font-size属性：（x，百分比或固定值）设置字体尺寸。font-family属性：为段落设置字体。

9. 链接定义：

a:link {} 未被访问的链接

a:visited {} 已被访问的链接a:hover {} 鼠标指针移动到链接上a:active {}正在被点击的链接

hover要在link和visited之后，active要在hover之后。

text-decoration属性：（none去掉下划线，underline出现下划线）设置下划线。background-color属性：规定链接的背景色。

10. 表格属性：

border-collapse属性：（collapse将边框合并为一个单一的边框）边框样式。caption-side属性：（top在顶端，bottom在低端）表格标题位置。

empty-cells属性：（hide不在空单元格周围绘制边框）是否显示空单元格。border-width属性：（x，y，z，w，上右下左，百分比或固定值）设置边框尺寸。border-color属性：（x，y，z，w，上右下左，四个颜色值）设置边框颜色。

width属性、height属性：（x，百分比或固定值）设置表格宽度和高度。

padding属性：（x，y，z，w，上右下左，四个位置内边距）声明所有的内边距，或者用padding-bottom，padding- left，padding-right，padding-top四个属性来替换。


border-style属性：（none无，dotted点，dashed虚线）定义边框样式。

margin属性：（x，y，z，w，上右下左，百分比或固定值）设置一个声明中的外边距。

### css类型

内联方式

样式定义在单个的 HTML元素中内部样式表

样式定义在 HTML 页的头元素中外部样式表

将样式定义在一个外部的 CSS 文件中（.css 文件） 由 HTML 页面引用样式表文件

###  css选择器

1. 标签选择器（如：body,div,p,ul,li）

2. 类选择器（如：class=”head”,class=”head_logo”）

3. ID选择器（如：id=”name”,id=”name_txt”）

4. 全局选择器（如：*号）

5. 组合选择器（如：.head .head_logo,注意两选择器用空格键分开）

6. 继承选择器（如：div p,注意两选择器用空格键分开）

7. 伪类选择器（如：就是链接样式,a元素的伪类，4种不同的状态：link、visited、active、hover。）

## JavaScript

### JavaScript简介

JavaScript是一种属于网络的脚本语言,已经被广泛用于Web应用开发,常用来为网页添加各式各样的动态功能,为用户 提供更流畅美观的浏览效果。通常JavaScript脚本是通过嵌入在HTML中来实现自身的功能的。

1. 是一种解释性脚本语言。

2. 主要用来向HTML（标准通用标记语言下的一个应用）页面添加交互行为。

3. 可以直接嵌入HTML页面，但写成单独的js文件有利于结构和行为的分离。

4. 跨平台特性，在绝大多数浏览器的支持下，可以在多种平台下运行（如Windows、Linux、Mac、Android、

iOS等）。

###  JavaScript语法

1. js代码能直接嵌入网页的任何地方，通常放在   ```<head>```   ```</head>```中，但会要求用户把所有js代码都下载解析执 行以后在呈现内容；

2. 可以把代码单独的放在一个.js文件中，同时，多个页面可以引用同一份.js文件；

3. 页面中可以多次编写   ```<script>```   ```</script>```,但是浏览器会按照顺序执行这些JavaScript代码；

4. JavaScript中每个语句以 ； 结尾 每个语句块以 {…..} 注释用//或/* */

5. 所有类型都是定义变量都是用 var， 如果一个变量没有通过var申明就被使用，那么该变量就自动被申明为全局变量；




hello.html

```html
 <html>
	 <head>
		 <title>js \</title>
		 <script type="text/javascript"> console.log("Hello javascript")
		 </script>
	 </head>
	 <body>
	 </body>
 </html>

 

外部样式表

test.js
 
 alert('Hello JS')

test.html

 <html>

	 <head>
		 <title>js \</title>
		 <script type="text/javascript" src='test.js'> \</script>
	 </head>
	 <body>
	 </body>
 </html>
```

----
> **火火的总结**
>
> * HTML展示内容，网页的骨架
> *  CSS美化页面｛｝
> *  JS让页面动起来，提高浏览体验。



#  正则表达式
##  正则表达式的介绍

正则表达式是对字符串操作的一种逻辑公式，就是用实现定义好的一些特定的字符、及这些特定的字符的组合，组成  一个“规则字符串“，这个“规则字符串“用来表达对字符串的一种过滤逻辑。

**注意：** 正则表达式并不是Python独有的，Python中使用re模块实现。

## 常见匹配模式[**参考链接**](http://deerchao.net/tutorials/regex/regex-1.htm)

| 元字符 | 描述                             |
| ------ | -------------------------------- |
| \w     | 匹配字母数字及下划线             |
| \W     | 匹配非字母数字下划线             |
| \s     | 匹配任意的空白符                 |
| \S     | 匹配任意非空白符                 |
| \d     | 匹配数字                         |
| \D     | 匹配任意非数字的字符             |
| .      | 匹配除换行符以外的任意字符       |
| ^      | 匹配字符串的开始                 |
| $      | 匹配字符串的结束                 |
| *      | 重复零次或更多次                 |
| +      | 重复一次或更多次                 |
| ?      | 重复零次或一次                   |
| {n}    | 重复n次                          |
| {n,}   | 重复n次或更多次                  |
| {n,m}  | 重复n到m次                       |
| a\|b   | 匹配a或b                         |
| ()     | 匹配括号内的表达式，也表示一个组 |

 

## re.match()

尝试从字符串的起始位置匹配一个模式，如果不是起始位置匹配的话，match（）就会返回None 语法： re.match(正则表达式，要匹配的字符串,匹配方式)

### 常用匹配方式
re.I 使匹配对大小写不敏感 re.S 使 . 匹配包括换行在内的所有字符


In [4]:
str1 = 'www.kaikeba.com' 
result = re.match('www',str1)

# 获取匹配的结果
print(result.group())

# 获取匹配字符串的长度范围
print(result.span())

# 不在起始位置匹配,返回None
print(re.match('kaikeba',str1))

# 默认大小写是敏感的
print(re.match('WWW',str1))

# 设置匹配模式，忽略大小写
print(re.match('WWW',str1,re.I))

www
(0, 3)
None
None
<_sre.SRE_Match object; span=(0, 3), match='www'>


### 多种匹配方式

In [6]:
str2 = 'abc 123 def'

# 常规匹配

print(re.match('^abc\s\d\d\d\sdef$',str2).group()) 
print(re.match('^abc\s\d{3}\sdef$',str2).group())

# 范匹配
print(re.match('^abc\s.*\sdef$',str2).group())

 
# 获取指定的字符
print(re.match('^abc\s(.*)\sdef$',str2).group(1))
# 通过re.group()获得结果后，如果正则表达式中有括号，则re.group(1)获取的就是第一个括号中匹配的结果

abc 123 def
abc 123 def
abc 123 def
123


### 贪婪和非贪婪

In [7]:
# 贪婪匹配
content= "hello 1234567 World Demo"
result= re.match('^hello.*(\d+).*Demo',content) 
print(result)
print(result.group(1))
# 这种情况的原因是前面的.* 给匹配掉了， .*在这里会尽可能的匹配多的内容，也就是我们所说的贪婪匹配
result= re.match('^hello.*?(\d+).*Demo',content)
print(result) 
print(result.group(1))

<_sre.SRE_Match object; span=(0, 24), match='hello 1234567 World Demo'>
7
<_sre.SRE_Match object; span=(0, 24), match='hello 1234567 World Demo'>
1234567


### 匹配模式

In [8]:
# 很多时候匹配的内容是存在换行的问题的，这个时候的就需要用到匹配模式re.S来匹配换行的内容

content = """hello 123456 world demo"""

result =re.match('^he.*?(\d+).*?demo$',content,re.S) 
print(result)
print(result.group()) 
print(result.group(1))

<_sre.SRE_Match object; span=(0, 23), match='hello 123456 world demo'>
hello 123456 world demo
123456


### 转义

In [9]:
# 当我们要匹配的内容中存在特殊字符的时候，就需要用到转移符号\ 
content= "price is $5.00"
result = re.match('price is \$5\.00',content) 
print(result)
print(result.group())

<_sre.SRE_Match object; span=(0, 14), match='price is $5.00'>
price is $5.00


## re.search()

re.search扫描整个字符串返回第一个成功匹配的结果

In [10]:
import re

html = '''<div id="songs-list">
	<h2 class="title">经典老歌</h2>
	<p class="introduction">
		经典老歌列表
	</p>
	<ul id="list" class="list-group">
		<li data-view="2">一路上有你</li>
		<li data-view="7">
			<a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
		</li>
		<li data-view="4" class="active">
			<a href="/3.mp3" singer="齐秦">往事随风</a>
		</li>
		<li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
		<li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
		<li data-view="5">
			<a href="/6.mp3" singer="邓丽君">但愿人长久</a>
		</li>
	</ul>
</div>'''

result = re.search('<li.*?active.*?singer="(.*?)">(.*?)</a>',html,re.S) 
print(result)
print(result.groups()) 
print(result.group(1)) 
print(result.group(2))

# 所以为了匹配方便，我们会更多的用search，不用match,match必须匹配头部，所以很多时候不是特别方便

<_sre.SRE_Match object; span=(129, 306), match='<li data-view="2">一路上有你</li>\n\t\t<li data-view=">
('齐秦', '往事随风')
齐秦
往事随风


## re.findall()

搜索字符串，以列表的形式返回全部能匹配的子串

In [11]:
import re
html =  '''<div id="songs-list">
	<h2 class="title">经典老歌</h2>
	<p class="introduction">
		经典老歌列表
	</p>
	<ul id="list" class="list-group">
		<li data-view="2">一路上有你</li>
		<li data-view="7">
			<a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
		</li>
		<li data-view="4" class="active">
			<a href="/3.mp3" singer="齐秦">往事随风</a>
		</li>
		<li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
		<li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
		<li data-view="5">
			<a href="/6.mp3" singer="邓丽君">但愿人长久</a>
		</li>
	</ul>
</div>'''

 

results = re.findall('<li.*?href="(.*?)".*?singer="(.*?)">(.*?)</a>', html, re.S) 
print(results)
print(type(results)) 
for result in results:
	print(result)
	print(result[0], result[1], result[2])

[('/2.mp3', '任贤齐', '沧海一声笑'), ('/3.mp3', '齐秦', '往事随风'), ('/4.mp3', 'beyond', '光辉岁月'), ('/5.mp3', '陈慧琳', '记事本'), ('/6.mp3', '邓丽君', '但愿人长久')]
<class 'list'>
('/2.mp3', '任贤齐', '沧海一声笑')
/2.mp3 任贤齐 沧海一声笑
('/3.mp3', '齐秦', '往事随风')
/3.mp3 齐秦 往事随风
('/4.mp3', 'beyond', '光辉岁月')
/4.mp3 beyond 光辉岁月
('/5.mp3', '陈慧琳', '记事本')
/5.mp3 陈慧琳 记事本
('/6.mp3', '邓丽君', '但愿人长久')
/6.mp3 邓丽君 但愿人长久


## re.compile()

将正则字符串编译成正则表达式对象，以便于复用该匹配模式。

In [13]:
import re
html = '''<div id="songs-list">
	<h2 class="title">经典老歌</h2>
	<p class="introduction">
		经典老歌列表
	</p>
	<ul id="list" class="list-group">
		<li data-view="2">一路上有你</li>
		<li data-view="7">
			<a href="/2.mp3" singer="任贤齐">沧海一声笑</a>
		</li>
		<li data-view="4" class="active">
			<a href="/3.mp3" singer="齐秦">往事随风</a>
		</li>
		<li data-view="6"><a href="/4.mp3" singer="beyond">光辉岁月</a></li>
		<li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li>
		<li data-view="5">
			<a href="/6.mp3" singer="邓丽君">但愿人长久</a>
		</li>
	</ul>
</div>'''

pattern = re.compile('<li.*?href="(.*?)".*?singer="(.*?)">(.*?)</a>',re.S) 
results = re.findall(pattern, html)
print(results) 
print(type(results)) 
for result in results:
	print(result)
	print(result[0], result[1], result[2])

[('/2.mp3', '任贤齐', '沧海一声笑'), ('/3.mp3', '齐秦', '往事随风'), ('/4.mp3', 'beyond', '光辉岁月'), ('/5.mp3', '陈慧琳', '记事本'), ('/6.mp3', '邓丽君', '但愿人长久')]
<class 'list'>
('/2.mp3', '任贤齐', '沧海一声笑')
/2.mp3 任贤齐 沧海一声笑
('/3.mp3', '齐秦', '往事随风')
/3.mp3 齐秦 往事随风
('/4.mp3', 'beyond', '光辉岁月')
/4.mp3 beyond 光辉岁月
('/5.mp3', '陈慧琳', '记事本')
/5.mp3 陈慧琳 记事本
('/6.mp3', '邓丽君', '但愿人长久')
/6.mp3 邓丽君 但愿人长久


## 拓展（re.sub）

替换字符串中每一个匹配的子串后返回替换后的字符串 

**语法：**re.sub(正则表达式，替换成的字符串，原字符串)

In [14]:
import re
content = "hello 123456 World"
# content = re.sub('\d+','',content) # print(content)
#有些情况下我们替换字符的时候，还想获取我们匹配的字符串，然后在后面添加一些内容
#需要注意的一个问题是\1是获取第一个匹配的结果，为了防止转义字符的问题，我们需要在前面加上r
content = re.sub('(\d+)',r'\1 7890',content) 
print(content)


hello 123456 7890 World
