python之网络爬虫
一、网络爬虫的基本原理:
网络爬虫的基本工作流程如下:
- 获取初始的URL,此URL地址是用户自己设定的初始爬取的网页
- 爬取对应的URL地址网页时,获取新的URL地址
- 将新的URL地址放入到URL队列中
- 从URL队列中读取新的URL,依据新的URL爬取网页,同时从新的网页中获取新的URL地址,重复上述的爬取过程
- 设置停止条件,如果没有设置停止条件,爬虫会一直爬下去,直到无法获取新的URL地址为止,设置了停止条件后,爬重将会在满足停止条件时停止爬取
二、Python的网络请求:
在Python中实现HTTP网络请求常见的三种方式:
1、urllib模块:
urllib是Python自带模块,此模块提供了一个urlopen()方法,通过此方法指定URL发送网络请求获取数据,urllib提供多个子模块,具体模块名以及含义如下:
| 模块名称 | 描述 |
| urllib.request | 此模块定义了打开URL(主要是http)的方法和类 |
| urllib.error | 此模块主要包含异常类,基本的异常类是URLError |
| urllib.parse | 此模块定义的功能分为两大类,URL解析和URL引用 |
| urllib.robotparser | 此模块用于解析robots.txt文件 |
例如:通过urllib.request模块实现发送请求并读取网页内容示例如下:

上述代码是通过get请求获取网页内容,下面通过Post请求获取网页内容如下:



