python之网络爬虫

一、网络爬虫的基本原理:

网络爬虫的基本工作流程如下:

  1. 获取初始的URL,此URL地址是用户自己设定的初始爬取的网页
  2. 爬取对应的URL地址网页时,获取新的URL地址
  3. 将新的URL地址放入到URL队列中
  4. 从URL队列中读取新的URL,依据新的URL爬取网页,同时从新的网页中获取新的URL地址,重复上述的爬取过程
  5. 设置停止条件,如果没有设置停止条件,爬虫会一直爬下去,直到无法获取新的URL地址为止,设置了停止条件后,爬重将会在满足停止条件时停止爬取

二、Python的网络请求:

在Python中实现HTTP网络请求常见的三种方式:

1、urllib模块:

urllib是Python自带模块,此模块提供了一个urlopen()方法,通过此方法指定URL发送网络请求获取数据,urllib提供多个子模块,具体模块名以及含义如下:

模块名称描述
urllib.request此模块定义了打开URL(主要是http)的方法和类
urllib.error此模块主要包含异常类,基本的异常类是URLError
urllib.parse此模块定义的功能分为两大类,URL解析和URL引用
urllib.robotparser此模块用于解析robots.txt文件

例如:通过urllib.request模块实现发送请求并读取网页内容示例如下:

上述代码是通过get请求获取网页内容,下面通过Post请求获取网页内容如下:

标签