python之网络爬虫

guan 12月 15, 2020 541 0

一、网络爬虫的基本原理：

网络爬虫的基本工作流程如下：

二、Python的网络请求：

在Python中实现HTTP网络请求常见的三种方式：

1、urllib模块：

urllib是Python自带模块，此模块提供了一个urlopen()方法，通过此方法指定URL发送网络请求获取数据，urllib提供多个子模块，具体模块名以及含义如下：

模块名称	描述
urllib.request	此模块定义了打开URL(主要是http)的方法和类
urllib.error	此模块主要包含异常类，基本的异常类是URLError
urllib.parse	此模块定义的功能分为两大类，URL解析和URL引用
urllib.robotparser	此模块用于解析robots.txt文件

例如：通过urllib.request模块实现发送请求并读取网页内容示例如下：

上述代码是通过get请求获取网页内容，下面通过Post请求获取网页内容如下：

近期文章