requests爬虫

知识点:
  • 掌握 headers参数的使用

  • 掌握 发送带参数的请求

  • 掌握 headers中携带cookie

  • 掌握 cookies参数的使用

  • 掌握 cookieJar的转换方法

  • 掌握 超时参数timeout的使用

  • 掌握 代理ip参数proxies的使用

  • 掌握 使用verify参数忽略CA证书

  • 掌握 requests模块发送post请求

  • 掌握 利用requests.session进行状态保持

requests模块介绍

requests模块的作用:

python中使用requests主要的目的发送http请求,获取响应数据

requests模块是一个第三方模块,需要在你的python或python虚拟环境中进行额外安装

pip/pip3 install requests

[root@i-5ldjtnzd ~]# pip install requests
DEPRECATION: Python 2.7 reached the end of its life on January 1st, 2020. Please upgrade your Python as Python 2.7 is no longer maintained. pip 21.0 will drop support for Python 2.7 in January 2021. More details about Python 2 support in pip can be found at https://pip.pypa.io/en/latest/development/release-process/#python-2-support pip 21.0 will remove support for this functionality.
Requirement already satisfied: requests in /usr/lib/python2.7/site-packages (2.6.0)

1.3 requests模块发送get请求

接下来我们来学习如何在代码中实现我们的爬虫

需求:通过requests向百度首页发送请求,获取该页面的源码

运行下面的代码,观察打印输出的结果

# requests 简单的爬虫代码实现
import requests 
​
# 目标url
url = 'https://www.baidu.com' 
​
# 向目标url发送get请求
response = requests.get(url)
​
# 打印响应内容
print(response.text)

通过 python print 打印的html如下:

<!DOCTYPE html>
<!--STATUS OK-->
省略显现百度网页爬取的内容

知识点:掌握 requests模块发送get请求