MOOC_Python网络爬虫与信息提取课程笔记(一)
1.网络爬虫的requests库:
import requests
r=requests.get("http://www.baidu.com")
r.status_code#返回状态编码
结果返回为200,表示连接成功,404则表示连接失败
import requests
r=requests.get("http://www.baidu.com")
r.status_code
r.encoding='utf-8'#相映的编码形式
r.text#打印网页内容
requests库的7个主要用法:
image.png request.get(url,params=None,**kwargs)
url为抓取页面的url链接
params为url中的额外参数,字典或字节流的格式,可选
**kwargs:12个控制方位的参数
response对象的属性:
image.png 两种编码的区别:

文章图片
image.png
encoding方法只分析头部内容,而apparent_encoding方法根据内容分析编码的格式,所以apparent_encoding方法更加准确
requests库的异常:

文章图片
image.png 爬取网页的通用代码框架:

文章图片
image.png
这里使用了raise_for——status方法获得抓取网页的状态,如果错误则触发异常
HTTP协议:超文本传输协议的格式:
image.png eg:htttp://220.181.111.188/duty 指的是IP地址220.181.111.188的主机上的duty这样的一个文件夹下的资源

文章图片
image.png
requests库中的request方法:
reequest实际上是requests库的唯一方法,其他的都是利用request方法封装的方法
image.png 利用params参数可以在url中增加参数
image.png data参数
image.png json参数
image.png headers参数
image.png files参数:可以向特定url传输文件

文章图片
image.png timeout参数:
image.png proxies参数:
image.png 【MOOC_Python网络爬虫与信息提取课程笔记(一)】其他参数:
image.png
image.png
推荐阅读
- parallels|parallels desktop 解决网络初始化失败问题
- 猎杀IP
- python学习之|python学习之 实现QQ自动发送消息
- 逻辑回归的理解与python示例
- python自定义封装带颜色的logging模块
- 【Leetcode/Python】001-Two|【Leetcode/Python】001-Two Sum
- Python基础|Python基础 - 练习1
- 自媒体形势分析
- 数学大作战
- Python爬虫|Python爬虫 --- 1.4 正则表达式(re库)