安装 requests
pip
install requests
import requests
下面我们来看一下requests库的几种常用高级用法
会话对象
会话对象可以跨请求保持某些参数,在同一个 Session 实例发出的所有请求之间保持 cookie,会话也可用来为请求方法提供缺省的数据;
from requests
import Session
s
= Session
()
r
= s
.get
('http://www.baidu.com')
print(r
)
print(r
.cookies
)
r
= s
.get
('https://www.csdn.net/')
print(r
.text
)
我们可以拿到一个名为 r 的 Response 对象,然后在这个对象中获取所有我们想要的信息,大家可以自己执行代码看看输出结果。
会话还可以作为上下文管理器,这样就能确保 with 区块退出后即使发生了异常会话能被关闭;
import requests
with requests
.get
('http://httpbin.org/get', stream
=True) as r
:
print(r
.text
)
任何时候进行了类似requests.get()的调用,都在做两件主要的事情,一个是在构建一个 Request 对象, 该对象将被发送到某个服务器请求或查询一些资源,其二是一旦 requests 得到一个从服务器返回的响应就会产生一个 Response 对象。该响应对象包含服务器返回的所有信息,也包含你原来创建的 Request 对象;
使用Prepared Request对象
当你从 API 或者session会话调用中收到一个 Response 对象时,request 属性其实是使用了 Prepared Request对象。
from requests
import Request
, Session
s
= Session
()
req
= Request
('GET', url
,
data
=data
,
headers
=header
)
prepped
= req
.prepare
()
resp
= s
.send
(prepped
,
stream
=stream
,
verify
=verify
,
proxies
=proxies
,
cert
=cert
,
timeout
=timeout
)
print(resp
.status_code
)
SSL 证书验证
Requests 可以为 HTTPS 请求验证 SSL 证书,就像 web 浏览器一样。verify 默认参数就是true,开启SSL 验证,如果将 verify 设置为 False,则会忽略对 SSL 证书的验证,但是会有警告,需要使用urllib3.disable_warnings();
import requests
import urllib3
urllib3
.disable_warnings
()
ret
= requests
.get
('https://github.com', verify
=True)
print(ret
.status_code
)
ret
= requests
.get
('https://github.com', verify
=False)
print(ret
.status_code
)
流式上传
Requests支持流式上传,允许发送大的数据流或文件而无需先把它们读入内存,要使用流式上传,需要为请求体提供一个类文件对象;
with open('massive-body', 'rb') as f
:
requests
.post
('http://some.url/streamed', data
=f
)
与requests
.post
("http://httpbin.org/post", files
=files
)不一样
块编码请求
当下载大文件时,用Response.iter_content或许更方便些。requests.get(url)默认是下载在内存中的,下载完成才存到硬盘上,可以用Response.iter_content来边下载边存
import requests
url
= "http://DOMAIN/media/1.mp4"
ret
= requests
.get
(url
, stream
=True)
with open('1.mp4', 'wb') as f
:
for block
in ret
.iter_content
(chunk_size
=1024):
f
.write
(block
)
POST 多个分块编码的文件
使用POST表单提交的方式可以在一个请求中发送多个文件,只需要把文件设到一个元组的列表中。 例如,假设你要上传多个图像文件到一个 HTML 表单,使用一个多文件 field 叫做 “images”:
<input type="file" name="images" multiple="true" required="true"/>
然后把文件设到一个元组的列表中,其中元组结构为 (form_field_name, file_info):
import requests
url
= 'http://httpbin.org/post'
multiple_files
= [
('images', ('foo.png', open('foo.png', 'rb'), 'image/png')),
('images', ('bar.png', open('bar.png', 'rb'), 'image/png'))]
r
= requests
.post
(url
, files
=multiple_files
)
print(r
.text
)
设置Proxy代理
如果需要使用代理,可以通过为任意请求方法提供 proxies 参数来往请求中设置代理,还可以传递用户名和密码;
import requests
proxies
= {
"http": "http://23.10.1.10:80",
"https": "https://23.10.1.11:80",
}
r
= requests
.get
("https://www.baidu.com", proxies
=proxies
)
print(r
.status_code
)
proxies
= {
"http": "http://user:password@227.1.0.1:9999/",
}
r
= requests
.get
("https://www.baidu.com", proxies
=proxies
)
print(r
.status_code
)
proxies
= {
'http': 'socks5://127.0.0.1:1080',
'https': 'socks5://127.0.0.1:1080'
}
r
= requests
.get
("https://www.facebook.com", proxies
=proxies
)
print(r
.status_code
)