这段时间一直都是比较忙,包括工作上的事情和生活上的事情,已经有一个月没有更新文章了;前段时间收集了很多的Kindle书籍,写爬虫的时候为了方便观察进度,要在控制台打印图书的资源的实时下载进度,今天就来说说如何实现这个小功能。
正文
首先,当我们请求Requests请求一个资源路径的时候,这个请求的响应体会被立即下载返回,这样的话我们就不能获取进度了,但是Requests为我们提供了stream流的方式来获取响应体,这样就有利于我们来获取实时的下载进度,例如下载IDEA:
1
2
|
request_url = ‘https://download.jetbrains.com/idea/ideaIU-2018.2.1.exe’
res = requests.get(request_url , stream=True)
|
当上面的语句被执行时,只有响应头被下载并返回给了我们,所以我们可以获取我们需要的数据,比如内容长度content-length
:
1
|
content_length = res.headers[‘content-length’]
|
然后我们再使用Response.iter_content来控制工作流,来遍历获取资源数据;另外在Python3中在打印内容开头加入\r
会使光标回到首行,并不会换行,这样就可以实现进度条的效果,所以最终的代码为:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
|
import requests
from contextlib import closing
if __name__ == ‘__main__’:
url = ‘https://download.jetbrains.com/idea/ideaIU-2018.2.1.exe’
with closing(requests.get(url, stream=True)) as response:
chunk_size = 1024 # 单次请求最大值
content_size = int(response.headers[‘content-length’]) # 内容体总大小
data_count = 0
with open(‘idea.exe’, “wb”) as file:
for data in response.iter_content(chunk_size=chunk_size):
file.write(data)
data_count = data_count + len(data)
now_jd = (data_count / content_size) * 100
print(“\r 文件下载进度:%d%%(%d/%d) – %s” % (now_jd, data_count, content_size, url), end=” “)
|
效果为:
1
|
文件下载进度:6%(36305920/540246736) – https://download.jetbrains.com/idea/ideaIU-2018.2.1.exe
|
当然,你也可以根据自己的喜爱调整输入的内容,比如模仿Centos的下载进度
=>>>>
实现这样的效果后记
人生就是在不断的学习与折腾中成长,殊为一边修习,一边休息。