博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python urllib的urlretrieve()函数解析
阅读量:6163 次
发布时间:2019-06-21

本文共 2184 字,大约阅读时间需要 7 分钟。

hot3.png

  • Chapter: 标准库:urllib/urllib2
  1. 1. 
  2. 2. 
  3. 3. 
  4. 4. 
  5. 5. 
  6. 6. 
  7. 7. 
  8. 8. 
  9. 9. 
  10. 10. 
  11. 11. 
  12. 12. 
  13. 13. 
  14. 14. 

下面我们再来看看  模块提供的 urlretrieve() 函数。urlretrieve() 方法直接将远程数据下载到本地。

1 >>> help(urllib.urlretrieve)
2 Help on function urlretrieve in module urllib:
3  
4 urlretrieve(url, filename=None, reporthook=None, data=None)
  • 参数 finename 指定了保存本地路径(如果参数未指定,urllib会生成一个临时文件保存数据。)
  • 参数 reporthook 是一个回调函数,当连接上服务器、以及相应的数据块传输完毕时会触发该回调,我们可以利用这个回调函数来显示当前的下载进度。
  • 参数 data 指 post 到服务器的数据,该方法返回一个包含两个元素的(filename, headers)元组,filename 表示保存到本地的路径,header 表示服务器的响应头。

下面通过例子来演示一下这个方法的使用,这个例子将 google 的 html 抓取到本地,保存在 D:/google.html 文件中,同时显示下载的进度。

01 import urllib
02 def cbk(a, b, c): 
03     '''回调函数
04     : 已经下载的数据块
05     @b: 数据块的大小
06     : 远程文件的大小
07     ''' 
08     per = 100.0 * * / 
09     if per > 100
10         per = 100 
11     print '%.2f%%' % per
12    
13 url = ''
14 local = 'd://google.html'
15 urllib.urlretrieve(url, local, cbk)

在 Python Shell 里执行如下:

01 Python 2.7.5 (default, May 15 201322:44:16) [MSC v.1500 64 bit (AMD64)] on win32
02 Type "copyright""credits" or "license()" for more information.
03 >>> import urllib
04 >>> def cbk(a, b, c): 
05     '''回调函数
06     : 已经下载的数据块
07     @b: 数据块的大小
08     @c: 远程文件的大小
09     ''' 
10     per = 100.0 * * / 
11     if per > 100
12         per = 100 
13     print '%.2f%%' % per
14  
15      
16 >>> url = ''
17 >>> local = 'd://google.html'
18 >>> urllib.urlretrieve(url, local, cbk)
19 -0.00%
20 -819200.00%
21 -1638400.00%
22 -2457600.00%
23 ('d://google.html', <httplib.HTTPMessage instance at 0x0000000003450608>)
24 >>>

下面是  下载文件实例,可以显示下载进度。

01 #!/usr/bin/python
02 #encoding:utf-8
03 import urllib
04 import os
05 def Schedule(a,b,c):
06     '''''
07     a:已经下载的数据块
08     b:数据块的大小
09     c:远程文件的大小
10    '''
11     per = 100.0 * * / c
12     if per > 100 :
13         per = 100
14     print '%.2f%%' % per
15 url = ''
16 #local = url.split('/')[-1]
17 local = os.path.join('/data/software','Python-2.7.5.tar.bz2')
18 urllib.urlretrieve(url,local,Schedule)
19 ######output######
20 #0.00%
21 #0.07%
22 #0.13%
23 #0.20%
24 #....
25 #99.94%
26 #100.00%

通过上面的练习可以知道,urlopen() 可以轻松获取远端 html 页面信息,然后通过 python 正则对所需要的数据进行分析,匹配出想要用的数据,在利用urlretrieve() 将数据下载到本地。对于访问受限或者对连接数有限制的远程 url 地址可以采用 proxies(代理的方式)连接,如果远程数据量过大,单线程下载太慢的话可以采用多线程下载,这个就是传说中的爬虫。

转载于:https://my.oschina.net/mickelfeng/blog/1550833

你可能感兴趣的文章
项目常用的PHP代码
查看>>
Python自动化开发学习22-Django下(Form)
查看>>
算法-排序
查看>>
获取SQL SERVER某个数据库中所有存储过程的参数
查看>>
在Linux下编译安装Apache2(2)
查看>>
Method Swizzling 处理一类简单的崩溃
查看>>
AngularJS学习!
查看>>
在Eclipse中搭建Python Django
查看>>
struts国际化
查看>>
Laravel 5.0 - Middleware (中间件)
查看>>
文件特殊权限及facl
查看>>
我的友情链接
查看>>
Android按两次返回键退出应用
查看>>
第一章:认识Redhat Linux
查看>>
文本查看指令
查看>>
我的友情链接
查看>>
android开源项目框架大全:《IT蓝豹》
查看>>
我的友情链接
查看>>
如何做地图标注
查看>>
js移除字符串的中文/空格
查看>>