Pandas urllib模块的用法及应用场景是什么
Admin 2022-08-27 群英技术资讯 515 次浏览
urllib
模块是 Python 标准库,其价值在于抓取网络上的 URL 资源,入门爬虫时必学的一个模块。
不过更多的爬虫工程师上手学习的模块已经更换为 requests 了。
在 Python3 中 urllib 模块包括如下内容。
urllib.request
:请求模块,用于打开和读取 URL;urllib.error
:异常处理模块,捕获 urllib.error
抛出异常;urllib.parse
:URL 解析,爬虫程序中用于处理 URL 地址;urllib.robotparser
:解析 robots.txt 文件,判断目标站点哪些内容可爬,哪些不可以爬,但是用的很少。打开一个测试站点,然后返回服务器响应内容。
from urllib.request import urlopen with urlopen('https://www.example.net') as html: page = html.read() print(page)
上述代码用到了 urllib.requests
模块,其内部定义了打开 URL 的函数,授权验证的方法,重定向,cookie 操作等方法。
代码中用到的 urlopen()
函数,就是打开一个 URL,该函数的语法格式如下所示:
urllib.request.urlopen(url, data=None, timeout=socket._GLOBAL_DEFAULT_TIMEOUT, *, cafile=None, capath=None, cadefault=False, context=None)
参数描述如下所示:
url
:请求地址;data
:发送到服务器的其他数据对象,默认为 None;timeout
:超时时间;cafile
和 capath
:cafile 为 CA 证书, capath 为 CA 证书的路径,使用 HTTPS 需要用到;context
:ssl.SSLContext 类型,用来指定 SSL 设置。调用该对象的 read()
方法,可以读取到整个网页数据。
其余的函数与文件读取类似,分别是 readline()
,readlines()
。
还可以调用对象的 getcode()
方法,获取网页状态码。
print(html.getcode()) # 返回 200
使用 urlopen()
可以得到一个 HTTPResposne
类型的对象,它包括上文提及的 read()
方法,getcode()
方法,除此之外,还有如下内容可以使用。
getheaders()
:获取请求头内容;getheader(name)
:获取指定请求头;msg
:信息属性;version
:版本属性;status
:状态属性。URL 请求抽象类,使用它可以扩展更多的请求配置,其构造方法如下所示:
def __init__(self, url, data=None, headers={}, origin_req_host=None, unverifiable=False, method=None)
其参数说明如下所示:
url
:请求地址,必选参数;data
:请求参数,必须为 bytes
类型数据,可以使用 urlencode()
进行编码;headers
:字典类型,请求头设置;origin_req_host
:请求的主机地址,IP 或域名;method
:请求方法。测试代码如下所示:
from urllib import request, parse url = 'http://httpbin.org/post' headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) 你的UA' } dict = { 'name': 'xiangpica' } # 转换数据类型 data = bytes(parse.urlencode(dict), encoding='utf8') # 实例化对象 req = request.Request(url=url, data=data, headers=headers, method='POST') # 添加请求头 req.add_header('HOST', 'httpbin.org') # 发送数据 response = request.urlopen(req) print(response.read().decode('utf-8'))
该模块主要用于解析 URL,函数原型如下所示:
urllib.parse.urlparse(urlstring, scheme='', allow_fragments=True)
参数说明如下:
urlstring
:URL 地址;scheme
:协议类型,可用的包括 file、ftp、gopher、hdl、http、https、imap、mailto、 mms、news、nntp、prospero、rsync、rtsp、rtspu、sftp、 sip、sips、snews、svn、svn+ssh、telnet……;allow_fragments
:是否忽略 URL 中的 fragment
部分。标准的 URL 格式如下:
scheme://netloc/path;params?query#fragment
说明如下所示:
scheme
:URL 协议;netloc
:域名和端口;path
:路径;params
:最后一个路径元素参数,不常用;query
:查询字符串;fragment
:片段标志。from urllib.parse import urlparse result = urlparse('http://www.example.com/index.html;info?id=10086#comment') print(type(result), result) print(result.scheme, result[0]) print(result.netloc, result[1]) print(result.path, result[2]) print(result.params, result[3]) print(result.query, result[4]) print(result.fragment, result[5])
运行结果如下所示:
<class 'urllib.parse.ParseResult'> ParseResult(scheme='http', netloc='www.example.com', path='/index.html', params='info', query='id=10086', fragment='comment')
http http
www.example.com www.example.com
/index.html /index.html
info info
id=10086 id=10086
comment comment
urlparse() 返回结果是一个
ParseResult
类型的对象。
其余内容
urlunparse()
方法与上述方法逻辑相反;urljoin()
方法用于拼接链接;urlencode()
:格式化请求参数;quote()
:将内容转换为 URL 编码格式,尤其是转换中文字符;unquote()
:对 URL 进行解码。在 urllib
中,error
模块定义异常,其包含如下类:
URLError
:OSError 的一个子类,用于处理程序在遇到问题时会引发此异常;HTTPError
:URLError 的一个子类,用于处理特殊 HTTP 错误例如作为认证请求的时候免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:mmqy2019@163.com进行举报,并提供相关证据,查实之后,将立刻删除涉嫌侵权内容。
猜你喜欢
之前小编带领大家认识了return和yield,知道了他们都是定义函数过程中返回值,都用在函数或方法体内,用于返回执行的结果,可是具体有什么区别呢?在什么时候用return,什么时候用yield呢?下面跟着小编的脚步来看看吧~
这篇文章主要给大家介绍了关于python学习之panda数据分析核心支持库的相关资料,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
PyCharm是一种Python IDE,带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具,下面这篇文章主要给大家介绍了关于利用PyCharm创建Django项目的简单步骤,需要的朋友可以参考下
如何理解Python中if语句,语法是什么?下文的讲解详细,步骤过程清晰,对大家进一步学习和理解相关知识有一定的帮助。有这方面学习需要的朋友就继续往下看吧!
这篇文章主要给大家分享Python字符串对齐的方法,包括ljust()、rjust() 和 center() 这三种方法都可以来文本对齐,感兴趣的朋友可以参考一下,希望大家阅读完这篇文章能有所收获,下面我们一起来学习一下吧。
成为群英会员,开启智能安全云计算之旅
立即注册Copyright © QY Network Company Ltd. All Rights Reserved. 2003-2020 群英 版权所有
增值电信经营许可证 : B1.B2-20140078 粤ICP备09006778号 域名注册商资质 粤 D3.1-20240008