Python爬虫url错误如何引入urllib异常处理
Admin 2022-09-08 群英技术资讯 1188 次浏览
这篇文章主要介绍“Python爬虫url错误如何引入urllib异常处理”,有一些人在Python爬虫url错误如何引入urllib异常处理的问题上存在疑惑,接下来小编就给大家来介绍一下相关的内容,希望对大家解答有帮助,有这个方面学习需要的朋友就继续往下看吧。在我们写爬虫程序时,若出现url中的错误,那么我们就无法爬取我们想要的内容,对此,我们引入了urllib中的异常处理。
URL由6个部分组成:eg:
https://www.baidu.com/s?wd=易烊千玺
常见的端口号:
http(80) https(443) mysql(3306) oracle(1521) redis(6379) mongodb(27017)
通常来说,URLError报错通常为url地址中主机部分的错误:
实例:
url = 'https://www.baidu.com1/'
运行结果:
urllib.error.URLError: <urlopen error [Errno 11001] getaddrinfo failed
这个异常的通常是url地址中参数或是路径的错误。
实例:
url = 'https://www.jianshu.com/p/3388cf148dba1'
运行结果:
urllib.error.HTTPError: HTTP Error 404: Not Found
urllib.error 模块为 urllib.request 所引发的异常定义了异常类,基础异常类是 URLError。
urllib.error 包含了两个方法,URLError 和 HTTPError。
URLError 是 OSError 的一个子类,用于处理程序在遇到问题时会引发此异常(或其派生的异常)。
HTTPError 是 URLError 的一个子类,用于处理特殊 HTTP 错误例如作为认证请求的时候,包含的属性 code 为 HTTP 的状态码, reason 为引发异常的原因,headers 为导致 HTTPError 的特定 HTTP 请求的 HTTP 响应头。
用try except语句块捕获并处理异常,其基本语法结构如下所示:
try:可能产生异常的代码块
except [ (Error1, Error2, … ) [as e] ]:处理异常的代码块1
except [ (Error3, Error4, … ) [as e] ]:处理异常的代码块2
except [Exception]:处理其它异常
实例:
原url= ‘https://www.jianshu.com/p/3388cf148dba’
源码:
import urllib.request
import urllib.error
url = 'https://www.jianshu.com1/p/3388cf148dba'
# url的组成 eg:https://www.baidu.com/s?wd=易烊千玺
# 1.协议(http/https) 2.主机(www.baidu.com) 3.端口号(80/443) 4.路径(s) 5.参数(wd=易烊千玺) 6.锚点
# 常见的端口号
# http(80) https(443) mysql(3306) oracle(1521) redis(6379) mongodb(27017)
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36'
}
try:
request = urllib.request.Request(url = url,headers = headers)
response = urllib.request.urlopen(request)
content = response.read().decode('utf8')
print(content)
except urllib.error.HTTPError:
print('HTTP异常,请稍后!')
except urllib.error.URLError:
print('URL异常,请稍后!')
1.URLError
url = ‘https://www.jianshu.com1/p/3388cf148dba’
运行结果:

2.HTTPError
url = ‘https://www.jianshu.com/p/3388cf148dba111’
运行结果:

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:mmqy2019@163.com进行举报,并提供相关证据,查实之后,将立刻删除涉嫌侵权内容。
猜你喜欢
这篇文章主要介绍了Keras 多次加载model出错的解决方案,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
用matplotlib怎样画垂直线?Matplotlib是Python中使用最广泛的数据可视化库之一。本文给大家介绍是matplotlib画垂直线的方法,对于我们熟悉matplotlib有一定的帮助,下面我们一起来看看吧。
这篇文章主要介绍了python数据结构之递归讲解,递归是解决问题的一种方法,它将问题不断地分成更小的子问题,直到子问题可以用普通的方法解决。通常情况下,递归会使用一个不停调用自己的函数,下面来看看文章对此的详细介绍吧
遇到一个情况,需要进行递归操作,但是呢递归次数非常大,有一万多次。先不说一万多次递归,原来的测试代码是java的,没装jdk和编译环境,
这篇文章主要为大家介绍了PyTorch实现联邦学习的基本算法FedAvg,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
成为群英会员,开启智能安全云计算之旅
立即注册关注或联系群英网络
7x24小时售前:400-678-4567
7x24小时售后:0668-2555666
24小时QQ客服
群英微信公众号
CNNIC域名投诉举报处理平台
服务电话:010-58813000
服务邮箱:service@cnnic.cn
投诉与建议:0668-2555555
Copyright © QY Network Company Ltd. All Rights Reserved. 2003-2020 群英 版权所有
增值电信经营许可证 : B1.B2-20140078 ICP核准(ICP备案)粤ICP备09006778号 域名注册商资质 粤 D3.1-20240008