Pandas怎样做在线文件读取功能,代码是什么
Admin 2022-08-05 群英技术资讯 1049 次浏览
本篇内容介绍了“Pandas怎样做在线文件读取功能,代码是什么”的有关知识,在实际项目的操作过程或是学习过程中,不少人都会遇到这样的问题,接下来就让小编带大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!大家好,我是Peter~
本文记录的是Pandas两种少用的读取文件方式:
声明:本文案例和在线数据仅用于学术分享
该函数表示的是直接读取在线的html文件,一般是表格的形式;将HTML的表格转换为DataFrame的一种快速方便的方法。
这个方法对于快速合并来自不同网页上的表格非常有用,就省去了爬取数据再来读取的时间。
具体函数的参数为:
pandas.read_html(io, # 文件 io 对象;路径或者io.Strings对象 match='.+', # str 或编译的正则表达式,可选 flavor=None, # 要使用的解析引擎, None是默认值 header=None, # 文件表头 index_col=None, # 索引 skiprows=None, # 跳过行 attrs=None, # 属性 parse_dates=False, # 日期解析 thousands=',', # 千分位 encoding=None, # 编码 decimal='.', # 识别为小数点的字符 converters=None, # 属性转换 na_values=None, # 空值信息 keep_default_na=True, # 是否保持空值 displayed_only=True # 是否应该解析带有“display:none” 的元素 )
读取维基百科上一份历届奥运会乒乓球冠军的相关数据。该地址下的部分表格形式的数据:


In [3]:
url = "https://zh.m.wikipedia.org/zh/%E5%A5%A5%E6%9E%97%E5%8C%B9%E5%85%8B%E8%BF%90%E5%8A%A8%E4%BC%9A%E4%B9%92%E4%B9%93%E7%90%83%E5%A5%96%E7%89%8C%E5%BE%97%E4%B8%BB%E5%88%97%E8%A1%A8" df = pd.read_html(url) df
Out[3]:
我们观察到此时读取到的df是一个列表,总长度是15
list
In [4]:
len(df)
Out[4]:
9
查看列表中的部分元素:此时就是一个个的DataFrame形式的数据


一个国外网站下的数据

In [7]:
df1 = pd.read_html("https://www.fdic.gov/resources/resolutions/bank-failures/failed-bank-list")
type(df1)
Out[7]:
list
In [8]:
len(df1)
Out[8]:
1
In [9]:
df1[0]
Out[9]:

以读取GitHub上一个CSV文件为例:
方式1:直接读取
url="https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv" pd.read_csv(url)

方式2:通过io.Strings对象
url="https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv"
response=requests.get(url).content # 先发请求
df2 = pd.read_csv(io.StringIO(response.decode('utf-8')))
df2 # 效果同上
pandas.read_clipboard(sep='\\s+', **kwargs)

官网地址
一个简单的例子说明函数使用:假设本地目录下有这样Excel表格的数据

1、先剪贴数据:【Ctrl + C】

2、运行代码下面的代码,按下MacOS中的【向上的箭头】 + 【回车键】,完成读取
Windows下面应该是【Shift + Enter】
如果数据比较少,省去了通过Excel或者CSV文件的读取方式的时间:

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:mmqy2019@163.com进行举报,并提供相关证据,查实之后,将立刻删除涉嫌侵权内容。
猜你喜欢
这篇文章主要介绍了python中的断言(assert语句),具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
大家好,本篇文章主要讲的是Python扑克牌21点游戏实例代码,感兴趣的同学赶快来看一看吧,对你有帮助的话记得收藏一下,方便下次浏览
这篇文章主要为大家介绍了Python开启尾递归优化的实现示例,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
1、collections--基于Python自带的数据类型之上额外增加的几个数据类型fromcollectionsimport*在内置数据类型(dict、list、set、tuple)的基础上,collections模块还提供了几个额外的数据类型:Counter、deque、defaultdict、namedtuple和OrderedDict以及判断什么是可迭
这篇文章主要为大家介绍了基于Python如何实现评论区抽奖的功能,文章的示例代码讲解详细,对我们学习Python有一定帮助,需要的朋友可以学习一下
成为群英会员,开启智能安全云计算之旅
立即注册关注或联系群英网络
7x24小时售前:400-678-4567
7x24小时售后:0668-2555666
24小时QQ客服
群英微信公众号
CNNIC域名投诉举报处理平台
服务电话:010-58813000
服务邮箱:service@cnnic.cn
投诉与建议:0668-2555555
Copyright © QY Network Company Ltd. All Rights Reserved. 2003-2020 群英 版权所有
增值电信经营许可证 : B1.B2-20140078 ICP核准(ICP备案)粤ICP备09006778号 域名注册商资质 粤 D3.1-20240008