Python中如何对数据分组,代码是什么
Admin 2022-10-18 群英技术资讯 933 次浏览
在实际应用中,我们有时候会遇到“Python中如何对数据分组,代码是什么”这样的问题,我们该怎样来处理呢?下文给大家介绍了解决方法,希望这篇“Python中如何对数据分组,代码是什么”文章能帮助大家解决问题。假设我们有这样一种数据:
data=[
("apple",30),("apple",35),
("apple",32),("pear",60),
("pear",32),("pear",60),
("banana",102),("banana",104)
]
#我们希望变成如下格式
"""
[('apple',[30,35,32]),
('pear',[60,32,60]),
('banana',[102,104])]
"""
如果是你的话,你会怎么做呢?很容易想到的一种解决方案是构造一个字典:
data=[
("apple",30),("apple",35),
("apple",32),("pear",60),
("pear",32),("pear",60),
("banana",102),("banana",104)
]
data_dict={}
forname,countindata:
ifnamenotindata_dict:
data_dict[name]=[]
data_dict[name].append(count)
print(data_dict)
"""
{'apple':[30,35,32],
'pear':[60,32,60],
'banana':[102,104]}
"""
print(list(data_dict.items()))
"""
[('apple',[30,35,32]),
('pear',[60,32,60]),
('banana',[102,104])]
"""
这种方案完全没有问题,不过我们还可以写的更优雅一些,也就是使用字典的 setdefault 方法:
data=[
("apple",30),("apple",35),
("apple",32),("pear",60),
("pear",32),("pear",60),
("banana",102),("banana",104)
]
data_dict={}
forname,countindata:
#setdefault(k,v)含义如下
#当k不存在时,将k:v设置在字典中,并返回v
#当k存在时,直接返回k对应值
data_dict.setdefault(name,[]).append(count)
print(list(data_dict.items()))
"""
[('apple',[30,35,32]),
('pear',[60,32,60]),
('banana',[102,104])]
"""
setdefault 是一个非常方便的方法,但是使用频率却不怎么高,或者说该方法不太让人喜欢。主要是每次调用都要给一个初始值,比如代码中的空列表 []。另外这里的初始值可以任意,如果你希望添加的时候还能实现去重效果,那么就将空列表换成空集合即可。
或者我们还可以使用 defaultdict,它位于 collections 模块中。
fromcollectionsimportdefaultdict
data=[
("apple",30),("apple",35),
("apple",32),("pear",60),
("pear",32),("pear",60),
("banana",102),("banana",104)
]
#里面接收一个callable
#当访问的k不存在时,返回callable调用之后的值
data_dict1=defaultdict(list)
forname,countindata:
data_dict1[name].append(count)
print(list(data_dict1.items()))
"""
[('apple',[30,35,32]),
('pear',[60,32,60]),
('banana',[102,104])]
"""
#也可以指定为set
data_dict2=defaultdict(set)
forname,countindata:
data_dict2[name].add(count)
print(list(data_dict2.items()))
"""
[('apple',{32,35,30}),
('pear',{32,60}),
('banana',{104,102})]
"""
总的来说,defaultdict 和字典的 setdefault 方法非常类似,我们使用 setdefault 即可。
当然啦,关于分组,还有一种特殊情况,就是词频统计。假设我们想统计可迭代对象中,每个元素出现的次数该怎么做呢?
data=["apple","apple","apple",
"pear","pear","pear",
"banana","banana"]
data_dict={}
foritemindata:
#此处不能使用setdefault,因为它是函数
#.setdefault(item,0)+=1是不符合语法规则的
ifitemnotindata_dict:
data_dict[item]=0
data_dict[item]+=1
print(data_dict)
"""
{'apple':3,'pear':3,'banana':2}
"""
#或者使用defaultdict
fromcollectionsimportdefaultdict
data_dict=defaultdict(int)
foritemindata:
data_dict[item]+=1
print(data_dict)
"""
defaultdict(<class'int'>,
{'apple':3,'pear':3,'banana':2})
"""
然而说到词频统计,我们还可以使用 collections 下的 Counter 类。
fromcollectionsimportCounter
data=["apple","apple","apple",
"pear","pear","pear",
"banana","banana"]
data_dict=Counter(data)
#直接搞定,Counter已经包含了我们之前的逻辑
print(data_dict)
"""
Counter({'apple':3,'pear':3,'banana':2})
"""
#Counter继承dict,除了支持字典操作之外
#还提供了很多其它操作,其中一个就是most_common
#用于选择出现频率最高的几个元素
print(data_dict.most_common(2))
"""
[('apple',3),('pear',3)]
"""
还是很简单的
到此,关于“Python中如何对数据分组,代码是什么”的学习就结束了,希望能够解决大家的疑惑,另外大家动手实践也很重要,对大家加深理解和学习很有帮助。如果想要学习更多的相关知识,欢迎关注群英网络,小编每天都会给大家分享实用的文章!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:mmqy2019@163.com进行举报,并提供相关证据,查实之后,将立刻删除涉嫌侵权内容。
猜你喜欢
这篇文章主要介绍python中polars库的使用,相比Pandas库,polars库具有更快数据处理速度,因此分享给大家做个参考,希望大家阅读完这篇文章能有所收获,下面我们一起了解看看。
使用python怎样实现图片反转效果?很多朋友对于怎样做图片和视频的反转效果比较感兴趣,其实实现思路并不困难,这篇文章就给大家分享一下python实现图片和视频反转效果的代码,感兴趣的朋友可以参考。
Turtle库是Python语言中一个很流行的绘制图像的函数库,想象一个小乌龟,在一个横轴为x、纵轴为y的坐标系原点,(0,0)位置开始,这篇文章主要给大家介绍了关于如何利用python turtle绘图自定义画布背景颜色的相关资料,需要的朋友可以参考下
这篇文章主要介绍了Django项目如何给数据库添加约束,帮助大家更好的理解和学习使用Django框架,感兴趣的朋友可以了解下
我们经常想要统计项目的代码行数,但是如果想统计功能比较完善可能就不是那么简单了, 今天我们来看一下如何用python来实现一个代码行统计
成为群英会员,开启智能安全云计算之旅
立即注册关注或联系群英网络
7x24小时售前:400-678-4567
7x24小时售后:0668-2555666
24小时QQ客服
群英微信公众号
CNNIC域名投诉举报处理平台
服务电话:010-58813000
服务邮箱:service@cnnic.cn
投诉与建议:0668-2555555
Copyright © QY Network Company Ltd. All Rights Reserved. 2003-2020 群英 版权所有
增值电信经营许可证 : B1.B2-20140078 ICP核准(ICP备案)粤ICP备09006778号 域名注册商资质 粤 D3.1-20240008