Python中如何对数据分组，代码是什么-群英

上一篇：Python3函数的常见应用及代码是什么下一篇：python双下方法有哪些，怎样应用的

在实际应用中，我们有时候会遇到“Python中如何对数据分组，代码是什么”这样的问题，我们该怎样来处理呢？下文给大家介绍了解决方法，希望这篇“Python中如何对数据分组，代码是什么”文章能帮助大家解决问题。

假设我们有这样一种数据：

data=[
("apple",30),("apple",35),
("apple",32),("pear",60),
("pear",32),("pear",60),
("banana",102),("banana",104)
]

#我们希望变成如下格式
"""
[('apple',[30,35,32]),
('pear',[60,32,60]),
('banana',[102,104])]
"""

如果是你的话，你会怎么做呢？很容易想到的一种解决方案是构造一个字典：

data=[
("apple",30),("apple",35),
("apple",32),("pear",60),
("pear",32),("pear",60),
("banana",102),("banana",104)
]

data_dict={}
forname,countindata:
ifnamenotindata_dict:
data_dict[name]=[]
data_dict[name].append(count)
print(data_dict)
"""
{'apple':[30,35,32],
'pear':[60,32,60],
'banana':[102,104]}
"""
print(list(data_dict.items()))
"""
[('apple',[30,35,32]),
('pear',[60,32,60]),
('banana',[102,104])]
"""

这种方案完全没有问题，不过我们还可以写的更优雅一些，也就是使用字典的 setdefault 方法：

data=[
("apple",30),("apple",35),
("apple",32),("pear",60),
("pear",32),("pear",60),
("banana",102),("banana",104)
]

data_dict={}
forname,countindata:
#setdefault(k,v)含义如下
#当k不存在时，将k:v设置在字典中，并返回v
#当k存在时，直接返回k对应值
data_dict.setdefault(name,[]).append(count)

print(list(data_dict.items()))
"""
[('apple',[30,35,32]),
('pear',[60,32,60]),
('banana',[102,104])]
"""

setdefault 是一个非常方便的方法，但是使用频率却不怎么高，或者说该方法不太让人喜欢。主要是每次调用都要给一个初始值，比如代码中的空列表 []。另外这里的初始值可以任意，如果你希望添加的时候还能实现去重效果，那么就将空列表换成空集合即可。

或者我们还可以使用 defaultdict，它位于 collections 模块中。

fromcollectionsimportdefaultdict

data=[
("apple",30),("apple",35),
("apple",32),("pear",60),
("pear",32),("pear",60),
("banana",102),("banana",104)
]

#里面接收一个callable
#当访问的k不存在时，返回callable调用之后的值
data_dict1=defaultdict(list)
forname,countindata:
data_dict1[name].append(count)

print(list(data_dict1.items()))
"""
[('apple',[30,35,32]),
('pear',[60,32,60]),
('banana',[102,104])]
"""

#也可以指定为set
data_dict2=defaultdict(set)
forname,countindata:
data_dict2[name].add(count)

print(list(data_dict2.items()))
"""
[('apple',{32,35,30}),
('pear',{32,60}),
('banana',{104,102})]
"""

总的来说，defaultdict 和字典的 setdefault 方法非常类似，我们使用 setdefault 即可。

当然啦，关于分组，还有一种特殊情况，就是词频统计。假设我们想统计可迭代对象中，每个元素出现的次数该怎么做呢？

data=["apple","apple","apple",
"pear","pear","pear",
"banana","banana"]

data_dict={}
foritemindata:
#此处不能使用setdefault，因为它是函数
#.setdefault(item,0)+=1是不符合语法规则的
ifitemnotindata_dict:
data_dict[item]=0
data_dict[item]+=1

print(data_dict)
"""
{'apple':3,'pear':3,'banana':2}
"""

#或者使用defaultdict
fromcollectionsimportdefaultdict
data_dict=defaultdict(int)
foritemindata:
data_dict[item]+=1
print(data_dict)
"""
defaultdict(<class'int'>,
{'apple':3,'pear':3,'banana':2})
"""

然而说到词频统计，我们还可以使用 collections 下的 Counter 类。

fromcollectionsimportCounter

data=["apple","apple","apple",
"pear","pear","pear",
"banana","banana"]

data_dict=Counter(data)
#直接搞定，Counter已经包含了我们之前的逻辑
print(data_dict)
"""
Counter({'apple':3,'pear':3,'banana':2})
"""
#Counter继承dict，除了支持字典操作之外
#还提供了很多其它操作，其中一个就是most_common
#用于选择出现频率最高的几个元素
print(data_dict.most_common(2))
"""
[('apple',3),('pear',3)]
"""

还是很简单的

到此，关于“Python中如何对数据分组，代码是什么”的学习就结束了，希望能够解决大家的疑惑，另外大家动手实践也很重要，对大家加深理解和学习很有帮助。如果想要学习更多的相关知识，欢迎关注群英网络，小编每天都会给大家分享实用的文章!