pandas缺失值处理的实现及要点是什么
Admin 2022-09-30 群英技术资讯 1153 次浏览
在这篇文章中,我们来学习一下“pandas缺失值处理的实现及要点是什么”的相关知识,下文有详细的讲解,易于大家学习和理解,有需要的朋友可以借鉴参考,下面就请大家跟着小编的思路一起来学习一下吧。有的时候我们可能需要获取一些缺失值的信息,因此我们需要获取这些缺失值在DataFrame中的位置。
假如我们的DataFrame的索引为数值顺序索引,要返回缺失值的位置
import numpy as np import pandas as pd
我们首先构建一个有缺失值的DataFrame
df = pd.DataFrame({'A':[1, 2, 3, np.nan],
'B':[2, np.nan, 4, 6],
'C':[3, 2, np.nan, 3],
'D':[np.nan, 1, np.nan, 2]})
display(df)

首先我们可以查看每列中是否有缺失值
df.isnull().any()

我们发现四个columns均有缺失值,比如我们想知道每列的缺失值的具体位置,以A为例
df.isnull().any()

可以看到返回了A的缺失值位置的索引,这样在定位的时候使用loc函数就可以直接定位到缺失值方便查看了.
如果我们想生成一个字典来存储全部的缺失值位置信息,可以用:
a = df.isnull().any()
a = a.loc[a==True]
columns = a.index.tolist()
mydict = {}#创建一个字典来存储所有的位置
temp = []
for column in columns:
temp = df.loc[df[column].isnull()].index.tolist()
mydict[column] = temp
mydict

#!/usr/bin/evn python
# -*-coding:utf8 -*-
import pandas as pd
data = [[None, None, 90, 80],[57, 43, 89, 65],[78, 50, 67, 78],[None, 78, 90, 73],[67, 45, 78, 76],[77, 88, None, 45],[52, 110, 120, 99],[131, 13, 32, 12]]
index = ['语文', '英语', '数学', '政治', '物理', '化学', '生物', '地理']
column = ['张三', '李四', '王五', '周六']
data = pd.DataFrame(data,index=index,columns=column)
print(data)
print("=========================================================\n")
for columname in data.columns:
if data[columname].count() != len(data):
loc = data[columname][data[columname].isnull().values==True].index.tolist()
print('列名:"{}", 第{}行位置有缺失值'.format(columname,loc))
执行结果
F:\Opensources\python\python.exe D:/pythonStudy/EXCELDB/LagelangriCZ_test.py
张三 李四 王五 周六
语文 NaN NaN 90.0 80
英语 57.0 43.0 89.0 65
数学 78.0 50.0 67.0 78
政治 NaN 78.0 90.0 73
物理 67.0 45.0 78.0 76
化学 77.0 88.0 NaN 45
生物 52.0 110.0 120.0 99
地理 131.0 13.0 32.0 12
=========================================================
列名:"张三", 第['语文', '政治']行位置有缺失值
列名:"李四", 第['语文']行位置有缺失值
列名:"王五", 第['化学']行位置有缺失值
Process finished with exit code 0
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:mmqy2019@163.com进行举报,并提供相关证据,查实之后,将立刻删除涉嫌侵权内容。
猜你喜欢
这篇文章主要为大家介绍了python实现GATK多线程加速示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
我们可以通过列表生成式简单直接地创建一个列表,但是受到内存限制,列表容量肯定是有限的。而且,创建一个包含100万个元素的列表,不仅占
animegan2-pytorch机器学习项目可以实现照片动漫化,本文将为大家详细介绍一下如何使用这一项目,感兴趣的小伙伴快来跟随小编一起学习吧
python中集合set是一个无序不重复元素的集,基本功能包括关系测试和消除重复元素,还可以计算交集、差集、并集等,它与列表(list)的行为类似,这篇文章主要介绍了python set()去重的底层原理,需要的朋友可以参考下
链表的定义:链表(linkedlist)是由一组被称为结点的数据元素组成的数据结构,每个结点都包含结点本身的信息和指向下一个结点的地址。由于每个结点都包含了可以链接起来的地址信息,所以用一个变量就能够访问整个结点序列。也就是说,结点包含两部分信息:一部分用于存储数据元素的值,称为信息域;另一部分用于存储下一个数据元素地址的指针,称为指针域。链表中的第一个结点的地址存储在一个单独的结点中,称
成为群英会员,开启智能安全云计算之旅
立即注册关注或联系群英网络
7x24小时售前:400-678-4567
7x24小时售后:0668-2555666
24小时QQ客服
群英微信公众号
CNNIC域名投诉举报处理平台
服务电话:010-58813000
服务邮箱:service@cnnic.cn
投诉与建议:0668-2555555
Copyright © QY Network Company Ltd. All Rights Reserved. 2003-2020 群英 版权所有
增值电信经营许可证 : B1.B2-20140078 ICP核准(ICP备案)粤ICP备09006778号 域名注册商资质 粤 D3.1-20240008