python pandas遍历并筛选的方法是什么
Admin 2022-09-13 群英技术资讯 790 次浏览
这篇文章主要介绍了“python pandas遍历并筛选的方法是什么”相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇python pandas遍历并筛选的方法是什么文章都会有所收获,下面我们一起来看看吧。
本次记录主要实现对每行进行排序,并保留前80%以前的偏好。
思路:
将每行的概率进行排序,然后累加,累加值小于等于0.8的偏好保留,获得一个累加过滤的dataframe,然后映射回原始数据中,保留每行的偏好。接下来是代码的实现
a = [[0.2, 0.35, 0.45], [0.1,0.2, 0.7], [0.3, 0.5, 0.2]] data = pd.DataFrame(a, index=['user1','user2','user3'], columns=["a", "b", "c"])
sum_df=[]
for index,row in data.iterrows():
df = row.sort_values(ascending=False).cumsum()
if df[0]>0.8:
new_df = df[:1]
else:
new_df = df[df<=0.8]
sum_df.append(new_df)
sum_df = pd.DataFrame(sum_df)
print(sum_df)

这是累加之后每个用户保留的前80%偏好的类型,接下来如何将这个特征映射回去,将累加后的dataframe通过空值将其转化为0-1dataframe,再和原数据集一一对应相乘,就可以映射回去了,代码如下
d = (sum_df.notnull())*1 print(d)

final_df = d*data #将保留地特征映射到原始数据中 print(final_df)

本节内容目标明确,实现了每个用户的前80%偏好,不知道正在看的小伙伴有没有懂?可以一起讨论哦!
接下来,考虑优化这个实现的代码,前面的思路是通过两个dataframe相乘实现的,当数据集非常大的时候,效率很低,于是不用list,利用字典的形式实现
sum_df=[]
for index,row in data.iterrows():
df = row.sort_values(ascending=False).cumsum()
origin = row.to_dict() #原始每个用户值
if df[0]>0.8:
new_df = df[:1]
else:
new_df = df[df<=0.8]
name = new_df.name #user
tmp = new_df.to_dict()
for key in tmp.keys(): # 原始值映射
tmp[key] = origin[key]
tmp['user'] = name
sum_df.append(tmp)
sum_df = pd.DataFrame(sum_df).set_index('user').fillna(0)
print(sum_df)

通过字典映射效率很高,新测有效!
在数据分析的过程中,往往需要用到DataFrame的类型,因为这个类型就像EXCEL表格一样,便于我们个中连接、计算、统计等操作。在数据分析的过程中,避免不了的要对数据进行遍历,那么,DataFrame如何遍历呢?之前,小白每次使用时都是Google或百度,想想,还是总结一下~
小白经常用到的有三种方式,如下:
首先,先读入一个DataFrame
import pandas as pd
#读入数据
df = pd.read_table('d:/Users/chen_lib/Desktop/tmp.csv',sep=',', header='infer')
df.head()
-----------------result------------------
mas effectdate num
0 371379 2019-07-15 361
1 344985 2019-07-13 77
2 425090 2019-07-01 105
3 344983 2019-02-19 339
4 432430 2019-02-21 162
将DataFrame的每一行迭代为{索引,Series}对,对DataFrame的列,用row['cols']读取元素
for index, row in df.iterrows(): print(index,row['mas'],row['num']) ------------result--------------- 0 371379 361 1 344985 77 2 425090 105 3 344983 339 4 432430 162
从结果可以看出,第一列就是对应的index,也就是索引,从0开始,第二第三列是自定义输出的列,这样就完成了对DataFrame的遍历。
将DataFrame的每一行迭代为元祖,可以通过row['cols']对元素进行访问,方法一效率高。
for row in df.itertuples(): print(getattr(row, 'mas'), getattr(row, 'num')) # 输出每一行 -------------result----------------- 371379 361 344985 77 425090 105 344983 339 432430 162
从结果可以看出,这种方法是没有index的,直接输出每一行的结果。
这种方法和上面两种不同,这个是按列遍历,将DataFrame的每一列迭代为(列名, Series)对,可以通过row['cols']对元素进行访问。
for index, row in df.iteritems(): print(index,row[0],row[1],row[2]) -------------result------------------ masterhotelid 371379 344985 425090 effectdate 2019-07-15 2019-07-13 2019-07-01 quantity 361 77 105
从结果可以看出,index输出的是列名,row是用来读取第几行的数据,结果是按列展示
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:mmqy2019@163.com进行举报,并提供相关证据,查实之后,将立刻删除涉嫌侵权内容。
猜你喜欢
telepath库它提供了一种将包括Python对象在内的结构化数据打包为JSON可序列化格式的机制。通过向相应的JavaScript实现注册该机制,可以扩展该机制以支持任何Python类。然后,打包的数据可以包含在HTTP响应中,并在JavaScript中解压缩以获得与原始数据等效的数据结构。
这篇文章主要介绍了python中的编码和解码及\x和\u问题,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
其实在Python中,我们也可以用numpy进行图片处理,今天一起来学习下吧。
这篇文章主要给大家分享关于python字符串去除空格的内容。我们在处理Python代码字符串时,可能在字符串开头或结尾有空格,那么我们就要去除空格,下面小编整理了一些python字符串去除空格的方法,供大家参考。
这篇文章主要介绍了Python中end=和sep=的区别说明,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
成为群英会员,开启智能安全云计算之旅
立即注册关注或联系群英网络
7x24小时售前:400-678-4567
7x24小时售后:0668-2555666
24小时QQ客服
群英微信公众号
CNNIC域名投诉举报处理平台
服务电话:010-58813000
服务邮箱:service@cnnic.cn
投诉与建议:0668-2555555
Copyright © QY Network Company Ltd. All Rights Reserved. 2003-2020 群英 版权所有
增值电信经营许可证 : B1.B2-20140078 粤ICP备09006778号 域名注册商资质 粤 D3.1-20240008