Python中csv文件合并的操作和方法是什么
Admin 2022-07-25 群英技术资讯 704 次浏览
将两个相同的csv文件进行数据合并,通过pandas的read_csv和to_csv来完成,即采用concat方法:
#加载第三方库 import pandas as pd import numpy as np #读取文件 df1 = pd.read_csv("文件-1.csv") df2 = pd.read_csv("文件-2.csv") #合并 df = pd.concat([df1,df2]) df.drop_duplicates() #数据去重 #保存合并后的文件 df.to_csv('文件.csv',encoding = 'utf-8')
也可以增加一列标签,以区别两个合并后的数据:
#加载第三方库 import pandas as pd import numpy as np #读取文件 df1 = pd.read_csv("文件-1.csv") df1["来自文件"] = "文件-1" df2 = pd.read_csv("文件-2.csv") df2["来自文件"] = "文件-2" #合并 df = pd.concat([df1,df2]) df.drop_duplicates() #数据去重 #保存合并后的文件 df.to_csv('文件.csv',encoding = 'utf-8')
在利用合并少量文件时,可以使用上面的concat方法。但是遇到大量的相同文件需要合并,此时应该进行批量合并,这可以减少工作量,提高操作效率。
利用Python批量合并csv,这里介绍使用的方法是引入glob模块。
glob模块是最简单的模块之一,内容少,它可以查找符合特定规则的文件路径名。
通过glob方法遍历所有文件,读取数据并追加保存到文件中。
import numpy as np import pandas as pd import glob import re csv_list = glob.glob('*.csv') print('共发现%s个CSV文件'% len(csv_list)) print('正在处理............') for i in csv_list: fr = open(i,'r',encoding='utf-8').read() with open('文件合集.csv','a',encoding='utf-8') as f: f.write(fr) print('合并完毕!')
以上方法是合并csv文件,要合并excel文件同理。
数据集介绍:本数据集是某化工系统的数据,一共有很多个月的,我这里就拿一个月的数据集,August_data(八月的数据集),一共有31个csv文件。
方法一 for循环遍历+os.listdir(directory_path)+[ for file in tqdm] + os.path.join(path,file)
import pandas as pd import numpy as np from tqdm import tqdm import os def get_data(path): df_list = [] for file in tqdm(os.listdir(path)):##进度条 file_path = os.path.join(path, file) df = pd.read_csv(file_path) df_list.append(df) df = pd.concat(df_list) return df cPath = '.\August_data' # cPath = 'F:/BaiduNetdiskDownload/宁东电厂数据及分析要求/宁东脱销系统优化-上海交大/SCR数据-2020-1/8月数据' #F:/BaiduNetdiskDownload/宁东电厂数据及分析要求/宁东脱销系统优化-上海交大/SCR数据-2020-1/8月数据 # uPath = str(cPath)#uPath = unicode(cPath,'utf-8') # dirs = os.listdir(TEST_PATH) # print(dirs) test_df = get_data(cPath) print(test_df.head()) # test_df.to_csv(path_or_buf="test.csv",index=False)#保存为CSV文件
方法二 glob方法
#!/usr/bin/env python # coding=utf-8 import glob import time import csv import pandas as pd from tqdm import tqdm # a new file #open all the CSV file #遍历文件夹下所有csv文件 TEST_PATH = '.\August_data' csv_list = glob.glob(f'{TEST_PATH}\*.csv') print('共有%s个CSV文件'% len(csv_list)) # print (csv_list) def get_data(): df_list = [] for csv_file in csv_list: df = pd.read_csv(csv_file) df_list.append(df) df = pd.concat(df_list) print("Loading Oer") return df get_data()
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:mmqy2019@163.com进行举报,并提供相关证据,查实之后,将立刻删除涉嫌侵权内容。
猜你喜欢
进行分组聚合求均值(mean)的的时候出现了以下异常: 但是求和(sum)却不会抛出异常。 异常原因,在进行数据处理的时候存在缺失值,而且被处理的列不是float同一类型
这篇文章主要介绍了Python 切片为什么不会索引越界?切片(slice)是 Python 中一种很有特色的特性,在正式开始之前,我们先来从关于切片的相关知识开始介绍,感兴趣的小伙伴一起参考参考呀</P><P>
这篇文章主要介绍了pytorch 实现打印网络回传梯度的操作,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
无论是Linux系统还是Windows系统都有基于文件名实现过滤、查找的功能。但是如果想要查找一些关于某些文件指定内容的文件,好像它们明面上没有这样的功能了。这个时候就可以通过 Python 来实现这样的功能,快跟随小编一起学习一下吧
需求背景最近为公司开发了一套邮件日报程序,邮件一般就是表格,图片,然后就是附件。附件一般都是默认写到txt文件里,但是PM希望邮件里的
成为群英会员,开启智能安全云计算之旅
立即注册Copyright © QY Network Company Ltd. All Rights Reserved. 2003-2020 群英 版权所有
增值电信经营许可证 : B1.B2-20140078 粤ICP备09006778号 域名注册商资质 粤 D3.1-20240008