Python中文本文件拆分的步骤和方法是什么
Admin 2022-07-15 群英技术资讯 1260 次浏览
在实际应用中,我们有时候会遇到“Python中文本文件拆分的步骤和方法是什么”这样的问题,我们该怎样来处理呢?下文给大家介绍了解决方法,希望这篇“Python中文本文件拆分的步骤和方法是什么”文章能帮助大家解决问题。将一个txt文本文件中的内容行拆分固定的行数,自动分批写入到多个文本文件。
比如:一个源txt文件有5100行数据,每1000行插入到一个txt文件,最后获得6个txt文件(5个文本文件有1000行数据,第6个文本文件有100行数据)。
1、先建立一个目录用于存放分割后的txt文件(这里的目录名为:dataText)
2、修改拆分的数目(这里是每5000行数据存入一个txt文件)
3、运行python文件,查看生成的txt文件
open_diff = open('data.txt', 'r') # 源文本文件
diff_line = open_diff.readlines()
line_list = []
for line in diff_line:
line_list.append(line)
count = len(line_list) # 文件行数
print('源文件数据行数:',count)
# 切分diff
diff_match_split = [line_list[i:i+5000] for i in range(0,len(line_list),5000)]# 每个文件的数据行数
# 将切分的写入多个txt中
for i,j in zip(range(0,int(count/5000+1)),range(0,int(count/5000+1))): # 写入txt,计算需要写入的文件数
with open('./dataText/ImageData%d.txt'% j,'w+') as temp:
for line in diff_match_split[i]:
temp.write(line)
print('拆分后文件的个数:',i+1)


将txt文件中的数据拆分成多个文本文件,可以解决由于文本文件数据过大而无法导入某些软件的问。
这里是将一个url文本文件(约15M)导入idm下载url中的内容,但由于文本文件过大,数据量过多,就拆分成多个文本文件分批次导入idm。
注意:
1、程序中的5000为写入每个文件的数据行数,最后一个文件的行数不足5000,也用一个文本文件存储。
2、根据需要,修改存储数据的行数(两个地方的5000都需要修改)。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:mmqy2019@163.com进行举报,并提供相关证据,查实之后,将立刻删除涉嫌侵权内容。
猜你喜欢
Matplotlib是一个面向对象的绘图库,我们绘制的图像中,每条曲线,每个边框等等都对应一个对象,下面这篇文章主要给大家介绍了关于Python matplotlib绘图时指定图像大小及放大图像的相关资料,需要的朋友可以参考下
这篇文章主要介绍了通过Python实现创建语音识别控制系统,能利用语音识别识别说出来的文字,根据文字的内容来控制图形移动,感兴趣的同学可以关注一下
1、捕获摄像头和实时显示importcv2importnumpyasnpimportpickleimportmatplotlib.pyplotaspltcap=cv2.VideoCapture(0)whileTrue:ret,frame=cap.read()#Ouroperationsontheframecomehere
CSV(以逗号分隔的值)是用于存储表格数据的纯文本文件格式(如电子表格或数据库)。其主要存储的表格数据包括数字和纯文本。多数联机服务允许用户以CSV文件格式导出网站中的数据。通常在Excel中打开CSV文件,并且几乎所有数据库都有不同的特定工具来允许同一文件的导入。
这篇文章主要介绍了python 用递归实现通用爬虫解析器的方法,帮助大家更好的理解和学习使用python,感兴趣的朋友可以了解下
成为群英会员,开启智能安全云计算之旅
立即注册关注或联系群英网络
7x24小时售前:400-678-4567
7x24小时售后:0668-2555666
24小时QQ客服
群英微信公众号
CNNIC域名投诉举报处理平台
服务电话:010-58813000
服务邮箱:service@cnnic.cn
投诉与建议:0668-2555555
Copyright © QY Network Company Ltd. All Rights Reserved. 2003-2020 群英 版权所有
增值电信经营许可证 : B1.B2-20140078 ICP核准(ICP备案)粤ICP备09006778号 域名注册商资质 粤 D3.1-20240008