如何利用Python将Word表格转到Excel,方法是什么
Admin 2022-06-23 群英技术资讯 1105 次浏览
今日需求
其实就是把Word中的表格转到Excel中,顺便做一个调整。这个需求在实际工作中,很多人还是经常碰到的!
如果单单是两个表格,那只要简单的复制黏贴即可,但如果上百了呢?那就得考虑自动化了。好在今天碰到的需求中的原文件格式是比较有规律的,那直接来尝试一下。
# 首先要pip install python-docx # 如果原文件是doc格式,那就先转成docx from docx import Document import pandas as pd path = "./word表格转excel.docx" docx = Document(path) table_s = docx.tables # 返回一个Table对象的列表 len(table_s) --> 2 # 返回值是2,因为原文件中只有两个表格 list_ = [] # 初始化一个空列表,用来装后面的dict_ for table in table_s: # 循环所有的表格列表 dict_ = {} dict_['名称'] = table.cell(0, 1).text # 表格的索引是从(0行,0列)开始 dict_['身份'] = table.cell(0, 3).text dict_['简介'] = table.cell(1, 1).text for i in range(3, len(table.rows)): # 后续的内容格式不固定,所以循环获取 dict_[table.cell(i, 0).text] = table.cell(i, 1).text list_.append(dict_)
当完成上述操作后,list_就会是一个字典列表。
接下来,将列表转为DataFrame进行操作即可。
df = pd.DataFrame(list_) # 先将前三列作为索引,然后逆透视其他列,其实这就是个一维表转二维表的过程 df = df.set_index(['名称', '身份', '简介']).stack(level=0).to_frame() # 重新设置一下行列索引的名字 df.index.names = ['名称', '身份', '简介', '物质'] df.columns = ['现状']
此时的df就跟需求结果相差不大了。
最后将DataFrame导出,稍作美化即可完成需求。
# 导出的时候一定要设置index=True不然只会保留一列Series df.to_excel("data3.xlsx", index=True, merge_cells=True)
完整代码
# 首先要pip install python-docx # 如果原文件是doc格式,那就先转成docx from docx import Document import pandas as pd path = "./word表格转excel.docx" docx = Document(path) table_s = docx.tables # 返回一个Table对象的列表 list_ = [] # 初始化一个空列表,用来装后面的dict_ for table in table_s: # 循环所有的表格列表 dict_ = {} dict_['名称'] = table.cell(0, 1).text # 表格的索引是从(0行,0列)开始的 dict_['身份'] = table.cell(0, 3).text dict_['简介'] = table.cell(1, 1).text for i in range(3, len(table.rows)): # 循环获得后面的内容 dict_[table.cell(i, 0).text] = table.cell(i, 1).text list_.append(dict_) df = pd.DataFrame(list_) # 先将前三列作为索引,然后逆透视其他列,就是个一维表转二维表的过程 df = df.set_index(['名称', '身份', '简介']).stack(level=0).to_frame() # 重新设置一下行列索引的名字 df.index.names = ['名称', '身份', '简介', '物质'] df.columns = ['现状'] # 导出的时候一定要设置index=True不然只会保留一列Series df.to_excel("data3.xlsx", index=True, merge_cells=True)
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:mmqy2019@163.com进行举报,并提供相关证据,查实之后,将立刻删除涉嫌侵权内容。
猜你喜欢
Matplotlib是Python中最受欢迎的数据可视化软件包之一,它是 Python常用的2D绘图库,同时它也提供了一部分3D绘图接口。本文将详细介绍Matplotlib的绘图方式,需要的可以参考一下
本文将探讨如何在Python的Pandas库中创建GroupBy对象以及该对象的工作原理。我们将详细了解分组过程的每个步骤,以及我们可以从中提取哪些有用信息,需要的可以参考一下
python中,while循环与for循环是经常使用的循环语句,一直到的到结果才会循环结束。但是,也会有一直循环,无法计算出结果的情况出现,这时我们就要跳出循环。本文介绍使用break跳出for循环的两种方法:1、提前定义一个变量,让其为空字符串;2、使用for…else…实现break跳出嵌套的for循环。
这篇文章主要介绍了python设置 matplotlib 正确显示中文的四种方式,帮助大家更好的理解和学习使用python,感兴趣的朋友可以了解下
这篇文章给大家分享的是有关pytorch实现变量类型转换的内容,其实变量类型转换的方法有很多,因此下面小编和大家一起探究变量类型转换的方法有哪些?怎样实现?感兴趣的朋友就继续往下看吧。
成为群英会员,开启智能安全云计算之旅
立即注册Copyright © QY Network Company Ltd. All Rights Reserved. 2003-2020 群英 版权所有
增值电信经营许可证 : B1.B2-20140078 粤ICP备09006778号 域名注册商资质 粤 D3.1-20240008