如何利用Python将Word表格转到Excel,方法是什么
Admin 2022-06-23 群英技术资讯 1381 次浏览
本篇内容介绍了“如何利用Python将Word表格转到Excel,方法是什么”的有关知识,在实际项目的操作过程或是学习过程中,不少人都会遇到这样的问题,接下来就让小编带大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!今日需求

其实就是把Word中的表格转到Excel中,顺便做一个调整。这个需求在实际工作中,很多人还是经常碰到的!
如果单单是两个表格,那只要简单的复制黏贴即可,但如果上百了呢?那就得考虑自动化了。好在今天碰到的需求中的原文件格式是比较有规律的,那直接来尝试一下。
# 首先要pip install python-docx
# 如果原文件是doc格式,那就先转成docx
from docx import Document
import pandas as pd
path = "./word表格转excel.docx"
docx = Document(path)
table_s = docx.tables # 返回一个Table对象的列表
len(table_s) --> 2 # 返回值是2,因为原文件中只有两个表格
list_ = [] # 初始化一个空列表,用来装后面的dict_
for table in table_s: # 循环所有的表格列表
dict_ = {}
dict_['名称'] = table.cell(0, 1).text # 表格的索引是从(0行,0列)开始
dict_['身份'] = table.cell(0, 3).text
dict_['简介'] = table.cell(1, 1).text
for i in range(3, len(table.rows)): # 后续的内容格式不固定,所以循环获取
dict_[table.cell(i, 0).text] = table.cell(i, 1).text
list_.append(dict_)
当完成上述操作后,list_就会是一个字典列表。

接下来,将列表转为DataFrame进行操作即可。
df = pd.DataFrame(list_) # 先将前三列作为索引,然后逆透视其他列,其实这就是个一维表转二维表的过程 df = df.set_index(['名称', '身份', '简介']).stack(level=0).to_frame() # 重新设置一下行列索引的名字 df.index.names = ['名称', '身份', '简介', '物质'] df.columns = ['现状']
此时的df就跟需求结果相差不大了。

最后将DataFrame导出,稍作美化即可完成需求。
# 导出的时候一定要设置index=True不然只会保留一列Series
df.to_excel("data3.xlsx", index=True, merge_cells=True)
完整代码
# 首先要pip install python-docx
# 如果原文件是doc格式,那就先转成docx
from docx import Document
import pandas as pd
path = "./word表格转excel.docx"
docx = Document(path)
table_s = docx.tables # 返回一个Table对象的列表
list_ = [] # 初始化一个空列表,用来装后面的dict_
for table in table_s: # 循环所有的表格列表
dict_ = {}
dict_['名称'] = table.cell(0, 1).text # 表格的索引是从(0行,0列)开始的
dict_['身份'] = table.cell(0, 3).text
dict_['简介'] = table.cell(1, 1).text
for i in range(3, len(table.rows)): # 循环获得后面的内容
dict_[table.cell(i, 0).text] = table.cell(i, 1).text
list_.append(dict_)
df = pd.DataFrame(list_)
# 先将前三列作为索引,然后逆透视其他列,就是个一维表转二维表的过程
df = df.set_index(['名称', '身份', '简介']).stack(level=0).to_frame()
# 重新设置一下行列索引的名字
df.index.names = ['名称', '身份', '简介', '物质']
df.columns = ['现状']
# 导出的时候一定要设置index=True不然只会保留一列Series
df.to_excel("data3.xlsx", index=True, merge_cells=True)
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:mmqy2019@163.com进行举报,并提供相关证据,查实之后,将立刻删除涉嫌侵权内容。
猜你喜欢
Python是一种非常富有表现力的语言。它为我们提供了一个庞大的标准库和许多内置模块,帮助我们快速完成工作。然而,许多人可能会迷失在它提
删除列表或者字符串元素的方法不止一种,同样,删除字典元素的方法也不止一种,本文主要介绍python中删除字典元素的四种方法:1、使用del语句;2、使用clear();3、使用pop();4、使用popitem()。感兴趣的可以了解一下
数据可视化是指用图形或表格的方式来呈现数据。图表能够清楚地呈现数据性质, 以及数据间或属性间的关系。本文为大家分享了几个Python数据可视化绘图的实例,感兴趣的可以了解一下
本文主要介绍了thon使用js2py库运行js代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
内容介绍1.Python程序2.Dockerfile3.开始构建一个小的demo1.Python程序fromflaskimportFlaskapp=Flask(__name__)@app
成为群英会员,开启智能安全云计算之旅
立即注册关注或联系群英网络
7x24小时售前:400-678-4567
7x24小时售后:0668-2555666
24小时QQ客服
群英微信公众号
CNNIC域名投诉举报处理平台
服务电话:010-58813000
服务邮箱:service@cnnic.cn
投诉与建议:0668-2555555
Copyright © QY Network Company Ltd. All Rights Reserved. 2003-2020 群英 版权所有
增值电信经营许可证 : B1.B2-20140078 粤ICP备09006778号 域名注册商资质 粤 D3.1-20240008