Hello,我是小张,大家好久不见~
今天文章介绍一个实战案例,与自动化办公相关;案例思想是源于前两天帮读者做了一个demo,需求大致将一上百个word中表格内容提取出来(所有word中表格样式一样),把提取到的内容自动存入Excel中
word中表格形式如下
目前含有数个上面形式的word文档需要整理,目标是利用python自动生成下面形式excel表格
正式案例讲解之前,先看一下转换效果,脚本先把指定文件夹下的doc文件转化为docx,随后自动生成一个excel表格,表格内中即为所有word中的内容
涉及的库本案例中用到的Python库有以下几个
python-docxpandasospywin32doc转化为docx
本案例中word中表格内容的提取用到的是python-docx库,关于python-docx一些基础用法可以参考Python自动化办公—Word文本操作命令
word文档有时是以doc类型保存的,python-docx只能处理docx文件类型,在提取表格内容之前,需进行一次文件类型格式转换:把doc批量转化为docx;
doc转docx最简单的方式通过Office中word组件打开doc文件,然后手动保存为docx文件,对于单个文档这个方法还行,文档数量达到上百个的话还用这种方法就有点烦了,
这里介绍一个python库pywin32来帮助我们解决这个问题,pywin32作为扩展模块,里面封装了大量WindowsAPI函数,例如调用Office等应用组件、删除指定文件、获取鼠标坐标等等
利用pywin32控制Office中Word组件自动完成打开、保存操作,把所有doc文件类型转化为docx文件类型,步骤分为以下三步:
1,建立一个word组件
fromwin32