批量提取Word中表格内容,并存入

Hello,我是小张,大家好久不见~

今天文章介绍一个实战案例,与自动化办公相关;案例思想是源于前两天帮读者做了一个demo,需求大致将一上百个word中表格内容提取出来(所有word中表格样式一样),把提取到的内容自动存入Excel中

word中表格形式如下

目前含有数个上面形式的word文档需要整理,目标是利用python自动生成下面形式excel表格

正式案例讲解之前,先看一下转换效果,脚本先把指定文件夹下的doc文件转化为docx,随后自动生成一个excel表格,表格内中即为所有word中的内容

涉及的库

本案例中用到的Python库有以下几个

python-docxpandasospywin32doc转化为docx

本案例中word中表格内容的提取用到的是python-docx库,关于python-docx一些基础用法可以参考Python自动化办公—Word文本操作命令

word文档有时是以doc类型保存的,python-docx只能处理docx文件类型,在提取表格内容之前,需进行一次文件类型格式转换:把doc批量转化为docx;

doc转docx最简单的方式通过Office中word组件打开doc文件,然后手动保存为docx文件,对于单个文档这个方法还行,文档数量达到上百个的话还用这种方法就有点烦了,

这里介绍一个python库pywin32来帮助我们解决这个问题,pywin32作为扩展模块,里面封装了大量WindowsAPI函数,例如调用Office等应用组件、删除指定文件、获取鼠标坐标等等

利用pywin32控制Office中Word组件自动完成打开、保存操作,把所有doc文件类型转化为docx文件类型,步骤分为以下三步:

1,建立一个word组件

fromwin32


转载请注明:http://www.jinqiancaoc.com/zzys/8215.html