我是靠谱客的博主 稳重白云,最近开发中收集的这篇文章主要介绍word文档基本操作,觉得挺不错的,现在分享给大家,希望可以做个参考。

概述

了解一下用Python读写Word文档。

目录:

  • 1. 安装模块

  • 2. 读取Word文档

  • 3. 写入Word文档

761b9fea32d2e1304f4401d5b1537bc4.png

1. 安装模块

这里我们用到的是python-docx模块,读写Word文档的操作均有它完成!

 
  1. # 安装该模块,在命令行键入以下命令

  2. pip install python-docx

在进行后续介绍前,我们先简单了解一下Word文档。和纯文本(比如txt)相比, .docx文件有很多种结构,这些结构在python-docx中用3种不同的类型来表示:最高一层是Document对象表示文档,每个Document对象包含一个Paragraph 对象也就是段落组成的列表,而每个Paragraph对象则包含一个Run对象的列表,至于Run对象大家可以通过下面的段落Paragraph来了解。

4dafcd1de38120bea07e137acd812f26.png 多个Run对象组成的Paragraph

我们知道Word里的文本包含有很多格式,比如字体、字号、粗体/斜体、颜色等等。一个Run对象是具有相同格式的文本,当发生变化的时候就需要一个新的Run对象,这也就是上图中1个Paragraph对象有4个Run对象的原因。

理解以上知识后,我们再来了解读与写吧。

8094a8fff1daf872a3ee0a25571ca311.png

2. 读取Word文档

我们本地创建一个案例文档,用于演示读取Word,案例文档内容如下:

e50a478098dc599d72a0642880c49e21.png 案例.docx

可以看到文档一共有四行,两行标题以及两行正文。

 
  1. import docx

  2. # 读取Word文档

  3. doc = docx.Document(r'案例.docx')

9c2b2d3e150b6d71fdb692534f2acd94.png

我们知道了读取Word每个paragraph段落和Run,那么如何读取完整的Word文本内容呢?这里,自定义一个函数将全部的paragraph段落内容存起来,每个paragraph段落之间用换行符n隔开即可。

 
  1. import docx

  2. def getText(fileName):

  3.     doc = docx.Document(fileName)

  4.     TextList = []

  5.     for paragraph in doc.paragraphs:

  6.         TextList.append(paragraph.text)

  7.     

  8.     return 'n'.join(TextList)

我们调用该函数,可以得到:

 
  1. fileName = r'案例.docx'

  2. print(getText(fileName))

 
  1. 标题1

  2. 这是一个段落,有粗体和斜体

  3. 大家好,我是才哥。

  4. 标题2

当然了,这里读取后输出显示的文本不带有格式属性哈。

a9aa6b987db05680e873b86c0fc6e3ac.png

3. 写入Word文档

在写入Word之前,我们先简单了解下Word的一些格式规则。

毫不夸张的讲,把全局样式玩的明白的人蛮少的。这方面主要是正文样式与标题样式,如果玩得明白的话,其实设置好了之后几乎不需要再进行啥调整,全局格式都能自动设置与更新。就我所见的大多数朋友的文档,这方面基本达不到。(感觉会被爆锤~~)

37cd278daeec33b520ae6494bb34c10f.png 全局样式

比如,我们可以设置正文样式为 微软雅黑字体,字号12,缩进,间距等等;设置标题样式为 微软雅黑字体,字号14,删除段落后间距等等。

在我们Python处理Word的时候,段落样式可以应用于 Paragraph 对象,字符样式可以应用于 Run 对象,链接的样式可以应用于这两种对象。可以将 Paragraph 和Run 对象的 style 属性设置为一个字符串,从而设置样式。这个字符串应该是一种样式的名称。如果 style 被设置为 None,就没有样式与 Paragraph 或 Run 对象关联。

当然,这里我们不展开介绍,就简单介绍Run对象上的字符属性。关于更多的介绍,我们放在第三期的 详解Python写Word里

对于Run对象的字符text属性,都有3个状态:True(启用)、False(禁用)和None(默认)。

text属性有哪些?看下表:

属性描述
bold文本以粗体出现
italic文本以斜体出现
underline文本带下划线
strike文本带删除线
double_strike文本带双删除线
all_caps文本以大写首字母出现
small_caps文本以大写首字母出现,小写字母小两个点
shadow文本带阴影
outline文本以轮廓线出现,而不是实心
rtl文本从右至左书写
imprint文本以刻入页面的方式出现
emboss文本以凸出页面的方式出现

我们演示一下:

bc347f47f3cb23f0727f5f8ae4ebb597.png 50d2435aa99bd61555cd86e7064df1ca.png 调整样式

以上就是对段落的一些简单介绍及演示,接下来,我们来看看怎么创建并写入Word

要创建自己的.docx 文件,就调用 docx.Document(),返回一个新的、空白的 Word Document 对象  。Document 对象的 add_paragraph()方法将一段新文本添加到文档中,并返回添加的 Paragraph 对象的引用。在添加完文本之后,向 Document 对象的 save()方法传入一个文件名字符串,将 Document 对象保存到文件。

 
  1. import docx

  2. doc = docx.Document()

  3. doc.add_paragraph('这是一个段落')

  4. doc.save('写入word.docx')

1bf1d3641d4ac5cc94979fddf782a612.png 写入word

我们可以添加段落、设置段落文本样式等等,比如:

 
  1. import docx

  2. doc = docx.Document()

  3. p1 = doc.add_paragraph('这是一个段落')

  4. p1.add_run('加粗的一句话').bold = True

  5. doc.add_paragraph('这是第二个段落')

  6. doc.save('多段落.docx')

45cb81b236747d14bd9a5477043c1377.png 多段落

我们还可以添加一个段位,这个段落为标题样式,这里需要用到add_heading()。它有两个参数,字符串表示文本内容,后面数字是标题层级。

 
  1. import docx

  2. doc = docx.Document()

  3. doc.add_heading('标题',0)

  4. doc.add_heading('标题1',1)

  5. doc.add_heading('标题2',2)

  6. doc.add_heading('标题3',3)

  7. doc.add_heading('标题4',4)

  8. doc.save('标题.docx')

d4bef7c075b140c1057635ddfb67f275.png 标题

同样,我们还可换行与换页操作。

要添加换行符(而不是开始一个新的段落),可以在 Run 对象上调用 add_break()方法,换行符将出现在它后面。如果希望添加换页符,可以将 docx.text.WD_BREAK.PAGE作为唯一的参数,传递给 add_break()  。

 
  1. import docx

  2. doc = docx.Document()

  3. p1 = doc.add_paragraph('这是一个段落')

  4. p1.add_run('加粗的一句话').bold = True

  5. # 换行

  6. doc.paragraphs[0].runs[0].add_break()

  7. doc.save('换行.docx')

6669fcf21fabc54e38569c3066a417f0.png 换行

有人会说,一般word里还有图片嘛,当然咱们也能搞定添加图片

有一个 add_picture()方法,可以在段落末尾添加图像 。

 
  1. import docx

  2. doc = docx.Document()

  3. doc.add_paragraph('这是一个段落,后面带图片')

  4. doc.add_picture('图片.png', 

  5.                 width=docx.shared.Inches(3),

  6.                 height=docx.shared.Cm(4))

  7. doc.add_paragraph('这是第二个段落')

  8. doc.save('图片.docx')

e5100f0557f7d2124a377cf2c4674908.png 添加图片

以上就是本次的简单入门介绍。

其实Word文档各种样式设置,数据类型展示等等非常丰富,而Python-docx这个模块其实也能进行大多数的处理。不过,日常中我们用到的功能也没那么多,此部分留作后续详情讲解哈。

最后

以上就是稳重白云为你收集整理的word文档基本操作的全部内容,希望文章能够帮你解决word文档基本操作所遇到的程序开发问题。

如果觉得靠谱客网站的内容还不错,欢迎将靠谱客网站推荐给程序员好友。

本图文内容来源于网友提供,作为学习参考使用,或来自网络收集整理,版权属于原作者所有。
点赞(53)

评论列表共有 0 条评论

立即
投稿
返回
顶部