CN113779235A

CN113779235A - 一种Word文档大纲识别处理方法及装置

Info

Publication number: CN113779235A
Application number: CN202111070726.9A
Authority: CN
Inventors: 麦天骥
Original assignee: BEIJING LEDICT TECHNOLOGY CO LTD
Current assignee: BEIJING LEDICT TECHNOLOGY CO LTD
Priority date: 2021-09-13
Filing date: 2021-09-13
Publication date: 2021-12-10
Anticipated expiration: 2041-09-13
Also published as: CN113779235B

Abstract

本发明公开一种Word文档大纲识别处理方法及装置，通过获取Word文件，对Word文件进行本地保存和解析，将Word文件转换为HTML代码文件；在JavaScript中循环HTML代码文件中所有的标题标签，使用递归算法遍历HTML代码文件的所有标题标签并整理为树结构数据；通过树结构数据生成对应Word文件的标题目录数据，对每一个HTML代码文件的标题预设一个唯一主键，使用唯一主键进行HTML代码文件内容和标题目录数据联动。本发明能够对Word文档进行大纲识别处理，实现目录和Word文档的联动，方便掌握Word文档梗概，可以集成于应用***快速的生成浏览编辑帮助页面。

Description

一种Word文档大纲识别处理方法及装置

技术领域

本发明涉及Word文档处理技术领域，具体涉及一种Word文档大纲识别处理方法及装置。

背景技术

Word是微软公司开发的一个文字处理器应用程序，是Office软件中的一个组件。使用Microsoft Office Word可创建和编辑信件、报告、网页或电子邮件中的文本和图形。相比于写字板和记事本功能更强大，性能更全面，可以***图片、多媒体、艺术效果等。Word文档广泛应用在各行各业，给办公带来了巨大的便利。

现阶段，随着信息化工作的不断推进，相关部门存在各种各样的应用***，通过应用***对涉及的Word文档进行处理展示，特别是行政部门，需要对用户上传的Word文档进行处理及优化展示。为了提高用户体验度，每个应用***都设计了帮助功能。通过帮助功能实现对用户上传的Word文档进行辅助处理，每个***的帮助功能都各自不同，不够统一，不仅用户使用繁琐，而且开发工作量巨大。虽然Word软件本身具有处理标题目录的功能，但是并不能融合在专门的应用***中。Word文档通常具有大纲，如何快速的对Word文档进行大纲识别处理以便于掌握Word文档梗概具有现实的意义。

发明内容

为此，本发明提供一种Word文档大纲识别处理方法及装置，实现帮助***中对Word文档进行大纲识别处理生成帮助页面，以便于Word文档的展示处理。

为了实现上述目的，本发明提供如下技术方案：一种Word文档大纲识别处理方法，包括以下步骤：

获取Word文件，对所述Word文件进行本地保存和解析，将所述Word文件转换为HTML代码文件；

在JavaScript中循环所述HTML代码文件中所有的标题标签，使用递归算法遍历所述HTML代码文件的所有标题标签并整理为树结构数据；

通过所述树结构数据生成对应所述Word文件的标题目录数据，对每一个HTML代码文件的标题预设一个唯一主键，使用所述唯一主键进行HTML代码文件内容和标题目录数据联动。

作为Word文档大纲识别处理方法的优选方案，将所述Word文件保存至本地服务器，在本地服务器将所述Word文件转换为HTML代码文件，将生成的HTML代码文件返回至展示所述Word文件的前端设备。

作为Word文档大纲识别处理方法的优选方案，所述前端设备的展示界面包括目录窗口和富文本编辑器窗口，所述目录窗口用于展示所述标题目录数据，所述富文本编辑器窗口用于展示所述HTML代码对应的Word文件内容。

作为Word文档大纲识别处理方法的优选方案，当所述富文本编辑器窗口的Word文件内容发生变化以后，重新触发生成Word文件内容变化后的标题目录。

作为Word文档大纲识别处理方法的优选方案，将富文本编辑器窗口的Word文件内容发生变化前的标题目录与富文本编辑器窗口的Word文件内容发生变化后的标题目录进对比；

若富文本编辑器窗口的Word文件内容发生变化后的标题目录存在删除的标题标签，则将删除的标题标签对应的主键一并删除；

若富文本编辑器窗口的Word文件内容发生变化后的标题目录存在新增的标题标签，则对新增的标题标签创建新的主键；

若所述标题标签在富文本编辑器窗口的Word文件内容发生变化前后的标题目录中均存在，则在富文本编辑器窗口的Word文件内容发生变化后的标题目录中延续使用所述标题标签的主键。

作为Word文档大纲识别处理方法的优选方案，所述标题目录数据生成步骤程包括：

判断标题的标签层级是否等于1：

若标题的标签层级等于1，***父级目录；若标题的标签层级不等于1，继续遍历剩余标题对应的标签层级；

判断当前标题的当前层级是否大于父级层级：

若当前标题的当前层级大于父级层级，***当前目录的子目录，继续遍历剩余标题对应的标签层级，重复判断过程，直至遍历结束；

若当前标题的当前层级不大于父级层级，***父级目录，继续遍历剩余标题对应的标签层级，重复判断过程，直至遍历结束。

本发明还提供一种Word文档大纲识别处理装置，包括：

Word文件处理模块，用于获取Word文件，对所述Word文件进行本地保存和解析，将所述Word文件转换为HTML代码文件；

标题标签获取模块，用于在JavaScript中循环所述HTML代码文件中所有的标题标签；

标题标签遍历模块，用于使用递归算法遍历所述HTML代码文件的所有标题标签并整理为树结构数据；

标题目录生成模块，用于通过所述树结构数据生成对应所述Word文件的标题目录数据；

联动处理模块，用于对每一个HTML代码文件的标题预设一个唯一主键，使用所述唯一主键进行HTML代码文件内容和标题目录数据联动。

作为Word文档大纲识别处理装置的优选方案，将所述Word文件保存至本地服务器，在本地服务器将所述Word文件转换为HTML代码文件，将生成的HTML代码文件返回至展示所述Word文件的前端设备；

所述前端设备的展示界面包括目录窗口和富文本编辑器窗口，所述目录窗口用于展示所述标题目录数据，所述富文本编辑器窗口用于展示所述HTML代码对应的Word文件内容。

作为Word文档大纲识别处理装置的优选方案，还包括标题目录更新模块，用于当所述富文本编辑器窗口的Word文件内容发生变化以后，重新触发生成Word文件内容变化后的标题目录；

还包括标题目录对比模块，用于将富文本编辑器窗口的Word文件内容发生变化前的标题目录与富文本编辑器窗口的Word文件内容发生变化后的标题目录进对比；

作为Word文档大纲识别处理装置的优选方案，所述标题目录生成模块中：

判断标题的标签层级是否等于1：

判断当前标题的当前层级是否大于父级层级：

本发明具有如下优点：通过获取Word文件，对Word文件进行本地保存和解析，将Word文件转换为HTML代码文件；在JavaScript中循环HTML代码文件中所有的标题标签，使用递归算法遍历HTML代码文件的所有标题标签并整理为树结构数据；通过树结构数据生成对应Word文件的标题目录数据，对每一个HTML代码文件的标题预设一个唯一主键，使用唯一主键进行HTML代码文件内容和标题目录数据联动。本发明能够对Word文档进行大纲识别处理，实现目录和Word文档的联动，方便掌握Word文档梗概，可以集成于应用***快速的生成浏览编辑帮助页面。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容能涵盖的范围内。

图1为本发明实施例中提供的Word文档大纲识别处理方法流程示意图；

图2为本发明实施例中提供的Word文档大纲识别处理方法技术路线示意图；

图3为本发明实施例中提供的Word文档大纲识别处理方法的展示示意图；

图4为本发明实施例中提供的Word文档大纲识别处理装置示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

参见图1、图2和图3，提供一种Word文档大纲识别处理方法，包括以下步骤：

S1、获取Word文件，对所述Word文件进行本地保存和解析，将所述Word文件转换为HTML代码文件；

S2、在JavaScript中循环所述HTML代码文件中所有的标题标签，使用递归算法遍历所述HTML代码文件的所有标题标签并整理为树结构数据；

S3、通过所述树结构数据生成对应所述Word文件的标题目录数据，对每一个HTML代码文件的标题预设一个唯一主键，使用所述唯一主键进行HTML代码文件内容和标题目录数据联动。

本实施例中，将所述Word文件保存至本地服务器，在本地服务器将所述Word文件转换为HTML代码文件，将生成的HTML代码文件返回至展示所述Word文件的前端设备。所述前端设备的展示界面包括目录窗口和富文本编辑器窗口，所述目录窗口用于展示所述标题目录数据，所述富文本编辑器窗口用于展示所述HTML代码对应的Word文件内容。

具体的，将用户上传的Word文件保存在应用***配置的本地服务器上，并且将Word文件转换为HTML代码文件的步骤在本地服务器上执行，将生成的HTML代码文件结果返回前端设备展示，提高处理效率。

具体的，步骤S1的一种实现代码如下：

本实施例中，把生成的HTML代码文件返回到前端设备，然后在JavaScript中循环HTML代码从中所有的标题(h标签)，并且使用递归算法把当前文档的所有标题整理为树结构的数据，一种实现代码如下：

本实施例中，当所述富文本编辑器窗口的Word文件内容发生变化以后，重新触发生成Word文件内容变化后的标题目录。

将富文本编辑器窗口的Word文件内容发生变化前的标题目录与富文本编辑器窗口的Word文件内容发生变化后的标题目录进对比；

本实施例中，所述标题目录数据生成步骤程包括：

判断标题的标签层级是否等于1：

判断当前标题的当前层级是否大于父级层级：

具体的，标题目录数据生成的一种实现代码如下：

参见图3，基于本发明的技术方案，设计一种通用帮助***，通用帮助***是B/S结构的在线管理***，可以通过在线编辑生成对应的帮助页面、更新说明、操作指引等等。每个***只需要简单的引用一行js代码即可实现帮助功能。

作为通用帮助***，支持通过Word文件快速生成帮助页面。帮助页面的结构统一为左侧大纲右侧内容，而现有很多帮助功能都存在Word中。所以此***支持Word文档上传功能。

Word文档上传以后，实现在线识别文档大纲，在左侧以树形菜单的方式展示文档大纲。同时，右侧展示对应的Word内容。点击左侧目录右侧定位到对应的内容，右侧内容编辑大纲以后可以更新左侧大纲。

综上所述，本发明通过获取Word文件，对Word文件进行本地保存和解析，将Word文件转换为HTML代码文件；在JavaScript中循环HTML代码文件中所有的标题标签，使用递归算法遍历HTML代码文件的所有标题标签并整理为树结构数据；通过树结构数据生成对应Word文件的标题目录数据，对每一个HTML代码文件的标题预设一个唯一主键，使用唯一主键进行HTML代码文件内容和标题目录数据联动。当富文本编辑器窗口的Word文件内容发生变化以后，重新触发生成Word文件内容变化后的标题目录。将富文本编辑器窗口的Word文件内容发生变化前的标题目录与富文本编辑器窗口的Word文件内容发生变化后的标题目录进对比；若富文本编辑器窗口的Word文件内容发生变化后的标题目录存在删除的标题标签，则将删除的标题标签对应的主键一并删除；若富文本编辑器窗口的Word文件内容发生变化后的标题目录存在新增的标题标签，则对新增的标题标签创建新的主键；若标题标签在富文本编辑器窗口的Word文件内容发生变化前后的标题目录中均存在，则在富文本编辑器窗口的Word文件内容发生变化后的标题目录中延续使用标题标签的主键。本发明能够对Word文档进行大纲识别处理，实现目录和Word文档的联动，方便掌握Word文档梗概，可以集成于应用***快速的生成浏览编辑帮助页面。

实施例2

参见图4，本发明还提供一种Word文档大纲识别处理装置，包括：

Word文件处理模块1，用于获取Word文件，对所述Word文件进行本地保存和解析，将所述Word文件转换为HTML代码文件；

标题标签获取模块2，用于在JavaScript中循环所述HTML代码文件中所有的标题标签；

标题标签遍历模块3，用于使用递归算法遍历所述HTML代码文件的所有标题标签并整理为树结构数据；

标题目录生成模块4，用于通过所述树结构数据生成对应所述Word文件的标题目录数据；

联动处理模块5，用于对每一个HTML代码文件的标题预设一个唯一主键，使用所述唯一主键进行HTML代码文件内容和标题目录数据联动。

本实施例中，将所述Word文件保存至本地服务器，在本地服务器将所述Word文件转换为HTML代码文件，将生成的HTML代码文件返回至展示所述Word文件的前端设备；

本实施例中，还包括标题目录更新模块6，用于当所述富文本编辑器窗口的Word文件内容发生变化以后，重新触发生成Word文件内容变化后的标题目录；

还包括标题目录对比模块7，用于将富文本编辑器窗口的Word文件内容发生变化前的标题目录与富文本编辑器窗口的Word文件内容发生变化后的标题目录进对比；

本实施例中，所述标题目录生成模块4中：

判断标题的标签层级是否等于1：

判断当前标题的当前层级是否大于父级层级：

需要说明的是，上述装置各模块/单元之间的信息交互、执行过程等内容，由于与本申请实施例1中的方法实施例基于同一构思，其带来的技术效果与本申请方法实施例相同，具体内容可参见本申请前述所示的方法实施例中的叙述，此处不再赘述。

实施例3

本发明实施例3提供一种计算机可读存储介质，所述计算机可读存储介质中存储Word文档大纲识别处理方法的程序代码，所述程序代码包括用于执行实施例1或其任意可能实现方式的Word文档大纲识别处理方法的指令。

计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(SolidStateDisk、SSD))等。

实施例4

本发明实施例4提供一种电子设备，所述电子设备包括处理器，所述处理器与存储介质耦合，当所述处理器执行存储介质中的指令时，使得所述电子设备执行实施例1或其任意可能实现方式的Word文档大纲识别处理方法。

具体的，处理器可以通过硬件来实现也可以通过软件来实现，当通过硬件实现时，该处理器可以是逻辑电路、集成电路等；当通过软件来实现时，该处理器可以是一个通用处理器，通过读取存储器中存储的软件代码来实现，该存储器可以集成在处理器中，可以位于所述处理器之外，独立存在。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种Word文档大纲识别处理方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种Word文档大纲识别处理方法，其特征在于，将所述Word文件保存至本地服务器，在本地服务器将所述Word文件转换为HTML代码文件，将生成的HTML代码文件返回至展示所述Word文件的前端设备。

3.根据权利要求2所述的一种Word文档大纲识别处理方法，其特征在于，所述前端设备的展示界面包括目录窗口和富文本编辑器窗口，所述目录窗口用于展示所述标题目录数据，所述富文本编辑器窗口用于展示所述HTML代码对应的Word文件内容。

4.根据权利要求3所述的一种Word文档大纲识别处理方法，其特征在于，当所述富文本编辑器窗口的Word文件内容发生变化以后，重新触发生成Word文件内容变化后的标题目录。

5.根据权利要求4所述的一种Word文档大纲识别处理方法，其特征在于，将富文本编辑器窗口的Word文件内容发生变化前的标题目录与富文本编辑器窗口的Word文件内容发生变化后的标题目录进对比；

6.根据权利要求1所述的一种Word文档大纲识别处理方法，其特征在于，所述标题目录数据生成步骤程包括：

判断标题的标签层级是否等于1：

判断当前标题的当前层级是否大于父级层级：

7.一种Word文档大纲识别处理装置，其特征在于，包括：

8.根据权利要求7所述的一种Word文档大纲识别处理装置，其特征在于，将所述Word文件保存至本地服务器，在本地服务器将所述Word文件转换为HTML代码文件，将生成的HTML代码文件返回至展示所述Word文件的前端设备；

9.根据权利要求8所述的一种Word文档大纲识别处理装置，其特征在于，还包括标题目录更新模块，用于当所述富文本编辑器窗口的Word文件内容发生变化以后，重新触发生成Word文件内容变化后的标题目录；

10.根据权利要求7所述的一种Word文档大纲识别处理装置，其特征在于，所述标题目录生成模块中：

判断标题的标签层级是否等于1：

判断当前标题的当前层级是否大于父级层级：