CN113779235A - 一种Word文档大纲识别处理方法及装置 - Google Patents

一种Word文档大纲识别处理方法及装置 Download PDF

Info

Publication number
CN113779235A
CN113779235A CN202111070726.9A CN202111070726A CN113779235A CN 113779235 A CN113779235 A CN 113779235A CN 202111070726 A CN202111070726 A CN 202111070726A CN 113779235 A CN113779235 A CN 113779235A
Authority
CN
China
Prior art keywords
title
word
directory
file
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111070726.9A
Other languages
English (en)
Other versions
CN113779235B (zh
Inventor
麦天骥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING LEDICT TECHNOLOGY CO LTD
Original Assignee
BEIJING LEDICT TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING LEDICT TECHNOLOGY CO LTD filed Critical BEIJING LEDICT TECHNOLOGY CO LTD
Priority to CN202111070726.9A priority Critical patent/CN113779235B/zh
Publication of CN113779235A publication Critical patent/CN113779235A/zh
Application granted granted Critical
Publication of CN113779235B publication Critical patent/CN113779235B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开一种Word文档大纲识别处理方法及装置,通过获取Word文件,对Word文件进行本地保存和解析,将Word文件转换为HTML代码文件;在JavaScript中循环HTML代码文件中所有的标题标签,使用递归算法遍历HTML代码文件的所有标题标签并整理为树结构数据;通过树结构数据生成对应Word文件的标题目录数据,对每一个HTML代码文件的标题预设一个唯一主键,使用唯一主键进行HTML代码文件内容和标题目录数据联动。本发明能够对Word文档进行大纲识别处理,实现目录和Word文档的联动,方便掌握Word文档梗概,可以集成于应用***快速的生成浏览编辑帮助页面。

Description

一种Word文档大纲识别处理方法及装置
技术领域
本发明涉及Word文档处理技术领域,具体涉及一种Word文档大纲识别处理方法及装置。
背景技术
Word是微软公司开发的一个文字处理器应用程序,是Office软件中的一个组件。使用Microsoft Office Word可创建和编辑信件、报告、网页或电子邮件中的文本和图形。相比于写字板和记事本功能更强大,性能更全面,可以***图片、多媒体、艺术效果等。Word文档广泛应用在各行各业,给办公带来了巨大的便利。
现阶段,随着信息化工作的不断推进,相关部门存在各种各样的应用***,通过应用***对涉及的Word文档进行处理展示,特别是行政部门,需要对用户上传的Word文档进行处理及优化展示。为了提高用户体验度,每个应用***都设计了帮助功能。通过帮助功能实现对用户上传的Word文档进行辅助处理,每个***的帮助功能都各自不同,不够统一,不仅用户使用繁琐,而且开发工作量巨大。虽然Word软件本身具有处理标题目录的功能,但是并不能融合在专门的应用***中。Word文档通常具有大纲,如何快速的对Word文档进行大纲识别处理以便于掌握Word文档梗概具有现实的意义。
发明内容
为此,本发明提供一种Word文档大纲识别处理方法及装置,实现帮助***中对Word文档进行大纲识别处理生成帮助页面,以便于Word文档的展示处理。
为了实现上述目的,本发明提供如下技术方案:一种Word文档大纲识别处理方法,包括以下步骤:
获取Word文件,对所述Word文件进行本地保存和解析,将所述Word文件转换为HTML代码文件;
在JavaScript中循环所述HTML代码文件中所有的标题标签,使用递归算法遍历所述HTML代码文件的所有标题标签并整理为树结构数据;
通过所述树结构数据生成对应所述Word文件的标题目录数据,对每一个HTML代码文件的标题预设一个唯一主键,使用所述唯一主键进行HTML代码文件内容和标题目录数据联动。
作为Word文档大纲识别处理方法的优选方案,将所述Word文件保存至本地服务器,在本地服务器将所述Word文件转换为HTML代码文件,将生成的HTML代码文件返回至展示所述Word文件的前端设备。
作为Word文档大纲识别处理方法的优选方案,所述前端设备的展示界面包括目录窗口和富文本编辑器窗口,所述目录窗口用于展示所述标题目录数据,所述富文本编辑器窗口用于展示所述HTML代码对应的Word文件内容。
作为Word文档大纲识别处理方法的优选方案,当所述富文本编辑器窗口的Word文件内容发生变化以后,重新触发生成Word文件内容变化后的标题目录。
作为Word文档大纲识别处理方法的优选方案,将富文本编辑器窗口的Word文件内容发生变化前的标题目录与富文本编辑器窗口的Word文件内容发生变化后的标题目录进对比;
若富文本编辑器窗口的Word文件内容发生变化后的标题目录存在删除的标题标签,则将删除的标题标签对应的主键一并删除;
若富文本编辑器窗口的Word文件内容发生变化后的标题目录存在新增的标题标签,则对新增的标题标签创建新的主键;
若所述标题标签在富文本编辑器窗口的Word文件内容发生变化前后的标题目录中均存在,则在富文本编辑器窗口的Word文件内容发生变化后的标题目录中延续使用所述标题标签的主键。
作为Word文档大纲识别处理方法的优选方案,所述标题目录数据生成步骤程包括:
判断标题的标签层级是否等于1:
若标题的标签层级等于1,***父级目录;若标题的标签层级不等于1,继续遍历剩余标题对应的标签层级;
判断当前标题的当前层级是否大于父级层级:
若当前标题的当前层级大于父级层级,***当前目录的子目录,继续遍历剩余标题对应的标签层级,重复判断过程,直至遍历结束;
若当前标题的当前层级不大于父级层级,***父级目录,继续遍历剩余标题对应的标签层级,重复判断过程,直至遍历结束。
本发明还提供一种Word文档大纲识别处理装置,包括:
Word文件处理模块,用于获取Word文件,对所述Word文件进行本地保存和解析,将所述Word文件转换为HTML代码文件;
标题标签获取模块,用于在JavaScript中循环所述HTML代码文件中所有的标题标签;
标题标签遍历模块,用于使用递归算法遍历所述HTML代码文件的所有标题标签并整理为树结构数据;
标题目录生成模块,用于通过所述树结构数据生成对应所述Word文件的标题目录数据;
联动处理模块,用于对每一个HTML代码文件的标题预设一个唯一主键,使用所述唯一主键进行HTML代码文件内容和标题目录数据联动。
作为Word文档大纲识别处理装置的优选方案,将所述Word文件保存至本地服务器,在本地服务器将所述Word文件转换为HTML代码文件,将生成的HTML代码文件返回至展示所述Word文件的前端设备;
所述前端设备的展示界面包括目录窗口和富文本编辑器窗口,所述目录窗口用于展示所述标题目录数据,所述富文本编辑器窗口用于展示所述HTML代码对应的Word文件内容。
作为Word文档大纲识别处理装置的优选方案,还包括标题目录更新模块,用于当所述富文本编辑器窗口的Word文件内容发生变化以后,重新触发生成Word文件内容变化后的标题目录;
还包括标题目录对比模块,用于将富文本编辑器窗口的Word文件内容发生变化前的标题目录与富文本编辑器窗口的Word文件内容发生变化后的标题目录进对比;
若富文本编辑器窗口的Word文件内容发生变化后的标题目录存在删除的标题标签,则将删除的标题标签对应的主键一并删除;
若富文本编辑器窗口的Word文件内容发生变化后的标题目录存在新增的标题标签,则对新增的标题标签创建新的主键;
若所述标题标签在富文本编辑器窗口的Word文件内容发生变化前后的标题目录中均存在,则在富文本编辑器窗口的Word文件内容发生变化后的标题目录中延续使用所述标题标签的主键。
作为Word文档大纲识别处理装置的优选方案,所述标题目录生成模块中:
判断标题的标签层级是否等于1:
若标题的标签层级等于1,***父级目录;若标题的标签层级不等于1,继续遍历剩余标题对应的标签层级;
判断当前标题的当前层级是否大于父级层级:
若当前标题的当前层级大于父级层级,***当前目录的子目录,继续遍历剩余标题对应的标签层级,重复判断过程,直至遍历结束;
若当前标题的当前层级不大于父级层级,***父级目录,继续遍历剩余标题对应的标签层级,重复判断过程,直至遍历结束。
本发明具有如下优点:通过获取Word文件,对Word文件进行本地保存和解析,将Word文件转换为HTML代码文件;在JavaScript中循环HTML代码文件中所有的标题标签,使用递归算法遍历HTML代码文件的所有标题标签并整理为树结构数据;通过树结构数据生成对应Word文件的标题目录数据,对每一个HTML代码文件的标题预设一个唯一主键,使用唯一主键进行HTML代码文件内容和标题目录数据联动。本发明能够对Word文档进行大纲识别处理,实现目录和Word文档的联动,方便掌握Word文档梗概,可以集成于应用***快速的生成浏览编辑帮助页面。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
图1为本发明实施例中提供的Word文档大纲识别处理方法流程示意图;
图2为本发明实施例中提供的Word文档大纲识别处理方法技术路线示意图;
图3为本发明实施例中提供的Word文档大纲识别处理方法的展示示意图;
图4为本发明实施例中提供的Word文档大纲识别处理装置示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
参见图1、图2和图3,提供一种Word文档大纲识别处理方法,包括以下步骤:
S1、获取Word文件,对所述Word文件进行本地保存和解析,将所述Word文件转换为HTML代码文件;
S2、在JavaScript中循环所述HTML代码文件中所有的标题标签,使用递归算法遍历所述HTML代码文件的所有标题标签并整理为树结构数据;
S3、通过所述树结构数据生成对应所述Word文件的标题目录数据,对每一个HTML代码文件的标题预设一个唯一主键,使用所述唯一主键进行HTML代码文件内容和标题目录数据联动。
本实施例中,将所述Word文件保存至本地服务器,在本地服务器将所述Word文件转换为HTML代码文件,将生成的HTML代码文件返回至展示所述Word文件的前端设备。所述前端设备的展示界面包括目录窗口和富文本编辑器窗口,所述目录窗口用于展示所述标题目录数据,所述富文本编辑器窗口用于展示所述HTML代码对应的Word文件内容。
具体的,将用户上传的Word文件保存在应用***配置的本地服务器上,并且将Word文件转换为HTML代码文件的步骤在本地服务器上执行,将生成的HTML代码文件结果返回前端设备展示,提高处理效率。
具体的,步骤S1的一种实现代码如下:
Figure BDA0003260135730000061
Figure BDA0003260135730000071
本实施例中,把生成的HTML代码文件返回到前端设备,然后在JavaScript中循环HTML代码从中所有的标题(h标签),并且使用递归算法把当前文档的所有标题整理为树结构的数据,一种实现代码如下:
Figure BDA0003260135730000072
Figure BDA0003260135730000081
本实施例中,当所述富文本编辑器窗口的Word文件内容发生变化以后,重新触发生成Word文件内容变化后的标题目录。
将富文本编辑器窗口的Word文件内容发生变化前的标题目录与富文本编辑器窗口的Word文件内容发生变化后的标题目录进对比;
若富文本编辑器窗口的Word文件内容发生变化后的标题目录存在删除的标题标签,则将删除的标题标签对应的主键一并删除;
若富文本编辑器窗口的Word文件内容发生变化后的标题目录存在新增的标题标签,则对新增的标题标签创建新的主键;
若所述标题标签在富文本编辑器窗口的Word文件内容发生变化前后的标题目录中均存在,则在富文本编辑器窗口的Word文件内容发生变化后的标题目录中延续使用所述标题标签的主键。
本实施例中,所述标题目录数据生成步骤程包括:
判断标题的标签层级是否等于1:
若标题的标签层级等于1,***父级目录;若标题的标签层级不等于1,继续遍历剩余标题对应的标签层级;
判断当前标题的当前层级是否大于父级层级:
若当前标题的当前层级大于父级层级,***当前目录的子目录,继续遍历剩余标题对应的标签层级,重复判断过程,直至遍历结束;
若当前标题的当前层级不大于父级层级,***父级目录,继续遍历剩余标题对应的标签层级,重复判断过程,直至遍历结束。
具体的,标题目录数据生成的一种实现代码如下:
Figure BDA0003260135730000091
Figure BDA0003260135730000101
Figure BDA0003260135730000111
参见图3,基于本发明的技术方案,设计一种通用帮助***,通用帮助***是B/S结构的在线管理***,可以通过在线编辑生成对应的帮助页面、更新说明、操作指引等等。每个***只需要简单的引用一行js代码即可实现帮助功能。
作为通用帮助***,支持通过Word文件快速生成帮助页面。帮助页面的结构统一为左侧大纲右侧内容,而现有很多帮助功能都存在Word中。所以此***支持Word文档上传功能。
Word文档上传以后,实现在线识别文档大纲,在左侧以树形菜单的方式展示文档大纲。同时,右侧展示对应的Word内容。点击左侧目录右侧定位到对应的内容,右侧内容编辑大纲以后可以更新左侧大纲。
综上所述,本发明通过获取Word文件,对Word文件进行本地保存和解析,将Word文件转换为HTML代码文件;在JavaScript中循环HTML代码文件中所有的标题标签,使用递归算法遍历HTML代码文件的所有标题标签并整理为树结构数据;通过树结构数据生成对应Word文件的标题目录数据,对每一个HTML代码文件的标题预设一个唯一主键,使用唯一主键进行HTML代码文件内容和标题目录数据联动。当富文本编辑器窗口的Word文件内容发生变化以后,重新触发生成Word文件内容变化后的标题目录。将富文本编辑器窗口的Word文件内容发生变化前的标题目录与富文本编辑器窗口的Word文件内容发生变化后的标题目录进对比;若富文本编辑器窗口的Word文件内容发生变化后的标题目录存在删除的标题标签,则将删除的标题标签对应的主键一并删除;若富文本编辑器窗口的Word文件内容发生变化后的标题目录存在新增的标题标签,则对新增的标题标签创建新的主键;若标题标签在富文本编辑器窗口的Word文件内容发生变化前后的标题目录中均存在,则在富文本编辑器窗口的Word文件内容发生变化后的标题目录中延续使用标题标签的主键。本发明能够对Word文档进行大纲识别处理,实现目录和Word文档的联动,方便掌握Word文档梗概,可以集成于应用***快速的生成浏览编辑帮助页面。
实施例2
参见图4,本发明还提供一种Word文档大纲识别处理装置,包括:
Word文件处理模块1,用于获取Word文件,对所述Word文件进行本地保存和解析,将所述Word文件转换为HTML代码文件;
标题标签获取模块2,用于在JavaScript中循环所述HTML代码文件中所有的标题标签;
标题标签遍历模块3,用于使用递归算法遍历所述HTML代码文件的所有标题标签并整理为树结构数据;
标题目录生成模块4,用于通过所述树结构数据生成对应所述Word文件的标题目录数据;
联动处理模块5,用于对每一个HTML代码文件的标题预设一个唯一主键,使用所述唯一主键进行HTML代码文件内容和标题目录数据联动。
本实施例中,将所述Word文件保存至本地服务器,在本地服务器将所述Word文件转换为HTML代码文件,将生成的HTML代码文件返回至展示所述Word文件的前端设备;
所述前端设备的展示界面包括目录窗口和富文本编辑器窗口,所述目录窗口用于展示所述标题目录数据,所述富文本编辑器窗口用于展示所述HTML代码对应的Word文件内容。
本实施例中,还包括标题目录更新模块6,用于当所述富文本编辑器窗口的Word文件内容发生变化以后,重新触发生成Word文件内容变化后的标题目录;
还包括标题目录对比模块7,用于将富文本编辑器窗口的Word文件内容发生变化前的标题目录与富文本编辑器窗口的Word文件内容发生变化后的标题目录进对比;
若富文本编辑器窗口的Word文件内容发生变化后的标题目录存在删除的标题标签,则将删除的标题标签对应的主键一并删除;
若富文本编辑器窗口的Word文件内容发生变化后的标题目录存在新增的标题标签,则对新增的标题标签创建新的主键;
若所述标题标签在富文本编辑器窗口的Word文件内容发生变化前后的标题目录中均存在,则在富文本编辑器窗口的Word文件内容发生变化后的标题目录中延续使用所述标题标签的主键。
本实施例中,所述标题目录生成模块4中:
判断标题的标签层级是否等于1:
若标题的标签层级等于1,***父级目录;若标题的标签层级不等于1,继续遍历剩余标题对应的标签层级;
判断当前标题的当前层级是否大于父级层级:
若当前标题的当前层级大于父级层级,***当前目录的子目录,继续遍历剩余标题对应的标签层级,重复判断过程,直至遍历结束;
若当前标题的当前层级不大于父级层级,***父级目录,继续遍历剩余标题对应的标签层级,重复判断过程,直至遍历结束。
需要说明的是,上述装置各模块/单元之间的信息交互、执行过程等内容,由于与本申请实施例1中的方法实施例基于同一构思,其带来的技术效果与本申请方法实施例相同,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
实施例3
本发明实施例3提供一种计算机可读存储介质,所述计算机可读存储介质中存储Word文档大纲识别处理方法的程序代码,所述程序代码包括用于执行实施例1或其任意可能实现方式的Word文档大纲识别处理方法的指令。
计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(SolidStateDisk、SSD))等。
实施例4
本发明实施例4提供一种电子设备,所述电子设备包括处理器,所述处理器与存储介质耦合,当所述处理器执行存储介质中的指令时,使得所述电子设备执行实施例1或其任意可能实现方式的Word文档大纲识别处理方法。
具体的,处理器可以通过硬件来实现也可以通过软件来实现,当通过硬件实现时,该处理器可以是逻辑电路、集成电路等;当通过软件来实现时,该处理器可以是一个通用处理器,通过读取存储器中存储的软件代码来实现,该存储器可以集成在处理器中,可以位于所述处理器之外,独立存在。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (10)

1.一种Word文档大纲识别处理方法,其特征在于,包括以下步骤:
获取Word文件,对所述Word文件进行本地保存和解析,将所述Word文件转换为HTML代码文件;
在JavaScript中循环所述HTML代码文件中所有的标题标签,使用递归算法遍历所述HTML代码文件的所有标题标签并整理为树结构数据;
通过所述树结构数据生成对应所述Word文件的标题目录数据,对每一个HTML代码文件的标题预设一个唯一主键,使用所述唯一主键进行HTML代码文件内容和标题目录数据联动。
2.根据权利要求1所述的一种Word文档大纲识别处理方法,其特征在于,将所述Word文件保存至本地服务器,在本地服务器将所述Word文件转换为HTML代码文件,将生成的HTML代码文件返回至展示所述Word文件的前端设备。
3.根据权利要求2所述的一种Word文档大纲识别处理方法,其特征在于,所述前端设备的展示界面包括目录窗口和富文本编辑器窗口,所述目录窗口用于展示所述标题目录数据,所述富文本编辑器窗口用于展示所述HTML代码对应的Word文件内容。
4.根据权利要求3所述的一种Word文档大纲识别处理方法,其特征在于,当所述富文本编辑器窗口的Word文件内容发生变化以后,重新触发生成Word文件内容变化后的标题目录。
5.根据权利要求4所述的一种Word文档大纲识别处理方法,其特征在于,将富文本编辑器窗口的Word文件内容发生变化前的标题目录与富文本编辑器窗口的Word文件内容发生变化后的标题目录进对比;
若富文本编辑器窗口的Word文件内容发生变化后的标题目录存在删除的标题标签,则将删除的标题标签对应的主键一并删除;
若富文本编辑器窗口的Word文件内容发生变化后的标题目录存在新增的标题标签,则对新增的标题标签创建新的主键;
若所述标题标签在富文本编辑器窗口的Word文件内容发生变化前后的标题目录中均存在,则在富文本编辑器窗口的Word文件内容发生变化后的标题目录中延续使用所述标题标签的主键。
6.根据权利要求1所述的一种Word文档大纲识别处理方法,其特征在于,所述标题目录数据生成步骤程包括:
判断标题的标签层级是否等于1:
若标题的标签层级等于1,***父级目录;若标题的标签层级不等于1,继续遍历剩余标题对应的标签层级;
判断当前标题的当前层级是否大于父级层级:
若当前标题的当前层级大于父级层级,***当前目录的子目录,继续遍历剩余标题对应的标签层级,重复判断过程,直至遍历结束;
若当前标题的当前层级不大于父级层级,***父级目录,继续遍历剩余标题对应的标签层级,重复判断过程,直至遍历结束。
7.一种Word文档大纲识别处理装置,其特征在于,包括:
Word文件处理模块,用于获取Word文件,对所述Word文件进行本地保存和解析,将所述Word文件转换为HTML代码文件;
标题标签获取模块,用于在JavaScript中循环所述HTML代码文件中所有的标题标签;
标题标签遍历模块,用于使用递归算法遍历所述HTML代码文件的所有标题标签并整理为树结构数据;
标题目录生成模块,用于通过所述树结构数据生成对应所述Word文件的标题目录数据;
联动处理模块,用于对每一个HTML代码文件的标题预设一个唯一主键,使用所述唯一主键进行HTML代码文件内容和标题目录数据联动。
8.根据权利要求7所述的一种Word文档大纲识别处理装置,其特征在于,将所述Word文件保存至本地服务器,在本地服务器将所述Word文件转换为HTML代码文件,将生成的HTML代码文件返回至展示所述Word文件的前端设备;
所述前端设备的展示界面包括目录窗口和富文本编辑器窗口,所述目录窗口用于展示所述标题目录数据,所述富文本编辑器窗口用于展示所述HTML代码对应的Word文件内容。
9.根据权利要求8所述的一种Word文档大纲识别处理装置,其特征在于,还包括标题目录更新模块,用于当所述富文本编辑器窗口的Word文件内容发生变化以后,重新触发生成Word文件内容变化后的标题目录;
还包括标题目录对比模块,用于将富文本编辑器窗口的Word文件内容发生变化前的标题目录与富文本编辑器窗口的Word文件内容发生变化后的标题目录进对比;
若富文本编辑器窗口的Word文件内容发生变化后的标题目录存在删除的标题标签,则将删除的标题标签对应的主键一并删除;
若富文本编辑器窗口的Word文件内容发生变化后的标题目录存在新增的标题标签,则对新增的标题标签创建新的主键;
若所述标题标签在富文本编辑器窗口的Word文件内容发生变化前后的标题目录中均存在,则在富文本编辑器窗口的Word文件内容发生变化后的标题目录中延续使用所述标题标签的主键。
10.根据权利要求7所述的一种Word文档大纲识别处理装置,其特征在于,所述标题目录生成模块中:
判断标题的标签层级是否等于1:
若标题的标签层级等于1,***父级目录;若标题的标签层级不等于1,继续遍历剩余标题对应的标签层级;
判断当前标题的当前层级是否大于父级层级:
若当前标题的当前层级大于父级层级,***当前目录的子目录,继续遍历剩余标题对应的标签层级,重复判断过程,直至遍历结束;
若当前标题的当前层级不大于父级层级,***父级目录,继续遍历剩余标题对应的标签层级,重复判断过程,直至遍历结束。
CN202111070726.9A 2021-09-13 2021-09-13 一种Word文档大纲识别处理方法及装置 Active CN113779235B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111070726.9A CN113779235B (zh) 2021-09-13 2021-09-13 一种Word文档大纲识别处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111070726.9A CN113779235B (zh) 2021-09-13 2021-09-13 一种Word文档大纲识别处理方法及装置

Publications (2)

Publication Number Publication Date
CN113779235A true CN113779235A (zh) 2021-12-10
CN113779235B CN113779235B (zh) 2024-02-02

Family

ID=78843368

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111070726.9A Active CN113779235B (zh) 2021-09-13 2021-09-13 一种Word文档大纲识别处理方法及装置

Country Status (1)

Country Link
CN (1) CN113779235B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114265916A (zh) * 2021-12-23 2022-04-01 深圳前海微众银行股份有限公司 文档目录的生成方法、装置、终端设备及存储介质
CN117763206A (zh) * 2024-02-20 2024-03-26 暗物智能科技(广州)有限公司 知识树的生成方法、装置、电子设备及存储介质

Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5758361A (en) * 1996-03-20 1998-05-26 Sun Microsystems, Inc. Document editor for linear and space efficient representation of hierarchical documents
CN102855257A (zh) * 2011-06-30 2013-01-02 北大方正集团有限公司 一种目录处理的方法和装置
CN103049543A (zh) * 2012-12-26 2013-04-17 福建天晴数码有限公司 多分支配置文件的更新方法及更新工具
CN103902632A (zh) * 2012-12-31 2014-07-02 华为技术有限公司 键值存储***中构建文件***的方法、装置及电子设备
CN104462045A (zh) * 2014-12-15 2015-03-25 北京信息科技大学 一种文档处理方法和装置
CN105630748A (zh) * 2014-10-31 2016-06-01 富士通株式会社 信息处理设备和信息处理方法
CN105786775A (zh) * 2014-12-23 2016-07-20 珠海金山办公软件有限公司 文档大纲图生成方法及***
CN106033404A (zh) * 2015-03-20 2016-10-19 广州金山移动科技有限公司 一种章节跳转方法及装置
CN107153544A (zh) * 2017-05-09 2017-09-12 合肥汉腾信息技术有限公司 一种表单自定义方法和装置
CN108563729A (zh) * 2018-04-04 2018-09-21 福州大学 一种基于dom树的招标网站中标信息抽取方法
CN109145054A (zh) * 2018-08-02 2019-01-04 力当高(上海)智能科技有限公司 一种管理客户端数据的方法
CN109815435A (zh) * 2019-01-24 2019-05-28 中国人民解放军战略支援部队航天工程大学 一种网站页面生成方法、装置及电子设备
CN110442822A (zh) * 2019-08-02 2019-11-12 腾讯科技(深圳)有限公司 一种小程序内容展示方法、装置、设备及存储介质
CN110795916A (zh) * 2019-09-27 2020-02-14 北京浪潮数据技术有限公司 一种文档***的侧边栏展示方法及***
CN111274760A (zh) * 2020-01-09 2020-06-12 北京字节跳动网络技术有限公司 富文本数据处理方法、装置、电子设备及计算机存储介质
CN111338548A (zh) * 2020-03-06 2020-06-26 深圳光大同创新材料有限公司 一种目录和文件分屏浏览展示方法、装置及存储介质
CN111460083A (zh) * 2020-03-31 2020-07-28 北京百度网讯科技有限公司 文档标题树的构建方法、装置、电子设备及存储介质
US10776434B1 (en) * 2016-11-16 2020-09-15 First American Financial Corporation System and method for document data extraction, data indexing, data searching and data filtering
CN112632437A (zh) * 2020-11-27 2021-04-09 ***股份有限公司 一种网页页面生成方法、装置及计算机可读存储介质
CN112668282A (zh) * 2020-12-28 2021-04-16 山东鲁能软件技术有限公司 一种设备规程文档格式转换的方法及***
CN113282793A (zh) * 2021-04-01 2021-08-20 南京航空航天大学 Web表数据语义抽取及RDF构建方法

Patent Citations (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5758361A (en) * 1996-03-20 1998-05-26 Sun Microsystems, Inc. Document editor for linear and space efficient representation of hierarchical documents
CN102855257A (zh) * 2011-06-30 2013-01-02 北大方正集团有限公司 一种目录处理的方法和装置
CN103049543A (zh) * 2012-12-26 2013-04-17 福建天晴数码有限公司 多分支配置文件的更新方法及更新工具
CN103902632A (zh) * 2012-12-31 2014-07-02 华为技术有限公司 键值存储***中构建文件***的方法、装置及电子设备
CN105630748A (zh) * 2014-10-31 2016-06-01 富士通株式会社 信息处理设备和信息处理方法
CN104462045A (zh) * 2014-12-15 2015-03-25 北京信息科技大学 一种文档处理方法和装置
CN105786775A (zh) * 2014-12-23 2016-07-20 珠海金山办公软件有限公司 文档大纲图生成方法及***
CN106033404A (zh) * 2015-03-20 2016-10-19 广州金山移动科技有限公司 一种章节跳转方法及装置
US10776434B1 (en) * 2016-11-16 2020-09-15 First American Financial Corporation System and method for document data extraction, data indexing, data searching and data filtering
CN107153544A (zh) * 2017-05-09 2017-09-12 合肥汉腾信息技术有限公司 一种表单自定义方法和装置
CN108563729A (zh) * 2018-04-04 2018-09-21 福州大学 一种基于dom树的招标网站中标信息抽取方法
CN109145054A (zh) * 2018-08-02 2019-01-04 力当高(上海)智能科技有限公司 一种管理客户端数据的方法
CN109815435A (zh) * 2019-01-24 2019-05-28 中国人民解放军战略支援部队航天工程大学 一种网站页面生成方法、装置及电子设备
CN110442822A (zh) * 2019-08-02 2019-11-12 腾讯科技(深圳)有限公司 一种小程序内容展示方法、装置、设备及存储介质
CN110795916A (zh) * 2019-09-27 2020-02-14 北京浪潮数据技术有限公司 一种文档***的侧边栏展示方法及***
CN111274760A (zh) * 2020-01-09 2020-06-12 北京字节跳动网络技术有限公司 富文本数据处理方法、装置、电子设备及计算机存储介质
CN111338548A (zh) * 2020-03-06 2020-06-26 深圳光大同创新材料有限公司 一种目录和文件分屏浏览展示方法、装置及存储介质
CN111460083A (zh) * 2020-03-31 2020-07-28 北京百度网讯科技有限公司 文档标题树的构建方法、装置、电子设备及存储介质
CN112632437A (zh) * 2020-11-27 2021-04-09 ***股份有限公司 一种网页页面生成方法、装置及计算机可读存储介质
CN112668282A (zh) * 2020-12-28 2021-04-16 山东鲁能软件技术有限公司 一种设备规程文档格式转换的方法及***
CN113282793A (zh) * 2021-04-01 2021-08-20 南京航空航天大学 Web表数据语义抽取及RDF构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
个人不完美: "javaScript实现递归树目录结构", 《HTTPS://ZHUANLAN.ZHIHU.COM/47844638》, pages 1 - 3 *
脚穿草鞋: "(java)word转html并提取word中的目录结构树生成到html页面中的左边树", 《HTTPS://BLOG.CSDN.NET/TODAY_/ARTICLE/DETAILS/107901405》, pages 1 - 8 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114265916A (zh) * 2021-12-23 2022-04-01 深圳前海微众银行股份有限公司 文档目录的生成方法、装置、终端设备及存储介质
CN117763206A (zh) * 2024-02-20 2024-03-26 暗物智能科技(广州)有限公司 知识树的生成方法、装置、电子设备及存储介质
CN117763206B (zh) * 2024-02-20 2024-06-11 暗物智能科技(广州)有限公司 知识树的生成方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113779235B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
US11003846B2 (en) Smarter copy/paste
US9256583B2 (en) Conversion of a presentation to Darwin Information Typing Architecture (DITA)
US20090199086A1 (en) Document processing and management approach to making changes to a document and its representation
US20150067476A1 (en) Title and body extraction from web page
CN106919711B (zh) 基于人工智能的标注信息的方法和装置
US7720814B2 (en) Repopulating a database with document content
CN113779235B (zh) 一种Word文档大纲识别处理方法及装置
US10755091B2 (en) Method and apparatus for retrieving image-text block from web page
US20190310976A1 (en) Search Results Modulator
CN113158101A (zh) 一种可视化页面渲染方法、装置、设备及存储介质
CN116108826A (zh) 用于设计者的智能改变总结
CN107423271B (zh) 文档生成方法和装置
CN115756692A (zh) 基于样式属性自动组合展示页面的方法及其相关设备
CN108664511B (zh) 获取网页信息方法和装置
CN113742321A (zh) 一种数据更新的方法和装置
CN111914521A (zh) 文档书签创建方法、装置、电子设备和可读存储介质
CN112988255A (zh) 数据处理方法、装置及计算机可读存储介质
CN111221610A (zh) 一种页面元素采集方法和装置
CN115248803B (zh) 适用于网盘文件的收藏方法、装置、网盘及存储介质
US20220207092A1 (en) Computer service for indexing threaded comments with pagination support
KR20100014116A (ko) 탭을 위한 규칙 기반의 사용자 정의된 wi-메카니즘
CN113760271A (zh) 一种生成用于描述页面的代码的方法和装置
CN114238839A (zh) 一种页面生成方法、装置、电子设备和存储介质
CN115328324A (zh) 移动端字符输入的方法和装置
Chang et al. Mobile Website Creation based on Web Data eXtraction and Reuse

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant