CN110377884B

CN110377884B - 文档解析方法、装置、计算机设备及存储介质

Info

Publication number: CN110377884B
Application number: CN201910509468.6A
Authority: CN
Inventors: 李双婕; 黄昉; 郝学峰; 史亚冰; 宋勋超; 蒋烨; 张扬; 朱勇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2023-03-24
Anticipated expiration: 2039-06-13
Also published as: CN110377884A

Abstract

本发明公开了文档解析方法、装置、计算机设备及存储介质，其中方法可包括：将待处理的预定格式的文档切分为文本节点；针对预定类型的文本节点，分别进行以下处理：获取文本节点的章节模式信息；根据章节模式信息确定出文本节点的层级；按照层级将文本节点加入到所构建的文档树中。应用本发明所述方案，可实现对于文档的层次化解析等。

Description

文档解析方法、装置、计算机设备及存储介质

【技术领域】

本发明涉及计算机应用技术，特别涉及文档解析方法、装置、计算机设备及存储介质。

【背景技术】

在金融、公安、司法等重要领域中，存在着大量直接或间接依赖于知识图谱的需求与功能。例如，金融行业的智能客服、智能投研、智能投顾、风控决策；法律行业的智能搜索、法律推理、智能判案、文书撰审等。同时，这些行业中的公司、机构积累了大量的专业文档，可以用于构建行业知识图谱，从而满足相关需求。

通常情况下，这些行业中的专业文档都存储成doc、docx、pdf等格式，其内容无法作为结构化信息存储在关系数据库中。但是这些专业文档通常都具有一定的层次化结构特点，其中蕴含了构建知识图谱所需的信息，可辅助构建行业知识主谓宾(SPO，SubjectProperty Object)三元组等。为此，需要对上述文档进行层次化解析，但目前还没有一种较好的实现方式。

【发明内容】

有鉴于此，本发明提供了文档解析方法、装置、计算机设备及存储介质。

具体技术方案如下：

一种文档解析方法，包括：

将待处理的预定格式的文档切分为文本节点；

针对预定类型的文本节点，分别进行以下处理：

获取所述文本节点的章节模式信息；

根据所述章节模式信息确定出所述文本节点的层级；

按照所述层级将所述文本节点加入到所构建的文档树中。

根据本发明一优选实施例，所述预定格式包括：超文本标记语言格式；

该方法进一步包括：若所述文档的格式不为超文本标记语言格式，则将所述文档转换为超文本标记语言格式。

根据本发明一优选实施例，所述将待处理的预定格式的文档切分为文本节点包括：将所述文档切分为段落粒度的文本节点。

根据本发明一优选实施例，所述预定类型的文本节点包括：从非目录页中切分出的文本节点。

根据本发明一优选实施例，所述获取所述文本节点的章节模式信息包括：

若所述文本节点中存在显式的章节模式信息，则解析出所述章节模式信息，作为所述文本节点的章节模式信息；

或者，若目录页中存在与所述文本节点中的文本内容相同的内容，则获取所述目录页中的所述文本内容对应的章节模式信息，作为所述文本节点的章节模式信息；

或者，将所述文本节点的除<li>标签之外的超文本标记语言路径信息作为所述文本节点的章节模式信息。

根据本发明一优选实施例，该方法进一步包括：识别出文本内容为目录标题的文本节点，识别出位于所述文本内容为目录标题的文本节点之后的、文本内容为目录内容的文本节点，从所述文本内容为目录内容的文本节点中解析出章节模式信息；其中，所述文本内容为目录标题的文本节点以及所述文本内容为目录内容的文本节点均为从目录页中切分出的文本节点；

所述获取所述目录页中的所述文本内容对应的章节模式信息包括：将包含所述文本内容的目录内容对应的章节模式信息作为所述文本内容对应的章节模式信息。

根据本发明一优选实施例，该方法进一步包括：获取所述文档的文档标题，将所述文档标题设置为所述文档树的根节点。

根据本发明一优选实施例，所述获取所述文档的文档标题包括：

若所述文档存在标题标签，则将所述标题标签对应的内容作为所述文档标题，否则，将所述文档的文件名作为所述文档标题。

根据本发明一优选实施例，该方法进一步包括：初始化全局章节模式序列，初始为空，将所述文档标题对应的章节模式信息加入到所述全局章节模式序列中，并将所述文档标题对应的章节模式信息在所述全局章节模式序列中的位置序号作为所述根节点的层级；

所述根据所述章节模式信息确定出所述文本节点的层级包括：确定所述文本节点的章节模式信息是否存在于所述全局章节模式序列中；若是，则将所述文本节点的章节模式信息在所述全局章节模式序列中的位置序号作为所述文本节点的层级；若否，则将所述文本节点的章节模式信息加入到所述全局章节模式序列中，并将所述文本节点的章节模式信息在所述全局章节模式序列中的位置序号作为所述文本节点的层级；其中，所述位置序号为不同章节模式信息加入到所述全局章节模式序列中的顺序序号。

根据本发明一优选实施例，该方法进一步包括：在确定出所述文本节点的层级之后，删除所述全局章节模式序列中位置序号大于所述文本节点的层级的章节模式信息。

根据本发明一优选实施例，该方法进一步包括：初始状态，将所述根节点设置为基准树节点；

所述按照所述层级将所述文本节点加入到所构建的文档树中包括：将所述文本节点的层级与基准树节点的层级进行比较，根据比较结果将所述文本节点作为基准树节点的孩子节点或兄弟节点加入到所述文档树中，并将所述文本节点设置为基准树节点。

根据本发明一优选实施例，所述将所述文本节点的层级与基准树节点的层级进行比较，根据比较结果将所述文本节点作为孩子节点或兄弟节点加入到所述文档树中包括：

若所述文本节点的层级大于基准树节点的层级，则将所述文本节点作为基准树节点的孩子节点加入到所述文档树中；

若所述文本节点的层级等于基准树节点的层级，则将所述文本节点作为基准树节点的兄弟节点加入到所述文档树中；

若所述文本节点的层级小于基准树节点的层级，则执行以下预定处理：将当前的基准树节点的上一层级节点作为更新后的基准树节点，若更新后的基准树节点的层级小于所述文本节点的层级，则将所述文本节点作为更新后的基准树节点的孩子节点加入到所述文档树中，否则，重复执行所述预定处理。

一种文档解析装置，包括：切分单元以及解析单元；

所述切分单元，用于将待处理的预定格式的文档切分为文本节点；

所述解析单元，用于针对预定类型的文本节点，分别进行以下处理：

获取所述文本节点的章节模式信息；

根据所述章节模式信息确定出所述文本节点的层级；

按照所述层级将所述文本节点加入到所构建的文档树中。

所述装置中进一步包括：预处理单元，用于当所述文档的格式不为超文本标记语言格式时，将所述文档转换为超文本标记语言格式。

根据本发明一优选实施例，所述切分单元将所述文档切分为段落粒度的文本节点。

根据本发明一优选实施例，所述解析单元在所述文本节点中存在显式的章节模式信息时，解析出所述章节模式信息，作为所述文本节点的章节模式信息；

或者，所述解析单元在目录页中存在与所述文本节点中的文本内容相同的内容时，获取所述目录页中的所述文本内容对应的章节模式信息，作为所述文本节点的章节模式信息；

或者，所述解析单元将所述文本节点除<li>标签之外的超文本标记语言路径信息作为所述文本节点的章节模式信息。

根据本发明一优选实施例，所述解析单元进一步用于，识别出文本内容为目录标题的文本节点，识别出位于所述文本内容为目录标题的文本节点之后的、文本内容为目录内容的文本节点，从所述文本内容为目录内容的文本节点中解析出章节模式信息；其中，所述文本内容为目录标题的文本节点以及所述文本内容为目录内容的文本节点均为从目录页中切分出的文本节点；

所述解析单元将包含所述文本内容的目录内容对应的章节模式信息作为所述文本内容对应的章节模式信息。

根据本发明一优选实施例，所述解析单元进一步用于，获取所述文档的文档标题，将所述文档标题设置为所述文档树的根节点。

根据本发明一优选实施例，所述解析单元确定所述文档存在标题标签，则将所述标题标签对应的内容作为所述文档标题，否则，将所述文档的文件名作为所述文档标题。

根据本发明一优选实施例，所述解析单元进一步用于，初始化全局章节模式序列，初始为空，将所述文档标题对应的章节模式信息加入到所述全局章节模式序列中，并将所述文档标题对应的章节模式信息在所述全局章节模式序列中的位置序号作为所述根节点的层级；

所述解析单元确定所述文本节点的章节模式信息是否存在于所述全局章节模式序列中，若是，则将所述文本节点的章节模式信息在所述全局章节模式序列中的位置序号作为所述文本节点的层级，若否，则将所述文本节点的章节模式信息加入到所述全局章节模式序列中，并将所述文本节点的章节模式信息在所述全局章节模式序列中的位置序号作为所述文本节点的层级；其中，所述位置序号为不同章节模式信息加入到所述全局章节模式序列中的顺序序号。

根据本发明一优选实施例，所述解析单元进一步用于，在确定出所述文本节点的层级之后，删除所述全局章节模式序列中位置序号大于所述文本节点的层级的章节模式信息。

根据本发明一优选实施例，所述解析单元进一步用于，初始状态，将所述根节点设置为基准树节点；

所述解析单元将所述文本节点的层级与基准树节点的层级进行比较，根据比较结果将所述文本节点作为基准树节点的孩子节点或兄弟节点加入到所述文档树中，并将所述文本节点设置为基准树节点。

根据本发明一优选实施例，所述解析单元确定所述文本节点的层级大于基准树节点的层级，则将所述文本节点作为基准树节点的孩子节点加入到所述文档树中，若确定所述文本节点的层级等于基准树节点的层级，则将所述文本节点作为基准树节点的兄弟节点加入到所述文档树中，若确定所述文本节点的层级小于基准树节点的层级，则执行以下预定处理：将当前的基准树节点的上一层级节点作为更新后的基准树节点，若更新后的基准树节点的层级小于所述文本节点的层级，则将所述文本节点作为更新后的基准树节点的孩子节点加入到所述文档树中，否则，重复执行所述预定处理。

一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如以上所述的方法。

一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如以上所述的方法。

基于上述介绍可以看出，采用本发明所述方案，可将文档解析为文档树的形式，从而实现了对于文档的层次化解析，进而可辅助基于文档解析的知识图谱构建，提升了构建效率和准确性等。

【附图说明】

图1为本发明所述文档解析方法第一实施例的流程图。

图2为构建过程中的文档树的示意图。

图3为在图2所示基础上加入文本节点6后的文档树的第一示意图。

图4为在图2所示基础上加入文本节点6后的文档树的第二示意图。

图5为在图2所示基础上加入文本节点6后的文档树的第三示意图。

图6为本发明所述文档解析方法第二实施例的流程图。

图7为本发明所述文档解析装置实施例的组成结构示意图。

图8示出了适于用来实现本发明实施方式的示例性计算机***/服务器12的框图。

【具体实施方式】

为了使本发明的技术方案更加清楚、明白，以下参照附图并举实施例，对本发明所述方案进行进一步说明。

显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

另外，应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

图1为本发明所述文档解析方法第一实施例的流程图。如图1所示，包括以下具体实现方式。

在101中，将待处理的预定格式的文档切分为文本节点。

在102中，针对预定类型的文本节点，分别按照103-105所示方式进行处理。

在103中，获取文本节点的章节模式信息。

在104中，根据章节模式信息确定出文本节点的层级。

在105中，按照确定出的层级将文本节点加入到所构建的文档树中。

优选地，所述预定格式可为超文本标记语言(HTML，Hyper Text MarkupLanguage)格式。若待处理的文档不为HTML格式，如为doc格式或pdf格式，需要先将文档转换为HTML格式。

可使用第三方工具对doc格式和pdf格式的文档进行转换。比如，对于doc格式的文档(包括doc、docx等)，可使用开源代码库libreoffice进行转换，对于pdf格式的文档，其中的文本部分可使用开源工具转换，图片部分可使用百度的光学字符识别(OCR，OpticalCharacter Recognition)工具转换成文本，并可根据位置信息将二者进行拼接。

对于待处理的HTML格式的文档，可解析出文档的文档标题。若文档存在标题(title)标签(HTML标签)，可将title标签对应的内容作为文档标题，否则，可将文档的文件名作为文档标题。可将文档标题设置为所构建的文档树的根节点。

对于待处理的HTML格式的文档，还可将其切分为段落粒度的文本节点。可按照现有方式，使用h标签、p标签、div标签等进行切分，从而将输入的文档切分成段落粒度的文本节点，并可记录每个文本节点的HTML标签和样式信息等。

根据样式信息等，可解析出文档目录中包含的章节信息，以便帮助后续的层次解析。解析文档目录主要包括识别目录标题节点、识别目录内容节点以及解析章节信息三个步骤。目录标题节点以及目录内容节点均为从目录页中切分出的文本节点。

首先，可识别出文本内容为目录标题的文本节点，即识别出目录标题节点。对于包含目录的文档，通常存在一个文本节点(可能是一行)包含“目录”二字，并且存在加粗、居中等特殊样式。在目录标题节点识别时，如果存在一个文本节点，其文本内容中包含“目录”二字，且包含加粗、居中、特殊字体等特殊样式，则可认为该文本节点为目录标题节点。

之后，可识别出位于目录标题节点之后的文本内容为目录内容的文本节点，即识别出目录内容节点。对于包含目录的文档，通常目录内容节点位于目录标题节点之后，且具有一些特定的结构，如一行的开头存在“第x章”等显式章节信息，一行的结尾存在页码数字(如用于指示这一章的起始页)信息。在目标内容节点识别时，如果存在如下文本节点：位于目录标题节点之后，并且文本内容以章节信息开头，以页码数字信息结尾，则可认为该文本节点为目录内容节点。

可从目录内容节点中解析出章节信息，如章节模式信息“第x章”等。

针对预定类型的文本节点，如从非目录页中切分出的文本节点，可分别解析出不同文本节点在文档树结构上的父子、兄弟关系等，从而构建出文档树。具体地，针对每个文本节点，可分别进行以下处理：获取文本节点的章节模式信息；根据章节模式信息确定出文本节点的层级；按照确定出的层级将文本节点加入到文档树中。

相应地，可预先进行以下处理：初始化全局章节模式序列，初始为空，初始化文档树，将获取到的文档标题设置为文档树的根节点，将文档标题对应的章节模式信息加入到全局章节模式序列中，并将文档标题对应的章节模式信息在全局章节模式序列中的位置序号作为根节点的层级；另外，还可将根节点设置为基准树节点。其中，位置序号为不同章节模式信息加入到全局章节模式序列中的顺序序号。文档标题对应的章节模式信息可为“title”。

针对从非目录页中切分出的每个文本节点，可首先获取文本节点的章节模式信息，获取方式可包括但不限于以下所示。

1)文本模式：若文本节点中存在显式的章节模式信息，则可解析出所述章节模式信息，作为文本节点的章节模式信息。

比如，文本节点中包括以下文本内容：第十七章-基金的费用与税收，其中存在显式的章节模式信息“第x章”，可解析出来，作为文本节点的章节模式信息。

2)是否命中目录页中的章节模式信息：若目录页中存在与文本节点中的文本内容相同的内容，则可获取目录页中的所述文本内容对应的章节模式信息，作为文本节点的章节模式信息。

其中，获取目录页中的所述文本内容对应的章节模式信息可以是指，将包含所述文本内容的目录内容对应的章节模式信息作为所述文本内容对应的章节模式信息。

有时文档目录中声明的章节模式信息，在正文中会省略显式的章节模式信息，对于文本节点中的文本内容，可在目录页中进行匹配，如果存在相同的内容，可使用目录中的相应的章节模式信息。

比如，文本节点中包括以下文本内容：基金的费用与税收，并且存在如下目录：第十七章-基金的费用与税收，那么则可将“第x章”作为文本节点的章节模式信息。

3)HTML标签：可将文本节点除<li>标签之外的超文本标记语言路径(html xpath)信息作为文本节点的章节模式信息。

通过<ol>、<ul>、<li>等HTML标签，可获取到文本节点的章节模式信息，即可将除<li>标签之外的html xpath信息作为章节模式信息。

<ol>、<ul>都是<li>的父级标签，和<li>配套使用。html xpath为文本节点在HTML中的路径信息，每个文本节点均具有html xpath。

比如，文本节点中包括以下文本内容：基金的费用与税收，对应的html xpath为：/html/body/div[1]/ol/li[2]，那么可将/html/body/div[1]/ol作为文本节点的章节模式信息。

按照上述1)、2)、3)所示方式，还可分别获取到文本节点的其它章节信息，如章节序号信息，如方式1)和2)中获取到的章节序号为17，方式3)中获取到的章节序号为2(即<li>标签中的序号)。

在实际应用中，具体采用哪种方式可根据实际需要而定，如可优先采用方式1)，其次是方式2)，最后是方式3)。

在获取到文本节点的章节模式信息之后，可根据章节模式信息确定出文本节点的层级。比如，可首先确定出文本节点的章节模式信息是否存在于全局章节模式序列中，若是，则可将文本节点的章节模式信息在全局章节模式序列中的位置序号作为文本节点的层级，若否，可将文本节点的章节模式信息加入到全局章节模式序列中，并可将文本节点的章节模式信息在全局章节模式序列中的位置序号作为文本节点的层级。如前所述，位置序号为不同章节模式信息加入到全局章节模式序列中的顺序序号。

比如，文本节点的章节模式信息为“第x章”，全局章节模式序列中包含以下章节模式信息：“title”以及“第x章”，经比较可知，文本节点的章节模式信息已经存在于全局章节模式序列中，因此，可将文本节点的章节模式信息“第x章”在全局章节模式序列中的位置序号2作为文本节点的层级。

再比如，文本节点的章节模式信息为“第x节”，全局章节模式序列中包含以下章节模式信息：“title”以及“第x章”，经比较可知，文本节点的章节模式信息未存在于全局章节模式序列中，因此，可将文本节点的章节模式信息“第x节”加入到全局章节模式序列中，这样，全局章节模式序列中将包含“title”、“第x章”以及“第x节”等章节模式信息，可将文本节点的章节模式信息“第x节”在全局章节模式序列中的位置序号3作为文本节点的层级。

在确定出文本节点的层级之后，还可删除全局章节模式序列中位置序号大于文本节点的层级的章节模式信息，即将全局章节模式序列的长度截断至等于当前的文本节点的层级。

比如，全局章节模式序列中包含以下章节模式信息：“title”、“第x章”以及“第*节”，当前的文本节点的章节模式信息为“第x章”，那么则可删除“第*节”这一章节模式信息，从而保证全局章节模式序列中记录的是从根节点到当前的文本节点的路径。

之后，可按照确定出的文本节点的层级将文本节点加入到所构建的文档树中。初始状态，可将根节点设置为基准树节点，但基准树节点是动态变化的。针对文本节点，可将文本节点的层级与基准树节点的层级进行比较，根据比较结果将文本节点作为基准树节点的孩子节点或兄弟节点加入到文档树中，之后，可将文本节点设置为基准树节点。

具体地，在将文本节点的层级与基准树节点的层级进行比较，根据比较结果将文本节点作为孩子节点或兄弟节点加入到文档树中的方式可为：若文本节点的层级大于基准树节点的层级，则可将文本节点作为基准树节点的孩子节点加入到文档树中；若文本节点的层级等于基准树节点的层级，则可将文本节点作为基准树节点的兄弟节点加入到文档树中；若文本节点的层级小于基准树节点的层级，则可执行以下预定处理：将当前的基准树节点的上一层级节点作为更新后的基准树节点，若更新后的基准树节点的层级小于文本节点的层级，则可将文本节点作为更新后的基准树节点的孩子节点加入到文档树中，否则，重复执行所述预定处理。

图2为构建过程中的文档树的示意图。如图2所示，假设已经存在了四级节点，分别为层级为1的根节点，层级为2的文本节点2，层级为3的文本节点3和文本节点4，以及，层级为4的文本节点5，当需要将一个新的文本节点6加入到文档树时，可首先确定出文本节点6的层级。

假设文本节点6的层级为4，并假设文本节点5为基准树节点，那么经比较，文本节点6的层级等于基准树节点的层级，因此可将文本节点6作为基准树节点的兄弟节点加入到文档树中，如图3所示，图3为在图2所示基础上加入文本节点6后的文档树的第一示意图。

假设文本节点6的层级为5，并假设文本节点5为基准树节点，那么经比较，文本节点6的层级大于基准树节点的层级，因此可将文本节点6作为基准树节点的孩子节点加入到文档树中，如图4所示，图4为在图2所示基础上加入文本节点6后的文档树的第二示意图。

假设文本节点6的层级为3，并假设文本节点5为基准树节点，那么经比较，文本节点6的层级小于基准树节点的层级，因此需要更新基准树节点，首先将当前的基准树节点的上一层级节点即文本节点4作为更新后的基准树节点，更新后的基准树节点的层级仍不满足小于文本节点的层级的要求，因此需要继续更新基准树节点，将当前的基准树节点即文本节点4的上一层级节点即文本节点2作为更新后的基准树节点，文本节点2的层级小于文本节点6的层级，因此可将文本节点6作为文本节点2的孩子节点加入到文档树中，如图5所示，图5为在图2所示基础上加入文本节点6后的文档树的第三示意图。

可分别按照上述方式对各文本节点进行处理，从而将各文本节点加入到文档树中，完成具有层次结构的文档树的构建。

在实际应用中，可按照预定顺序依次对各文本节点进行处理，比如，按照切分后的各文本节点中的文本内容在文档中出现的先后顺序，依次对各文本节点进行处理。

综合上述介绍，图6为本发明所述文档解析方法第二实施例的流程图。如图6所示，包括以下具体实现方式。

在601中，将待处理的文档转换为HTML格式。

假设待处理的文档为doc格式，那么需要首先将其转换为HTML格式。

在602中，获取文档的文档标题。

若文档存在title标签，可将title标签对应的内容作为文档标题，否则，可将文档的文件名作为文档标题。

在603中，将文档切分为段落粒度的文本节点。

可按照现有方式，使用h标签、p标签、div标签等进行切分，从而将文档切分成一系列段落粒度的文本节点。

在604中，初始化文档树，将文档标题作为文档树的根节点，层级为1。

可初始化全局章节模式序列，初始为空，并可将文档标题对应的章节模式信息加入到全局章节模式序列中，并可将文档标题对应的章节模式信息在全局章节模式序列中的位置序号作为根节点的层级。位置序号为不同章节模式信息加入到全局章节模式序列中的顺序序号。

文档标题对应的章节模式信息可为“title”。可以看出，文档标题对应的章节模式信息在全局章节模式序列中的位置序号为1，因此，可确定根节点的层级为1。

在605中，将根节点设置为基准树节点。

在606中，针对每个预定类型的文本节点，分别按照607～609所示方式进行处理。

预定类型的文本节点可以是指从非目录页中切分出的文本节点。

在607中，获取文本节点的章节模式信息。

获取章节模式信息的方式可包括但不限于以下所示：

若文本节点中存在显式的章节模式信息，则解析出所述章节模式信息，作为文本节点的章节模式信息；

或者，若目录页中存在与文本节点中的文本内容相同的内容，则获取目录页中的所述文本内容对应的章节模式信息，作为文本节点的章节模式信息；

或者，将文本节点除<li>标签之外的html xpath信息作为文本节点的章节模式信息。

为此，可预先进行文档目录解析，解析出文档目录中包含的章节模式信息，如识别出文本内容为目录标题的文本节点，并识别出位于文本内容为目录标题的文本节点之后的、文本内容为目录内容的文本节点，进而可从文本内容为目录内容的文本节点中解析出章节模式信息。文本内容为目录标题的文本节点以及文本内容为目录内容的文本节点均为从目录页中切分出的文本节点。

相应地，获取目录页中的所述文本内容对应的章节模式信息可以是指，将包含所述文本内容的目录内容对应的章节模式信息作为所述文本内容对应的章节模式信息。

在608中，根据章节模式信息确定出文本节点的层级。

可首先确定出文本节点的章节模式信息是否存在于全局章节模式序列中，若是，则可将文本节点的章节模式信息在全局章节模式序列中的位置序号作为文本节点的层级，若否，可将文本节点的章节模式信息加入到全局章节模式序列中，并可将文本节点的章节模式信息在全局章节模式序列中的位置序号作为文本节点的层级。

另外，在确定出文本节点的层级之后，还可删除全局章节模式序列中位置序号大于文本节点的层级的章节模式信息。如果全局章节模式序列中不存在位置序号大于文本节点的层级的章节模式信息，那么则无需执行此操作。

在609中，基于基准树节点的层级以及文本节点的层级，将文本节点加入到文档树中，并更新基准树节点。

可将文本节点的层级与基准树节点的层级进行比较，根据比较结果将文本节点作为基准树节点的孩子节点或兄弟节点加入到文档树中，并可将文本节点设置为基准树节点。

其中，若文本节点的层级大于基准树节点的层级，可将文本节点作为基准树节点的孩子节点加入到文档树中，若文本节点的层级等于基准树节点的层级，可将文本节点作为基准树节点的兄弟节点加入到文档树中，若文本节点的层级小于基准树节点的层级，可执行以下预定处理：将当前的基准树节点的上一层级节点作为更新后的基准树节点，若更新后的基准树节点的层级小于文本节点的层级，则将文本节点作为更新后的基准树节点的孩子节点加入到文档树中，否则，重复执行所述预定处理。

需要说明的是，对于前述的各方法实施例，为了简单描述，将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

总之，采用本发明方法实施例所述方案，可将文档解析为文档树的形式，从而实现了对于文档的层次化解析，进而可辅助基于文档解析的知识图谱构建，提升了构建效率和准确性等。

以上是关于方法实施例的介绍，以下通过装置实施例，对本发明所述方案进行进一步说明。

图7为本发明所述文档解析装置实施例的组成结构示意图。如图7所示，包括：切分单元701以及解析单元702。

切分单元701，用于将待处理的预定格式的文档切分为文本节点。

解析单元702，用于针对预定类型的文本节点，分别进行以下处理：获取文本节点的章节模式信息；根据章节模式信息确定出文本节点的层级；按照层级将文本节点加入到所构建的文档树中。

所述预定格式可为HTML格式。图7所示装置中还可进一步包括：预处理单元700，用于当文档的格式不为HTML格式时，将文档转换为HTML格式。切分单元701可将HTML格式的文档切分为段落粒度的文本节点。

对于HTML格式的文档，解析单元702可获取文档的文档标题，并可将文档标题设置为文档树的根节点，其中，若文档存在title标签，可将title标签对应的内容作为文档标题，否则，可将文档的文件名作为文档标题。

解析单元702还可解析出文档目录中包含的章节模式信息，以便帮助后续的层次解析，如可首先识别出文本内容为目录标题的文本节点，之后可识别出位于文本内容为目录标题的文本节点之后的、文本内容为目录内容的文本节点，并可从文本内容为目录内容的文本节点中解析出章节模式信息。其中，文本内容为目录标题的文本节点以及文本内容为目录内容的文本节点均为从目录页中切分出的文本节点。

针对预定类型的文本节点，如从非目录页中切分出的文本节点，解析单元702可分别解析出不同文本节点在文档树结构上的父子、兄弟关系等，从而构建出文档树。具体地，针对每个文本节点，可分别进行以下处理：获取文本节点的章节模式信息；根据章节模式信息确定出文本节点的层级；按照确定出的层级将文本节点加入到文档树中。

在此之前，解析单元702还可先进行以下处理：初始化全局章节模式序列，初始为空，初始化文档树，将文档标题设置为文档树的根节点，将文档标题对应的章节模式信息加入到全局章节模式序列中，并将文档标题对应的章节模式信息在全局章节模式序列中的位置序号作为根节点的层级，另外，还可将根节点设置为基准树节点。其中，位置序号为不同章节模式信息加入到全局章节模式序列中的顺序序号。文档标题对应的章节模式信息可为“title”。

针对从非目录页中切分出的每个文本节点，解析单元702可首先获取文本节点的章节模式信息，获取方式可包括但不限于以下所示：在文本节点中存在显式的章节模式信息时，解析出章节模式信息，作为文本节点的章节模式信息；或者，在目录页中存在与文本节点中的文本内容相同的内容时，获取目录页中的所述文本内容对应的章节模式信息，作为文本节点的章节模式信息，其中，可将包含所述文本内容的目录内容对应的章节模式信息作为所述文本内容对应的章节模式信息；或者，将文本节点除<li>标签之外的htmlxpath信息作为文本节点的章节模式信息。

在获取到文本节点的章节模式信息之后，解析单元702可根据章节模式信息确定出文本节点的层级。具体地，可首先确定出文本节点的章节模式信息是否存在于全局章节模式序列中，若是，则可将文本节点的章节模式信息在全局章节模式序列中的位置序号作为文本节点的层级，若否，可将文本节点的章节模式信息加入到全局章节模式序列中，并可将文本节点的章节模式信息在全局章节模式序列中的位置序号作为文本节点的层级。如前所述，位置序号为不同章节模式信息加入到全局章节模式序列中的顺序序号。

在确定出文本节点的层级之后，解析单元702还可删除全局章节模式序列中位置序号大于文本节点的层级的章节模式信息，即将全局章节模式序列的长度截断至等于当前的文本节点的层级。

解析单元702可按照确定出的文本节点的层级将文本节点加入到所构建的文档树中。初始状态，可将根节点设置为基准树节点，但基准树节点是动态变化的。针对文本节点，可将文本节点的层级与基准树节点的层级进行比较，根据比较结果将文本节点作为基准树节点的孩子节点或兄弟节点加入到文档树中，之后，可将文本节点设置为基准树节点。

具体地，在将文本节点的层级与基准树节点的层级进行比较，根据比较结果将文本节点作为孩子节点或兄弟节点加入到文档树中的方式可为：若文本节点的层级大于基准树节点的层级，则可将文本节点作为基准树节点的孩子节点加入到文档树中；若文本节点的层级等于基准树节点的层级，则可将文本节点作为基准树节点的兄弟节点加入到文档树中；若文本节点的层级小于基准树节点的层级，则可执行以下预定处理：将当前的基准树节点的上一层级节点作为更新后的基准树节点，若更新后的基准树节点的层级小于文本节点的层级，则将文本节点作为更新后的基准树节点的孩子节点加入到文档树中，否则，重复执行所述预定处理。

图7所示装置实施例的具体工作流程请参照前述方法实施例中的相关说明，不再赘述。

总之，采用本发明装置实施例所述方案，可将文档解析为文档树的形式，从而实现了对于文档的层次化解析，进而可辅助基于文档解析的知识图谱构建，提升了构建效率和准确性等。

图8示出了适于用来实现本发明实施方式的示例性计算机***/服务器12的框图。图8显示的计算机***/服务器12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，计算机***/服务器12以通用计算设备的形式表现。计算机***/服务器12的组件可以包括但不限于：一个或者多个处理器(处理单元)16，存储器28，连接不同***组件(包括存储器28和处理器16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，***总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。

计算机***/服务器12典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机***/服务器12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机***/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，存储***34可以用于读写不可移动的、非易失性磁介质(图8未显示，通常称为“硬盘驱动器”)。尽管图8中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括——但不限于——操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机***/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机***/服务器12交互的设备通信，和/或与使得该计算机***/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机***/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图8所示，网络适配器20通过总线18与计算机***/服务器12的其它模块通信。应当明白，尽管图中未示出，可以结合计算机***/服务器12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

处理器16通过运行存储在存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现图1或图6所示实施例中的方法。

本发明同时公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时将实现如图1或图6所示实施例中的方法。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法等，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种文档解析方法，其特征在于，包括：

将待处理的预定格式的文档切分为文本节点，包括：将所述文档切分为段落粒度的文本节点；所述预定格式包括：超文本标记语言格式；

针对从非目录页中切分出的文本节点，分别进行以下处理：

获取所述文本节点的章节模式信息，包括：若所述文本节点中存在显式的章节模式信息，则解析出所述章节模式信息，作为所述文本节点的章节模式信息；或者，若目录页中存在与所述文本节点中的文本内容相同的内容，则获取所述目录页中的所述文本内容对应的章节模式信息，作为所述文本节点的章节模式信息；或者，将所述文本节点除<li>标签之外的超文本标记语言路径信息作为所述文本节点的章节模式信息；

根据所述章节模式信息确定出所述文本节点的层级，包括：确定所述文本节点的章节模式信息是否存在于全局章节模式序列中，若是，则将所述文本节点的章节模式信息在所述全局章节模式序列中的位置序号作为所述文本节点的层级，若否，则将所述文本节点的章节模式信息加入到所述全局章节模式序列中，并将所述文本节点的章节模式信息在所述全局章节模式序列中的位置序号作为所述文本节点的层级，其中，所述位置序号为不同章节模式信息加入到所述全局章节模式序列中的顺序序号，所述全局章节模式序列初始为空，初始化时，将所述文档的文档标题对应的章节模式信息加入到所述全局章节模式序列中，并将所述文档标题对应的章节模式信息在所述全局章节模式序列中的位置序号作为根节点的层级，所述文档标题被设置为所述根节点；

按照所述层级将所述文本节点加入到所构建的文档树中。

2.根据权利要求1所述的方法，其特征在于，

3.根据权利要求1所述的方法，其特征在于，

该方法进一步包括：识别出文本内容为目录标题的文本节点，识别出位于所述文本内容为目录标题的文本节点之后的、文本内容为目录内容的文本节点，从所述文本内容为目录内容的文本节点中解析出章节模式信息；其中，所述文本内容为目录标题的文本节点以及所述文本内容为目录内容的文本节点均为从目录页中切分出的文本节点；

4.根据权利要求1所述的方法，其特征在于，

获取所述文档的文档标题包括：

5.根据权利要求1所述的方法，其特征在于，

该方法进一步包括：在确定出所述文本节点的层级之后，删除所述全局章节模式序列中位置序号大于所述文本节点的层级的章节模式信息。

6.根据权利要求1所述的方法，其特征在于，

该方法进一步包括：初始状态，将所述根节点设置为基准树节点；

所述按照所述层级将所述文本节点加入到所构建的文档树中包括：

将所述文本节点的层级与基准树节点的层级进行比较，根据比较结果将所述文本节点作为基准树节点的孩子节点或兄弟节点加入到所述文档树中，并将所述文本节点设置为基准树节点。

7.根据权利要求6所述的方法，其特征在于，

所述将所述文本节点的层级与基准树节点的层级进行比较，根据比较结果将所述文本节点作为孩子节点或兄弟节点加入到所述文档树中包括：

8.一种文档解析装置，其特征在于，包括：切分单元以及解析单元；

所述切分单元，用于将待处理的预定格式的文档切分为文本节点，包括：将所述文档切分为段落粒度的文本节点；所述预定格式包括：超文本标记语言格式；

所述解析单元，用于针对从非目录页中切分出的文本节点，分别进行以下处理：

按照所述层级将所述文本节点加入到所构建的文档树中。

9.根据权利要求8所述的装置，其特征在于，

10.根据权利要求8所述的装置，其特征在于，

所述解析单元进一步用于，识别出文本内容为目录标题的文本节点，识别出位于所述文本内容为目录标题的文本节点之后的、文本内容为目录内容的文本节点，从所述文本内容为目录内容的文本节点中解析出章节模式信息；其中，所述文本内容为目录标题的文本节点以及所述文本内容为目录内容的文本节点均为从目录页中切分出的文本节点；

11.根据权利要求8所述的装置，其特征在于，

所述解析单元进一步用于，若确定所述文档存在标题标签，则将所述标题标签对应的内容作为所述文档标题，否则，将所述文档的文件名作为所述文档标题。

12.根据权利要求8所述的装置，其特征在于，

所述解析单元进一步用于，在确定出所述文本节点的层级之后，删除所述全局章节模式序列中位置序号大于所述文本节点的层级的章节模式信息。

13.根据权利要求8所述的装置，其特征在于，

所述解析单元进一步用于，初始状态，将所述根节点设置为基准树节点；

14.根据权利要求13所述的装置，其特征在于，

所述解析单元若确定所述文本节点的层级大于基准树节点的层级，则将所述文本节点作为基准树节点的孩子节点加入到所述文档树中，若确定所述文本节点的层级等于基准树节点的层级，则将所述文本节点作为基准树节点的兄弟节点加入到所述文档树中，若确定所述文本节点的层级小于基准树节点的层级，则执行以下预定处理：将当前的基准树节点的上一层级节点作为更新后的基准树节点，若更新后的基准树节点的层级小于所述文本节点的层级，则将所述文本节点作为更新后的基准树节点的孩子节点加入到所述文档树中，否则，重复执行所述预定处理。

15.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1~7中任一项所述的方法。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1~7中任一项所述的方法。