CN113723078A

CN113723078A - 一种文本逻辑信息结构化方法、装置及电子设备

Info

Publication number: CN113723078A
Application number: CN202111044975.0A
Authority: CN
Inventors: 朱安安; 邱彦林; 赵粉玉; 俞一奇
Original assignee: Hangzhou Xujian Science And Technology Co ltd
Current assignee: Hangzhou Xujian Science And Technology Co ltd
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2021-11-30

Abstract

本发明公开了一种文本逻辑信息结构化方法，所述方法包括：获取待编辑文本，对所述待编辑文本根据段落顺序进行编码获取多个待分类段落；获取每一所述待分类文本的待分类文本，将每一所述待分类文本按照编码顺序依次输入已训练的孪生网络中进行二分类获得第一分类结果，其中，所述第一分类结果包括章节标题或章节内容；获取所述第一分类结果为章节标题分类的所述待分类文本的句向量，将相邻的两个所述待分类文本的句向量输入已训练的孪生网络中进行逻辑结构分类获得逻辑结构分类结果，其中，所述逻辑结构分类结果包括上下级关系或平级关系或越级关系；基于所述第一分类结果、所述逻辑结构分类结果对所述待待编辑文本进行逻辑信息结构化处理。

Description

一种文本逻辑信息结构化方法、装置及电子设备

技术领域

本申请涉及人工智能领域，尤其涉及一种文本逻辑信息结构化方法、装置及电子设备。

背景技术

近年来，随着自然语言处理技术发展的越来越成熟，大量的文本信息在进行信息抽取等相关处理后，被用于构建相关领域的知识图谱以及如知识问答等相关任务中。常见的文本信息包括如新闻、评论、短的描述文本以及篇幅较长的以word，pdf等形式保存的文档类文本。相较于新闻类的短文本而言，一篇文档往往由标题、章节、段落等逻辑结构组成，拥有更为丰富的逻辑信息，基于文档逻辑结构信息的信息抽取更有助于知识的形成以及知识图谱的构建。可以构建出更为丰富完整的领域知识并用于下游的任务中。

然而由于文档写作不规范等原因，文档的逻辑结构信息往往无法直接使用，目前的知识图谱构建中，多关注于从大量无结构的文本信息中抽取相关内容进行知识图谱的构建，忽略了文档中丰富的逻辑结构信息。而在真实的业务场景下，信息抽取标注数据的获取成本十分高昂，少量标注样本下的信息抽取表现性能不佳，造成了大量文本信息没有充分使用，这成为了阻碍垂直领域知识图谱规模化应用的主要瓶颈之一。

发明内容

本申请实施例要解决的技术问题，在于提供一种文本逻辑信息结构化方法、装置及电子设备，以解决现有文档的逻辑结构信息难以被抽取使用的技术问题。

为实现上述目的，本申请实施例采用下述技术方案：

第一方面，本申请实施例提供一种文本逻辑信息结构化方法，所述方法包括：

获取待编辑文本，对所述待编辑文本根据段落顺序进行编码获取多个待分类段落；

获取每一所述待分类文本的待分类文本，将每一所述待分类文本按照编码顺序依次输入已训练的孪生网络中进行二分类获得第一分类结果，其中，所述第一分类结果包括章节标题或章节内容；

获取所述第一分类结果为章节标题分类的所述待分类文本的句向量，将相邻的两个所述待分类文本的句向量输入已训练的孪生网络中进行逻辑结构分类获得逻辑结构分类结果，其中，所述逻辑结构分类结果包括上下级关系或平级关系或越级关系；

基于所述第一分类结果、所述逻辑结构分类结果对所述待待编辑文本进行逻辑信息结构化处理。

第二方面，本申请实施例提供一种文本逻辑信息结构化装置，所述装置包括：

第一获取单元，用于获取待编辑文本，对所述待编辑文本根据段落顺序进行编码获取多个待分类段落；

第二获取单元，用于获取每一所述待分类文本的待分类文本，将每一所述待分类文本按照编码顺序依次输入已训练的孪生网络中进行二分类获得第一分类结果，其中，所述第一分类结果包括章节标题或章节内容；

第一分类单元，用于获取所述第一分类结果为章节标题分类的所述待分类文本的句向量，将相邻的两个所述待分类文本的句向量输入已训练的孪生网络中进行逻辑结构分类获得逻辑结构分类结果，其中，所述逻辑结构分类结果包括上下级关系或平级关系或越级关系；

第一处理单元，用于基于所述第一分类结果、所述逻辑结构分类结果对所述待待编辑文本进行逻辑信息结构化处理。

第三方面，本申请实施例提供一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、待码集或指令集，所述至少一条指令、所述至少一段程序、所述待码集或指令集由所述处理器执行以实现如上述第一方面所述的文本逻辑信息结构化方法。

第四方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、待码集或指令集，所述至少一条指令、所述至少一段程序、所述待码集或指令集由处理器执行以实现如上述第一方面所述的文本逻辑信息结构化方法。

本申请实施例的有益效果是：本申请实施例提供一种文本逻辑信息结构化方法、装置及电子设备，采用预训练的Bert模型，将待编辑文本按照段落顺序依次进行分析，抽取出文档的逻辑信息并将其结构化。基于本申请实施例提供的技术方案，在完成如知识图谱构建等与知识抽取相关的其他任务时，使得文本的结构信息能够被充分的使用，更便于知识的构建与完善。另外，通过使用孪生网络，可以大大降低句子两两比较这一过程的时间复杂度，在获取更多文本信息的同时也提高了文本的处理效率。

附图说明

图1为本申请一个实施例提供的一种文本逻辑信息结构化方法的流程示意图；

图2为本申请本申请一个实施例提供的孪生网络的结构示意图；

图3为本申请一个实施例提供的对待编辑文本逻辑信息结构化处理方法的流程示意图；

图4为本申请一个实施例提供的一种文本逻辑信息结构化装置的结构示意图；

图5为本申请一个实施例提供的一种电子设备的结构示意图。

具体实施方式

下面通过具体实施例，并结合附图，对本申请的技术方案作进一步的具体描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供一种文本逻辑信息结构化方法、装置及电子设备，以解决现有文档的逻辑结构信息难以被抽取使用的技术问题。

以下结合附图，详细说明本申请中各实施例提供的技术方案。

请参阅附图1，其示出了本申请一个实施例提供的一种文本逻辑信息结构化方法的流程示意图，所述方法包括：

S101，获取待编辑文本，对所述待编辑文本根据段落顺序进行编码获取多个待分类段落；

针对步骤S101，在一个实施例中，对所述待编辑文本根据段落顺序进行编码之前，对所述待编码文本中较长的段落进行截断处理获得截断段落，将所述截断段落代替所述较长的段落获取所述待分类文本。

可以理解，当一个待编辑文本中存在部分较长的段落时，为了提升处理效率，对较长的段落进行截断处理获得截断段落，截断段落代表本较长的段落进行处理。

S102，将每一所述待分类文本按照编码顺序依次输入已训练的孪生网络中进行二分类获得第一分类结果，其中，所述第一分类结果包括章节标题或章节内容；

S103，获取所述第一分类结果为章节标题分类的所述待分类文本的句向量，将相邻的两个所述待分类文本的句向量输入已训练的孪生网络中进行逻辑结构分类获得逻辑结构分类结果，其中，所述逻辑结构分类结果包括上下级关系或平级关系或越级关系；

S104，基于所述第一分类结果、所述逻辑结构分类结果对所述待待编辑文本进行逻辑信息结构化处理。

在一个实施例中，已训练的孪生网络的训练数据构建包括：

采用模板匹配和人工校验标注的方式，将训练集的每篇文本按照章节信息进行结构化，按照换行符对每个段落的文本信息进行标注，标注内容包括“文本id(textIndex)”，“是否为章节标题标记(isTitle)”，父“节点id(parentId)”,“文本内容(content)”。其中“textIndex”按照文档中的顺序依次递增，起始值为1；当该行文本为章节标题时，“isTitle”为1，否则为0；对于是章节标题的，其“parentId”为其上一级目录章节标题所在的textIndex，若该章节为一级标题，则“parentId”为0，对于不是章节标题的，其“parentId”为其所在小节的小节标题textIndex；对于是章节标题的文本，其“content”为章节名称；对于非章节标题的，其“content”为该段落内容。特别地，由于章节标题只会出现在段落的开头，而预训练语言模型往往会限制输入文本的长度，过长的文本会带来额外的时间开销，且在逻辑结构的抽取中也只关注每个段落开头的文本。因此，对于非章节标题的文本，采用标点符号将其分割，只选取第一句话进行分析训练。

将训练集的所有文本处理后，再采用处理完成的结构化文本进行训练数据的构建。本申请实施例主要采用sentence-bert的孪生网络来同时完成逻辑信息抽取与结构化的任务。孪生网络包含两个分类任务：

分类任务一：判断输入的单个文本是否为描述章节标题的文本，即为一个二分类任务；

分类任务二：同时输入两个文本，判断两个文本的逻辑结构关系，即为逻辑结构分类任务。

分类任务二种两个文本的关系包含以下4种情况：

情况1：两个输入文本均为描述章节标题的文本，且二者逻辑结构为平级关系，则关系id标记为0；

情况2：两个输入文本均为描述章节标题的文本，且二者逻辑结构为上下级关系，则关系id标记为1；

情况3：两个输入文本均为描述章节标题的文本，但二者逻辑结构为越级关系，所述越级关系如前一章的最后一个小节标题与下一章的章节标题的关系；或第一个输入文本为非章节标题，第二个输入文本为章节标题，且二者所属不同章节，这两种情况下关系id均标记为2；

情况4：两个输入文本均不是描述章节标题的文本，或一个输入为描述章节标题的文本，另一个不是，但二者所属同一个小节，这两种情况关系id均标记为3。

由于文本有其天然的上下文信息，打乱的文本数据在实际应用中并不符合逻辑，因此逻辑结构的分析只需按照文本的顺序依次分析即可。在构建训练数据阶段，每次从处理完的数据中取出连续的两个文本作为模型的一次输入同时进行两个分类任务的训练。

请参阅附图2，其示出了本申请一个实施例提供的孪生网络的结构示意图，本申请实施例采用孪生网络结构对Bert进行微调，更新模型参数，使得调整后的孪生网络产生的句子embedding可直接通过连接分类器完成分类任务。所谓孪生网络，即两个句子组成一个句子对，将句子对输入到参数共享的两个Bert模型中进行训练，从而分别获取两个句子的句向量。采用孪生网络既可以保证模型可用于单个句子的分类任务，又可以适用于将两个句子组合进行两个句子关系分类的任务。避免了训练多个模型以及需要重复多次获取句向量的问题。提高了效率。

其中U,V分别表示输入的两个句子的向量表示，在训练输入阶段，每个句子按字拆分，并在起始位置增加[CLS]，结尾增加[SEP]用以标记一个句子的起始和结束。输出阶段采用Bert模型输出[CLS]位置的向量来表示输入句子的句向量，得到句向量后连接一个Softmax分类器进行分类一任务的训练。同时，取两个句向量相减的绝对值|U-V|输入另一个Softmax分类器进行分类二任务的训练。损失函数均采用交叉熵损失函数。

Softmax是一个较为常用的函数，其在分类任务的场景中使用广泛。其把一些输入映射为0-1之间的实数，并且归一化保证总和为1，因此多分类的概率之和也刚好为1。Softmax函数定义如公式(2-1)所示：

其中，Vi是分类器类别的输出，i表示类别索引，总的类别个数为C；Si表示当前元素的指数与所有元素指数和的比值，Softmax将多分类的输出数值转化为相对概率，在实际应用中，概率值最高的类别即为分类的结果。

模型在训练过程中的Loss采用分类任务一的Loss与分类任务二的Loss相加产生整个模型的损失，经过训练得到最终的逻辑信息结构化模型。

针对步骤S102,采用已训练的孪生网络对每一待分类文本按照顺序依次进行任务一的二分类，判断该待分类文本代表的待分类段落为章节标题还是章节内容，对于分类结果为是章节标题的待分类文本其isTitle记录为1，并保留其句向量待下一步处理；对于结果为不是章节标题的文本，其isTitle记录为0，根据文档结构的天然布局，直接将该分类文本代表的待分类段落作为出现其前面最邻近的判断为是章节标题的待分类文本的章节内容，章节标题textIndex作为其parentId，完成这一待分类段落的处理。

在一个实施例中，基于所述第一分类结果、所述逻辑结构分类结果对所述待待编辑文本进行逻辑信息结构化处理包括：

将所述第一分类结果为章节内容的所述待分类文本作为在前的所述第一分类结果为章节标题的待分类文本的章节内容。

在一个实施例中，基于所述第一分类结果、所述逻辑结构分类结果对所述待待编辑文本进行逻辑信息结构化处理还包括：

所述逻辑结构分类结果为上下级关系的，顺序靠前的所述待分类文本作为顺序靠后的所述待分类文本的父节点；

所述逻辑结构分类结果为平级关系的，顺序靠后的所述待分类文本与顺序靠前的所述待分类文本拥有同一父节点；

所述逻辑结构分类结果为越级关系的，将顺序靠后的所述待分类文本单独作为父节点。

在一个实施例中，根据每一所述第一分类结果为章节标题的所述待分类文本的父节点关系，对拥有同一父节点的所述待分类文本进行排序。

请参阅附图3，其示出了本申请一个实施例提供的对待编辑文本逻辑信息结构化处理方法的流程示意图，对isTitle＝1的文本按照出现顺序继续进行逻辑结构化。序列中第一位的章节标题自动成为一级标题的第一个，其父节点parentId＝0，然后将其与序列中第二位的章节标题的句向量，将两个句向量输入已训练的孪生网络中进行逻辑结构分类。以此类推，按照顺序两两进行分类。对分类结果为上下级关系的，将出现顺序靠前的textIndex作为出现顺序靠后的parentId；对分类结果为平级关系的，则这两个文本拥有共同的parentId；对于分类结果为下上级关系的，将第二条文本与第一条文本的父节点进行分类，循环该过程，直至找到其平级关系的节点为止。对所有章节标题节点完成多分类寻找到其父节点后，对每个目录层次的章节标题按照顺序进行编号，给予每个章节标题合理的逻辑序列，其中归属于同一个父节点的章节应按照出现顺序进行排列，并保持同样的目录表述方式。完成逻辑序列的编号后即完成了待编辑文本逻辑信息的结构化。

请参阅附图4，其示出了本申请一个实施例提供的一种文本逻辑信息结构化装置的结构示意图，所述装置包括：

第一获取单元401，用于获取待编辑文本，对所述待编辑文本根据段落顺序进行编码获取多个待分类段落；

第二获取单元402，用于获取每一所述待分类文本的待分类文本，将每一所述待分类文本按照编码顺序依次输入已训练的孪生网络中进行二分类获得第一分类结果，其中，所述第一分类结果包括章节标题或章节内容；

第一分类单元403，用于获取所述第一分类结果为章节标题分类的所述待分类段落的句向量，将相邻的两个所述待分类文本的句向量输入已训练的孪生网络中进行逻辑结构分类获得逻辑结构分类结果，其中，所述逻辑结构分类结果包括上下级关系或平级关系或越级关系；

第一处理单元404，用于基于所述第一分类结果、所述逻辑结构分类结果对所述待待编辑文本进行逻辑信息结构化处理。

请参阅附图5，其示出了本申请一个实施例提供的一种电子设备的结构示意图，可以包括：至少一个网络接口502、存储器503和至少一个处理器501。电子设备中的各个组件通过总线***504耦合在一起。可以理解，总线***504用于实现这些组件之间的连接通信。总线***504除包括数据总线之外，还包括电源总线、控制总线和状态信号总线，但是为了清楚说明起见，在附图5中将各种总线都标为总线***504。

在一些实施方式中，存储器503存储了如下的元素，可执行模块或者数据结构，或者他们的子集，或者他们的扩展集：操作***5031和应用程序5032。

其中，操作***5031，包含各种***程序，例如框架层、核心库层、驱动层等，用于实现各种寄出业务以及处理基于硬件的任务。应用程序5032，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本申请实施例方法的程序可以包含在应用程序中。

在上述实施例中，电子设备还包括：存储在存储器503上的至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集可由处理器501执行实现本申请实施例中所述任一文本逻辑信息结构化方法的步骤。

在一个实施例中，本申请还提供了一种计算机可读存储介质，计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器执行时实现本申请实施例中所述任一文本逻辑信息结构化方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的至少一条指令、至少一段程序、代码集或指令集可存储于一非易失性计算机可读取存储介质中，所述的至少一条指令、至少一段程序、代码集或指令集在执行时，可实现本申请实施例中所述任一地图绘制方法的步骤。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，这些均属于本申请的保护范围之内。

Claims

1.一种文本逻辑信息结构化方法，其特征是，所述方法包括：

2.根据权利要求1所述的一种文本逻辑信息结构化方法，其特征是，对所述待编辑文本根据段落顺序进行编码之前，对所述待编码文本中较长的段落进行截断处理获得截断段落，将所述截断段落代替所述较长的段落获取所述待分类文本。

3.根据权利要求1所述的一种文本逻辑信息结构化方法，其特征是，基于所述第一分类结果、所述逻辑结构分类结果对所述待待编辑文本进行逻辑信息结构化处理包括：

4.根据权利要求3所述的一种文本逻辑信息结构化方法，其特征是，基于所述第一分类结果、所述逻辑结构分类结果对所述待待编辑文本进行逻辑信息结构化处理还包括：

5.根据权利要求4所述的一种文本逻辑信息结构化方法，其特征是，所述方法还包括：

根据每一所述第一分类结果为章节标题的所述待分类文本的父节点关系，对拥有同一父节点的所述待分类文本进行排序。

6.根据权利要求1所述的一种文本逻辑信息结构化方法，其特征是，所述已训练的孪生网络的损失函数由二分类的损失函数和逻辑结构分类的损失函数相加获得。

7.根据权利要求6所述的一种文本逻辑信息结构化方法，其特征是，所述损失函数均采用交叉熵损失函数。

8.一种文本逻辑信息结构化装置，其特征是，所述装置包括：

第一分类单元，用于获取所述第一分类结果为章节标题分类的所述待分类段落的句向量，将相邻的两个所述待分类文本的句向量输入已训练的孪生网络中进行逻辑结构分类获得逻辑结构分类结果，其中，所述逻辑结构分类结果包括上下级关系或平级关系或越级关系；

9.一种电子设备，其特征是，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、待码集或指令集，所述至少一条指令、所述至少一段程序、所述待码集或指令集由所述处理器执行以实现如权利要求1-7任一项所述的文本逻辑信息结构化方法。

10.一种计算机可读存储介质，其特征是，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、待码集或指令集，所述至少一条指令、所述至少一段程序、所述待码集或指令集由处理器执行以实现如权利要求1-7任一项所述的文本逻辑信息结构化方法。