CN113673255B

CN113673255B - 文本功能区域拆分方法、装置、计算机设备及存储介质

Info

Publication number: CN113673255B
Application number: CN202110984025.XA
Authority: CN
Inventors: 麦天骥
Original assignee: BEIJING LEDICT TECHNOLOGY CO LTD
Current assignee: Lutiantong Beijing Information Technology Co ltd
Priority date: 2021-08-25
Filing date: 2021-08-25
Publication date: 2023-06-30
Anticipated expiration: 2041-08-25
Also published as: CN113673255A

Abstract

本申请公开了一种文本功能区域拆分方法、装置、计算机设备及存储介质。该方法通过获取待拆分文本，并将待拆分文本输入至预先训练得到的神经网络模型中，得到神经网络模型输出的初始特征行，基于初始特征行以及初始特征行在待拆分文本中的上下文信息得到合并特征行，然后，将合并特征行输入至神经网络模型中进行增强判断，得到目标特征行，最后根据目标特征行对待拆分文本进行拆分。可以看出，通过神经网络模型中进行增强的判断，大大提高和段落的划分准确率，而人工智能的技术性能上也远远高于正则的模式，在遇到大的文本时仍然能够高效、迅速、准确的进行功能段落的划分。

Description

文本功能区域拆分方法、装置、计算机设备及存储介质

技术领域

本发明涉及大数据科学领域，特别涉及一种文本功能区域拆分方法、装置、计算机设备及存储介质。

背景技术

法律文书在语义上是有明确的功能段落划分的，现有的分析手段多基于正则的专家模式去进行分析，一方面在段落的划分上无法使用上下文的语义关联，准确率较低不符合自然意义上的段落划分，另一方面在遇到大的文本时分析会特别慢，效率低，而人工智能技术的出现为大数据的数据分析和数据价值挖掘提供的了一种较佳的解决方案。

现有的人工智能技术在文本处理方面存在的问题是在文本距离过长的情况下无法关联语义，并且在法律文书中自然段落的开始行、结束行的表述特征在往往比较相近，只结合特征行的上下文错误率会较高，因此亟需一种能够提高特征判断准确率的方法。

发明内容

基于此，本申请实施例提供了一种文本功能区域拆分方法、装置、计算机设备及存储介质，用于解决现有段落划分不够准确和效率低、速度慢的问题

第一方面，提供了一种文本功能区域拆分方法，该方法包括：

获取待拆分文本；

将所述待拆分文本输入至预先训练得到的神经网络模型中，得到所述神经网络模型输出的初始特征行；

基于所述初始特征行以及所述初始特征行在所述待拆分文本中的上下文信息得到所述初始特征行对应的合并特征行；

将所述合并特征行输入至所述神经网络模型中，得到目标特征行；

根据所述目标特征行对所述待拆分文本进行拆分。

可选地，所述神经网络模型的训练方式包括：

获取训练文本，通过预设的关键字对所述训练文本进行标注得到初始特征行，所述初始特征行包括至少一组预设的关键字；

根据所述初始特征行及所述初始特征行在所述训练文本中的上下文信息得到合并特征行；

通过正样本集和负样本集对所述神经网络模型进行训练，其中，所述正样本集包括所述初始特征行与所述合并特征行，所述负样本集包括所述训练文本中非正样本集的所有行。

可选地，所述合并特征行包括第一合并特征行、第二合并特征行以及第三合并特征行，将所述合并特征行输入至所述神经网络模型中，得到目标特征行，包括：

将所述第一合并特征行输入至所述神经网络模型中，得到第一目标特征行，根据所述第一目标特征行以及所述第一目标特征行在所述待拆分文本中的上下文信息得到第二合并特征行；

将所述第二合并特征行输入至所述神经网络模型中，得到第二目标特征行，根据所述第二目标特征行以及所述第二目标特征行在所述待拆分文本中的上下文信息得到第三合并特征行；

将所述第三合并特征行输入至所述神经网络模型中，得到目标特征行。

可选地，所述第一合并特征行，基于初始特征行以及所述初始特征行在待拆分文本中的上一行文本进行合并得到。

可选地，所述第二合并特征行，基于初始特征行以及所述初始特征行在待拆分文本中的下一行文本进行合并得到。

可选地，所述第三合并特征行，基于初始特征行及所述初始特征行的下一个特征行进行合并得到所述第三合并特征行。

第二方面，提供了一种文本功能区域拆分装置，该装置包括：

获取模块，用于获取待拆分文本；

第一输出模块，用于将所述待拆分文本输入至预先训练得到的神经网络模型中，得到所述神经网络模型输出的初始特征行；

合并模块，用于基于所述初始特征行以及所述初始特征行在所述待拆分文本中的上下文信息得到所述初始特征行对应的合并特征行；

第二输出模块，用于将所述合并特征行输入至所述神经网络模型中，得到目标特征行；

拆分模块，用于根据所述目标特征行对所述待拆分文本进行拆分。

可选地，所述装置还包括：

训练模块，用于获取训练文本，通过预设的关键字对所述训练文本进行标注得到初始特征行，所述初始特征行包括至少一组预设的关键字；

第三方面，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述第一方面任一所述的文本功能区域拆分方法。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述第一方面任一所述的文本功能区域拆分方法。

本申请实施例提供的技术方案通过获取待拆分文本，并将待拆分文本输入至预先训练得到的神经网络模型中，得到神经网络模型输出的初始特征行，基于初始特征行以及初始特征行在待拆分文本中的上下文信息得到合并特征行，然后，将合并特征行输入至神经网络模型中进行增强判断，得到目标特征行，最后根据目标特征行对待拆分文本进行拆分。可以看出，因使用了增强的样本学习和增强的判断，大大提高和段落的划分准确率，而人工智能的技术性能上也远远高于正则的模式，在遇到大的文本时仍然能够高效、迅速、准确的进行功能段落的划分。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

图1为本申请实施例提供的一种文本功能区域拆分方法的步骤流程图；

图2为本申请实施例提供的一种文本功能区域拆分方法的方法的流程图；

图3为本申请实施例提供的一种文本功能区域拆分装置的框图；

图4为本申请实施例提供的一种计算机设备的示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为便于对本实施例进行理解，首先对本申请实施例所公开的一种文本功能区域拆分方法进行详细介绍。

请参考图1，其示出了本申请实施例提供的一种文本功能区域拆分方法的流程图，该方法可以包括以下步骤：

步骤101，获取待拆分文本；

在本申请实施例中，待拆分文本指的是法律文书文本，其可以具有txt、doc、docx等格式。

步骤102，将待拆分文本输入至预先训练得到的神经网络模型中，得到神经网络模型输出的初始特征行。

其中，神经网络模型可以是BiLSTM(Bi-directional Long Short-Term Memory)模型。

在本申请实施例中，在首先需要对神经网络模型进行训练，训练方式具体包括：

步骤1021，获取训练文本，训练样本指的是法律文书文本，标注该法律文书的段落划分特征关键字，如一行文本为审：“现在开始法庭调查”标识“开始法庭调查”为法庭调查段落的开始，审：“现在开始法庭辩论”标注“开始法庭辩论”为法庭辩论段落的开始。

步骤1022，将标注的行生成为一个样本，该标注的行可以及为训练样本中的初始特征行。

然后，根据初始特征行及初始特征行在训练文本中的上下文信息得到合并特征行，其具体包括了：

步骤1023，取标注的特征行的上一行数据与特征行合并为一行数据，如审：“现在开始法庭调查”的上一行数据为审：没有，合并为审：没有审：“现在开始法庭调查”，保留“开始法庭调查”为特征关键字，生成为一个样本。

步骤1024，取标注的特征行的下一行数据与特征行合并为一行数据，如审：“现在开始法庭调查”的下一行数据为审：原告的起诉意见，合并为审：“现在开始法庭调查”审：原告的起诉意见，保留“开始法庭调查”为特征关键字，生成为一个样本。

步骤1025，取标注的特征行的上一特征行与本特征行合并为一行数据，如审：“现在开始法庭辩论”的上一特征行为审：“现在开始法庭调查”，合并为审：“现在开始法庭调查”审：“现在开始法庭辩论”，保留“开始法庭调查”、“开始法庭辩论”为特征关键字，生成为一个样本。

通过步骤1022至步骤1025及得到了所有样本(即合并特征行)，将步骤1022至步骤1025得到的所有样本作为正样本集。

步骤1026，取文书其他所有未标注的不包含特征字的行，每行生成为一个学习样本。

将步骤1026得到的所有学习样本作为负样本集。

即，标注的样本行同时合并上一行的文本为一个学习样本，标注关键字为正样本，未标注字为负样本；合并下一行的文本为一个学习样本，标注关键字为正样本，未标注字为负样本；合并上一个段落的标识行为一个学习样本，标注关键字为正样本，未标注字为负样本；取所有未标注的行为学习的负样本。

步骤1027，通过得到的正样本集和负样本集输入到模型中对该模型进行训练，计算出特征关键字的特征向量，判断训练的阈值达到学习的要求，保存该模型，本申请实施例中初始深度学习模型为加载有实体提取目标函数的深度学习模型并可以建模上下文信息的BiLSTM模型，

步骤1028，将待拆分文本输入至训练完成的神经网络模型中，输出每一行的判断结果是否包含有段落划分的特征字的行，即得到神经网络模型输出的初始特征行。

其中，取一篇文书的文本(即待拆分文本)，按顺序行一行一行判断，判断每一行是否包括段落划分的关键字特征。

步骤103，基于初始特征行以及初始特征行在待拆分文本中的上下文信息得到初始特征行对应的合并特征行。

步骤104，将合并特征行输入至神经网络模型中，得到目标特征行。

在本申请实施例中，合并特征行包括第一合并特征行、第二合并特征行以及第三合并特征行，

其中第一合并特征行是基于初始特征行以及该初始特征行在待拆分文本中的上一行文本进行合并得到；

第二合并特征行是基于初始特征行以及该初始特征行在待拆分文本中的下一行文本进行合并得到；

第三合并特征行是基于初始特征行及该初始特征行的下一个特征行进行合并得到。

其中，通过第一合并特征行、第二合并特征行以及第三合并特征行输入至神经网络模型中，得到目标特征行的具体过程包括了：

步骤1031，取判断出来的初始特征行与初始特征行的上一行文本合并(即第一合并特征行)再次通过模型进行判断是否包含有特征关键字，如不包含将该行归为上一个识别出来的特征行的段落，如果判断有继续进行下一步的增强判断；

步骤1032，取步骤1031判断出来的特征行与特征行的下一行文本合并(即第二合并特征行)再次通过模型进行判断是否包含有特征关键字，如不包含将该行归为上一个识别出来的特征行的段落，如果判断有继续进行下一步的增强判断；

步骤1033，取步骤1032判断出来的特征行与特征行的上一行特征行合并(即第三合并特征行)再次通过模型进行判断是否包含有特征关键字，如不包含将该行归为上一个识别出来的特征行的段落，如果判断有则进行下一步的增强判断，或输出目标特征行。

即取存在段落划分特征字的行与自己上一行合并再次判断，如新的特征判断为不存在，取消该行的特征标识；取特征行与自己下一行合并再次判断，如新的特征判断为不存在，取消该行的特征标识；取特征行的上一个特征行合并再次判断，如新的特征判断为不存在，取消该行的特征标识。

步骤105，根据目标特征行对待拆分文本进行拆分。

在做完所有的增强判断后，按照最后判断出来的特征行(即输出的目标特征行)对文书进行段落的划分。

其中，判断出来得到的特征行为段落划分的起始行或段落的结尾行，未判断出特征的行根据特征行划分归为特征行的段落，将该结果输出。

可以看出，本申请对法律文书的进行区域功能段落的划分方法方法包括：一种可结合文本上下文信息特征的神经网络模型，数据样本的增强生成方法，根据数据样本中标注的关键字训练生成对应的特征模型，基于该特征模型的判断结果输出段落信息，在特征识别上不仅可以结合文本当前行的上下文信息，还可以结合相邻行的文字特征信息，并且结合了段落之间的特征信息，可以更高效、准确的对法律文书进行功能段落区域的划分。

请参考图3，其示出了本申请实施例提供的一种文本功能区域拆分装置300的框图。如图3所示，该装置300可以包括：获取模块301、第一输出模块302、合并模块303、第二输出模块304、拆分模块305。

获取模块301，用于获取待拆分文本；

第一输出模块302，用于将待拆分文本输入至预先训练得到的神经网络模型中，得到神经网络模型输出的初始特征行；

合并模块303，用于基于初始特征行以及初始特征行在待拆分文本中的上下文信息得到初始特征行对应的合并特征行；

第二输出模块304，用于将合并特征行输入至神经网络模型中，得到目标特征行；

拆分模块305，用于根据目标特征行对待拆分文本进行拆分。

在本申请一个实施例中，该装置300还包括：

训练模块306，用于获取训练文本，通过预设的关键字对训练文本进行标注得到初始特征行，初始特征行包括至少一组预设的关键字；

根据初始特征行及初始特征行在训练文本中的上下文信息得到合并特征行；

通过正样本集和负样本集对神经网络模型进行训练，其中，正样本集包括初始特征行与合并特征行，负样本集包括训练文本中非正样本集的所有行。

关于文本功能区域拆分装置的具体限定可以参见上文中对于文本功能区域拆分方法的限定，在此不再赘述。上述文本功能区域拆分装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

对应于图1中的文本功能区域拆分方法，本申请实施例还提供了一种计算机设备，如图4所示，该设备包括存储器401、处理器402及存储在该存储器401上并可在该处理器402上运行的计算机程序，其中，上述处理器402执行上述计算机程序时实现上述文本功能区域拆分方法的步骤。

具体地，上述存储器401和处理器402能够为通用的存储器和处理器，这里不做具体限定，当处理器402运行存储器401存储的计算机程序时，能够执行上述文本功能区域拆分方法，从而能够基于本发明快速准确的实现对卷宗的分类和命名。

本领域技术人员可以理解，如图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在本申请的一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述文本功能区域拆分方法的步骤。

本实施例提供的计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

在这里示出和描述的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制，因此，示例性实施例的其他示例可以具有不同的值。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种文本功能区域拆分方法，其特征在于，所述方法包括：

获取待拆分文本；

将所述待拆分文本输入至预先训练得到的神经网络模型中，得到所述神经网络模型输出的初始特征行；其中，将待拆分文本输入至训练完成的神经网络模型中，输出每一行的判断结果是否包含有段落划分的特征字的行，即得到神经网络模型输出的初始特征行；

根据所述目标特征行对所述待拆分文本进行拆分；

所述合并特征行包括第一合并特征行、第二合并特征行以及第三合并特征行，将所述合并特征行输入至所述神经网络模型中，得到目标特征行，包括：将所述第一合并特征行输入至所述神经网络模型中，得到第一目标特征行，根据所述第一目标特征行以及所述第一目标特征行在所述待拆分文本中的上下文信息得到第二合并特征行；将所述第二合并特征行输入至所述神经网络模型中，得到第二目标特征行，根据所述第二目标特征行以及所述第二目标特征行在所述待拆分文本中的上下文信息得到第三合并特征行；将所述第三合并特征行输入至所述神经网络模型中，得到目标特征行；

所述第一合并特征行，基于初始特征行以及所述初始特征行在待拆分文本中的上一行文本进行合并得到；

所述第二合并特征行，基于初始特征行以及所述初始特征行在待拆分文本中的下一行文本进行合并得到；

所述第三合并特征行，基于初始特征行及所述初始特征行的下一个特征行进行合并得到所述第三合并特征行。

2.根据权利要求1所述的方法，其特征在于，所述神经网络模型的训练方式包括：

获取训练文本，通过预设的关键字对所述训练文本进行标注得到初始特征行；

3.一种文本功能区域拆分装置，其特征在于，所述装置包括：

获取模块，用于获取待拆分文本；

第一输出模块，用于将所述待拆分文本输入至预先训练得到的神经网络模型中，得到所述神经网络模型输出的初始特征行；其中，将待拆分文本输入至训练完成的神经网络模型中，输出每一行的判断结果是否包含有段落划分的特征字的行，即得到神经网络模型输出的初始特征行；

拆分模块，用于根据所述目标特征行对所述待拆分文本进行拆分；

4.根据权利要求3所述的装置，其特征在于，所述装置还包括：

5.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至2任一所述的文本功能区域拆分方法。

6.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至2任一所述的文本功能区域拆分方法。