CN112749544B

CN112749544B - 段落分割模型的训练方法及***

Info

Publication number: CN112749544B
Application number: CN202011583136.1A
Authority: CN
Inventors: 秦文杰
Original assignee: Sipic Technology Co Ltd
Current assignee: Sipic Technology Co Ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2024-04-30
Anticipated expiration: 2040-12-28
Also published as: CN112749544A

Abstract

本发明实施例提供一种段落分割模型的训练方法。该方法包括：利用通用分段数据，对段落分割模型的神经网络模型进行预训练；基于领域分段数据，对预训练后的段落分割模型中与特征提取相关的编码层进行训练，得到适配领域的段落分割模型。本发明实施例还提供一种段落分割模型的训练***。本发明实施例针对特定领域需要大量精标数据进行训练的问题，在大量易获取的通用分段数据上进行训练，最后在少量的领域精标数据上进行微调，如此可以有效降低领域适配的成本。针对上游标点模型输出敏感的问题。不仅提升了分段模型的鲁棒性，降低了模型对上游标点的依赖，同时可以纠错上游的标点输出。

Description

段落分割模型的训练方法及***

技术领域

本发明涉及智能语音领域，尤其涉及一种段落分割模型的训练方法及***。

背景技术

段落分割在如今的作用越来越大，例如将老师讲的课的录音转成文字，由于录音转成的文字是一大堆聚在一起的。通过段落分割可以在一堆文字里拆出多条段落，这样再复习观看时，具有段落边界看起来体验更好。

目前市场上已有的：SVM(Support Vector Machine，基于支持向量机)等传统机器学习方法的段落分割方法，LSTM(Long Short-Term Memory，基于长短期记忆网络)等神经网络的段落分割方法等。

段落分割本质是一个分类任务，模型需要对篇章中的每个句子作出预测，是否需要在此句换行，以此完成文本的段落分割。

基于SVM的段落分割方法，主要学***面，将分割句与非分割句在高纬空间分开。

基于LSTM的段落分割方法，由以LSTM为代表的深度学习模型的编码器(Encoder)完成对文本特征的提取，并以此为依据，完成对每个句子是否需要换行的预测。

在实现本发明过程中，发明人发现相关技术中至少存在如下问题：

1、领域适配的成本高。有段落分割信息的文本通常为规整的新闻稿，这类数据虽然规模客观同时容易获取。以此为基础训练的模型，在新领域的段落分割欠佳，需要人工标注相应领域的大量文本再训练。这由于训练模型中不包含任何文本处理的通用知识，只能依赖于大量的人工标注数据从零开始学习。

2、对有上游的标点输出敏感。上游的标点模型在某些领域文本上性能欠佳，尤其是句号这类表结束的标点的F1值对下游的分段模型性能影响很大，即分段模型的鲁棒性差。

发明内容

为了至少解决现有技术中领域适配的成本高、对有上游的标点输出敏感的问题。

第一方面，本发明实施例提供一种段落分割模型的训练方法，包括：

利用通用分段数据，对所述段落分割模型的神经网络模型进行预训练；

基于领域分段数据，对所述预训练后的段落分割模型中与特征提取相关的编码层进行训练，得到适配领域的段落分割模型。

第二方面，本发明实施例提供一种段落分割模型的训练***，包括：

模型预训练程序模块，用于利用通用分段数据，对所述段落分割模型的神经网络模型进行预训练；

分割模型训练程序模块，用于基于领域分段数据，对所述预训练后的段落分割模型中与特征提取相关的编码层进行训练，得到适配领域的段落分割模型。

第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的段落分割模型的训练方法的步骤。

第四方面，本发明实施例提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本发明任一实施例的段落分割模型的训练方法的步骤。

本发明实施例的有益效果在于：针对特定领域需要大量精标数据进行训练的问题，我们使用诸如BERT等预训练模型，在大量易获取的通用分段数据上进行训练，最后在少量的领域精标数据上进行微调，如此可以有效降低领域适配的成本。针对上游标点模型输出敏感的问题，我们将分段信息与上游的标点输出做结合构造新的分段训练数据，并统计分段标记前的标点数量分布，以引入新的句子分割标点。不仅提升了分段模型的鲁棒性，降低了模型对上游标点的依赖，同时可以纠错上游的标点输出。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种段落分割模型的训练方法的流程图；

图2是本发明一实施例提供的一种段落分割模型的训练方法的段落分割整体步骤流程图；

图3是本发明一实施例提供的一种段落分割模型的训练方法的结构数据图；

图4是本发明一实施例提供的一种段落分割模型的训练方法的分段模型对标点模型结果的纠错效果数据图；

图5是本发明一实施例提供的一种段落分割模型的训练***的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明一实施例提供的一种段落分割模型的训练方法的流程图，包括如下步骤：

S11：利用通用分段数据，对所述段落分割模型的神经网络模型进行预训练；

S12：基于领域分段数据，对所述预训练后的段落分割模型中与特征提取相关的编码层进行训练，得到适配领域的段落分割模型。

所述段落分割模型的神经网络模型中的与特征提取相关的编码层，和适配领域的段落分割模型的与特征提取相关的编码层是共享的，用于学习提取词法、句法、语法特征。

在本实施方式中，现有的分段模型适配新领域对数据标注的需求量较大，主要是因为常规的训练方案中没有考虑到自然语言处理(NLP，Natural Language Processing)技术中底层对文本技术的特征提取部分是可以共享的。

对于步骤S11，通用语料相对容易获得，以NLP中目前主流的神经网络Transformer为例，其网络结构一般有好几层，底层的编码层一般学习诸如词法、句法、语法等通用的语言学知识用于特征提取，而高层的编码层则学习与具体任务相关的知识。因此在某一个任务上使用海量数据训练的Transformer模型，其底层的编码层可以用于其他小数据的NLP任务上，以减轻训练开销。利用这种方式，利用海量的通用分段数据，对段落分割模型的神经网络模型进行预训练。

作为一种实施方式，所述神经网络模型包括BERT模型。

考虑到Transformer的编码器因为有自注意力机制，带有双向训练的功能。可以获取比词更高级别的句子级别的语义表征，为了适配多任务下的迁移学习，BERT设计了更通用的输入层和输出层。进一步地选择BERT模型原因为模型的微调成本小。

对于步骤S12，还需要少量的领域分段数据对步骤S11训练后的段落分割模型中与特征提取相关的编码层(例如，上文中的底层的编码层)进行微调训练，这样就可以有效降低领域适配的成本。

通过该实施方式可以看出，针对特定领域需要大量精标数据进行训练的问题，我们使用诸如BERT等预训练模型，在大量易获取的通用分段数据上进行训练，最后在少量的领域精标数据上进行微调，如此可以有效降低领域适配的成本。

作为一种实施方式，在本实施例中，所述领域分段数据由上游标点模型和分段人工标注数据生成，包括：

将原始领域数据输入至上游标点模型，得到分割后的领域标点数据；

接收人工对所述原始领域数据标注的分段人工标注数据；

基于所述分段人工标注数据中的标点种类，确定句子结束符号集合，用于对所述原始领域数据分割，得到分割后的人工领域标点数据；

基于所述领域标点数据以及人工领域标点数据，生成带有标点信息以及分段信息的领域分段数据。

作为一种实施方式，在所述将原始领域数据输入至上游标点模型之前，所述方法还包括：对所述原始领域数据进行去标点处理。

在本实施方式中，现有的分段模型对上游的标点输出依赖较大，主要是因为现有技术都默认上游的标点输出质量很高，因此对句子单位的划分完全依赖于上游的句号这类表句子结束的标点。但在以口语对话等实际的业务场景中，上游标点模型的输出质量欠佳，尤其是对句子结束符的预测不准确。统计结果显示这类场景下，标点模型的标点预测位置一般准确但是种类预测错误。我们尝试分段模型与标点模型完全解耦与部分解耦，从实际可用的角度，我们最终选择了部分解耦最为我们最终方案，部分解耦的具体流程如图2所示：

准备部分领域数据，根据领域数据是否自带标点决定是否需要做去标点处理，如果领域数据中没有标点，则可以直接将领域数据输入至上游标点模型；如果领域数据中有标点，则先进行去标点处理。因为后续的步骤中是回进行分段处理的，因此，我们准备的领域数据在这一步中是不需要有标点符号的。

去除标点后，分别将领域数据输入至上游标点模型，获得带有上游标点输出的领域数据，同时也需要由人工进行分段标注，得到人工标注的分段人工标注数据。

结合分段人工标注数据和上游标点模型输出的数据，统计人工分段标记处前面出现的标点种类，构成句子结束符号集合，用于将输入文本划分句子，并构建领域内还有标点信息与分段信息的训练数据。

根据业务需要选择是否需要使用通用分段语料进行第一轮基于预训练模型的微调训练，一般如果训练后的模型为某一特定领域的专供服务模型可以选择不在通用分段语料上训练，否则一般默认使用通用分段语料上训练。在预训练完成后，使用领域分段数据进行第二轮基于预训练模型的微调训练，此部分在步骤S11、S12中已经说明，在此不再赘述。

段落分割模型训练好之后，就可以进行使用，接收用户输入的大段落文本，基于段落分割模型进行段落分割。分割的段落的末尾句子的标点符号并不是句号、问号等常规的结束标点(例如，逗号)。则将这些不属于常规的结束标点统一修改为句号。这样分段后的文本更加符合标点的使用规则，将分段后的文本反馈给用户。

通过该实施方式可以看出，针对上游标点模型输出敏感的问题，我们将分段信息与上游的标点输出做结合构造新的分段训练数据，并统计分段标记前的标点数量分布，以引入新的句子分割标点。比如，统计结果显示除了句号等表结束的标点外，逗号也大量出现在分段标记前，则我们将逗号也作为句子分段标点，并按照新的分段标点集合划分的句子进行训练与预测。如果最终预测在某个逗号处需要分段，我们则将该逗号修改为句号并换行分段。如此，我们不仅提升了分段模型的鲁棒性，降低了模型对上游标点的依赖，同时可以纠错上游的标点输出。

对本方法进行试验，客观评测(F1值)：

不使用本方法训练的段落分割模型：24

本方法训练的段落分割模型：94

主观评测(人工打分，满分42分)：

不使用本方法训练的段落分割模型：20.3

本方法训练的段落分割模型：33.3

结论：可以显著提升分段质量，同时只需要少量的标注语料。

段落分割模型与标点模型的部分解耦：

由图3可知，不与上游标点模型进行解耦的分段模型，受上游的标点输出影响很大，当标点从人工标点改为***标点时，其在分段处的F1值从88急剧下降到36。

而采用部分解耦方案的分段模型，性能一直很平稳，人工标点与***标点在分段处的F1值分别为92与94。

结论：部分解耦方案可以显著提升模型的鲁棒性，同时可以带来分段质量的提升收益。

更深层次的效果如图4所示的分段模型对标点模型结果的纠错效果评测，结论：此方案还可以额外提升标点模型的性能，进一步提升用户阅读文本的体验。

另一方面，完全解耦作为我们的备选方案：

对文本进行切片处理，得到多个切片文本；

基于段落分割模型判断所述切片文本是否需要分段；

若需要分段时，将所述切片文本输入至上游标点模型，基于所述上游标点模型的输出，确定所述切片文本分段的位置。

在本实施方式中，完全结构的原理如下：分段模型的输入与标点模型的输入保持一致。对某一待分段文本按照某一个固定窗口的大小进行切片，然后预测某一片是否需要分段。再结合每个窗口内标点模型的输出结果，便可以确定具体分段的位置。

进一步地，如果窗口大小选择合适，根据标点模型的结果，每一个切片包含的结束的标点个数可以小于等于一，如此便可以更准确的确定具体分段的位置。

通过该实施方式可以看出，这种段落分割方式完全与上游的标点模型解耦，即其分段的结果完全由段落分割模型确定，上游标点模型仅提供如果需要分段的具***置，即其分段结果完全不会收到上游标点的影响，模型的鲁棒性得到显著提升。

如图5所示为本发明一实施例提供的一种段落分割模型的训练***的结构示意图，该***可执行上述任意实施例所述的段落分割模型的训练方法，并配置在终端中。

本实施例提供的一种段落分割模型的训练***10包括：模型预训练程序模块11和分割模型训练程序模块12。

其中，模型预训练程序模块11用于利用通用分段数据，对所述段落分割模型的神经网络模型进行预训练；分割模型训练程序模块12用于基于领域分段数据，对所述预训练后的段落分割模型中与特征提取相关的编码层进行训练，得到适配领域的段落分割模型。

进一步地，所述段落分割模型的神经网络模型中的与特征提取相关的编码层，和适配领域的段落分割模型的与特征提取相关的编码层是共享的，用于学习提取词法、句法、语法特征。

本发明实施例还提供了一种非易失性计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述任意方法实施例中的段落分割模型的训练方法；

作为一种实施方式，本发明的非易失性计算机存储介质存储有计算机可执行指令，计算机可执行指令设置为：

作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中，当被处理器执行时，执行上述任意方法实施例中的段落分割模型的训练方法。

非易失性计算机可读存储介质可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据装置的使用所创建的数据等。此外，非易失性计算机可读存储介质可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本发明实施例还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的段落分割模型的训练方法的步骤。

本申请实施例的电子设备以多种形式存在，包括但不限于：

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如平板电脑。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)其他具有数据处理功能的电子装置。

在本文中，术语“包括”、“包含”，不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种段落分割模型的训练方法，包括：

对原始领域数据进行去标点处理，将所述原始领域数据输入至上游标点模型，得到分割后的领域标点数据；

接收人工对所述原始领域数据标注的分段人工标注数据；

基于所述领域标点数据以及人工领域标点数据，生成带有标点信息以及分段信息的领域分段数据；

基于所述领域分段数据，对所述预训练后的段落分割模型中与特征提取相关的编码层进行训练，得到适配领域的段落分割模型。

2.根据权利要求1所述的方法，其中，所述段落分割模型的神经网络模型中的与特征提取相关的编码层，和适配领域的段落分割模型的与特征提取相关的编码层是共享的，用于学习提取词法、句法、语法特征。

3.根据权利要求1所述的方法，其中，所述神经网络模型包括BERT模型。

4.根据权利要求1-3中任一项所述的方法，其中，所述领域分段数据的数据量小于所述通用分段数据的数据量。

5.一种段落分割模型的训练***，包括：

分割模型训练程序模块，用于对原始领域数据进行去标点处理，将所述原始领域数据输入至上游标点模型，得到分割后的领域标点数据，接收人工对所述原始领域数据标注的分段人工标注数据，基于所述分段人工标注数据中的标点种类，确定句子结束符号集合，用于对所述原始领域数据分割，得到分割后的人工领域标点数据，基于所述领域标点数据以及人工领域标点数据，生成带有标点信息以及分段信息的领域分段数据，基于领域分段数据，对所述预训练后的段落分割模型中与特征提取相关的编码层进行训练，得到适配领域的段落分割模型。

6.根据权利要求5所述的***，其中，所述段落分割模型的神经网络模型中的与特征提取相关的编码层，和适配领域的段落分割模型的与特征提取相关的编码层是共享的，用于学习提取词法、句法、语法特征。

7.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-4中任一项所述方法的步骤。

8.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-4中任一项所述方法的步骤。