CN112347789B

CN112347789B - 一种标点预测方法、装置、设备及存储介质

Info

Publication number: CN112347789B
Application number: CN202011230897.9A
Authority: CN
Inventors: 李小喜; 李亚; 张为泰; 刘俊华
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2024-04-12
Anticipated expiration: 2040-11-06
Also published as: CN112347789A

Abstract

本申请提供了一种标点预测方法、装置、设备及存储介质，其中，方法包括：获取待预测文本，其中，待预测文本为当前语音片段的当前识别结果；以待预测文本是否为当前语音片段的首个中间识别结果为依据，获取历史预测信息，其中，历史预测信息为，在对历史识别结果进行标点预测的过程中所产生的、用于确定标点预测结果的中间信息；根据历史预测信息和待预测文本预测待预测文本中词的标点信息。本申请提供的标点预测方法具有较高的预测准确度和预测效率，该优势使得本申请提供的标点预测方法能够适用于机器同声传译场景。

Description

一种标点预测方法、装置、设备及存储介质

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种标点预测方法、装置、设备及存储介质。

背景技术

近些年来，随着深度学***。与此同时，语音自动识别和机器翻译的进步也推动了机器同声传译的发展。

标准的自动语音识别***通常是将音频生成一个没有任何标点符号的文本，其可读性很差，且会影响后续任务(如机器同声传译)的处理效果，而在识别文本中***适当的标点符号可解决此问题。

可以理解的是，若要在识别文本中***适当的标点，首先需要预测识别文本中每个词的标点信息(词后是否需要***标点，若需要***标点，该***哪个标点)，而如何预测识别文本中每个词的标点信息是当前亟需解决的问题。

发明内容

有鉴于此，本申请提供了一种标点预测方法、装置、设备及存储介质，用以预测语音识别文本中每个词的标点信息，其技术方案如下：

一种标点预测方法，包括：

获取待预测文本，其中，所述待预测文本为当前语音片段的当前识别结果，一语音片段的识别结果包括若干中间识别结果和一最终识别结果；

以所述待预测文本是否为当前语音片段的首个识别结果为依据，获取历史预测信息，其中，所述历史预测信息为，在对历史识别结果进行标点预测的过程中所产生的、用于确定标点预测结果的中间信息；

根据所述历史预测信息和所述待预测文本，预测所述待预测文本中词的标点信息。

可选的，所述标点预测方法还包括：

根据所述待预测文本相对于前一识别结果的更新情况，确定所述待预测文本对应的更新类型；

若所述待预测文本对应的更新类型为修改，则执行所述以所述待预测文本是否为当前语音片段的首个识别结果为依据，获取历史预测信息；

若所述待预测文本对应的更新类型为增加，则统计所述待预测文本相比于前一识别结果增加的词的数量，若增加的词的数量大于第一预设数量，则执行所述以所述待预测文本是否为当前语音片段的首个识别结果为依据，获取历史预测信息。

可选的，所述以所述待预测文本是否为当前语音片段的首个识别结果为依据，获取历史预测信息，包括：

若所述待预测文本为当前语音片段的首个识别结果，则获取当前语音片段之前的语音片段的最终识别结果对应的标点预测信息，作为历史预测信息；

若所述待预测文本为当前语音片段非首个识别结果，则获取当前语音片段之前的语音片段的最终识别结果对应的标点预测信息，以及当前语音片段的前一识别结果对应的标点预测信息，作为历史预测信息；

其中，所述标点预测信息为，在对对应的识别结果进行标点预测的过程中所产生的、用于确定标点预测结果的中间信息。

可选的，所述根据所述历史预测信息和所述待预测文本，预测所述待预测文本中词的标点信息，包括：

以所述历史预测信息和所述待预测文本为依据，利用预先建立的标点标注模型，预测所述待预测文本中词后的标点信息；

其中，所述标点预测模型采用具有标点的训练文本训练得到，所述训练文本由代表多个语音片段的识别结果的文本拼接而成，在利用所述训练文本训练所述标点预测模型时，针对所述训练文本中的每个词，所述标点预测模型根据该词之前的词和该词之后的第二预设数量个词预测该词后的标点信息。

可选的，所述以所述历史预测信息和所述待预测文本为依据，利用预先建立的标点预测模型预测所述待预测文本中词的标点信息，包括：

从所述历史预测信息中将历史识别结果中最后第二预设数量个词的标点预测信息去除，去除后得到的信息作为预测参考信息；

将所述历史识别结果中最后第二预设数量个词与所述待预测文本中未参与过标点预测的部分拼接，拼接后的文本作为输入文本；

将所述预测参考信息和所述输入文本输入所述标点预测模型进行标点预测，以得到所述待预测文本中词的标点信息。

可选的，所述从所述历史预测信息中将历史识别结果中最后第二预设数量个词的标点预测信息去除，包括：

若所述待预测文本为当前语音片段的首个识别结果，则从所述历史预测信息中将当前语音片段的前向相邻语音片段的最终识别结果中最后第二预设数量个词的标点预测信息去除；

若所述待预测文本为当前语音片段的非首个识别结果，则从所述历史预测信息中将当前语音片段的前一识别结果中最后第二预设数量个词的标点预测信息去除。

可选的，所述将所述历史识别结果中最后第二预设数量个词与所述待预测文本中未参与过标点预测的部分拼接，包括：

若所述待预测文本为当前语音片段的首个识别结果，则将所述历史识别结果中最后第二预设数量个词与整个所述待预测文本拼接；

若所述待预测文本为当前语音片段的非首个识别结果，则将所述历史识别结果中最后第二预设数量个词与所述待预测文本相比于当前语音片段的前一中间识别结果增加的部分拼接。

可选的，所述将所述预测参考信息和所述输入文本输入所述标点预测模型进行标点预测，以得到所述待预测文本中词的标点信息，包括：

利用所述标点预测模型确定所述输入文本中每个词的表征向量；

利用所述标点预测模型、所述输入文本中每个词的表征向量和所述预测参考信息，确定所述输入文本中每个词对应的目标向量，其中，所述输入文本中一个词对应的目标向量能够表征所述输入文本中位于该词之前的词和位于该词之后的第二预设数量个词分别与该词的相关度；

利用所述标点预测模型、所述输入文本中每个词的表征向量以及所述输入文本中每个词对应的目标向量，确定所述待预测文本中词的标点信息。

可选的，所述利用所述标点预测模型、所述输入文本中每个词的表征向量以及所述输入文本中每个词对应的目标向量，确定所述待预测文本中词的标点信息，包括：

对于所述输入文本中的每个词，利用所述标点预测模型、该词的表征向量以及该词对应的目标向量，预测该词之前的第二预设数量个词中每个词后的标点信息；

对于所述输入文本中的每个词，利用所述标点预测模型以及基于该词之后的第二预设数量个词针对该词预测的标点信息，确定该词后的标点信息；

从所述输入文本中各个词的标点信息中获取所述待预测文本中词的标点信息。

一种标点预测装置，包括：待预测文本获取模块、历史预测信息获取模块和标点预测模块；

所述待预测文本获取模块，用于获取待预测文本，其中，所述待预测文本为当前语音片段的当前识别结果，一语音片段的识别结果包括若干中间识别结果和一最终识别结果；

所述历史预测信息获取模块，用于以所述待预测文本是否为当前语音片段的首个识别结果为依据，获取历史预测信息，其中，所述历史预测信息为，在对历史识别结果进行标点预测的过程中所产生的、用于确定标点预测结果的中间信息；

所述标点预测模块，用于根据所述历史预测信息和所述待预测文本，预测所述待预测文本中词的标点信息。

可选的，所述标点预测装置还包括：更新类型确定模块和数量统计模块；

所述更新类型确定模块，用于根据所述待预测文本相比于前一识别结果的更新情况，确定所述待预测文本对应的更新类型；

所述历史预测信息获取模块，具体用于当所述待预测文本对应的更新类型为修改时，以所述待预测文本是否为当前语音片段的首个识别结果为依据，获取历史预测信息；

所述数量统计模块，用于当所述待预测文本对应的更新类型为增加时，统计所述待预测文本相比于前一识别结果增加的词的数量；

所述历史预测信息获取模块，具体用于当增加的词的数量大于第一预设数量时，以所述待预测文本是否为当前语音片段的首个识别结果为依据，获取历史预测信息。

可选的，所述标点预测模块，具体用于以所述历史预测信息和所述待预测文本为依据，利用预先建立的标点标注模型，预测所述待预测文本中词的标点信息；

一种标点预测设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现上述任一项所述的标点预测方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现上述任一项所述的标点预测方法的各个步骤。

经由上述方案可知，本申请提供的标点预测方法，在获得待预测文本后，先以待预测文本是否为当前语音片段的首个识别结果为依据，获取历史预测信息，然后根据历史预测信息和待预测文本，预测待预测文本中词的标点信息。本申请提供的标点预测方法，在对待预测文本预测标点信息时，除了利用了待预测文本的信息外还结合了历史预测信息，结合历史预测信息进行预测，能够获得更多的语义信息，从而能够得到更加准确的标点预测结果，另外，本申请中的历史预测信息采用的是，对历史识结果进行标点预测的过程中所产生的、用于确定标点预测结果的中间信息，而非历史识别结果，相比于直接利用历史识别结果进行预测，能够大大降低运算量，从而提高标点预测效率，另外，不管是语音片段的中间识别结果还是最终识别结果，本申请均结合历史预测信息进行预测，这使得不管是对语音片段的中间识别结果进行预测，还是对最终识别结果进行预测，都能够获得较准确的预测结果，上述优势使得本申请提供的标点预测方法能够适用于机器同声传译场景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的标点预测方法的一流程示意图；

图2为本申请实施例提供的标点预测方法的另一流程示意图；

图3为本申请实施例提供的以历史预测信息和待预测文本为依据，利用预先建立的标点预测模型，预测待预测文本中词的标点信息的流程示意图；

图4为本申请实施例提供的将预测参考信息和输入文本输入标点预测模型进行标点预测的流程示意图；

图5为本申请实施例提供的标点预测装置的结构示意图；

图6为本申请实施例提供的标点预测设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了能够实现标点预测，尤其是机器同声传译场景下的标点预测，本案发明人进行研究，起初的思路是：采用基于统计语言模型的标点预测方案进行标点预测。

统计语言模型的目的是在已知文字序列的前提下能够得到该文字序列在所对应的语料库中出现的概率分布。统计语言模型的基本框架为，对于一段文本序列，它的概率可以表示为：

根据马尔科夫假设，即任一词出现的概率仅与它前面出现过的N个词有相关性，其中，N取大于1的整数。研究发现，N越小，那么在训练集中出现的次数也就越多，使得结果变得越可靠。而N越大，那么对于预测下个词能利用的信息就越多，准确率也就越高，但与此同时，相应的参数也就越多，计算耗时也越久。一般认为，N的取值越大，模型的性能就越优异，但是根据实践经验，N的取值一般设定为不超过4的整数，这是经过大量实践得到的结果，也是效率和准确率平衡的最好的取值。但是，N-gram语言模型难以利用历史信息，只能关注当前词语的前N个词，而大部分情况下都是用N＝3的语言模型，即模型只能关注前3个词，这对于标点预测来说是远远不够的，也就是说，基于统计语言模型的标点预测方案的预测准确度较低。

鉴于上述基于统计语言模型的标点预测方案存在的问题，本案发明人进一步进行研究，在研究过程中，发明人想到了基于双向长短时记忆网络的标点预测方案。基于双向长短时记忆网络的标点预测方案的大致思路是：在对当前语音片段的当前识别结果进行标点预测时，将当前语音片段的前m个语音片段的最终识别结果与当前语音片段的当前识别结果进行拼接，输入双向长短时记忆网络进行标点预测。

然而，对于一个语音片段，在获得最终识别结果前，通常会获得n个中间识别结果，如果每次拼接此前m个语音片段的识别结果，则此前的m个语音片段的识别结果将被重复计算n次，也就是说，标点预测效率很低，为了提高预测效率，可只在对语音片段的最终识别结果进行标点预测时，拼接此前的m个语音片段的识别结果。然而，在机器同声传译时考虑到时延，翻译***只能利用中间识别结果进行翻译，因此，机器同声传译对中间识别结果的标点预测准确性要求更高。

鉴于上述基于双向长短时记忆网络的标点预测方案存在的问题，本案发明人进一步进行了深入研究，通过研究，最终提出了一种预测效果较好，能够适用于机器同声传译场景的标点预测方法，该标点预测方法可应用于具有数据处理能力的终端，也可应用于单个服务器或多个服务器组成的服务器集群，接下来通过下述实施例对本申请提供的标点预测方案进行介绍。

第一实施例

请参阅图1，示出了本申请实施例提供的标点预测方法的流程示意图，该方法可以包括：

步骤S101：获取待预测文本。

其中，待预测文本为当前语音片段的当前识别结果。

需要说明的是，在对一语音片段进行识别以得到最终识别结果的过程中，通常会得到若干中间识别结果，也就是说，一语音片段的识别结果包括若干中间识别结果和一最终识别结果，每个识别结果相比于前一识别结果都至少有内容增加。

示例性的，当前语音片段为第二个语音片段VAD2，在对VAD2进行识别的过程中，会生成如下识别结果：

识别结果1：在这个

识别结果2：在这个春日

识别结果3：在这个春日纷飞

识别结果4：在这个春日芳菲的美好时节

识别结果5：在这个春日芳菲的美好时节我们相聚在

识别结果6：在这个春日芳菲的美好时节我们相聚在北京天安门

其中，识别结果1～识别结果5为语音片段VAD2的中间识别结果，识别结果6为语音片段VAD2的最终识别结果。

步骤S102：以待预测文本是否为当前语音片段的首个识别结果为依据，获取历史预测信息。

其中，历史预测信息为，在对历史识别结果进行标点预测的过程中所产生的、用于确定标点预测结果的中间信息。需要说明的是，历史识别结果为当前识别结果之前的识别结果。

具体的，以待预测文本是否为当前语音片段的首个识别结果为依据，获取历史预测信息的过程可以包括：

步骤S102a、若待预测文本为当前语音片段的首个识别结果，则获取当前语音片段之前的语音片段的最终识别结果对应的标点预测信息，作为历史预测信息。

假设当前语音片段为上述示例中的VAD2，待预测文本为“在这个”，则待预测文本为当前语音片段的首个识别结果。

需要说明的是，一个语音片段的首个识别结果通常带有指示其为首个识别结果的标识，若获得的识别结果带有首个识别结果指示标识，则可确定该识别结果为一个语音片段的首个识别结果。

本实施例中，当前语音片段之前的语音片段的最终识别结果对应的标点预测信息为，在对当前语音片段之前的语音片段的最终识别结果进行标点预测的过程中所产生的，用于确定标点预测结果的中间信息。

获取当前语音片段之前的语音片段的最终识别结果对应的标点预测信息，作为历史预测信息的实现方式有多种，在一种可能的实现方式中，可获取当前语音片段之前的所有语音片段的最终识别结果对应的标点预测信息，作为历史预测信息，考虑到当前语音片段的语义通常和与其距离较近的一个或几个语音片段的相关度更高，在另一种可能的实现方式中，可获取当前语音片段之前的预设个(比如3个)语音片段的最终识别结果对应的标点预测信息，作为历史预测信息，比如，当前语音片段为第5个语音片段VAD5，则可获取VAD2～VAD4的最终识别结果对应的标点预测信息，作为历史预测信息。

步骤S102b、若待预测文本为当前语音片段的非首个识别结果，则获取当前语音片段之前的语音片段的最终识别结果对应的标点预测信息，以及当前语音片段的前一识别结果对应的标点预测信息，作为历史预测信息。

其中，当前语音片段的前一识别结果对应的标点预测信息为，在对当前语音片段的前一识别结果进行标点预测的过程中所产生的，用于确定标点预测结果的中间信息。

需要说明的是，当前语音片段的前一识别结果指的是，当前语音片段的识别结果中位于当前识别结果之前的识别结果。假设当前语音片段为上述示例中的VAD2，待预测文本为识别结果5(“在这个春日芳菲的美好时节我们相聚在”)，则获取VAD1的最终识别结果对应的标点预测信息，以及VAD2的识别结果4(“在这个春日芳菲的美好时节”)对应的标点预测信息，作为历史预测信息。

步骤S103：根据历史预测信息和待预测文本，预测待预测文本中词的标点信息。

本实施例在对待预测文本进行标点预测时，结合历史预测信息进行预测，结合历史预测信息能够获得更多的语义，从而能够获得更加准确的标点预测结果。

本实施例提供的标点预测方法，在获得待预测文本后，先获取历史预测信息，然后根据历史预测信息和待预测文本，预测待预测文本中词的标点信息。本实施例提供的标点预测方法，在对待预测文本预测标点信息时，除了利用了待预测文本的信息外还结合了历史预测信息，结合历史预测信息进行预测，能够获得更多的语义信息，从而能够得到更加准确的标点预测结果，并且，本实施例中的历史预测信息采用的是，对历史识结果进行标点预测的过程中所产生的、用于确定标点预测结果的中间信息，而非历史识别结果，相比于直接利用历史识别结果进行预测，能够大大降低运算量，从而提高标点预测效率，另外，不管是语音片段的中间识别结果还是最终识别结果，本申请均结合历史预测信息进行预测，这使得不管是对语音片段的中间识别结果进行预测，还是对最终识别结果进行预测，都能够获得较准确的预测结果，上述优势使得本实施例提供的标点预测方法能够适用于机器同声传译场景。

第二实施例

为了提高标点预测效率，本实施例提供了另一种标点预测方法，请参阅图2，示出了该标点预测方法的流程示意图，可以包括：

步骤S201：获取待预测文本。

其中，待预测文本为当前语音片段的当前识别结果，其为在对当前语音片段进行识别的过程中获得的一识别结果，其可能为当前语音片段的一中间识别结果，也可能为当前语音片段的最终识别结果。

步骤S202：根据待预测文本相对于前一识别结果的更新情况，确定待预测文本对应的更新类型，若待预测文本对应的更新类型为增加，则执行步骤S203，若待预测文本对应的更新类型为修改，则执行步骤S205。

待预测文本相对于前一识别结果的更新情况包括两种，一种为仅增加，另一种为修改和增加，若待预测文本相对于前一识别结果仅增加了词，则确定待预测文本对应的更新类型为增加，此时执行步骤S203，若待预测文本相对于前一识别结果不但增加了词，还修改了词，则确定待预测文本对应的更新类型为修改，此时，执行步骤S205。

假设当前语音片段为上述实施例提及的VAD2，待预测文本为识别结果3(“在这个春日”)，由于识别结果3相对于识别结果1(“在这个”)仅增加了一个词“春日”，因此，可确定待预测文本对应的更新类型为增加；假设当前语音片段为上述实施例提及的VAD2，待预测文本为识别结果4(“在这个春日芳菲的美好时节”)，由于识别结果4相对于识别结果3(“这个春日纷飞”)不但增加了“的美好时节”，还将“纷飞”修改为了“芳菲”，因此，可确定待预测文本对应的更新类型为修改。

另外，需要说明的是，若待预测文本为当前语音片段的首个识别结果，则确定待预测文本对应的更新类型为增加。

步骤S203：统计待预测文本相比于前一识别结果增加的词的数量。

可选的，可以词为单位，采用Levenshtein编辑距离计算算法，确定待预测文本相比于前一识别结果增加的词的数量。

步骤S204：判断增加的词的数量是否大于或等于第一预设数量(比如2)，若增加的词的数量大于或等于第一预设数量，则执行步骤S205，若增加的词的数量小于第一预设数量，则获取当前语音片段的下一识别结果作为待预测文本。

步骤S205：判断待预测文本是否为当前语音片段的首个识别结果，若是，则执行步骤S206a，若否，则执行步骤S206b。

具体的，可判断待预测文本是否带有首个识别结果的指示标识，若待预测文本带有首个识别结果指示标识，则判定待预测文本为当前语音片段的首个识别结果，若待预测文本不带有首个识别结果指示标识，则判定待预测文本为当前语音片段的非首个识别结果。

步骤S206a：获取当前语音片段之前的语音片段的最终识别结果对应的标点预测信息，作为历史预测信息。

其中，当前语音片段之前的语音片段的最终识别结果对应的标点预测信息为，在对当前语音片段之前的语音片段的最终识别结果进行标点预测的过程中所产生的，用于确定标点预测结果的中间信息。

步骤S206b：获取当前语音片段之前的语音片段的最终识别结果对应的标点预测信息，以及当前语音片段的前一识别结果对应的标点预测信息，作为历史预测信息。

步骤S206a和步骤S206b的具体实现过程和相关解释说明可参见第一实施例中步骤S102a和步骤S102b的具体实现过程和相关解释说明，本实施例在此不做赘述。

步骤S207：根据历史预测信息和待预测文本，预测待预测文本中词的标点信息。

本实施例提供的标点预测方法具有如下优势：(1)在对待预测文本预测标点信息时，除了利用了待预测文本的信息外还结合了历史预测信息，结合历史预测信息进行预测，能够获得更多的语义信息，从而能够得到更加准确的标点预测结果；(2)本实施例中的历史预测信息采用的是，对历史识结果进行标点预测的过程中所产生的、用于确定标点预测结果的中间信息，而非历史识别结果，相比于直接利用历史识别结果进行预测，能够大大降低运算量，从而提高标点预测效率；(3)不管是语音片段的中间识别结果还是最终识别结果，本实施例均结合历史预测信息进行预测，这使得不管是对语音片段的中间识别结果进行预测，还是对最终识别结果进行预测，都能够获得较准确的预测结果；(4)在待预测文本对应的类型为增加时，只有增加的词的数量大于第一预设数量时，才会继续对待预测文本进行标签预测，如此能够提高对语音片段的识别结果进行标点预测的效率。

第三实施例

本实施例对上述实施例中的“根据历史预测信息和待预测文本，预测待预测文本中词的标点信息”的具体实现过程进行介绍。

根据历史预测信息和待预测文本，预测待预测文本中词的标点信息的过程可以包括：以历史预测信息和待预测文本为依据，利用预先建立的标点预测模型，预测待预测文本中词的标点信息。

其中，标点预测模型采用具有标点的训练文本训练得到，训练文本由代表多个语音片段的识别结果的文本拼接而成，在利用训练文本训练标点预测模型时，针对训练文本中的每个词，标点预测模型根据该词之前的词和该词之后的第二预设数量个词预测该词后的标点信息。

接下来对“以历史预测信息和待预测文本为依据，利用预先建立的标点预测模型，预测待预测文本中词的标点信息”的过程进行介绍。

请参阅图3，示出了以历史预测信息和待预测文本为依据，利用预先建立的标点预测模型，预测待预测文本中词的标点信息的流程示意图，可以包括：

步骤S301：从历史预测信息中将历史识别结果中最后第二预设数量个词的标点预测信息去除，去除后得到的信息作为预测参考信息。

具体的，若待预测文本为当前语音片段的首个识别结果，则从历史预测信息中将当前语音片段的前向相邻语音片段的最终识别结果中最后第二预设数量个词的标点预测信息去除；若待预测文本为当前语音片段的非首个识别结果，则从历史预测信息中将当前语音片段的前一识别结果中最后第二预设数量个词的标点预测信息去除。

需要说明的是，当前语音片段的前向相邻语音片段指的是，位于当前语音片段之前，且与当前语音片段相邻的语音片段，当前语音片段的前一中间识别结果优选为，当前语音片段的识别结果中位于待预测文本之前，且与待预测文本相邻的识别结果。

示例性的，第二预设数量为4，当前语音片段为第2个语音片段VAD2：若待预测文本为VAD2的首个识别结果，则历史预测信息为VAD1的最终识别结果对应的标点预测信息，步骤S301所要执行的是，从历史预测信息中将VAD1的最终识别结果中的最后4个词的标点预测信息去除，假设VAD1的最终识别结果为“尊敬的各位先生各位女士大家下午好”，则从历史预测信息中将“女士大家下午好”这4个词的标点预测信息去除；若待预测文本为VAD2的非首个识别结果，比如为VAD2的第3个中间识别结果，则历史预测信息为VAD1的最终识别结果对应的标点预测信息以及VAD2的第2个识别结果的标点预测信息，步骤S301所要执行的是，从历史预测信息中将VAD2的第2个中间识别结果的最后4个词的标点预测信息去除。

上述内容提到，在利用训练文本训练标点预测模型时，针对训练文本中的每个词，标点预测模型根据该词之前的词和该词之后的第二预设数量个词预测该词后的标点，同样的，在利用标点预测模型对当前语音片段之前的语音片段的识别结果即历史识别结果进行预测时，也是根据每个词之前的词和每个词之后的第二预设数量个词预测每个词后的标点，然而，历史识别结果的最后第二预设数量个词之后的词均不足第二预设数量个，这意味着，历史识别结果中最后第二预设数量个词的标点预测信息可能是不准确的，为了避免历史识别结果中最后第二预设数量个词的标点预测信息对待预测文本的标点预测产生不良影响，本实施例从历史预测信息中将历史识别结果中最后第二预设数量个词的标点预测信息去除。

步骤S302：将历史识别结果中最后第二预设数量个词与待预测文本中未曾参与标点预测的部分拼接，拼接后的文本作为输入文本。

由于步骤S301将历史识别结果中最后第二预设数量个词的预测信息去除了，如此便缺少了历史识别结果中最后第二预设数量个词的信息，有鉴于此，本步骤将历史识别结果中最后第二预设数量个词与待预测文本中未曾参与标点预测的部分拼接，将拼接后文本作为标点预测模型的输入文本，即，让历史识别结果中最后第二预设数量个词也一并参与标点预测。

需要说明的是，若待预测文本为当前语音片段的首个识别结果，则待预测文本中的所有词均未曾参与标点预测，该情况下，将历史识别结果中最后第二预设数量个词与整个待预测文本拼接；若待预测文本为当前语音片段的非首个中间结果，则待预测文本中未曾参与标点预测的部分为待预测文本相比于当前语音片段的前一识别结果增加的词，该情况下，将历史识别结果中最后第二预设数量个词与待预测文本相比于当前语音片段的前一识别结果增加的词拼接。

示例性的，第二预设数量为4，当前语音片段为第2个语音片段VAD2：若待预测文本为VAD2的首个识别结果，假设为“在这个”，与当前语音片段前向相邻的语音片段的最终识别结果为“尊敬的各位先生各位女士大家下午好”，则步骤S302所要执行的是，将“尊敬的各位先生各位女士大家下午好”中的最后4个词“女士大家下午好”与待预测文本“在这个”按如下形式拼接：“女士大家下午好<SEP>在这个”，拼接后文本作为标点预测模型的输入文本；若待预测文本不为VAD2的首个识别结果，假设待预测文本为VAD2的第5个识别结果，VAD2的第5个识别结果为“在这个春日芳菲的美好时节我们相聚在”，VAD2的第5个识别结果相比于VAD2的第4个识别结果(“在这个春日芳菲的美好时节”)增加了“我们相聚在”，则将VAD2的第4个识别结果中的最后4个词“芳菲的美好时节”与“我们相聚在”拼接，得到拼接文本“芳菲的美好时节我们相聚在”，将该拼接文本作为标点预测模型的输入文本。

需要说明的是，上述的符号<SEP>用于将不同语音片段的识别结果区分开，即，<SEP>前后的文本为不同语音片段的识别结果。

步骤S303：将预测参考信息和输入文本输入标点预测模型进行标点预测，以得到待预测文本中词的标点信息。

请参阅图4，示出了将预测参考信息和输入文本输入标点预测模型进行标点预测的流程示意图，可以包括：

步骤S401：利用标点预测模型确定输入文本中每个词的表征向量。

其中，一个词的表征向量为表征该词本身语义的向量。

具体的，将输入文本中的每个词输入标点预测模型的词向量确定模块，得到输入文本中每个词的表征向量。

步骤S402：利用标点预测模型、预测参考信息、输入文本中每个词的表征向量，确定输入文本中每个词对应的目标向量。

其中，输入文本中一个词对应的目标向量能够表征输入文本中位于该词之前的词和位于该词之后的第二预设数量个词分别与该词的相关度。

具体的，对于输入文本中的每个词，可利用标点预测模型的注意力模块、预测参考信息、该词的表征向量、该词之前的第三预设数量个词的表征向量、该词之后的第二预设数量个词的表征向量确定该词对应的、能够该词之前的第三预设数量个词和该词之后的第二预设数量个词分别与该词相关度的目标向量。

需要说明的是，在确定输入文本中每个词对应的目标向量时，可利用掩模遮挡住除该词、该词之前的第三预设数量个词和该词之后的第二预设数量个词之外的词的信息。

步骤S403：利用标点预测模型、输入文本中每个词的表征向量以及输入文本中每个词对应的目标向量，确定待预测文本中词的标点信息。

具体的，利用标点预测模型、输入文本中每个词的表征向量以及输入文本中每个词对应的目标向量，确定待预测文本中词的标点信息的过程包括：

步骤S4031：对于输入文本中的每个词，利用标点预测模型的标点信息确定模块、该词的表征向量以及该词对应的目标向量，预测该词之前的第二预设数量个词中每个词的标点信息。

具体的，对于输入文本中的每个词，利用标点预测模型、该词的表征向量以及该词对应的目标向量，确定该词之前的第二预设数量个词中每个词后的标点为预设的多个标点类别中每个标点类别的概率，根据确定出的概率确定该词之前的第二预设数量个词中每个词后的标点信息。其中，预设的多个标点类别可以包括：无标点、顿号、逗号、句号、问号、感叹号。

示例性的，第二预设数量为4，输入文本中包括词“大家”，词“大家”之前的4个词为“各位先生各位女士”，步骤S4031所要做的是，利用标点预测模型、“大家”这个词的表征向量以及“大家”这个词对应的目标向量预测“各位先生各位女士”这四个词后的标点信息。

步骤S4032：对于输入文本中的每个词，利用标点预测模型的标点信息确定模块以及基于该词之后的第二预设数量个词针对该词预测的标点信息，确定该词后的标点信息。

输入文本中一个词的标点可通过该词之后的第二预设数量个词针对该词预测的标点信息确定，可选的，输入文本中一个词的标点可通过该词之后的第二预设数量个词中与该词距离最远的词针对该词预测的标点信息确定。

示例性的，第二预设数量为4，输入文本中包括词“先生”，“先生”后的4个词为“各位女士大家下午”，则将通过“下午”这个词针对“先生”预测的标点信息确定为“先生”这个词的标点信息。

需要说明的是，对于输入文本最后的第二预设数量个词中的每个词，由于其后的词数量不足第二预设数量个，本实施例将通过距离最远的词针对该词确定的标点信息确定为该词的标点信息。示例性的，第二预设数量为4，输入文本中的最后“4”个词为“这个春日芳菲的”，词“这个”后的词只有3个，本实施例将通过“的”针对“这个”预测的标点信息确定为“这个”的标点信息。需要说明的是，输入文本中的最后一个词本轮预测无预测结果，输入文本中的最后一个词的标点信息在对下一待预测文本进行预测时会一并预测。

步骤S4033：从输入文本中各个词的标点信息中获取待预测文本中词的标点信息。

在本实施例中，可从输入文本中各个词的标点信息中获取待预测文本中不具有标点信息的词的标点信息。具体的，若待预测文本为当前语音片段的首个识别结果，则从输入文本中各个词的标点信息中获取待预测文本中各个词的标点信息；若待预测文本为当前语音片段的非首个识别结果，则从输入文本中各个词的标点信息中获取待预测文本相比于当前语音片段的前一识别结果增加的词的标点信息。

由于待预测文本的标点信息利用预先建立的标点预测模型确定，接下来对建立标点预测模型的过程进行介绍。

建立标点预测模型的过程包括：

步骤a1、利用第一训练数据集中的训练数据对初始的标点预测模型进行预训练，获得预训练后的标点预测模型。

其中，第一训练数据集中包括多条(通常上亿级别)训练数据，每条训练数据为具有标点的句级单语文本数据。

步骤a2、从第一训练数据集中筛选出质量较好的训练数据。

具体的，可人工从训练数据集中筛选出一部分质量较好的数据，同时筛选出一部分质量较差的数据，以得到两类训练数据，利用筛选出的两类训练数据训练出一个二分类模型，利用二分类模型对训练数据集中的训练数据进行分类，从而根据训练数据集中训练数据的分类结果从训练数据集中获取质量较好的训练数据，比如，可获取两千万条训练数据。

步骤a3、利用筛选出的训练数据构造出新的训练数据，由构造出的训练数据组成第二训练数据集，并用第二训练数据集中的训练数据对预训练后的标点预测模型进行微调，微调后的标点预测模型即为最终的标点预测模型。

具体的，可利用筛选出的训练数据，按如下三种方式构造出新的训练数据：

方式一、在分词后的一句话中随机***符号“<SEP>”；

方式二、在一句话的逗号及顿号前***符号“<SEP>”；

方式二、拼接两句话，并在两句话的中间***符号“<SEP>”。

可使按上述三种方式构建出的训练数据的数量的比例为1:1:1。

利用按上述方式构造出的训练数据进一步对预训练后的标点预测模型进行训练，直至模型收敛，训练完成后得到的模型即为最终的标点预测模型。

需要说明的是，为了提高模型的训练效率，在训练时，每次可向模型输入多条训练数据进行并行训练，训练得到的标点预测模型可对多条文本同时进行标点预测。

第四实施例

本申请实施例还提供了一种标点预测装置，下面对本申请实施例提供的标点预测装置进行描述，下文描述的标点预测装置与上文描述的标点预测方法可相互对应参照。

请参阅图5，示出了本申请实施例提供的标点预测装置的结构示意图，可以包括：待预测文本获取模块501、历史预测信息获取模块502和标点预测模块503。

待预测文本获取模块501，用于获取待预测文本，其中，所述待预测文本为当前语音片段的当前识别结果，一语音片段的识别结果包括若干中间识别结果和一最终识别结果；

历史预测信息获取模块502，用于以所述待预测文本是否为当前语音片段的首个识别结果为依据，获取历史预测信息，其中，所述历史预测信息为，在对历史识别结果进行标点预测的过程中所产生的、用于确定标点预测结果的中间信息。

标点预测模块503，用于根据所述历史预测信息和所述待预测文本，预测所述待预测文本中词的标点信息。

可选的，本申请实施例提供的标点预测装置还可以包括：更新类型确定模块和数量统计模块。

所述更新类型确定模块，用于根据所述待预测文本相比于前一识别结果的更新情况，确定所述待预测文本对应的更新类型。

所述历史预测信息获取模块，具体用于当所述待预测文本对应的更新类型为修改时，以所述待预测文本是否为当前语音片段的首个识别结果为依据，获取历史预测信息。

所述数量统计模块，用于当所述待预测文本对应的更新类型为增加时，统计所述待预测文本相比于前一识别结果增加的词的数量。

可选的，所述标点预测模块，具体用于以所述历史预测信息和所述待预测文本为依据，利用预先建立的标点标注模型，预测所述待预测文本中词的标点信息。

可选的，历史预测信息获取模块502，具体用于若所述待预测文本为当前语音片段的首个识别结果，则获取当前语音片段之前的语音片段的最终识别结果对应的标点预测信息，作为历史预测信息；若所述待预测文本为当前语音片段非首个识别结果，则获取当前语音片段之前的语音片段的最终识别结果对应的标点预测信息，以及当前语音片段的前一识别结果对应的标点预测信息，作为历史预测信息。其中，所述标点预测信息为，在对对应的识别结果进行标点预测的过程中所产生的、用于确定标点预测结果的中间信息。

可选的，标点预测模块503包括：预测参考信息获取子模块、输入文本获取子模块和标点预测子模块。

预测参考信息获取子模块，用于从所述历史预测信息中将历史识别结果中最后第二预设数量个词的标点预测信息去除，去除后得到的信息作为预测参考信息。

输入文本获取子模块，用于将所述历史识别结果中最后第二预设数量个词与所述待预测文本中未参与过标点预测的部分拼接，拼接后的文本作为输入文本。

标点预测子模块，用于将所述预测参考信息和所述输入文本输入所述标点预测模型进行标点预测，以得到所述待预测文本中词的标点信息。

可选的，预测参考信息获取子模块，具体用于若所述待预测文本为当前语音片段的首个识别结果，则从所述历史预测信息中将当前语音片段的前向相邻语音片段的最终识别结果中最后第二预设数量个词的标点预测信息去除；若所述待预测文本为当前语音片段的非首个识别结果，则从所述历史预测信息中将当前语音片段的前一识别结果中最后第二预设数量个词的标点预测信息去除。

可选的，输入文本获取子模块，具体用于若所述待预测文本为当前语音片段的首个识别结果，则将所述历史识别结果中最后第二预设数量个词与整个所述待预测文本拼接；若所述待预测文本为当前语音片段的非首个识别结果，则将所述历史识别结果中最后第二预设数量个词与所述待预测文本相比于当前语音片段的前一中间识别结果增加的部分拼接。

可选的，标点预测子模块，具体用于利用所述标点预测模型确定所述输入文本中每个词的表征向量，利用所述标点预测模型、所述输入文本中每个词的表征向量和所述预测参考信息，确定所述输入文本中每个词对应的目标向量，其中，所述输入文本中一个词对应的目标向量能够表征所述输入文本中位于该词之前的词和位于该词之后的第二预设数量个词分别与该词的相关度；利用所述标点预测模型、所述输入文本中每个词的表征向量以及所述输入文本中每个词对应的目标向量，确定所述待预测文本中词的标点信息。

可选的，标点预测子模块在利用所述标点预测模型、所述输入文本中每个词的表征向量以及所述输入文本中每个词对应的目标向量，确定所述待预测文本中词的标点信息时，具体用于对于所述输入文本中的每个词，利用所述标点预测模型、该词的表征向量以及该词对应的目标向量，预测该词之前的第二预设数量个词中每个词后的标点信息；对于所述输入文本中的每个词，利用所述标点预测模型以及基于该词之后的第二预设数量个词针对该词预测的标点信息，确定该词的标点信息；从输入文本中各个词的标点信息中获取待预测文本中词的标点信息。

本实施例提供的标点预测装置能够较准确、高效地对语音片段的识别结果的标点信息进行预测。

第五实施例

本申请实施例还提供了一种标点预测设备，请参阅图6，示出了该标点预测设备的结构示意图，该标点预测设备可以包括：至少一个处理器601，至少一个通信接口602，至少一个存储器603和至少一个通信总线604；

在本申请实施例中，处理器601、通信接口602、存储器603、通信总线604的数量为至少一个，且处理器601、通信接口602、存储器603通过通信总线604完成相互间的通信；

处理器601可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器603可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

第六实施例

本申请实施例还提供一种可读存储介质，该可读存储介质可存储有适于处理器执行的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种标点预测方法，其特征在于，包括：

以所述待预测文本是否为当前语音片段的首个识别结果为依据，获取历史预测信息，其中，所述历史预测信息不同于历史识别结果，所述历史预测信息为，在对历史识别结果进行标点预测的过程中所产生的、用于确定标点预测结果的中间信息；

2.根据权利要求1所述的标点预测方法，其特征在于，还包括：

3.根据权利要求1所述的标点预测方法，其特征在于，所述以所述待预测文本是否为当前语音片段的首个识别结果为依据，获取历史预测信息，包括：

4.根据权利要求1所述的标点预测方法，其特征在于，所述根据所述历史预测信息和所述待预测文本，预测所述待预测文本中词的标点信息，包括：

以所述历史预测信息和所述待预测文本为依据，利用预先建立的标点标注模型，预测所述待预测文本中词的标点信息；

其中，所述标点预测模型采用具有标点的训练文本训练得到，所述训练文本由代表多个语音片段的识别结果的文本拼接而成，在利用所述训练文本训练所述标点预测模型时，针对所述训练文本中的每个词，所述标点预测模型根据该词之前的词和该词之后的第二预设数量个词预测该词的标点信息。

5.根据权利要求4所述的标点预测方法，其特征在于，所述以所述历史预测信息和所述待预测文本为依据，利用预先建立的标点预测模型预测所述待预测文本中词的标点信息，包括：

6.根据权利要求5所述的标点预测方法，其特征在于，所述从所述历史预测信息中将历史识别结果中最后第二预设数量个词的标点预测信息去除，包括：

7.根据权利要求5所述的标点预测方法，其特征在于，所述将所述历史识别结果中最后第二预设数量个词与所述待预测文本中未参与过标点预测的部分拼接，包括：

8.根据权利要求5所述的标点预测方法，其特征在于，所述将所述预测参考信息和所述输入文本输入所述标点预测模型进行标点预测，以得到所述待预测文本中词的标点信息，包括：

9.根据权利要求8所述的标点预测方法，其特征在于，所述利用所述标点预测模型、所述输入文本中每个词的表征向量以及所述输入文本中每个词对应的目标向量，确定所述待预测文本中词的标点信息，包括：

对于所述输入文本中的每个词，利用所述标点预测模型以及基于该词之后的第二预设数量个词针对该词预测的标点信息，确定该词的标点信息；

10.一种标点预测装置，其特征在于，包括：待预测文本获取模块、历史预测信息获取模块和标点预测模块；

所述历史预测信息获取模块，用于以所述待预测文本是否为当前语音片段的首个识别结果为依据，获取历史预测信息，其中，所述历史预测信息不同于历史识别结果，所述历史预测信息为，在对历史识别结果进行标点预测的过程中所产生的、用于确定标点预测结果的中间信息；

11.一种标点预测设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1～9中任一项所述的标点预测方法的各个步骤。

12.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～9中任一项所述的标点预测方法的各个步骤。