CN108564953B

CN108564953B - 一种语音识别文本的标点处理方法及装置

Info

Publication number: CN108564953B
Application number: CN201810360248.7A
Authority: CN
Inventors: 潘嘉; 刘聪; 王智国
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2018-04-20
Filing date: 2018-04-20
Publication date: 2020-11-17
Anticipated expiration: 2038-04-20
Also published as: CN108564953A

Abstract

本申请公开了一种语音识别文本的标点处理方法及装置，对于当前输入的语音数据即目标语音数据，将其进行语音识别得到当前识别文本后，由于当前识别文本之前的历史识别文本的标点信息已经预测得到并呈现给用户，但标点预测结果可能不准确，因此，进一步利用该当前识别文本的内容，判断历史识别文本的标点预测结果是否准确，若不准确，则对历史识别文本的标点预测结果进行修正，从而将修正后的标点信息呈现给用户。可见，结合当前识别文本对历史识别文本进行标点修正，能够提高标点生成结果的准确性。

Description

一种语音识别文本的标点处理方法及装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种语音识别文本的标点处理方法及装置。

背景技术

语音识别技术，是指通过机器学习方法让机器能够自动的将语音转换成对应的文字，从而赋予了机器类似人的听觉功能，是人工智能的重要组成部分。近些年得益于人工智能技术的不断突破和各种智能终端设备的日益普及，以语音输入法、语音助理等为代表的语音识别应用，广泛应用于各种智能终端上。

随着语音识别技术的不断进步，语音识别结果的准确率日益提高，然而，用户除了关注语音识别结果的准确率外，还会关注语音识别结果是否符合人类习惯。而标点符号在人们的交流过程中是不可或缺的，因此，标点预测任务，即为语音识别文本预测标点位置以及标点类型，已经成为语音识别***的重要组成部分。

但是，采用现有的标点预测方法为语音识别文本预测标点时，标点生成结果往往不准确。

发明内容

本申请实施例的主要目的在于提供一种语音识别文本的标点处理方法及装置，能够提高标点生成结果的准确性。

本申请实施例提供了一种语音识别文本的标点处理方法，包括：

对当前接收的目标语音数据进行语音识别，得到当前识别文本；

确定已为历史识别文本预测的标点信息，其中，所述历史识别文本为所述目标语音数据之前的至少一条语音数据的识别文本；

根据所述当前识别文本与所述历史识别文本之间的上下文关系，对所述历史识别文本的标点信息进行修正。

可选的，所述根据所述当前识别文本与所述历史识别文本之间的上下文关系，对所述历史识别文本的标点信息进行修正，包括：

对所述当前识别文本进行标点预测，得到所述当前识别文本的标点信息；

获取待修正文本，其中，所述待修正文本包括所述当前识别文本与所述历史识别文本；

根据所述待修正文本的上下文关系，对所述待修正文本进行标点修正。

可选的，所述对所述当前识别文本进行标点预测，包括：

利用预先构建的一级标点预测模型，对所述当前识别文本进行标点预测。

可选的，所述一级标点预测模型的构建方法包括：

获取第一训练样本，其中，所述第一训练样本包括当前样本文本和之前样本文本，所述之前样本文本为所述当前样本文本之前的一条样本文本；

利用当前的一级标点预测模型对所述第一训练样本进行标点预测，得到第一标点预测结果；

获取预先为所述第一训练样本标注得到的第一标点标注结果；

根据所述第一标点预测结果与所述第一标点标注结果之前的差异，更新所述一级标点预测模型的模型参数，完成本轮模型训练；

判断是否满足训练结束条件；若是，则结束训练；若否，则将所述当前样本文本之后的一条样本文本作为所述当前样本文本，继续下一轮模型训练。

可选的，所述获取待修正文本，包括：

若所述目标语音数据的结束位置是当前语音段的结束位置，则判断所述当前语音段是否是第一个语音段；

若所述当前语音段是第一个语音段，则将所述当前语音段的识别文本作为待修正文本；

若所述当前语音段不是第一个语音段，则将所述当前语音段与历史语音段的识别文本作为待修正文本，其中，所述历史语音段为所述当前语音段之前的至少一个语音段。

可选的，所述对所述待修正文本进行标点修正，包括：

利用预先构建的二级标点预测模型，对所述待修正文本进行标点预测；

根据所述二级标点预测模型的标点预测结果，对所述待修正文本进行标点修正。

可选的，所述二级标点预测模型的构建方法包括：

获取第二训练样本，其中，所述第二训练样本包括当前样本文本、之前样本文本以及之后样本文本，所述之前样本文本为所述当前样本文本之前的一条样本文本，所述之后样本文本为所述当前样本文本之后的一条样本文本；

利用当前的二级标点预测模型对所述第二训练样本进行标点预测，得到第二标点预测结果；

获取预先为所述第二训练样本标注得到的第二标点标注结果；

根据所述第二标点预测结果与所述第二标点标注结果之前的差异，更新所述二级标点预测模型的模型参数，完成本轮模型训练；

本申请实施例还提供了一种语音识别文本的标点处理装置，包括：

语音识别单元，用于对当前接收的目标语音数据进行语音识别，得到当前识别文本；

标点确定单元，用于确定已为历史识别文本预测的标点信息，其中，所述历史识别文本为所述目标语音数据之前的至少一条语音数据的识别文本；

标点修正单元，用于根据所述当前识别文本与所述历史识别文本之间的上下文关系，对所述历史识别文本的标点信息进行修正。

本申请实施例还提供了一种语音识别文本的标点处理装置，包括：处理器、存储器、***总线；

所述处理器以及所述存储器通过所述***总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行上述语音识别文本的标点处理方法中的任意一种实现方式。

本申请实施例还提供了一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述语音识别文本的标点处理方法中的任意一种实现方式。

本实施例提供的一种语音识别文本的标点处理方法及装置，对于当前输入的语音数据即目标语音数据，将其进行语音识别得到当前识别文本后，由于当前识别文本之前的历史识别文本的标点信息已经预测得到并呈现给用户，但标点预测结果可能不准确，因此，进一步利用该当前识别文本的内容，判断历史识别文本的标点预测结果是否准确，若不准确，则对历史识别文本的标点预测结果进行修正，从而将修正后的标点信息呈现给用户。可见，结合当前识别文本对历史识别文本进行标点修正，能够提高标点生成结果的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的渐进式语音识别文本的标点预测流程示意图；

图2为本申请实施例提供的一种语音识别文本的标点处理方法的流程示意图；

图3a为本申请实施例提供的标点修正方法的流程示意图之一；

图3b为本申请实施例提供的标点修正方法的流程示意图之二；

图4为本申请实施例提供的一级标点预测模型的构建流程示意图；

图5为本申请实施例提供的二级标点预测模型的构建流程示意图；

图6为本申请实施例提供的一种语音识别文本的标点处理装置的组成示意图；

图7为本申请实施例提供的一种语音识别文本的标点处理装置的硬件结构示意图。

具体实施方式

传统语音识别通常以语音段为单位，在每个语音段结束后，给出该语音段的语音识别文本，而渐进式语音识别是实时语音识别***的一种新的应用模式，是在用户说话的过程中完全实时地给出用户之前所说内容的识别文本，并且，在一个语音段结束之前，随着用户语音输入过程的进行，***不断的对前面所给的该语音段的识别文本进行修正。

例如，用户语音输入“我很喜欢张学友的歌”这句话，假设用户说完“喜欢”这个词后面犹豫了一下，那么这句话就有两个语音段，分别是“我很喜欢”和“张学友的歌”。在传统语音识别模式下，语音识别***会在用户说完“喜欢”之后给出识别文本“我很喜欢”，并在整句话都说完之后给出识别文本“张学友的歌”；而在渐进式语音识别模式下，在用户说完每个词之后都会即时的给出识别结果，即分别给出“我”、“很”、“喜欢”、“张学友”、“的”、“歌”，并且，由于所说句子不完整，前面的识别文本可能会出错，比如“我”会被误识别成“沃”，而在用户说出“喜欢”之后，***会做出修改，将“沃”修改成“我”。

在渐进式语音识别***中，***每次给出新的识别文本之后，都需要对前面所有的识别文本进行标点预测。例如，在前述例子中，当识别出“很”之后，需要对识别文本“我很”进行标点预测，当识别出“喜欢”之后，需要对“我很喜欢”进行标点预测，根据预测结果依次添加相应标点信息，但是，对识别文本添加标点后，后续不会对其标点进行修改。

如图1所示，利用渐进式语音识别***对识别文本进行标点预测时，其过程包括：首先接收语音数据；随后提取语音数据的声学特征；然后利用提取的声学特征及预先构建的语音识别模型，对语音数据进行语音识别，得到语音识别文本；最后利用预先构建的标点预测模型对语音识别文本进行标点预测，得到标点预测结果，并将该标点预测结果呈现给用户。

在上述标点预测方法中，当每次给出新的识别文本后，都需要对前面所有的识别文本进行标点预测，并且该预测结果不会再被修改，然而，一个语音段的结尾标点通常需要根据下个语音段的内容来确定，但上述标点预测方法没有利用下个语音段的内容，从而难以准确预测每个语音段的结尾标点。例如，在前述例子中，通常会在“我很喜欢”这个语音段后做出标点预测，预测结果为“我很喜欢。”，并且，在整条语句“我很喜欢张学友的歌”结束之后，也不会对“句号”做修改，从而导致标点预测错误，其错误预测结果为“我很喜欢。张学友的歌”。

为解决上述缺陷，本申请实施例提供了一种语音识别文本的标点处理方法及装置，将当前输入语音数据进行语音识别得到当前识别文本后，由于当前识别文本之前的识别文本的标点信息已经预测得到并呈现给用户，但标点预测结果可能不准确，因此，进一步利用该当前识别文本的内容，判断之前识别文本的标点预测结果是否准确，若不准确，则对之前识别文本的标点预测结果进行修正，从而将修正后的标点信息呈现给用户。

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

第一实施例

参见图2，为本实施例提供的一种语音识别文本的标点处理方法的流程示意图，该标点处理方法包括以下步骤：

S201：对当前接收的目标语音数据进行语音识别，得到当前识别文本。

本实施例将当前接收到的语音数据定义为目标语音数据。该目标语音数据可以是渐进式语音识别模式下接收的语音数据、也可以是其它语音识别模式下接收的语音数据，该目标语音数据可以是通过智能终端的麦克风接收，该智能终端可以是安装了语音识别***的电子设备，比如手机、个人电脑、平板电脑等。

在接收到目标语音数据后，语音识别***便可以在相应语音识别模式下，对目标语音数据进行语音识别，本实施例不对语音识别方式进行限制，可以采用现有的或未来出现的任意一种语音识别方法进行语音识别，本实施例将对目标语音数据的识别结果称为当前识别文本。

作为一种示例，可以按照以下方式进行语音识别：

先对目标语音数据进行分帧处理，随后对分帧后的每帧语音数据进行预加重(预加重是一种对高频分量进行补偿的信号处理方式)，最后依次提取每帧语音数据的频谱特征，比如，梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，简称MFCC)特征、感知线性预测(Perceptual Linear Predictive，简称PLP)特征等。接下来，将从目标语音数据中提取的频谱特征，输入到预先构建的语音识别模型中，以便该语音识别模型利用输入特征对目标语音数据进行语音识别，得到当前识别文本，本实施例不对所述语音识别模型的构建方法和语音识别过程进行限制，可以采用现有或未来出现的任意一种方式。

S202：确定已为历史识别文本预测的标点信息，其中，所述历史识别文本为目标语音数据之前的至少一条语音数据的识别文本。

为便于区分，本实施例将目标语音数据之前的一条或多条语音数据的识别文本称为历史识别文本。

在步骤S201之前，已经对历史识别文本进行了标点预测，也就是说，在历史识别文本作为当前识别文本时，便对其进行了标点预测，并将预测的标点信息呈现给了用户。其中，当历史识别文本作为当前识别文本时，具体的标点预测方法请参见第二实施例。

需要说明的是，在对历史识别文本进行标点预测时，由于只考虑了历史识别文本、或考虑了历史识别文本及其之前的语音识别文本，并未考虑当前识别文本，因此，为历史识别文本预测的标点信息可能会不准确，为此，可以通过S203对历史识别文本的标点信息进行修正。

S203：根据当前识别文本与历史识别文本之间的上下文关系，对历史识别文本的标点信息进行修正。

在本实施例中，需要结合当前识别文本与历史识别文本之间的上下文关系，对历史识别文本的标点信息进行修正，修正操作类型可以是“保持”操作、“替换”操作、“增加”操作、“删除”操作。其中，“保持”操作是指保持历史识别文本的标点；“替换”操作是指替换历史识别文本的标点；“增加”操作是指在历史识别文本中增加标点；“删除”操作是指删除历史识别文本的标点。需要说明的是，本实施例可以对历史识别文本进行一种或多种标点修正操作。

例如，假设历史识别文本及其标点信息为“我很喜欢。”，而当前识别文本为“张学友的歌”，可见，“我很喜欢。张学友的歌”这句话中的句号为错误标点信息，因此，需要基于“张学友的歌”的文本信息，对“我很喜欢。”中的句号进行修正，修正操作类型应为“删除”操作。

需要说明的是，本步骤S203的一种具体实施方法请参见第二实施例。

综上，本实施例提供的一种语音识别文本的标点处理方法，对于当前输入的语音数据即目标语音数据，将其进行语音识别得到当前识别文本后，由于当前识别文本之前的历史识别文本的标点信息已经预测得到并呈现给用户，但标点预测结果可能不准确，因此，进一步利用该当前识别文本的内容，判断历史识别文本的标点预测结果是否准确，若不准确，则对历史识别文本的标点预测结果进行修正，从而将修正后的标点信息呈现给用户。可见，结合当前识别文本对历史识别文本进行标点修正，能够提高标点生成结果的准确性。

第二实施例

本实施例将对第一实施例中S203的具体实施方式进行介绍

参见图3a所示的标点修正方法的流程示意图，该标点修正方法包括以下步骤：

S301：对当前识别文本进行标点预测，得到当前识别文本的标点信息。

在对当前识别文本进行标点预测时，可以先获取历史识别文本，该历史识别文本可以是目标语音数据之前的语音数据的识别文本，然后，结合历史识别文本的内容，即考虑历史识别文本与当前识别文本之间的上下文关系，对当前识别文本的标点进行预测，从而得到当前识别文本的标点信息，该标点信息可以是对当前识别文本添加标点(包括标点添加位置和标点类型)、也可以是不对当前识别文本添加标点，接下来，可以将标点信息呈现给用户。

作为一种示例，可以以语音段为单位进行语音识别，从而得到当前识别文本，并为当前识别文本预测标点信息。例如，用户语音输入“我很喜欢张学友的歌”这句话，假设用户说完“喜欢”这个词后面犹豫了一下，那么这句话就有两个语音段，分别是“我很喜欢”和“张学友的歌”；接下来，当“我很喜欢”作为当前识别文本时，如果“我很喜欢”之前没有语音段，则直接预测“我很喜欢”的标点信息，比如该标点信息为“我很喜欢，”；当“张学友的歌”作为当前识别文本时，则结合“我很喜欢”预测“张学友的歌”的标点信息，比如该标点信息为“张学友的歌。”。

作为另一种示例，可以以单词为单位进行语音识别，从而得出当前识别文本，并为当前识别文本预测标点信息。例如，在“张学友的歌”中，“张学友”、“的”、“歌”可以分别作为当前识别文本，依次对应的标点信息为“张学友，”、“的”、“歌。”。

需要说明的是，在上述第一实施例中，当历史识别文本作为当前识别文本时，可以按照上述方式预测历史识别文本的标点信息。

还需要说明的是，本步骤S301的一种具体实施方法请参见第三实施例。

S302：获取待修正文本，其中，所述待修正文本包括所述当前识别文本与所述历史识别文本。

在本实施例中，可以将当前识别文本及历史识别文本一起作为待修正标点的识别文本，后续将其简称为待修正文本。例如，历史识别文本为“张学友”，当前识别文本为“的歌”，那么，“张学友的歌”即为待修正文本。

在本实施例的一种实现方式中，S302具体可以包括步骤A-C：

步骤A：若目标语音数据的结束位置是当前语音段的结束位置，则判断当前语音段是否是第一个语音段。

在本实施例中，需要检测目标语音数据的结束位置是否是当前语音段的结束位置。在进行检测时，具体可以采用语音活动检测(Voice Activity Detection，简称VAD)模型进行检测，其检测过程可以是，检测目标语音数据之后预设时间段内是否有其它语音输入，若是，则认为目标语音数据的结束位置不是当前语音段的结束位置，若否，则认为目标语音数据的结束位置是当前语音段的结束位置。例如，用户语音输入“我很喜欢张学友的歌”这句话，假设用户说完“喜欢”这个词后面犹豫了一下，且犹豫时间大于或等于该预设时间段，那么这句话就有两个语音段，分别是“我很喜欢”和“张学友的歌”。

需要说明的是，本实施例不对位置检测方法进行限定，本实施例也可以采用其它现有或未来出现的检测方法进行位置检测。

接下来，需要判断当前语音段是否是用户输入语音中的第一个语音段，若是，则执行后续步骤B，若否，则继续执行第一实施例中的步骤S201。

步骤B：若当前语音段是第一个语音段，则将当前语音段的识别文本作为待修正文本。

在本实施例中，如果当前语音段是用户输入语音中的第一个语音段，则需要获取当前语音段的识别文本，将其直接作为待修正文本。

步骤C：若当前语音段不是第一个语音段，则将当前语音段与历史语音段的识别文本作为待修正文本，其中，所述历史语音段为当前语音段之前的至少一个语音段。

为便于区别，本实施例将当前语音段之前的一个或多个语音段称为历史语音段。

在本实施例中，如果当前语音段不是用户输入语音中的第一个语音段，则需要获取当前语音段的识别文本以及历史语音段的识别文本，将其一起作为待修正文本。

可以理解的是，在步骤B和C中，基于语音段的检测方式以及目标语音数据的长度，使得目标语音数据可能是当前语音段中的部分数据、也可能是当前语音段的全部数据，因此，当前语音段的识别文本中包含了目标语音数据的识别文本(即所述当前识别文本)。

S303：根据待修正文本的上下文关系，对待修正文本进行标点修正。

在本实施例中，需要结合待修正文本的上下文关系，对待修正文本的标点信息进行修正，修正操作类型请参见第一实施例S203中的相关介绍。

需要说明的是，本步骤S303的一种具体实施方法请参见第四实施例。

为便于理解上述步骤S301-S303，下面举例说明：

假设用户输入的语音段依次为“张学友有首歌比较好听”、“我想听张学友的歌”、“请帮我打开张学友的吻别”，共三个语音段；用户在输入上述内容的过程中，通过步骤S201实时进行语音识别，同时通过步骤S301实时给出标点信息。

假设当前输入语音数据(即目标语音数据)的识别文本(即当前识别文本)为“张学友有首歌”，对其进行标点预测得到的标点信息为“张学友，有首歌。”，如果通过步骤S302判断当前输入语音数据不是第一个语音段的结束位置，则继续对第一个语音段的后续识别文本进行判断。

假设当前输入语音数据的识别文本为“比较好听”，对其进行标点预测得到的标点信息为“比较，好听。”，如果通过步骤S302判断当前输入语音数据是第一个语音段的结束位置，则对第一个语音段的识别文本的标点信息进行修正，在进行修正之前，假设第一个语音段的识别文本及其标点信息为“张学友，有首歌。比较，好听。”，则直接将第一个语音段的识别文本作为待修正文本，结合待修正文本的上下文关系，对待修正文本进行标点修正，得到的标点信息为“张学友有首歌比较好听！”。

假设当前输入语音数据的识别文本为“我想听”，对其进行标点预测得到的标点信息为“我想听，”，如果通过步骤S302判断当前输入语音数据不是第二个语音段的结束位置，则继续对第二个语音段的后续识别文本进行判断。

假设当前输入语音数据的识别文本为“张学友的歌”，对其进行标点预测得到的标点信息为“张学友，的歌。”，如果通过步骤S302判断当前输入语音数据是第二个语音段的结束位置，则将第一个语音段的识别文本与第二个语音段的识别文本进行拼接后，并对拼接文本的标点信息进行修正。在进行修正之前，假设第一个语音段的识别文本及其标点信息为“张学友有首歌比较好听！”，第二个语音段的识别文本及其标点信息为“我想听，张学友，的歌。”，将拼接文本作为待修正文本，结合待修正文本的上下文关系，对待修正文本进行标点修正，得到的标点信息为“张学友有首歌比较好听，我想听张学友的歌。”。

假设当前输入语音数据的识别文本为“请帮我打开”，对其进行标点预测得到的标点信息为“请帮我打开，”，如果通过步骤S302判断当前输入语音数据不是第三个语音段的结束位置，则继续对第三个语音段的后续识别文本进行判断。

假设当前输入语音数据的识别文本为“张学友的吻别”，对其进行标点预测得到的标点信息为“张学友的，吻别。”，如果通过步骤S302判断当前输入语音数据是第三个语音段的结束位置，则将第二个语音段的识别文本与第三个语音段的识别文本进行拼接后，并对拼接文本的标点信息进行修正。在进行修正之前，假设第二个语音段的识别文本及其标点信息为“我想听张学友的歌。”，第三个语音段的识别文本及其标点信息为“请帮我打开，张学友的，吻别。”，将拼接文本作为待修正文本，结合待修正文本的上下文关系，对待修正文本进行标点修正，得到的标点信息为“我想听张学友的歌，请帮我打开张学友的吻别。”，本次只修正了第二个语音段和第三个语音段的标点信息，第一个语音段的标点信息不再修正。

需要说明的是，本实施例不限于将当前语音段与前一个语音段进行拼接，还可以将当前语音段与前N个连续语音段进行拼接，其中，N可以大于或等于2。

第三实施例

本实施例将对第二实施例中S301的具体实施方式进行具体介绍。

在一种实施方式中，参见图3b所示，S301即“对当前识别文本进行标点预测”具体可以包括：利用预先构建的一级标点预测模型，对当前识别文本进行标点预测，得到当前识别文本的标点信息。在本实施方式中，一级标点预测模型主要为了实时的对当前识别文本添加标点，给用户一种实时反馈体验，也就是说，尽量保证用户说出目标语音数据后，同步向用户展示目标语音数据对应的当前识别文本以及当前识别文本的标点信息，基于这种实时性考虑，一级标点预测模型的规模可以较小些，以保证标点预测速度，但这可能会降低标点预测结果的准确性，即预测的标点信息可能会不准确。

例如，当前识别文本为“张学友的歌”，利用预先构建的一级标点预测模型对其标点进行预测，得到的标点信息为“张学友，的歌。”，预测的标点信息不准确，而准确的标点信息应为“张学友的歌。”。

在本实施例中，为了构建一级标点预测模型，需要以下准备工作：

首先，收集大量的文本语料，本实施例不限制文本语料的来源，这些文本语料可以通过网络下载、用户上传等方式得到，并且，这些文本语料可以直接是文本形式的、也可以是通过语音识别技术由语音形式转换而成的文本形式。

然后，为收集的文本语料标注标点。具体地，由于收集的文本语料中，可能全部或部分带有标点信息，对于带有标点信息的文本语料，可以对其标点信息进行校正，使校正后的标点信息符合大部分人的标点使用方式；对于不带有标点信息的文本语料，可以由相关领域人员为这些文本语料标注标点信息，本实施例不限制标注方式，例如，对于每条文本语料，可以先由多名(比如三至五人)不同标注人员分别独立的进行标点标注，然后在不同标注人员之间，选择标注结果具有一致性且数量最高的一种标注结果，作为该条文本语料的标点标注结果，此外，若出现了多种标注结果具有一致性且数量最高的情况，则随机选择其中一种标注结果，作为该条文本语料的标点结果。

最后，将上述校正标点后的文本语料以及标注标点后的文本语料，作为用于训练一级标点预测模型的样本文本语料，其中，校正后的标点以及标注后的标点，均被称为对应文本语料的标注标点。

接下来，利用上述样本文本语料以及该样本文本语料中每条样本文本的标注标点，构建一级标点预测模型。参见图4，可以按照下述方式构建一级标点预测模型，包括以下步骤：

S401：获取第一训练样本，其中，所述第一训练样本包括当前样本文本和之前样本文本，所述之前样本文本为当前样本文本之前的一条样本文本。

在上述样本文本语料中，可以将这些样本文本依次排序。可以理解的是，有些样本文本(至少两条样本文本)之间本身具有先后顺序，比如在收集过程中这些样本文本属于同一段文本，因此，在进行排序时，需要按照原有的先后顺序对这些样本文本进行排序。

然后，基于对样本文本语料的排序结果，依次获取每一条样本文本，为便于区分，本实施例将当前获取的样本文本称为当前样本文本，将当前样本文本之前的一条样本文本称为之前样本文本。

例如，假设前三条样本文本依次为“张学友有首歌比较好听”、“我想听张学友的歌”、“请帮我打开张学友的吻别”，如果当前样本文本为“我想听张学友的歌”，那么，之前样本文本则为“张学友有首歌比较好听”。

S402：利用当前的一级标点预测模型对所述第一训练样本进行标点预测，得到第一标点预测结果。

在本实施例中，在训练之前，可以预先构建一个初始的一级标点预测模型，并对该一级标点预测模型的参数赋予初值。

由于一级标点预测模型需要具有快速预测标点的功能，因此，可以选择单向长短时记忆(Long Short-Term Memory,简称LSTM)模型作为一级标点预测模型，模型层次可以分为四层，分别为输入层、词表达层、LSTM层和输出层。其中，输入层用于输入之前样本文本与当前样本文本对应的单词序列；词表达层用于使单词序列中的每一单词以向量形式表示，每一单词向量可以是128或者64维度的向量，本实施例不限定单词向量化的方法，比如word2vec方法；LSTM层可以包含128个记忆节点，用于对单词序列中每一单词的词向量进行编码，得到表征单词序列之间的上下文关系的编码特征；输出层用于根据LSTM层输出的编码特征，输出之前样本文本与当前样本文本的标点信息。

本实施例将通过一级标点预测模型为所述第一训练样本预测标点信息，并将预测的标点信息称为第一标点预测结果。

S403：获取预先为所述第一训练样本标注得到的第一标点标注结果。

由于已经预先为所述第一训练样本进行了标点标注，本实施例将该标点标注结果称为第一标点标注结果。

S404：根据第一标点预测结果与第一标点标注结果之前的差异，更新一级标点预测模型的模型参数，完成本轮模型训练。

将第一标点预测结果与第一标点标注结果进行比较，根据二者之间的差异即根据预测偏差，对当前的一级标点预测模型进行参数更新，将更新后的一级标点预测模型作为当前的一级标点预测模型。

S405：判断是否满足训练结束条件，若是，则结束训练，若否，则执行步骤S406。

在本实施例中，所述训练结束条件，可以是达到预设训练次数、也可以是模型参数的变化幅度小于预设阈值，等等。

S406：将当前样本文本之后的一条样本文本作为所述当前样本文本，继续执行S401，以开始下一轮模型训练。

例如，假设前三条样本文本依次为“张学友有首歌比较好听”、“我想听张学友的歌”、“请帮我打开张学友的吻别”，在本轮模型训练中，如果“我想听张学友的歌”为当前样本文本，那么，在下一轮模型训练中，“请帮我打开张学友的吻别”则为当前样本文本。

第四实施例

本实施例将对第二实施例中S303的具体实施方式进行具体介绍。

在一种实施方式中，参见图3b所示，S303即“对所述待修正文本进行标点修正”具体可以包括：利用预先构建的二级标点预测模型，对所述待修正文本进行标点预测；根据所述二级标点预测模型的标点预测结果，对所述待修正文本进行标点修正。在本实施方式中，二级标点预测模型主要用于对一级标点预测模型的预测结果进行修正，以确保添加标点的准确性，即，二级标点预测模型对待修正文本进行标点预测并在呈现给用户之后不能再进行修改，因此需要有很高的标点预测准确性，基于这种准确性考虑，二级标点预测模型应比一级标点预测模型的规模大些，并且二级标点预测模型在进行标点预测时，考虑了更多的上下文信息，以保证标点预测的准确性。

在本实施例中，为了构建二级标点预测模型，需要基于第三实施例中的准确工作，即收集大量的文本语料以及为收集的文本语料标注标点，具体准备过程请参见第三实施例，在此不再赘述。

接下来，利用上述样本文本语料以及该样本文本语料中每条样本文本的标注标点，构建二级标点预测模型。参见图5，可以按照下述方式构建二级标点预测模型，包括以下步骤：

S501：获取第二训练样本，其中，所述第二训练样本包括当前样本文本、之前样本文本以及之后样本文本，所述之前样本文本为当前样本文本之前的一条样本文本，所述之后样本文本为当前样本文本之后的一条样本文本。

在本实施例中，当前样本文本与之前样本文本的介绍请参见第三实施例中的S401，在此不再赘述。此外，本实施例将当前样本文本之后的一条样本文本称为之后样本文本。

例如，假设前三条样本文本依次为“张学友有首歌比较好听”、“我想听张学友的歌”、“请帮我打开张学友的吻别”，如果当前样本文本为“我想听张学友的歌”，那么，之前样本文本则为“张学友有首歌比较好听”，之后样本文本为“请帮我打开张学友的吻别”。

S502：利用当前的二级标点预测模型对所述第二训练样本进行标点预测，得到第二标点预测结果。

在本实施例中，在训练之前，可以预先构建一个初始的二级标点预测模型，并对该二级标点预测模型的参数赋予初值。

由于二级标点预测模型需要具有准确预测标点的功能，因此，可以选择双向长短时记忆(Long Short-Term Memory,简称LSTM)模型作为二级标点预测模型，模型层次可以分为四层，分别为输入层、词表达层、多个LSTM层和输出层。其中，输入层用于输入之前样本文本、当前样本文本以及之后样本文本对应的单词序列；词表达层用于使单词序列中的每一单词以向量形式表示，每一单词向量可以是256维度的向量，本实施例不限定单词向量化的方法，比如word2vec方法；LSTM层可以包含1024个记忆节点，用于对单词序列中每一单词的词向量进行单向编码，得到表征单词序列之间的上下文关系的编码特征；输出层用于根据LSTM层输出的编码特征，输出之前样本文本、当前样本文本与之后样本文本的标点信息。

需要说明的是，本实施例中的二级标点预测模型与第三实施例中的一级标点预测模型使用的模型结构，可以相同，也可以不同。

本实施例将通过二级标点预测模型为所述第二训练样本预测标点信息，并将预测的标点信息称为第二标点预测结果。

S503：获取预先为所述第二训练样本标注得到的第二标点标注结果。

由于已经预先为所述第二训练样本进行了标点标注，本实施例将该标点标注结果称为第二标点标注结果。

S504：根据所述第二标点预测结果与所述第二标点标注结果之前的差异，更新所述二级标点预测模型的模型参数，完成本轮模型训练。

将第二标点预测结果与第二标点标注结果进行比较，根据二者之间的差异即根据预测偏差，对当前的二级标点预测模型进行参数更新，将更新后的二级标点预测模型作为当前的二级标点预测模型。

S505：判断是否满足训练结束条件；若是，则结束训练；若否，则执行步骤S506。

在本实施例中，所述训练结束条件，可以是达到预设训练次数、也可以是模型参数的变化幅度小于预设阈值，等等。其中，本实施例中的预设训练次数或预设阈值，可以与第三实施例中的预设训练次数或预设阈值相同或不同。

S506：将当前样本文本之后的一条样本文本作为所述当前样本文本，继续执行S501，以开始下一轮模型训练。

第五实施例

以下将对本申请的一种装置实施例进行介绍，相关之处请参见上述方法实施例。

参见图6，为本实施例提供的一种语音识别文本的标点处理装置的组成示意图，该标点处理装置600包括：

语音识别单元601，用于对当前接收的目标语音数据进行语音识别，得到当前识别文本；

标点确定单元602，用于确定已为历史识别文本预测的标点信息，其中，所述历史识别文本为所述目标语音数据之前的至少一条语音数据的识别文本；

标点修正单元603，用于根据所述当前识别文本与所述历史识别文本之间的上下文关系，对所述历史识别文本的标点信息进行修正。

在本实施例的一种实现方式中，所述标点修正单元603可以包括：

标点预测子单元，用于对所述当前识别文本进行标点预测，得到所述当前识别文本的标点信息；

文本获取子单元，用于获取待修正文本，其中，所述待修正文本包括所述当前识别文本与所述历史识别文本；

标点修正子单元，用于根据所述待修正文本的上下文关系，对所述待修正文本进行标点修正。

在本实施例的一种实现方式中，所述标点预测子单元，具体可以用于利用预先构建的一级标点预测模型，对所述当前识别文本进行标点预测。

在本实施例的一种实现方式中，所述一级标点预测模型可以通过第一模型构建单元构建而成；所述第一模型构建单元包括：

第一样本获取子单元，用于获取第一训练样本，其中，所述第一训练样本包括当前样本文本和之前样本文本，所述之前样本文本为所述当前样本文本之前的一条样本文本；

第一标点预测子单元，用于利用当前的一级标点预测模型对所述第一训练样本进行标点预测，得到第一标点预测结果；

第一结果获取子单元，用于获取预先为所述第一训练样本标注得到的第一标点标注结果；

第一参数更新子单元，用于根据所述第一标点预测结果与所述第一标点标注结果之前的差异，更新所述一级标点预测模型的模型参数，完成本轮模型训练；

第一结束判断子单元，用于判断是否满足训练结束条件；若是，则结束训练；若否，则将所述当前样本文本之后的一条样本文本作为所述当前样本文本，继续下一轮模型训练。

在本实施例的一种实现方式中，所述文本获取子单元可以包括：

语音段判断子单元，用于若所述目标语音数据的结束位置是当前语音段的结束位置，则判断所述当前语音段是否是第一个语音段；

第一获取子单元，用于若所述当前语音段是第一个语音段，则将所述当前语音段的识别文本作为待修正文本；

第二获取子单元，用于若所述当前语音段不是第一个语音段，则将所述当前语音段与历史语音段的识别文本作为待修正文本，其中，所述历史语音段为所述当前语音段之前的至少一个语音段。

在本实施例的一种实现方式中，所述标点修正子单元可以包括：

模型预测子单元，用于利用预先构建的二级标点预测模型，对所述待修正文本进行标点预测；

模型修正子单元，用于根据所述二级标点预测模型的标点预测结果，对所述待修正文本进行标点修正。

在本实施例的一种实现方式中，所述二级标点预测模型通过第二模型构建单元构建而成；所述第二模型构建单元可以包括：

第二样本获取子单元，用于获取第二训练样本，其中，所述第二训练样本包括当前样本文本、之前样本文本以及之后样本文本，所述之前样本文本为所述当前样本文本之前的一条样本文本，所述之后样本文本为所述当前样本文本之后的一条样本文本；

第二标点预测子单元，用于利用当前的二级标点预测模型对所述第二训练样本进行标点预测，得到第二标点预测结果；

第二结果获取子单元，用于获取预先为所述第二训练样本标注得到的第二标点标注结果；

第二参数更新子单元，用于根据所述第二标点预测结果与所述第二标点标注结果之前的差异，更新所述二级标点预测模型的模型参数，完成本轮模型训练；

第二结束判断子单元，用于判断是否满足训练结束条件；若是，则结束训练；若否，则将所述当前样本文本之后的一条样本文本作为所述当前样本文本，继续下一轮模型训练。

第六实施例

以下将对本申请的另一种装置实施例进行介绍，相关之处请参见上述方法实施例。

参见图7，为本实施例提供的一种语音识别文本的标点处理装置的硬件结构示意图，所述装置700包括存储器701和接收器702，以及分别与所述存储器701和所述接收器702连接的处理器703，所述存储器701用于存储一组程序指令，所述处理器703用于调用所述存储器701存储的程序指令执行如下操作：

在本实施例的一种实现方式中，所述处理器703还用于调用所述存储器701存储的程序指令执行如下操作：

在一些实施方式中，所述处理器703可以为中央处理器(Central ProcessingUnit，CPU)，所述存储器701可以为随机存取存储器(Random Access Memory，RAM)类型的内部存储器，所述接收器702可以包含普通物理接口，所述物理接口可以为以太(Ethernet)接口或异步传输模式(Asynchronous Transfer Mode，ATM)接口。所述处理器703、接收器702和存储器701可以集成为一个或多个独立的电路或硬件，如：专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)。

此外，本实施例还提供了一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述语音识别文本的标点处理方法中的任意一种实现方式。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者诸如媒体网关等网络通信设备，等等)执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音识别文本的标点处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述当前识别文本与所述历史识别文本之间的上下文关系，对所述历史识别文本的标点信息进行修正，包括：

3.根据权利要求2所述的方法，其特征在于，所述对所述当前识别文本进行标点预测，包括：

4.根据权利要求3所述的方法，其特征在于，所述一级标点预测模型的构建方法包括：

5.根据权利要求2至4任一项所述的方法，其特征在于，所述获取待修正文本，包括：

6.根据权利要求2至4任一项所述的方法，其特征在于，所述对所述待修正文本进行标点修正，包括：

7.根据权利要求6所述的方法，其特征在于，所述二级标点预测模型的构建方法包括：

8.一种语音识别文本的标点处理装置，其特征在于，包括：

9.一种语音识别文本的标点处理装置，其特征在于，包括：处理器、存储器、***总线；

所述处理器以及所述存储器通过所述***总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-7任意一项所述的方法。