WO2019196196A1

WO2019196196A1 - 一种耳语音恢复方法、装置、设备及可读存储介质

Info

Publication number: WO2019196196A1
Application number: PCT/CN2018/091460
Authority: WO
Inventors: 潘嘉; 刘聪; 王海坤; 王智国; 胡国平
Original assignee: 科大讯飞股份有限公司
Priority date: 2018-04-12
Filing date: 2018-06-15
Publication date: 2019-10-17
Also published as: US20200211550A1; JP6903129B2; JP2020515877A; US11508366B2; CN108520741B; CN108520741A

Abstract

本申请公开了一种耳语音恢复方法、装置、设备及可读存储介质，基于耳语音恢复模型实现，该耳语音恢复模型为预先以耳语音训练数据的识别结果及耳语音训练声学特征为样本，以与所述耳语音训练数据平行的正常语音数据对应的正常音声学特征为样本标签进行训练得到。本申请获取耳语音数据对应的耳语音声学特征，及所述耳语音数据对应的初步识别结果，进而将耳语音声学特征及初步识别结果输入预置的耳语音恢复模型，得到输出的正常音声学特征，可以据此恢复耳语音。

Description

一种耳语音恢复方法、装置、设备及可读存储介质

技术领域

本申请要求于2018年4月12日提交中国专利局、申请号为201810325696.3、发明名称为“一种耳语音恢复方法、装置、设备及可读存储介质”的国内申请的优先权，其全部内容通过引用结合在本申请中。

背景技术

语音识别通过机器学习方法让机器能够自动的将语音转换成对应的文字，从而赋予了机器类似人听觉的功能，是人工智能的重要组成部分。随着人工智能技术的不断突破和各种智能终端设备的日益普及，语音识别作为人机交互的重要环节，广泛应用于各种智能终端上，越来越多的用户习惯用语音输入。

语音包括正常音和耳语音，其中耳语音是指用户在说悄悄话时产生的语音，正常音即用户正常说话时的语音。正常音和耳语音的发音不同。正常发音时人的声带呈现规律的周期性的振动，这种振动频率称为基频。而发耳语音时，声带振动不明显，呈现出不规律的有一些随机性的振动，也就是说没有基频，因此即使把耳语音的音量进行放大，也不会和正常发音一样。

然而，在开会或者涉及到隐私等场合下，正常使用语音输入会带来一些不便，很多用户会选择说悄悄话，这样引入的问题是机器无法准确识别用户所说的内容。同时也有很多失音患者他们的发音和耳语音比较接近。基于此，现有技术迫切需要一种能够将耳语音恢复成正常音的方案。

发明内容

有鉴于此，本申请提供了一种耳语音恢复方法、装置、设备及可读存储介质，以实现高准确度的对耳语音数据进行恢复。

为了实现上述目的，现提出的方案如下：

一种耳语音恢复方法，包括：

获取耳语音数据对应的耳语音声学特征，及所述耳语音数据对应的初步识别结果；

将所述耳语音声学特征及所述初步识别结果输入预置的耳语音恢复模型，得到输出的正常音声学特征；

所述耳语音恢复模型为，预先以耳语音训练数据的识别结果及耳语音训练声学特征为样本，以与所述耳语音训练数据平行的正常语音数据对应的正常音声学特征为样本标签进行训练得到。

优选地，还包括：

利用所述正常音声学特征，确定所述耳语音数据的最终识别结果。

优选地，获取所述耳语音数据对应的初步识别结果，包括：

将所述耳语音声学特征输入预置的耳语音识别模型，得到输出的耳语音识别结果，作为所述耳语音数据对应的初步识别结果；

所述耳语音识别模型为，以正常音识别模型为初始模型，使用标注有耳语音训练数据的识别结果的耳语音训练声学特征，对所述初始模型进行训练得到。

优选地，还包括：

获取所述耳语音数据匹配的唇形图像数据；

则所述获取所述耳语音数据对应的初步识别结果，还包括：

将所述唇形图像数据输入预置的唇形识别模型，得到输出的唇形识别结果；所述唇形识别模型为，利用标注有唇形识别结果的唇形图像训练数据预训练得到；

将所述耳语音识别结果及所述唇形识别结果进行融合，得到融合后的识别结果作为所述耳语音数据对应的初步识别结果。

优选地，还包括：

对每一帧唇形图像数据进行***检测，得到***区域；

将所述***区域从对应帧图像中提取出来，并进行图像规整处理，得到规整后的唇形图像数据，作为所述唇形识别模型的输入。

优选地，所述获取耳语音数据对应的耳语音声学特征，包括：

对所述耳语音数据进行分帧，得到若干帧耳语音数据；

对每一帧耳语音数据进行预加重处理，得到处理后耳语音数据；

分别提取每一帧处理后耳语音数据的频谱特征；所述频谱特征包括：梅尔滤波器对数能量特征、梅尔频率倒谱系数特征、感知线性预测系数特征中的任意一个或多个。

优选地，所述将所述耳语音声学特征及所述初步识别结果输入预置的耳语音恢复模型，得到输出的正常音声学特征，包括：

将所述耳语音声学特征及所述初步识别结果输入递归神经网络类型的耳语音恢复模型，得到模型输出的正常音声学特征。

将所述耳语音声学特征及所述初步识别结果输入基于注意力机制的编解码类型的耳语音恢复模型；

通过耳语音恢复模型的编码层，分别对所述耳语音声学特征、所述初步识别结果进行编码，得到编码后耳语音声学特征及编码后初步识别结果；

通过耳语音恢复模型的注意力层，对所述编码后耳语音声学特征进行系数线性加权，得到当前时刻的加权后耳语音声学特征；

通过耳语音恢复模型的解码层，将所述编码后初步识别结果、所述当前时刻的加权后耳语音声学特征及上一时刻解码层的输出作为当前时刻解码层的输入，当前时刻解码层的输出作为正常音声学特征。

优选地，所述利用所述正常音声学特征，确定所述耳语音数据的最终识别结果，包括：

将所述正常音声学特征输入预置的正常音识别模型，得到输出的正常音识别结果；

将所述正常音识别结果作为所述耳语音数据的最终识别结果。

判断是否达到设定迭代终止条件；

若是，将所述正常音识别结果作为所述耳语音数据的最终识别结果；

若否，将所述正常音识别结果作为所述初步识别结果，返回至所述将所述耳语音声学特征及所述初步识别结果输入预置的耳语音恢复模型的过程。

一种耳语音恢复装置，包括：

耳语音声学特征获取单元，用于获取耳语音数据对应的耳语音声学特征；

初步识别结果获取单元，用于获取所述耳语音数据对应的初步识别结果；

耳语音恢复处理单元，用于将所述耳语音声学特征及所述初步识别结果输入预置的耳语音恢复模型，得到输出的正常音声学特征；

优选地，还包括：

最终识别结果确定单元，用于利用所述正常音声学特征，确定所述耳语音数据的最终识别结果。

优选地，所述初步识别结果获取单元包括：

第一初步识别结果获取子单元，用于将所述耳语音声学特征输入预置的耳语音识别模型，得到输出的耳语音识别结果，作为所述耳语音数据对应的初步识别结果；

优选地，还包括：

唇形图像数据获取单元，用于获取所述耳语音数据匹配的唇形图像数据；

则所述初步识别结果获取单元还包括：

第二初步识别结果获取子单元，将所述唇形图像数据输入预置的唇形识别模型，得到输出的唇形识别结果；所述唇形识别模型为，利用标注有唇形识别结果的唇形图像训练数据预训练得到；

第三初步识别结果获取子单元，将所述耳语音识别结果及所述唇形识别结果进行融合，得到融合后的识别结果作为所述耳语音数据对应的初步识别结果。

优选地，还包括：

***检测单元，用于对每一帧唇形图像数据进行***检测，得到***区域；

图像处理单元，用于将所述***区域从对应帧图像中提取出来，并进行图像规整处理，得到规整后的唇形图像数据，作为所述唇形识别模型的输入。

优选地，所述耳语音声学特征获取单元包括：

分帧处理单元，用于对所述耳语音数据进行分帧，得到若干帧耳语音数据；

预加重处理单元，用于对每一帧耳语音数据进行预加重处理，得到处理后耳语音数据；

频谱特征提取单元，用于分别提取每一帧处理后耳语音数据的频谱特征；所述频谱特征包括：梅尔滤波器对数能量特征、梅尔频率倒谱系数特征、感知线性预测系数特征中的任意一个或多个。

优选地，所述耳语音恢复处理单元包括：

递归处理单元，用于将所述耳语音声学特征及所述初步识别结果输入递归神经网络类型的耳语音恢复模型，得到模型输出的正常音声学特征。

优选地，所述耳语音恢复处理单元包括：编解码处理单元，该编解码处理单元包括：

第一编解码处理子单元，用于将所述耳语音声学特征及所述初步识别结果输入基于注意力机制的编解码类型的耳语音恢复模型；

第二编解码处理子单元，用于通过耳语音恢复模型的编码层，分别对所述耳语音声学特征、所述初步识别结果进行编码，得到编码后耳语音声学特征及编码后初步识别结果；

第三编解码处理子单元，用于通过耳语音恢复模型的注意力层，对所述编码后耳语音声学特征进行系数线性加权，得到当前时刻的加权后耳语音声学特征；

第四编解码处理子单元，用于通过耳语音恢复模型的解码层，将所述编码后初步识别结果、所述当前时刻的加权后耳语音声学特征及上一时刻解码层的输出作为当前时刻解码层的输入，当前时刻解码层的输出作为正常音声学特征。

优选地，所述最终识别结果确定单元包括：

正常声识别单元，用于将所述正常音声学特征输入预置的正常音识别模型，得到输出的正常音识别结果；

第一结果确定单元，用于将所述正常音识别结果作为所述耳语音数据的最终识别结果。

优选地，所述最终识别结果确定单元包括：

迭代判断单元，用于判断是否达到设定迭代终止条件；

第二结果确定单元，用于在所述迭代判断单元的判断结果为是时，将所述正常音识别结果作为所述耳语音数据的最终识别结果；

第三结果确定单元，用于在所述迭代判断单元的判断结果为否时，将所述正常音识别结果作为所述初步识别结果，返回至所述将所述耳语音声学特征及所述初步识别结果输入预置的耳语音恢复模型的过程。

一种耳语音恢复设备，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上公开的耳语音恢复方法的各个步骤。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上公开的耳语音恢复方法的各个步骤。

从上述的技术方案可以看出，本申请实施例提供的耳语音恢复方法，基于耳语音恢复模型实现，该耳语音恢复模型为预先以耳语音训练数据的识别结果及耳语音训练声学特征为样本，以与所述耳语音训练数据平行的正常语音数据对应的正常音声学特征为样本标签进行训练得到。本申请获取耳语音数据对应的耳语音声学特征，及所述耳语音数据对应的初步识别结果，进而将耳语音声学特征及初步识别结果输入预置的耳语音恢复模型，得到输出的正常音声学特征，可以据此恢复耳语音，便于用户在耳语音对话场景下能够准确了解对方表达的内容。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种耳语音恢复方法流程图；

图2为本申请实施例公开的一种获取耳语音声学特征方法流程图；

图3示例了一种唇形识别模型的结构示意图；

图4示例了一种递归神经网络类型的耳语音恢复模型结构示意图；

图5示例了一种基于注意力机制的编解码类型的耳语音恢复模型结构示意图；

图6为本申请实施例公开的另一种耳语音恢复方法流程图；

图7为本申请实施例公开的又一种耳语音恢复方法流程图；

图8为本申请实施例公开的一种耳语音恢复装置结构示意图；

图9为本申请实施例公开的一种耳语音恢复设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

接下来，结合附图1，对本申请的耳语音恢复方法进行介绍，如图1所示，该方法包括：

步骤S100、获取耳语音数据对应的耳语音声学特征，及所述耳语音数据对应的初步识别结果；

具体地，本步骤中可以直接获取外部输入的耳语音数据对应的耳语音声学特征，也可以是根据耳语音数据来确定其对应的耳语音声学特征。

进一步，耳语音数据对应的初步识别结果，可以是由外部输入的，也可以是本申请根据耳语音数据所确定的。

耳语音数据对应的初步识别结果其准确度可能并不高，并不能够直接作为最终的识别结果。

耳语音数据可以通过终端设备采集，终端设备可以是手机、个人电脑、平板电脑等设备。可以通过终端设备上的麦克风采集耳语音数据。

步骤S110、将所述耳语音声学特征及所述初步识别结果输入预置的耳语音恢复模型，得到输出的正常音声学特征。

其中，所述耳语音恢复模型为，预先以耳语音训练数据的识别结果及耳语音训练声学特征为样本，以与所述耳语音训练数据平行的正常语音数据对应的正常音声学特征为样本标签进行训练得到。

换句话说，耳语音恢复模型的训练样本可以包括：耳语音训练数据对应的耳语音训练声学特征，以及耳语音训练数据的识别结果；样本标签包括：与耳语音训练数据平行的正常语音数据对应的正常音声学特征。

其中，与耳语音训练数据平行的正常语音数据指，耳语音训练数据与正常语音数据为同一说话人在设备、环境、语速、情绪等各场景均相同的情况下，分别以耳语方式和正常方式说的话。

耳语音训练数据的识别结果可以是人工标注的，也可以是与步骤S100中类似的，获取的外部导入的耳语音训练数据对应的初步识别结果，作为耳语音训练数据的识别结果。

本实施例中，耳语音恢复模型，利用耳语音声学特征及初步识别结果，可以预测出耳语音数据对应的正常音声学特征，据此恢复耳语音，便于用户在耳语音对话场景下能够准确了解对方表达的内容。

在本申请的一个实施例中，介绍上述步骤S100中获取耳语音数据对应的耳语音声学特征的过程。参见图2，该过程可以包括：

步骤S200、对所述耳语音数据进行分帧，得到若干帧耳语音数据；

步骤S210、对每一帧耳语音数据进行预加重处理，得到处理后耳语音数据；

步骤S220、分别提取每一帧处理后耳语音数据的频谱特征。

其中，频谱特征可以包括：梅尔滤波器对数能量特征(LogFilter Bank Energy)、梅尔频率倒谱系数特征(Mel Frequency Cepstrum Coefficient,MFCC)、感知线性预测系数特征(Perceptual Linear Predictive，PLP)中的任意一个或多个。

进一步地，介绍上述步骤S100中获取耳语音数据对应的初步识别结果的过程。本实施例公开了两种获取方式，分别如下：

第一种方式，基于耳语音识别模型实现。

本实施例中可以预先训练耳语音识别模型，该耳语音识别模型为以正常音识别模型为初始模型，使用标注有耳语音训练数据的识别结果的耳语音训练声学特征，对所述初始模型进行训练得到。

其中，正常音识别模型为，以标注有正常音训练数据的识别结果的正常音训练声学特征训练得到。

本实施例中，考虑到耳语音数据的收集成本比较高，通常收集到的耳语音数据较少，因此很难在说话人、环境等层面有很好的覆盖性，从而导致耳语音训练数据没有覆盖到的时候识别率显著降低。在此基础上，本申请设计的耳语音识别模型为正常语音识别模型经过自适应得到，具体地：

首先，收集大量有人工标注识别结果的正常说话的正常音数据和少量有人工标注识别结果的耳语音数据；

其次，提取正常音数据的正常音声学特征，以及提取耳语音数据的耳语音声学特征；

再次，利用正常音声学特征及人工对正常音数据标注的识别结果，训练正常音识别模型；

最后，以训练后的正常音识别模型为初始模型，利用耳语音声学特征及人工对耳语音数据标注的识别结果，训练该初始模型，训练后得到耳语音识别模型。

基于训练得到的耳语音识别模型，本实施例中可以将获取的耳语音数据对应的耳语音声学特征输入该耳语音识别模型，得到输出的耳语音识别结果，作为所述耳语音数据对应的初步识别结果。

可以理解的是，本实施例中也可以仅基于耳语音数据及其对应的识别结果，训练耳语音识别模型。

第二种方式，基于耳语音识别模型和唇形识别模型实现。

在第一种实现方式的基础上，本实施例中进一步结合了唇形识别过程，来综合确定耳语音数据对应的初步识别结果。具体地：

本实施例中可以进一步获取耳语音数据匹配的唇形图像数据。该唇形图像数据即为，拍摄的包含用户在说耳语音数据时唇形的图像。

在此基础上，本申请预先训练唇形识别模型，该唇形识别模型为，利用标注有唇形识别结果的唇形图像训练数据预训练得到。

通过将耳语音数据匹配的唇形图像数据，输入该唇形识别模型，得到模型输出的唇形识别结果。

进一步可选的，在获取到耳语音数据匹配的唇形图像数据之后，本实施例还可以进一步对唇形图像数据进行预处理操作。并将预处理后的唇形图像数据作为唇形识别模型的输入。

对唇形图像进行预处理的过程，可以包括：

首先，每一帧唇形图像数据进行***检测，得到***区域；

具体地，***检测可以采用物体检测技术，如FasterRCNN模型等。

进一步，将所述***区域从对应帧图像中提取出来，并进行图像规整处理，得到规整后的唇形图像数据，作为所述唇形识别模型的输入。

对图像进行规整处理过程，可以将图像缩放到预定大小，如32*32像素，或其它规格。该规整处理方式可以采用现有各种图像放缩技术，如线性内插等。

参见图3，其示例了一种唇形识别模型的结构示意图。

预处理后的唇形图像序列作为模型的输入。首先经过卷积神经网络CNN得到每帧唇形图像的特征表达，卷积神经网络的结构不做限制，可以是现有图像识别中经常采用的VGG结构或残差结构等。进一步，经过递归神经网络RNN形成唇形图像序列的特征表达，再经过前馈神经网络FFNN之后连接输出层，输出层为输入唇形图像序列对应的音素序列或者音素状态序列。

图3中示例的输出层输出的音素序列为“zh、ong、g、uo”。

在上述介绍的得到唇形识别结果的基础上，将唇形识别结果与耳语音识别模型输出的耳语音识别结果进行融合，得到融合后的识别结果作为耳语音数据对应的初步识别结果。

其中，唇形识别结果与耳语音识别模型输出的耳语音识别结果进行融合的过程，可以采用现有模型融合方法，如ROVER(Recognizer output voting error reduction；识别结果投票错误降低法)，或者其它融合方法。

通过将唇形识别结果与耳语音识别结果相结合，提高了耳语音识别准确度，使得确定的耳语音数据对应的初步识别结果更加准确。

在本申请的另一个实施例中，介绍上述步骤S110，将所述耳语音声学特征及所述初步识别结果输入预置的耳语音恢复模型，得到输出的正常音声学特征的实施过程。

本实施例中提供了两种耳语音恢复模型，分别如下：

第一种：

耳语音恢复模型为递归神经网络类型。如图4，示例了一种递归神经网络类型的耳语音恢复模型结构示意图。

输入层包括两类数据，分别为各帧的耳语音声学特征及各帧的初步识别结果。图4中，初步识别结果以音素序列“zh、ong、g、uo”为例进行的说明。

输出层为各帧的正常音声学特征。

基于上述耳语音恢复模型，本实施例可以将所述耳语音声学特征及所述初步识别结果输入递归神经网络类型的耳语音恢复模型，得到模型输出的正常音声学特征。

其中，输入模型的初步识别结果可以是向量化后的初步识别结果。

第二种：

耳语音恢复模型为基于注意力机制的编解码类型。如图5，示例了一种基于注意力机制的编解码类型的耳语音恢复模型结构示意图。

输入层包括两类数据，分别为各帧的耳语音声学特征x ₁-x _s及各帧的初步识别结果。图5中，初步识别结果以音素序列“zh、ong、g、uo”为例进行的说明。

经过编码层对各帧的耳语音声学特征进行编码，得到编码后耳语音声学特征

其中i∈[1,s]。注意力层利用编码后耳语音声学特征

及当前时刻t解码层的隐层变量

共同确定当前时刻t，各帧耳语音声学特征的系数向量a _t。利用系数向量a _t与各帧编码后耳语音声学特征

组成的向量相乘，得到当前时刻的加权后耳语音声学特征c _t。将编码后初步识别结果、当前时刻的加权后耳语音声学特征c _t及上一时刻t-1解码层的输出y _t-1作为当前时刻t解码层的输入，当前时刻t解码层的输出y _t作为正常声学特征。

基于上述耳语音恢复模型，本实施例可以通过如下步骤利用模型确定正常音声学特征：

1)将所述耳语音声学特征及所述初步识别结果输入基于注意力机制的编解码类型的耳语音恢复模型；

2)通过耳语音恢复模型的编码层，分别对所述耳语音声学特征、所述初步识别结果进行编码，得到编码后耳语音声学特征及编码后初步识别结果；

3)通过耳语音恢复模型的注意力层，对所述编码后耳语音声学特征进行系数线性加权，得到当前时刻的加权后耳语音声学特征；

4)通过耳语音恢复模型的解码层，将所述编码后初步识别结果、所述当前时刻的加权后耳语音声学特征及上一时刻解码层的输出作为当前时刻解码层的输入，当前时刻解码层的输出作为正常音声学特征。

在本申请的又一个实施例中，介绍了另一种耳语音恢复方法，结合图6所示，该方法可以包括：

步骤S300、获取耳语音数据对应的耳语音声学特征，及所述耳语音数据对应的初步识别结果；

步骤S310、将所述耳语音声学特征及所述初步识别结果输入预置的耳语音恢复模型，得到输出的正常音声学特征；

其中，所述耳语音恢复模型为，预先以耳语音训练数据标注的识别结果及耳语音训练声学特征为样本，以与所述耳语音训练数据平行的正常语音数据对应的正常音声学特征为样本标签进行训练得到。

需要说明的是，本实施例中步骤S300-S310与前述实施例中步骤S100-S110一一对应，详细参照前述介绍，此处不再赘述。

步骤S320、利用所述正常音声学特征，确定所述耳语音数据的最终识别结果。

本实施例中，在得到正常音声学特征之后，进一步利用该正常音声学特征，确定耳语音数据的最终识别结果，该最终识别结果可以是文本形式。

可以理解的是，除此之外，本申请还可以利用正常音声学特征，合成正常声语音进行输出，或者其它可选方式，具体按照应用需要而选择。

相比于前述实施例，本实施例中增加了利用正常音声学特征，确定耳语音数据的最终识别结果的过程，该最终识别结果可以进行存储、记录等用途。

可选的，本实施例中在步骤S320利用正常音声学特征，确定最终识别结果之后，可以将该最终识别结果与前述实施例介绍的唇形识别模型输出的唇形识别结果进行融合，将融合结果作为更新后的最终识别结果，进一步提高最终识别结果的准确度。

在本申请的又一个实施例中，介绍了上述步骤S320，利用所述正常音声学特征，确定所述耳语音数据的最终识别结果的两种可选实施方式。

第一种：

1)将所述正常音声学特征输入预置的正常音识别模型，得到输出的正常音识别结果；

2)将所述正常音识别结果作为所述耳语音数据的最终识别结果。

其中，正常音识别模型可以参照前文介绍，此处不再赘述。在该种实现方式中，将正常音识别模型输出的正常音识别结果直接作为最终的识别结果。

第二种：

为了便于理解，本实施例中结合一个完整的耳语音恢复流程，对上述步骤S320的过程进行说明。

参加图7所示，图7为本申请实施例公开的又一种耳语音恢复方法流程图。如图7所示，该方法包括：

步骤S400、获取耳语音数据对应的耳语音声学特征，及所述耳语音数据对应的初步识别结果；

步骤S410、将所述耳语音声学特征及所述初步识别结果输入预置的耳语音恢复模型，得到输出的正常音声学特征；

需要说明的是，本实施例中步骤S400-S410与前述实施例中步骤S100-S110一一对应，详细参照前述介绍，此处不再赘述。

步骤S420、将所述正常音声学特征输入预置的正常音识别模型，得到输出的正常音识别结果；

步骤S430、判断是否达到设定迭代终止条件；若是，执行步骤S440，若否，执行步骤S450；

步骤S440、将所述正常音识别结果作为所述耳语音数据的最终识别结果；

步骤S450、将所述正常音识别结果作为所述初步识别结果，并返回执行步骤S410。

相比于第一种实现方式可知，本实现方式中增加了通过耳语音恢复模型进行迭代过程，即将正常音识别模型输出的正常音识别结果进一步作为初步识别结果，输入耳语音恢复模型进行迭代，直至确定达到设定迭代终止条件。

可以理解的是，设定迭代终止条件可以有多种，如耳语音恢复模型的迭代次数达到次数阈值，迭代时间达到时间阈值，或者，正常音识别结果的置信度收敛情况达到设定收敛条件等。

具体地次数阈值、时间阈值可以根据实际任务对于***响应时间的要求和计算资源而定。

可以理解的是，迭代次数越多，得到的最终识别结果的准确度越高，当然消耗的时间和计算资源也越多。

下面对本申请实施例提供的耳语音恢复装置进行描述，下文描述的耳语音恢复装置与上文描述的耳语音恢复方法可相互对应参照。

参见图8，图8为本申请实施例公开的一种耳语音恢复装置结构示意图。如图8所示，该装置可以包括：

耳语音声学特征获取单元11，用于获取耳语音数据对应的耳语音声学特征；

初步识别结果获取单元12，用于获取所述耳语音数据对应的初步识别结果；

耳语音恢复处理单元13，用于将所述耳语音声学特征及所述初步识别结果输入预置的耳语音恢复模型，得到输出的正常音声学特征；

可选的，上述初步识别结果获取单元可以包括：

可选的，本申请的装置还可以包括：

则所述初步识别结果获取单元还可以包括：

可选的，本申请的装置还可以包括：

可选的，上述耳语音声学特征获取单元可以包括：

可选的，本实施例公开了耳语音恢复处理单元的两种可选结构，

其一：耳语音恢复处理单元可以包括：

其二：耳语音恢复处理单元可以包括：编解码处理单元，该编解码处理单元包括：

可选的，本申请的装置还可以包括：

可选的，本实施例公开了最终识别结果确定单元的两种可选结构，

其一，最终识别结果确定单元可以包括：

其二，最终识别结果确定单元可以包括：

迭代判断单元，用于判断是否达到设定迭代终止条件；

本申请实施例提供的耳语音恢复装置可应用于耳语音恢复设备，如PC终端、云平台、服务器及服务器集群等。可选的，图9示出了耳语音恢复设备的硬件结构框图，参照图9，耳语音恢复设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

一种耳语音恢复方法，其特征在于，包括：

获取耳语音数据对应的耳语音声学特征，及所述耳语音数据对应的初步识别结果；

将所述耳语音声学特征及所述初步识别结果输入预置的耳语音恢复模型，得到输出的正常音声学特征；

所述耳语音恢复模型为，预先以耳语音训练数据的识别结果及耳语音训练声学特征为样本，以与所述耳语音训练数据平行的正常语音数据对应的正常音声学特征为样本标签进行训练得到。
根据权利要求1所述的方法，其特征在于，还包括：

利用所述正常音声学特征，确定所述耳语音数据的最终识别结果。
根据权利要求1所述的方法，其特征在于，获取所述耳语音数据对应的初步识别结果，包括：

将所述耳语音声学特征输入预置的耳语音识别模型，得到输出的耳语音识别结果，作为所述耳语音数据对应的初步识别结果；

所述耳语音识别模型为，以正常音识别模型为初始模型，使用标注有耳语音训练数据的识别结果的耳语音训练声学特征，对所述初始模型进行训练得到。
根据权利要求3所述的方法，其特征在于，还包括：

获取所述耳语音数据匹配的唇形图像数据；

则所述获取所述耳语音数据对应的初步识别结果，还包括：

将所述唇形图像数据输入预置的唇形识别模型，得到输出的唇形识别结果；所述唇形识别模型为，利用标注有唇形识别结果的唇形图像训练数据预训练得到；

将所述耳语音识别结果及所述唇形识别结果进行融合，得到融合后的识别结果作为所述耳语音数据对应的初步识别结果。
根据权利要求4所述的方法，其特征在于，还包括：

对每一帧唇形图像数据进行***检测，得到***区域；

将所述***区域从对应帧图像中提取出来，并进行图像规整处理，得到规整后的唇形图像数据，作为所述唇形识别模型的输入。
根据权利要求1所述的方法，其特征在于，所述获取耳语音数据对应的耳语音声学特征，包括：

对所述耳语音数据进行分帧，得到若干帧耳语音数据；

对每一帧耳语音数据进行预加重处理，得到处理后耳语音数据；

分别提取每一帧处理后耳语音数据的频谱特征；所述频谱特征包括：梅尔滤波器对数能量特征、梅尔频率倒谱系数特征、感知线性预测系数特征中的任意一个或多个。
根据权利要求1所述的方法，其特征在于，所述将所述耳语音声学特征及所述初步识别结果输入预置的耳语音恢复模型，得到输出的正常音声学特征，包括：

将所述耳语音声学特征及所述初步识别结果输入递归神经网络类型的耳语音恢复模型，得到模型输出的正常音声学特征。
根据权利要求1所述的方法，其特征在于，所述将所述耳语音声学特征及所述初步识别结果输入预置的耳语音恢复模型，得到输出的正常音声学特征，包括：

将所述耳语音声学特征及所述初步识别结果输入基于注意力机制的编解码类型的耳语音恢复模型；

通过耳语音恢复模型的编码层，分别对所述耳语音声学特征、所述初步识别结果进行编码，得到编码后耳语音声学特征及编码后初步识别结果；

通过耳语音恢复模型的注意力层，对所述编码后耳语音声学特征进行系数线性加权，得到当前时刻的加权后耳语音声学特征；

通过耳语音恢复模型的解码层，将所述编码后初步识别结果、所述当前时刻的加权后耳语音声学特征及上一时刻解码层的输出作为当前时刻解码层的输入，当前时刻解码层的输出作为正常音声学特征。
根据权利要求2所述的方法，其特征在于，所述利用所述正常音声学特征，确定所述耳语音数据的最终识别结果，包括：

将所述正常音声学特征输入预置的正常音识别模型，得到输出的正常音识别结果；

将所述正常音识别结果作为所述耳语音数据的最终识别结果。
根据权利要求2所述的方法，其特征在于，所述利用所述正常音声学特征，确定所述耳语音数据的最终识别结果，包括：

将所述正常音声学特征输入预置的正常音识别模型，得到输出的正常音识别结果；

判断是否达到设定迭代终止条件；

若是，将所述正常音识别结果作为所述耳语音数据的最终识别结果；

若否，将所述正常音识别结果作为所述初步识别结果，返回至所述将所述耳语音声学特征及所述初步识别结果输入预置的耳语音恢复模型的过程。
一种耳语音恢复装置，其特征在于，包括：

耳语音声学特征获取单元，用于获取耳语音数据对应的耳语音声学特征；

初步识别结果获取单元，用于获取所述耳语音数据对应的初步识别结果；

耳语音恢复处理单元，用于将所述耳语音声学特征及所述初步识别结果输入预置的耳语音恢复模型，得到输出的正常音声学特征；

所述耳语音恢复模型为，预先以耳语音训练数据的识别结果及耳语音训练声学特征为样本，以与所述耳语音训练数据平行的正常语音数据对应的正常音声学特征为样本标签进行训练得到。
根据权利要求11所述的装置，其特征在于，还包括：

最终识别结果确定单元，用于利用所述正常音声学特征，确定所述耳语音数据的最终识别结果。
根据权利要求11所述的装置，其特征在于，所述初步识别结果获取单元包括：

第一初步识别结果获取子单元，用于将所述耳语音声学特征输入预置的耳语音识别模型，得到输出的耳语音识别结果，作为所述耳语音数据对应的初步识别结果；

所述耳语音识别模型为，以正常音识别模型为初始模型，使用标注有耳语音训练数据的识别结果的耳语音训练声学特征，对所述初始模型进行训练得到。
根据权利要求13所述的装置，其特征在于，还包括：

唇形图像数据获取单元，用于获取所述耳语音数据匹配的唇形图像数据；

则所述初步识别结果获取单元还包括：

第二初步识别结果获取子单元，将所述唇形图像数据输入预置的唇形识别模型，得到输出的唇形识别结果；所述唇形识别模型为，利用标注有唇形识别结果的唇形图像训练数据预训练得到；

第三初步识别结果获取子单元，将所述耳语音识别结果及所述唇形识别结果进行融合，得到融合后的识别结果作为所述耳语音数据对应的初步识别结果。
根据权利要求14所述的装置，其特征在于，还包括：

***检测单元，用于对每一帧唇形图像数据进行***检测，得到***区域；

图像处理单元，用于将所述***区域从对应帧图像中提取出来，并进行图像规整处理，得到规整后的唇形图像数据，作为所述唇形识别模型的输入。
根据权利要求11所述的装置，其特征在于，所述耳语音声学特征获取单元包括：

分帧处理单元，用于对所述耳语音数据进行分帧，得到若干帧耳语音数据；

预加重处理单元，用于对每一帧耳语音数据进行预加重处理，得到处理后耳语音数据；

频谱特征提取单元，用于分别提取每一帧处理后耳语音数据的频谱特征；所述频谱特征包括：梅尔滤波器对数能量特征、梅尔频率倒谱系数特征、感知线性预测系数特征中的任意一个或多个。
根据权利要求11所述的装置，其特征在于，所述耳语音恢复处理单元包括：

递归处理单元，用于将所述耳语音声学特征及所述初步识别结果输入递归神经网络类型的耳语音恢复模型，得到模型输出的正常音声学特征。
根据权利要求11所述的装置，其特征在于，所述耳语音恢复处理单元包括：编解码处理单元，该编解码处理单元包括：

第一编解码处理子单元，用于将所述耳语音声学特征及所述初步识别结果输入基于注意力机制的编解码类型的耳语音恢复模型；

第二编解码处理子单元，用于通过耳语音恢复模型的编码层，分别对所述耳语音声学特征、所述初步识别结果进行编码，得到编码后耳语音声学特征及编码后初步识别结果；

第三编解码处理子单元，用于通过耳语音恢复模型的注意力层，对所述编码后耳语音声学特征进行系数线性加权，得到当前时刻的加权后耳语音声学特征；

第四编解码处理子单元，用于通过耳语音恢复模型的解码层，将所述编码后初步识别结果、所述当前时刻的加权后耳语音声学特征及上一时刻解码层的输出作为当前时刻解码层的输入，当前时刻解码层的输出作为正常音声学特征。
根据权利要求12所述的装置，其特征在于，所述最终识别结果确定单元包括：

正常声识别单元，用于将所述正常音声学特征输入预置的正常音识别模型，得到输出的正常音识别结果；

第一结果确定单元，用于将所述正常音识别结果作为所述耳语音数据的最终识别结果。
根据权利要求12所述的装置，其特征在于，所述最终识别结果确定单元包括：

正常声识别单元，用于将所述正常音声学特征输入预置的正常音识别模型，得到输出的正常音识别结果；

迭代判断单元，用于判断是否达到设定迭代终止条件；

第二结果确定单元，用于在所述迭代判断单元的判断结果为是时，将所述正常音识别结果作为所述耳语音数据的最终识别结果；

第三结果确定单元，用于在所述迭代判断单元的判断结果为否时，将所述正常音识别结果作为所述初步识别结果，返回至所述将所述耳语音声学特征及所述初步识别结果输入预置的耳语音恢复模型的过程。
一种耳语音恢复设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1-10中任一项所述的耳语音恢复方法的各个步骤。
一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-10中任一项所述的耳语音恢复方法的各个步骤。