CN113129867A

CN113129867A - 语音识别模型的训练方法、语音识别方法、装置和设备

Info

Publication number: CN113129867A
Application number: CN201911384482.4A
Authority: CN
Inventors: 汪海涛
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Shanghai ICT Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Shanghai ICT Co Ltd
Priority date: 2019-12-28
Filing date: 2019-12-28
Publication date: 2021-07-16
Anticipated expiration: 2039-12-28
Also published as: CN113129867B

Abstract

本发明实施例公开了一种语音识别模型的训练方法、语音识别方法、装置和设备，该方法包括：根据目标对象的音频数据，确定语音训练样本，语音训练样本包括语义信息和音频特征信息；将语义信息和音频特征信息输入到语音识别模型中，对语音识别模型进行迭代训练，直至满足预设训练条件，得到训练后的目标语音识别模型。以解决相关技术中，声纹识别精度不高的问题。

Description

语音识别模型的训练方法、语音识别方法、装置和设备

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种语音识别模型的训练方法、语音识别方法、装置、终端设备和存储介质。

背景技术

声纹识别(Speaker Recognition)是通过计算机利用人体所固有的生理特征或行为特征来进行个人身份鉴定。声纹识别分为说话人辨认和说话人确认，前者是根据说话人语音在多个参考说话人中确定为某一个；后者是证实说话人的身份与其声纹是否一致。

目前，在说话人辨认的过程中，由于检测过程不完备，会使对话被分割成多个语音片段，每个语音片段包含多个人声，这样，会使分辨具体某个人声的准确度降低。另外，如果要确认与目标说话人相关的说话内容，就需要获取大量的音频片段，才能找到目标说话人的前后说话内容，这样，在语句的先后顺序出现错乱时，导致无法证实说话人的身份与其声纹是否一致。

发明内容

本发明实施例提供一种语音识别模型的训练方法、语音识别方法、装置、终端设备及存储介质，以解决相关技术中，声纹识别精度不高的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种语音识别模型的训练方法，该方法包括：

根据目标对象的音频数据，确定语音训练样本，语音训练样本包括语义信息和音频特征信息；

将语义信息和音频特征信息输入到语音识别模型中，对所述语音识别模型进行迭代训练，直至满足预设训练条件，得到训练后的目标语音识别模型。

本发明实施例中，通过对音频数据进行分析，得到音频数据对应的语义信息和音频特征信息；接着，根据语义信息和音频特征信息对语音识别模型进行训练，这样，即使在对话音频被分成多个片段时，也能根据音频特征信息确定目标对象，且根据语义信息识别到目标对象的身份特征，以便对目标对象在对话音频中被准确追踪，从而提高在音频中识别目标对象的精度，并在识别出目标对象的情况下，确定目标对象的身份信息，从而得到对话音频的应用场景。

在一种可能的实施例中，上述涉及到的“将语义信息和音频特征信息输入到语音识别模型中，对语音识别模型进行迭代训练，直至满足预设训练条件，得到训练后的目标语音识别模型”的步骤中，具体可以包括：

针对每个语音训练样本分别执行以下步骤：将语义信息和音频特征信息输入到语音识别模型中，得到语义信息与音频特征信息的相似度预测结果；

根据每个相似度预测结果对语音识别模型进行调整；

根据语音训练样本对调整后的语音识别模型进行迭代训练，直至满足预设训练条件，得到训练后的目标语音识别模型。

在另一种可能的实施例中，本发明实施例中的“语音识别模型”可以包括转录网络模型，基于此，在上述“根据目标对象的音频数据，确定语音训练样本”的步骤中，具体可以包括：

将音频数据的音频特征向量输入到转录网络模型中，得到语义信息；

其中，语音信息用于确定音频数据对应的文本数据。

在又一种可能的实施例中，本发明实施例中的“语音识别模型”可以包括预测网络模型，基于此，在上述“根据目标对象的音频数据，确定语音训练样本”的步骤中，具体可以包括：

在对语音识别模型进行第一次训练的情况下，将预设相似度预测结果输入到预测网络模型中，得到音频特征信息；

在对语音识别模型进行第N次训练之后的情况下，将从第N-1次训练输出相似度预测结果输入到预测网络模型中，得到第N次的音频特征信息；

其中，N为大于1的整数，音频特征信息用于确定目标对象的身份信息。

在再一种可能的实施例中，本发明实施例中的“语音识别模型”还可以包括联合网络模型，基于此，在上述“将语义信息和音频特征信息输入到语音识别模型中，得到语义信息与音频特征信息的相似度预测结果”的步骤中，具体可以包括：

将语义信息和音频特征信息输入到联合网络模型中，得到包括音频数据的文本信息和目标对象的身份信息的隐藏数据；

将隐藏数据输入到分类模型中，得到文本信息与身份信息的相似度预测结果。

在再一种可能的实施例中，上述涉及的语音识别模型的训练方法还可以包括：

根据目标对象的音频数据通过梅尔频率倒谱系数MFCC，确定音频特征向量。

其中，上述涉及的“根据目标对象的音频数据通过梅尔频率倒谱系数 MFCC，确定音频特征向量”的步骤，具体可以包括：

获取目标对象的音频数据；

对音频数据的波形图进行分帧处理，得到至少一个帧片段；

对至少一个帧片段中的每个帧片段进行离散傅里叶变化DFT，确定每个帧片段的功率谱；

将功率谱进行数据转化，得到音频特征向量。

在再一种可能的实施例中，在上述涉及的“对至少一个帧片段中的每个帧片段进行离散傅里叶变化DFT”的步骤之前，还可以包括：

通过汉明窗对每个帧片段进行平滑处理。

第二方面，本发明实施例提供了一种利用目标语音识别模型的语音识别方法，该方法可以包括：

获取目标音频数据；

将目标音频数据输入到目标语音识别模型中，得到对话信息；其中，

对话信息包括：与目标音频数据对应的文本数据，文本数据携带有目标对象的身份标识。

本发明实施例中，通过将接收的目标音频数据输入到训练好的语音识别模型中，可以识别目标音频数据中的目标对象，以及目标对象的身份信息，通过在第一方面中训练好的语音识别模型，可以对目标对象在音频数据中被准确追踪，从而提高在音频中识别目标对象的精度，并在识别出目标对象的情况下，确定目标对象的身份信息，从而得到对话音频的应用场景。

在一种可能的实施例中，上述涉及“获取目标音频数据”的步骤中，具体可以包括：

对接收的音频数据进行预处理，得到目标音频数据；

其中，预处理包括数据清洗和/或降噪。

第三方面，本发明实施例提供了一种语音识别模型的训练装置，该装置可以包括：

处理模块，用于根据目标对象的音频数据，确定语音训练样本，语音训练样本包括语义信息和音频特征信息；

生成模块，将语义信息和音频特征信息输入到语音识别模型中，对语音识别模型进行迭代训练，直至满足预设训练条件，得到训练后的目标语音识别模型。

第四方面，本发明实施例提供了一种利用目标语音识别模型的语音识别装置，语音识别模型通过第一方面所示的方法或者第三方面所示的装置训练，该装置包括：

获取模块，用于获取目标音频数据；

处理模块，用于将目标音频数据输入到目标语音识别模型中，得到对话信息；其中，

第五方面，本发明实施例提供了一种终端设备，包括处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序，计算机程序被处理器执行时实现如第一方面任一项所示的语音识别模型的训练方法，或者，如第二方面任一项所示的利用语音识别模型的语音识别。

第六方面，提供了一种计算机可读存储介质，其上存储有计算机程序，若计算机程序在计算机中执行，则令计算机执行如第一方面任一项所示的语音识别模型的训练方法，或者，如第二方面任一项所示的利用语音识别模型的语音识别。

附图说明

从下面结合附图对本发明的具体实施方式的描述中可以更好地理解本发明其中，相同或相似的附图标记表示相同或相似的特征。

图1为本发明实施例提供的一种语音识别模型的训练方法和语音识别方法的实现流程示意图；

图2为本发明实施例提供的一种语音识别方法的实现流程示意图；

图3为本发明实施例提供的一种语音识别模型的训练方法的流程图；

图4为本发明实施例提供的一种语音识别模型的结构示意图；

图5为本发明实施例提供的一种转录网络模型的结构示意图；

图6为本发明实施例提供的一种预测网络模型的结构示意图；

图7为本发明实施例提供的一种联合网络模型的结构示意图；

图8为本发明实施例提供的一种语音识别方法的流程图；

图9为本发明实施例提供的一种语音识别模型的训练装置结构示意图

图10为本发明实施例提供的一种语音识别方法装置结构示意图；

图11为本发明实施例提供的一种终端设备的硬件结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

声纹识别属于生物特征识别技术，也称为说话人识别，是通过对收到的说话人语音信号进行分析和提取，自动地确定说话人是否在所建立的说话人集合里面，并确定说话人是谁的过程。声纹识别分为说话人辨认 (Speaker Identification)和说话人确认(Speaker Verification)，前者是根据说话人语音确定为多个参考说话人中的某一个，是一个选择问题；后者是证实说话人的身份与其声明的是否一致，是一个二选一的判定问题。说话人说话内容预先确定的声纹识别称为与文本有关(text-dependent)的声纹识别，说话人说话内容预先不确定，说什么内容都可以的声纹识别称为与文本无关(text-independent)的声纹识别。

说话人识别的主要任务是识别谁说了什么，也就是说话人分类任务是自动理解人类对话音频的关键步骤。例如，在一个医生与患者的对话中，患者在回答医生的问题(你经常服用心脏病药物吗？)时说了Yes，这和医生用反问的语气说Yes？的含义截然不同。

传统的说话人区分及语音识别主要分为两个部分，分别为自动语音识别(automatic speech recognition，ASR)和说话人分类(speaker diarization， SD)。其中，ASR结果为语音对应的文字，SD得到的结果为语音片段对应的说话人。结合这两个结果我们就可以得到“谁说了什么”。下面我们简单说明一下这两个过程的具体实现。

传统的说话人分类(SD)***分为两步，第一步是检测声谱中的变化，从而确定说话人何时发生切换；第二步是识别对话中的每个说话人。传统的说话人分类***依赖人声在声学上的差异来区分对话中的不同说话人。男人和女人的声音比较容易区分，他们的音高(pitch)存在很大差异，使用简单的声学模型就能加以区分，而且可以一步完成，音高相似的说话人则要通过以下方式进行区分：

首先，基于检测到的语音特征，一个变化检测算法将对话均匀地分割成若干片段，希望每个片段只包含一个说话人。接下来，使用深度学习模型将来自每个说话人的声音片段映射为一个嵌入向量。在最后一步的聚类过程中，将这些嵌入聚集在一起，以便在一场对话中跟踪同一个说话人。在实践中，说话人分类***与自动语音识别(ASR)***并行，结合两个 ***的输出给识别出的词打上标签。自动语音识别***主要是模式匹配法。在训练阶段，用户将词汇表中的每一词依次说一遍，并且将其特征矢量作为模板存入模板库。在识别阶段，将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较，将相似度最高者作为识别结果输出。该过程目前常用连接时序分类(ConnectionistTemporal Classification，CTC)算法实现。

虽然，上述方式在声纹识别中有很多优点，但同样存在诸多局限，下面进行详细说明：

第一，对话需要被分割成片段，而且每个片段只包含一个人的声音。否则，嵌入就无法准确表征说话人。然而，目前相关算法并不完备，会导致分割出的片段包含多个人声。

第二，聚类过程中需要确定说话人的数量，而且这一阶段对输入的准确性非常敏感。另外，聚类过程中需要在用于估计语音特征的片段大小和所需的模型准确度之间进行艰难的权衡。片段越长，语音特征质量越高，因为模型拥有更多与说话人相关的信息。这就造成模型可能将简短的*** 语归入错误的说话人，由此产生非常严重的后果，如在临床、金融语境下，肯定和否定回答都需要被准确追踪。

第三，传统的说话人分类***没有一个简单的机制来利用在许多自然对话中特别突出的语言线索。例如，「你吃这个药多长时间了？」在临床对话场景中最有可能是医护人员说的。类似地，「我们需要什么时候交作业？」很可能是学生而不是老师说的。由此，目前语音识别方式不能准确分析语音内容，以致不能准确识别与该语音相关的语义以及场景。

综上，针对相关技术出现的问题，本发明实施例提供了一种语音识别模型的训练方法、语音识别方法、装置、终端设备及存储介质，以解决相关技术中，声纹识别精度不高的问题。

其中，本发明实施例提出了一种语音识别模型的训练方法和语音识别方法，来研究自动语音识别和说话人区分，两个方法的整体流程如图1所示，主要分为两大部分：语音识别模型的建立与训练过程(图1左边部分) 和基于训练后的模型进行语音识别的过程(图1右边部分)。

进一步地，语音识别模型的建立主要可以包括下述步骤：

(1)收集数据，包括手机、电脑等设备上采集的数据以及从网上公开数据集上下载的数据，其格式有WAVE、MPEG、MP3、WMA等等；

(2)数据清洗，由于从设备上采集的数据存在不清晰、语言不明、失真等情况，由此，需要将该部分数据清除，保留中文或者英文，高清晰度的数据集；

(3)添加标签，在步骤(1)中采集到的数据都是音频格式，没有对应的文字以及说话人标签，由此，需要添加标签，为训练做准备。

(4)训练语音识别模型，即根据目标对象的音频数据(例如步骤(1) 中采集到的音频，在某些场景中，该语音数据可以被步骤(3)中添加标签)，确定语音训练样本，语音训练样本包括语义信息和音频特征信息；

将语义信息和音频特征信息输入到语音识别模型中，对语音识别模型进行迭代训练，直至满足预设训练条件，得到训练后的目标语音识别模型。

第二部分是利用目标语音识别模型的语音识别，该部分可以包括：

(1)采集需要分析的对话，保存为音频文件；

(2)数据清洗，由于采集过程可能有噪音或者其他非语音的声音，由此可以对上述音频文件进行去噪；

(3)将去噪后的音频输入到目标语音识别模型(如图2中的joint ASR+SD)中，得到对应的文字和说话人信息(如图2中的说话人spear1：单词word1；说话人spear2：单词word2 word3；说话人spear1：单词word4 等)。

上述两个部分的方法同时利用了声音和语言两部分的信息，在说话人识别过程中具有语言模型建模能力。当说话人具有明确角色时该模型会具有相当好的效果，比如在医患对话、购物等典型场景。

基于上述应用场景，下面对本发明实施例首先对语音识别模型的训练方法进行详细说明。

图3为本发明实施例提供的一种语音识别模型的训练方法的流程图。

如图3所示，该语音识别模型的训练方法具体可以包括步骤310-步骤 330，具体如下所示：

步骤310：根据目标对象的音频数据，确定语音训练样本，语音训练样本包括语义信息和音频特征信息。

这里，在一种可能的实施例中，在执行步骤310之前，需要将音频数据转换为转录网络模型和/或预测网络模型可以识别的格式，由此，该方法还可以包括：

根据目标对象的音频数据通过梅尔频率倒谱系数(Frequency CepstralCoefficient，MFCC)，确定音频特征向量。

下面对该步骤进行进一步地说明：

(1)获取目标对象的音频数据。

(2)对音频数据的波形图进行分帧处理，得到至少一个帧片段。

举例说明，通常情况下取20-40毫秒(ms)为一帧的宽度，在本发明实施例中可以取25ms为一帧的宽度，对于一个44.1kHz采样的信号，一帧就包含0.040*44100＝1764个采样点，帧移取为20ms，允许每两帧之间有 20ms的重叠部分(overlap)。这样一来，第一帧就是从第1个采样点到第 1764个采样点，第二帧就是从第883个采样点到第2646个采样点，直到最后一个采样点，如果音频长度不能被帧数整除，在最后补0。对于一个15 秒s的音频数据，可以得到44100*15/882＝750帧。

(3)对至少一个帧片段中的每个帧片段进行离散傅里叶变化 (Discrete FourierTransform，DFT)，确定每个帧片段的功率谱。

其中，可以通过如下公式(1)和(2)实现确定每个帧片段的功率谱：

其实DFT变换就是两个“相关(correlation)”操作，一个是与音频数据的频率为k的cos序列相关，一个是与频率为k的sin序列相关，然后两者叠加就是与频率k的正弦波相关的结果，如果得到的值很大，就表明音频数据包含频率为k的能量很大。

(4)将功率谱进行数据转化，得到音频特征向量。

举例说明，计算梅尔间隔滤波器组Mel-spaced filter bank频率和Mel频率之间的转化公式(3)为：

M(f)＝1125ln(1+f/700)

M^-1(m)＝700(exp(m/1125)-1) (3)

其中，梅尔间隔滤波器组是一组非线性分布的滤波器组，它在低频部分分布密集，高频部分分布稀疏，这样的分布是为了更好得满足人耳听觉特性。接着，对上述公式(3)中确定的128维的Mel功率谱取log，得到 128维的滤波器组能量log-mel filer bankenergies(即步骤(3)中的k的能力)。这样做的原因是由于人耳对声音的感知并不是线性的，用log这种非线性关系表示更加准确。

基于上述步骤(1)-(4)，有时为了使得到的音频特征向量更为精确，在一种可能的实例中，在上述步骤(3)之前，还可以包括：

通过汉明窗对每个帧片段进行平滑处理。

这里，加窗的目的是平滑信号，使用汉明窗加以平滑的话，相比于矩形窗函数，会减弱FFT以后旁瓣大小以及频谱泄露。

本发明实施例中，使用汉明窗(hamming window)对信号进行加窗处理公式(4)如下：

由此，就将一段音频数据转化为了一组具有时间序列的音频特征向量。

基于此，这里，在一种可能的实施例中，该语音识别模型可以包括下述中的至少一种子模型：转录网络模型、预测网络模型、联合网络模型。

在语音识别模型包括转录网络模型时，该步骤310具体可以包括：

其中，语音信息用于确定音频数据对应的文本数据。

和/或，在语音识别模型包括预测网络模型时，该步骤310具体可以包括：

在对语音识别模型进行第N次训练之后的情况下，将从N-1次训练输出的相似度预测结果输入到预测网络模型中，得到第N次的音频特征信息；

需要提示的是，上述两种情况可以叠加操作，即在语音识别模型包括转录网络模型和预测网络模型时，均可采用上述步骤确定语义信息。

为了进一步解释该步骤，下面可以对该步骤进行举例说明：

本发明实施例中涉及到的语音识别模型是在递归神经网络传感 (RecurrentNeural Network Transducer，RNN-T)模型的基础上得到的。该语音识别模型该模型的主要特点是实现了声音和语言线索的无缝结合，而且将说话人分类和语音识别集成到同一个***中。相较于同类别单一的识别***，该集成模型不会大幅度降低语音识别的性能，但却能极大的提高说话人区分的效果。

这一集成的语音识别模型可以像语音识别***一样训练。训练参考的数据包括说话人的语音转录以及区分说话人的标签。例如「作业什么时候上交？」<学生>，「我希望你在明天上课前提交，」<老师>。当使用音频和相应的参考转录文本示例训练模型，使用者可以输入更多对话录音并获得类似形式的输出。

步骤320：将语义信息和音频特征信息输入到语音识别模型中，对语音识别模型进行迭代训练，直至满足预设训练条件，得到训练后的目标语音识别模型。

其中，针对每个语音训练样本分别执行以下步骤：将语义信息和音频特征信息输入到语音识别模型中，得到语义信息与音频特征信息的相似度预测结果；根据每个相似度预测结果对语音识别模型进行调整；根据语音训练样本对调整后的语音识别模型进行迭代训练，直至满足预设训练条件，得到训练后的目标语音识别模型。

这里，基于上述步骤310中的可能，在语音识别模型还包括联合网络模型时，该步骤320具体可以包括：

由此，为了进一步解释如何得到语义信息与音频特征信息的相似度预测结果，下面结合步骤310中涉及的两个子模型，对该步骤进行举例说明：

如图4所示，在语音识别模型(例如图2中的Joint ASR+SD模型的具体实现)可以包括转录网络模型(Transcription Network)、预测网络模型 (Prediction Network)和联合网络模型(Joint Network)时，分别对每个子模型分别进行接介绍。

(1)转录网络模型

转录网络模型又称编码器，其接收经过步骤310中处理后的音频特征向量作为输入，经过神经网络训练后，输出中间变量

该变量中包含了音频数据的语义信息，可在后续用来训练语音对应的文字信息，即确定音频数据对应的文本数据。

(2)预测网络模型

预测网络模型主要功能是获取说话人特征，其接受上一次联合网络模型的输出作为输入，经过神经网络层训练后，输出中间变量

该变量中包含了各段语音对应的音频特征信息即说话人信息，可以用来训练语音对应的说话人信息。

这里，需要提示的是，在没有上一次联合网络模型的输出即次第一次训练时，是将预设相似度预测结果输入到预测网络模型中，得到音频特征信息；在对语音识别模型进行第N次训练之后的情况下，将从第N次训练输出的相似度预测结果输入到预测网络模型中，得到第N次的音频特征信息；其中，N为大于1的整数，音频特征信息用于确定目标对象的身份信息。

(3)联合网络模型

联合网络模型接受转录网络模型和预测网络模型的输出结果，合并

和

作为输入，通过神经网络层训练后，得到各个标签对应的相似度预测结果，并将相似度预测结果重新输入到预测网络模型中。这是模型中的一个反馈回路，其中先前识别出的单词作为输入反馈回来，并且RNN-T模型能够整合语言线索，如问题的结尾，这也是能够实现说话人区分的核心原因。为了得到最终对应的文字和说话人，在本发明实施例中，可以直接选取概率最大的标签，或者综合各个时间段，选取全局概率最大的标签组。

进一步地，为了更好的说明本发明实施例中如何训练语音识别模型，举出一个具体的例子，如下所示：

如图4所示，转录网络模型的输入用符号序列X＝[x₁,x₂,...x_T]表示，式中t表示序列中符号的数量，对应于音频切分数，x_t∈d是Mel滤波器得到的特征，d等于80。相对应的预测网络模型可以用符号序列Y＝[y₁,y₂,...y_U] 表示，包括语音识别的结果和说话人的标注，其中y_u∈Ω，Ω是RNN-T网络的全输出空间。而训练的核心函数由公式(5)所示：

基于此，接下来分别对语音识别模型中三个主要的转录网络模型、预测网络模型和联合网络模型做详细介绍。

(1)Transcription Network

将音频特征向量作为输入，维度为80。为了方便训练，将长音频分为最多15秒的音频段，每个音频段可能有多个人在说话。由于较长的单位更适合于语音识别，可以降低输出序列的时间分辨率，从而提高训练和推理的效率。为此，本发明实施例中采用了一个时间延迟神经网络(TDNN) 层的层次结构，将时间分辨率从10ms降低到80ms。该体系结构与用于 CTC字模型的编码器非常相似，这种抽取提高了推理速度并降低了识别错误率。

具体地说，Transcription Network模型由三个由四层组成的相同块组成如图5所示：

(1)一个具有512个滤波器的一维时间卷积层，该卷积层的kernal大小为5，再加一个大小为2的max pooling运算符；(2)三个具有512个单元的双向长短期神经网络(LSTM)层。该Transcription Network模型使用基于随机梯度的ADAM优化器进行训练。

(2)Prediction Network

Prediction Network模型接收前一次的结果y_u-1作为输入，首先经过一个单词嵌入层组成，它能够将4096个单元的语素词汇映射到512维向量空间；再将该空间的输出作为LSTM层的输入，该层具有1024个单元；最后接一个具有512个单元的完全连接层。该过程用公式(6)可以表示为：

单层的LSTM网络可以由图6表示，主要包含以下几个部分：

LSTM之遗忘门

遗忘门(forget gate)是控制是否遗忘的，在LSTM中即以一定的概率控制是否遗忘上一层的隐藏细胞状态。

LSTM之输入门

下一步是决定让多少新的信息加入到细胞cell状态中来。实现这个需要包括两个过程：首先，一个叫做“input gate layer”的sigmoid层决定哪些信息需要更新；一个tanh层生成一个向量，也就是备选的用来更新的内容。

LSTM之细胞状态更新

在研究LSTM输出门之前，我们要先看看LSTM之细胞状态。前面的遗忘门和输入门的结果都会作用于细胞状态C(t)C(t)。我们来看看从细胞状态C(t-1)C(t-1)如何得到C(t)C(t)。

LSTM之输出门

有了新的隐藏细胞状态C(t)C(t)，我们就可以来看输出门了，隐藏状态 h(t)h(t)的更新由两部分组成，第一部分是o(t)o(t)，它由上一序列的隐藏状态h(t-1)h(t-1)和本序列数据x(t)x(t)，以及激活函数sigmoid得到，第二部分由隐藏状态C(t)C(t)和tanh激活函数组成。

(3)Joint Network

如图7所示，Joint Network模型的输入Transcription Network和 PredictionNetwork输出的合并，然后输入到一个全连接神经网络层中，该层具有512个隐藏单元，然后将结果输出到具有4096个单元的softmax层中，得到最后的结果y1、y2和y3。输出层的值即待训练的标签设为文字加说话人的组合，其实现方式可以如下所示：

hello dr jekyll<spk:pt>

hello mr hyde what brings you here today<spk:dr>

I am struggling again with my bipolar disorder<spk:pt>

这里，需要提示的是，在本发明实施例中的预设训练条件可以包括，在迭代次数满足预设阈值(即达到最大限定次数)的情况下，就可以确定为满足预设训练条件，或者，在进行迭代的过程中，确定相似度预设结果与实际值之前的准确率达到预设某一个预设阈值时，即可确定为满足预设训练条件。

由此，本发明实施例中，通过对音频数据进行分析，得到音频数据对应的语义信息和音频特征信息；接着，根据语义信息和音频特征信息对语音识别模型进行训练，这样，即使在对话音频被分成多个片段时，也能根据音频特征信息确定目标对象，且根据语义信息识别到目标对象的身份特征，以便对目标对象在对话音频中被准确追踪，从而提高在音频中识别目标对象的精度，并在识别出目标对象的情况下，确定目标对象的身份信息，从而得到对话音频的应用场景。

综上，本发明实施例通过结合语言信息来研究说话人区分过程，充分利用了已知信息，提高了识别精度。另外，由于上述方法不需要强制对齐，可以使用文本序列本身来进行学习训练。基于RNN-T模型，加速解码，大量空白的存在，使得模型在解码过程中可以使用跳帧操作，因此大大加速了解码过程。由于上述方法具有单调性，能够进行实时在线解码，增加应用场景的范围。

另外，本发明实施例还提供了，基于上述训练后的语音识别模型的语音识别方法。

图8为本发明实施例提供的一种语音识别方法的流程图。

如图8所示，该方法具体可以包括：

步骤810，获取目标音频数据。

这里，在一种可能的实施例中，对接收的音频数据进行预处理，得到目标音频数据；

其中，预处理包括数据清洗和/或降噪。

步骤820，将目标音频数据输入到上述步骤320中确定的目标语音识别模型中，得到对话信息；其中，

基于上述两个过程的方法，本发明实施例还提供可以两种装置，即语音识别模型的训练装置和语音识别装置，具体如下所示。

图9为本发明实施例提供的一种语音识别模型的训练装置结构示意图。

如图9所示，该语音识别模型的训练装置90具体可以包括：

处理模块901，用于根据目标对象的音频数据，确定语音训练样本，语音训练样本包括语义信息和音频特征信息；

生成模块902，将语义信息和音频特征信息输入到语音识别模型中，对所述语音识别模型进行迭代训练，直至满足预设训练条件，得到训练后的目标语音识别模型。

其中，生成模块902具体可以用于，针对每个语音训练样本分别执行以下步骤：将语义信息和音频特征信息输入到语音识别模型中，得到语义信息与音频特征信息的相似度预测结果；根据每个相似度预测结果对语音识别模型进行调整；根据语音训练样本对调整后的语音识别模型进行迭代训练，直至满足预设训练条件，得到训练后的目标语音识别模型。

在一种可能的实施例中，语音识别模型包括转录网络模型。基于此，本发明实施例中的处理模块901具体可以包括：

其中，语音信息用于确定音频数据对应的文本数据。

在另一种可能的实施例中，语音识别模型包括预测网络模型；基于此，本发明实施例中的生成模块902在对语音识别模型进行第一次训练的情况下，将预设相似度预测结果输入到预测网络模型中，得到音频特征信息；

在对语音识别模型进行第N次训练之后的情况下，将从第N-1次训练输出的相似度预测结果输入到预测网络模型中，得到第N次的音频特征信息；

在又一种可能的实施例中，语音识别模型还包括联合网络模型；本发明实施例中的生成模块902具体可以用于，将语义信息和音频特征信息输入到联合网络模型中，得到包括音频数据的文本信息和目标对象的身份信息的隐藏数据；

另外，语音识别模型的训练装置90还可以包括确定模块904，用于根据目标对象的音频数据通过梅尔频率倒谱系数MFCC，确定音频特征向量。

在一种可能的实施例中，确定模块904具体可以用于，获取目标对象的音频数据；对音频数据的波形图进行分帧处理，得到至少一个帧片段；对至少一个帧片段中的每个帧片段进行离散傅里叶变化DFT，确定每个帧片段的功率谱；将功率谱进行数据转化，得到音频特征向量。

基于此，语音识别模型的训练装置90还可以包括变换模块905，用于通过汉明窗对每个帧片段进行平滑处理。

另外，图10为本发明实施例提供的一种利用目标语音识别模型的语音识别装置结构示意图。

如图10所示，该语音识别装置100具体可以包括：

获取模块1001，用于获取目标音频数据；

处理模块1002，用于将目标音频数据输入到目标语音识别模型中，得到对话信息；其中，

其中，该获取模块1001具体可以用于，对接收的音频数据进行预处理，得到目标音频数据；其中，预处理包括数据清洗和/或降噪。

该终端设备1100包括但不限于：射频单元1101、网络模块1102、音频输出单元1103、输入单元1104、传感器1105、显示单元1106、用户输入单元1107、接口单元1108、存储器1109、处理器1110、以及电源1111 等部件。本领域技术人员可以理解，图11中示出的终端设备结构并不构成对终端设备的限定，终端设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。在本发明实施例中，终端设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。

应理解的是，本发明实施例中，射频单元1101可用于收发信息或通话过程中，信号的接收和发送，具体的，将来自基站的下行资源接收后，给处理器1110处理；另外，将上行的资源发送给基站。通常，射频单元1101 包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外，射频单元1101还可以通过无线通信***与网络和其他设备通信。

终端设备通过网络模块1102为用户提供了无线的宽带互联网访问，如帮助用户收发电子邮件、浏览网页和访问流式媒体等。

音频输出单元1103可以将射频单元1101或网络模块1102接收的或者在存储器1109中存储的音频资源转换成音频信号并且输出为声音。而且，音频输出单元1103还可以提供与终端设备1100执行的特定功能相关的音频输出(例如，呼叫信号接收声音、消息接收声音等等)。音频输出单元 1103包括扬声器、蜂鸣器以及受话器等。

输入单元1104用于接收音频或视频信号。输入单元1104可以包括图形处理器(Graphics Processing Unit，GPU)11041和麦克风11042，图形处理器11041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像资源进行处理。处理后的图像帧可以显示在显示单元1107上。经图形处理器11041处理后的图像帧可以存储在存储器1109(或其它存储介质)中或者经由射频单元1101或网络模块 1102进行发送。麦克风11042可以接收声音，并且能够将这样的声音处理为音频资源。处理后的音频资源可以在电话通话模式的情况下转换为可经由射频单元1101发送到移动通信基站的格式输出。

终端设备1100还包括至少一种传感器1105，比如光传感器、运动传感器以及其他传感器。具体地，光传感器包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板11061的亮度，接近传感器可在终端设备1100移动到耳边时，关闭显示面板11061和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；传感器1105还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等，在此不再赘述。

显示单元1106用于显示由用户输入的信息或提供给用户的信息。显示单元1106可包括显示面板11061，可以采用液晶显示器(Liquid Crystal Display，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED) 等形式来配置显示面板11061。

用户输入单元1107可用于接收输入的数字或字符信息，以及产生与终端设备的用户设置以及功能控制有关的键信号输入。具体地，用户输入单元1107包括触控面板11071以及其他输入设备11072。触控面板11071，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板11071上或在触控面板11071附近的操作)。触控面板11071可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1110，接收处理器1110发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板11071。除了触控面板11071，用户输入单元1107 还可以包括其他输入设备11072。具体地，其他输入设备11072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

进一步的，触控面板11071可覆盖在显示面板11061上，当触控面板 11071检测到在其上或附近的触摸操作后，传送给处理器1110以确定触摸事件的类型，随后处理器1110根据触摸事件的类型在显示面板11061上提供相应的视觉输出。虽然在图11中，触控面板11071与显示面板11061是作为两个独立的部件来实现终端设备的输入和输出功能，但是在某些实施例中，可以将触控面板11071与显示面板11061集成而实现终端设备的输入和输出功能，具体此处不做限定。

接口单元1108为外部装置与终端设备1100连接的接口。例如，外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线资源端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元1108可以用于接收来自外部装置的输入(例如，资源信息、电力等等)并且将接收到的输入传输到终端设备1100内的一个或多个元件或者可以用于在终端设备1100和外部装置之间传输资源。

存储器1109可用于存储软件程序以及各种资源。存储器1109可主要包括存储程序区和存储资源区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储资源区可存储根据手机的使用所创建的资源(比如音频资源、电话本等) 等。此外，存储器1109可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器1110是终端设备的控制中心，利用各种接口和线路连接整个终端设备的各个部分，通过运行或执行存储在存储器1109内的软件程序和/ 或模块，以及调用存储在存储器1109内的资源，执行终端设备的各种功能和处理资源，从而对终端设备进行整体监控。处理器1110可包括一个或多个处理单元；优选的，处理器1110可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1110中。

终端设备1100还可以包括给各个部件供电的电源1111(比如电池)，优选的，电源1111可以通过电源管理***与处理器1110逻辑连接，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

另外，终端设备1100包括一些未示出的功能模块，在此不再赘述。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，当计算机程序在计算机中执行时，令计算机执行本发明实施例的语音识别模型的训练方法或者语音识别方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种语音识别模型的训练方法，其特征在于，所述方法包括：

根据目标对象的音频数据，确定语音训练样本，所述语音训练样本包括语义信息和音频特征信息；

将所述语义信息和所述音频特征信息输入到语音识别模型中，对所述语音识别模型进行迭代训练，直至满足预设训练条件，得到训练后的目标语音识别模型。

2.根据权利要求1所述的方法，其特征在于，所述将所述语义信息和所述音频特征信息输入到语音识别模型中，对所述语音识别模型进行迭代训练，直至满足预设训练条件，得到训练后的目标语音识别模型，包括：

针对每个语音训练样本分别执行以下步骤：将所述语义信息和所述音频特征信息输入到语音识别模型中，得到所述语义信息与所述音频特征信息的相似度预测结果；

根据每个所述相似度预测结果对所述语音识别模型进行调整；

根据所述语音训练样本对调整后的语音识别模型进行迭代训练，直至满足预设训练条件，得到训练后的目标语音识别模型。

3.根据权利要求2所述的方法，其特征在于，所述语音识别模型包括转录网络模型；所述根据目标对象的音频数据，确定语音训练样本，包括：

将所述音频数据的音频特征向量输入到所述转录网络模型中，得到所述语义信息；

其中，所述语音信息用于确定所述音频数据对应的文本数据。

4.根据权利要求2所述的方法，其特征在于，所述语音识别模型包括预测网络模型；所述根据目标对象的音频数据，确定语音训练样本，包括：

在对所述语音识别模型进行第一次训练的情况下，将预设相似度预测结果输入到所述预测网络模型中，得到所述音频特征信息；

在对所述语音识别模型进行第N次训练之后的情况下，将从第N-1次训练输出的相似度预测结果输入到所述预测网络模型中，得到第N次的音频特征信息；

其中，N为大于1的整数，所述音频特征信息用于确定所述目标对象的身份信息。

5.根据权利要求4所述的方法，其特征在于，所述语音识别模型还包括联合网络模型；

将所述语义信息和所述音频特征信息输入到语音识别模型中，得到所述语义信息与所述音频特征信息的相似度预测结果，包括：

将所述语义信息和所述音频特征信息输入到所述联合网络模型中，得到包括所述音频数据的文本信息和所述目标对象的身份信息的隐藏数据；

将所述隐藏数据输入到分类模型中，得到所述文本信息与所述身份信息的相似度预测结果。

6.根据权利要求3所述的方法，其特征在于，所述方法还包括：

根据所述目标对象的音频数据通过梅尔频率倒谱系数MFCC，确定所述音频特征向量。

7.根据权利要求6所述的方法，其特征在于，所述根据所述目标对象的音频数据通过梅尔频率倒谱系数MFCC，确定所述音频特征向量，包括：

获取所述目标对象的音频数据；

对所述音频数据的波形图进行分帧处理，得到至少一个帧片段；

对所述至少一个帧片段中的每个帧片段进行离散傅里叶变化DFT，确定所述每个帧片段的功率谱；

将所述功率谱进行数据转化，得到所述音频特征向量。

8.一种利用目标语音识别模型的语音识别方法，所述目标语音识别模型通过权利要求1-6任一项所述的方法而训练，其特征在于，所述方法包括：

获取目标音频数据；

将所述目标音频数据输入到所述目标语音识别模型中，得到对话信息；其中，

所述对话信息包括：与所述目标音频数据对应的文本数据，所述文本数据携带有目标对象的身份标识。

9.根据权利要求8所述的方法，其特征在于，所述获取目标音频数据，包括：

对接收的音频数据进行预处理，得到所述目标音频数据；

其中，所述预处理包括数据清洗和/或降噪。

10.一种语音识别模型的训练装置，其特征在于，所述装置包括：

处理模块，用于根据目标对象的音频数据，确定语音训练样本，所述语音训练样本包括语义信息和音频特征信息；

生成模块，将所述语义信息和所述音频特征信息输入到语音识别模型中，对所述语音识别模型进行迭代训练，直至满足预设训练条件，得到训练后的目标语音识别模型。

11.一种利用目标语音识别模型的语音识别装置，所述目标语音识别模型通过权利要求1所述的方法而训练，其特征在于，所述装置包括：

获取模块，用于获取目标音频数据；

处理模块，用于将所述目标音频数据输入到所述目标语音识别模型中，得到对话信息；其中，

12.一种终端设备，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-7任一项所述的语音识别模型的训练方法，或者，如权利要求8-9任一项所述的利用目标语音识别模型的语音识别方法。

13.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，若计算机程序在计算机中执行，则令计算机执行如权利要求1-7任一项所述的语音识别模型的训练方法，或者，如权利要求8-9任一项所述的利用语音识别模型的语音识别方法。