CN112908295B

CN112908295B - 一种地域性的离线口音语音识别***的生成方法和装置

Info

Publication number: CN112908295B
Application number: CN202110142560.0A
Authority: CN
Inventors: 兰泽华; 林昱; 陈少伟
Original assignee: Ringslink Xiamen Network Communication Technologies Co ltd
Current assignee: Ringslink Xiamen Network Communication Technologies Co ltd
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2023-05-16
Anticipated expiration: 2041-02-02
Also published as: CN112908295A

Abstract

一种地域性的离线口音语音识别***的生成方法，所述方法包括：导入不同地域的语音音频数据；将所述语音音频数据转化为语音识别的语音特征；通过所述语音特征训练包含具有不同地域发音特征的Xvector模型后，提取所述Xvector模型中不同地域的多维度的Xvector特征；利用前置神经网络进一步提取所述语音特征中的第一Xvector特征，并通过所述Xvector模型中Xvector特征所对应的真实标签用于指导所述第一Xvector特征进行第一模型的训练；基于所述第一Xvector特征提取第一语音识别特征进行第二模型的训练后，利用所述第一模型与所述第二模型进行反向更新所述前置神经网络的权重值，得到口音语音识别模型。本方案能够提升离线语音识别***在同种语音下不同口音的识别性能。

Description

一种地域性的离线口音语音识别***的生成方法和装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种地域性的离线口音语音识别***的生成方法和装置以及设备。

背景技术

随着深度学习的兴起，语音识别性能也在大幅度的提升，语音识别在智能家居的控制***中占有重要的比重。然后，在实际的交互当中，不同地域的口音相差较大，这也给语音识别带来了非常大的难点，就目前而言，口音仍然是语音识别技术的一个研究热点和难点。语音识别在不同的领域都有着较大的需求，在很多场景下，包括在一些低成本、无网络等环境下，要求在有限计算资源的嵌入式端上实时运行语音识别***，对于这种离线语音识别，口音的引入无疑是对语音识别模型更大的考验。

现有中为了支持不同口音的语音识别，往往会针对不同的口音训练多个不同的模型或者一个大的语音识别模型，如果需要使用一个单一的模型来支持不同口音，则该模型的体积必然会比常规模型体积更大，不管是混合多个模型还是单一模型，在嵌入式端是无法部署的。于此同时，为了支持不同口音，需要采集更多的语料，该语音也是随口音成倍增长。

发明内容

有鉴于此，本发明的目的在于提出一种地域性的离线口音语音识别***的生成方法和装置以及设备，能够实现在嵌入式平台下部署离线语音识别模型，从而提升离线语音识别***在同种语音下不同口音的识别性能。

为实现上述目的，本发明提供一种地域性的离线口音语音识别***的生成方法，所述方法包括：

导入不同地域的语音音频数据；

将所述语音音频数据转化为语音识别的语音特征；

通过所述语音特征训练包含具有不同地域发音特征的Xvector模型后，提取所述Xvector模型中不同地域的多维度的Xvector特征；

利用前置神经网络进一步提取所述语音特征中的第一Xvector特征，并通过所述Xvector模型中Xvector特征所对应的真实标签用于指导所述第一Xvector特征进行第一模型的训练，其中，所述前置神经网络为tdnn网络组成；

基于所述第一Xvector特征提取第一语音识别特征进行第二模型的训练后，利用所述第一模型与所述第二模型进行反向更新所述前置神经网络的权重值，得到口音语音识别模型，其中，所述第一语音识别特征通过对所述第一Xvector特征进行聚合后所输出的有效语音识别特征。

优选的，所述语音特征为语谱图特征或MFCC特征。

优先的，所述提取所述语音特征中的第一Xvector特征，进一步包括：

通过xvector生成器提取所述语音特征中的第一Xvector特征。

优选的，所述Xvector特征为512维度Xvector特征；所述第一Xvector特征为512维度Xvector特征。

优选的，所述第一语音识别特征为音素标签或单词标签。

为实现上述目的，本发明还提供一种地域性的离线口音语音识别***的生成装置，所述装置包括：

导入单元，用于导入不同地域的语音音频数据；

转化单元，用于将所述语音音频数据转化为语音识别的语音特征；

提取单元，用于通过所述语音特征训练包含具有不同地域发音特征的Xvector模型后，提取所述Xvector模型中不同地域的多维度的Xvector特征；

训练单元，用于利用前置神经网络进一步提取所述语音特征中的第一Xvector特征，并通过所述Xvector模型中Xvector特征所对应的真实标签用于指导所述第一Xvector特征进行第一模型的训练，其中，所述前置神经网络为tdnn网络组成；

更新单元，用于基于所述第一Xvector特征提取第一语音识别特征进行第二模型的训练后，利用所述第一模型与所述第二模型进行反向更新所述前置神经网络的权重值，得到口音语音识别模型，其中，所述第一语音识别特征通过对所述第一Xvector特征进行聚合后所输出的有效语音识别特征。

优选的，所述语音特征为语谱图特征或MFCC特征。

优选的，所述提取所述语音特征中的第一Xvector特征，进一步包括：

通过xvector生成器提取所述语音特征中的第一Xvector特征。

优选的，所述Xvector特征为512维度Xvector特征；所述第一Xvector特征为512维度Xvector特征；所述第一语音识别特征为音素标签或单词标签。

为实现上述目的，本发明还提供一种地域性的离线口音语音识别***的生成设备，包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序能够被所述处理器执行以实现如上述实施例所述的一种地域性的离线口音语音识别***的生成方法。

有益效果：

以上方案，通过语音特征训练得到的xvector模型，该模型提取了不同地域的口音下的xvector特征，由该特征来指导语音识别模型训练，从而得到的语音识别模型体积小、且易于在嵌入式端上部署，通过上述方式能够有指向性的学习到需要的特征，模型泛化能力更强。

为了解决不同口音下的语音识别模型，通常需要采集更多的语料(所谓语料就是语音音频)，而本发明的xvector模型基于为一种文本无关的模型，很容易收集到不同地域下的不同文本音频，但对于嵌入式端的离线语音识别，仅需要支持少量的词汇，因此，在语音识别端的语料上需要的语料更小。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种地域性的离线口音语音识别***的生成方法的流程示意图。

图2为本发明一实施例提供的基于训练服务器上的模型训练架构示意图。

图3为本发明一实施例提供的一种地域性的离线口音语音识别***的生成装置的结构示意图。

发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

在本发明的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以下结合实施例详细阐述本发明的内容。

本发明提供一种地域性的离线口音语音识别***的生成方法能够实现在嵌入式平台下部署离线语音识别模型，从而提升离线语音识别***在同种语音下不同口音的识别性能。

参照图1所示为本发明一实施例提供的一种地域性的离线口音语音识别***的生成方法的流程示意图。

本实施例中，该方法包括：

S11，导入不同地域的语音音频数据。

S12，将所述语音音频数据转化为语音识别的语音特征。

进一步的，所述语音特征为语谱图特征或MFCC特征。

S13，通过所述语音特征训练包含具有不同地域发音特征的Xvector模型后，提取所述Xvector模型中不同地域的多维度的Xvector特征。

特别地，该Xvector模型还根据不同国家的语种特征进行训练得到的，通过对不同国家的语种特征进行训练用以识别不同国家的语言。

在本实施例中，由于xvector声纹识别模型是一个声纹识别上应用比较多的模型，通过该xvector模型能够提取到不同的声纹特征，通过不同的声纹特征，使用余弦距离或者PLDA能够计算两段音频的相似性，以此来做声纹匹配。因此，本方案通过根据不同地区的口音特征进行训练得到的Xvector模型，该模型用于区分不同地域的口音，而提取出来的xvector特征就是不同地域的声纹特征。也就是提取不同国家/地区的声纹特征，由于不同地域的发音特征分布不同，通过提取发音特征从而得到这种分布。用于在后面的语音识别模型中，用获得的发音特征来指导小模型的训练。

S14，利用前置神经网络进一步提取所述语音特征中的第一Xvector特征，并通过所述Xvector模型中Xvector特征所对应的真实标签用于指导所述第一Xvector特征进行第一模型的训练，其中，所述前置神经网络为tdnn网络组成。

进一步的，所述提取所述语音特征中的第一Xvector特征，进一步包括：

通过xvector生成器提取所述语音特征中的第一Xvector特征。

进一步的，所述Xvector特征为512维度Xvector特征；所述第一Xvector特征为512维度Xvector特征。

S15，基于所述第一Xvector特征提取第一语音识别特征进行第二模型的训练后，利用所述第一模型与所述第二模型进行反向更新所述前置神经网络的权重值，得到口音语音识别模型，其中，所述第一语音识别特征通过对所述第一Xvector特征进行聚合后所输出的有效语音识别特征。

进一步的，所述第一语音识别特征为音素标签或单词标签。

在本实施例中，通过所述口音语音识别模型对待识别的语音音频进行实时的离线语音识别，以获得语音信息。通过在嵌入式端平台上实时运行该口音语音识别模型，从而提升离线语音识别***在同种语音下不同口音的识别性能。

参照图2所示为本发明一实施例提供的基于训练服务器上的模型训练架构示意图。

在本实施例中，通过在训练服务器上进行模型训练好后，可在移动端上进行部署，以实现实时的离线语音识别。其中，Xvector模型特征提取部件M2和特征生成部件M4只提供发音特征作为小模型的label标签，指导训练使用，在实际的部署阶段是不需要使用的。

如图2所示，包括：音频数据处理部件M1、Xvector模型特征提取部件M2、语音识别前置神经网络部件M3、特征生成部件M4、第一神经网络更新部件M5、语音识别后置神经网络部件M6和第二神经网络更新部件M7。其中，

音频数据处理部件M1：用于将获取的音频数据转化为语音识别需要的特征(包括MFCC，Fbank等)并输出至M2、M3，在本实施例中，使用的是Fbank语谱图特征。

Xvector模型特征提取部件M2：该部件为一个基于口音识别特征进行训练的xvector模型，通过该部件M2提取xvector特征，输入为M1的语谱图特征，向M5输出512维度Xvector特征。

语音识别前置神经网络部件M3：该部件M3为一个tdnn骨干网络，由tdnn(时延神经网络)组成，输入为M1的语谱图特征，向M4、M6输出神经网络前向所提取的特征。

特征生成部件M4：该部件M4本质上是一个浅层的tdnn网络，通过在M3的基础上进一步提取特征，输出为512维度Xvector特征，该特征生成部件M4相当于是一个xvector生成器，向M5输出512维度特征。

第一神经网络更新部件M5：该部件M5为一个神经网络更新部件，是Xvector分支更新部件，输入为M2的512维度特征(真实标签)和M4的512维度特征(预测标签)进行训练后，根据真实值与预测值去反向更新M3、M4的神经网络参数权值。

语音识别后置神经网络部件M6：该部件M6也是一个浅层的tdnn网络，输入为M3提取的特征，通过部件M6进一步提取的语音识别特征(也就是在M3所提取的特征的基础上进一步对特征聚合，提取实际有效的特征)，向M7输出，该输出可为音素发射概率，也可以是具体的单词标签。

第二神经网络更新部件M7：该部件M7为神经网络的更新部件，输入为M6提取的特征，反向去更新M3、M6的神经网络参数权值。

在本实施例中，通过M3-M4-M5分支进行发音特征的训练，其中该发音特征的标注信息来自于Xvector模型特征提取部件M2所提取的xvector特征，进一步的训练结果就是使得语音识别前置神经网络部件M3能够学习到不同地区的发音特征。因此，通过M3-M4-M5分支进行发音特征的训练后，语音识别前置神经网络部件M3具备提取不同地区发音特征的能力，再进一步参与到M3-M6–M7语音识别分支的训练中，从而有指向性的提取所需的特征进行训练后，以得到口音语音识别模型对待识别的语音音频进行实时的离线语音识别。

本发明还提供一种地域性的离线口音语音识别***的生成装置能够实现在嵌入式平台下部署离线语音识别模型，从而提升离线语音识别***在同种语音下不同口音的识别性能。

参照图3所示为本发明一实施例提供的一种地域性的离线口音语音识别***的生成装置的结构示意图。

本实施例中，该装置30包括：

导入单元31，用于导入不同地域的语音音频数据；

转化单元32，用于将所述语音音频数据转化为语音识别的语音特征；

提取单元33，用于通过所述语音特征训练包含具有不同地域发音特征的Xvector模型后，提取所述Xvector模型中不同地域的多维度的Xvector特征；

训练单元34，用于利用前置神经网络进一步提取所述语音特征中的第一Xvector特征，并通过所述Xvector模型中Xvector特征所对应的真实标签用于指导所述第一Xvector特征进行第一模型的训练，其中，所述前置神经网络为tdnn网络组成；

更新单元35，用于基于所述第一Xvector特征提取第一语音识别特征进行第二模型的训练后，利用所述第一模型与所述第二模型进行反向更新所述前置神经网络的权重值，得到口音语音识别模型，其中，所述第一语音识别特征通过对所述第一Xvector特征进行聚合后所输出的有效语音识别特征。

进一步的，所述语音特征为语谱图特征或MFCC特征。

通过xvector生成器提取所述语音特征中的第一Xvector特征。

进一步的，所述Xvector特征为512维度Xvector特征；所述第一Xvector特征为512维度Xvector特征；所述第一语音识别特征为音素标签或单词标签。

该装置30的各个单元模块可分别执行上述方法实施例中对应步骤，故在此不对各单元模块进行赘述，详细请参见以上对应步骤的说明。

本发明实施例还提供一种地域性的离线口音语音识别***的生成设备，包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序能够被所述处理器执行以实现如上述实施例所述的地域性的离线口音语音识别***的生成方法。

所述地域性的离线口音语音识别***的生成设备可包括但不仅限于处理器、存储器。本领域技术人员可以理解，所述示意图仅仅是地域性的离线口音语音识别***的生成设备的示例，并不构成对地域性的离线口音语音识别***的生成设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述地域性的离线口音语音识别***的生成设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述地域性的离线口音语音识别***的生成设备的控制中心，利用各种接口和线路连接整个地域性的离线口音语音识别***的生成设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述地域性的离线口音语音识别***的生成设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述地域性的离线口音语音识别***的生成设备集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述实施例中的实施方案可以进一步组合或者替换，且实施例仅仅是对本发明的优选实施例进行描述，并非对本发明的构思和范围进行限定，在不脱离本发明设计思想的前提下，本领域中专业技术人员对本发明的技术方案作出的各种变化和改进，均属于本发明的保护范围。

Claims

1.一种地域性的离线口音语音识别***的生成方法，其特征在于，所述方法包括：

导入不同地域的语音音频数据；

将所述语音音频数据转化为语音识别的语音特征；

2.根据权利要求1所述的一种地域性的离线口音语音识别***的生成方法，其特征在于，所述语音特征为语谱图特征或MFCC特征。

3.根据权利要求1所述的一种地域性的离线口音语音识别***的生成方法，其特征在于，所述提取所述语音特征中的第一Xvector特征，进一步包括：

通过xvector生成器提取所述语音特征中的第一Xvector特征。

4.根据权利要求1所述的一种地域性的离线口音语音识别***的生成方法，其特征在于，所述Xvector特征为512维度Xvector特征；所述第一Xvector特征为512维度Xvector特征。

5.根据权利要求1所述的一种地域性的离线口音语音识别***的生成方法，其特征在于，所述第一语音识别特征为音素标签或单词标签。

6.一种地域性的离线口音语音识别***的生成装置，其特征在于，所述装置包括：

导入单元，用于导入不同地域的语音音频数据；

7.根据权利要求6所述的一种地域性的离线口音语音识别***的生成装置，其特征在于，所述语音特征为语谱图特征或MFCC特征。

8.根据权利要求6所述的一种地域性的离线口音语音识别***的生成装置，其特征在于，所述提取所述语音特征中的第一Xvector特征，进一步包括：

通过xvector生成器提取所述语音特征中的第一Xvector特征。

9.根据权利要求6所述的一种地域性的离线口音语音识别***的生成装置，其特征在于，所述Xvector特征为512维度Xvector特征；所述第一Xvector特征为512维度Xvector特征；所述第一语音识别特征为音素标签或单词标签。

10.一种地域性的离线口音语音识别***的生成设备，其特征在于，包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序能够被所述处理器执行以实现如权利要求1至5任意一项所述的一种地域性的离线口音语音识别***的生成方法。