CN111091809A

CN111091809A - 一种深度特征融合的地域性口音识别方法及装置

Info

Publication number: CN111091809A
Application number: CN201911051663.5A
Authority: CN
Inventors: 计哲; 黄远; 高圣翔; 孙晓晨; 戚梦苑; 宁珊; 徐艳云
Original assignee: Institute of Information Engineering of CAS; National Computer Network and Information Security Management Center
Current assignee: Institute of Information Engineering of CAS; National Computer Network and Information Security Management Center
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2020-05-01
Anticipated expiration: 2039-10-31
Also published as: CN111091809B

Abstract

本发明提供一种深度特征融合的地域性口音识别方法和装置，方法包括：提取待识别语音的瓶颈BN特征和滑动差分倒谱SDC特征；将瓶颈BN特征和滑动差分倒谱SDC特征输入预先训练后的支持向量机SVM分类器中，得到输出的待识别语音的语音类别。本发明采用多特征融合的语种识别***，提取语音的深度特征，融合传统的SDC特征，输入SVM分类器，实现更鲁棒的语种识别功能，取得了对地域性方言普通话较好的分类效果。

Description

一种深度特征融合的地域性口音识别方法及装置

技术领域

本发明属于语音识别技术领域，尤其涉及一种深度特征融合的地域性口音识别方法及装置。

背景技术

目前，中文的连续语音识别、语音关键词检索、语音转文本等语音识别引擎经多年的训练，已经可以针对电话信道中的标准普通话达到了良好的识别效果。

但是在实际工作中，大量电话语音具有明显的地域性特征，如广东、福建一带，现有的基于标准普通话训练的语音识别引擎在处理话音时，识别效果相对较差，识别正确率较低，严重影响识别效果以及对其转写内容的意图判别，因此需要一种针对地域性口音分类的语种识别技术，对语音进行预先分类和筛选，以提高后续语音识别等任务的效率和准确率。

发明内容

为克服上述现有问题或者至少部分地解决上述问题，本发明实施例提供一种深度特征融合的地域性口音识别方法及装置。

根据本发明实施例的第一方面，提供一种深度特征融合的地域性口音识别方法，包括：

提取待识别语音的瓶颈BN特征和滑动差分倒谱SDC特征；

将所述瓶颈BN特征和滑动差分倒谱SDC特征输入预置的支持向量机SVM分类器中，得到输出的所述待识别语音的语音类别；

所述预置的支持向量机SVM分类器为，以标注有高斯超向量GSV的每一类别的地域性口音普通话数据的训练样本训练得到。

在上述技术方案的基础上，本发明还可以作出如下改进。

进一步的，所述提取待识别语音的瓶颈BN特征包括：

将所述待识别语音输入预置的深度信念网络DBN，得到输出的所述待识别语音的瓶颈BN特征；

所述预置的深度信念网络DBN为，以包含有每一类别的地域性口音普通话数据以及提取的瓶颈BN特征的训练样本训练得到。

进一步的，通过如下方式对所述深度信念网络DBN进行训练得到所述预置的深度训练网络DBN：

利用语音训练集，基于限制玻尔兹曼机RBM堆叠方法对所述深度信念网络DBN进行学习训练，其中，所述语音训练集中包括每一类别的地域性口音普通话数据以及提取的瓶颈BN特征；

在基于限制玻尔兹曼机RBM堆叠方法对所述深度信念网络DBN训练完成后，将所述深度信念网络DBN中节点数小于阈值的瓶颈层之后的网络参数移除，得到所述预置的深度信念网络DBN。

进一步的，所述提取待识别语音的滑动差分倒谱SDC特征包括：

提取所述待识别语音的梅尔倒谱系数MFCC特征向量；

根据所述待识别语音的MFCC特征向量，得到所述待识别语音的滑动差分倒谱SDC特征。

进一步的，所述根据所述待识别语音的MFCC特征，得到所述待识别语音的滑动差分倒谱SDC特征包括：

将所述待识别语音的MFCC特征向量与对应的差分向量拼接组成所述SDC特征的每个特征向量，其中，所述差分向量的数量与所述MFCC特征向量的维数相同；

其中，每一个差分向量由第一向量与第二向量相减得到，其中，所述第一向量为所述MFCC特征向量向前滑动第一设定数量帧后再向前偏移第二设定数量帧得到，所述第二向量为所述MFCC特征向量向前滑动第一设定数量帧后再向后偏移第二设定数量帧得到。

进一步的，通过如下方式标注每一类别的地域性口音普通话数据的高斯超向量GSV：

将每一类别的地域性口音普通话数据的BN特征和SDC特征输入预置的高斯混合模型-通用背景模型GMM-UBM中，并通过最大后验概率MAP自适应方法得到每一类别的地域性口音普通话数据的高斯超向量GSV；

基于得到的高斯超向量GSV对相应的每一类别的地域性口音普通话数据进行标注；

其中，所述预置的高斯混合模型-通用背景模型GMM-UBM为，基于不同类别的地域性口音普通话数据，通过期望最大化EM算法训练得到。

根据本发明实施例第二方面提供一种深度特征融合的地域性口音识别装置，包括：

提取模块，用于提取待识别语音的瓶颈BN特征和滑动差分倒谱SDC特征；

输出模块，用于将所述瓶颈BN特征和滑动差分倒谱SDC特征输入预置的支持向量机SVM分类器中，得到输出的所述待识别语音的语音类别；

其中，所述预置的支持向量机SVM分类器为，以标注有高斯超向量GSV的每一类别的地域性口音普通话数据的训练样本训练得到。

根据本发明实施例的第三个方面，还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器调用所述程序指令能够执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的深度特征融合的地域性口音识别方法。

根据本发明实施例的第四个方面，还提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的深度特征融合的地域性口音识别方法。

本发明实施例提供一种深度特征融合的地域性口音识别方法及装置，该方法采用多特征融合的语种识别***，提取语音的深度特征，融合传统的SDC特征，输入SVM分类器，实现更鲁棒的语种识别功能，取得了对地域性方言普通话较好的分类效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的深度特征融合的地域性口音识别方法流程示意图；

图2为本发明实施例中MFCC特征提取流程图；

图3为本发明实施例中SDC特征提取流程图；

图4为本发明实施例的GMM-UBM模型的训练方法流程图；

图5为本发明实施例的每一类别的地域性口音普通话数据的GSV的提取方法流程图；

图6为本发明实施例的深度特征融合的地域性口音识别方法的整体流程示意图；

图7为本发明实施例的深度特征融合的地域性口音识别装置结构示意图；

图8为本发明实施例提供的电子设备整体结构示意图。

具体实施方式

在本发明的一个实施例中提供一种深度特征融合的地域性口音识别方法，图1为本发明实施例提供的深度特征融合的地域性口音识别方法整体流程示意图，该方法包括：

提取待识别语音的瓶颈BN特征和滑动差分倒谱SDC特征；

可以理解的是，本发明实施例中的待识别语音为某一地域性口音普通话，为了对其类别更为准确进行识别，本发明实施例提取待识别语音的瓶颈BN特征和滑动差分倒谱SDC特征，并将这两个深度特征进行融合输入训练后的支持向量机SVM分类器中，通过SVM分类器对待识别语音的语音类别进行识别。

本发明实施例采用多特征(BN特征和SDC特征)融合的语种识别***，提取语音的深度特征，融合传统的SDC特征，输入SVM分类器，实现更鲁棒的语种识别功能，取得了对地域性方言普通话较好的分类效果。

在上述实施例的基础上，本发明实施例中，提取待识别语音的瓶颈BN特征包括：

在上述各实施例的基础上，本发明实施例中，通过如下方式对所述深度信念网络DBN进行训练得到所述预置的深度训练网络DBN：

可以理解的是，本发明实施例中，基于训练后的深度信念网络DBN，提取待识别语音的瓶颈BN特征。在对深度信念网络DBN进行训练的过程中，首先构建语音训练集，即收集所需的各种地域性口音普通话数据，构建各个语种模型的训练集。由于数据源来自国际口电信网，其中包含的符合要求的地域口音普通话数据比例非常小，人工挑选的冗余工作量太大，可行性不高，因此采用多种计算机智能辅助的措施配合人工标注(对地域性口音普通话数据的类别进行标注)，首先运用成熟的语种识别***进行筛选和过滤，且积累一定量数据后对模型进行重复更新，直至达到数据集的规模要求。

在利用语音训练集对深度信念网络DBN进行训练之前,先对训练集中的每一条语音数据进行语音活动检测，识别和过滤通话语音中夹杂的振玲(DTMF信号音)、彩铃、音乐以及其他各种类型噪声的无效部分，得到有效语音，并提取每一条语音的BN特征。

得到有效语音后，根据语音训练集中的每一类别的地域性口音普通话数据，对深度信念网络DBN进行训练，在本发明实施例中，对深度信念网络DBN的训练方式为，基于限制玻尔兹曼机(RBM)堆叠的方法，自底向上逐层进行无监督学习，所有RBM训练结束后，再进行自顶向下有监督的精细调整。在DBN训练完成以后，将节点数较少的瓶颈层之后的网络参数移除，得到将语言信息压缩到低维，适合于语种识别的BN特征。其中，深度信念网络DBN包含有多个瓶颈层，每一个瓶颈层包含多个节点。

在上述各实施例的基础上，本发明实施例中，所述提取待识别语音的滑动差分倒谱SDC特征包括：

提取所述待识别语音的梅尔倒谱系数MFCC特征向量；

在上述各实施例的基础上，本发明实施例中，根据待识别语音的MFCC特征，得到所述待识别语音的滑动差分倒谱SDC特征包括：

可以理解的是，对于待识别语音，在上述提取BN特征的同时，还提取其滑动差分倒谱SDC特征，其中，滑动差分倒谱SDC特征是根据梅尔倒谱系数MFCC特征向量运算而来。

参见图2，为提取语音数据的MFCC特征的流程图，语种识别是一种典型的分类问题，通过提取待识别语音的不同层次的特征，达到区分语言种类的目的。最广泛应用的特征主要是基于声学层面，通常由分桢语音通过一系列数学变换得到，反映语音信号不同的时频信息，例如梅尔倒谱系数(Mel-frequency cepstral coefficient，MFCC)，滑动差分倒谱(shifted delta cepstrum，SDC)。

倒谱分析是指对信号频谱的自然对数求傅立叶逆变换，而梅尔倒谱系数有所不同，它更侧重于体现人耳的听觉特性。信号的梅尔倒谱与实际频谱之间的关系可以用下面的公式体现：

Mel(f)＝2595lg(1+f/700)；

其中，Mel(f)为语音数据的MFCC特征，f为语音数据的实际频谱。

与语音识别和声纹识别不同，由于语种识别的特殊性，人们经常使用的是由梅尔倒谱系数移位差分得到的滑动差分倒谱SDC特征。SDC特征的提取，在MFCC特征的基础上，可以由一组参数决定，分别是每一帧语音的MFCC维数N，差分操作时前后偏移的帧数d以及向前滑动的帧数P，差分向量的个数k。

在本发明实施例中，{N,d,P,k}通常取{7,1,3,7}，SDC特征提取的过程可参见图3所示，SDC特征的每个特征向量都是由基本的7维MFCC特征向量，与7个差分向量拼接得到7+7*7的56维，其中每个差分向量都是由与向前滑动3帧的MFCC向量的前后偏移为1的两个向量相减得到。为了减小信道和噪声的影响，以及易于高斯建模，对提取的每一个语音数据还要对SDC特征进行均值方差规整。

在上述各实施例的基础上，本发明实施例中，通过如下方式标注每一类别的地域性口音普通话数据的高斯超向量GSV：

可以理解的是，通过上述各实施例分别提取待识别语音的瓶颈BN特征和滑动差分倒谱SDC特征，将待识别语音的BN特征和SDC特征输入训练后的支持向量机SVM分类器中，由SVM分类器输出待识别语音的类型。

高斯超向量-支持向量机(GMM super vector-support vector machines，GSV-SVM)***是另一种常见的对声学特征建模的方法。支持向量机SVM是一种通过最大间隔超平面完成样本分类任务的分类器，它的优势在于可以将低维空间不能线性区分的样本映射到高维空间，通过最优超平面完成分类的任务，具有更好的鲁棒性。而这个将样本从低维空间映射到高维空间的映射函数，就是支持向量机的一大理论基础，核函数。本发明实施例采用的GSV-SVM***，就是利用了基于高斯超向量的核函数。

使用SVM做语种分类的另一个问题是，SVM功能是寻找两个样本空间的最优分界面，而语种分类是一个多分类的任务，因此我们在训练一种语种模型时，将该语种语音定为正样本，其他语种的语音都设为负样本。

Pushing Model技术是GMM建模和SVM建模相结合的技术，将SVM训练得到的支持向量反推回GMM模型，最后得到的语种模型利用到了SVM分类的鉴别性信息，取得良好的语种识别性能。

深度学习通过深层非线性网络结构的搭建和学习，用低层特征的组合形成抽象的高层特征表示，以发现数据的分布式特征。实质是通过海量训练数据构建具有很多隐层的机器学习模型，来学习更有用的特征，实现传统线性方法达不到的分类准确性。

其中，基于语音训练集中每一类别的地域性口音普通话数据的高斯超向量GSV对支持向量机SVM分类器进行训练。

参见图4，在对支持向量机SVM分类器进行训练时，针对每一类别地域性口音普通话数据，训练时将该类别地域性口音普通话的训练数据的高斯超向量GSV设为正样本，其它类别地域性口音普通话的训练数据的高斯超向量GSV都设为负样本，通过标准的支持向量机SVM分类算法得到各种不同类别的地域性口音普通话数据的语种模型，通过训练后的支持向量机SVM，能够对待识别语音的类别进行识别。

在具体对待识别语音进行识别时，提取待识别语音的BN特征和SDC特征，将待识别语音的BN特征和SDC特征输入训练后的支持向量机SVM分类器中，输出待识别语音的类别。

其中，高斯混合模型-通用背景模型(GMM-UBM)***在语音识别领域取得了重大突破，随即被引入到语种识别***。高斯混合模型是一种构建概率密度分布的统计模型，在图像识别、自然语言理解等领域都有广泛的应用。通过一系列高斯分布的加权组合，往往能够很好的描述不符合单一分布的复杂数据。高斯混合模型一般通过期望最大化(EM)算法估计模型的参数。为每个语种建立模型之后，通过计算待识别语音特征的似然度，对语种类别做出判决。通用背景模型是从每个语种挑选部分语音训练出的一个与具体语种无关的混合高斯模型，它的意义主要有两点。首先在实际的混合高斯模型建模的过程中，需要多个高斯(如256，1024个)才能较好的描述复杂的语音特征，而一般单个类别的数据量不足以训练如此高阶的混合高斯；此外，单独训练每个语种的混合高斯模型，容易导致高斯成分的不对应，从而影响后续的判决效果。而有了通用背景模型之后，每个语种利用自身有限的训练数据，通过最大后验概率(Maximum A Posterior，MAP)自适应的方法，就可以得到各自的混合高斯模型，这样不仅能对齐每个语种高斯模型的成分，同时大大节省了训练时间。

对于构建的SVM分类器，基于每一类别的地域性口音普通话数据的高斯超向量GSV对支持向量机SVM分类器进行训练。参见图5，提取每一类别的地域性口音普通话数据的高斯超向量GSV的方法为：基于不同类别的地域性口音普通话数据，通过期望最大化EM算法训练高斯混合模型-通用背景模型GMM-UBM；

将每一类别的地域性口音普通话数据的BN特征和SDC特征输入所述GMM-UBM中，并通过最大后验概率MAP自适应方法得到每一类别的地域性口音普通话数据的高斯超向量GSV。

参见图6，为基于深度特征融合的地域性口音识别方法的整体流程图，分为训练阶段和识别阶段，训练阶段，主要是收集各种不同类别的地域性口音数据，形成语音训练数据。提取每一条语音训练数据的瓶颈BN特征和滑动差分倒谱SDC特征，以及每一条语音训练数据的高斯超向量GSV，采用这些特征对支持向量机SVM分类器进行训练。

在识别阶段，提取待识别语音的BN特征和SDC特征，将待识别语音的BN特征和SDC特征输入训练后的SVM分类器中，对待识别语音的类别进行识别。

在本发明的另一个实施例中提供一种深度特征融合的地域性口音识别装置，该装置用于实现前述各实施例中的方法。因此，在前述深度特征融合的地域性口音识别方法的各实施例中的描述和定义，可以用于本发明实施例中各个执行模块的理解。图7为本发明实施例提供的深度特征融合的地域性口音识别装置整体结构示意图，该装置包括提取模块71和识别模块72。

其中，提取模块71，用于提取待识别语音的瓶颈BN特征和滑动差分倒谱SDC特征；

输出模块72，用于将所述瓶颈BN特征和滑动差分倒谱SDC特征输入预先训练后的支持向量机SVM分类器中，得到输出所述待识别语音的语音类别；

预置的支持向量机SVM分类器为，以标注有高斯超向量GSV的每一类别的地域性口音普通话数据的训练样本训练得到。

所述装置还包括：

标注模块73，用于基于得到的高斯超向量GSV对相应的每一类别的地域性口音普通话数据进行标注；

其中，将每一类别的地域性口音普通话数据的BN特征和SDC特征输入预置的高斯混合模型-通用背景模型GMM-UBM中，并通过最大后验概率MAP自适应方法得到每一类别的地域性口音普通话数据的高斯超向量GSV；

所述预置的高斯混合模型-通用背景模型GMM-UBM为，基于不同类别的地域性口音普通话数据，通过期望最大化EM算法训练得到。

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)01、通信接口(Communications Interface)02、存储器(memory)03和通信总线04，其中，处理器01，通信接口02，存储器03通过通信总线04完成相互间的通信。处理器01可以调用存储器03中的逻辑指令，以执行如下方法：

提取待识别语音的瓶颈BN特征和滑动差分倒谱SDC特征；

此外，上述的存储器03中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本实施例提供一种非暂态计算机可读存储介质，非暂态计算机可读存储介质存储计算机指令，计算机指令使计算机执行上述各方法实施例所提供的方法，例如包括：提取待识别语音的瓶颈BN特征和滑动差分倒谱SDC特征；

本发明实施例提供的一种深度特征融合的地域性口音识别方法及装置，该方法采用多特征融合的语种识别***，提取语音的深度特征，融合传统的SDC特征，输入SVM分类器，实现更鲁棒的语种识别功能，取得了对地域性方言普通话较好的分类效果。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种深度特征融合的地域性口音识别方法，其特征在于，包括：

提取待识别语音的瓶颈BN特征和滑动差分倒谱SDC特征；

2.根据权利要求1所述的地域性口音识别方法，其特征在于，所述提取待识别语音的瓶颈BN特征包括：

3.根据权利要求2所述的地域性口音识别方法，其特征在于，通过如下方式对所述深度信念网络DBN进行训练得到所述预置的深度训练网络DBN：

4.根据权利要求1所述的地域性口音识别方法，其特征在于，所述提取待识别语音的滑动差分倒谱SDC特征包括：

提取所述待识别语音的梅尔倒谱系数MFCC特征向量；

5.根据权利要求4所述的地域性口音识别方法，其特征在于，所述根据所述待识别语音的MFCC特征，得到所述待识别语音的滑动差分倒谱SDC特征包括：

6.根据权利要求1所述的地域性口音识别方法，其特征在于，通过如下方式标注每一类别的地域性口音普通话数据的高斯超向量GSV：

7.一种深度特征融合的地域性口音识别装置，其特征在于，包括：

8.根据权利要求7所述的地域性口音识别装置，其特征在于，所述装置还包括：

标注模块，用于基于得到的高斯超向量GSV对相应的每一类别的地域性口音普通话数据进行标注；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述深度特征融合的地域性口音识别方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6任一项所述深度特征融合的地域性口音识别方法的步骤。