CN103680493A

CN103680493A - 区分地域性口音的语音数据识别方法和装置

Info

Publication number: CN103680493A
Application number: CN201310703949.3A
Authority: CN
Inventors: 苏丹; 尹钊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2013-12-19
Filing date: 2013-12-19
Publication date: 2014-03-26
Also published as: US9928831B2; JP2016520879A; JP6229046B2; WO2015090215A1; KR101734829B1; US20160284344A1; KR20160024858A

Abstract

本发明公开了一种区分地域性口音的语音数据识别方法和装置。所述区分地域性口音的语音数据识别方法包括：计算语音数据的语音识别置信度和/或信噪比，并根据语音识别置信度和/或信噪比从语音数据中筛选出地域性语音数据；根据所述地域性语音数据的地域属性确定所述地域性语音数据的所属地域。本发明公开的区分地域性口音的语音数据识别方法和装置通过计算语音数据的置信度和信噪比将地域性语音数据自动的从海量的语音数据中识别出来，避免了对语音数据进行人工标注，提高了语音数据处理的效率。

Description

区分地域性口音的语音数据识别方法和装置

技术领域

本发明涉及语音数据处理技术领域，尤其涉及一种区分地域性口音的语音数据识别方法和装置。

背景技术

我国幅员辽阔，这使得汉语中包含地域性口音的方言的种类众多。来自不同地方的方言在发音特点，语速特点上各不相同。所以，采用相同的声学模型对不同地方的方言进行语音识别时，会出现识别准确率不高的现象。为了解决采用统一的适用于汉语普通话的声学模型对不同地方方言进行语音识别时识别准确率不高的问题，针对不同地方的方言分别训练为各种方言定制的声学模型是一种很好的途径。

训练声学模型需要海量的训练数据。目前，随着微信、米聊等即时通讯工具的流行，互联网上存储有大量的原始语音数据。这些语音数据可以作为训练针对不同地方方言的声学模型的训练数据。但是，现有技术中，没有从这些语音数据中区分哪些是普通话的语音数据，哪些是地域性语音数据的自动化方法，使得要使用原始语音数据训练针对地方方言的声学模型之前，首先需要对这些原始语音数据人工标注出地域标签，这会耗费大量人力物力。

发明内容

本发明实施例提出一种区分地域性口音的语音数据识别方法和装置，以从原始语音数据中自动识别出地域性语音数据。

第一方面，本发明实施例提供了一种区分地域性口音的语音数据识别方法，所述方法包括：

计算语音数据的语音识别置信度和/或信噪比，并根据语音识别置信度和/或信噪比从语音数据中筛选出地域性语音数据；

根据所述地域性语音数据的地域属性确定所述地域性语音数据的所属地域。

第二方面，本发明实施例提供了一种区分地域性口音的语音数据识别装置，所述装置包括：

语音数据筛选模块，用于计算语音数据的语音识别置信度和/或信噪比，并根据语音识别置信度和/或信噪比从语音数据中筛选出地域性语音数据；

地域确定模块，用于根据所述地域性语音数据的地域属性确定所述地域性语音数据的所属地域。

本发明实施例提供的区分地域性口音的语音数据识别方法和装置，通过计算语音数据的置信度和/或信噪比，将地域性语音数据自动的从海量的语音数据中筛选出来，减少了对全部语音数据进行人工标注的工作量，提高了语音数据处理的效率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是本发明第一实施例提供的区分地域性口音的语音数据识别方法的流程图；

图2是本发明第一实施例提供的区分地域性口音的语音数据识别方法的信号流图；

图3是本发明第二实施例提供的区分地域性口音的语音数据识别方法的流程图；

图4是本发明第二实施例提供的区分地域性口音的语音数据识别方法中信噪比计算的流程图；

图5是本发明第二实施例提供的区分地域性口音的语音数据识别方法的信号流图；

图6是本发明第三实施例提供的区分地域性口音的语音数据识别装置的结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。

图1及图2示出了本发明的第一实施例。

图1是本发明第一实施例提供的区分地域性口音的语音数据识别方法的流程图。参见图1，所述区分地域性口音的语音数据识别方法包括：

S110，计算语音数据的语音识别置信度和/或信噪比，并根据语音识别置信度和/或信噪比从语音数据中筛选出地域性语音数据。

因为现有技术中用于语音识别的声学模型都是针对低噪音并且没有地域性口音的标准普通话语音训练的声学模型。当使用这些声学模型来对地域性语音数据进行语音识别时，会出现语音识别置信度不高，进而语音识别的识别率不高的情况。正因为地域性语音数据有进行语音识别时语音识别置信度不高的特征，所以可以计算地域性语音数据的语音识别置信度，再根据计算的地域性语音数据的语音识别置信度筛选出地域性语音数据。

然而，造成语音数据的语音识别置信度不高的原因也可能是因为语音数据中有较高的噪声。所述还可以通过计算语音数据的信噪比，将语音数据中信噪比较低的语音数据滤除，以清除由于低信噪比造成其语音识别置信度低的语音数据。将语音数据中信噪比较低的语音数据清除以后，剩下的语音数据就是由于地域性口音造成语音识别置信度不高的语音数据，也即地域性语音数据。

在本实施例中，通过计算语音数据的语音识别置信度和/或信噪比，并根据语音识别置信度和/或信噪比从语音数据中筛选出地域性语音数据。需要说明的是，可以同时计算语音数据的语音识别置信度以及信噪比，根据计算得到的语音识别置信度和信噪比从语音数据中筛选出地域性语音数据，也可以单独计算语音数据的语音识别置信度或信噪比，根据计算得到的语音识别置信度或信噪比从语音数据中筛选出地域性语音数据。

S120，根据所述地域性语音数据的地域属性确定所述地域性语音数据的所属地域。

从语音数据中筛选出地域性语音数据后，对筛选得到的地域性语音数据确定所述地域性语音数据的所属地域。对所述地域性语音数据确定其所属地域需要根据所述地域性语音数据的地域属性来确定所述地域性语音数据的所述地域。优选的，所述地域属性包括所述语音数据的来源IP地址的归属地，或者所述语音数据的来源用户的归属地。由于首先从海量语音数据中进行了筛选，所以基于地域属性进行地域标注的计算量在一定程度上有所减少，也使得此地域区分的准确性有所提高。

图2是本发明第一实施例提供的区分地域性口音的语音数据识别方法的信号流图。参见图2，语音数据输入至置信度和/或信噪比分类器201以根据语音识别置信度和/或信噪比对所述语音数据进行分类，将根据语音识别置信度和/或信噪比分类后的语音数据输入至地域属性分类器202以根据语音数据的地域属性对所述语音数据进行分类，最后得到按照地域属性进行分类后的地域性语音数据。

本实施例通过计算语音数据的语音识别置信度和/或信噪比，从海量的语音数据中筛选地域性语音数据，实现了从海量的语音数据中自动识别地域性语音数据，减少了对海量语音数据进行人工标注的工作量，也提高了语音数据处理的效率。

图3至图5示出了本发明的第二实施例。

图3是本发明第二实施例提供的区分地域性口音的语音数据识别方法的流程图。所述区分地域性口音的语音数据识别方法以上述实施例为基础，进一步的，计算语音数据的语音识别置信度和/或信噪比，并根据语音识别置信度和/或信噪比从语音数据中筛选出地域性语音数据包括：计算语音数据的语音识别置信度，选取所述语音识别置信度的取值范围居中的语音数据；计算选取的语音数据的信噪比，并将信噪比大于设定阈值的语音数据作为地域性语音数据。

参见图3，所述区分地域性口音的语音数据识别方法包括：

S310，计算语音数据的语音识别置信度，选取所述语音识别置信度的取值范围居中的语音数据。

置信指的是正确的概率，置信度是评价这个概率的一种度量，表示某一事件的可靠程度。在语音识别中，置信度被定义成一个用来衡量模型和观测数据之间匹配程度的函数，而且这个函数的值对于不同的观测数据具有可比性。

在语音识别中，置信度研究一直是一个非常重要的课题。尤其在语音技术得到广泛应用的今天，对语音识别的输出结果进行置信度的估计，判断其可信程度，在越来越多的领域发展出了新的应用。

在本实施例中，语音识别置信度是在对语音数据进行识别时计算得到的置信度。

由于标准普通话语音的语音数据在采用语音识别算法进行识别时的置信度一般都较高，所以排除取值范围较高的置信度的语音数据，相当于排除了普通话的语音数据。同时，置信度较低的数据可能并不包含有效的语音，所以排除取值范围较低的置信度的语音数据，相当于排除了无效语音数据。因此，计算得到语音数据的置信度后，选取语音识别置信度居中的语音数据作为可能成为地域性语音数据的语音数据。所谓置信度居中，即在置信度的取值范围中排除头部和尾部的取值范围，保留中部的取值，排除的取值范围的大小并不做限定，可以根据经验值或实际需求来设定。在本实施例中，优选将语音识别置信度在30%至80%之间的语音数据作为可能成为地域性语音数据的语音数据。

计算语音数据的语音识别置信度必须以语音数据的特征为依据。能够被用来计算语音数据的语音识别置信度的特征可以包括语音数据的似然度、状态驻留信息和似然比。

似然度是表示语音数据与模型数据之间的相似程度的指标。状态驻留信息是指语音识别过程中声学模型驻留在某个语音识别状态的相关信息。似然比是语音数据与模型数据之间相似程度的比值。

在本实施例中，可以依据语音数据的似然度、状态驻留信息和似然比计算语音数据的语音识别置信度。

S320，计算选取的语音数据的信噪比，并将信噪比大于设定阈值的语音数据作为地域性语音数据。

造成语音数据在语音识别中置信度不高的原因还可以是因为语音数据中包含有较大的噪声。因此，对选取的语音数据计算其信噪比，去除信噪比较低的语音数据，并将信噪比较高的语音数据作为地域性语音数据。

信噪比是语音数据中正常语音信号的功率与语音数据中的噪声信号的功率的比值。计算选取的语音数据的信噪比，并将信噪比较高的语音数据作为地域性语音数据就是计算所选取的语音数据中正常语音信号的功率与语音数据中的噪声信号的功率的比值，然后将正常语音信号的功率与语音数据中的噪声信号的功率的比值高于信噪比阈值的语音数据作为地域性语音数据。

S330，根据所述地域性语音数据的地域属性确定所述地域性语音数据的所属地域。

通过计算语音识别置信度和信噪比从海量的语音数据中识别出地域性语音数据后，按照所述地域性语音数据的地域属性，对所述地域性语音数据确定其所属的地域。

优选的，可以按照所述语音数据的来源IP地址的归属地，或者所述语音数据的来源用户的归属地确定所述地域性语音数据所属的地域。

图4是本发明第二实施例提供的区分地域性口音的语音数据识别方法中信噪比计算的流程图。参见图4，优选的，计算选取的语音数据的信噪比包括：

S321，利用基音提取算法提取所述语音数据的基音数据。

要计算所述语音数据的信噪比，首先应该从所述语音数据中区分哪些部分是所述语音数据的基音数据，即正常语音数据，哪些部分是所述语音数据的噪音数据。

基音提取算法是从所述语音数据中提取基音数据的算法。典型的基音提取算法包括谱减法、维纳滤波法以及短时谱最小均方误差估计法。在本实施例中，可以利用谱减法、维纳滤波法或者短时谱最小均方误差估计法从所述语音数据中提取基音数据。

S322，根据提取的基音数据获取所述语音数据的噪音数据。

从所述语音数据中提取基音数据后，余下部分的语音数据就是所述语音数据中的噪声数据。因此，可以通过简单的将所述语音数据与从所述语音数据中提取的基音数据做查而求得所述语音数据中的噪声数据。

S323，根据所述基音数据以及所述噪音数据计算所述语音数据的信噪比。

从所述语音数据中求得所述语音数据的基音数据和噪音数据后，即可根据所述基音数据以及所述噪音数据计算所述语音数据的信噪比。具体的，可以先计算所述基音数据及所述噪音数据的功率，再计算二者的比值，得到所述语音数据的信噪比。

图5是本发明第二实施例提供的区分地域性口音的语音数据识别方法的信号流图。参见图5，语音数据输入至置信度分类器501以根据语音识别置信度对语音数据进行分类，将语音识别置信度的取值居中的语音数据输入至信噪比分类器502以根据信噪比对语音数据进行分类，再将信噪比较高的语音数据输入至地域属性分类器503以根据语音数据的地域属性对语音数据进行分类，最后将完成地域属性分类的语音数据作为地域性语音数据。

本实施例从海量语音数据中首先筛选语音识别置信度居中，并且信噪比高于设定阈值的语音数据，此操作可以减少后续利用地域属性区分地域所要处理的数据量。再根据语音数据的地域属性对语音数据进行分类，实现了对地域性语音数据的筛选和标注，进一步提高了对语音数据进行处理的效率。

图6示出了本发明的第三实施例。

图6是本发明第三实施例提供的区分地域性口音的语音数据识别装置的结构图。参见图6，所述区分地域性口音的语音数据识别装置包括：语音数据筛选模块610以及地域确定模块620。

所述语音数据筛选模块610用于计算语音数据的语音识别置信度和/或信噪比，并根据语音识别置信度和/或信噪比从语音数据中筛选出地域性语音数据。

所述地域确定模块620用于根据所述地域性语音数据的地域属性确定所述地域性语音数据的所属地域。

优选的，所述语音数据筛选模块610包括：置信度选取子模块611以及信噪比选取子模块612。

所述置信度选取子模块611用于计算语音数据的语音识别置信度，选取所述语音识别置信度的取值范围居中的语音数据。

所述信噪比选取子模块612用于计算选取的语音数据的信噪比，并将信噪比大于设定阈值的语音数据作为地域性语音数据。

优选的，所述地域属性包括所述语音数据的来源IP地址的归属地，或者所述语音数据的来源用户的归属地。

优选的，所述语音数据筛选模块用于计算语音数据的语音识别置信度具体用于：基于语音数据的似然度、状态驻留信息和/或似然比，计算语音数据的语音识别置信度。

优选的，选取的居中取值范围为30%至80%。

优选的，所述语音数据筛选模块用于计算语音数据的信噪比具体用于：

利用基音提取算法提取所述语音数据的基音数据；

根据提取的基音数据获取所述语音数据的噪音数据；

根据所述基音数据以及所述噪音数据计算所述语音数据的信噪比。

优选的，所述基音提取算法包括谱减法、维纳滤波法以及短时谱最小均方误差估计法。

本实施例通过计算语音数据的语音识别置信度以及信噪比，选取语音识别置信度居中且信噪比较高的语音数据为地域性语音数据，实现了从海量的语音数据中自动识别地域性语音数据，避免了对语音数据进行人工标注，提高了语音数据处理的效率。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

显然，本领域技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间的相同相似的部分互相参见即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系属于仅仅用来将一个实体或者操作与另一个实体或者操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种区分地域性口音的语音数据识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，计算语音数据的语音识别置信度和/或信噪比，并根据语音识别置信度和/或信噪比从语音数据中筛选出地域性语音数据包括：

计算语音数据的语音识别置信度，选取所述语音识别置信度的取值范围居中的语音数据；

计算选取的语音数据的信噪比，并将信噪比大于设定阈值的语音数据作为地域性语音数据。

3.根据权利要求1或2所述的方法，其特征在于，所述地域属性包括所述语音数据的来源IP地址的归属地，或者所述语音数据的来源用户的归属地。

4.根据权利要求1或2所述的方法，其特征在于，计算语音数据的语音识别置信度包括：

基于语音数据的似然度、状态驻留信息和/或似然比，计算语音数据的语音识别置信度。

5.根据权利要求1或2所述的方法，其特征在于，选取的居中取值范围为30%至80%。

6.根据权利要求1或2所述的方法，其特征在于，计算语音数据的信噪比包括：

利用基音提取算法提取所述语音数据的基音数据；

根据提取的基音数据获取所述语音数据的噪音数据；

7.根据权利要求6所述的方法，其特征在于，所述基音提取算法包括谱减法、维纳滤波法以及短时谱最小均方误差估计法。

8.一种区分地域性口音的语音数据识别装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述语音数据选取模块包括：

置信度选取子模块，用于计算语音数据的语音识别置信度，选取所述语音识别置信度的取值范围居中的语音数据；

信噪比选取子模块，用于计算选取的语音数据的信噪比，并将信噪比大于设定阈值的语音数据作为地域性语音数据。

10.根据权利要求8或9所述的装置，其特征在于，所述地域属性包括所述语音数据的来源IP地址的归属地，或者所述语音数据的来源用户的归属地。

11.根据权利要求8或9所述的装置，其特征在于，所述语音数据筛选模块用于计算语音数据的语音识别置信度具体用于基于语音数据的似然度、状态驻留信息和/或似然比，计算语音数据的语音识别置信度。

12.根据权利要求11所述的装置，其特征在于，选取的居中取值范围为30%至80%。

13.根据权利要求8或9所述的装置，其特征在于，所述语音数据筛选模块用于计算语音数据的信噪比具体用于：

利用基音提取算法提取所述语音数据的基音数据；

根据提取的基音数据获取所述语音数据的噪音数据；

14.根据权利要求13所述的装置，其特征在于，所述基音提取算法包括谱减法、维纳滤波法以及短时谱最小均方误差估计法。