CN102810311A

CN102810311A - 说话人估计方法和说话人估计设备

Info

Publication number: CN102810311A
Application number: CN2011101456018A
Authority: CN
Inventors: 鲁耀杰; 尹悦燕; 郑继川
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2011-06-01
Filing date: 2011-06-01
Publication date: 2012-12-05
Anticipated expiration: 2031-06-01
Also published as: CN102810311B

Abstract

本发明实施例提供一种说话人估计方法，包括：分类器建立步骤，建立用于将输入的语音数据转换为关于各个类别的语音帧集合的分类器；建模及加权步骤，利用所述分类器处理已知说话人的样本语音数据，关于各个类别分别建立说话人模型，并对各个类别分别设定权重；以及估计步骤，利用所述分类器处理未知说话人的测试语音数据，根据各个类别的说话人模型及权重，来估计该测试语音数据的说话人。本发明实施例还相应地提供一种说话人估计设备。

Description

说话人估计方法和说话人估计设备

技术领域

本发明涉及一种说话人估计方法和说话人估计设备。

背景技术

随着计算机技术的发展和在各个领域的广泛应用，针对语音资料的处理需求也日益扩大。语音文件的外在表现形式一般仅仅诸如文件名、文件格式、或者采样率等等。为了能够更好地管理和浏览语音文件，往往需要一些额外的信息，其中说话人信息是重要的信息。说话人估计技术的目标在于自动提供说话人信息，也获得越来越广泛的应用。

总体上，语音的特征可以分为低层特征和高层特征。其中，低层特征主要在于物理层面，诸如语音的音高(频率)、能量等等，每个说话人的语音在物理特征方面几乎有各自的特点，因此技术上可能根据语音数据的物理特征来判断语音数据所属的说话人。另一方面，高层特征主要在于语义方面，通常与语音的内容及与之相关的发音(即内容的读音)相关，传统观点认为内容特征及发音特征与说话人无关，然而近来的一些观点认为，由于每个人的语言表达几乎有各自的习惯，常见的例子如不同的人可能有不同的口头禅，因此在说话人估计技术方面还可以考虑语音数据的内容及发音特征。

然而，内容特征对于说话人估计技术来说是双刃剑。一方面如上所述可以辅助用于说话人估计，然而另一方面由于说话人语音的内容特征相对于物理特征存在相当大的不确定性，例如，同一人在不同场合的语音的内容特征可能存在很大差异，而不同人针对同一情况的语音的内容特征可能近似，因此在说话人估计过程中考虑内容特征也很可能形成干扰，反而造成估计结果的错误。因此，在对于语音内容特征的态度上，形成了两种截然相反的倾向。

例如，专利文件US 7289957B1公开了一种说话人估计方法，其考虑到了语音的高层特征(内容特征)，其通过将原始语音拆分然后随机合并来消除内容特征的影响，以使训练数据和测试数据更加匹配。也就是，此技术考虑到了语义特征，然而尽可能地消除高层特征的影响，因此仍然是采用物理特征来进行说话人估计。

另外例如，专利文件US 20090150148A1也公开了一种考虑到高层语音特征的说话人估计方法。其在采用物理特征来进行说话人估计的处理之后，再利用某些特殊的短语，诸如各人特有的口头禅，来调整估计结果，从而获得最后的输出结果。

因此，现有技术尽管考虑到高层语音特征，然而或者尽可能消除其影响，或者仅仅将其作为估计处理后的调整手段，未充分挖掘高层语音特征对于改进说话人估计技术的巨大潜能。

发明内容

鉴于现有技术中存在的上述问题而做出本发明。本发明提出一种采用基于高层语音特征对语音数据进行分类的技术的说话人估计方法和说话人估计设备。

根据本发明实施例的一个方面，提出了一种说话人估计方法，包括：分类器建立步骤，建立用于将输入的语音数据转换为关于各个类别的语音帧集合的分类器；建模及加权步骤，利用所述分类器处理已知说话人的样本语音数据，关于各个类别分别建立说话人模型，并对各个类别分别设定权重；以及估计步骤，利用所述分类器处理未知说话人的测试语音数据，根据各个类别的说话人模型及权重，来估计该测试语音数据的说话人。

根据本发明实施例的另一个方面，提出了一种说话人估计设备，包括：分类器建立装置，用于建立用于将输入的语音数据转换为关于各个类别的语音帧集合的分类器；建模及加权装置，用于利用所述分类器处理已知说话人的样本语音数据，关于各个类别分别建立说话人模型，并对各个类别分别设定权重；以及估计装置，用于利用所述分类器处理未知说话人的测试语音数据，根据各个类别的说话人模型及权重，来估计该测试语音数据的说话人。

通过阅读结合附图考虑的以下本发明的优选实施例的详细描述，将更好地理解本发明的以上和其他目标、特征、优点和技术及工业重要性。

附图说明

图1示出按照本发明实施例的说话人估计方法的总体流程图。

图2示出按照本发明实施例的建模及加权步骤的流程图。

图3示出按照本发明实施例的准确度确定步骤的流程图。

图4示出按照本发明实施例的估计步骤的流程图。

图5示出按照本发明实施例的说话人估计设备的总体框图。

图6示出按照本发明实施例的说话人估计***的总体框图。

具体实施方式

下面结合附图描述本发明实施例。

图1示出按照本发明实施例的说话人估计方法的总体流程图，如图1所示，该说话人估计方法，包括：分类器建立步骤S100，可以建立用于将输入的语音数据转换为关于各个类别的语音帧集合的分类器；建模及加权步骤S200，可以利用所述分类器处理已知说话人的样本语音数据，关于各个类别分别建立说话人模型，并对各个类别分别设定权重；以及估计步骤S300，可以利用所述分类器处理未知说话人的测试语音数据，根据各个类别的说话人模型及权重，来估计该测试语音数据的说话人。

按照本发明实施例的说话人估计方法的分类器建立步骤S100和建模及加权步骤S200属于语音数据训练步骤，而估计步骤S300属于测试步骤。在实际的应用中，对于外部而言，输入的语音数据经由估计步骤S300的处理，输出该语音数据的说话人可能性列表或者所判断的说话人。然而，估计步骤S300依赖于之前的训练，要经过对一个或多个说话人的语音样本的训练，才能估计出测试语音属于经过训练的各个说话人的概率，或者判断出测试语音属于经过训练的某个说话人。

本领域技术人员可以理解，作为一种依赖于模糊数学的技术，对于测试语音数据的判断的误差总是不可避免的。按照本发明实施例的说话人估计方法对于每个所输入的测试语音数据都将给出估计结果。即使输入的测试语音数据不属于经过训练的任何说话人，也能够获得估计结果，只是估计结果的精确性受到影响。另一方面，即使输入的测试语音数据属于两个以上的说话人，也能够获得估计结果，在此情况下，可以通过任意的现有技术将原测试语音数据分割得足够小来使每次输入的测试语音数据仅涉及一个说话人，然而，即使不经过此操作也仍然可以实施本发明实施例，只是实施的技术效果受到影响。

不论是用于训练的样本语音数据，还是待处理的测试语音数据，均可以通过诸如麦克风的输入设备输入，既可以在本地输入，也可以远程录入再通过有线或无线的任意传输方式输入，并且可以以任何记录介质记录，而输出不论是关于各个说话人的概率表，还是给出一个判断结果，均可以以显示或打印的方式本地或通过网络远程输出。而且，样本语音数据和测试语音数据的输入及记录方式可以相同也可以不同，可以完全相互独立。

在分类器建立步骤S100所建立的分类器可以通过将输入的语音数据识别为发音特征元素序列，并将该语音数据划分为语音帧序列，把语音帧分类到基于发音特征元素的各个类别，来将输入的语音数据转换为关于各个类别的语音帧集合。

上述发音特征元素例如可以是音素，也就是，在此所建立的分类器可以以音素作为分类的基准，将输入的语音数据识别为音素序列。

音素(也称“音位”，phoneme)是人类语言中能够区别意义的最小声音单位。一个字或词可由一至数个音节组成，一个音节可由一至数个音段(元音、辅音等)组成。音素与音段很类似，然而音素的基本定义是要能区分语义，如果两个声音所代表是同一个词汇、同样的意义，则异音可被视为同一个音素；反之，一个词的任何一个音素若被换成别的音素，那么它就不再是原来的那个词，意义也会随之改变。有意义的词都可由音素组成，代换其中任何音素却不能保证产生有意义的词，也有可能变成无意义的一串音。音素并不是实际的语音。一个音素可以有数种不同的发音，但是语言使用者心理上认定这几种发音是等同的，甚至可能不会察觉语音上有所不同。

已经有现有的音素识别技术可以将语音数据识别为音素序列，例如，在以下非专利文件中所公开的方法：Development of an acoustic-phonetic hiddenMarkov model for continuous speech recognition，IEEE Transactions on SignalProcessing，Issue Date：Jan 1991，Volume：39Issue：1，On page(s)：29-39。

上述分类器还可以将该语音数据划分为语音帧序列，每个语音帧是原始输入语音的一部分，划分语音帧的原则可以是等时划分，使每个语音帧的长度一样，也可以以语音能量的低点划分。考虑说话人估计处理的精确性，可以将各个语音帧划分得尽可能小。

上述分类器还可以通过任意一种分类机制来把语音帧分类到基于音素的各个类别，例如根据不同的音素定义不同的类别，或者利用上述音素序列中多个相邻音素形成的多元音素串，根据不同的多元音素串定义不同的类别。由于人类发音生理方面的限制，人类语言的主要音素不会多于100个，因此在确定分类机制的情况下，可以穷尽与音素或音素串相应的类别。

由于上述语音帧序列和音素序列均源自同一语音数据，因此在语音帧与音素之间存在对应关系，每个音素或音素串对应于至少一个语音帧。在建立与音素或音素串相对应的类别之后，可以把语音帧分类到其对应的音素或音素串的类别。从而，把输入的语音数据转换为关于各个类别的语音帧集合。

本领域技术人员可以理解，能够采用的分类基准可以是除音素之外的其它发音特征元素，所建立的分类器不限于上文所描述。例如，可以以音节为基准，基于音节来进行分类，即把语音数据识别成音节，然后根据音节进行分类。

本领域技术人员还可以理解，可以以不同基准建立各种不同的分类器来应用于本发明的实施例，所建立的分类器在随后的训练及测试过程中调用，来获得说话人估计结果。然而，在本发明实施例的同一次实施过程中，即对于说话人的样本语音数据进行训练以及在该说话人的范围内估计测试语音数据的归属的过程中，应采用同一分类器，也就是在同一次处理过程中，针对样本语音数据和测试语音数据采用同样的语音帧划分原则及同样的分类基准。

不论采用何种分类器对语音数据SC进行处理，均得到与各个类别相对应的语音帧集合sc_i，即语音数据SC转换为{sc₁，sc₂，...，sc_n}，其中i为索引值，代表类别，n为类别的总数。

图2示出按照本发明实施例的建模及加权步骤S200的流程图。如图2所示，建模及加权步骤S200可以包括：样本语音数据划分步骤S220，可以将样本语音数据划分为第一样本语音数据和第二样本语音数据；说话人模型建立步骤S240，可以利用所述分类器处理第一样本语音数据，建立关于各个类别的说话人模型；准确度确定步骤S260，可以利用所述分类器处理第二样本语音数据，基于各个类别的说话人模型来确定该类别的准确度；权重确定步骤S280，可以根据各个类别的准确度来设定该类别的权重。

在样本语音数据划分步骤S220，可以把作为训练数据的样本语音数据划分为两部分，即第一样本语音数据TS和第二样本语音数据WS，其中，TS用来训练基于分类的说话人模型，WS用来对说话人模型进行权重设置。训练数据的划分过程可以是随机过程，然而应确保第一样本语音数据和第二样本语音数据分别属于全部说话人，也就是说，每个说话人都有一部分样本语音数据划在第一样本语音数据TS，一部分样本语音数据划在第二样本语音数据WS。尽管在理论上存在随机划分样本语音数据造成某个说话人的语音数据全部划在一个集合中的情况的可能性，然而，在每个人的样本语音数据都足够多的情况下，出现上述情况的可能性几乎不存在，在实践中可以不考虑。出于侧重于建模方面的考虑，可以使TS的数据量大于WS的数据量。

在说话人模型建立步骤S240，可以利用在分类器建立步骤S100建立的分类器将第一样本语音数据转换为关于各个类别的第一样本语音帧集合，利用统计模型训练方法训练各个类别的第一样本语音帧集合，建立关于各个类别的说话人模型。

首先，利用所述分类器处理第一样本语音数据TS，把TS的全部语音帧C_TS分到与n个类别分别相对应的语音帧集合c_tsi，即C_TS＝{c_ts1，c_ts2，...，c_tsn}，其中i为索引值。

然后，基于各个类别的语音帧集合c_tsi，利用统计模型训练方法训练出该类别相应的说话人模型g_i，得到说话人模型的集合G＝{g₁，g₂，...，g_n}。由于用于训练的各个语音帧集合c_tsi分别包含各个不同说话人的语音帧，因此训练得到的各个说话人模型g_i分别体现不同的说话人，可以用来估计一个或多个语音帧属于各个说话人的可能性。

基于语音帧集合训练出说话人模型的说话人模型训练方法可以使用统计模型训练方法，例如可以使用高斯混合方法，也可以使用其它说话人模型训练方法，诸如频率估计方法、隐马尔可夫模型方法、模式识别方法、神经网络方法、决策树方法等等。

不论基于上述何种手段训练出说话人模型，只要事先经过了对语音帧的分类，利用某个类别的语音帧样本进行训练而得到相应类别的说话人模型，就可以显著区别于以往不经分类而训练得到的说话人模型，使得本发明实施例的说话人模型的类别针对性更强，对输入的语音帧的判断更加准确。在向该说话人模型输入该类别的语音帧或语音帧集合之后，从该说话人模型可以输出该语音帧或语音帧集合关于该类别属于各个说话人的分别的概率。

在准确度确定步骤S260，可以由在分类器建立步骤S100建立的分类器处理第二样本语音数据WS，基于各个说话人模型来确定与该说话人模型相应的类别的准确度。图3示出按照本发明实施例的准确度确定步骤S260的流程图，如图3所示，准确度确定步骤S260可以包括：语音帧子集获取步骤S262，可以利用所述分类器处理第二样本语音数据，分别获取关于各个类别的各个说话人的第二样本语音帧子集；正确率确定步骤S264，可以关于各个第二样本语音帧子集，通过相应类别的说话人模型对该第二样本语音帧子集进行判断，来确定关于该第二样本语音帧子集的判断正确率；准确度计算步骤S266，可以根据各个类别的第二样本语音帧子集的判断正确率，计算关于该类别的准确度。

在语音帧子集获取步骤S262，对第二样本语音数据WS进行分类，设样本语音数据总共来自x个说话人，由于样本语音数据的说话人均已知，因此第二样本语音数据WS可以是x个说话人各自的第二样本语音数据S_spki的集合，其中i为索引值，即WS＝{S_spk1，S_spk2，...，S_spkx}。

仍然采用在说话人模型建立步骤S240中使用的分类器，来将各个说话人的第二样本语音数据S_spki∈WS分别分类为n的类别的语音帧集合，由于在此所得的各个语音帧集合c_spkab不仅针对某个类别b，而且针对某个说话人a，因此称为第二样本语音帧子集c_spkab。

也就是，在语音帧子集获取步骤S262，将第二样本语音数据WS的全部语音帧C_spk分类为

对于属于某个类别b的各个说话人的语音帧子集c_spkab∈C_spk，对应于在说话人模型建立步骤S240建立的说话人模型g_b∈G。

在正确率确定步骤S264，可以利用各个类别的说话人模型对相应的各个第二样本语音帧子集进行判断，来确定各个第二样本语音帧子集的判断正确率。例如，可以使第二样本语音帧子集c_spkab的全部语音帧经过说话人模型g_b的判断，获得c_spkab相对于全部x个说话人分别的概率，由于已知c_spkab实际上来自于说话人a，因此可以将判断出的c_spkab属于说话人a的概率作为该第二样本语音帧子集c_spkab的判断正确率accu_ab。

从而，经过正确率确定步骤S264，可以得到关于各个第二样本语音帧子集的判断正确率，可以表示为：

在准确度计算步骤S266，可以根据各个第二样本语音帧子集的判断正确率accu_ab。，计算各个类别的准确度。例如，对于类别b，可以利用与该类别相对应的x个说话人的第二样本语音帧子集的判断正确率accu_eb，通过以下公式(1)计算出类别b的准确度accu_b，其中e为索引值：

{accu}_{b} = \frac{Σ_{e = 1}^{x} ({accu}_{eb})}{x} . . . (1)

从而可以得到各个类别的准确度集合ACCU＝{accu₁，accu₂，...，accu_n}。

在正确率确定步骤S264中确定各个第二样本语音帧子集的判断正确率的方式不限于上文所述，还可以通过如下方式来确定各个第二样本语音帧子集的判断正确率。例如，所述正确率确定步骤S264可以包括：第一概率计算步骤，从第二样本语音帧子集中多次分别提取多个第二样本语音帧，形成多个第二样本语音帧临时子集，基于相应类别的说话人模型计算各个第二样本语音帧临时子集分别属于各个说话人的第一概率；正确判断确定步骤，对于各个第二样本语音帧临时子集，如果在该第二样本语音帧临时子集属于各个说话人的第一概率之中该第二样本语音帧临时子集实际所属的说话人的第一概率最大，则确定对该第二样本语音帧临时子集作出正确判断；正确率计算步骤，根据对该多个第二样本语音帧临时子集作出正确判断的次数及该多个第二样本语音帧临时子集的数目，来确定关于该第二样本语音帧子集的判断正确率。

在第一概率计算步骤中，从第二样本语音帧子集c_spkab中随机提取多个语音帧，为了提高判断的精确度，考虑选择尽可能多的语音帧，构成第二样本语音帧子集c_spkab的一个第二样本语音帧临时子集，利用相应的说话人模型g_b处理该第二样本语音帧临时子集的全部语音帧，获得该第二样本语音帧临时子集在类别b方面分别属于x个说话人的第一概率。重复此过程一定次数，例如m次，则提取出c_spkab的m个第二样本语音帧临时子集，获得m个第二样本语音帧临时子集各自的在类别b方面分别属于x个说话人的第一概率。由于从第二样本语音帧子集c_spkab中提取语音帧均为随机选择，因此m的数目越多，例如m＝1000相对于m＝100，更有利于最终的估计精确度。

在正确判断确定步骤中，由于已知第二样本语音帧子集c_spkab的所有第二样本语音帧临时子集实际上均属于说话人a，因此，对于任何一个第二样本语音帧临时子集，如果其分别属于x个说话人的第一概率之中，属于说话人a的第一概率最大，则认为说话人模型g_b对该第二样本语音帧临时子集作出正确判断，可以表示为correct identification in c_spkab。

在正确率计算步骤中，可以根据在说话人模型g_b对于m个第二样本语音帧临时子集作出的m次判断处理之中作出正确判断correct identification in c_spkab的次数，根据以下公式(2)来确定说话人模型g_b关于该第二样本语音帧子集c_spkab的判断正确率accu_ab：

{accu}_{ab} = \frac{Σ (correct identification in c_{spkab})}{m} . . . (2)

作为正确率确定步骤S264中所得的结果，用于准确度计算步骤S266的处理。

返回图2，在准确度计算步骤S266得到的各个类别的准确度可以认为是各个类别对于说话人的区分能力，在权重确定步骤S280，可以根据类别i的准确度accu_i，利用以下公式(3)，来设定该类别i的权重

将准确度低于预定阈值θ的类别的权重设定为0，

从而得到各个类别的权重

本领域技术人员可以理解，其中θ是[0，1]范围内的值，选择θ＝0则意味着所有的类别都将被采用，而如果选择θ＝1，则意味着只有准确度为100％的类别才被采用，实践中几乎不会出现此情况，因此实际上意味着任何类别都不采用。因此，θ设定为(0，1)范围内的值，例如θ＝0.1。在其它条件不变的情况下，θ值越大，则选用的类别越少，而所选用的类别对于说话人的区分能力较强，省去关于说话人的区分能力较弱的类别的计算，从而后续处理的负担较小。本领域技术人员可以理解，上述θ的取值仅仅是一个例子，(0，1)范围内任何其它值都是可以的，θ值也可以不预先设定，而是预先设定所采用的类别占总类别数n的比例，再据此确定θ值。另外，公式(3)也可以是当准确度大于阈值时选用相应类别，而小于等于该阈值时使其权重为0。

在建立了分类器，为各个类别建模，并且赋予了权重之后，则完成了训练过程。在估计步骤S300，可以利用所述分类器处理未知说话人的测试语音数据，根据各个类别的说话人模型及权重，来估计该测试语音数据的说话人。

图4示出按照本发明实施例的估计步骤S300的流程图，如图4所示，估计步骤S300可以包括：测试语音数据分类步骤S320，可以利用所述分类器处理未知说话人的测试语音数据，获取测试语音数据的关于各个类别的测试语音帧集合；第二概率确定步骤S340，可以针对各个测试语音帧集合，基于相应类别的说话人模型来计算该测试语音帧集合属于各个说话人的第二概率；第三概率确定步骤S360，可以根据各个测试语音帧集合分别属于各个说话人的第二概率、以及与各个测试语音帧集合相应的类别的权重，确定测试语音数据分别属于各个说话人的第三概率，作为估计该测试语音数据的说话人的结果。

本领域技术人员可以理解，估计步骤S300的处理取决于先前的分类、建模、赋权重等等的过程，本领域技术人员可以根据分类及训练的过程而构想出测试处理的过程。

在测试语音数据分类步骤S320，利用在分类器建立步骤S100建立的分类器，将未知说话人的测试语音数据SCU分类到各个类别的测试语音帧集合，即，把测试语音数据SCU转换为{scu₁，scu₂，...，scu_n}。

在此，如果在前述权重确定步骤S280已经将一些类别的权重设为0，则在测试语音数据分类步骤S320对测试语音数据SCU进行分类以后，可以舍弃权重为0的类别的测试语音帧集合，减轻此后处理的负担，显然，也可以不进行此舍弃。

在第二概率确定步骤S340，对于类别f的测试语音帧集合scu_f(f∈[1，n])，利用在说话人模型建立步骤S240建立的相应的说话人模型g_f，计算测试语音帧集合scu_f属于x个说话人中的每个人的概率{p_f1，p_f2，...，p_fx}，为了与前文中所提及的第一概率相区别，可以将此概率称为第二概率。

在第三概率确定步骤S360，可以针对与n个类别相对应的n个测试语音帧集合，通过以下公式(4)计算整个测试语音数据SCU属于x个说话人中的第k个人的概率p_k，

p_{k} = Σ_{f = 1}^{n} p_{fk} * W (f)

其中，p_fk是测试语音帧集合scu_f属于第k个说话人的概率，W(f)是通过公式(3)计算出的各个类别的权重

中的f类的权重值。从而确定测试语音数据SCU分别属于各个说话人的概率，为了与前文中的概率相区别，在此称为第三概率。

可以根据测试语音数据分别属于各个说话人的第三概率创建说话人可能性列表，作为估计该测试语音数据的说话人的结果来输出，也可以考虑把与各个第三概率之中最高的第三概率相应的说话人识别为该测试语音数据的说话人，将可能性最高的说话人作为估计结果来输出。

本发明还可以实施为一种说话人估计设备，图5示出可以实施按照本发明实施例的说话人估计方法的说话人估计设备10的总体框图。如图5所示，说话人估计设备10包括：分类器建立装置100，可以执行前述的分类器建立步骤S100，用于建立用于将输入的语音数据转换为关于各个类别的语音帧集合的分类器；建模及加权装置200，可以执行前述的建模及加权步骤S200，用于利用所述分类器处理已知说话人的样本语音数据，关于各个类别分别建立说话人模型，并对各个类别分别设定权重；以及估计装置300，可以执行前述的估计步骤S300，用于利用所述分类器处理未知说话人的测试语音数据，根据各个类别的说话人模型及权重，来估计该测试语音数据的说话人。

其中，所述分类器通过将输入的语音数据识别为发音特征元素序列，并将该语音数据划分为语音帧序列，把语音帧分类到基于发音特征元素的各个类别，来将输入的语音数据转换为关于各个类别的语音帧集合。

其中，所述建模及加权装置200可以包括：样本语音数据划分装置，可以执行前述的样本语音数据划分步骤S220，用于将样本语音数据划分为第一样本语音数据和第二样本语音数据；说话人模型建立装置，可以执行前述的说话人模型建立步骤S240，用于利用所述分类器处理第一样本语音数据，建立关于各个类别的说话人模型；准确度确定装置，可以执行前述的准确度确定步骤S260，用于利用所述分类器处理第二样本语音数据，基于各个类别的说话人模型来确定该类别的准确度；权重确定装置，可以执行前述的权重确定步骤S280，用于根据各个类别的准确度来设定该类别的权重。

其中，所述第一样本语音数据和所述第二样本语音数据分别属于全部说话人。

其中，所述准确度确定装置可以包括：语音帧子集获取装置，可以执行前述的语音帧子集获取步骤S262，用于利用所述分类器处理第二样本语音数据，分别获取关于各个类别的各个说话人的第二样本语音帧子集；正确率确定装置，可以执行前述的正确率确定步骤S264，用于关于各个第二样本语音帧子集，通过相应类别的说话人模型对该第二样本语音帧子集进行判断，来确定关于该第二样本语音帧子集的判断正确率；准确度计算装置，可以执行前述的准确度计算步骤S266，用于根据各个类别的第二样本语音帧子集的判断正确率，计算关于该类别的准确度。

其中，所述正确率确定装置可以包括：第一概率计算装置，可以执行前述的第一概率计算步骤，用于从第二样本语音帧子集中多次分别提取多个第二样本语音帧，形成多个第二样本语音帧临时子集，基于相应类别的说话人模型计算各个第二样本语音帧临时子集分别属于各个说话人的第一概率；正确判断确定装置，可以执行前述的正确判断确定步骤，用于对于各个第二样本语音帧临时子集，如果在该第二样本语音帧临时子集属于各个说话人的第一概率之中该第二样本语音帧临时子集实际所属的说话人的第一概率最大，则确定对该第二样本语音帧临时子集作出正确判断；正确率计算装置，可以执行前述的正确率计算步骤，根据对该多个第二样本语音帧临时子集作出正确判断的次数及该多个第二样本语音帧临时子集的数目，来确定关于该第二样本语音帧子集的判断正确率。

其中，所述估计装置300可以包括：测试语音数据分类装置，可以执行前述的测试语音数据分类步骤S320，用于利用所述分类器处理未知说话人的测试语音数据，获取测试语音数据的关于各个类别的测试语音帧集合；第二概率确定装置，可以执行前述的第二概率确定步骤S340，用于针对各个测试语音帧集合，基于相应类别的说话人模型来计算该测试语音帧集合属于各个说话人的第二概率；第三概率确定装置，可以执行前述的第三概率确定步骤S360，用于根据各个测试语音帧集合分别属于各个说话人的第二概率、以及与各个测试语音帧集合相应的类别的权重，确定测试语音数据分别属于各个说话人的第三概率，作为估计该测试语音数据的说话人的结果。

其中，所述说话人模型建立装置可以利用所述分类器将第一样本语音数据转换为关于各个类别的第一样本语音帧集合，利用统计模型训练方法训练各个类别的第一样本语音帧集合，建立关于各个类别的说话人模型。

其中，所述权重确定装置可以将准确度低于预定阈值的类别的权重设定为0。

本发明还可以实施为一种说话人估计***，图6示出按照本发明实施例的说话人估计***1000的总体框图。如图6所示，说话人估计***1000可以包括：输入设备1100，用于输入用于训练及有待测试的语音数据，例如可以包括键盘、鼠标器、麦克风、话筒、扫描仪、以及通信网络及其所连接的远程输入设备等等；处理设备1200，用于实施上述的按照本发明实施例的说话人估计方法，或者可以实现上述的按照本发明实施例的说话人估计设备，例如可以包括计算机的中央处理器或其它具有处理功能的芯片、模块等等；输出设备1300，用于向外部输出实施本发明实施例所得的结果，例如可以包括显示器、打印机、扬声器、以及通信网络及其所连接的远程输出设备等等；以及存储设备1400，用于以易失或非易失的方式存储用于训练及有待测试的语音数据、所得的结果、命令、中间数据等等，例如可以包括本地或通过网络连接的随机存取存储器(RAM)、只读存储器(ROM)、硬盘、或半导体存储器等等的各种易失或非易失性存储器。对于原始的模拟语音，可以通过成熟的采样及模拟-数字转换技术转换为用于本发明实施例的训练及测试处理的语音数据。

上述说话人估计***1000仅是实现本发明实施例的一个示例，很显然，本发明实施例不限于此。

本发明实施例的说话人估计方法、说话人估计设备、以及说话人估计***采用了基于语音帧分类的说话人识别方法，在分类、建模、赋权重及估计等等的不同操作处理中，可以利用不同的语音特征。例如，分类过程可以基于高层特征，而其它过程可以利用低层的物理特征，然而不限于此，例如，分类过程也可以基于低层的物理特征。通过有机地整合利用不同层次的语音特征，从而提高了说话人估计及识别的精度。此外，还可以通过舍弃对于说话人区分能力较弱的类别的语音帧，仅仅说话人区分能力较强的类别会被处理和计算，从而进一步有效地减少计算复杂度，使得处理速度更加快。

在说明书中说明的一系列操作能够通过硬件、软件、或者硬件与软件的组合来执行。当由软件执行该一系列操作时，可以把其中的计算机程序安装到内置于专用硬件的计算机中的存储器中，使得计算机执行该计算机程序。或者，可以把计算机程序安装到能够执行各种类型的处理的通用计算机中，使得计算机执行该计算机程序。

例如，可以把计算机程序预先存储到作为记录介质的硬盘或者ROM(只读存储器)中。或者，可以临时或者永久地存储(记录)计算机程序到可移动记录介质中，诸如软盘、CD-ROM(光盘只读存储器)、MO(磁光)盘、DVD(数字多功能盘)、磁盘、或半导体存储器。可以把这样的可移动记录介质作为封装软件提供。

本发明已经参考具体实施例进行了详细说明。然而，很明显，在不背离本发明的精神的情况下，本领域技术人员能够对实施例执行更改和替换。换句话说，本发明用说明的形式公开，而不是被限制地解释。要判断本发明的要旨，应该考虑所附的权利要求。

Claims

1.一种说话人估计方法，包括：

分类器建立步骤，建立用于将输入的语音数据转换为关于各个类别的语音帧集合的分类器；

建模及加权步骤，利用所述分类器处理已知说话人的样本语音数据，关于各个类别分别建立说话人模型，并对各个类别分别设定权重；以及

估计步骤，利用所述分类器处理未知说话人的测试语音数据，根据各个类别的说话人模型及权重，来估计该测试语音数据的说话人。

2.按照权利要求1所述的说话人估计方法，其中，所述分类器通过将输入的语音数据识别为发音特征元素序列，并将该语音数据划分为语音帧序列，把语音帧分类到基于发音特征元素的各个类别，来将输入的语音数据转换为关于各个类别的语音帧集合。

3.按照权利要求1所述的说话人估计方法，其中，所述建模及加权步骤包括：

样本语音数据划分步骤，将样本语音数据划分为第一样本语音数据和第二样本语音数据；

说话人模型建立步骤，利用所述分类器处理第一样本语音数据，建立关于各个类别的说话人模型；

准确度确定步骤，利用所述分类器处理第二样本语音数据，基于各个类别的说话人模型来确定该类别的准确度；

权重确定步骤，根据各个类别的准确度来设定该类别的权重。

4.按照权利要求3所述的说话人估计方法，其中，所述第一样本语音数据和所述第二样本语音数据分别属于全部说话人。

5.按照权利要求3所述的说话人估计方法，其中，所述准确度确定步骤包括：

语音帧子集获取步骤，利用所述分类器处理第二样本语音数据，分别获取关于各个类别的各个说话人的第二样本语音帧子集；

正确率确定步骤，关于各个第二样本语音帧子集，通过相应类别的说话人模型对该第二样本语音帧子集进行判断，来确定关于该第二样本语音帧子集的判断正确率；

准确度计算步骤，根据各个类别的第二样本语音帧子集的判断正确率，计算关于该类别的准确度。

6.按照权利要求5所述的说话人估计方法，其中，所述正确率确定步骤包括：

第一概率计算步骤，从第二样本语音帧子集中多次分别提取多个第二样本语音帧，形成多个第二样本语音帧临时子集，基于相应类别的说话人模型计算各个第二样本语音帧临时子集分别属于各个说话人的第一概率；

正确判断确定步骤，对于各个第二样本语音帧临时子集，如果在该第二样本语音帧临时子集属于各个说话人的第一概率之中该第二样本语音帧临时子集实际所属的说话人的第一概率最大，则确定对该第二样本语音帧临时子集作出正确判断；

正确率计算步骤，根据对该多个第二样本语音帧临时子集作出正确判断的次数及该多个第二样本语音帧临时子集的数目，来确定关于该第二样本语音帧子集的判断正确率。

7.按照权利要求1所述的说话人估计方法，其中，所述估计步骤包括：

测试语音数据分类步骤，利用所述分类器处理未知说话人的测试语音数据，获取测试语音数据的关于各个类别的测试语音帧集合；

第二概率确定步骤，针对各个测试语音帧集合，基于相应类别的说话人模型来计算该测试语音帧集合属于各个说话人的第二概率；

第三概率确定步骤，根据各个测试语音帧集合分别属于各个说话人的第二概率、以及与各个测试语音帧集合相应的类别的权重，确定测试语音数据分别属于各个说话人的第三概率，作为估计该测试语音数据的说话人的结果。

8.按照权利要求3所述的说话人估计方法，其中，在说话人模型建立步骤中，利用所述分类器将第一样本语音数据转换为关于各个类别的第一样本语音帧集合，利用统计模型训练方法训练各个类别的第一样本语音帧集合，建立关于各个类别的说话人模型。

9.按照权利要求3所述的说话人估计方法，其中，在权重确定步骤中，将准确度低于预定阈值的类别的权重设定为0。

10.一种说话人估计设备，包括：

分类器建立装置，用于建立用于将输入的语音数据转换为关于各个类别的语音帧集合的分类器；

建模及加权装置，用于利用所述分类器处理已知说话人的样本语音数据，关于各个类别分别建立说话人模型，并对各个类别分别设定权重；以及

估计装置，用于利用所述分类器处理未知说话人的测试语音数据，根据各个类别的说话人模型及权重，来估计该测试语音数据的说话人。