CN1202687A

CN1202687A - 和用快速和精细匹配在人群中识别讲话者

Info

Publication number: CN1202687A
Application number: CN98109738A
Authority: CN
Inventors: S·H·米斯
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1997-05-06
Filing date: 1998-04-04
Publication date: 1998-12-23
Anticipated expiration: 2018-04-04
Also published as: US6182037B1; CN1120470C; KR100321835B1; JP2982870B2; HK1015924A1; TW374895B; KR19980086697A; JPH10319988A

Abstract

用于讲话者识别的快速和详细匹配技术综合为一混合***,其中当检测到在正登记的讲话者和先前已登记的讲话号之间可能形成混淆时,将各讲话者以成组方式使之彼此关联。因此,仅在快速匹配技术中可能开始出现饱和时,援用详细匹配技术,同时,通过限制对该组的比较数和与讲话者相关的模型的形成,便于详细匹配,这些模型主要作用是在一组中的各成员之间进行区分而不是更充分地鉴别每个讲话者的特征。因此,限制了存储和计算的要求,并且使快速和精确的讲话者识别可以扩展到这样一些讲话者人数范围内,这些讲话者可能使快速匹配***性能下降和饱和,并使详细匹配***的性能下降。

Description

和用快速和精细匹配在人群中识别讲话者

本发明一般地涉及利用语音识别***对讲话者的识别和验证，更具体说，涉及在包含已登记的讲话者的人群中对谈话者以与语境无关的方式快速识别和验证。

很多电子装置需要由使用者输入，以便向该装置传送，为了确定或执行所需功能所需的特定信息，或者在一般简单的情况下，例如当通过操作通/断开关按照所指示的执行所需功能，通知该特定信息。近些年来，当可能有多个不同的输入时，包含两个或多个开关的阵列的键盘作为可选择的输入装置。

然而，任何型式的键盘都具有固有的缺点。显然，各种键盘都包含多个分布的可操作区，每个可操作区通常包含一些会受到磨损和损坏的运动元件，以及除非采用一触针或其它单独的机械结构以外，必须限定每一区的尺寸，使其可以利用人体的一部份进行操作。因此，在很多类型的装置中，例如用于安全***和电子计算器的输入面板，装置的尺寸经常是由键座而不是由壳体中的电子元件来确定的。此外，可能需要进行大量击键(例如，指定一种操作、输入密码、个人身份证号(PIN)等)，这就降慢了操作速度并增加了可能发生的误操作。因此，键盘或其它手动操作的输入结构的使用需要操作，这对于使用者来说，并不是最适宜自然或高效的。

在致力于提供一种更自然可使用的方便以及快速的接口以及增加其能力方面，已经提出很多的进行声音检测的方法和识别***，并且某种程度上成功的实施。此外，这些***原理上具有依靠用于准许或拒绝进入装置和***的入口设备的已登记的讲话者的发声匹配使用者的发声的能力，以一种对于使用者可为相对透明和方便的方式，识别已登记的讲话者或者根据讲话者的身份调用定制的指令程序库。

然而，包含大量资源的大型***很可能有大量的潜在的使用者，因此，需要极为大量的存储量和处理能力，以便当已登记的讲话者的人数变多时能识别各讲话者。当讲话者人数的规模变大时，对于设计用于在不同的讲话者之中快速进行识别的简单快速***将会产生讲话者识别***性能饱和的情况。大多数与讲话者相关的***的性能(例如对发声进行解码以及根据解码的原本模型例如适用于不同讲话者的隐藏Markov模型(HMM)进行匹配，这些模型代表正确解码识别的讲话者的最高相似性，并且这些模型可以是与语境相关的或与语境无关的)还会在大量讲话者人数范围内性能下降，趋于饱和，并且对于快速简单的***在较少的人数范围内也会遇到性能下降(这样简单***根据较少数量的信息在各讲话者之间进行鉴别)并且因此当对于较多人数的数据导致在数据的祥例之间形成较小的差别时趋于得到含糊的结果。

正如一种方案介绍的，与语境无关的***例如逐帧特征群集和分类可以作为一种谈话者或谈话者类别识别的快速匹配技术。然而，在可允许的响应时间内能够按照处理辅助操作的实际数量进行处理的讲话者类别的数目以及在每一类别中讲话者的数目是有限的。(换句话说，虽然按逐帧分类需要相对少量的关于每一登记的讲话者的数据以及用于有限数量的讲话者的较少的处理时间，但由于随讲话者模型增加)对讲话者模型的区分能力每个模型包含比在与讲话者相关的***中相对少的信息)下降，它们的鉴别能力相应地受到限制并且受到严重的损害。可以易于理解，随着使用者人数变多，任何寻找减少与讲话者发声相关的信息(存储和/或处理)的方案都可能损害***鉴别单个登记的使用者的能力。在使用者人数达到某种规模时，讲话者识别***或装置将不再能在某些讲话者之间进行鉴别。这种状态被称为饱和。

另一方面，采用一些适用于对各单个谈话者进行讲话者识别的且以与讲话者相关的模型为基础的解码器的更复杂的***，必须以并行或串行方式运用各模块，以便实现讲话者识别，因此，是极慢的并需要大量的存储器和处理时间。此外这些模型难于形成和应用，这是由于它们通常需要大量的数据才能构成模型。

在模型匹配***中已经在某种程度上实现对存储量降低要求，依靠每一登记的登话者的特定发声，这些***可以是与语境相关的也可以是与语境无关的，这些***对于讲话者识别和/或验证功能是特定的。然而，这些装置由于它们的特征使之对使用者来说不是简便的；需要相对长的登记时间和起始识别(例如注册)操作程序以及使用该***进行验证或多或少会周期性地中断。此外，或许更重要的是，这些***对于每一讲话者的发声变化(“讲话者自身”发声变化)更灵敏，这些变化例如随着每个讲话者老年化、疲劳、紧张、音韻、心理状态以及其它状态可能产生。

更确切地说，在操作的登记阶段与讲话者相关的语音识别装置为每一讲话者建立一个模型。在此之后，利用得到最大相似性或最小差错率的模型对讲话者及其发声进行识别。要使每一模型对于要识别的所有发声适用于一唯一的讲话者，需要足够的数据。为此，大多数与讲话者相关的***还是与语境相关的，以及经常采用模型对照，以降低要存储在每一模型中的数据的数量。另外，例如采用隐含的Markov模型(HMM)或类似统计模型的***，通常包含引入各根据一组讲话者的群体模型，以便能够排除不太可能的讲话者。

各群体模型使得根据讲话者身份的相似性竟争结果引入置信度计量，并且随着登记的讲话者人数的增加，由于在各不同的讲话者的发声之间可以存在一定数目的相似者，特别是在不断增加的人数情况下要正确地建立各群体模型是十分困难的，为此，各群体模型很可能是潜在差错的主要根源。由于需要抽取新的群体和形成或改进相应的群体模型，新的讲话者的登记也是很复杂的。

特别是模板匹配不允许直接引入群体。模板通常是用于登记的使用者发声的原有波形，并且由于可用于匹配过程的可合理形成的时间作为一实际问题，用于每一发声的模板的数目是有限的。另一方面，由于模板的数目使讲话者自身发声变化的可达范围受到限制，这些模板是为每一需识别的发声取得并使用的；并且随着使用者人数变多，讲话者自身发声变化的可达范围的允许程度受到抑制。特别是为了减少数据或简化检索方式，扩展群体会趋于掩盖讲话者自身发声变化，同时因此使之复杂化。

此外，由于对在各模板之间的距离计量的限定变得更关键和使查索方式复杂化，随着使用者人数增加，模板匹配变得签别能力下降。此外，从概念上讲，模板匹配加重了发声的动态(例如波形随时间的变化)渐近和动态再现，而该动态是按讲话者的状态可变的。

因此，按本技术领域的目前状态，大的讲话者人数量使得与语境无关的快速讲话者识别***适合使用的程度下降，并且在讲话者人数的某一规模下，使得它们无效，需要一种较慢的增强存储和处理的***，同时还降低了它们的性能。迄今还设有一种可实用的***，其能维持与快速简单***可相比的讲话者识别性能，或者增加签别能力，同时能限制计算和存储要求，并且当登记的讲话者人数变多时能避免饱和现象发生。

因此，本发明的目的是提供一种用于能够在大量的已登记的使用者的人数之中快速鉴别各单个的登记的使用者，这种鉴别是与语境无关的，并且在登记之后对使用者是简便的。

本发明的另一目的是提供一种用于能够在大量的已登记的使用者的人数中对讲话者进行识别和验证的***，并且具有简单、快速、透明和与语境无关的登记操作程序。

本发明的再一个目的是改进在语音解码和讲话者识别的过程中对讲话者的和群体模型的处理。

本发明的再一个目的是在不降低精度的前提下在大量的讲话者人数范围内能进行讲话者快速识别。

为了实现本发明的这些和其它目的，提供一种识别讲话者的方法，包含的步骤有：将登记的讲话者分成组，在最可能包含一具有特定发声的讲话者的各组登记的讲话者之中识别出一讲话者或一组讲话者，以及在要确定具有该发声的讲话者的身份的该组讲话者中根据与讲话者相关的模型将该发声进行匹配。

根据本发明的另一个方面，提供一种讲话者识别装置，其包含：一矢量量化器，用于对发声形成的各帧取样和确定最可能的该发声的讲话者；一装置，用于检测在该发声的讲话者与一或多个先前登记的讲话者之间可能形成的混淆；以及一装置，响应于对讲话者之间可能形成混淆的检测，形成用于在该讲话者和先前登记的讲话者之间进行区分的与讲话者相关的模型。

本发明采用快速匹配法，如果需要的话，接着进行详细匹配，使得由于使用者人数增加在快速匹配过程产生的饱和的开始点或其之前就能实现详细匹配。通过响应于对可能形成的混淆的检测将使用者分成组加速了详细匹配，并且通过形成直接用于在一组中的各成员之间进行区分的模型限制了存储量，同时由于限制了候选讲话者或组的数目，便利和加速了详细匹配过程。

根据参照附图对本发明的一优选实施例的详细介绍，将会更充分地理解本发明的上述和其它目的、方面和优点，其中：

图1是表示本发明的一种优选形式的结构和运行的方块图/流程图；以及

图2A和2B是图解表示根据本发明的直方频率分布处理的示意图。

下面参照附图，更确切地说参照图1，该图表示根据本发明的一种优选形式的原理示意方块图。图1还可以理解为表示下面将要介绍的本发明的运行流程图。还应当理解，如在图1中所示的***的结构和工作可以由一专用数据处理器来实现，或者最好利用一适当编程的通用数据处理器来实现，其中在后一种情况下，图示的功能元件在起始化的过程中或者按照在程序运行的过程中的要求以本技术领域能充分理解的方式构成。

首先应认识到本发明优先形式结构总体分为两个部分，因此将按一混合***进行介绍。如图所示，上部部分100是与语境无关的以特征矢量为基础的快速匹配讲话者识别和分类***。如图所示下部部分200是根据讲话者模型210或群集模型220的详细匹配模式配置。应当理解，根据本发明的总体***根据对于下面的详细匹配部分200所选择的实施方案可以是与语境有关的或无关的。

仅当在第一快速对照阶段不能做出决定时，即使是不成功的，***结构中的代表能够进行详细匹配的顺序各处理阶段的那些部分，通过自动选择讲话者的或群体的模型(用于详细匹配以及对他们自动进行选择)，第一阶段也增强了第二阶段的效能。正如下面将讨论的，在某些情况下，当为了进行详细匹配处理，需要时群体的选择也可以加速该快速匹配过程。

更确切地说，一其本身在本技术领域是可充分理解的声字部分的前端(部分)110用于对以重叠方式形成的发声进行取样以及从其中抽取各特征矢量120，最好是按照MEL例频谱、连同归一化的能量对数值的Δ以及Δ-Δ系数进行抽取。(各对数能量值和例频谱C_o未包括)。与此相结合，一矢量量化器对于根据登记的数据(按照它们的平均值和偏差)产生的特征矢量进行集合C1uster，用于有效存储和对由需识别的发声(测试数据)得到特征矢量进行量化。

这些特征矢量最好根据偏移10毫秒重叠25-30毫秒的各帧来计算。从生理学上相关的(例如以发音部位为特征的如共鸣的特征频谱)MEL例频谱、Δ和Δ-Δ特征矢量优选作为特征矢量。用以有效地识别和验证讲话者，尽管其它类型的特征矢量也可以采用。这些特征矢量和其它量例如LPC例频谱通常是39维矢量，例如在本技术领域中所熟知的。所形成的特征矢量按照Mahalnobis距离集合为约65码字(该数字对实现本发明并不是关键的)。实际上，各特征矢量的每一坐标的偏差可以在有代表性的成组讲话者类型范围内以经验方式确定，以及与码字相关的矢量的相关测量值是一利用与相关偏差成反比的权重加权的欧几里德(Euclidean)距离。经此得到的成组码字构成对于每一登记的讲话者的代码簿130。

应当指出，对于每个登记的讲话者仅需一个代码簿。因此，对于本发明中的快速匹配部分的存储量要求(例如存储器130)是很小的，并仅需要完整发声的并不复杂的模型。任何一个讲话者的登记仅需要附加一个附加代码簿，同时先前登记的讲话者的其它代码簿不受影响，从而降低了登记的复杂性。此外，由于存储器130由相似编制的代码簿组成，当登记的使用者的(和相关的代码簿)的数目变大时，可以实现对搜索目标的有效分层次(多分辨率)的逐步趋近。

此后，利用解码器140依靠各代码簿对测试信息进行逐帧解码。每一由能达到与代码簿匹配十分接近的测试数据组成的帧保证对包含该帧的代码簿的识别。这样识别一特定代码簿的各帧利用计数器150根据利用每帧识别的代码簿进行计数，并得出一如对图2A中的讲话者1-5所示的直方频率分布图。通常，一个代码簿在任选讲话的几秒之后利用按统计规律影响大的或数目占优的一些帧随着被识别出而显现，以及随利用比较器装置160进行优选检测，因此可识别该讲话者(例如图2A中的讲话者1)。直方频率分布图中的各峰值(幅直)中的分散度也可对识别讲话者的置信度进行直接计量。如果两个或更多个峰值具有相似的(统计上并不重要)的幅值，为了识别谈话者，详细对照部分200可进行如下所述的进一步处理。

然而，根据本发明，在登记过程中通过形成如上所述的直方频率分布图，依靠已有的代码簿也可对特征矢量解码。如果由于形成了一个与先前登记的讲话者相似的直方频率峰值幅值，使正在登记的讲话者(例如图2A中的讲话者6)与已有登记的讲话者发生混淆(例如可能识别一个作为一先前登记的讲话者的新讲话者)，在响应于比较器160的包含一些其发声产生相似特征矢量的讲话者的数据库300(在这一实例中包含谈话者1和6)中形成一个类别。然后来自不同讲话者的数据用于适配能够在他们之间进行识别的与讲话者相关的模型以及存储在数据库300中的模型。

应当认识到，对于可能的混淆的检测等效于快速匹配***的饱和的出现，使得快速匹配***可以充分利用它的鉴别能力，并且仅当超出本发明的快速匹配部分的能力时，才进行详细匹配(除非由于例如设置对于可能发生的混淆的低统计量的阈值有意由于保持不变的结构设计限制之外)。然而，在登记过程中会检测这种饱和出现，并且在这种检测中，根据本发明的***的结构，当需要时通过进行详细匹配处理适于补充快速匹配部分。通过限制比较组的数目的范围和限制最优化的或至少适合于在为数很多的组之间进行必要的区分的与讲话者相关的模型，便利了详细匹配本身。各组的数目和每组的讲话者的数目将总是降到最少的，这是由于仅当检测可能产生的混淆时，才形成多组以及将一些成员添加到一个组内。

当然，这些与讲话者相关的模型的形成扩展和采用，需要对每一这样的讲话者汇集相当多的数据。然而，在对于正在登记的讲话者(讲话者6)和后来对于一些讲话者(例如讲话者6)的稍微延长的登记过程中，可以汇集这些数据，对于这样一些讲话者在它们接着使用该***时，重新登记的登记者会发生混淆。还应当注意，类别的扩展自动选择或限定一些直方频率分布图，随着登记的使用者人口增加，仅当必要时，才根据该直方频率分布图扩展直方频率分布模型以及提供用于汇集和存储附加数据。

还应当注意，在如上所述的至少一个类别被限定形成之后，随着直方频率分布图150的形成扩展，可以将会导致各讲话者之间发生混淆的测试数据对照该类别或一些类别(若有的话，为每一候选讲话者指配的类别)可以进行比较。仅在讲话几秒或即几百帧之后，这种比较通常可以提供有用的结果。例如，如果在验证过程中(例如周期性测试为先前识别的讲话者的语音的语音时)，有一个类别不同于该先前识别的讲话者所属的类别，则该验证就可以为存在问题。这种可能性特别有利是在根据起始识别已准许进入之后，当识别有问题时，拒绝使用者进入安全***。为了进行识别，一旦两个或有限数量的讲话者占优势时，仅在与占优势的一些讲话者相对应的一或两个类别中的讲话者需要进一步分析。仅在相当短的几秒或较少数量的帧之后可作出决定，极大地加速了讲话者的识别过程。

也可以一种便于快速和/或详细匹配处理的方式做出其它决定，以及通过仅利用快速匹配处理，这些其它决定可以使得能够进行对讲话者的可能需要的或至少试探性的识别。例如，如在图2B中所表示的，其中对讲话者1和3形成可比较的计数值，如果候选的各讲话者不属于相同的类别(例如，当讲话者3登记时，不会形成包含讲话者1的一个类别)，根据相对少的帧通过快速匹配处理通常可以正确地选择或试探性识别与较大直方频率分布峰值相关的讲话者(或当这些讲话者之间存在混淆时)，可以取消未按其他讲话者分类的讲话者，这是由于可以认为，根据进一步的讲话语音随后将会形成直方频率分布的各峰值的幅值分散。本发明的这一特征保证加速利用本发明中的快速匹配部分100进行的讲话者识别过程，并使得与讲话者相关的模型能由群体和语音解码器230由用于讲话者身份验证和语音识别的数据库300调用。

如果通过检索数据库300利用比较器160进行检测，各讲话者处于同一类别，可以在一较早的时间点调出该单一类别中的所有群体的与讲话者相关的模型，这是为了在它们之间进行区分，利用由群体和语音解码器230所包含的讲话者识别机构也可以实现这一点。应注意，这种对一个类别的选择限制了要处理的数据到这样一些数据，这些数据是为了在实际上由于快速匹配部分100所混淆的各讲话者之间进行鉴别所需要的；并导致能够降低处理时间和辅助操作以及对于与讲话者相关的模型的存储要求。仅当实际上发生混淆时才需要各群体，从而降低了总的存储要求。此外，该群体模型220可以用于较早时间的语音解码，这是由于在各群体内部一种发声的含糊解码是不大可能的。

语言解码机构230最好利用隐含的Markox模型(HMM)，该模型具有连续密度高斯混合比，以使输出分布模型化(即，在HMM模型中的指定弧度观察一指定的声量矢量得到的概率分布密度的函数)。对于不同的预先存入的讲话者存入一组最大值后验(MAP)推测的模型、或适合的其它与讲话者相关的算法，(像重新训练、利用相关性(ABC)的匹配、最大相似性线性回归(MLLR)或群体的变换(CT)等算法)。在登记过程中，利用与性别无关的***对各种发声进行解码。然后每个预先输入的***用于对于相同的基准计算相似性。抽取N最佳的讲话者并计算各线性变换式，以便制定每个接近登记的讲话者的所选择的预输入的讲话者模型。利用这些数据，对于该新的各讲话者建立新的Gaussians(高斯模型)。未说明的Gaussians(高斯模型)最好利用ABC算法加以采用。在识别讲话者的过程中，通过利用一与讲话者无关的模型产生的相同基准，将由该讲话者以及其群体产生的相似性进行比较。

虽然，这一处理过程可以就计算而言是充分的，实际上用于在各群体之间进行区分的登记数据可能是十分有限的，特别是如果所形成的数据是与语境相关的或由讲话内容提示的时候。在后面这些情况下，如果快速匹配识别或验证不成功，可以按与语境相关的方式进行识别和验证。然而，如上所述的各基准的计算和比较，如果需要使得讲话内容的独立性能用于进行识别或验证。因此，利用快速匹配处理对于大多数识别和验证的运算操作实现了与语境无关，同时使存储要求降至最低以及如上所述在详细匹配阶段200中已降到很低程度的计算辅助操作因此被加速。

根据上述观点，综合了快速和详细匹配部分的本发明的混合***能进行很快的讲话者识别，如果有增加存储量的要求也是很小的，这是由于详细匹配阶段的处理过程通常使得对存储的要求能够降低，降低的程度超过足以对各代码簿存储的补充，在很大程度上是因为为了主要在一组中的各讲话者之间进行区分而不是更充分地鉴别每个讲话者的语音特征，可以建立各与讲话者相关的模型。讲话者身份的登记、识别和验证以一种对使用人透明的方式进行，除了与语境相关程度可用于限制对在各讲话者之间进行较小数量的鉴别所需的存储以外。混合配置的快速匹配部分和详细匹配部分加速相互之间的操作，同时提供用于对各群体自动处理以及对搜索行动提供足够的支持，以及通过降低由于有效搜索行动在每个部分补充的处理数据的数量限制了处理过程的辅助操作。随着使用者人数变得很大，这些好处仍得以保持。

虽然根据单一的优选实施例已对发明进行了介绍，本技术领域的技术人员将会认识到，在附加的权利要求的构思和范围内本发明可以实施改进。

Claims

1、一种用于识别讲话者的方法，包含的步骤有：

将登记的讲话者分成各组；

在最可能包含该特定发声的讲话者的所述各组登记的讲话者之中识别一个讲话者或一组讲话者；以及

依靠与讲话者相关的模型，在所述组内的各讲话者中对照该发声，以便确定具有所述发声的讲话者的身份。

2、如权利要求1所述的方法，其特征在于，识别一组的步骤还包含有：

对于具有所述发声的所述讲话者进行试探性识别。

3、如权利要求1所述的方法，其特征在于，至少所述识别步骤包含有：

验证所述发声的讲话者很可能是利用所述识别步骤先前已识别的讲话者。

4、如权利要求1所述的方法，其特征在于，所述分成组的步骤还包含有：

在登记过程中，集合代表一新的讲话者的发声的特征矢量，以形成对于所述新讲话者的代码簿；

依靠对于先前登记的讲话者的代码簿对所述特征矢量解码；

当在所述新的讲话者和所述先前登记的讲话者之间检测到可能出现混淆时，将所述新的讲话者和一先前登记的讲话者相联系识别。

5、如权利要求4所述的方法，其特征在于，还包含的步骤有：

形成一能够在一组中的相关联的各讲话者之间进行区分的与讲话者相依存的模型。

6、如权利要求1所述的方法，其特征在于，所述匹配步骤是与语境相关的。

7、如权利要求2所述的方法，其特征在于，所述进行试探性识别的步骤还包含有：

确定至少两个用于识别的候选讲话者；及

假如各候选讲话者不在一个类别中相关联，选择各候选讲话者之中最可能的一个。

8、如权利要求2所述的方法，其特征在于，所述进行试探性识别的步骤还包含有：

确定至少三个候选讲话者用于识别，所述至少三个候选讲话者之中的至少两个以及少于总数的讲话者是在一个类别中相互关联的，以及

取消所述至少三个候选讲话者中不在所述类别中相互关联的一个候选讲话者。

9、如权利要求1所述的方法，其特征在于，所述识别一个讲话者或一组讲话者的步骤和所述将发声进行匹配的步骤是按层次进行的。

10、如权利要求3所述的方法，其特征在于，所述验证步骤包含：

确定发声的讲话者是否处在与所述先前识别的讲话者共同的类别里。

11、如权利要求10所述的方法，其特征在于，还包含的步骤有：

重复所述匹配步骤，以完成所述验证步骤。

12、如权利要求1所述的方法，其特征在于，还包含的步骤有：

验证具有另外发声的讲话者很可能是通过所述识别步骤或通过至少重复所述识别步骤的所述匹配步骤识别的讲话者。

13、如权利要求12所述的方法，其特征在于，还包含的步骤有：

确定这样一种相似性，即具有另外发声的讲话者是这样一组讲话者中的一员，这一组不包含通过所述识别步骤或所述匹配步骤识别的所述讲话者的相似性要大于具有另外发声的讲话者是通过所述识别步骤或所述匹配步骤识别的所述讲话者的相似性；以及

终止所述验证步骤并指出所述验证步骤出现问题。

14、如权利要求9所述的方法，其特征在于，通过矢量集合实行识别步骤。

15、如权利要求9所述的方法，其特征在于，利用一经学习的与讲话者相关的模型通过对所述发声进行解码实行所述匹配步骤，以及按照最可能的模型学习的讲话者来识别一讲话者。

16、一种讲话者识别装置，包含：

一装置，用于对一发声声音形成的各帧取样以及确定具有所述发声声音形成的各帧中相应一些帧的最可能的讲话者，所述用于取样的装置包含用于检测在具有所述发声的讲话者与一个或多个先前已登记的讲话者之间可能产生混淆的装置，以及

一装置，响应于所述用于检测可能形成混淆的装置，用于形成用以在所述讲话者和所述先前登记的讲话者之间进行区分的与讲话者相关的模型。

17、如权利要求16所述的装置，其特征在于，还包含：

一装置，用于响应于所述用于检测可能形成混淆的装置，将各讲话者分成组；以及

一装置，用于响应于最前面所述的取样装置依靠有限数目的组的与讲话者相关的模型将一种发声声音进行匹配。

18、如权利要求16所述的装置，其特征在于，所述用于取样的装置包含：

用于登记新的讲话者的装置。