CN109785846A

CN109785846A - 单声道的语音数据的角色识别方法及装置

Info

Publication number: CN109785846A
Application number: CN201910012155.XA
Authority: CN
Inventors: 顾艳梅; 马骏; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-01-07
Filing date: 2019-01-07
Publication date: 2019-05-21
Anticipated expiration: 2039-01-07
Also published as: CN109785846B

Abstract

本发明涉及人工智能领域，公开了一种单声道的语音数据的角色识别方法及装置。方法包括：对语音数据进行语音识别，以得到语音数据的录音信息和录音时长；其中，录音时长记录录音信息的时间长度；基于通用背景模型从录音信息中提取说话人的声音特征；根据录音时长确定对所述说话人的角色判断阈值；将说话人的声音特征与预存储的目标角色的声音特征进行相似度比对，以获得相似度比对结果；根据相似度比对结果与角色判断阈值之间的关系确定语音数据中的说话人是否为所述目标角色。本技术方案解决现有技术不适用实时的说话人识别、对于时长较短的录音识别正确率较低、对于角色识别没有纠错机制的问题。

Description

单声道的语音数据的角色识别方法及装置

【技术领域】

本发明涉及人工智能中语音识别技术领域，尤其涉及一种单声道的语音数据的角色识别方法及装置。

【背景技术】

近年来，人工智能(Artificial Intelligence，简称AI)技术飞速发展，在零售、交通、物流、医疗和教育等多个领域得到广泛应用，而且随着针对深度学习的研究不断深入，使得人工智能的应用领域更为广泛。

现有技术中，提供一种说话人识别方法及装置，该方法主要包括如下步骤：1)接收说话人的语音信号；2)获取所述语音信号的基频值；3)基于所述语音信号获取所述说话人的声道长度；4)至少根据所述基频值和所述声道长度识别所述说话人的类别。

但是该方案存在如下缺陷：(1)对于时长较短的录音无法进行准确判断；(2)对于错误的角色信息无纠正措施；(3)该方法框架不适用于实时的说话人识别。

【发明内容】

有鉴于此，本发明实施例提供了一种单声道的语音数据的角色识别方法及装置，用以解决现有技术不适用实时的说话人识别、对于时长较短的录音识别正确率较低、对于角色识别没有纠错机制的问题。

一方面，本发明实施例提供了一种单声道的语音数据的角色识别方法，包括：对语音数据进行语音识别，以得到所述语音数据的录音信息和录音时长；其中，所述录音时长记录所述录音信息的时间长度；基于通用背景模型从所述录音信息中提取说话人的声音特征；根据所述录音时长确定对所述说话人的角色判断阈值；将所述说话人的声音特征与预存储的目标角色的声音特征进行相似度比对，以获得相似度比对结果；根据所述相似度比对结果与所述角色判断阈值之间的关系确定所述语音数据中的说话人是否为所述目标角色。

可选的，所述基于通用背景模型从所述录音信息中提取说话人的声音特征包括：判断所述录音时长是否大于预设时间阈值；若所述录音时长大于或等于所述预设时间阈值，则基于所述通用背景模型从所述录音信息中提取说话人的声音特征；若所述录音时长小于所述预设时间阈值，则复制多份所述录音信息以使经复制后的录音信息的时间长度大于或等于所述预设时间阈值，再基于所述通用背景模型从经复制后的录音信息中提取说话人的声音特征。

可选的，在所述根据所述相似度比对结果与所述角色判断阈值之间的关系确定所述说话人是否为所述目标角色之后，还包括：选取至少三条已识别说话人角色的录音信息；将选取的录音信息中录音时长最长的录音信息分别与所述录音信息中除录音时长最长的录音信息之外的其余录音信息进行相似度比对，以得到相应的比对结果；根据比对结果对所述其余录音信息的说话人角色的识别结果进行纠正。

可选的，所述根据比对结果对所述其余录音信息的说话人角色的识别结果进行纠正包括：判断所述录音时长最长的录音信息与所述其余录音信息中的第一录音信息的比对结果是否为相似度高于相似阈值；若相似度大于或者等于所述相似阈值，但所述第一录音信息与所述录音时长最长的录音信息的说话人角色的识别结果不同，则将所述第一录音信息的说话人角色的识别结果纠正为与所述录音时长最长的录音信息的说话人角色的识别结果相同；若相似度小于所述相似阈值且所述第一录音信息与所述录音时长最长的录音信息的说话人角色的识别结果不同，或者相似度虽然大于或者等于所述相似阈值，但所述第一录音信息与所述录音时长最长的录音信息的说话人角色的识别结果相同，则不更改所述第一录音信息的说话人角色的识别结果。

可选的，在所述基于通用背景模型从所述录音信息中提取说话人的声音特征之后，还包括：利用信道补偿算法对提取的说话人的声音特征进行信道补偿。

另一方面，本发明实施例提供了一种单声道的语音数据的角色识别装置，包括：语音识别模块，用于对语音数据进行语音识别，以得到所述语音数据的录音信息和录音时长；其中，所述录音时长记录所述录音信息的时间长度；特征提取模块，用于基于通用背景模型从所述录音信息中提取说话人的声音特征；阈值确定模块，用于根据所述录音时长确定对所述说话人的角色判断阈值；特征对比模块，用于将所述说话人的声音特征与预存储的目标角色的声音特征进行相似度比对，以获得相似度比对结果；角色判决模块，用于根据所述相似度比对结果与所述角色判断阈值之间的关系确定所述语音数据中的说话人是否为所述目标角色。

另一方面，本发明实施例还提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现上述单声道的语音数据的角色识别方法。

再一方面，本发明实施例还提供了一种非临时性计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述单声道的语音数据的角色识别方法。

与现有技术相比，本技术方案至少具有如下有益效果：

根据本发明实施例提供的单声道的语音数据的角色识别方法，利用自动语音识别对单声道的语音数据进行识别，得到语音数据的录音信息和录音时长。采用实时ASR对语音数据进行识别以使接收到的语音数据仅含有一个说话人角色。然后，基于通用背景模型从录音信息中提取说话人的声音特征，并根据录音时长确定对说话人的角色判断阈值。接着，将说话人的声音特征与预存储的目标角色的声音特征进行相似度比对，以获得相似度比对结果，进而根据所述相似度比对结果与所述角色判断阈值之间的关系确定所述语音数据中的说话人是否为所述目标角色。

进一步，在基于通用背景模型从所述录音信息中提取说话人的声音特征的过程中，针对录音时长较短(小于预设时间阈值)的录音信息，通过复制多份所述录音信息以使经复制后的录音信息的时间长度大于或等于所述预设时间阈值，从而使得后续从复制后的录音信息(录音时长较长)中提取的说话人的声音特征更容易识别出说话人的角色。

进一步，通过选取至少三条已识别说话人角色的录音信息，将其中录音时长最长的录音信息分别与其余录音时长相对较短的录音信息进行比对，以得到相应的比对结果，根据比对结果对所述其余录音信息的说话人角色的识别结果进行纠正。由于针对录音时长较长的录音信息中说话人的角色识别相对较准确，因此采用上述纠错机制可以对识别结果进行纠正，从而进一步提高角色识别的准确率。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本申请的单声道的语音数据的角色识别方法的一个实施例的流程示意图；

图2是本申请的单声道的语音数据的角色识别方法的另一个实施例的流程示意图；

图3是本申请的单声道的语音数据的角色识别方法的另一个实施例的流程示意图；

图4是本申请的单声道的语音数据的角色识别装置的一个实施例的结构示意图；

图5是本申请计算机设备一个实施例的结构示意图。

【具体实施方式】

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1是本申请的单声道的语音数据的角色识别方法的一个实施例的流程示意图。参考图1，所述方法包括：

步骤101、对语音数据进行实时语音识别，以得到所述语音数据的录音信息和录音时长；其中，所述录音时长记录所述录音信息的时间长度。

本实施例中，可以利用自动语音识别(Automatic Speech Recognition，简称ASR)实时对从单声道接收到的语音数据进行自动识别，在识别到一句完整的句子后，对所述语音数据进行处理以得到所述语音数据的录音信息和录音时长。其中，所述录音信息是所述语音数据(具体为识别到的一句完整的句子)中的声音信息，包括说话人的声音以及噪声。所述录音时长记录所述录音信息的时间长度，即识别到的一句完整的句子的时间长度。

需要说明的是，利用ASR从语音数据中识别到的一句完整的句子是由同一说话人说的，不同的说话人说的句子被识别为不同的完整的句子。而对于同一说话人连续说的多个句子，可以被识别为一句完整的句子(即录音时长较长的句子)或者多句完整的句子(相对各个录音时长较短的句子)。

步骤102、基于通用背景模型从所述录音信息中提取说话人的声音特征。

具体地，所述通用背景模型(Universal Background Model，简称UBM)是由训练模块通过海量的训练数据训练后得到。所述通用背景模型中包含多个维度的说话人的声音特征，根据这些维度可以映射出不同说话人的声音特征信息。在本实施例中，所述声音特征为i-vector特征。在i-vector特征模型中，可以采用全局差异空间(Total VariabilitySpace)估计和i-vector估计，全局差异空间可保证向量在投影后对说话人信息和信道信息区分性更加明显。

本步骤中，基于通用背景模型中多个维度的i-vector特征，从录音信息中提取说话人的声音特征。本领域技术人员理解，对于录音时长较短的录音信息，由于其中包含的说话人的声音特征较少，因此根据从录音信息中提取的说话人的声音特征较难识别出说话人的角色。

步骤103、根据所述录音时长确定对所述说话人的角色判断阈值。

具体地，对于录音时长不同的录音信息，从中提取的说话人的声音特征会有很大的差别。例如，对于录音时长较长的录音信息，录音信息中包含相对丰富的信息，从中提取的说话人的声音特征更能充分表现说话人的身份，而对于录音时长较短的录音信息，录音信息中包含相对较少的信息，从中提取的说话人的声音特征不足以充分表现说话人的身份。

进而，在后续根据提取的说话人的声音特征进行角色识别过程中，对于从不同的录音时长的录音信息中获取的声音特征的相似度比对结果不能按照相同的标准去评判。也就是说，即使经过相似度比对后获得相同的相似度比对结果，但由于从不同录音时长的录音信息中提取到的i-vector特征对识别说话人的角色的表现能力是不同的，因此在确定角色识别结果时，需要实时更新角色判断阈值。因此对于该相同的相似度比对结果可能得出不同的角色识别结果。

因此，在本实施例中，针对不同的录音时长需要确定不同的角色判断阈值(即不同的评判标准)对获得的相似度比对结果进行判定。例如，对于录音时长较长的录音信息，设定的角色判断阈值较大，而对于录音时长较短的录音信息，设定的角色判断阈值较小。也就是说，对于录音时长较短(即提取的说话人的声音特征也较少)的录音信息，设定更低的阈值门槛。

在实际应用中，针对当前待识别的录音信息，根据该录音信息的录音时长将相应地更新所述角色判断阈值。

步骤104、将所述说话人的声音特征与预存储的目标角色的声音特征进行相似度比对，以获得相似度比对结果。

具体地，所述预存储的目标角色的声音特征可以通过预先对所述目标角色的声音特征进行收集并存储于数据库中，用于角色识别的判决。在实际应用中，可以有多个目标角色，因而可以利用不同的账号(或者不同的身份标识等)分别将各个目标角色的声音特征存储于相对应的账号中。

所述目标角色的声音特征也是i-vector特征。因此，通过将录音信息中提取的说话人的声音特征与预存储的目标角色的声音特征进行相似度比对可以获得相似度比对结果。其中，相似度比对结果可以是具体的得分(例如80分)，也可以是表示相似度的百分比(例如60％)等。

如上文所述，i-vector特征模型采用全局差异空间中包含了说话人之间的差异又包含了信道之间的差异。因此，在实际应用中，在本步骤之后还可以包括：利用信道补偿算法对提取的说话人的声音特征进行信道补偿。其中，所述信道补偿算法为概率线性判别分析算法(Probabilistic Linear Discriminant Analysis，简称PLDA)。

步骤105、根据所述相似度比对结果与所述角色判断阈值之间的关系确定所述语音数据中的说话人是否为所述目标角色。

具体地，基于上述步骤103确定对所述录音信息中说话人的角色判断阈值，比较所述相似度比对结果与所述角色判断阈值之间的关系，从而确定所述说话人是否为所述目标角色。

例如，所述角色判断阈值为：大于或等于60分，即确定说话人为目标角色；小于60分，即确定说话人不是目标角色。若根据上述步骤104获得的相似度比对结果为80分，即确定所述说话人为所述目标角色。

又例如，所述角色判断阈值为：大于或等于80％，即确定说话人为目标角色；小于80％，即确定说话人不是目标角色。若根据上述步骤104获得的相似度比对结果为60％，即确定所述说话人不是所述目标角色。

本实施例应用于对单声道的多个说话人的语音数据进行分析以实现对多个说话人的角色识别。

图2是本申请的单声道的语音数据的角色识别方法的另一个实施例的流程示意图。如图2所示，本申请图1所示实施例中，步骤102具体包括：

步骤1021：判断所述录音时长是否大于预设时间阈值。

步骤1022：若大于或等于所述预设时间阈值，则基于所述通用背景模型从所述录音信息中提取说话人的声音特征。

步骤1023：若小于所述预设时间阈值，则复制多份所述录音信息以使经复制后的录音信息的时间长度大于或等于所述预设时间阈值，再基于所述通用背景模型从经复制后的录音信息中提取说话人的声音特征。

具体地，其中，所述预设时间阈值可以根据不同的应用场景设置不同的时间阈值，例如可以设置预设时间阈值为1秒。

对于录音时长大于或者等于所述预设时间阈值的录音信息，则直接基于所述通用背景模型从所述录音信息中提取说话人的声音特征。

对于录音时长小于所述预设时间阈值的录音信息，将录音信息(录音时长较短)复制多份后得到录音时长较长(至少等于所述预设时间阈值)的录音信息，然后再基于所述通用背景模型从所述录音信息中提取说话人的声音特征。由于经过复制后的录音信息中包含说话人更多的声音特征，因此便于后续识别说话人的角色。

根据上述实施例提供的单声道的语音数据的角色识别方法，可以实时地对语音数据中的说话人进行角色识别，并且提高了对时长较短的录音进行角色识别的准确率。

但在实际应用中，由于角色判断阈值是基于训练数据获得的，在训练数据不够充分或者训练算法不够精确的情况下，根据上述单声道的语音数据的角色识别方法得到的识别结果可能会有差错。因此，发明人进一步研究，提出了对基于上述方法获得的角色识别结果进行纠错更正的方案。

图3是本申请的单声道的语音数据的角色识别方法的另一个实施例的流程示意图。如图3所示，根据上述步骤105，在获得了多条语音数据的说话人的角色识别结果后，还包括：

步骤106、选取至少三条已识别说话人角色的录音信息。

具体地，在已识别说话人角色的录音信息中任意选取N条(其中N大于或等于3，即至少三条)录音信息。

步骤107、将选取的录音信息中录音时长最长的录音信息分别与所述录音信息中除录音时长最长的录音信息之外的其余录音信息进行相似度比对，以得到相应的比对结果。

具体地，将其中录音时长最长的录音信息分别与其余录音信息进行比对，从而得到N-1个比对结果。例如，可以参照上述步骤104所述的比对方法，比对两个录音信息中说话人的声音特征的相似度，从而得到N-1个的比对结果。

步骤108、根据比对结果对所述其余录音信息的说话人角色的识别结果进行纠正。

所述步骤108具体包括：

步骤1081、判断录音时长最长的录音信息与所述其余录音信息中第一录音信息的比对结果是否为相似度高于相似阈值。

其中，所述相似阈值可以预先设置，且相似阈值与相似度是同一类数值，例如都是得分或者百分比。

步骤1082、若相似度大于或者等于所述相似阈值，但所述第一录音信息与所述录音时长最长的录音信息的说话人角色的识别结果不同，则将所述第一录音信息的说话人角色的识别结果纠正为与所述录音时长最长的录音信息的说话人角色的识别结果相同。

步骤1083、若相似度小于所述相似阈值且所述第一录音信息与所述录音时长最长的录音信息的说话人角色的识别结果不同，或者相似度虽然大于或者等于所述相似阈值，但所述第一录音信息与所述录音时长最长的录音信息的说话人角色的识别结果相同，则不更改所述第一录音信息的说话人角色的识别结果。

具体来说，根据步骤1081的判断结果，如果录音时长最长的录音信息与所述第一录音信息的相似度很高(即大于或者等于相似阈值)，那么这两条录音信息的说话人角色应该是相同的。如果原先的识别结果是不相同，则纠正所述第一录音信息(即录音时长较短的录音信息)的说话人角色的识别结果，以使所述第一录音信息的说话人角色的识别结果与录音时长最长的录音信息的说话人角色的识别结果相同。如果原先的识别结果是相同，则不更改所述第一录音信息的说话人角色的识别结果。

反之，如果录音时长最长的录音信息与所述第一录音信息的相似度不高(即小于所述相似阈值)，那么这两条录音信息的说话人角色应该是不同的。如果原先的识别结果是不相同，则不更改所述第一录音信息的说话人角色的识别结果。如果原先的识别结果是相同，则纠正所述第一录音信息(即录音时长较短的录音信息)的说话人角色的识别结果，以使所述第一录音信息的说话人角色的识别结果与录音时长最长的录音信息的说话人角色的识别结果不同。

对于所述其余录音信息中的各条录音信息都按照上述步骤1081～步骤1083的实施过程进行判断和纠正，在此不再赘述。

由于针对录音时长较长的录音信息中说话人的角色识别相对较准确，因此采用上述步骤106～步骤108的纠错机制可以对识别结果进行纠正，从而进一步提高角色识别的准确率。

图4是本申请的单声道的语音数据的角色识别装置的一个实施例的结构示意图。参考图4，所述角色识别装置4包括：

语音识别模块41，用于对语音数据进行语音识别，以得到所述语音数据的录音信息和录音时长；其中，所述录音时长记录所述录音信息的时间长度。

特征提取模块42，用于基于通用背景模型从所述录音信息中提取说话人的声音特征。

阈值确定模块43，用于根据所述录音时长确定对所述说话人的角色判断阈值。

特征对比模块44，用于将所述说话人的声音特征与预存储的目标角色的声音特征进行相似度比对，以获得相似度比对结果。

角色判决模块45，用于根据所述相似度比对结果与所述角色判断阈值之间的关系确定所述语音数据中的说话人是否为所述目标角色。

其中，所述特征提取模块42包括：时长判断单元421，用于判断所述录音时长是否大于预设时间阈值。特征提取处理单元422，用于若所述录音时长大于或等于所述预设时间阈值，则基于所述通用背景模型从所述录音信息中提取说话人的声音特征。所述特征提取处理单元422，还用于若所述录音时长小于所述预设时间阈值，则复制多份所述录音信息以使经复制后的录音信息的时间长度大于或等于所述预设时间阈值，再基于所述通用背景模型从经复制后的录音信息中提取说话人的声音特征。

所述角色识别装置4还包括：录音信息选取模块46，用于选取至少三条已识别说话人角色的录音信息。录音信息比对模块47，用于将选取的录音信息中录音时长最长的录音信息分别与所述录音信息中除录音时长最长的录音信息之外的其余录音信息进行相似度比对，以得到相应的比对结果。角色判决纠正模块48，用于根据比对结果对所述其余录音信息的说话人角色的识别结果进行纠正。

其中，所述角色判决纠正模块48包括：

比对判断单元481，用于判断所述录音时长最长的录音信息与所述其余录音信息中的第一录音信息的比对结果是否为相似度高于相似阈值。

纠正处理单元482，用于若相似度大于或者等于所述相似阈值，但所述第一录音信息与所述录音时长最长的录音信息的说话人角色的识别结果不同，则将所述第一录音信息的说话人角色的识别结果纠正为与所述录音时长最长的录音信息的说话人角色的识别结果相同。

所述纠正处理单元482，还用于若相似度小于所述相似阈值且所述第一录音信息与所述录音时长最长的录音信息的说话人角色的识别结果不同，或者相似度虽然大于或者等于所述相似阈值，但所述第一录音信息与所述录音时长最长的录音信息的说话人角色的识别结果相同，则不更改所述第一录音信息的说话人角色的识别结果。

所述角色识别装置4还包括：信道补偿模块49，用于利用信道补偿算法对提取的说话人的声音特征进行信道补偿。

本实施例所述的角色识别装置中各个模块、单元的具体处理过程可以参照上文方法实施例，在此不再赘述。

图5为本申请计算机设备一个实施例的结构示意图，上述计算机设备可以包括存储器、处理器及存储在上述存储器上并可在上述处理器上运行的计算机程序，上述处理器执行上述计算机程序时，可以实现本申请实施例提供的掌纹识别方法。

其中，上述计算机设备可以为服务器，例如：云服务器，也可以为电子设备，例如：智能手机、智能手表或平板电脑等智能电子设备，本实施例对上述计算机设备的具体形态不作限定。

图5示出了适于用来实现本申请实施方式的示例性计算机设备12的框图。图5显示的计算机设备12仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图5所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，***存储器28，连接不同***组件(包括***存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，***总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及***组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

计算机设备12典型地包括多种计算机***可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

***存储器28可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，存储***34可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块52的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块52包括——但不限于——操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块52通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图5所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图5中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

处理单元16通过运行存储在***存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本申请实施例提供的掌纹识别方法。

本申请实施例还提供一种非临时性计算机可读存储介质，其上存储有计算机程序，上述计算机程序被处理器执行时可以实现本申请实施例提供的掌纹识别方法。

上述非临时性计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read Only Memory；以下简称：ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory；以下简称：EPROM)或闪存、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network；以下简称：LAN)或广域网(Wide Area Network；以下简称：WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种单声道的语音数据的角色识别方法，其特征在于，包括：

对语音数据进行语音识别，以得到所述语音数据的录音信息和录音时长；其中，所述录音时长记录所述录音信息的时间长度；

基于通用背景模型从所述录音信息中提取说话人的声音特征；

根据所述录音时长确定对所述说话人的角色判断阈值；

将所述说话人的声音特征与预存储的目标角色的声音特征进行相似度比对，以获得相似度比对结果；

根据所述相似度比对结果与所述角色判断阈值之间的关系确定所述语音数据中的说话人是否为所述目标角色。

2.如权利要求1所述的方法，其特征在于，所述基于通用背景模型从所述录音信息中提取说话人的声音特征包括：

判断所述录音时长是否大于预设时间阈值；

若所述录音时长大于或等于所述预设时间阈值，则基于所述通用背景模型从所述录音信息中提取说话人的声音特征；

若所述录音时长小于所述预设时间阈值，则复制多份所述录音信息以使经复制后的录音信息的时间长度大于或等于所述预设时间阈值，再基于所述通用背景模型从经复制后的录音信息中提取说话人的声音特征。

3.如权利要求1所述的方法，其特征在于，在所述根据所述相似度比对结果与所述角色判断阈值之间的关系确定所述说话人是否为所述目标角色之后，还包括：

选取至少三条已识别说话人角色的录音信息；

将选取的录音信息中录音时长最长的录音信息分别与所述录音信息中除录音时长最长的录音信息之外的其余录音信息进行相似度比对，以得到相应的比对结果；

根据比对结果对所述其余录音信息的说话人角色的识别结果进行纠正。

4.如权利要求3所述的方法，其特征在于，所述根据比对结果对所述其余录音信息的说话人角色的识别结果进行纠正包括：

判断所述录音时长最长的录音信息与所述其余录音信息中的第一录音信息的比对结果是否为相似度高于相似阈值；

若相似度大于或者等于所述相似阈值，但所述第一录音信息与所述录音时长最长的录音信息的说话人角色的识别结果不同，则将所述第一录音信息的说话人角色的识别结果纠正为与所述录音时长最长的录音信息的说话人角色的识别结果相同；

若相似度小于所述相似阈值且所述第一录音信息与所述录音时长最长的录音信息的说话人角色的识别结果不同，或者相似度虽然大于或者等于所述相似阈值，但所述第一录音信息与所述录音时长最长的录音信息的说话人角色的识别结果相同，则不更改所述第一录音信息的说话人角色的识别结果。

5.如权利要求1所述的方法，其特征在于，在所述基于通用背景模型从所述录音信息中提取说话人的声音特征之后，还包括：

利用信道补偿算法对提取的说话人的声音特征进行信道补偿。

6.一种单声道的语音数据的角色识别装置，其特征在于，包括：

语音识别模块，用于对语音数据进行语音识别，以得到所述语音数据的录音信息和录音时长；其中，所述录音时长记录所述录音信息的时间长度；

特征提取模块，用于基于通用背景模型从所述录音信息中提取说话人的声音特征；

阈值确定模块，用于根据所述录音时长确定对所述说话人的角色判断阈值；

特征对比模块，用于将所述说话人的声音特征与预存储的目标角色的声音特征进行相似度比对，以获得相似度比对结果；

角色判决模块，用于根据所述相似度比对结果与所述角色判断阈值之间的关系确定所述语音数据中的说话人是否为所述目标角色。

7.如权利要求6所述的装置，其特征在于，所述特征提取模块包括：

时长判断单元，用于判断所述录音时长是否大于预设时间阈值；

特征提取处理单元，用于若所述录音时长大于或等于所述预设时间阈值，则基于所述通用背景模型从所述录音信息中提取说话人的声音特征；

所述特征提取处理单元，还用于若所述录音时长小于所述预设时间阈值，则复制多份所述录音信息以使经复制后的录音信息的时间长度大于或等于所述预设时间阈值，再基于所述通用背景模型从经复制后的录音信息中提取说话人的声音特征。

8.如权利要求6所述的装置，其特征在于，还包括：

录音信息选取模块，用于选取至少三条已识别说话人角色的录音信息；

录音信息比对模块，用于将选取的录音信息中录音时长最长的录音信息分别与所述录音信息中除录音时长最长的录音信息之外的其余录音信息进行相似度比对，以得到相应的比对结果；

角色判决纠正模块，用于根据比对结果对所述其余录音信息的说话人角色的识别结果进行纠正。

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-5中任一所述的方法。

10.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5中任一所述的方法。