CN111145758A

CN111145758A - 声纹识别方法、***、移动终端及存储介质

Info

Publication number: CN111145758A
Application number: CN201911357829.6A
Authority: CN
Inventors: 叶林勇; 肖龙源; 李稀敏; ***; 刘晓葳
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-05-12

Abstract

本发明提供了一种声纹识别方法、***、移动终端及存储介质，该方法包括：获取待识别语音数据，对待识别语音数据进行特征提取得到声学特征；对声学特征进行解码识别得到文本内容，根据文本内容对待识别语音数据进行文本切割；根据文本切割的结果判定待识别语音数据的文本类型，根据文本类型以查询目标识别模型；根据目标识别模型对待识别语音数据进行声纹识别，以得到声纹识别结果。本发明通过根据文本内容对待识别语音数据进行文本切割的设计，以判定待识别语音数据的文本类型，以使能根据判定到的文本类型将待识别语音数据输送至对应声纹识别模型进行声纹识别，防止了声纹识别过程中注册语音和待识别语音不一致的问题，提高了声纹识别的准确率。

Description

声纹识别方法、***、移动终端及存储介质

技术领域

本发明属于声纹识别技术领域，尤其涉及一种声纹识别方法、***、移动终端及存储介质。

背景技术

每个人的声音都蕴涵着特有的生物特征，声纹识别是指利用说话人的声音来识别说话人的一种技术手段。声纹识别同指纹识别等技术一样具有高度的安全可靠性，可以应用在所有需要做身份识别的场合。如在刑侦、银行、证券、保险等金融领域。与传统的身份识别技术相比，声纹识别的优势在于，声纹提取过程简单，成本低，且具有唯一性，不易伪造和假冒。

现有声纹识别方案是提前采集至少一个用户的语音数据，并对语音数据进行特征值提取，将提取到的特征值输入声纹模型得到N维声纹向量。后面在做确认或者识别的时候，先获取任意一个用户的语音数据，然后对语音数据提取特征值，将特征值输入声纹模型，得到N维声纹向量，再与声纹库里原有的声纹向量做相似度匹配，每匹配一个用户会得到一个分值，分值最高并且大于阈值的声纹为待测语音所对应的用户。但现有技术当待测语音不是说话语音时，例如当待测语音为一段随机文本，注册语音为一句固定文本时，则得到的识别结果不准确，造成声纹识别准确率较低。

发明内容

本发明实施例的目的在于提供一种声纹识别方法、***、移动终端及存储介质，旨在解决现有的声纹识别方法识别准确率低的问题。

本发明实施例是这样实现的，一种声纹识别方法，所述方法包括：

获取待识别语音数据，并对所述待识别语音数据进行特征提取，以得到声学特征；

对所述声学特征进行解码识别，以得到文本内容，并根据所述文本内容对所述待识别语音数据进行文本切割；

根据所述文本切割的结果判定所述待识别语音数据的文本类型，并根据所述文本类型以查询目标识别模型，所述目标识别模型为文本相关识别模型、文本无关识别模型或文本半相关识别模型；

根据所述目标识别模型对所述待识别语音数据进行声纹识别，以得到声纹识别结果。

更进一步的，所述对所述声学特征进行解码识别的步骤包括：

将所述声学特征输入声学模型，以得到音素信息；

将所述音素信息输入语言模型并根据预设文本字典进行解码，以得到所述文本内容。

更进一步的，所述根据所述文本内容对所述待识别语音数据进行文本切割的步骤包括：

判断所述文本内容中是否存储有文本文字；

当判断到所述文本内容中存储有所述文本文字时，根据所述文本文字对所述待识别语音数据中对应语音进行文本标记；

当判断到所述文本内容中未存储有所述文本文字时，判断所述文本内容中是否存储有数字；

当判断到所述文本内容中存储有所述数字时，根据所述数字对所述待识别语音数据中对应语音进行数字标记。

更进一步的，所述根据所述文本切割的结果判定所述待识别语音数据的文本类型的步骤包括：

判断所述文本文字是否是本地预存储的固定文本；

若是，则判定所述待识别语音数据为文本相关类型；

若否，则判定所述待识别语音数据为文本无关类型。

当判断到所述文本内容中存储有所述数字时，判断所述数字的个数值是否为个数阈值；

若是，则判定所述待识别语音数据为文本半相关类型；

若否，则发出文本内容错误提示。

更进一步的，所述根据所述文本类型以查询目标识别模型的步骤包括：

当判断到所述待识别语音数据为所述文本相关类型时，判定所述目标识别模型为所述文本相关识别模型；

当判断到所述待识别语音数据为所述文本无关类型时，判定所述目标识别模型为所述文本无关识别模型；

当判断到所述待识别语音数据为所述文本半相关类型，判定所述目标识别模型为所述文本半相关识别模型。

更进一步的，所述根据所述目标识别模型对所述待识别语音数据进行声纹识别的步骤包括：

将所述声学特征输入至所述目标识别模型，以得到特征向量；

根据欧式距离公式计算所述特征向量与本地预存储的样本向量之间的匹配值，并获取所述匹配值中最大值对应的所述样本向量的编号值；

当判断到所述编号值大于编号阈值时，判定所述待识别语音数据的声纹识别合格。

本发明实施例的另一目的在于提供一种声纹识别***，所述***包括：

声学特征提取模块，用于获取待识别语音数据，并对所述待识别语音数据进行特征提取，以得到声学特征；

文本切割模块，用于对所述声学特征进行解码识别，以得到文本内容，并根据所述文本内容对所述待识别语音数据进行文本切割；

模型查询模块，用于根据所述文本切割的结果判定所述待识别语音数据的文本类型，并根据所述文本类型以查询目标识别模型，所述目标识别模型为文本相关识别模型、文本无关识别模型或文本半相关识别模型；

声纹识别模块，用于根据所述目标识别模型对所述待识别语音数据进行声纹识别，以得到声纹识别结果。

本发明实施例的另一目的在于提供一种移动终端，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行上述的声纹识别方法。

本发明实施例的另一目的在于提供一种存储介质，其存储有上述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现上述的声纹识别方法的步骤。

本发明实施例，通过根据所述文本内容对所述待识别语音数据进行文本切割的设计，以判定所述待识别语音数据的文本类型，以使能根据判定到的所述文本类型将所述待识别语音数据输送至对应声纹识别模型进行声纹识别，防止了声纹识别过程中注册语音和待识别语音不一致的问题，有效提高了声纹识别的准确率。

附图说明

图1是本发明第一实施例提供的声纹识别方法的流程图；

图2是本发明第二实施例提供的声纹识别方法的流程图；

图3是本发明第三实施例提供的声纹识别***的结构示意图；

图4是本发明第四实施例提供的移动终端的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例一

请参阅图1，是本发明第一实施例提供的声纹识别方法的流程图，包括步骤：

步骤S10，获取待识别语音数据，并对所述待识别语音数据进行特征提取，以得到声学特征；

其中，通过采用MFCC算法的方式以提取该声学特征，以得到梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients)；

具体的，该梅尔倒谱系数的提取方式包括：预加重-分帧-加窗-FFT处理-滤波器处理-对数运算-离散余弦变换；

步骤S20，对所述声学特征进行解码识别，以得到文本内容，并根据所述文本内容对所述待识别语音数据进行文本切割；

其中，通过基于声学模型和文本字典以进行对该声学特征的解码，具体的，本实施例中，通过根据本地预存储的样本语音数据和样本文本数据分别对声学模型和语言模型进行模型训练，以使根据训练后的声学模型和语音模型能有效的对该待识别语音数据中的语音进行文字识别，以得到该文本内容；

该步骤中，解码得到的文本内容中可以存储有文字、数字或字母等数据，且解码得到的文本内容与该待识别语音数据中的信息一一对应；

步骤S30，根据所述文本切割的结果判定所述待识别语音数据的文本类型，并根据所述文本类型以查询目标识别模型；

其中，所述文本类型包括文本相关类型、文本无关类型和文本半相关类型，所述目标识别模型为文本相关识别模型、文本无关识别模型或文本半相关识别模型；

具体的，该文本相关模型用于识别固定的语音，比如“树上有一只喜鹊”，“商场买东西真方便”，“我家门前有一颗枣树”等固定文本，其中，文本相关模型的注册需要一段重复三遍的语音文件确保提取到的声纹特征值的质量；

文本无关声纹模型用于识别随机的文本，注册要求有效语音文本长度30s以上；

文本半相关声纹模型用于识别随机8位长度动态数字，文本半相关模型的注册要求5组8位的随机动态数字语音；

优选的，该步骤中，所述根据所述文本类型以查询目标识别模型的步骤包括：

当判断到所述待识别语音数据为所述文本相关类型时，判定所述目标识别模型为所述文本相关识别模型，即当判断到该待识别语音数据为本地预存储的固定文本，则判定当前可以采用文本相关识别模型对该待识别语音数据进行声纹识别；

当判断到所述待识别语音数据为所述文本无关类型时，判定所述目标识别模型为所述文本无关识别模型，即当判断到该待识别语音数据为随机文本，则判定当前可以采用文本无关识别模型对该待识别语音数据进行声纹识别；

当判断到所述待识别语音数据为所述文本半相关类型，判定所述目标识别模型为所述文本半相关识别模型，即当判断到该待识别语音数据为数字序列时，则判定当前可以采用文本半相关识别模型对该待识别语音数据进行声纹识别；

步骤S40，根据所述目标识别模型对所述待识别语音数据进行声纹识别，以得到声纹识别结果；

其中，通过使用MFCC算法提该待识别语音数据的声学特征，然后将提取到的声学特征输入到对应的目标识别模型(文本相关模型、文本无关模型或文本半相关模型)，以输出声纹识别结果，该声纹识别结果为待识别语音数据的声纹识别检测合格或不合格；

本实施例，通过根据所述文本内容对所述待识别语音数据进行文本切割的设计，以判定所述待识别语音数据的文本类型，以使能根据判定到的所述文本类型将所述待识别语音数据输送至对应声纹识别模型进行声纹识别，防止了声纹识别过程中注册语音和待识别语音不一致的问题，有效提高了声纹识别的准确率。

实施例二

请参阅图2，是本发明第二实施例提供的声纹识别方法的流程图，包括步骤：

步骤S11，获取待识别语音数据，并对所述待识别语音数据进行特征提取，以得到声学特征；

步骤S21，将所述声学特征输入声学模型，以得到音素信息，并将所述音素信息输入语言模型并根据预设文本字典进行解码，以得到所述文本内容；

其中，通过根据本地预存储的样本语音数据和样本文本数据分别对声学模型和语言模型进行模型训练，以使根据训练后的声学模型和语音模型能有效的对该待识别语音数据中的语音进行音素信息的获取和文本的解码，以得到该文本内容，优选的，该步骤中，可以采用独热编码的方式进行该预设文本字典的编码；

步骤S31，判断所述文本内容中是否存储有文本文字；

其中，该文本文字为任意的预设文字，该预设文字可以为中文、英文、日文或韩文等；

具体的，该步骤中，通过将所述文本内容中的文字依序与预设文字进行匹配，以判定所述文本内容中是否存储有该文本文字，其中，可以通过采用图像匹配方式以进行该文本内容与预设文字之间的匹配；

当步骤S31判断到所述文本内容中存储有所述文本文字时，根据所述文本文字对所述待识别语音数据中对应语音进行文本标记，并执行步骤S41；

其中，通过对对应语音进行文本标记的设计，有效的方便了后续针对该对应语音的抓取，进而提高了所述声纹识别方法的识别效率和准确性；

步骤S41，判断所述文本文字是否是本地预存储的固定文本；

其中，该固定文本可以根据需求进行设置，例如该固定文本可以设置为“树上有一只喜鹊”，“商场买东西真方便”，“我家门前有一颗枣树”等，即该步骤通过判断文本文字是否为预存储的固定文本，以判定该待识别语音是否为文本相关类型；

当步骤S41的判断结果为是时，执行步骤S51；

步骤S51，判定所述待识别语音数据为文本相关类型，并将文本相关识别模型设置为目标识别模型；

其中，当判断到所述待识别语音数据为文本相关类型时，则判定该待识别语音是针对固定文本所发出的语音数据，例如当本地预存储的固定文本为“树上有一只喜鹊”，且判断到该文本内容中存储的文本文字为“树上有一只喜鹊”时，则判定所述待识别语音数据为文本相关类型；

优选的，本实施例中，当判断到所述文本文字与固定文本之间的重复概率大于或等于概率阈值时，则判定所述待识别语音数据为文本相关类型，该概率阈值可以根据需求进行设置，本实施例中的概率阈值为50％，例如：

当本地预存储的固定文本为“树上有只喜鹊”，该文本内容中存储的文本文字为“只喜鹊”时，该重复概率为50％，因此，判定所述待识别语音数据为文本相关类型；

当步骤S41的判断结果为否时，执行步骤S61；

步骤S61，判定所述待识别语音数据为文本无关类型，并将文本无关识别模型设置为目标识别模型；

其中，当判断到所述待识别语音数据为文本无关类型，则判定该待识别语音是针对随机文本所发出的语音数据，该随机文本随时间的变化而发生文字动态变化；

当步骤S31判断到所述文本内容中未存储有所述文本文字时，执行步骤S71；

步骤S71，判断所述文本内容中是否存储有数字；

其中，可以通过采用图像识别的方式以识别该文本内容中是否存储有数字，优选的，在其他实施例中，该步骤还可以判断所述文本内容中是否存储有预设标识，该预设标识可以为字母或符号等；

当步骤S71判断到所述文本内容中存储有所述数字时，根据所述数字对所述待识别语音数据中对应语音进行数字标记，并执行步骤S81；

步骤S81，判断所述数字的个数值是否为个数阈值；

其中，该个数阈值可以根据需求进行数值设置，本实施例中，该个数阈值为8个，即判断所述文本内容中所述数字的数量是否为8个；

优选的，该步骤中，当判断到所述数字的个数与该个数阈值之间的比值大于或等于预设比值时，则判定所述数字的个数值为该个数阈值，该预设比值可以根据需求进行设置，本实施例中的预设比值为0.5，例如：

当所述数字的个数为个时，则所述数字的个数与该个数阈值之间的比值为4:8，因此判定所述数字的个数值为该个数阈值；

当步骤S81的判断结果为是时，执行步骤S91；

步骤S91，判定所述待识别语音数据为文本半相关类型，并将文本半相关识别模型设置为目标识别模型；

其中，当判断到所述待识别语音数据为文本半相关类型时，则判定该待识别语音是针对动态数字所发出的语音数据；

当步骤S71或步骤S81的判断结果为否时，执行步骤101；

步骤101，发出文本内容错误提示；

其中，当判断到所述文本内容中未存储有文字和数字时，则发出文本内容错误提示，该发出文本内容错误提示用于提示用户当前针对待识别语音数据的采集或解码出现了错误；

步骤S111，根据所述目标识别模型对所述待识别语音数据进行声纹识别，以得到声纹识别结果；

具体的，该步骤中，所述根据所述目标识别模型对所述待识别语音数据进行声纹识别的步骤包括：

当判断到所述编号值大于编号阈值时，判定所述待识别语音数据的声纹识别合格；

本实施例中，通过根据所述文本内容对所述待识别语音数据进行文本切割的设计，以判定所述待识别语音数据的文本类型，以使能根据判定到的所述文本类型将所述待识别语音数据输送至对应声纹识别模型进行声纹识别，防止了声纹识别过程中注册语音和待识别语音不一致的问题，有效提高了声纹识别的准确率。

实施例三

请参阅图3，是本发明第三实施例提供的声纹识别***100的结构示意图，包括：声学特征提取模块10、文本切割模块11、模型查询模块12和声纹识别模块13，其中：

声学特征提取模块10，用于获取待识别语音数据，并对所述待识别语音数据进行特征提取，以得到声学特征；

文本切割模块11，用于对所述声学特征进行解码识别，以得到文本内容，并根据所述文本内容对所述待识别语音数据进行文本切割。

其中，所述文本切割模块11还用于：将所述声学特征输入声学模型，以得到音素信息；将所述音素信息输入语言模型并根据预设文本字典进行解码，以得到所述文本内容。

优选的，所述文本切割模块11还用于：判断所述文本内容中是否存储有文本文字；

模型查询模块12，用于根据所述文本切割的结果判定所述待识别语音数据的文本类型，并根据所述文本类型以查询目标识别模型，所述目标识别模型为文本相关识别模型、文本无关识别模型或文本半相关识别模型。

进一步的，所述模型查询模块12还用于:判断所述文本文字是否是本地预存储的固定文本；若是，则判定所述待识别语音数据为文本相关类型；若否，则判定所述待识别语音数据为文本无关类型。

优选的，所述模型查询模块12还用于：当判断到所述文本内容中存储有所述数字时，判断所述数字的个数值是否为个数阈值；若是，则判定所述待识别语音数据为文本半相关类型；若否，则发出文本内容错误提示。、

更进一步的，所述模型查询模块12还用于：当判断到所述待识别语音数据为所述文本相关类型时，判定所述目标识别模型为所述文本相关识别模型；当判断到所述待识别语音数据为所述文本无关类型时，判定所述目标识别模型为所述文本无关识别模型；当判断到所述待识别语音数据为所述文本半相关类型，判定所述目标识别模型为所述文本半相关识别模型。

声纹识别模块13，用于根据所述目标识别模型对所述待识别语音数据进行声纹识别，以得到声纹识别结果。

其中，所述声纹识别模块13还用于：将所述声学特征输入至所述目标识别模型，以得到特征向量；根据欧式距离公式计算所述特征向量与本地预存储的样本向量之间的匹配值，并获取所述匹配值中最大值对应的所述样本向量的编号值；当判断到所述编号值大于编号阈值时，判定所述待识别语音数据的声纹识别合格。

实施例四

请参阅图4，是本发明第四实施例提供的移动终端101，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端101执行上述的声纹识别方法。

本实施例还提供了一种存储介质，其上存储有上述移动终端101中所使用的计算机程序，该程序在执行时，包括如下步骤：

根据所述目标识别模型对所述待识别语音数据进行声纹识别，以得到声纹识别结果。所述的存储介质，如：ROM/RAM、磁碟、光盘等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元或模块完成，即将存储装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

本领域技术人员可以理解，图3中示出的组成结构并不构成对本发明的声纹识别***的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，而图1-2中的声纹识别方法亦采用图3中所示的更多或更少的部件，或者组合某些部件，或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述目标声纹识别***中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序，其均可存储于所述目标声纹识别***的存储设备(图未示)内。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种声纹识别方法，其特征在于，所述方法包括：

2.如权利要求1所述的声纹识别方法，其特征在于，所述对所述声学特征进行解码识别的步骤包括：

将所述声学特征输入声学模型，以得到音素信息；

3.如权利要求1所述的声纹识别方法，其特征在于，所述根据所述文本内容对所述待识别语音数据进行文本切割的步骤包括：

判断所述文本内容中是否存储有文本文字；

4.如权利要求3所述的声纹识别方法，其特征在于，所述根据所述文本切割的结果判定所述待识别语音数据的文本类型的步骤包括：

判断所述文本文字是否是本地预存储的固定文本；

若是，则判定所述待识别语音数据为文本相关类型；

若否，则判定所述待识别语音数据为文本无关类型。

5.如权利要求4所述的声纹识别方法，其特征在于，所述根据所述文本切割的结果判定所述待识别语音数据的文本类型的步骤包括：

若是，则判定所述待识别语音数据为文本半相关类型；

若否，则发出文本内容错误提示。

6.如权利要求5所述的声纹识别方法，其特征在于，所述根据所述文本类型以查询目标识别模型的步骤包括：

7.如权利要求1所述的声纹识别方法，其特征在于，所述根据所述目标识别模型对所述待识别语音数据进行声纹识别的步骤包括：

8.一种声纹识别***，其特征在于，所述***包括：

9.一种移动终端，其特征在于，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至7任一项所述的声纹识别方法。

10.一种存储介质，其特征在于，其存储有权利要求9所述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现权利要求1至7任一项所述的声纹识别方法的步骤。