CN111783939A

CN111783939A - 声纹识别模型训练方法、装置、移动终端及存储介质

Info

Publication number: CN111783939A
Application number: CN202010469636.6A
Authority: CN
Inventors: 洪国强; 肖龙源; 李稀敏; 刘晓葳; 叶志坚
Original assignee: Xiamen Kuaishangtong Technology Co Ltd
Current assignee: Xiamen Kuaishangtong Technology Co Ltd
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2020-10-16

Abstract

本发明提供了一种声纹识别模型训练方法、装置、移动终端及存储介质，该方法包括：控制xvector声纹识别模型对训练数据进行特征提取，获得训练特征向量，通过第一全连接层对训练特征向量进行类型识别得到预设特征向量和动态数字特征向量；将预设特征向量和动态数字特征向量分别对应输入第二全连接层和第三全连接层；对第二全连接层和第三全连接层进行损失计算得到第一损失概率和第二损失概率，根据第一损失概率和第二损失概率对第二全连接层和第三全连接层进行训练。本发明通过根据预设特征向量对第二全连接层进行训练，并控制动态数字特征向量对第三全连接层进行训练的设计，提高了模型训练后xvector声纹识别模型对文本半相关的识别效果。

Description

声纹识别模型训练方法、装置、移动终端及存储介质

技术领域

本发明属于声纹识别技术领域，尤其涉及一种声纹识别模型训练方法、装置、移动终端及存储介质。

背景技术

每个人的声音都蕴涵着特有的生物特征，声纹识别是指利用说话人的声音来识别说话人的一种技术手段。声纹识别同指纹识别等技术一样具有高度的安全可靠性，可以应用在所有需要做身份识别的场合。如在刑侦、银行、证券、保险等金融领域。与传统的身份识别技术相比，声纹识别的优势在于，声纹提取过程简单，成本低，且具有唯一性，不易伪造和假冒。

现有的声纹识别过程中，xvector模型在声纹识别上有不错的效果，声纹的应用场景一般有文本无关,文本相关(固定口令)及文本半相关(动态数字),但现有的xvector模型使用过程中，针对文本半相关的声纹识别效果差，进而降低了文本半相关声纹识别的准确性。

发明内容

本发明实施例的目的在于提供一种声纹识别模型训练方法、装置、移动终端及存储介质，旨在解决现有的声纹识别模型训练方法音频检测效率低且音频检测精准度差的问题。

本发明实施例是这样实现的，一种声纹识别模型训练方法，所述方法包括：

获取训练数据，并将所述训练数据输入xvector声纹识别模型；其中，所述训练数据包括预设数据和动态数字数据；

基于所述xvector声纹识别模型对所述训练数据进行特征提取，获得训练特征向量，并将所述训练特征向量输入第一全连接层；

通过所述第一全连接层对所述训练特征向量进行类型识别，得到预设特征向量和动态数字特征向量；

将所述预设特征向量和所述动态数字特征向量分别对应输入第二全连接层和第三全连接层，所述第二全连接层和所述第三全连接层均对应一个输出；

使用损失计算层对所述第二全连接层和所述第三全连接层的输出分别进行损失计算，得到第一损失概率和第二损失概率；

根据所述第一损失概率对所述第二全连接层进行训练，并根据所述第二损失概率对所述第三全连接层进行训练，直至所述第二全连接层和所述第三全连接层的输出收敛。

更进一步的，所述基于所述xvector声纹识别模型对所述训练数据进行特征提取的步骤包括：

将所述训练数据输入所述xvector声纹识别模型中的TDNN网络，并控制所述TDNN网络对所述训练数据进行特征提取，得到训练特征；

TDNN网络控制所述TDNN网络对所述训练特征进行非线性变换，得到所述训练特征向量。

更进一步的，所述使用损失计算层对所述第二全连接层和所述第三全连接层的输出分别进行损失计算，得到第一损失概率和第二损失概率的步骤包括：

根据预设损失函数和所述预设特征向量对所述第二全连接层的输出进行损失计算，得到第一损失概率；

根据所述预设损失函数和所述动态数字特征向量对所述第三全连接层的输出进行损失计算，得到第二损失概率。

更进一步的，所述根据所述第一损失概率对所述第二全连接层进行训练，并根据所述第二损失概率对所述第三全连接层进行训练的步骤包括：

根据所述第一损失概率在所述xvector声纹识别模型中进行正向传播，并根据所述第二损失概率在所述xvector声纹识别模型中进行反向传播。

更进一步的，所述将所述训练特征向量输入第一全连接层的步骤之前，所述方法还包括：

对每个所述TDNN网络输出的所述训练特征向量进行池化处理，并将池化后的所述训练特征向量输入所述第一全连接层。

更进一步的，所述对每个所述TDNN网络输出的所述训练特征向量进行池化处理的步骤包括：

将每个所述TDNN网络输出的所述训练特征向量进行累计，根据向量累计结果计算所有所述训练特征向量中的均值和标准差，并将所述均值和所述标准差作为所述训练特征向量池化处理后的输出。

更进一步的，所述方法还包括：

获取待识别声纹数据，并将所述待识别声纹数据输入所述xvector声纹识别模型；

控制所述xvector声纹识别模型对所述待识别声纹数据进行识别，并将所述第一全连接层的输出结果作为所述xvector声纹识别模型的输出向量；

根据欧式距离公式计算所述输出向量与本地预存储的样本向量之间的匹配值，并获取所述匹配值中最大值对应的所述样本向量的编号值；

当判断到所述编号值大于编号阈值时，判定所述待识别声纹数据的声纹识别合格。

本发明实施例的另一目的在于提供一种声纹识别模型训练装置，所述装置包括：

训练数据获取模块，用于获取训练数据，并将所述训练数据输入xvector声纹识别模型，所述训练数据包括预设数据和动态数字数据；

特征提取模块，用于基于所述xvector声纹识别模型对所述训练数据进行特征提取，获得训练特征向量，并将所述训练特征向量输入第一全连接层；

特征类型识别模型，用于通过所述第一全连接层对所述训练特征向量进行类型识别，得到预设特征向量和动态数字特征向量；

特征输出模块，用于将所述预设特征向量和所述动态数字特征向量分别对应输入第二全连接层和第三全连接层，所述第二全连接层和所述第三全连接层均对应一个输出；

损失计算模块，用于使用损失计算层对所述第二全连接层和所述第三全连接层的输出分别进行损失计算，得到第一损失概率和第二损失概率；

模型训练模块，用于根据所述第一损失概率对所述第二全连接层进行训练，并根据所述第二损失概率对所述第三全连接层进行训练，直至所述第二全连接层和所述第三全连接层的输出收敛。

本发明实施例的另一目的在于提供一种移动终端，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行上述的声纹识别模型训练方法。

本发明实施例的另一目的在于提供一种存储介质，其存储有上述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现上述的声纹识别模型训练方法的步骤。

本发明实施例，通过根据预设特征向量对第二全连接层进行训练，并控制动态数字特征向量对第三全连接层进行训练的设计，提高了模型训练后xvector声纹识别模型对文本半相关的识别效果，使得xvector声纹识别模型能针对文本无关,文本相关及文本半相关均能提高了有效的声纹识别，提高了声纹识别的准确性。

附图说明

图1是本发明第一实施例提供的声纹识别模型训练方法的流程图；

图2是本发明第二实施例提供的声纹识别模型训练方法的流程图；

图3是本发明第三实施例提供的声纹识别模型训练装置的结构示意图；

图4是本发明第四实施例提供的移动终端的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定***结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的***、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

实施例一

请参阅图1，是本发明第一实施例提供的声纹识别模型训练方法的流程图，包括步骤：

步骤S10，获取训练数据，并将所述训练数据输入xvector声纹识别模型；

其中，该训练数据的大小和信息参数均可以根据用户需求进行设置，所述训练数据包括预设数据和动态数字数据，该预设数据可以为文字数据、语音数据或数字数据，例如，该训练数据包括100条固定文本和100条动态数字，每条固定文本和动态数字均可以随机生成；

优选的，该xvector声纹识别模型包括TDNN网络(Time-Delay NeuralNetwork)、池化层和多个全连接层，具体的，该xvector声纹识别模型包括第一全连接层、第二全连接层和第三全连接层，进一步的，用户可以根据自己的需求进行全连接层的数量设置；

步骤S20，基于所述xvector声纹识别模型对所述训练数据进行特征提取，获得训练特征向量，并将所述训练特征向量输入第一全连接层；

其中，该训练特征向量可以为MFCC特征向量，xvector声纹识别模型对训练数据进行MFCC特征提取后，对提取到的MFCC特征进行向量转换，以得到该MFCC特征向量，并将该MFCC特征向量输入第一全连接层进行卷积；

步骤S30，通过所述第一全连接层对所述训练特征向量进行类型识别，得到预设特征向量和动态数字特征向量；

其中，通过控制该第一全连接层对训练特征向量中的向量标识进行识别，并基于识别结果对应得到预设数据对应的预设特征向量，和动态数字数据对应的动态数字特征向量；

优选的，该步骤中，该训练数据中的样本数据可以根据用户的需求进行设置，但该样本数据中至少包括两种不同的样本数据，以保障该第一全连接层对训练特征向量进行类型识别后，至少得到两个不同类型的特征向量；

步骤S40，将所述预设特征向量和所述动态数字特征向量分别对应输入第二全连接层和第三全连接层；

其中，所述第二全连接层和所述第三全连接层均对应一个输出，该第二全连接层和第三全连接层共用该xvector声纹识别模型中的TDNN网络、池化层和第一全连接层；

具体的，本实施例中，通过将第二全连接层和第三全连接层分别对应设置一个不同输出，以使该第二全连接层和第三全连接层能分别对不同的特征进行模型训练，使得后续该第一全连接层能针对不同的类型的特征进行识别，提高了第一全连接层和该xvector声纹识别模型对声纹识别的多样性；

步骤S50，使用损失计算层对所述第二全连接层和所述第三全连接层的输出分别进行损失计算，得到第一损失概率和第二损失概率；

其中，通过使用损失计算层对所述第二全连接层和所述第三全连接层的输出分别进行损失计算的设计，能有效的计算第二全连接层和第三全连接层的后验概率，即计算说话人的概率值；

步骤S60，根据所述第一损失概率对所述第二全连接层进行训练，并根据所述第二损失概率对所述第三全连接层进行训练，直至所述第二全连接层和所述第三全连接层的输出收敛；

优选的，当该第二全连接层和第三全连接层达到预设迭代次数时，自动停止该xvector声纹识别模型的模型训练，使得训练后的xvector声纹识别模型能有效的对文本无关,文本相关及文本半相关的声纹数据起到识别效果；

本实施例，通过根据预设特征向量对第二全连接层进行训练，并控制动态数字特征向量对第三全连接层进行训练的设计，提高了模型训练后xvector声纹识别模型对文本半相关的识别效果，使得xvector声纹识别模型能针对文本无关,文本相关及文本半相关均能提高了有效的声纹识别，提高了声纹识别的准确性。

实施例二

请参阅图2，是本发明第二实施例提供的声纹识别模型训练方法的流程图，包括步骤：

步骤S11，获取训练数据，并将训练数据输入xvector声纹识别模型；

其中，所述训练数据包括预设数据和动态数字数据，进一步的，该训练数据至少包括两种不同的样本数据，且该样本数据中的一种为动态数字数据，以保障训练后的xvector声纹识别模型能对文本半相关起到有效的声纹识别效果；

步骤S21，将训练数据的前端特征输入xvector声纹识别模型中的TDNN网络，并控制TDNN网络对所述前端特征进行特征提取，得到训练特征；

其中，该前端特征可以为MFCC特征，该TDNN网络用于表达声纹特征在时间上的关系，优选的，该xvector声纹识别模型中采用两个TDNN网络；

步骤S31，控制TDNN网络对训练特征进行非线性变换，获得训练特征向量；

其中，该训练特征向量可以为MFCC特征向量，TDNN网络对训练数据进行MFCC特征提取后，对提取到的MFCC特征进行非线性变换，以达到进行特征向量转换的效果，得到该MFCC特征向量；

具体的，该步骤中，可以通过对该训练特征进行预加重、分帧、加窗、快速傅里叶变换、带通滤波、对数运算和离散余弦变换处理后，以得到该MFCC特征向量；

步骤S41，对每个TDNN网络输出的训练特征向量进行池化处理，并将池化后的训练特征向量输入第一全连接层；

其中，池化处理(Pooling)，也称为欠采样或下采样，主要用于特征降维，压缩数据和参数的数量，以减小过拟合，并同时提高模型的容错性；

具体的，该步骤中，所述对每个所述TDNN网络输出的所述训练特征向量进行池化处理的步骤包括：

步骤S51，通过第一全连接层对训练特征向量进行类型识别，得到预设特征向量和动态数字特征向量；

步骤S61，将预设特征向量和动态数字特征向量分别对应输入第二全连接层和第三全连接层；

步骤S71，根据预设损失函数和预设特征向量对第二全连接层的输出进行损失计算，得到第一损失概率，并根据预设损失函数和动态数字特征向量对第三全连接层的输出进行损失计算，得到第二损失概率；

步骤S81，根据第一损失概率在xvector声纹识别模型中进行正向传播，并根据第二损失概率在xvector声纹识别模型中进行反向传播，直至第二全连接层和第三全连接层的输出收敛；

步骤S91，获取待识别声纹数据，并将待识别声纹数据输入xvector声纹识别模型；

步骤S101，控制xvector声纹识别模型对待识别声纹数据进行识别，并将第一全连接层的输出结果作为xvector声纹识别模型的输出向量；

步骤S111，根据欧式距离公式计算输出向量与本地预存储的样本向量之间的匹配值，并获取匹配值中最大值对应的样本向量的编号值；

其中，所述输出向量与所述样本向量之间所采用的欧式距离公式为：

a为输出向量，b为样本向量，通过使用欧式距离公式将当前特征值(输出向量)和声纹库已存在的特征值(样本向量)做1：N检索打分，以得到该匹配值；

具体的，本实施例中预存储有编号表，该编号表中存储有不同匹配值与编号值之间的对应关系，因此，通过将该匹配值中的最大值与该编号表进行匹配，以查询编号值；

步骤S121，当判断到编号值大于编号阈值时，判定待识别声纹数据的声纹识别合格；

其中，将查询到的编号值与编号阈值进行大小判断，以判定该待识别声纹数据的声纹识别是否合格，具体的，该编号阈值可以根据需求进行参数设置，例如，编号阈值可以为0.8、0.9或0.95等，该编号阈值用于判断该待识别声纹数据中的声纹特征与本地预存储的样本声纹特征是否一致；

进一步，本实施例中，当判定所述待识别声纹数据的声纹识别合格时，获取所述编号值对应的用户标识，并将所述用户标识进行输出，其中，该用户标识可以采用文字、数字、编号、图像或生物特征的方式进行存储，该用户标识用于指向对应用户，例如当采用文字的方式进行该用户标识的存储时，该用户标识可以为用户姓名，例如“张三”、“李四”等；当采用编号的方式进行该用户标识的存储时，该用户标识可以为用户工号，当采用图像的方式进行该用户标识的存储时，该用户标识为用户的头像图片；

本实施例中，通过根据预设特征向量对第二全连接层进行训练，并控制动态数字特征向量对第三全连接层进行训练的设计，提高了模型训练后xvector声纹识别模型对文本半相关的识别效果，使得xvector声纹识别模型能针对文本无关,文本相关及文本半相关均能提高了有效的声纹识别，提高了声纹识别的准确性。

实施例三

请参阅图3，是本发明第三实施例提供的声纹识别模型训练装置100的结构示意图，包括：训练数据获取模块10、特征提取模块11、特征类型识别模型12、特征输出模块13和模型训练模块14，其中：

训练数据获取模块10，用于获取训练数据，并将所述训练数据输入xvector声纹识别模型，所述训练数据包括预设数据和动态数字数据，其中，该训练数据的大小和信息参数均可以根据用户需求进行设置，所述训练数据包括预设数据和动态数字数据；

优选的，该xvector声纹识别模型包括TDNN网络(Time-Delay Neural Network)、池化层和多个全连接层，具体的，该xvector声纹识别模型包括第一全连接层、第二全连接层和第三全连接层，进一步的，用户可以根据自己的需求进行全连接层的数量设置。

特征提取模块11，用于基于所述xvector声纹识别模型对所述训练数据进行特征提取，获得训练特征向量，并将所述训练特征向量输入第一全连接层，其中，该训练特征向量可以为MFCC特征向量，xvector声纹识别模型对训练数据进行MFCC特征提取后，对提取到的MFCC特征进行向量转换，以得到该MFCC特征向量，并将该MFCC特征向量输入第一全连接层进行卷积。

优选的，所述特征提取模块11还用于：将所述训练数据输入所述xvector声纹识别模型中的TDNN网络，并控制所述TDNN网络对所述训练数据进行特征提取，得到训练特征；

控制所述TDNN网络对所述训练特征进行非线性变换，得到所述训练特征向量。

特征类型识别模型12，用于通过所述第一全连接层对所述训练特征向量进行类型识别，得到预设特征向量和动态数字特征向量，其中，通过控制该第一全连接层对训练特征向量中的向量标识进行识别，并基于识别结果对应得到预设数据对应的预设特征向量，和动态数字数据对应的动态数字特征向量。

特征输出模块13，用于将所述预设特征向量和所述动态数字特征向量分别对应输入第二全连接层和第三全连接层，所述第二全连接层和所述第三全连接层均对应一个输出，该第二全连接层和第三全连接层共用该xvector声纹识别模型中的TDNN网络、池化层和第一全连接层。

损失计算模块14，用于使用损失计算层对所述第二全连接层和所述第三全连接层的输出分别进行损失计算，得到第一损失概率和第二损失概率。

其中，所述损失计算模块14还用于：根据预设损失函数和所述预设特征向量对所述第二全连接层的输出进行损失计算，得到第一损失概率；

模型训练模块15，用于根据所述第一损失概率对所述第二全连接层进行训练，并根据所述第二损失概率对所述第三全连接层进行训练，直至所述第二全连接层和所述第三全连接层的输出收敛，优选的，当该第二全连接层和第三全连接层达到预设迭代次数时，自动停止该xvector声纹识别模型的模型训练，使得训练后的xvector声纹识别模型能有效的对文本无关,文本相关及文本半相关的声纹数据起到识别效果。

其中，所述模型训练模块15还用于：根据所述第一损失概率在所述xvector声纹识别模型中进行正向传播，并根据所述第二损失概率在所述xvector声纹识别模型中进行反向传播。

具体的，本实施例中，所述声纹识别模型训练装置100还包括：

特征池化模块16，用于对每个所述TDNN网络输出的所述训练特征向量进行池化处理，并将池化后的所述训练特征向量输入所述第一全连接层。

优选的，所述特征池化模块16还用于：将每个所述TDNN网络输出的所述训练特征向量进行累计，根据向量累计结果计算所有所述训练特征向量中的均值和标准差，并将所述均值和所述标准差作为所述训练特征向量池化处理后的输出。

此外，所述声纹识别模型训练装置100还包括：

声纹识别模型17，用于获取待识别声纹数据，并将所述待识别声纹数据输入所述xvector声纹识别模型；

实施例四

请参阅图4，是本发明第四实施例提供的移动终端101，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端101执行上述的声纹识别模型训练方法。

本实施例还提供了一种存储介质，其上存储有上述移动终端101中所使用的计算机程序，该程序在执行时，包括如下步骤：

根据所述第一损失概率对所述第二全连接层进行训练，并根据所述第二损失概率对所述第三全连接层进行训练，直至所述第二全连接层和所述第三全连接层的输出收敛。所述的存储介质，如：ROM/RAM、磁碟、光盘等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元或模块完成，即将存储装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施方式中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

本领域技术人员可以理解，图3中示出的组成结构并不构成对本发明的声纹识别模型训练装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，而图1-2中的声纹识别模型训练方法亦采用图3中所示的更多或更少的部件，或者组合某些部件，或者不同的部件布置来实现。本发明所称的单元、模块等是指一种能够被所述目标声纹识别模型训练装置中的处理器(图未示)所执行并功能够完成特定功能的一系列计算机程序，其均可存储于所述目标声纹识别模型训练装置的存储设备(图未示)内。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种声纹识别模型训练方法，其特征在于，所述方法包括：

2.如权利要求1所述的声纹识别模型训练方法，其特征在于，所述基于所述xvector声纹识别模型对所述训练数据进行特征提取的步骤包括：

3.如权利要求1所述的声纹识别模型训练方法，其特征在于，所述使用损失计算层对所述第二全连接层和所述第三全连接层的输出分别进行损失计算的步骤包括：

4.如权利要求1所述的声纹识别模型训练方法，其特征在于，所述根据所述第一损失概率对所述第二全连接层进行训练，并根据所述第二损失概率对所述第三全连接层进行训练的步骤包括：

5.如权利要求1所述的声纹识别模型训练方法，其特征在于，所述将所述训练特征向量输入第一全连接层的步骤之前，所述方法还包括：

6.如权利要求5所述的声纹识别模型训练方法，其特征在于，所述对每个所述TDNN网络输出的所述训练特征向量进行池化处理的步骤包括：

7.如权利要求1所述的声纹识别模型训练方法，其特征在于，所述方法还包括：

8.一种声纹识别模型训练装置，其特征在于，所述装置包括：

9.一种移动终端，其特征在于，包括存储设备以及处理器，所述存储设备用于存储计算机程序，所述处理器运行所述计算机程序以使所述移动终端执行根据权利要求1至7任一项所述的声纹识别模型训练方法。

10.一种存储介质，其特征在于，其存储有权利要求9所述的移动终端中所使用的计算机程序，该计算机程序被处理器执行时实现权利要求1至7任一项所述的声纹识别模型训练方法的步骤。