CN113257236A

CN113257236A - 一种基于核心帧筛选的模型得分优化方法

Info

Publication number: CN113257236A
Application number: CN202110514259.8A
Authority: CN
Inventors: 杨莹春; 魏含玉; 吴朝晖
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-04-30
Filing date: 2021-04-30
Publication date: 2021-08-13
Anticipated expiration: 2041-04-30
Also published as: CN113257236B

Abstract

本发明公开了一种基于核心帧筛选的模型得分优化方法，具体步骤为：S1.使用训练数据进行训练获取模型参数；S2.计算各帧语音在语音中的重要度权重；S3.按照重要度权重排序选取各个语音的核心帧；S4.使用核心帧数据训练获取模型参数；S5.通过计算重要度权重选取测试语音的核心帧；S6.对测试语音的核心帧进行打分得到语音的得分进行决策。通过本发明得分优化方法可以选取语音中高质量的核心帧作为打分依据，以提升检测性能，该方法适用于语音识别、说话人识别、伪造语音识别等语音分类场景。

Description

一种基于核心帧筛选的模型得分优化方法

技术领域

本发明属于语音识别技术领域，具体涉及一种基于核心帧筛选的模型得分优化方法。

背景技术

声纹认证***作为一种生物认证的方式，具有采集成本低、易于获取、方便远程认证等等优势，已经广泛应用于门禁***、金融交易和司法鉴定等等领域。随着语音合成技术飞速发展，一方面给人们带来了更方便的服务和更良好的用户体验，如真声智能客服、真声智能导航、有声读物、智能语音呼叫等等；另一方面也给声纹认证***的安全性带来了巨大的挑战，如利用合成语音攻击声纹认证***使其性能显著下降，因此关于合成语音检测的研究具有重要的意义。

合成语音检测的目的就是从真实语音中将合成语音检测出来。主流的GMM检测***中，当进行到测试阶段，首先提取测试语音的语音特征序列，然后通过训练好的GMM模型，计算出各帧得分，然后对各帧的得分求取均值作为该测试语音的得分，进行决策判断；而实际上当通过人耳听辨语音真假的时候，并不会平均关注到每一帧的信息，我们会更多的关注到一些特别的帧，比如停顿连贯性、多音字读音准确性以及断句方式自然性等等，因此GMM均值打分法在合成语音检测中是具有不合理性的，进行得分方法优化成为一个值得关注的课题。

发明内容

为了解决得分优化的问题，本发明提出了一种基于核心帧筛选的模型得分优化方法，使用该方法可以选取语音中高质量的核心帧作为打分依据，以提升检测性能。

一种基于核心帧筛选的模型得分优化方法，包括如下步骤：

S1.利用训练语音训练原始模型；

S2.利用原始模型计算训练语音中各帧的重要度权重；

S3.按照重要度权重排序选取每条训练语音的核心帧；

S4.利用训练语音的核心帧训练核心模型；

S5.利用原始模型计算测试语音中各帧的重要度权重；

S6.按照重要度权重排序选取每条测试语音的核心帧；

S7.将测试语音的核心帧输入核心模型中计算匹配得分，该得分即为优化后的模型得分。

进一步地，所述步骤S1的具体实现方式为：对于N类语音识别任务，将所有训练语音按照所属类别划分为N个集合，依次对各个集合中的训练语音提取特征后分别进行训练以获得各类语音的原始模型，即N个原始模型，用于之后计算似然得分，N为大于1的自然数即设定的语音类别数。

进一步地，所述步骤S2的具体实现方式为：对于任一条训练语音，分别计算其中各帧在对应类别原始模型中的似然得分，进而对各帧的似然得分进行归一化，作为各帧的重要度权重。

进一步地，所述步骤S3的具体实现方式为：对于步骤S2所获得重要度权重，对训练语音内各帧按重要度权重从大到小进行排序，选取一定比例排名靠前的帧作为训练语音的核心帧。

进一步地，所述步骤S4的具体实现方式为：对于步骤S3所获得的核心帧，对其提取特征后按照类别分别进行训练以获得各类语音的核心模型，用于之后计算优化后的模型得分。

进一步地，所述步骤S5的具体实现方式为：对于任一条测试语音，分别计算其中各帧在对应类别原始模型中的似然得分，进而对各帧的似然得分进行归一化，作为各帧的重要度权重。

进一步地，所述步骤S6的具体实现方式为：对于步骤S5所获得重要度权重，对测试语音内各帧按重要度权重从大到小进行排序，选取一定比例排名靠前的帧作为测试语音的核心帧。

进一步地，本发明方法过程中步骤S1～S4为训练阶段，步骤S5～S7为测试阶段。

通过本发明提供的得分优化方法，不直接计算各语音帧得分的均值，而是计算核心帧的得分均值作为语音最终得分，可以使得分更多的偏向重要度较高的语音帧，因此能够提升模型的分类性能。

附图说明

图1为本发明模型得分优化方法训练阶段的流程示意图。

图2为本发明模型得分优化方法测试阶段的流程示意图。

具体实施方式

本发明适用于语音识别、说话人识别、伪造语音识别等语音分类场景。为了进一步理解本发明，下面仅就合成语音检测中选择核心训练语音模型得分优化的应用具体实施例来对本发明的技术方案进行详细描述，但是应当理解，这些描述只是为进一步说明本发明的特征和优点，而不是对本发明权利要求的限制。

本实施方式中的实验数据采用的是2019年自动说话人识别欺骗攻击与防御对策挑战赛逻辑访问数据库(ASVspoof 2019-LA)、2015年自动说话人识别欺骗攻击与防御对策挑战赛(ASVspoof 2015)和真实场景合成语音检测数据集(RS-SSD)。

ASVspoof挑战赛由英国爱丁堡大学、法国EURECOM、日本NEC、东芬兰大学等多个世界领先的研究机构共同组织发起。ASVspoof 2019的真实语音来自107个说话人，其中61人为女性、46人为男性，数据集被划分为三部分：训练集(Train)、开发集(Dev)、评估集(Eval)，录音环境较安静，没有明显的信道或环境噪声。训练集和开发集的虚假语音是用各种算法从真实语音中生成的，其中训练集包含20个说话人，12人为女性、8人为男性，包含真实语音2580句、虚假语音22800句；开发集包含20个说话人，12人为女性、8人为男性，包含真实语音2548句、虚假语音22296句；评估集包含67个说话人，37人为女性、30人为男性，包含真是语音7355句、虚假语音63882句，评估集大小约为4GB。

ASVspoof 2015的真实语音来自106个说话人，其中61人为女性、45人为男性，数据集被划分为三部分：训练集(Train)、开发集(Dev)、评估集(Eval)，录音环境较安静，没有明显的信道或环境噪声。训练集和开发集的虚假语音是用各种算法从真实语音中生成的，其中训练集包含25个说话人，15人为女性、10人为男性，包含真实语音3750句、虚假语音12625句；开发集包含35个说话人，20人为女性、15人为男性，包含真实语音2497句、虚假语音49875句；评估集包含46个说话人，26人为女性、20人为男性，约20万条测试语音，评估集大小约为20GB。

真实场景合成语音检测数据集(Real-Scenario Synthetic Speech DetectionDatabase)，简称为RS-SSD数据集，其中合成语音包括来自谷歌、腾讯、百度的合成语音和***人工智能(AI)主播的合成语音，时长共计4.12小时，以及同等时长的真实语音，包括来自网络媒体视频的真实语音、***新闻视频的真实语音、部分来自浙江大学CCNT实验室发布的中文情感语料库(Mandarin Affective Speech Corpus，MASC)、希尔贝壳提供的中文普通话开源语音数据库AISHELL1两个数据库的真实语音；其中各个类别的语音内容多样，包含了如新闻播报、智能家居、无人驾驶、工业生产等各种场景的语音内容。

如图1和图2所示，本发明基于核心帧筛选的模型得分优化方法包括如下步骤：

S1.使用训练数据进行训练获取模型参数；

S2.计算各帧语音在语句中的重要度权重；

S3.按照重要度权重排序选取各个语句的核心帧；

S4.使用核心帧数据训练获取模型参数；

S5.通过计算重要度权重选取测试语句的核心帧；

S6.对测试语句的核心帧进行打分得到语句的得分进行决策。

前述步骤S1的具体实施方法是：首先定义合成语音检测真实语音的训练语料为

虚假语音的训练语料为

测试语音的语料为

一句语音的核心帧占该句的比例记为α。

提取训练语料的特征，如32维LFCC加上一阶Δ特征和二阶Δ特征，用真实语音和合成语音分别训练得到GMM模型参数GMM1_genuine和GMM1_spoof，这两个GMM模型是用于之后计算语音帧似然得分的模型。

GMM的训练是一个有监督的优化过程，一般采用最大似然准则。整个过程分为参数初始化和参数优化两部分，前者通常使用LBG算法，后者使用EM算法；由于GMM的训练以及语音特征的获取方法在现有的合成语音检测***中已得到普遍的应用，在此不多作说明。对于GMM模型阶数K的选择，一般是2的幂次方如64、128、512、1024等等，在实验中发现对于使用的96维LFCC特征，512阶的GMM合成语音检测***性能更优。

前述步骤S2的具体实施方法是：对于每一条训练语音，计算真实语音各帧在GMM1_genuine的对数似然得分和合成语音在GMM1_spoof的对数似然得分

对于一条语音各帧的对数似然得分进行归一化

归一化后的得分作为各帧的重要度权重。

前述步骤S3的具体实施方法是：对于步骤S2所获得重要度权重，按照语音分类对一条语音中各帧的重要度进行排序，对于每个语音选取排名靠前的比例为α的α*T_i帧作为该语音的核心帧χ_core_i。

前述步骤S4的具体实施方法是：对于步骤S3得到的各个语音的核心帧，用真实语音核心帧和合成语音核心帧分别训练得到GMM模型参数GMM2_genuine和GMM2_spoof，GMM的训练步骤与前述步骤S1中一致。

前述步骤S5的具体实施方法是：对于一条测试语音，提取其声学特征，计算各帧在GMM1_genuine的对数似然得分

和在GMM1_spoof的对数似然得分

然后得到对数似然得分比

对于各帧的似然得分进行归一化，得到各帧的重要度权重，选取排名靠前的比例为α的α*T_i帧作为该语音的核心帧q_core_i。

前述步骤S6的具体实施方法是：对于步骤S5得到的测试语音的核心帧q_core_i，计算各帧在GMM2_genuine的得分并取均值

和在GMM2_spoof的似然得分并取均值

然后得到对数似然得分比

然后与模型阈值threshold进行比较，得到语音的决策类别；如果llk_i>threshold则判断为真实语音，如果llk_i<threshold则判断为合成语音。

以下我们对评估集的所有语音进行测试，实验均基于GMM***，对比了原始的均值打分法，实验等错误率EER结果比较如表1所示：

表1

从表1中可以看出，本发明能够在一定程度上提高***识别性能，对比原始的均值打分法EER在ASVspoof 2015 Eval集上升了0.32％，在ASVspoof 2019 Eval集下降了1.34％，在RS-SSD集下降了2.34％，总体性能具有提升。

上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明，熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种基于核心帧筛选的模型得分优化方法，包括如下步骤：

S1.利用训练语音训练原始模型；

S2.利用原始模型计算训练语音中各帧的重要度权重；

S3.按照重要度权重排序选取每条训练语音的核心帧；

S4.利用训练语音的核心帧训练核心模型；

S5.利用原始模型计算测试语音中各帧的重要度权重；

S6.按照重要度权重排序选取每条测试语音的核心帧；

2.根据权利要求1所述的模型得分优化方法，其特征在于：所述步骤S1的具体实现方式为：对于N类语音识别任务，将所有训练语音按照所属类别划分为N个集合，依次对各个集合中的训练语音提取特征后分别进行训练以获得各类语音的原始模型，即N个原始模型，用于之后计算似然得分，N为大于1的自然数即设定的语音类别数。

3.根据权利要求1所述的模型得分优化方法，其特征在于：所述步骤S2的具体实现方式为：对于任一条训练语音，分别计算其中各帧在对应类别原始模型中的似然得分，进而对各帧的似然得分进行归一化，作为各帧的重要度权重。

4.根据权利要求1所述的模型得分优化方法，其特征在于：所述步骤S3的具体实现方式为：对于步骤S2所获得重要度权重，对训练语音内各帧按重要度权重从大到小进行排序，选取一定比例排名靠前的帧作为训练语音的核心帧。

5.根据权利要求1所述的模型得分优化方法，其特征在于：所述步骤S4的具体实现方式为：对于步骤S3所获得的核心帧，对其提取特征后按照类别分别进行训练以获得各类语音的核心模型，用于之后计算优化后的模型得分。

6.根据权利要求1所述的模型得分优化方法，其特征在于：所述步骤S5的具体实现方式为：对于任一条测试语音，分别计算其中各帧在对应类别原始模型中的似然得分，进而对各帧的似然得分进行归一化，作为各帧的重要度权重。

7.根据权利要求1所述的模型得分优化方法，其特征在于：所述步骤S6的具体实现方式为：对于步骤S5所获得重要度权重，对测试语音内各帧按重要度权重从大到小进行排序，选取一定比例排名靠前的帧作为测试语音的核心帧。

8.根据权利要求1所述的模型得分优化方法，其特征在于：该方法过程中步骤S1～S4为训练阶段，步骤S5～S7为测试阶段。