CN113257236A - 一种基于核心帧筛选的模型得分优化方法 - Google Patents

一种基于核心帧筛选的模型得分优化方法 Download PDF

Info

Publication number
CN113257236A
CN113257236A CN202110514259.8A CN202110514259A CN113257236A CN 113257236 A CN113257236 A CN 113257236A CN 202110514259 A CN202110514259 A CN 202110514259A CN 113257236 A CN113257236 A CN 113257236A
Authority
CN
China
Prior art keywords
voice
frame
training
core
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110514259.8A
Other languages
English (en)
Other versions
CN113257236B (zh
Inventor
杨莹春
魏含玉
吴朝晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Publication of CN113257236A publication Critical patent/CN113257236A/zh
Application granted granted Critical
Publication of CN113257236B publication Critical patent/CN113257236B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种基于核心帧筛选的模型得分优化方法,具体步骤为:S1.使用训练数据进行训练获取模型参数;S2.计算各帧语音在语音中的重要度权重;S3.按照重要度权重排序选取各个语音的核心帧;S4.使用核心帧数据训练获取模型参数;S5.通过计算重要度权重选取测试语音的核心帧;S6.对测试语音的核心帧进行打分得到语音的得分进行决策。通过本发明得分优化方法可以选取语音中高质量的核心帧作为打分依据,以提升检测性能,该方法适用于语音识别、说话人识别、伪造语音识别等语音分类场景。

Description

一种基于核心帧筛选的模型得分优化方法
技术领域
本发明属于语音识别技术领域,具体涉及一种基于核心帧筛选的模型得分优化方法。
背景技术
声纹认证***作为一种生物认证的方式,具有采集成本低、易于获取、方便远程认证等等优势,已经广泛应用于门禁***、金融交易和司法鉴定等等领域。随着语音合成技术飞速发展,一方面给人们带来了更方便的服务和更良好的用户体验,如真声智能客服、真声智能导航、有声读物、智能语音呼叫等等;另一方面也给声纹认证***的安全性带来了巨大的挑战,如利用合成语音攻击声纹认证***使其性能显著下降,因此关于合成语音检测的研究具有重要的意义。
合成语音检测的目的就是从真实语音中将合成语音检测出来。主流的GMM检测***中,当进行到测试阶段,首先提取测试语音的语音特征序列,然后通过训练好的GMM模型,计算出各帧得分,然后对各帧的得分求取均值作为该测试语音的得分,进行决策判断;而实际上当通过人耳听辨语音真假的时候,并不会平均关注到每一帧的信息,我们会更多的关注到一些特别的帧,比如停顿连贯性、多音字读音准确性以及断句方式自然性等等,因此GMM均值打分法在合成语音检测中是具有不合理性的,进行得分方法优化成为一个值得关注的课题。
发明内容
为了解决得分优化的问题,本发明提出了一种基于核心帧筛选的模型得分优化方法,使用该方法可以选取语音中高质量的核心帧作为打分依据,以提升检测性能。
一种基于核心帧筛选的模型得分优化方法,包括如下步骤:
S1.利用训练语音训练原始模型;
S2.利用原始模型计算训练语音中各帧的重要度权重;
S3.按照重要度权重排序选取每条训练语音的核心帧;
S4.利用训练语音的核心帧训练核心模型;
S5.利用原始模型计算测试语音中各帧的重要度权重;
S6.按照重要度权重排序选取每条测试语音的核心帧;
S7.将测试语音的核心帧输入核心模型中计算匹配得分,该得分即为优化后的模型得分。
进一步地,所述步骤S1的具体实现方式为:对于N类语音识别任务,将所有训练语音按照所属类别划分为N个集合,依次对各个集合中的训练语音提取特征后分别进行训练以获得各类语音的原始模型,即N个原始模型,用于之后计算似然得分,N为大于1的自然数即设定的语音类别数。
进一步地,所述步骤S2的具体实现方式为:对于任一条训练语音,分别计算其中各帧在对应类别原始模型中的似然得分,进而对各帧的似然得分进行归一化,作为各帧的重要度权重。
进一步地,所述步骤S3的具体实现方式为:对于步骤S2所获得重要度权重,对训练语音内各帧按重要度权重从大到小进行排序,选取一定比例排名靠前的帧作为训练语音的核心帧。
进一步地,所述步骤S4的具体实现方式为:对于步骤S3所获得的核心帧,对其提取特征后按照类别分别进行训练以获得各类语音的核心模型,用于之后计算优化后的模型得分。
进一步地,所述步骤S5的具体实现方式为:对于任一条测试语音,分别计算其中各帧在对应类别原始模型中的似然得分,进而对各帧的似然得分进行归一化,作为各帧的重要度权重。
进一步地,所述步骤S6的具体实现方式为:对于步骤S5所获得重要度权重,对测试语音内各帧按重要度权重从大到小进行排序,选取一定比例排名靠前的帧作为测试语音的核心帧。
进一步地,本发明方法过程中步骤S1~S4为训练阶段,步骤S5~S7为测试阶段。
通过本发明提供的得分优化方法,不直接计算各语音帧得分的均值,而是计算核心帧的得分均值作为语音最终得分,可以使得分更多的偏向重要度较高的语音帧,因此能够提升模型的分类性能。
附图说明
图1为本发明模型得分优化方法训练阶段的流程示意图。
图2为本发明模型得分优化方法测试阶段的流程示意图。
具体实施方式
本发明适用于语音识别、说话人识别、伪造语音识别等语音分类场景。为了进一步理解本发明,下面仅就合成语音检测中选择核心训练语音模型得分优化的应用具体实施例来对本发明的技术方案进行详细描述,但是应当理解,这些描述只是为进一步说明本发明的特征和优点,而不是对本发明权利要求的限制。
本实施方式中的实验数据采用的是2019年自动说话人识别欺骗攻击与防御对策挑战赛逻辑访问数据库(ASVspoof 2019-LA)、2015年自动说话人识别欺骗攻击与防御对策挑战赛(ASVspoof 2015)和真实场景合成语音检测数据集(RS-SSD)。
ASVspoof挑战赛由英国爱丁堡大学、法国EURECOM、日本NEC、东芬兰大学等多个世界领先的研究机构共同组织发起。ASVspoof 2019的真实语音来自107个说话人,其中61人为女性、46人为男性,数据集被划分为三部分:训练集(Train)、开发集(Dev)、评估集(Eval),录音环境较安静,没有明显的信道或环境噪声。训练集和开发集的虚假语音是用各种算法从真实语音中生成的,其中训练集包含20个说话人,12人为女性、8人为男性,包含真实语音2580句、虚假语音22800句;开发集包含20个说话人,12人为女性、8人为男性,包含真实语音2548句、虚假语音22296句;评估集包含67个说话人,37人为女性、30人为男性,包含真是语音7355句、虚假语音63882句,评估集大小约为4GB。
ASVspoof 2015的真实语音来自106个说话人,其中61人为女性、45人为男性,数据集被划分为三部分:训练集(Train)、开发集(Dev)、评估集(Eval),录音环境较安静,没有明显的信道或环境噪声。训练集和开发集的虚假语音是用各种算法从真实语音中生成的,其中训练集包含25个说话人,15人为女性、10人为男性,包含真实语音3750句、虚假语音12625句;开发集包含35个说话人,20人为女性、15人为男性,包含真实语音2497句、虚假语音49875句;评估集包含46个说话人,26人为女性、20人为男性,约20万条测试语音,评估集大小约为20GB。
真实场景合成语音检测数据集(Real-Scenario Synthetic Speech DetectionDatabase),简称为RS-SSD数据集,其中合成语音包括来自谷歌、腾讯、百度的合成语音和***人工智能(AI)主播的合成语音,时长共计4.12小时,以及同等时长的真实语音,包括来自网络媒体视频的真实语音、***新闻视频的真实语音、部分来自浙江大学CCNT实验室发布的中文情感语料库(Mandarin Affective Speech Corpus,MASC)、希尔贝壳提供的中文普通话开源语音数据库AISHELL1两个数据库的真实语音;其中各个类别的语音内容多样,包含了如新闻播报、智能家居、无人驾驶、工业生产等各种场景的语音内容。
如图1和图2所示,本发明基于核心帧筛选的模型得分优化方法包括如下步骤:
S1.使用训练数据进行训练获取模型参数;
S2.计算各帧语音在语句中的重要度权重;
S3.按照重要度权重排序选取各个语句的核心帧;
S4.使用核心帧数据训练获取模型参数;
S5.通过计算重要度权重选取测试语句的核心帧;
S6.对测试语句的核心帧进行打分得到语句的得分进行决策。
前述步骤S1的具体实施方法是:首先定义合成语音检测真实语音的训练语料为
Figure BDA0003049570680000041
虚假语音的训练语料为
Figure BDA0003049570680000042
Figure BDA0003049570680000043
测试语音的语料为
Figure BDA0003049570680000044
一句语音的核心帧占该句的比例记为α。
提取训练语料的特征,如32维LFCC加上一阶Δ特征和二阶Δ特征,用真实语音和合成语音分别训练得到GMM模型参数GMM1genuine和GMM1spoof,这两个GMM模型是用于之后计算语音帧似然得分的模型。
GMM的训练是一个有监督的优化过程,一般采用最大似然准则。整个过程分为参数初始化和参数优化两部分,前者通常使用LBG算法,后者使用EM算法;由于GMM的训练以及语音特征的获取方法在现有的合成语音检测***中已得到普遍的应用,在此不多作说明。对于GMM模型阶数K的选择,一般是2的幂次方如64、128、512、1024等等,在实验中发现对于使用的96维LFCC特征,512阶的GMM合成语音检测***性能更优。
前述步骤S2的具体实施方法是:对于每一条训练语音,计算真实语音各帧在GMM1genuine的对数似然得分和合成语音在GMM1spoof的对数似然得分
Figure BDA0003049570680000051
Figure BDA0003049570680000052
对于一条语音各帧的对数似然得分进行归一化
Figure BDA0003049570680000053
归一化后的得分作为各帧的重要度权重。
前述步骤S3的具体实施方法是:对于步骤S2所获得重要度权重,按照语音分类对一条语音中各帧的重要度进行排序,对于每个语音选取排名靠前的比例为α的α*Ti帧作为该语音的核心帧χ_corei
前述步骤S4的具体实施方法是:对于步骤S3得到的各个语音的核心帧,用真实语音核心帧和合成语音核心帧分别训练得到GMM模型参数GMM2genuine和GMM2spoof,GMM的训练步骤与前述步骤S1中一致。
前述步骤S5的具体实施方法是:对于一条测试语音,提取其声学特征,计算各帧在GMM1genuine的对数似然得分
Figure BDA0003049570680000055
和在GMM1spoof的对数似然得分
Figure BDA0003049570680000056
然后得到对数似然得分比
Figure BDA0003049570680000057
对于各帧的似然得分进行归一化,得到各帧的重要度权重,选取排名靠前的比例为α的α*Ti帧作为该语音的核心帧q_corei
前述步骤S6的具体实施方法是:对于步骤S5得到的测试语音的核心帧q_corei,计算各帧在GMM2genuine的得分并取均值
Figure BDA0003049570680000058
和在GMM2spoof的似然得分并取均值
Figure BDA0003049570680000059
然后得到对数似然得分比
Figure BDA00030495706800000510
Figure BDA0003049570680000061
然后与模型阈值threshold进行比较,得到语音的决策类别;如果llki>threshold则判断为真实语音,如果llki<threshold则判断为合成语音。
以下我们对评估集的所有语音进行测试,实验均基于GMM***,对比了原始的均值打分法,实验等错误率EER结果比较如表1所示:
表1
Figure BDA0003049570680000062
从表1中可以看出,本发明能够在一定程度上提高***识别性能,对比原始的均值打分法EER在ASVspoof 2015 Eval集上升了0.32%,在ASVspoof 2019 Eval集下降了1.34%,在RS-SSD集下降了2.34%,总体性能具有提升。
上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明,熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims (8)

1.一种基于核心帧筛选的模型得分优化方法,包括如下步骤:
S1.利用训练语音训练原始模型;
S2.利用原始模型计算训练语音中各帧的重要度权重;
S3.按照重要度权重排序选取每条训练语音的核心帧;
S4.利用训练语音的核心帧训练核心模型;
S5.利用原始模型计算测试语音中各帧的重要度权重;
S6.按照重要度权重排序选取每条测试语音的核心帧;
S7.将测试语音的核心帧输入核心模型中计算匹配得分,该得分即为优化后的模型得分。
2.根据权利要求1所述的模型得分优化方法,其特征在于:所述步骤S1的具体实现方式为:对于N类语音识别任务,将所有训练语音按照所属类别划分为N个集合,依次对各个集合中的训练语音提取特征后分别进行训练以获得各类语音的原始模型,即N个原始模型,用于之后计算似然得分,N为大于1的自然数即设定的语音类别数。
3.根据权利要求1所述的模型得分优化方法,其特征在于:所述步骤S2的具体实现方式为:对于任一条训练语音,分别计算其中各帧在对应类别原始模型中的似然得分,进而对各帧的似然得分进行归一化,作为各帧的重要度权重。
4.根据权利要求1所述的模型得分优化方法,其特征在于:所述步骤S3的具体实现方式为:对于步骤S2所获得重要度权重,对训练语音内各帧按重要度权重从大到小进行排序,选取一定比例排名靠前的帧作为训练语音的核心帧。
5.根据权利要求1所述的模型得分优化方法,其特征在于:所述步骤S4的具体实现方式为:对于步骤S3所获得的核心帧,对其提取特征后按照类别分别进行训练以获得各类语音的核心模型,用于之后计算优化后的模型得分。
6.根据权利要求1所述的模型得分优化方法,其特征在于:所述步骤S5的具体实现方式为:对于任一条测试语音,分别计算其中各帧在对应类别原始模型中的似然得分,进而对各帧的似然得分进行归一化,作为各帧的重要度权重。
7.根据权利要求1所述的模型得分优化方法,其特征在于:所述步骤S6的具体实现方式为:对于步骤S5所获得重要度权重,对测试语音内各帧按重要度权重从大到小进行排序,选取一定比例排名靠前的帧作为测试语音的核心帧。
8.根据权利要求1所述的模型得分优化方法,其特征在于:该方法过程中步骤S1~S4为训练阶段,步骤S5~S7为测试阶段。
CN202110514259.8A 2020-04-30 2021-04-30 一种基于核心帧筛选的模型得分优化方法 Active CN113257236B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2020103613811 2020-04-30
CN202010361381 2020-04-30

Publications (2)

Publication Number Publication Date
CN113257236A true CN113257236A (zh) 2021-08-13
CN113257236B CN113257236B (zh) 2022-03-29

Family

ID=77222896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110514259.8A Active CN113257236B (zh) 2020-04-30 2021-04-30 一种基于核心帧筛选的模型得分优化方法

Country Status (1)

Country Link
CN (1) CN113257236B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1808567A (zh) * 2006-01-26 2006-07-26 覃文华 验证真人在场状态的声纹认证设备和其认证方法
US20070043768A1 (en) * 2005-08-19 2007-02-22 Samsung Electronics Co., Ltd. Apparatus, medium, and method clustering audio files
US20080162139A1 (en) * 2006-11-30 2008-07-03 Samsung Electronics Co., Ltd. Apparatus and method for outputting voice
CN104240706A (zh) * 2014-09-12 2014-12-24 浙江大学 一种基于GMM Token配比相似度校正得分的说话人识别方法
CN110033755A (zh) * 2019-04-23 2019-07-19 平安科技(深圳)有限公司 语音合成方法、装置、计算机设备及存储介质
CN110085236A (zh) * 2019-05-06 2019-08-02 中国人民解放军陆军工程大学 一种基于自适应语音帧加权的说话人识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070043768A1 (en) * 2005-08-19 2007-02-22 Samsung Electronics Co., Ltd. Apparatus, medium, and method clustering audio files
CN1808567A (zh) * 2006-01-26 2006-07-26 覃文华 验证真人在场状态的声纹认证设备和其认证方法
US20080162139A1 (en) * 2006-11-30 2008-07-03 Samsung Electronics Co., Ltd. Apparatus and method for outputting voice
CN104240706A (zh) * 2014-09-12 2014-12-24 浙江大学 一种基于GMM Token配比相似度校正得分的说话人识别方法
CN110033755A (zh) * 2019-04-23 2019-07-19 平安科技(深圳)有限公司 语音合成方法、装置、计算机设备及存储介质
CN110085236A (zh) * 2019-05-06 2019-08-02 中国人民解放军陆军工程大学 一种基于自适应语音帧加权的说话人识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
LOU WENHUA: "Text-Independent Speaker Recognition Using GMM Non-Linear Transformation", 《电子器件》 *
卫星: "基于长短期记忆的车辆行为动态识别网络", 《计算机应用》 *
张舸等: "基于异构计算的语音识别解码加速方法", 《网络新媒体技术》 *
桑立锋等: "基于GMM的语音帧得分上的重优化", 《广西师范大学学报(自然科学版)》 *

Also Published As

Publication number Publication date
CN113257236B (zh) 2022-03-29

Similar Documents

Publication Publication Date Title
WO2021208287A1 (zh) 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质
CN111524527B (zh) 话者分离方法、装置、电子设备和存储介质
Dennis Sound event recognition in unstructured environments using spectrogram image processing
CN103531198B (zh) 一种基于伪说话人聚类的语音情感特征规整化方法
Sahoo et al. Emotion recognition from audio-visual data using rule based decision level fusion
CN104882144A (zh) 基于声谱图双特征的动物声音识别方法
KR101618512B1 (ko) 가우시안 혼합모델을 이용한 화자 인식 시스템 및 추가 학습 발화 선택 방법
Ghai et al. Emotion recognition on speech signals using machine learning
CN112329438B (zh) 基于域对抗训练的自动谎言检测方法及***
Yücesoy et al. A new approach with score-level fusion for the classification of a speaker age and gender
Joshi et al. A Study of speech emotion recognition methods
CN103578481A (zh) 一种跨语言的语音情感识别方法
CN110428853A (zh) 语音活性检测方法、语音活性检测装置以及电子设备
Wang et al. A network model of speaker identification with new feature extraction methods and asymmetric BLSTM
CN106910495A (zh) 一种应用于异常声音检测的音频分类***和方法
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
CN112562725A (zh) 基于语谱图和胶囊网络的混合语音情感分类方法
Mishra et al. Gender differentiated convolutional neural networks for speech emotion recognition
WO2023279691A1 (zh) 语音分类方法、模型训练方法及装置、设备、介质和程序
Prachi et al. Deep learning based speaker recognition system with cnn and lstm techniques
Konangi et al. Emotion recognition through speech: A review
Zhang et al. Depthwise separable convolutions for short utterance speaker identification
CN113257236B (zh) 一种基于核心帧筛选的模型得分优化方法
Duduka et al. A neural network approach to accent classification
Saputri et al. Identifying Indonesian local languages on spontaneous speech data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant