CN108986788A - 一种基于后验知识监督的噪声鲁棒声学建模方法 - Google Patents

一种基于后验知识监督的噪声鲁棒声学建模方法 Download PDF

Info

Publication number
CN108986788A
CN108986788A CN201810576451.8A CN201810576451A CN108986788A CN 108986788 A CN108986788 A CN 108986788A CN 201810576451 A CN201810576451 A CN 201810576451A CN 108986788 A CN108986788 A CN 108986788A
Authority
CN
China
Prior art keywords
model
training
supervision
feature
teacher
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810576451.8A
Other languages
English (en)
Inventor
潘子春
李葵
李明
张引强
黄影
赵峰
吴立刚
徐海青
章爱武
陈是同
徐唯耀
秦浩
王文清
郑娟
秦婷
梁翀
浦正国
张天奇
余江斌
韩涛
杨维
张才俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
Anhui Jiyuan Software Co Ltd
Information and Telecommunication Branch of State Grid Anhui Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
Anhui Jiyuan Software Co Ltd
Information and Telecommunication Branch of State Grid Anhui Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Information and Telecommunication Co Ltd, Anhui Jiyuan Software Co Ltd, Information and Telecommunication Branch of State Grid Anhui Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201810576451.8A priority Critical patent/CN108986788A/zh
Publication of CN108986788A publication Critical patent/CN108986788A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种基于后验知识监督的噪声鲁棒声学建模方法,属于语音人机交互技术领域,该方法包括:通过老师模型的训练得出干净语音的后验概率分布;以所述干净语音的后验概率分布为标准来监督学生模型的训练,使学生模型无限逼近老师模型的后验概率分布;其中,所述老师模型为干净语音训练的模型,所述学生模型为带噪语音训练的模型。本发明示例的建模方法,建立的声学模型具有较强的环境鲁棒性,表现出优越的抗噪性能。

Description

一种基于后验知识监督的噪声鲁棒声学建模方法
技术领域
本发明属于语音人机交互技术领域,具体的说是一种基于后验知识监督的噪声鲁棒声学建模方法。
背景技术
近年来,随着语音识别、自然语言处理、深度学习等技术的发展和市场需求的不断深化,语音交互产品的研发与应用逐渐成为一个新的热点;另一方面,由于实际应用场景的复杂性,语音交互***的运行通常处在一个低信噪比的环境下,由于对噪声的抗干扰能力不足,***交互过程中经常会出现语音识别准确率低或人机交互混乱等情况,导致服务对象的交互体验感不佳,很大程度上限制了语音交互产品的市场应用及推广。
相关研究表明,语音声学模型能否从带噪语音中提取出完整音素信息是决定语音交互***噪声鲁棒性的关键,声学模型在噪声鲁棒性上的不足主要是模型构建阶段环境噪声导致训练数据与测试数据不匹配而造成的,即提高噪声鲁棒性的目的是要最大限度的降低或消除此类因素的影响。迄今为止,语音识别领域的诸多学者对声学模型噪声鲁棒性开展了广泛研究并提出了多种改进策略,其中应用效果较好的有特征补偿、模型补偿、鲁棒性特征提取和语音增强四种方法。
特征与模型补偿是通过自适应算法对声学模型进行优化处理的噪声鲁棒性方法。例如Leggetter等利用最大似然回归(MLLR)算法进行模型自适应;Tran等通过线性分解网络对基于深度神经网络(DNN)的声学模型训练的输入数据进行自适应处理,使声学模型能够较好的匹配带噪语音的数据结构,模型鲁棒性得到提升。
鲁棒性特征提取是指从语料中提炼出对于噪声不敏感的特征参数,构建抗噪能力强的特征序列,从而提高声学模型的噪声鲁棒性。倒谱均值归一化法(CMN)和均值方差归一化方法(MVN)是最常见的两种鲁棒性特征提取方法,另外也有学者将感知线性预测系数(PLP)特征与相对谱(RASTA)滤波结合,加强声学模型对加性噪声和线性滤波的鲁棒性;另外刘长征等以MFCC特征作为CNN网络的输入,采取有监督学习的方式,提取出更高层的语音特征,实验表明这些特征在噪声环境下具有较好的时序不变性。
语音增强现今最常用的方式是通过噪声更新与噪声消除相结合的谱减法对语音和噪声独立处理,在假设噪声信息已知的情况下估计出语料的噪声谱,从带噪语音谱中减去预估的噪声谱得到语料的干净谱,从而提取出噪声语音中的干净特征用于声学模型的训练;此外Xu等提出了谱减法与DNN网络相结合的方式,将谱减法处理后的特征与噪声估计参数作为基础样本输入到DNN网络中,通过噪声依赖训练得到的深度声学模型与谱减法相比抗噪性能更好。
上述四种方法虽然可以有效的提升声学模型的环境鲁棒性,但是在理论与应用上存在两个问题:一是上述方法只是通过干净语音对带噪语音的降噪进行监督或者通过带噪语音对干净语音进行拟合,降低二者之间的差异性,并未充分挖掘干净语音的隐含知识,对信息的提炼不够充分;另一方面,上述四类方法中声学特征提取模块与后续的训练识别过程是相互独立的,没有考虑建模与特征提取单元之间的内在联系,使得模型训练的目标函数与***整体的性能指标有偏差,并且提取出的语音特征中包含部分冗余信息,这些冗余信息通常不具备噪声鲁棒性,导致使得整个声学网络往往达不到最优性能。
因此,如何提高语音交互***的噪声鲁棒性是现阶段急需解决的问题。
发明内容
针对上述现有技术中存在的问题,本发明的目的在于提供一种基于后验知识监督的噪声鲁棒声学建模方法,该方法可提升声学模型的噪声鲁棒性。
本发明所采用的技术方案为:
提供了一种基于后验知识监督的噪声鲁棒声学建模方法,包括:
通过老师模型的训练得出干净语音的后验概率分布;
以所述干净语音的后验概率分布为标准来监督学生模型的训练,使学生模型无限逼近老师模型的后验概率分布;
其中,所述老师模型为干净语音训练的模型,所述学生模型为带噪语音训练的模型。
进一步的,所述老师模型的训练,包括:
对干净语音进行特征Xt提取;
对分窗后的特征Xt进行逐帧强制对齐,并得到每一帧语音数据的硬标注;所述分窗即分帧和加窗,一般是根据预设的参数对语音数据进行分帧,并加窗便于后续特征对齐。
在强制对齐的基础上对每一个硬标注进行时间维度上的起止点标注;
将所述起止点标注信息与硬标注数据作为监督信息送入DNN模块进行声学模型的建模训练。
进一步的,所述对分窗后的特征进行逐帧强制对齐,通过GMM-HMM模块进行。
进一步的,所述声学模型的建模训练,包括:
将特征Xt作为模型输入,音素硬标注与标注数据作为监督信息,利用前向算法得出逐帧数据的三因素后验概率分布。
进一步的,所述学生模型的训练,包括:
对带噪语音进行初步特征Xs提取;
提取出的音素特征Xs与老师模型的软标注进行平行对齐,从而得到学生模型的软标注;
在初步提取的声学特征基础上提取高层特征,并进行高层特征的降维,提炼出能够对噪声语音不变性进行表征的特征序列;
将高层特征输入DNN模块进行声学模型的建模训练。
进一步的,所述提取高层特征借助CNN网络局部连接与降采样模块进行提取。
进一步的,所述神经网络模块的训练过程以相对熵最小化作为优化准则。
进一步的,所述老师模型和学生模型的后验概率分布差异性,通过相对熵进行量化。
进一步的,所述老师模型和学生模型的相对熵为:
其中:Pt为老师模型的后验概率分布,Qs为学生模型的后验概率分布,i表示三音素状态集合中的次序,phi为三音素状态集合中的第i个状态,Xt表示用于训练老师模型的干净语音特征,Xs表示用于训练学生模型的带噪语音特征,Pt(phi︱Xt)表示特征Xt被识别为第i个三音素状态的后验概率,Qs(phi︱Xs)表示特征Xs被识别为第i个三音素状态的后验概率。
进一步的,所述老师模型和学生模型的后验概率分布相对熵为:
与现有技术相比,本发明的有益效果为:
1、本发明示例的基于后验知识监督的噪声鲁棒声学建模方法,以干净语音训练的模型作为老师模型,带噪语音训练的模型作为学生模型,提炼老师模型的后验概率分布知识用于监督学生模型的训练,间接性的达到提高声学模型环境鲁棒性的要求。
2、本发明示例的基于后验知识监督的噪声鲁棒声学建模方法,采用CNN(卷积神经网络)与DNN(深度神经网络)相结合的声学模型训练网络结构,其中CNN模块用于提取带噪语音的不变性特征,DNN用于声学建模,整个网络参数的训练通过CNN与DNN模块联动调整与优化,构建的模型在CHIME数据集上进行了不同信噪比下的语音识别性能验证与对比,测试结果表明该模型具有较强的环境鲁棒性,表现出优越的抗噪性能。
3、本发明示例的基于后验知识监督的噪声鲁棒声学建模方法,采用的CNN-DNN学生模型与DNN模型相比,增加了卷积神经网络模块进行语音高层特征的提取,能够更好的捕捉带噪语音的时序不变性;另外CNN卷积神经网络内部的降采样(Pooling)层对语音特征冗余信息具有剔除作用,实现了语音特征降维,在提高声学模型噪声鲁棒性的同时也促进了模型训练的效率提升。
4、本发明示例的基于后验知识监督的噪声鲁棒声学建模方法,相比传统的标准交叉熵(CE)最小化准则,以概率向量(软标注)替换了0-1向量(硬标注),软标注是对后验概率分布的深层提炼,包含的有用信息更丰富,更利于鲁棒性声学模型的建模。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本发明实施例的流程图;
图2为本发明实施例老师模型训练的流程图;
图3为GMM-HMM模块的结构示意图;
图4为本发明实施例学生模型训练的流程图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
如图1所示,本发明的一个实施例提供了一种基于后验知识监督的噪声鲁棒声学建模方法,包括:
S1:通过老师模型的训练得出干净语音的后验概率分布;
S2:以所述干净语音的后验概率分布为标准来监督学生模型的训练,使学生模型无限逼近老师模型的后验概率分布;
其中,所述老师模型为干净语音训练的模型,所述学生模型为带噪语音训练的模型。
对于两种模型的后验概率分布差异性,本实施例使用KL散度(相对熵)进行量化。对声学模型而言,KL散度的物理意义是指在相同的基础语音空间里,概率分布P(x)对应的每个音素特征,若用概率分布Q(x)编码时,平均每个音素特征编码长度增加的比特数。本实施例假设Pt为老师模型的后验概率分布,QS为学生模型的后验概率分布,QS相当于对Pt后验概率分布的近似估计,因此二者的相对熵可表示为:
其中:i表示三音素状态集合中的次序,phi为三音素状态集合中的第i个状态,Xt表示用于训练老师模型的干净语音特征,Xs表示用于训练学生模型的带噪语音特征,Pt(phi|Xt)表示特征Xt被识别为第i个三音素状态的后验概率,Qs(phi|Xs)表示特征Xs被识别为第i个三音素状态的后验概率,该式通过变形可简化成以下形式:
通过观察可以发现,的计算与学生模型的建模过程无关,在实际监督训练过程中可以忽略,因此两种模型的后验概率分布相对熵可以表示为:
上述算式从形式上看类似于标准交叉熵(CE)的计算,差别在于标准交叉熵(CE)是对训练数据的经验概率分布与模型后验概率分布进行差异性分析,一般来说,经验概率分布通常是以0-1向量硬标注来进行描述,而老师模型与学生模型的相对熵是对两种模型的后验概率分布进行差异性比较,相当于将“硬标注”替换成了“软标注”。
老师模型的构建是以GMM-HMM与神经网络的混合模型为基础,其训练步骤如图2所示:
首先对干净语音进行特征Xt提取,GMM-HMM模块对分窗后的特征Xt进行逐帧强制对齐,并得到每一帧语音数据的硬标注,即对每一帧的三音素状态进行0-1向量判断,属于某一音素状态则观测概率设为1,不属于设为0,从而得到每一帧数据的三音素状态观测概率分布,例如[1 1 0 1 0 0];在强制对齐的基础上对每一个硬标注进行时间维度上的起止点标注,该标注信息与硬标注数据作为监督信息送入神经网络模块进行声学模型的建模训练。GMM-HMM模块的结构如图3所示。上述分窗即分帧和加窗,一般是根据预设的参数对语音数据进行分帧,并加窗便于后续特征对齐。
神经网络模块的训练以特征Xt作为模型输入,音素硬标注与标注数据作为监督信息,利用前向算法得出逐帧数据的三音素后验概率分布(硬标注)。硬标注与软标注的区别在于,软标注是指每一帧数据的三音素状态后验概率分布,而非简单的0-1判断,由此得到的每一帧数据的软标注的形式类似于[0.2 0.15 0.3 0.1 0.1 0.1],其中的每个数据表示该帧数据属于不同三音素状态的后验概率。
学生模型的构建采用CNN与DNN网络相结合的方法,学生模型的基本训练流程如图4所示:
学生模型的训练首先对带噪语音进行初步特征Xs提取,提取出的音素特征Xs与老师模型的软标注进行平行对齐,从而得到学生模型的软标注。在初步特征提取的基础上,借助CNN网络局部连接与降采样模块的功能特性,在MFCC和FBANK等初步提取的声学特征基础上提取高层特征,并进行高层特征的降维,从而提炼出能够对噪声语音不变性进行表征的特征序列;另一方面,考虑到DNN网络具有强大的分类能力,在声学模型的性能上已经超越了GMM等传统模型,最后将高层特征输入DNN层进行声学建模,整个模型网络的训练过程以相对熵最小化(式3)作为优化准则。上述高层特征的降维是指通过pooling层对特征图进行降维并凝练重要的具有局部概括性的特征。
本实施例的基于后验知识监督的噪声鲁棒声学建模方法,类似于老师指导学生的方式,以老师模型的后验概率分布(软标注)作为监督信息对学生模型的训练进行指导,并设计出一种基于CNN-DNN混合网络的学生模型,通过对带噪语音的高层特征进行提炼,提升声学模型的抗噪性能。本实施例构建的学生模型在CHIME带噪数据集下进行了性能验证工作,实验结果显示三种老师模型监督下的学生模型词错误率与基线模型相比平均下降了5.21%,6.35%和7.83%,表明本文提出的后验知识监督方法对声学模型的鲁棒性具有很好的提升效果。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
除说明书所述的技术特征外,其余技术特征为本领域技术人员的已知技术,为突出本发明的创新特点,其余技术特征在此不再赘述。

Claims (10)

1.一种基于后验知识监督的噪声鲁棒声学建模方法,其特征是,包括:
通过老师模型的训练得出干净语音的后验概率分布;
以所述干净语音的后验概率分布为标准来监督学生模型的训练,使学生模型无限逼近老师模型的后验概率分布;
其中,所述老师模型为干净语音训练的模型,所述学生模型为带噪语音训练的模型。
2.根据权利要求1所述的基于后验知识监督的噪声鲁棒声学建模方法,其特征是,所述老师模型的训练,包括:
对干净语音进行特征Xt提取;
对分窗后的特征Xt进行逐帧强制对齐,并得到每一帧语音数据的硬标注;
在强制对齐的基础上对每一个硬标注进行时间维度上的起止点标注;
将所述起止点标注信息与硬标注数据作为监督信息送入DNN模块进行声学模型的建模训练。
3.根据权利要求2所述的基于后验知识监督的噪声鲁棒声学建模方法,其特征是,所述对分窗后的特征进行逐帧强制对齐,通过GMM-HMM模块进行。
4.根据权利要求2所述的基于后验知识监督的噪声鲁棒声学建模方法,其特征是,所述声学模型的建模训练,包括:
将特征Xt作为模型输入,音素硬标注与标注数据作为监督信息,利用前向算法得出逐帧数据的三因素后验概率分布。
5.根据权利要求1所述的基于后验知识监督的噪声鲁棒声学建模方法,其特征是,所述学生模型的训练,包括:
对带噪语音进行初步特征Xs提取;
提取出的音素特征Xs与老师模型的软标注进行平行对齐,从而得到学生模型的软标注;
在初步提取的声学特征基础上提取高层特征,并进行高层特征的降维,提炼出能够对噪声语音不变性进行表征的特征序列;
将高层特征输入DNN模块进行声学模型的建模训练。
6.根据权利要求5所述的基于后验知识监督的噪声鲁棒声学建模方法,其特征是,所述提取高层特征借助CNN网络局部连接与降采样模块进行提取。
7.根据权利要求5所述的基于后验知识监督的噪声鲁棒声学建模方法,其特征是,所述神经网络模块的训练过程以相对熵最小化作为优化准则。
8.根据权利要求7所述的基于后验知识监督的噪声鲁棒声学建模方法,其特征是,所述老师模型和学生模型的后验概率分布差异性,通过相对熵进行量化。
9.根据权利要求8所述的基于后验知识监督的噪声鲁棒声学建模方法,其特征是,所述老师模型和学生模型的相对熵为:
其中:Pt为老师模型的后验概率分布,Qs为学生模型的后验概率分布,i表示三音素状态集合中的次序,phi为三音素状态集合中的第i个状态,Xt表示用于训练老师模型的干净语音特征,Xs表示用于训练学生模型的带噪语音特征,Pt(phi︱Xt)表示特征Xt被识别为第i个三音素状态的后验概率,Qs(phi︱Xs)表示特征Xs被识别为第i个三音素状态的后验概率。
10.根据权利要求9所述的基于后验知识监督的噪声鲁棒声学建模方法,其特征是,所述老师模型和学生模型的后验概率分布相对熵为:
CN201810576451.8A 2018-06-06 2018-06-06 一种基于后验知识监督的噪声鲁棒声学建模方法 Pending CN108986788A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810576451.8A CN108986788A (zh) 2018-06-06 2018-06-06 一种基于后验知识监督的噪声鲁棒声学建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810576451.8A CN108986788A (zh) 2018-06-06 2018-06-06 一种基于后验知识监督的噪声鲁棒声学建模方法

Publications (1)

Publication Number Publication Date
CN108986788A true CN108986788A (zh) 2018-12-11

Family

ID=64540863

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810576451.8A Pending CN108986788A (zh) 2018-06-06 2018-06-06 一种基于后验知识监督的噪声鲁棒声学建模方法

Country Status (1)

Country Link
CN (1) CN108986788A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110246487A (zh) * 2019-06-13 2019-09-17 苏州思必驰信息科技有限公司 用于单通道的语音识别模型的优化方法及***
CN110610715A (zh) * 2019-07-29 2019-12-24 西安工程大学 一种基于cnn-dnn混合神经网络的降噪方法
CN110634476A (zh) * 2019-10-09 2019-12-31 深圳大学 一种快速搭建鲁棒性声学模型的方法及***
CN111599373A (zh) * 2020-04-07 2020-08-28 云知声智能科技股份有限公司 一种降噪模型的压缩方法
CN112291424A (zh) * 2020-10-29 2021-01-29 上海观安信息技术股份有限公司 一种诈骗号码识别方法、装置、计算机设备及存储介质
CN113380268A (zh) * 2021-08-12 2021-09-10 北京世纪好未来教育科技有限公司 模型训练的方法、装置和语音信号的处理方法、装置
WO2023279693A1 (zh) * 2021-07-09 2023-01-12 平安科技(深圳)有限公司 知识蒸馏方法、装置、终端设备及介质
US11907845B2 (en) 2020-08-17 2024-02-20 International Business Machines Corporation Training teacher machine learning models using lossless and lossy branches

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101710490A (zh) * 2009-11-20 2010-05-19 安徽科大讯飞信息科技股份有限公司 语音评测的噪声补偿方法及装置
CN104392718A (zh) * 2014-11-26 2015-03-04 河海大学 一种基于声学模型阵列的鲁棒语音识别方法
CN104992705A (zh) * 2015-05-20 2015-10-21 普强信息技术(北京)有限公司 一种英语口语自动打分方法及***
CN105609100A (zh) * 2014-10-31 2016-05-25 中国科学院声学研究所 声学模型训练构造方法、及声学模型和语音识别***
US20170263240A1 (en) * 2012-11-29 2017-09-14 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101710490A (zh) * 2009-11-20 2010-05-19 安徽科大讯飞信息科技股份有限公司 语音评测的噪声补偿方法及装置
US20170263240A1 (en) * 2012-11-29 2017-09-14 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection
CN105609100A (zh) * 2014-10-31 2016-05-25 中国科学院声学研究所 声学模型训练构造方法、及声学模型和语音识别***
CN104392718A (zh) * 2014-11-26 2015-03-04 河海大学 一种基于声学模型阵列的鲁棒语音识别方法
CN104992705A (zh) * 2015-05-20 2015-10-21 普强信息技术(北京)有限公司 一种英语口语自动打分方法及***

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110246487A (zh) * 2019-06-13 2019-09-17 苏州思必驰信息科技有限公司 用于单通道的语音识别模型的优化方法及***
CN110246487B (zh) * 2019-06-13 2021-06-22 思必驰科技股份有限公司 用于单通道的语音识别模型的优化方法及***
CN110610715B (zh) * 2019-07-29 2022-02-22 西安工程大学 一种基于cnn-dnn混合神经网络的降噪方法
CN110610715A (zh) * 2019-07-29 2019-12-24 西安工程大学 一种基于cnn-dnn混合神经网络的降噪方法
CN110634476A (zh) * 2019-10-09 2019-12-31 深圳大学 一种快速搭建鲁棒性声学模型的方法及***
CN110634476B (zh) * 2019-10-09 2022-06-14 深圳大学 一种快速搭建鲁棒性声学模型的方法及***
CN111599373A (zh) * 2020-04-07 2020-08-28 云知声智能科技股份有限公司 一种降噪模型的压缩方法
CN111599373B (zh) * 2020-04-07 2023-04-18 云知声智能科技股份有限公司 一种降噪模型的压缩方法
US11907845B2 (en) 2020-08-17 2024-02-20 International Business Machines Corporation Training teacher machine learning models using lossless and lossy branches
CN112291424B (zh) * 2020-10-29 2021-09-14 上海观安信息技术股份有限公司 一种诈骗号码识别方法、装置、计算机设备及存储介质
CN112291424A (zh) * 2020-10-29 2021-01-29 上海观安信息技术股份有限公司 一种诈骗号码识别方法、装置、计算机设备及存储介质
WO2023279693A1 (zh) * 2021-07-09 2023-01-12 平安科技(深圳)有限公司 知识蒸馏方法、装置、终端设备及介质
CN113380268A (zh) * 2021-08-12 2021-09-10 北京世纪好未来教育科技有限公司 模型训练的方法、装置和语音信号的处理方法、装置

Similar Documents

Publication Publication Date Title
CN108986788A (zh) 一种基于后验知识监督的噪声鲁棒声学建模方法
CN104036774B (zh) 藏语方言识别方法及***
WO2018054361A1 (zh) 语音识别的环境自适应方法、语音识别装置和家用电器
CN108694949B (zh) 基于重排序超向量和残差网络的说话人识别方法及其装置
CN113488058B (zh) 一种基于短语音的声纹识别方法
CN100440315C (zh) 基于倒谱特征线性情感补偿的说话人识别方法
CN109616105A (zh) 一种基于迁移学习的带噪语音识别方法
CN110211594B (zh) 一种基于孪生网络模型和knn算法的说话人识别方法
CN104575490A (zh) 基于深度神经网络后验概率算法的口语发音评测方法
CN105869624A (zh) 数字语音识别中语音解码网络的构建方法及装置
CN103811009A (zh) 一种基于语音分析的智能电话客服***
CN103730114A (zh) 一种基于联合因子分析模型的移动设备声纹识别方法
CN101246685A (zh) 计算机辅助语言学习***中的发音质量评价方法
CN108922541A (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN104123933A (zh) 基于自适应非平行训练的语音转换方法
JPH075892A (ja) 音声認識方法
CN109243460A (zh) 一种自动生成基于地方方言的讯或询问笔录的方法
Marchi et al. Generalised discriminative transform via curriculum learning for speaker recognition
CN107039036A (zh) 一种基于自动编码深度置信网络的高质量说话人识别方法
CN109637526A (zh) 基于个人身份特征的dnn声学模型的自适应方法
KR20190112682A (ko) 데이터 마이닝 장치, 이를 이용하는 음성인식 방법 및 시스템
CN108986798A (zh) 语音数据的处理方法、装置及设备
CN100570712C (zh) 基于锚模型空间投影序数比较的快速说话人确认方法
CN101178895A (zh) 基于生成参数听感误差最小化的模型自适应方法
CN105845131A (zh) 远讲语音识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181211