CN107123432A - 一种自匹配Top‑N音频事件识别信道自适应方法 - Google Patents
一种自匹配Top‑N音频事件识别信道自适应方法 Download PDFInfo
- Publication number
- CN107123432A CN107123432A CN201710334633.XA CN201710334633A CN107123432A CN 107123432 A CN107123432 A CN 107123432A CN 201710334633 A CN201710334633 A CN 201710334633A CN 107123432 A CN107123432 A CN 107123432A
- Authority
- CN
- China
- Prior art keywords
- mrow
- msub
- msup
- channel
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000013507 mapping Methods 0.000 claims abstract description 51
- 239000013598 vector Substances 0.000 claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 230000008569 process Effects 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 238000012545 processing Methods 0.000 claims abstract description 3
- 238000012360 testing method Methods 0.000 claims description 20
- 230000000694 effects Effects 0.000 claims description 8
- 238000009432 framing Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 230000007704 transition Effects 0.000 claims description 2
- 230000003313 weakening effect Effects 0.000 claims 1
- 230000005540 biological transmission Effects 0.000 abstract description 3
- 230000002596 correlated effect Effects 0.000 abstract description 2
- 238000005070 sampling Methods 0.000 abstract description 2
- 238000013139 quantization Methods 0.000 abstract 1
- 230000005236 sound signal Effects 0.000 abstract 1
- 101100153586 Caenorhabditis elegans top-1 gene Proteins 0.000 description 14
- 101100370075 Mus musculus Top1 gene Proteins 0.000 description 14
- 230000003044 adaptive effect Effects 0.000 description 12
- 238000002474 experimental method Methods 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000011056 performance test Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000008717 functional decline Effects 0.000 description 1
- 230000000149 penetrating effect Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及一种自匹配Top‑N音频事件识别信道自适应方法,从应用场景的角度讲,属于音频事件识别技术领域;从技术实现的角度来讲,亦属于计算机科学与音频处理技术领域。本发明首先进行数据预处理,预处理过程包括量化、采样、预加重和加窗,然后进行特征提取,也就是对所需音频底层特征参数进行抽取,之后进行特征向量生成,也就是对提取的特征帧序列按照段长和段移进行压缩得到段向量,接下来是特征映射,特征映射是将信道相关特征段向量映射为信道无关特征段向量的过程,特征映射FM模块可分为FM训练和FM使用两个部分,最后进行模型训练和识别。本发明可以解决不同k值信道模型下高斯分量个数Top‑N的选择性问题和覆盖信道信息不均匀的问题,为网络传输编码差异影响下的音频事件识别提供一种较好的信道自适应方法。
Description
技术领域
本发明涉及一种自匹配Top-N音频事件识别信道自适应方法,从应用场景的角度讲,属于音频事件识别技术领域;从技术实现的角度来讲,亦属于计算机科学与音频处理技术领域。
背景技术
音频事件识别***在实际应用中经常由于录制环境、采集设备、编码方式的不同而产生信道失配问题,较为常见的一类是编码差异引入的信道失配,信道自适应方法是对信道失配中发生畸变的特征参数进行修正,从而更加准确的反应原始语音的特征信息,信道自适应通常可分为特征域自适应、模型域自适应和得分域自适应,可以选择其中一个或多个进行自适应。
特征域自适应是目前应用最广泛的信道自适应方法。特征域信道自适应方法可分为信道线性自适应和信道非线性自适应,基于信道线性自适应的方法一般较多而且效果比较好,通常为音频识别***的标准配置。其中较为典型的信道线性自适应方法和信道非线性自适应方法有:
1.倒谱均值减
倒谱均值减是一种广泛应用于语音识别中去除信道卷积噪声的方法,该方法的本质是把频域上的卷积噪声变换成倒谱域上的加性噪声,当在倒谱域的倒谱参数上减去均值时,就可以去除卷积噪声,在信道畸变模型为线性特性时该性能尤为突出。但是如果语音时长较短或语音段较干净,使用倒谱均值减方法效果就会不明显,甚至有可能导致***性能下降。而且当信道畸变为非线性失真的时候,倒谱均值减的有效性也会受到一定限制。
2.倒谱均值方差规整
倒谱方差规整进一步对倒谱域特征参数的方差进行规整。倒谱均值减和倒谱方差规整合在一起,称为倒谱均值方差规整。倒谱均值方差规整思路和实现方式简单,在语音识别方面取得了较好的成效,但是对于非线性失真的信道畸变效果不是非常明显。
3.矢量泰勒级数
矢量泰勒级数是一种相对比较实用的特征补偿方法,一般是通过一个显式的模型来描述带噪语音信号的产生,如果纯净语音和噪声分别服从高斯混合模型和单一高斯分布,利用矢量泰勒展开级数方法对非线性环境模型进行线性化,保证含噪语音也服从高斯混合模型,假设训练以及测试语音信号均平稳,利用最大期望算法估计环境噪声统计量,最后利用最小均方误差准则估计出纯净语音特征。矢量泰勒级数算法具有良好的抗噪性能,但是该方法一般都是离线完成并且用到的高斯混合模型一般为128甚至更高,不仅迭代次数多而且计算量大,一般很难满足实时性要求。需要对经典算法进行改进来提升其运算效率和实时性。
4.特征映射
特征映射方法基于GMM-UBM模型,由说话人模型合成方法发展而来,该方法的目的是将信道相关的语音特征映射到一个信道无关的空间中,利用信道无关的特征向量进行模型训练和识别。主要过程包括两个方面:信道模型训练和特征变换。特征映射方法是目前应用最广泛的信道自适应方法之一,作用在特征域,具有很高的灵活性和便捷性。
综上所述,现有的特征映射方法在特征变换时只就得分最大的高斯分量进行自适应,当M为高斯分量个数,会遗漏其余M-1个高斯分量所包含的信道信息,而且最大得分对于不同高斯数目的信道模型往往不同,泛化性一般较差。
发明内容
本发明的目的是为解决不同k值信道模型下高斯分量个数Top-N的选择性问题和覆盖信道信息不均匀的问题,提出一种自匹配Top-N高斯分量的音频事件信道自适应方法。
本发明的设计原理为:本发明首先进行数据预处理,预处理过程包括量化、采样、预加重和加窗,然后进行特征提取,也就是对所需音频底层特征参数进行抽取,之后进行特征向量生成,也就是对提取的特征帧序列按照段长和段移进行压缩得到段向量,接下来是特征映射,特征映射是将信道相关特征段向量映射为信道无关特征段向量的过程,特征映射FM模块可分为FM训练和FM使用两个部分,最后进行模型训练和识别。
本发明的技术方案是通过如下步骤实现的:
步骤1,音频识别的预处理过程主要包括预加重、分帧、加窗。在特征提取之前一般要对原始语音信号进行预加重处理,提升高频部分谱值用一阶数字滤波器来实现,之后需要进行分帧,分帧可采用连续分段或交叠分段方法,但多采用交叠分段以保证相邻帧之间的平滑性和连贯性,最后进行加窗以减小语音帧的截断效应,降低语音帧两端的变化坡度,需要选取合适的窗口长度。
步骤2,采用MFCC进行语音特征提取,将时域信号做FFT变换,之后对它的对数能量谱依照Mel刻度分布的三角滤波器组做卷积,计算每个滤波器组输出的对数能量,再对滤波器组的输出向量做离散余弦变换。
步骤3,在完成特征参数提取后,进行特征向量生成。将连续N帧特征向量的每一维特征相加计算其均值或方差,提取帧特征的共性,弱化帧特征的差异性,相邻片段间一般有N-M帧的交叠为了提高过渡的平滑性。
步骤4,基于自匹配Top-N高斯分量加权映射规则的特征映射。将来自不同信道的特征通过某种方式映射到同一个与信道无关的特征空间上,用于解决在实际音频事件识别***中因为训练条件和测试条件不一致导致识别性能下降的问题。具体实现方法为:
步骤4.1,使用来自各类信道的数据训练得到一个与信道无关的UBM模型(wi,ui,δi),其中wi表示第i个高斯概率密度函数的权重,ui表示均值,δi表示方差。
步骤4.2,根据特定的信道情况选择相对应的训练数据,然后利用各个信道的训练特征数据逐一应用MAP方法自适应出该特定信道下的GMM模型,用(wi A,ui A,δi A)表示在信道A条件下的GMM模型。
步骤4.3,利用整个识别***信道相关的训练和测试特征向量进行信道模型判定,首先提取出输入数据的特征参数,然后根据对数似然度的大小判定该数据从属的信道,我们假设该条数据属于自信道A。
步骤4.4,采用自匹配Top-N高斯分量加权的映射规则进行特征变换,根据来源于信道A的测试数据的每一帧特征矢量,在信道A的高斯混合模型的数量M个高斯分量中选出排名得分前N的高斯分量N(uk A,δk A)(N<M,k=1,2,...,N),设定得分阈值为ε(0<ε<1),具体N的个数是利用得分阈值自匹配得到的,当得分前N的高斯分量的分数加和达到阈值ε时,则取该N值作为自匹配Top-N高斯分量加权映射的个数:
在N选定之后,分别逐一计算Top-N个高斯分量在特征变换时的方差δk A和均值uk A对应的权重βk,而且需要满足
把线性加权之后的UBM和信道A条件下的GMM的基准均值和方差分别记为uk *、δk *、uk A*、δk A*。得到自匹配Top-N高斯分量加权特征映射公式:
步骤5,利用信道无关特征向量对整个音频事件进行模型的训练及识别。有益效果
相比于归一基准得分最大的方法,本发明不会遗漏剩下的M-1个高斯分量所包含的信道信息。
相比于Top-1高斯分量特征映射方法和固定Top-N高斯分量加权的特征映射方法,本发明有更好的应用性和信道自适应性能,可为网络传输编码差异影响下的音频事件识别提供一种更好的信道自适应方法。
附图说明
图1为本发明的音频事件识别***原理框图;
图2为三种信道失配下不同k值的信道识别率;
图3为失配1不同k值Top-1和自匹配Top-N方法信道自适应性能;
图4为失配2不同k值Top-1和自匹配Top-N方法信道自适应性能;
图5失配3不同k值Top-1和自匹配Top-N方法信道自适应性能。
具体实施方式
为了更好的说明本发明的目的和优点,下面结合实施例对本发明方法的实施方式做进一步详细说明。
音频事件数据选择枪声集作为输入,设计并部署3项测试:(1)基准***参数选取信道匹配实验及信道失配性能对比实验;(2)Top-1高斯分量特征映射方法信道自适应性能测试实验;(3)自匹配Top-N高斯分量加权特征映射方法实验。
下面将对上述3个测试流程逐一进行说明,所有测试均在同一台计算机上完成,具体配置为:Intel双核CPU(主频2.93GHz),4.00GB内存,Windows 7操作***。
1.基准***信道匹配及信道失配性能对比实验
先用信道匹配数据也就是某个信道的训练数据和该信道的测试数据对基准***在信道匹配条件下的识别准确率进行测试,例如信道1的训练数据和测试数据,然后用信道失配数据,主要包括三种失配情况,分别是信道1的训练数据和信道2、3、4的测试数据,分别测试基准***在这三种信道失配情况下的识别准确率。通过综合考虑***的时间复杂度、识别率以及操作是否简单等因素,决定选取13维MFCC+2维Energy、13维+2维一阶差分、13维+2维二阶差分共45维音频特征作为音频事件识别***实验的基准特征。
2.Top-1高斯分量特征映射方法实验
2.1Top-1高斯分量特征映射方法信道自适应性能实验
首先设置不同的k值,k即为UBM-GMM信道模型中高斯分量的个数,分别使用UBM-GMM训练信道模型,进行模型判断,之后利用Top-1高斯分量特征映射方法进行特征映射,最后采用Adaboost对枪声集进行训练和识别,其中k值分别取4、8、16、32、64、128、256、512和1024,图2给出三种信道失配情况下不同k值的***信道识别率。
2.2不同Top-N高斯分量的信道信息得分及其对应的信道自适应性能实验
首先取信道2下的一个测试文件,其中特征提取为许多帧数据{x1,x2,…xn},在进行正确的信道判定之后,计算在信道2模型下的前十帧数据的各个高斯分量概率输出得分,列举出得分最高的前六的概率输出。如表1所示,高斯分量个数k取64。
表1测试帧数据属于该信道模型下各高斯分量的得分
当k=64时,测试在失配1条件下Top-1到Top-6不同高斯分量加权映射下的***识别性能,结果如表2所示。
表2失配1同一k值下不同Top-N高斯分量方法的信道自适应性能
3.自匹配Top-N高斯分量加权特征映射方法实验。
基准***在实验1的三种信道失配条件下,分别利用自匹配Top-N高斯分量加权特征映射方法对不同k值信道模型下的信道失配自适应性能进行测试,基准***的参数配置参考Top-1高斯分量特征映射方法实验,之后和Top-1高斯分量特征映射方法信道自适应性能进行对比。自匹配Top-N高斯分量加权的特征映射方法,采用得分阈值法为每帧特征数据进行自匹配,匹配出对应的特征映射高斯分量个数N。设置实验阈值ε=0.99999。
测试结果
对于测试(1),基准***一般在信道匹配的条件下有较好的识别性能,不管在哪种信道失配条件下,受信道失配的影响很大,***的识别性能都急剧下降,由此可以得出信道失配自适应的必要性。
对于测试(2),当k值取4、8、16、32时,***的识别准确率呈提升趋势,但是当k=64时,***的准确率开始下降,主要原因是训练样本相对较少,从而导致k值比较高时建立的模型不够精确。总的来说,Top-1高斯分量特征映射方法的信道补偿效果比较好,甚至在k值合适的情况下能够达到或超过信道匹配时的***识别准确率。
固定Top-N高斯分量加权特征映射方法相对于Top-1高斯分量特征映射方法的信道自适应性能稍微好一些,原因是帧数据在特征空间中的分布一般由多个高斯分量共同决定,虽然多个高斯分量覆盖信道信息更广,但是随着k值的增加,固定Top-N个高斯分量的输出得分会降低,包含的信道信息也会减少,而且Top-N个数的选取也不能很好的适应不同k值的信道模型,而自匹配Top-N高斯分量加权的特征映射方法不仅避免了上述问题还可保持相当的信道补偿能力。
对于测试(3),自匹配Top-N高斯分量加权特征映射方法能解决不同信道模型下高斯分量个数Top-N的选择性问题,而且平均2.0%的片段F值提升及1.36%的时长F值提升,获得比Top-1以及固定Top-N高斯分量加权特征映射方法更好的信道自适应性能。
本发明提出一种自匹配Top-N高斯分量的音频事件信道自适应方法。在音频事件信道失配识别过程中,自匹配Top-N高斯分量加权的特征映射方法可以解决不同k值信道模型下高斯分量个数Top-N如何选择和覆盖信道信息不均匀的问题,应用性和信道自适应性能比Top-1高斯分量特征映射方法和固定Top-N高斯分量加权的特征映射方法更好,可为网络传输编码差异影响下的音频事件识别提供一种较好的信道自适应方法。
Claims (5)
1.一种自匹配Top-N音频事件识别信道自适应方法,其特征在于所述方法包括如下步骤:
步骤1,音频识别的预处理过程主要包括预加重、分帧、加窗,在特征提取之前一般要对原始语音信号进行预加重处理,提升高频部分谱值用一阶数字滤波器来实现,之后需要进行分帧,分帧可采用连续分段或交叠分段方法,但多采用交叠分段以保证相邻帧之间的平滑性和连贯性,最后进行加窗以减小语音帧的截断效应,降低语音帧两端的变化坡度,需要选取合适的窗口长度;
步骤2,采用MFCC进行语音特征提取,将时域信号做FFT变换,之后对它的对数能量谱依照Mel刻度分布的三角滤波器组做卷积,计算每个滤波器组输出的对数能量,再对滤波器组的输出向量做离散余弦变换;
步骤3,在完成特征参数提取后,进行特征向量生成,将连续N帧特征向量的每一维特征相加计算其均值或方差,提取帧特征的共性,弱化帧特征的差异性,相邻片段间一般有N-M帧的交叠为了提高过渡的平滑性;
步骤4,基于自匹配Top-N高斯分量加权映射规则的特征映射,将来自不同信道的特征通过某种方式映射到同一个与信道无关的特征空间上,用于解决在实际音频事件识别***中因为训练条件和测试条件不一致导致识别性能下降的问题;
步骤5,利用信道无关特征向量对整个音频事件进行模型的训练及识别。
2.根据权利要求1所述的基于自匹配Top-N高斯分量加权映射规则的特征映射,其特征在于:使用来自各类信道的数据训练得到一个与信道无关的UBM模型(wi,ui,δi),其中wi表示第i个高斯概率密度函数的权重,ui表示均值,δi表示方差。
3.根据权利要求1所述的基于自匹配Top-N高斯分量加权映射规则的特征映射,其特征在于:根据特定的信道情况选择相对应的训练数据,然后利用各个信道的训练特征数据逐一应用MAP方法自适应出该特定信道下的GMM模型,用(wi A,ui A,δi A)表示在信道A条件下的GMM模型。
4.根据权利要求1所述的基于自匹配Top-N高斯分量加权映射规则的特征映射,其特征在于:利用整个识别***信道相关的训练和测试特征向量进行信道模型判定,首先提取出输入数据的特征参数,然后根据对数似然度的大小判定该数据从属的信道,我们假设该条数据属于自信道A。
5.根据权利要求1所述的基于自匹配Top-N高斯分量加权映射规则的特征映射,其特征在于:采用自匹配Top-N高斯分量加权的映射规则进行特征变换,根据来源于信道A的测试数据的每一帧特征矢量,在信道A的高斯混合模型的数量M个高斯分量中选出排名得分前N的高斯分量N(uk A,δk A)(N<M,k=1,2,…,N),设定得分阈值为ε(0<ε<1),具体N的个数是利用得分阈值自匹配得到的,当得分前N的高斯分量的分数加和达到阈值ε时,则取该N值作为自匹配Top-N高斯分量加权映射的个数:
<mrow>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>N</mi>
</munderover>
<mfrac>
<mrow>
<msup>
<msub>
<mi>w</mi>
<mi>k</mi>
</msub>
<mi>A</mi>
</msup>
<mi>N</mi>
<mrow>
<mo>(</mo>
<msup>
<msub>
<mi>u</mi>
<mi>k</mi>
</msub>
<mi>A</mi>
</msup>
<mo>,</mo>
<msup>
<msub>
<mi>&delta;</mi>
<mi>k</mi>
</msub>
<mi>A</mi>
</msup>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>M</mi>
</msubsup>
<msup>
<msub>
<mi>w</mi>
<mi>i</mi>
</msub>
<mi>A</mi>
</msup>
<mi>N</mi>
<mrow>
<mo>(</mo>
<msup>
<msub>
<mi>u</mi>
<mi>i</mi>
</msub>
<mi>A</mi>
</msup>
<mo>,</mo>
<msup>
<msub>
<mi>&delta;</mi>
<mi>i</mi>
</msub>
<mi>A</mi>
</msup>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
<mo>&GreaterEqual;</mo>
<mi>&epsiv;</mi>
</mrow>
在N选定之后,分别逐一计算Top-N个高斯分量在特征变换时的方差δk A和均值uk A对应的权重βk,而且需要满足
<mrow>
<msub>
<mi>&beta;</mi>
<mi>k</mi>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<msup>
<msub>
<mi>w</mi>
<mi>k</mi>
</msub>
<mi>A</mi>
</msup>
<mi>N</mi>
<mrow>
<mo>(</mo>
<msup>
<msub>
<mi>u</mi>
<mi>k</mi>
</msub>
<mi>A</mi>
</msup>
<mo>,</mo>
<msup>
<msub>
<mi>&delta;</mi>
<mi>k</mi>
</msub>
<mi>A</mi>
</msup>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>N</mi>
</msubsup>
<msup>
<msub>
<mi>w</mi>
<mi>k</mi>
</msub>
<mi>A</mi>
</msup>
<mi>N</mi>
<mrow>
<mo>(</mo>
<msup>
<msub>
<mi>u</mi>
<mi>k</mi>
</msub>
<mi>A</mi>
</msup>
<mo>,</mo>
<msup>
<msub>
<mi>&delta;</mi>
<mi>k</mi>
</msub>
<mi>A</mi>
</msup>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
把线性加权之后的UBM和信道A条件下的GMM的基准均值和方差分别记为uk *、δk *、uk A*、δk A*,得到自匹配Top-N高斯分量加权特征映射公式:
<mfenced open = "" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mi>y</mi>
<mo>=</mo>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>-</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>N</mi>
</munderover>
<msub>
<mi>&beta;</mi>
<mi>k</mi>
</msub>
<msup>
<msub>
<mi>u</mi>
<mi>k</mi>
</msub>
<mi>A</mi>
</msup>
<mo>)</mo>
</mrow>
<mfrac>
<mrow>
<msubsup>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>N</mi>
</msubsup>
<msub>
<mi>&beta;</mi>
<mi>k</mi>
</msub>
<msub>
<mi>&delta;</mi>
<mi>i</mi>
</msub>
</mrow>
<mrow>
<msubsup>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>N</mi>
</msubsup>
<msub>
<mi>&beta;</mi>
<mi>k</mi>
</msub>
<msup>
<msub>
<mi>&delta;</mi>
<mi>k</mi>
</msub>
<mi>A</mi>
</msup>
</mrow>
</mfrac>
<mo>+</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>N</mi>
</munderover>
<msub>
<mi>&beta;</mi>
<mi>k</mi>
</msub>
<msub>
<mi>u</mi>
<mi>i</mi>
</msub>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>=</mo>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>-</mo>
<msup>
<msub>
<mi>u</mi>
<mi>k</mi>
</msub>
<mrow>
<mi>A</mi>
<mo>*</mo>
</mrow>
</msup>
<mo>)</mo>
</mrow>
<mfrac>
<mrow>
<msup>
<msub>
<mi>&delta;</mi>
<mi>k</mi>
</msub>
<mo>*</mo>
</msup>
</mrow>
<mrow>
<msup>
<msub>
<mi>&delta;</mi>
<mi>k</mi>
</msub>
<mrow>
<mi>A</mi>
<mo>*</mo>
</mrow>
</msup>
</mrow>
</mfrac>
<mo>+</mo>
<msup>
<msub>
<mi>u</mi>
<mi>k</mi>
</msub>
<mo>*</mo>
</msup>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
2
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710334633.XA CN107123432A (zh) | 2017-05-12 | 2017-05-12 | 一种自匹配Top‑N音频事件识别信道自适应方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710334633.XA CN107123432A (zh) | 2017-05-12 | 2017-05-12 | 一种自匹配Top‑N音频事件识别信道自适应方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107123432A true CN107123432A (zh) | 2017-09-01 |
Family
ID=59728248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710334633.XA Pending CN107123432A (zh) | 2017-05-12 | 2017-05-12 | 一种自匹配Top‑N音频事件识别信道自适应方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107123432A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108417201A (zh) * | 2018-01-19 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 单信道多说话人身份识别方法及*** |
CN109599118A (zh) * | 2019-01-24 | 2019-04-09 | 宁波大学 | 一种鲁棒性的回放语音检测方法 |
CN110120230A (zh) * | 2019-01-08 | 2019-08-13 | 国家计算机网络与信息安全管理中心 | 一种声学事件检测方法及装置 |
CN111210809A (zh) * | 2018-11-22 | 2020-05-29 | 阿里巴巴集团控股有限公司 | 语音训练数据适配方法和装置、语音数据转换方法以及电子设备 |
CN111602410A (zh) * | 2018-02-27 | 2020-08-28 | 欧姆龙株式会社 | 适合性判定装置、适合性判定方法和程序 |
CN112489678A (zh) * | 2020-11-13 | 2021-03-12 | 苏宁云计算有限公司 | 一种基于信道特征的场景识别方法及装置 |
CN112820318A (zh) * | 2020-12-31 | 2021-05-18 | 西安合谱声学科技有限公司 | 一种基于gmm-ubm的冲击声模型建立、冲击声检测方法及*** |
CN117373488A (zh) * | 2023-12-08 | 2024-01-09 | 富迪科技(南京)有限公司 | 一种音频实时场景识别*** |
-
2017
- 2017-05-12 CN CN201710334633.XA patent/CN107123432A/zh active Pending
Non-Patent Citations (1)
Title |
---|
吕英: ""音频事件识别信道自适应方法研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108417201A (zh) * | 2018-01-19 | 2018-08-17 | 苏州思必驰信息科技有限公司 | 单信道多说话人身份识别方法及*** |
CN111602410B (zh) * | 2018-02-27 | 2022-04-19 | 欧姆龙株式会社 | 适合性判定装置、适合性判定方法和存储介质 |
CN111602410A (zh) * | 2018-02-27 | 2020-08-28 | 欧姆龙株式会社 | 适合性判定装置、适合性判定方法和程序 |
CN111210809A (zh) * | 2018-11-22 | 2020-05-29 | 阿里巴巴集团控股有限公司 | 语音训练数据适配方法和装置、语音数据转换方法以及电子设备 |
CN111210809B (zh) * | 2018-11-22 | 2024-03-19 | 阿里巴巴集团控股有限公司 | 语音训练数据适配方法和装置、语音数据转换方法以及电子设备 |
CN110120230A (zh) * | 2019-01-08 | 2019-08-13 | 国家计算机网络与信息安全管理中心 | 一种声学事件检测方法及装置 |
CN110120230B (zh) * | 2019-01-08 | 2021-06-01 | 国家计算机网络与信息安全管理中心 | 一种声学事件检测方法及装置 |
CN109599118A (zh) * | 2019-01-24 | 2019-04-09 | 宁波大学 | 一种鲁棒性的回放语音检测方法 |
CN112489678B (zh) * | 2020-11-13 | 2023-12-05 | 深圳市云网万店科技有限公司 | 一种基于信道特征的场景识别方法及装置 |
CN112489678A (zh) * | 2020-11-13 | 2021-03-12 | 苏宁云计算有限公司 | 一种基于信道特征的场景识别方法及装置 |
CN112820318A (zh) * | 2020-12-31 | 2021-05-18 | 西安合谱声学科技有限公司 | 一种基于gmm-ubm的冲击声模型建立、冲击声检测方法及*** |
CN117373488A (zh) * | 2023-12-08 | 2024-01-09 | 富迪科技(南京)有限公司 | 一种音频实时场景识别*** |
CN117373488B (zh) * | 2023-12-08 | 2024-02-13 | 富迪科技(南京)有限公司 | 一种音频实时场景识别*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107123432A (zh) | 一种自匹配Top‑N音频事件识别信道自适应方法 | |
CN103117059B (zh) | 一种基于张量分解的语音信号特征提取方法 | |
CN103310789B (zh) | 一种基于改进的并行模型组合的声音事件识别方法 | |
US20030236661A1 (en) | System and method for noise-robust feature extraction | |
CN106952643A (zh) | 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法 | |
EP2662854A1 (en) | Method and device for detecting fundamental tone | |
CN105206270A (zh) | 一种组合pca和rbm的孤立数字语音识别分类***及方法 | |
CN102915728B (zh) | 声音分段设备和方法以及说话者识别*** | |
CN103794207A (zh) | 一种双模语音身份识别方法 | |
CN102789779A (zh) | 一种语音识别***及其识别方法 | |
CN104978507A (zh) | 一种基于声纹识别的智能测井评价专家***身份认证方法 | |
CN101640043A (zh) | 基于多坐标序列内核的说话人识别方法和*** | |
CN113327626A (zh) | 语音降噪方法、装置、设备及存储介质 | |
Mallidi et al. | Novel neural network based fusion for multistream ASR | |
CN109378014A (zh) | 一种基于卷积神经网络的移动设备源识别方法及*** | |
Zhang et al. | An efficient perceptual hashing based on improved spectral entropy for speech authentication | |
CN101853661A (zh) | 基于非监督学习的噪声谱估计与语音活动度检测方法 | |
Tan et al. | Novel variations of group sparse regularization techniques with applications to noise robust automatic speech recognition | |
CN115758082A (zh) | 一种轨道交通变压器故障诊断方法 | |
CN107527611A (zh) | Mfcc语音识别方法、存储介质、电子设备及*** | |
CN106297768B (zh) | 一种语音识别方法 | |
CN106941007A (zh) | 一种音频事件模型合成信道自适应方法 | |
Nilsson et al. | On the mutual information between frequency bands in speech | |
CN105741853A (zh) | 一种基于共振峰频率的数字语音感知哈希方法 | |
US11521629B1 (en) | Method for obtaining digital audio tampering evidence based on phase deviation detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170901 |
|
WD01 | Invention patent application deemed withdrawn after publication |