CN103824557B - 一种具有自定义功能的音频检测分类方法 - Google Patents
一种具有自定义功能的音频检测分类方法 Download PDFInfo
- Publication number
- CN103824557B CN103824557B CN201410055255.8A CN201410055255A CN103824557B CN 103824557 B CN103824557 B CN 103824557B CN 201410055255 A CN201410055255 A CN 201410055255A CN 103824557 B CN103824557 B CN 103824557B
- Authority
- CN
- China
- Prior art keywords
- hybrid models
- gauss hybrid
- parameter
- training
- training sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000012549 training Methods 0.000 claims abstract description 103
- 239000000203 mixture Substances 0.000 claims abstract description 14
- 238000012360 testing method Methods 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 230000005236 sound signal Effects 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000006870 function Effects 0.000 abstract description 4
- 238000010801 machine learning Methods 0.000 abstract description 2
- 230000009897 systematic effect Effects 0.000 abstract description 2
- 238000009499 grossing Methods 0.000 abstract 1
- 230000003993 interaction Effects 0.000 abstract 1
- 230000004913 activation Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 206010068319 Oropharyngeal pain Diseases 0.000 description 3
- 201000007100 Pharyngitis Diseases 0.000 description 3
- 230000003213 activating effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004378 air conditioning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000008717 functional decline Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Complex Calculations (AREA)
Abstract
一种具有自定义功能的音频检测分类方法,对音频数据进行音频激活检测,通过将部分原始训练集首先按照类型分为若干类训练集,针对每类训练集进行特征提取,并训练与其对应的高斯混合模型及其参数,得到一个全局高斯混合模型;进一步将其他训练集作为新的训练样本,对全局高斯混合模型进行参数更新得到一个局部模型;最后对测试集提取特征,输入局部模型分类器,并对结果进行平滑和输出,本发明通过全局及局部高斯混合模型的训练,可以使高斯混合模型的类别和参数随着样本的增加而更新,与分类器的结合进一步提高了***性能,最终实现音频检测分类,可广泛应用于涉及音频检测分类的说话人识别、语音识别、人机交互等多种机器学习领域。
Description
技术领域
本发明属于音频处理技术领域,特别涉及一种具有自定义功能的音频检测分类方法。
背景技术
在音频识别和说话人识别等***中,音频激活检测(Voiceactivitydetection,VAD)技术被广泛应用,主要用于排除连续音频信号中与说话人无关的静音和噪声信号,确定音频段的起点以及终点位置,提高语音识别和说话人识别***的性能。有效而准确的音频激活检测,通过去除噪声段或是无声段的信号,减少***的数据处理量及对后续音频分析处理的干扰,可以达到提高***识别性能的目的。对音频激活检测算法的研究已经进行了多年,传统的音频激活检测方法基本上针对安静环境下获得的音频信号进行处理,如基于短时平均能量的方法、基于短时平均过零率的算法和基于倒谱特征的方法。
基于短时平均能量的激活检测算法根据清音能量与浊音能量的差别,利用短时平均能量特征来区分安静环境下的静音段及音频段的清浊音。三者按短时能量顺序排列依次为:浊音>清音>静音,据此可来区分安静环境下的静音段和音频段及音频段信号的清音与浊音。
双门限音频信号的激活检测算法是基于短时平均过零率与短时平均能量相结合的音频激活检测算法,它结合了两种音频信号的特征参数。这种方法首先使用短时平均能量来区分音频段\非音频段,进一步用过零率再次区分音频段\非音频段。相比较于基于短时平均能量的激活检测算法,能够更好的避免以清辅音开头的音频信号被误判成非音频段。
在噪声环境下,短时能量与其它特征参数都不能很好地区分音频段与非音频段。倒谱能很好表示音频的特征,因此在大多数音频识别***中选择倒谱系数作为输入特征矢量,因此将倒谱系数作为端点检测的参数。基于倒谱特征的激活检测算法将音频信号在频域上分为高、低频带两个信号,频带间可重叠,将得到的两个信号进行预处理后就提取线性预测编码(linearpredictivecoding,LPC)倒谱参数,进一步用美尔尺度进行非线性变换得到LPC美尔倒谱系数。随后用倒谱距离法,将倒谱距离代替短时能量作为门限。首先假定前几帧音频信号为背景噪声,计算这些帧的倒谱系数矢量,利用前几帧倒谱矢量的平均值可估计背景噪声的倒谱矢量并不断更新,计算所有测试帧与背景噪声之间的倒谱距离可得到倒谱距离轨迹,利用倒谱距离轨迹可实现激活检测。
隐马尔柯夫模型(HiddenMarkovModel,HMM)也可以像倒谱系数那样作为音频特征的统计模型。在HMM音频检测器中,一个为词作标记的连续HMM和一个为背景噪声作标记的连续HMM被训练来分别表示一般音频与噪声的特征,训练采用基于Baum-Welch算法的倒谱向量来进行。HMM与一个语法模型相连接,在端点检测阶段对带噪音频进行预处理以得到输入特征矢量,每一矢量由倒谱系数,倒谱系数的增量或时间导数以及当前帧的短时能量增量等组成,然后引入维特比解码,按照模型参数与输入音频特征流得到与正发生的音频非常相似的音频,维特比解码器给出音频的端点,这种方法的基本***结构与通常的音频识别器相同。
基于子带能量特征的音频激活检测算法借鉴了图像处理领域中使用的边缘检测方法。边缘检测是一个在图像处理领域中的经典问题,其中较为常用的方法是根据某种优化的准则推导出的线性滤波器,例如指数滤波器、高斯函数一阶差分滤波器等。子带选取主要目标是去除噪声信号能量比较集中的部分,同时尽量保留音频信号的绝大部分能量,据此将音频信号分为高、低频两个子带进行音频段\非音频段的判决。在得到两个子带的起点和结束点后,需要进行子带的融合即综合的判决。最终的音频段起点选取两个子带的起点中靠前的点,终点选取两个子带中比较靠后的结束点作为最终的结束点。
基于熵函数的判决方法设语音信号s(n)的帧长为N,在一帧语音中最大和最小的幅度分别为M和-M,则这一帧的熵定义为:构造出了熵函数之后就可以计算出每帧语音信号的信息熵,根据背景噪声信号的熵值小而浊音信号的熵值大的原理,定义一个门限h,然后对每帧语音的熵值进行比较,大于门限h为语音帧,小于门限h则为无声帧。
上述各种算法在安静环境下性能较好,但在实际的复杂背景噪声环境下***性能下降明显,在背景噪声较大或者存在大能量突发噪声的情况下就会失效。由于语音识别和说话人识别的应用非常广泛灵活,因此设计一个固定的分类器进行音频激活检测没有通用性。
目前大多数使用的音频激活检测方法在安静的环境下具有很好的性能,但在背景噪声较大,或者存在大能量突发噪声的情况下就会失效。由于语音识别和说话人识别的应用非常广泛灵活,因此设计一个固定的分类器进行噪声探测没有通用性,不具有实际意义。例如,如果安装在一个空调旁边,那么空调的发出的声音应该被定义为主要噪声;而安装在门旁边,那么开门、关门和敲门所产生的声音则应该被定义为主要噪声。例如,在语音识别***中,环境背景声音和低能量的人声可被定义为主要噪声;在另一些说话人识别***里,类似尖叫声、***声等突发信号被定义为是噪声,而人声、汽车声等则并不定义为噪声。因此,VAD应该被设计成一个可以自定义的分类器,同时可以用新的音频数据来更新分类器,提高分类器的环境适应性。
发明内容
为了克服上述现有技术的缺点,本发明的目的在于提供一种具有自定义功能的音频检测分类方法,将部分原始训练集首先按照类型分为若干类训练集,针对每类训练集进行特征提取,并训练与其对应的高斯混合模型及其参数,得到一个全局高斯混合模型;进一步将其他训练集作为新的训练样本,对全局高斯混合模型进行参数更新得到一个局部模型;最后对测试集提取特征,输入局部模型分类器,并对结果进行平滑和输出,其主要优点在于克服了原有的音频激活检测无法自定义多个类别并进行判决的问题。
为了实现上述目的,本发明采用的技术方案是:
一种具有自定义功能的音频检测分类方法,包括以下步骤:
第一步,不同类别训练样本的特征提取
训练样本包括不同类别的音频信号,对这些训练样本提取声学特征作为说话人识别的训练特征;
第二步,训练全局高斯混合模型参数
在完成对训练样本的特征提取后,对第一类训练样本进行高斯混合模型参数训练,输出第一类训练样本对应的高斯混合模型参数;以此类推,对第m类训练样本进行高斯混合模型参数训练,输出第m类训练样本对应的高斯混合模型参数;
第三步,训练局部高斯混合模型参数
假设在第二步骤得到一系列高斯混合模型参数,当获得新的训练样本,则对全局高斯混合模型进行更新得到局部高斯混合模型参数,将新的训练样本结合全局高斯混合模型进一步训练高斯混合模型参数得到局部高斯混合模型;
第四步,测试分类器
在第三步得到了局部高斯混合模型参数后,构造基于局部高斯混合模型的贝叶斯分类器并对所有测试样本进行音频检测分类。
所述第一步中的声学特征包括人说话声、背景噪声、关门声以及闹市噪声。
所述第一步中,全局模型训练的目的是训练出最基本且最广泛的模型,例如人说话声、背景噪声、关门声、闹市噪声(BabbleNoise)等,这些声音几乎在所有的应用里都是需要定义的对象。因此需要对这几种数据预先进行模型训练,得到它们的概率密度分布,从而训练得到全局模型。类似于说话人识别中的通用背景模型(UniversalBackgroundModel,UBM),全局模型得到的输出是多个高斯混合模型参数n=1,2,...,Nm,m=1,2,...,M,其中π表示混合模型的混合比例,μ和Σ对应着每一个高斯分布的均值向量和协方差矩阵。Nm表示第m个混合模型高斯分布的个数,n表示类别数量。
所述第三步中局部高斯混合模型训练主要将新的训练数据结合全局模型进一步训练高斯混合模型参数得到局部模型,包括两种情况:一种是新的训练样本属于已有音频类型,则将其加入到已有的训练样本中,更新高斯混合模型参数;另一种是新的训练样本不属于已有音频类型,需要增加高斯混合模型的类别并更新高斯混合模型参数;
在第一种情况中,高斯混合模型参数通常用期望最大化(ExpectationMaximization,EM)的方法来求解,即给定训练数据其中l是样本数目,求出所有的未知参数。在建立高斯混合模型的过程中,如果保存所有的训练样本,需要消耗的资源非常大,可以采用增量学习的思想来用已有的高斯混合模型参数以及新的训练样本来更新高斯混合模型参数。其方法如下:
假设某类高斯混合模型参数为πj,μj,Σj,j=1,2,...,g,其中g是混合模型的个数,其训练的样本为x1,x2,...,xN,而新的训练样本为需要重新估计高斯混合模型的参数π′j,μ′j,Σ′j,j=1,2,...,g。则其总的期望Q为:
其中θ={πj,μj,Σj},j=1,2,...,g,θ′={π′j,μ′j,Σ′j},j=1,2,...,g,
用数学期望来代替训练样本,估计π′j,μ′j,Σ′j,j=1,2,...,g:
其中N和K分别为训练样本xi和新的训练样本的个数。
在第二种情况中,当需要增加一类或者几类新的音频类型并进行判别时,已知当前某类的高斯混合模型参数为πj,μj,Σj,j=1,2,...,g,其中g是混合模型的个数,原来训练的样本数是N个。同时,我们得到了一些新的训练样本但并不属于现有的高斯混合模型。为了重新估计高斯混合模型的参数,假设新增了h个高斯混合模型参数为πj,μj,Σj,j=g+1,g+2,...,g+h,则全部g+h个高斯混合模型参数为π′j,μj,Σj,j=1,2,...,g+h。
与现有技术相比,本发明通过建立全局模型和局部模型,对不同类型的训练样本细化分类,结合全局高斯混合模型训练得到局部高斯混合模型,最终实现具有自定义功能的音频激活检测。本发明方法可以看作一种在机器学习中用局部学习替代全局学习、对不同类型的数据进行建模的方法,通过该方法,可有效地解决无法对音频自定义类型并进行区分的问题。在一些音频激活检测的数据集上采用这种方法,可以获得比基于音频能量或其他特征进行检测的方法更好的性能。
附图说明
图1是本发明的音频检测分类的全局模型训练模块流程图。
图2是本发明的音频检测分类的局部模型训练模块流程图。
图3是本发明的音频检测分类的分类器测试方法流程图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
图1为本发明的音频检测分类的全局模型训练流程图,包括以下内容:
本发明提出一种基于音频检测分类的全局模型训练方法和装置,特别地,用于音频激活检测分类的场景下。这些方法和装置不局限于音频激活检测分类,也可以是任何与音频分类有关的方法和装置。
图1描述了一种基于音频检测分类的全局模型训练实例。
如图1所示的第一类训练样本101包括全部第一类用于训练的音频信号,第二类训练样本102包括全部第二类用于训练的音频信号,以此类推,第M类训练样本103包括全部第M类用于训练的音频信号。
特征提取104指的是,在利用第一步获得音频信号后,提取声学特征作为检测信息,这些声学特征可以为Mel频率倒谱系数(MelFrequencyCepstralCoefficients,MFCC)或线性预测倒谱系数(LinearFrequencyCepstralCoefficients,LPCC)等多种声学特征;
第一类高斯混合模型105首先对第一类训练样本101进行模型训练,得到它们的概率密度分布,输出是第一类训练样本对应的高斯混合模型参数其中π表示混合模型的混合比例,μ和Σ对应着每一个高斯分布的均值向量和协方差矩阵。m表示混合模型高斯分布的个数;以此类推,第二类高斯混合模型106输出是第二类训练样本对应的高斯混合模型参数第Nm类高斯混合模型107输出是第Nm类训练样本对应的高斯混合模型参数 其中π表示混合模型的混合比例,μ和Σ对应着每一个高斯分布的均值向量和协方差矩阵。Nm表示第m个混合模型高斯分布的个数,n表示类别数量。
图2为本发明的音频检测分类的局部模型训练流程图,包括以下内容:
已知当前全局模型202的参数为πj,μj,Σj,j=1,2,...,g,其中g是混合模型的个数,原来训练的样本数是N个。当获得新的训练样本201后,其参数更新203方法如下:
局部模型训练包括两种情况:一种是新的训练样本属于已有音频类型,则需要将其加入到已有的训练样本中,更新高斯混合模型参数;另一种是新的训练样本不属于已有音频类型,需要增加高斯混合模型的类别并更新高斯混合模型参数。
在第一种情况中,高斯混合模型参数通常用期望最大化(ExpectationMaximization,EM)的方法来求解,即给定训练数据其中l是样本数目,求出所有的未知参数。在建立高斯混合模型的过程中,如果保存所有的训练样本,需要消耗的资源非常大,可以采用增量学习的思想来用已有的高斯混合模型参数以及新的训练样本来更新高斯混合模型参数。其方法如下:
假设某类高斯混合模型参数为πj,μj,Σj,j=1,2,...,g,其中g是混合模型的个数,其训练的样本为x1,x2,...,xN,而新的训练样本为需要重新估计高斯混合模型的参数π′j,μ′j,Σ′j,j=1,2,...,g。则其总的期望Q为:
其中θ={πj,μj,Σj},j=1,2,...,g,θ′={π′j,μ′j,Σ′j},j=1,2,...,g,
用数学期望来代替训练样本,估计π′j,μ′j,Σ′j,j=1,2,...,g:
其中N和K分别为训练样本xi和新的训练样本的个数。
在第二种情况中,当需要增加一类或者几类新的音频类型并进行判别时,已知当前某类的高斯混合模型参数为πj,μj,Σj,j=1,2,...,g,其中g是混合模型的个数,原来训练的样本数是N个。同时,我们得到了一些新的训练样本但并不属于现有的高斯混合模型。为了重新估计高斯混合模型的参数,假设新增了h个高斯混合模型参数为πj,μj,Σj,j=g+1,g+2,...,g+h,则全部g+h个高斯混合模型参数为π′j,μj,Σj,j=1,2,...,g+h。
图3为本发明的音频检测分类的分类器测试流程图,包括以下内容:
测试样本301包括全部第一类用于测试的音频信号;
特征提取302指的是,在利用第一步获得音频信号后,提取声学特征作为检测信息,这些声学特征可以为Mel频率倒谱系数(MelFrequencyCepstralCoefficients,MFCC)或线性预测倒谱系数(LinearFrequencyCepstralCoefficients,LPCC)等多种声学特征;
局部分类器303为基于高斯混合模型的贝叶斯分类器,分类器定义如下:
其中l=g+h是全部高斯混合模型个数,πj表示第j个混合模型的百分比,pj(x;μj,Σj)是第j个多维高斯分布,其定义如下:
Claims (3)
1.一种具有自定义功能的音频检测分类方法,其特征在于,包括以下步骤:
第一步,不同类别训练样本的特征提取
训练样本包括不同类别的音频信号,对这些训练样本提取声学特征作为说话人识别的训练特征;
第二步,训练全局高斯混合模型参数
在完成对训练样本的特征提取后,对第一类训练样本进行高斯混合模型参数训练,输出第一类训练样本对应的高斯混合模型参数;以此类推,对第m类训练样本进行高斯混合模型参数训练,输出第m类训练样本对应的高斯混合模型参数;
第三步,训练局部高斯混合模型参数
假设在第二步骤得到一系列高斯混合模型参数,当获得新的训练样本,则对全局高斯混合模型进行更新得到局部高斯混合模型参数,将新的训练样本结合全局高斯混合模型进一步训练高斯混合模型参数得到局部高斯混合模型;
第四步,测试分类器
在第三步得到了局部高斯混合模型参数后,构造基于局部高斯混合模型的贝叶斯分类器并对所有测试样本进行音频检测分类,
其中l=g+h,是全部高斯混合模型个数,g是混合模型的个数,h是新增的高斯混合模型的个数,πj表示第j个混合模型的百分比,pj(x;μj,∑j)是第j个多维高斯分布,μj和∑j是高斯混合模型的参数,j=1,2,...,g,μ和∑对应着每一个高斯分布的均值向量和协方差矩阵。
2.根据权利要求1所述的具有自定义功能的音频检测分类方法,其特征在于,所述第一步中的声学特征包括人说话声、背景噪声、关门声以及闹市噪声。
3.根据权利要求1所述的具有自定义功能的音频检测分类方法,其特征在于,所述第三步中局部高斯混合模型训练包括两种情况:一种是新的训练样本属于已有音频类型,则将其加入到已有的训练样本中,更新高斯混合模型参数;另一种是新的训练样本不属于已有音频类型,需要增加高斯混合模型的类别并更新高斯混合模型参数;
在第一种情况中,假设已知某类高斯混合模型参数为πj,μj,∑j,j=1,2,...,g,其中π表示高斯混合模型的混合比例,μ对应每一个高斯分布的均值向量,∑对应每一个高斯分布的协方差矩阵,g是混合模型的个数,其训练的样本为x1,x2,...,xN,新的训练样本为重新估计高斯混合模型的参数π′j,μ′j,∑′j,j=1,2,...,g如下:
其中N和K分别为训练样本xi和新的训练样本的个数;
在第二种情况中,当需要增加一类或者几类新的音频类型并进行判别时,已知当前某类的高斯混合模型参数为πj,μj,∑j,j=1,2,...,g,其中π表示混合模型的混合比例,μ对应每一个高斯分布的均值向量,∑对应每一个高斯分布的协方差矩阵,g是混合模型的个数,原来训练的样本数是N个;而新的训练样本不属于现有的高斯混合模型,为了重新估计高斯混合模型的参数,假设新增了h个高斯混合模型参数为πj,μj,∑j,j=g+1,g+2,...,g+h,则全部g+h个高斯混合模型参数为π'j,μj,∑j,j=1,2,...,g+h。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410055255.8A CN103824557B (zh) | 2014-02-19 | 2014-02-19 | 一种具有自定义功能的音频检测分类方法 |
PCT/CN2014/091959 WO2015124006A1 (zh) | 2014-02-19 | 2014-11-22 | 一种具有自定义功能的音频检测分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410055255.8A CN103824557B (zh) | 2014-02-19 | 2014-02-19 | 一种具有自定义功能的音频检测分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103824557A CN103824557A (zh) | 2014-05-28 |
CN103824557B true CN103824557B (zh) | 2016-06-15 |
Family
ID=50759580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410055255.8A Active CN103824557B (zh) | 2014-02-19 | 2014-02-19 | 一种具有自定义功能的音频检测分类方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN103824557B (zh) |
WO (1) | WO2015124006A1 (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103824557B (zh) * | 2014-02-19 | 2016-06-15 | 清华大学 | 一种具有自定义功能的音频检测分类方法 |
CN104361891A (zh) * | 2014-11-17 | 2015-02-18 | 科大讯飞股份有限公司 | 特定人群的个性化彩铃自动审核方法及*** |
CN104409080B (zh) * | 2014-12-15 | 2018-09-18 | 北京国双科技有限公司 | 语音端点检测方法和装置 |
CN105895080A (zh) * | 2016-03-30 | 2016-08-24 | 乐视控股(北京)有限公司 | 语音识别模型训练方法、说话人类型识别方法及装置 |
US10152974B2 (en) * | 2016-04-15 | 2018-12-11 | Sensory, Incorporated | Unobtrusive training for speaker verification |
CN106251861B (zh) * | 2016-08-05 | 2019-04-23 | 重庆大学 | 一种基于场景建模的公共场所异常声音检测方法 |
CN107358947A (zh) * | 2017-06-23 | 2017-11-17 | 武汉大学 | 说话人重识别方法及*** |
CN111433843B (zh) * | 2017-10-27 | 2024-05-28 | 谷歌有限责任公司 | 语义音频表示的无监督学习 |
CN107993664B (zh) * | 2018-01-26 | 2021-05-28 | 北京邮电大学 | 一种基于竞争神经网络的鲁棒说话人识别方法 |
CN109473112B (zh) * | 2018-10-16 | 2021-10-26 | 中国电子科技集团公司第三研究所 | 一种脉冲声纹识别方法、装置、电子设备及存储介质 |
CN112396084A (zh) * | 2019-08-19 | 2021-02-23 | ***通信有限公司研究院 | 数据处理方法、装置、设备及存储介质 |
CN111797708A (zh) * | 2020-06-12 | 2020-10-20 | 瑞声科技(新加坡)有限公司 | 气流杂音检测方法、装置、终端及存储介质 |
CN113393848A (zh) * | 2021-06-11 | 2021-09-14 | 上海明略人工智能(集团)有限公司 | 用于训练说话人识别模型的方法、装置、电子设备和可读存储介质 |
CN113421552A (zh) * | 2021-06-22 | 2021-09-21 | 中国联合网络通信集团有限公司 | 音频识别方法和装置 |
CN114186581A (zh) * | 2021-11-15 | 2022-03-15 | 国网天津市电力公司 | 基于mfcc和扩散化高斯混合模型的电缆隐患识别方法及装置 |
CN114626418A (zh) * | 2022-03-18 | 2022-06-14 | 中国人民解放军32802部队 | 一种基于多中心复残差网络的辐射源识别方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008209698A (ja) * | 2007-02-27 | 2008-09-11 | Nippon Telegr & Teleph Corp <Ntt> | 適応モデル学習方法とその装置、それを用いた音声認識用音響モデル作成方法とその装置、及び音響モデルを用いた音声認識方法とその装置、及びそれら装置のプログラムと、それらプログラムの記憶媒体 |
CN101546556A (zh) * | 2008-03-28 | 2009-09-30 | 展讯通信(上海)有限公司 | 用于音频内容识别的分类*** |
CN101546557A (zh) * | 2008-03-28 | 2009-09-30 | 展讯通信(上海)有限公司 | 用于音频内容识别的分类器参数更新方法 |
CN103035239A (zh) * | 2012-12-17 | 2013-04-10 | 清华大学 | 一种基于局部学习的说话人识别方法 |
CN103077708A (zh) * | 2012-12-27 | 2013-05-01 | 安徽科大讯飞信息科技股份有限公司 | 一种语音识别***中拒识能力提升方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6963835B2 (en) * | 2003-03-31 | 2005-11-08 | Bae Systems Information And Electronic Systems Integration Inc. | Cascaded hidden Markov model for meta-state estimation |
US20050021337A1 (en) * | 2003-07-23 | 2005-01-27 | Tae-Hee Kwon | HMM modification method |
CN101188107B (zh) * | 2007-09-28 | 2011-09-07 | 中国民航大学 | 一种基于小波包分解及混合高斯模型估计的语音识别方法 |
KR101014321B1 (ko) * | 2009-02-24 | 2011-02-14 | 한국전자통신연구원 | 최소 분류 오차 기법을 이용한 감정 인식 방법 |
CN101937678A (zh) * | 2010-07-19 | 2011-01-05 | 东南大学 | 一种针对烦躁情绪的可据判的自动语音情感识别方法 |
CN103824557B (zh) * | 2014-02-19 | 2016-06-15 | 清华大学 | 一种具有自定义功能的音频检测分类方法 |
-
2014
- 2014-02-19 CN CN201410055255.8A patent/CN103824557B/zh active Active
- 2014-11-22 WO PCT/CN2014/091959 patent/WO2015124006A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008209698A (ja) * | 2007-02-27 | 2008-09-11 | Nippon Telegr & Teleph Corp <Ntt> | 適応モデル学習方法とその装置、それを用いた音声認識用音響モデル作成方法とその装置、及び音響モデルを用いた音声認識方法とその装置、及びそれら装置のプログラムと、それらプログラムの記憶媒体 |
CN101546556A (zh) * | 2008-03-28 | 2009-09-30 | 展讯通信(上海)有限公司 | 用于音频内容识别的分类*** |
CN101546557A (zh) * | 2008-03-28 | 2009-09-30 | 展讯通信(上海)有限公司 | 用于音频内容识别的分类器参数更新方法 |
CN103035239A (zh) * | 2012-12-17 | 2013-04-10 | 清华大学 | 一种基于局部学习的说话人识别方法 |
CN103077708A (zh) * | 2012-12-27 | 2013-05-01 | 安徽科大讯飞信息科技股份有限公司 | 一种语音识别***中拒识能力提升方法 |
Non-Patent Citations (2)
Title |
---|
"基于内容的音频检索技术研究与***实现";邬显康;《中国优秀博硕士学位论文全文数据库信息科技辑》;20070615(第06期);全文 * |
"复杂音频事件检测与分类中的关键词问题研究";冷严;《中国优秀博士学位论文全文数据库信息科技辑》;20130115(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN103824557A (zh) | 2014-05-28 |
WO2015124006A1 (zh) | 2015-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103824557B (zh) | 一种具有自定义功能的音频检测分类方法 | |
CN103065627B (zh) | 基于dtw与hmm证据融合的特种车鸣笛声识别方法 | |
Wazir et al. | Spoken Arabic digits recognition using deep learning | |
CN103345923A (zh) | 一种基于稀疏表示的短语音说话人识别方法 | |
CN104078039A (zh) | 基于隐马尔科夫模型的家用服务机器人语音识别*** | |
CN109192200B (zh) | 一种语音识别方法 | |
US11100932B2 (en) | Robust start-end point detection algorithm using neural network | |
Hartmann et al. | A direct masking approach to robust ASR | |
Akbacak et al. | Environmental sniffing: noise knowledge estimation for robust speech systems | |
CN103985381A (zh) | 一种基于参数融合优化决策的音频索引方法 | |
Poorjam et al. | Multitask speaker profiling for estimating age, height, weight and smoking habits from spontaneous telephone speech signals | |
Jung et al. | Self-adaptive soft voice activity detection using deep neural networks for robust speaker verification | |
Ramgire et al. | A survey on speaker recognition with various feature extraction and classification techniques | |
Sivaram et al. | Data-driven and feedback based spectro-temporal features for speech recognition | |
Handaya et al. | Comparison of Indonesian speaker recognition using vector quantization and Hidden Markov Model for unclear pronunciation problem | |
CN111667836B (zh) | 基于深度学习的文本无关多标号说话人识别方法 | |
Sharma et al. | Voice activity detection using windowing and updated K-means clustering algorithm | |
MY | An improved feature extraction method for Malay vowel recognition based on spectrum delta | |
Gaffar et al. | A multi-frame blocking for signal segmentation in voice command recognition | |
Alimuradov | Enhancement of speech signal segmentation using teager energy operator | |
Komlen et al. | Text independent speaker recognition using LBG vector quantization | |
Gowda et al. | Continuous kannada speech segmentation and speech recognition based on threshold using MFCC and VQ | |
Morales et al. | Adding noise to improve noise robustness in speech recognition. | |
Shahrul Azmi et al. | Noise robustness of Spectrum Delta (SpD) features in Malay vowel recognition | |
Hartmann et al. | Nothing doing: Reevaluating missing feature ASR |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20181115 Address after: 100085 Beijing Haidian District Shangdi Information Industry Base Pioneer Road 1 B Block 2 Floor 2030 Patentee after: Beijing Huacong Zhijia Technology Co., Ltd. Address before: 100084 Beijing Haidian District 100084 box 82 box, Tsinghua University Patent Office Patentee before: Tsinghua University |