CN114937459A - 一种层级融合的音频数据增强方法及*** - Google Patents

一种层级融合的音频数据增强方法及*** Download PDF

Info

Publication number
CN114937459A
CN114937459A CN202210458199.7A CN202210458199A CN114937459A CN 114937459 A CN114937459 A CN 114937459A CN 202210458199 A CN202210458199 A CN 202210458199A CN 114937459 A CN114937459 A CN 114937459A
Authority
CN
China
Prior art keywords
audio
frequency
fundamental
fundamental frequency
def
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210458199.7A
Other languages
English (en)
Inventor
武星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN202210458199.7A priority Critical patent/CN114937459A/zh
Publication of CN114937459A publication Critical patent/CN114937459A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提出了一种层级融合的音频数据增强方法及***,该方法包括:采集原始音频信号X;使用WSOLA算法对音频信号X进行时域信号压扩,得到压扩后的音频Xo;将处理后的音频Xo与原始音频X混合,组成新的训练集Sx;对训练集中的每一条音频进行频率提取;使用SWIPE算法进行基频估计并构建基频集Sf;使用加入了扰动的基频对频率进行归一化,构建频率集SF;使用快速傅里叶变换提取声学特征。本发明提出的音频数据增强方法提高了模型对于带噪音频的识别性能,能够适用于多种语音任务,包括但不限于:音频分类、声纹识别和语音识别等。

Description

一种层级融合的音频数据增强方法及***
技术领域
本发明涉及一种可适用于多种音频任务的音频数据增强方法,属于音频数据处理领域。
背景技术
目前,大多数音频任务都依赖于有标数据的数量,通常数据量越大,模型的效果越好。对于低资源条件下的音频任务,数据增强是一种简单有效的构造新样本的方法。利用数据增强技术,模型可以在小样本的条件下提取到稳定的语音表征,相比于原始的训练方法,识别效果也大大提升。
现有的研究集中于前端和特征两个方面的数据增强,以提高在未知环境下的识别性能。对原始音频添加参数化的混响、偏移和速度扰动都可以模拟真实环境下的噪声,用这种方法进行数据增强可以大大提高模型的鲁棒性。此外,使用声道长度扰动技术扩增数据也被证明是有效的。此外,基于信号压缩的数据增强方法已经成功用于声音攻击检测领域,该方法基于a律和μ律信号压缩方法通过对原始信号的压缩和扩展实现数据增强。
除了在前端进行数据增强,还可以对音频特征进行数据增强,现有研究基于基频归一化实现了音频特征的数据增强,通过对基频添加不同程度的扰动构造出多个相近的频率。该方法在语音识别任务上能够取得不错的效果。
发明内容
本发明要解决的技术问题是:对于音频分类任务:一方面,获取大量的外部噪声数据实现数据增强的成本较高;另一方面,现有方法所构造出的样本比较有限。
为了解决上述技术问题,本发明的一个技术方案是提供了一种层级融合的音频数据增强方法,其特征在于,包括以下步骤:
a)采集原始信号,并以数字信号的形式保存为音频X;
b)对音频X进行时域信号压扩,得到压扩后的音频Xo
对音频X进行时域信号压扩时,采用波形相似重叠叠加算法,在保留谐波信号的同时引入一系列的失真,从而得到压扩后的音频Xo
c)将压扩后的音频Xo与原始音频X混合,组成新的训练集Sx
d)对训练集Sx中的每一条音频进行频率提取,得到频率f;
e)对每一条音频进行基频提取,获得基频fo,def
d)对基频fo,def扰动添加,构成基频集Sf
对于基频fo,def添加扰动,分别加入±20,±40和±60的频率偏移量,得到的扰动后基频fo与原始基频fo,def共同组成基频集Sf
e)使用基频集Sf对频率进行归一化,构建频率集SF
使用基频集Sf对频率特征进行归一化操作,对于当前音频对应的频谱图,使用步骤d)提取每一帧的基频,并统计出基频的中位数,记作fo,audio,再分别使用基频集Sf中的每个值对梅尔尺度下的频率值进行标准化:
fnorm=forig-(fo,audio-fo,def)
式中,forig表示梅尔尺度下的频率值,fo,audio表示当前音频中所有帧的基频的中位数,fo,def表示默认基频;
经过归一化得到的fnorm组成了频率集SF
f)使用频率集SF进行声学特征提取
使用频率集SF中的元素对音频信号做快速傅里叶变换转换到频域上的能量分布,不同的能量分布能代表不同语音的特性。
优选地,将原始音频X中的任意一个音频帧定义为第一个音频帧,则步骤b)具体包括以下步骤:
在第一个音频帧的左右范围内选取第二个音频帧,第二个音频帧的相位参数与第一个音频帧相位对齐;
在范围[-Δmax,Δmax]内查找第三个音频帧,Δmax大小设为半个音频周期,然后计算范围内帧与帧之间的互相关系数,选择与第二个音频帧相似度最高的作为第三个音频帧;
将第一个音频帧、第二个音频帧以及第三个音频帧以相同步长进行拼接,重叠部分做相加处理。
优选地,在步骤c)中,为压扩后的音频Xo添加与原始音频X相同的标注,并添加到原始的数据集中,共同组成新的训练集Sx
优选地,步骤d)中,对训练集Sx中的音频进行分帧、加窗和梅尔尺度变换,提取音频频率特征,从而获得频率f。
优选地,步骤e)中,使用SWIPE算法进行基频估计,通过峰谷距衡量幅度谱在每个频率f的整数倍处的峰值相对于紧邻它的两个谷值的显著性,该函数定义为:
Figure BDA0003621201420000031
式中:dk(f)表示峰谷距;k=1,2,...,n,表示倍数,|X(kf)|表示幅度谱在频率f的k倍处的峰值;
显著度由各次谐波的平均峰谷距表示,如下式所示:
Figure BDA0003621201420000032
基于显著度最终估计出的基频表示为fo,def,该基频fo,def用于后续的特征归一化。
本发明的另一个技术方案是提供了一种层级融合的音频数据增强***,其特征在于,包括:
信号压扩单元:用于对音频X进行时域信号压扩,得到压扩后的音频Xo,其中,对音频X进行时域信号压扩时,采用波形相似重叠叠加算法,在保留谐波信号的同时引入一系列的失真,从而得到压扩后的音频Xo
训练集构建单元:用于将压扩后的音频Xo与原始音频X混合,组成新的训练集Sx
频率提取单元:用于提取训练集Sx中的每一条音频的频率,得到频率f;
基频提取单元:用于对每一条音频进行基频提取,获得基频fo,def
基频扰动添加单元:用于对基频fo,def扰动添加,构成基频集Sf,其中,对于基频fo,def添加扰动时,分别加入±20,±40和±60的频率偏移量,得到的扰动后基频fo与原始基频fo,def共同组成基频集Sf
频率归一化单元:用于使用基频集Sf对频率进行归一化,构建频率集SF,其中,使用基频集Sf对频率特征进行归一化操作时,对于当前音频对应的频谱图,使用步骤d)提取每一帧的基频,并统计出基频的中位数,记作fo,audio,再分别使用基频集Sf中的每个值对梅尔尺度下的频率值进行标准化:
fnorm=forig-(fo,audio-fo,def)
式中,forig表示梅尔尺度下的频率值,fo,audio表示当前音频中所有帧的基频的中位数,fo,def表示默认基频;经过归一化得到的fnorm组成了频率集SF
声学特征提取单元:用于使用频率集SF进行声学特征提取,提取时,以频率集SF中的元素为基准对信号做快速傅里叶变换转换到频域上的能量分布,不同的能量分布能代表不同语音的特性。
本发明提出了一种层级融合的数据增强的方法,该方法先对原始音频信号进行压扩操作。时域压扩(Time-scale modification,TSM)是一种能够改变音频的速度而不改变其音调的技术,在目前音频信号处理中十分重要。TSM算法把一段音频信号等分成不同的帧,然后对每个帧进行一系列处理,如拉伸、压缩等,最后在将这些帧重新叠加成合成信号。本发明基于波形相似重叠叠加算法实现音频信号的压扩,并将该方法用于数据增强,将所处理的信号应用于新音频的构建,在不使用额外音频的条件下实现数据增强。这些音频信号将用于后续的特征提取,在提取过程中,将进行特征级别的数据增强,考虑在声音频率上添加微小的扰动以提高模型对抗噪声的鲁棒性,基于基频归一化的方法可以用于构造与原始音频相似的新样本,降低由环境噪声导致的音频差异对识别结果的影响。
本发明提出一种层级融合的音频数据增强方法,融合了现有音频数据增强方法,将增强分为了不同的阶段,该方法可用于多种音频任务,具备一定的普适性。本发明能够不使用额外噪声数据的条件下,实现音频数据增强,降低现有数据增强方法对于外部噪声数据的依赖程度。
附图说明
图1是本发明一种音频数据增强方法的流程图;
图2是本发明音频特征数据增强的计算流程图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅是为了助于本技术领域的普通技术人员对本发明原理和知识的理解,而不用于限制本发明的范围,不能认为是限制本发明的应用场景。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,但基于本发明的原理和宗旨对实施例所做的变形、变化和转换同样落于本申请所附权利要求书所限定的范围。并且显而易见的是,本说明书仅以优选的实施方式作为举例,无需详尽所有的实施方式。
如图1所示,本发明提出了一套音频数据增强方法的流程,包括:音频信号数据增强与音频特征数据增强两个阶段。其中音频信号数据增强包括信号压扩和训练集构建;音频特征数据增强包括频率提取、基频提取、基频扰动添加、频率归一化和声学特征提取。其具体实现流程如下:
第一步:利用传感器采集原始信号,并以数字信号的形式保存为音频X。
第二步:对音频X进行时域信号压扩,得到压扩后的音频Xo
采用波形相似重叠叠加算法,在保留谐波信号的同时引入一系列的失真,从而得到压扩后的音频Xo。将原始音频中的任意一个音频帧定义为第一个音频帧,则第二步的具体操作如下:
(1)在第一个音频帧的左右范围内选取第二个音频帧,第二个音频帧的相位参数与第一个音频帧相位对齐;
(2)在范围[-Δmax,Δmax]内查找第三个音频帧,Δmax大小设为半个音频周期,然后计算范围内帧与帧之间的互相关系数,选择与第二个音频帧相似度最高的作为第三个音频帧;
(3)将第一个音频帧、第二个音频帧以及第三个音频帧以相同步长进行拼接,重叠部分做相加处理。
第三步:将压扩后的音频Xo与原始音频X混合,组成新的训练集Sx
为压扩后的音频Xo添加与原始音频X相同的标注,并添加到原始的数据集中,共同组成新的训练集Sx
第四步:对训练集Sx中的每一条音频进行频率提取,得到频率f;
对训练集Sx中的音频进行分帧、加窗和梅尔尺度变换等操作,提取音频频率特征,基本流程如图2所示,具体操作如下:
(1)音频分帧
由于音频信号整体上不稳定,无法直接对整段语音做频域转换,分帧将一段音频分割成多个长度较短的片段,将每段短音频看作是稳定的。在完成分帧后,可将语音看作一个稳定的信号。本实施例中,使用25ms作为帧长,但是为了避免出现帧与帧之间的信号突变,每隔10ms取一帧,即帧移为10ms。
(2)加窗
使用窗函数在切分出的帧上滑动,使得一帧信号的幅度在两端渐变到零,以此突出一帧的中间部分,这样做可以提高后续傅里叶变换结果的分辨率。由于窗函数的作用会衰减每一帧两端的振幅,而分帧会让相邻两帧之间有重叠部分,这样每个采样点都能得到窗函数的突出。
本实施例中,窗函数w(n)采用了汉明窗,如下式所示:
Figure BDA0003621201420000061
式中:n表示一帧信号上第n+1个采样点的位置;N表示汉明窗长度,即采样点总数,本实施例中取为256。
(3)梅尔尺度转换
对于当前帧包含的频率,使用梅尔尺度进行变换,如下式所示:
Figure BDA0003621201420000062
式中:f为变换后的频率;f′为变换前的频率。
第五步:对每一条音频进行基频提取
本实施例使用SWIPE算法进行基频估计,通过峰谷距衡量幅度谱在每个频率f的整数倍处的峰值相对于紧邻它的两个谷值的显著性,该函数定义为:
Figure BDA0003621201420000063
式中:dk(f)表示峰谷距;k=1,2,...,n,表示倍数,|X(kf)|表示幅度谱在频率f的k倍处的峰值;
显著度由各次谐波的平均峰谷距表示,如下式所示:
Figure BDA0003621201420000064
基于显著度最终估计出的基频表示为fo,def,该基频fo,def用于后续的特征归一化。
第六步:基频扰动添加,构成基频集Sf
对于基频fo,def添加扰动,分别加入±20,±40和±60的频率偏移量,即梅尔尺度偏移,得到的扰动后基频fo与原始基频fo,def共同组成基频集Sf
第七步:使用基频集对频率进行归一化,构建频率集SF
使用基频集Sf对频率特征进行归一化操作,对于当前音频对应的频谱图,使用第六步中的方法提取每一帧的基频,并统计出基频的中位数,记作fo,audio,再分别使用基频集Sf中的每个值对梅尔尺度下的频率值进行标准化:
fnorm=forig-(fo,audio-fo,def)
式中,forig表示梅尔尺度下的频率值,fo,audio表示当前音频中所有帧的基频的中位数,fo,def表示默认基频;
经过归一化得到的fnorm组成了频率集SF
第八步:使用频率集SF进行声学特征提取
以频率集中的元素为基准频率,对信号做快速傅里叶变换(Fast FourierTransform,FFT)转换到频域上的能量分布,不同的能量分布能代表不同语音的特性。
对各帧信号做N个点的FFT来计算频谱,其中N取值为256。音频X的快速傅里叶变换S(t,f)表示为:
Figure BDA0003621201420000071
式中,X(n)表示第t帧中第n个采样位置的音频信号,w(n-t)表示窗函数。
之后可根据实际任务进行各种声学特征的提取,得到Fbank或者MFCC等声学特征,作为对应模型的输入。
由于本发明提供的方法不需要额外的噪声数据,并且只需要对于输入音频信号进行操作,对于标签不需要进行变换,相比现有的与任务相关的数据增强方法有更广的适用性,在一般的音频分类、声纹识别或语音识别任务中都能使用本发明提供的方法。

Claims (6)

1.一种层级融合的音频数据增强方法,其特征在于,包括以下步骤:
a)采集原始信号,并以数字信号的形式保存为音频X;
b)对音频X进行时域信号压扩,得到压扩后的音频Xo
对音频X进行时域信号压扩时,采用波形相似重叠叠加算法,在保留谐波信号的同时引入一系列的失真,从而得到压扩后的音频Xo
c)将压扩后的音频Xo与原始音频X混合,组成新的训练集Sx
d)对训练集Sx中的每一条音频进行频率提取,得到频率f;
e)对每一条音频进行基频提取,获得基频fo,def
d)对基频fo,def扰动添加,构成基频集Sf
对于基频fo,def添加扰动,分别加入±20,±40和±60的频率偏移量,得到的扰动后基频fo与原始基频fo,def共同组成基频集Sf
e)使用基频集Sf对频率进行归一化,构建频率集SF
使用基频集Sf对频率特征进行归一化操作,对于当前音频对应的频谱图,使用步骤d)提取每一帧的基频,并统计出基频的中位数,记作fo,audio,再分别使用基频集Sf中的每个值对梅尔尺度下的频率值进行标准化:
fnorm=forig-(fo,audio-fo,def)
式中,forig表示梅尔尺度下的频率值,fo,audio表示当前音频中所有帧的基频的中位数,fo,def表示默认基频;
经过归一化得到的fnorm组成了频率集SF
f)使用频率集SF进行声学特征提取
以频率集SF中的元素为基准,对信号做快速傅里叶变换转换到频域上的能量分布,不同的能量分布能代表不同语音的特性。
2.如权利要求1所述的一种层级融合的音频数据增强方法,其特征在于,将原始音频X中的任意一个音频帧定义为第一个音频帧,则步骤b)具体包括以下步骤:
在第一个音频帧的左右范围内选取第二个音频帧,第二个音频帧的相位参数与第一个音频帧相位对齐;
在范围[-Δmax,Δmax]内查找第三个音频帧,Δmax大小设为半个音频周期,然后计算范围内帧与帧之间的互相关系数,选择与第二个音频帧相似度最高的作为第三个音频帧;
将第一个音频帧、第二个音频帧以及第三个音频帧以相同步长进行拼接,重叠部分做相加处理。
3.如权利要求1所述的一种层级融合的音频数据增强方法,其特征在于,在步骤c)中,为压扩后的音频Xo添加与原始音频X相同的标注,并添加到原始的数据集中,共同组成新的训练集Sx
4.如权利要求1所述的一种层级融合的音频数据增强方法,其特征在于,步骤d)中,对训练集Sx中的音频进行分帧、加窗和梅尔尺度变换,提取音频频率特征,从而获得频率f。
5.如权利要求1所述的一种层级融合的音频数据增强方法,其特征在于,步骤e)中,使用SWIPE算法进行基频估计,通过峰谷距衡量幅度谱在每个频率f的整数倍处的峰值相对于紧邻它的两个谷值的显著性,该函数定义为:
Figure FDA0003621201410000021
式中:dk(f)表示峰谷距;k=1,2,...,n,表示倍数,|X(kf)|表示幅度谱在频率f的k倍处的峰值;
显著度由各次谐波的平均峰谷距表示,如下式所示:
Figure FDA0003621201410000022
基于显著度最终估计出的基频表示为fo,def,该基频fo,def用于后续的特征归一化。
6.一种层级融合的音频数据增强***,其特征在于,包括:
信号压扩单元:用于对音频X进行时域信号压扩,得到压扩后的音频Xo,其中,对音频X进行时域信号压扩时,采用波形相似重叠叠加算法,在保留谐波信号的同时引入一系列的失真,从而得到压扩后的音频Xo
训练集构建单元:用于将压扩后的音频Xo与原始音频X混合,组成新的训练集Sx
频率提取单元:用于提取训练集Sx中的每一条音频的频率,得到频率f;
基频提取单元:用于对每一条音频进行基频提取,获得基频fo,def
基频扰动添加单元:用于对基频fo,def扰动添加,构成基频集Sf,其中,对于基频fo,def添加扰动时,分别加入±20,±40和±60的频率偏移量,得到的扰动后基频fo与原始基频fo,def共同组成基频集Sf
频率归一化单元:用于使用基频集Sf对频率进行归一化,构建频率集SF,其中,使用基频集Sf对频率特征进行归一化操作时,对于当前音频对应的频谱图,使用步骤d)提取每一帧的基频,并统计出基频的中位数,记作fo,audio,再分别使用基频集Sf中的每个值对梅尔尺度下的频率值进行标准化:
fnorm=forig-(fo,audio-fo,def)
式中,forig表示梅尔尺度下的频率值,fo,audio表示当前音频中所有帧的基频的中位数,fo,def表示默认基频;经过归一化得到的fnorm组成了频率集SF
声学特征提取单元:用于使用频率集SF进行声学特征提取,提取时,以频率集SF中的元素为基准对信号做快速傅里叶变换转换到频域上的能量分布,不同的能量分布能代表不同语音的特性。
CN202210458199.7A 2022-04-28 2022-04-28 一种层级融合的音频数据增强方法及*** Pending CN114937459A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210458199.7A CN114937459A (zh) 2022-04-28 2022-04-28 一种层级融合的音频数据增强方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210458199.7A CN114937459A (zh) 2022-04-28 2022-04-28 一种层级融合的音频数据增强方法及***

Publications (1)

Publication Number Publication Date
CN114937459A true CN114937459A (zh) 2022-08-23

Family

ID=82863224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210458199.7A Pending CN114937459A (zh) 2022-04-28 2022-04-28 一种层级融合的音频数据增强方法及***

Country Status (1)

Country Link
CN (1) CN114937459A (zh)

Similar Documents

Publication Publication Date Title
CN109147796B (zh) 语音识别方法、装置、计算机设备及计算机可读存储介质
CN111128213B (zh) 一种分频段进行处理的噪声抑制方法及其***
CN103559882B (zh) 一种基于说话人分割的会议主持人语音提取方法
CN108305639B (zh) 语音情感识别方法、计算机可读存储介质、终端
CN109192200B (zh) 一种语音识别方法
CN101226743A (zh) 基于中性和情感声纹模型转换的说话人识别方法
US8566084B2 (en) Speech processing based on time series of maximum values of cross-power spectrum phase between two consecutive speech frames
CN103117059A (zh) 一种基于张量分解的语音信号特征提取方法
CN101221762A (zh) 一种mp3压缩域音频分割方法
CN108682432B (zh) 语音情感识别装置
CN110647656B (zh) 一种利用变换域稀疏化和压缩降维的音频检索方法
CN112071308A (zh) 一种基于语音合成数据增强的唤醒词训练方法
CN110570870A (zh) 一种文本无关的声纹识别方法、装置及设备
CN112786054A (zh) 基于语音的智能面试评估方法、装置、设备及存储介质
CN107103913B (zh) 一种基于功率谱Gabor特征序列递归模型的语音识别方法
Akdeniz et al. Linear prediction coefficients based copy-move forgery detection in audio signal
CN116884431A (zh) 基于cfcc特征的鲁棒音频复制粘贴篡改检测方法及装置
CN114937459A (zh) 一种层级融合的音频数据增强方法及***
CN111402898B (zh) 音频信号处理方法、装置、设备及存储介质
Patil et al. Content-based audio classification and retrieval: A novel approach
Aurchana et al. Musical instruments sound classification using GMM
Vani et al. Hilbert Huang transform based speech recognition
CN112309404A (zh) 机器语音的鉴别方法、装置、设备及存储介质
CN110634473A (zh) 一种基于mfcc的语音数字识别方法
Ge et al. Design and Implementation of Intelligent Singer Recognition System

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination