CN112420070A - 自动标注方法、装置、电子设备及计算机可读存储介质 - Google Patents
自动标注方法、装置、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112420070A CN112420070A CN201910780661.3A CN201910780661A CN112420070A CN 112420070 A CN112420070 A CN 112420070A CN 201910780661 A CN201910780661 A CN 201910780661A CN 112420070 A CN112420070 A CN 112420070A
- Authority
- CN
- China
- Prior art keywords
- audio
- audio information
- preset
- features
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 claims abstract description 23
- 230000003595 spectral effect Effects 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000001228 spectrum Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 2
- 230000003287 optical effect Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本申请实施例提供了一种自动标注方法、装置、电子设备及计算机可读存储介质。该方法包括:从待标注的音频信息中提取预设音频特征,并将预设音频特征输入至训练后的标注模型中,得到标注后的音频信息。本申请实施例实现了对音频信息的自动标注,与对音频信息进行人工标注相比,节省了人力资源和时间资源,且对音频信息进行自动标注能有效提高标注效率。
Description
技术领域
本申请涉及信息处理技术领域,具体而言,本申请涉及一种自动标注方法、装置、电子设备及计算机可读存储介质。
背景技术
音频信息是人们经常接触的信息,对音频信息进行标注是非常重要的。
通常情况下,对音频信息进行标注需要受到专门训练的标注工作者人工完成,需要耗费大量的人力资源,且采用人工标注的方式对音频信息进行标注还需要耗费大量的时间资源,另外,对音频信息进行人工标注的标注效率低下。
发明内容
本申请提供了一种自动标注方法、装置、电子设备及计算机可读存储介质,可以解决以上至少一种技术问题,该技术方案如下:
第一方面,提供了一种自动标注方法,该方法包括:
从待标注的音频信息中提取预设音频特征;
将预设音频特征输入至训练后的标注模型中,得到标注后的音频信息。
第二方面,提供了一种自动标注装置,该装置包括:
提取模块,用于从待标注的音频信息中提取预设音频特征;
输入模块,用于将预设音频特征输入至训练后的标注模型中,得到标注后的音频信息。
第三方面,提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行第一方面所示的自动标注方法对应的操作。
第四方面,提供了一种计算机可读存储介质,该程序被处理器执行时实现第一方面所示的自动标注方法。
本申请提供的技术方案带来的有益效果是:
本申请提供了一种自动标注方法、装置、电子设备及计算机可读存储介质,与现有技术相比,本申请从待标注的音频信息中提取预设音频特征,并将预设音频特征输入至训练后的标注模型中,得到标注后的音频信息,实现了对音频信息的自动标注,与对音频信息进行人工标注相比,节省了人力资源和时间资源,且对音频信息进行自动标注能有效提高标注效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种自动标注方法的流程示意图;
图2为本申请实施例提供的一种自动标注装置的结构示意图;
图3为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请实施例提供了一种自动标注方法,如图1所示,该方法包括:
步骤S101,从待标注的音频信息中提取预设音频特征。
步骤S102,将预设音频特征输入至训练后的标注模型中,得到标注后的音频信息。
对于本申请实施例,利用训练后的标注模型对预设音频特征进行标注处理,得到标注后的音频信息。
本申请实施例提供了一种自动标注方法,与现有技术相比,本申请实施例从待标注的音频信息中提取预设音频特征,并将预设音频特征输入至训练后的标注模型中,得到标注后的音频信息,实现了对音频信息的自动标注,与对音频信息进行人工标注相比,节省了人力资源和时间资源,且对音频信息进行自动标注能有效提高标注效率。
本申请实施例的一种可能实现方式,步骤S101之前可能还包括:获取待标注的音频信息;对待标注的音频信息按照预设格式进行转码处理。
其中,步骤S101具体可能包括:从转码处理后的音频信息中提取预设音频特征。
对于本申请实施例,待标注的音频信息的格式可以包括以下至少一种格式:
(1)CD格式,其中,CD格式是音质较高的音频格式,采样频率为44.1千赫兹,速率为1411千赫兹/秒,16位量化位数。
(2)WAVE格式,其中,WAVE格式的采样频率为44.1千赫兹,速率为1411千赫兹/秒,16位量化位数。
(3)AIFF格式(Audio Interchange File Format)。
(4)MPEG格式(Moving Picture Experts Group)。
(5)MP3格式(Moving Picture Experts Group Audio Layer III),其中,MP3格式属于有损压缩格式。
(6)ACC格式(Advanced Audio Coding),其中,ACC格式属于有损压缩格式。
对于本申请实施例,待标注的音频信息的格式不限于前述所示的格式,还可以包括其他的音频格式,例如,AMR格式,其中,AMR格式是手机录音的保存格式。
对于本申请实施例,转码处理后的音频信息的格式可以具体包括:频率为16000赫兹(Hz),采样率为16比特(bit),声道为单声道。
本申请实施例的另一种可能实现方式,获取待标注的音频信息,具体可以包括获取用户输入的待标注的音频信息;从本地存储获取待标注的音频信息中的至少一项。
对于本申请实施例,可以获取用户输入的待标注的音频信息,也可以从本地存储中获取待标注的音频信息。
本申请实施例的另一种可能实现方式,预设音频特征具体可以包括梅尔频率倒谱系数特征;短时能量特征;短时功率特征;短时过零率特征中的至少一项。
对于本申请实施例,梅尔频率倒谱系数特征(Mel Frequency CepstrumCoefficient,MFCC)是基于人耳听觉提出来的,与频率成非线性对应关系;短时能量特征可以用来区分清音和浊音,还可以用来识别静音帧,其中,当短时能量的值小于一个预设阀值时,可以认为这个帧是静音帧;短时功率特征是对音频信息的每一帧的长度做计算处理;短时过零率(Short-Term Zero Corss Rate,ST-ZCR)是从时域上描述信号频率。
对于本申请实施例,预设音频特征可以包括上述所示的任一项及至少两项以上,但不仅限于上述所示的至少一项,还可以包括其他的音频特征,例如,谱熵特征,其中,谱熵特征为对每一帧音频信息的频谱绝对值进行归一化处理,得到每一帧音频信息的概率密度,进而求取音频信息的熵。
本申请实施例的另一种可能实现方式,从待标注的音频信息中提取梅尔频率倒谱系数特征具体可以包括:提取待标注的音频信息中各个音频帧分别对应的波形数据;基于各个音频帧分别对应的波形数据确定各个音频帧分别对应的梅尔频率倒谱系数特征。
对于本申请实施例,音频帧指一帧音频信息。在本申请实施例中,基于每一帧音频信息分别对应的波形数据确定每一帧音频信息分别对应的梅尔频率倒谱系数特征。
对于本申请实施例,梅尔频率倒谱系数特征是在梅尔(Mel)标度频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性。其中,Mel标度与频率的关系可以通过下述公式来表示:
其中,Mel(f)表征Mel标度,f表征频率。
本申请实施例的另一种可能实现方式,基于任一音频帧对应的波形数据确定任一音频帧对应的梅尔频率倒谱系数特征具体可以包括:对任一音频帧对应的波形数据进行预加重处理,得到预加重处理后的波形数据;对预加重处理后的波形数据进行加汉明窗处理,得到加汉明窗处理后的波形数据;对加汉明窗处理后的波形数据进行离散傅里叶变换,得到任一音频帧对应的频谱特征;计算任一音频帧对应的频谱特征经过各个三角梅尔频率滤波器组后分别对应的输出能量;将经过各个三角梅尔频率滤波器组后的分别对应的输出能量进行离散余弦变换计算处理,得到任一音频帧对应的梅尔频率倒谱系数特征。
对于本申请实施例,对任一音频帧对应的波形数据进行预加重处理,即将任一音频帧通过一个高通滤波器,以提升高频部分,使任一音频帧的频谱变得平坦,保持在低频到高频的整个频带中,同时也为了突出高频的共振峰。其中,高通滤波器可以通过下述公式来表示:
H(z)=1-μz-1
其中,H(z)表征任一音频帧通过高通滤波器后的输出,μ表征高通滤波器对应的系数,z为一个复数。
其中,μ的取值为开区间(0.9,1.0),可以取值为0.97。
对于本申请实施例,对预加重处理后的波形数据进行加汉明窗处理是将任一音频帧对应的预加重处理后的波形数据乘以汉明窗,以增加任一音频帧左端和任一音频帧右端的连续性。其中,汉明窗可以通过下述公式来表示:
其中,W(n,a)表征汉明窗,n表征汉明窗的参数,a表征汉明窗的系数,N表征音频帧的数量。
其中,a可以取值为0.46。
对于本申请实施例,加汉明窗处理后的波形数据为任一音频帧在时域上的信号特征,由于在时域上的信号变换通常很难看出信号特征,因此,常将时域上的信号特征变换为频域上的信号特征,如将时域上的信号特征变换为频域上的能量分布,以观察信号特征。在本申请实施例中,对加汉明窗处理后的波形数据进行离散傅里叶变换,得到任一音频帧对应的频谱特征,其中,任一音频帧对应的频谱特征可以通过下述公式来表征:
其中,Xa(k)表征任一音频帧对应的频谱特征,a表征汉明窗的系数,k表征第k个傅里叶变换的点数,n表征汉明窗的参数,N表征傅里叶变换的点数,x(n)表征加汉明窗处理后的波形数据。
对于本申请实施例,计算任一音频帧对应的频谱特征经过各个三角梅尔频率滤波器组后分别对应的输出能量。在本申请实施例中,三角梅尔频率滤波器为三角形滤波器,其中一个三角梅尔频率滤波器组的数量可以为22至26中的任意一个。在本申请实施例中,三角梅尔频率滤波器的作用主要为:对任一音频帧的频谱进行平滑化,并消除谐波的影响,突显音频信息的共振峰。
对于本申请实施例,各个三角梅尔频率滤波器组的频率响应可以通过下述公式来表示:
其中,Hm(k)表征Hm(k)第m个三角梅尔频率滤波器组的频率响应,k表征频率变量,f(m-1)、f(m)、f(m+1)分别表征第m个三角梅尔频率滤波器组中第m-1、m、m+1个三角梅尔频率滤波器的中心频率,M表征三角梅尔频率滤波器组的个数,∑为求和符号。
对于本申请实施例,任一音频帧经过各个三角梅尔频率滤波器组后对应的输出能量可以通过下述公式来表示:
其中,s(m)表征任一音频帧经过第m个三角梅尔频率滤波器组后对应的输出能量,m表征第m个三角梅尔频率滤波器组,∑为求和符号,k表征频率变量,N表征第m个三角梅尔频率滤波器组中的三角梅尔频率滤波器的数量,Xa(k)表征任一音频帧对应的频谱特征,Hm(k)表征第m个三角梅尔频率滤波器组的频率响应,M表征三角梅尔频率滤波器组的个数。
对于本申请实施例,将经过各个三角梅尔频率滤波器组后的分别对应的输出能量进行离散余弦变换(Discrete Cosine Transform,DCT)计算处理,得到任一音频帧对应的梅尔频率倒谱系数特征,其中,任一音频帧对应的梅尔频率倒谱系数特征可以通过下述公式来表示:
其中,C(n)表征任一音频帧对应的梅尔频率倒谱系数特征,n表征任一音频帧对应的梅尔频率倒谱系数特征的第n个阶数,∑为求和符号,m表征第m个三角梅尔频率滤波器组,N表征第m个三角梅尔频率滤波器组中的三角梅尔频率滤波器的数量,s(m)表征任一音频帧经过各个三角梅尔频率滤波器组后对应的输出能量,M表征三角梅尔频率滤波器组的个数,L表征梅尔频率倒谱系数特征的阶数。
对于本申请实施例,梅尔频率倒谱系数特征的阶数可以取值为12至16中的任意一项,例如,梅尔频率倒谱系数特征的阶数取值为13。
对于本申请实施例,梅尔频率倒谱系数特征的维数为13维静态系数,其包括1维能量系数(F0)和12维DCT系数。其中,1维能量系数(F0)可以用来区分语音帧和非语音帧;12维DCT系数的具体提取过程如下所示:
由于许多相邻频率对人耳作用结果相似,因此采用预设数量的三角梅尔频率滤波器将频域划分成少量子带,每个子带输出子带能量和表征该频率段的能量水平特征,由此得到24个子带能量特征;在DCT计算处理之后,DCT系数会依次递减,前13个DCT系数为C0~C12,第14个及其之后的DCT系数几乎为0,其中舍弃C0,保留C1~C12共12维DCT系数。
本申请实施例的另一种可能实现方式,步骤S102具体可以包括:将预设音频特征输入至训练后的标注模型中,利用训练后的标注模型标注待标注的音频信息中各个字的起始点时间以及各个字的终止点时间,得到标注后的音频信息。
对于本申请实施例,通过录制用户的哼唱或者歌唱得到音频信息,对音频信息进行标注即为标注音频信息中用户哼唱或者歌唱的各个字的起始点时间和各个字的终止点时间。
本申请实施例的另一种可能实现方式,步骤S102之前具体还可以包括:获取多个训练样本;基于多个训练样本对预设模型进行训练,得到训练后的标注模型。
其中,任一训练样本可以包括标注后的用于训练的音频信息以及用于训练的音频信息对应的预设音频特征。
对于本申请实施例,用于训练的音频信息与待标注的音频信息可以为同一个音频信息,也可以为两种不同的音频信息,在本申请实施例中不做限定。
本申请实施例的另一种可能实现方式,预设模型包括隐马尔可夫模型。
基于多个训练样本对预设模型进行训练具体可以包括:基于多个训练样本并利用最大期望算法对隐马尔可夫模型进行训练。
对于本申请实施例,隐马尔可夫模型(Hidden Markov Model,HMM)可用于语音识别、行为识别、文字识别以及故障诊断等领域。在本申请实施例中,利用最大期望算法对隐马尔可夫模型进行训练,其中,最大期望算法(Expectation-Maximization algorithm,EM)也叫Dempster-Laird-Rubin算法,是一类通过迭代进行极大似然估计(MaximumLikelihood Estimation,MLE)的优化算法。
对于本申请实施例,预设模型可以包括隐马尔可夫模型,还可以包括其他模型,在本申请实施例中不做限定。在本申请实施例中,对预设模型进行训练,具体可以采用最大期望算法对隐马尔可夫模型进行训练,还可以采用其他算法对隐马尔可夫模型进行训练,还可以采用其他算法对预设模型进行训练,在本申请实施例中不做限定。
对于本申请实施例,上述实施例可以由终端设备执行,也可以由服务器执行,还可以部分由终端设备执行,部分由服务器执行,在本申请实施例中不做限定。
上述从方法步骤的角度具体阐述了自动标注方法,下面从模块、单元或者子单元的角度具体阐述自动标注装置。
本申请实施例提供了一种自动标注装置,如图2所示,该自动标注装置20具体可以包括提取模块201和输入模块202,其中,
提取模块201,用于从待标注的音频信息中提取预设音频特征。
输入模块202,用于将预设音频特征输入至训练后的标注模型中,得到标注后的音频信息。
本申请实施例的一种可能实现方式,自动标注装置20具体还可以包括第一获取模块和转码模块,其中,
第一获取模块,用于获取待标注的音频信息。
转码模块,用于对待标注的音频信息按照预设格式进行转码处理。
其中,提取模块201,具体可以用于从转码处理后的音频信息中提取预设音频特征。
本申请实施例的另一种可能实现方式,第一获取模块具体可以包括第一获取单元与第二获取单元中的至少一项,其中,
第一获取单元,用于获取用户输入的待标注的音频信息。
第二获取单元,用于从本地存储获取待标注的音频信息。
本申请实施例的另一种可能实现方式,预设音频特征具体可以包括以下至少一项:
梅尔频率倒谱系数特征;短时能量特征;短时功率特征;短时过零率特征。
本申请实施例的另一种可能实现方式,提取模块201具体可以包括提取单元和确定单元,其中,
提取单元,用于提取待标注的音频信息中各个音频帧分别对应的波形数据。
确定单元,用于基于各个音频帧分别对应的波形数据确定各个音频帧分别对应的梅尔频率倒谱系数特征。
本申请实施例的另一种可能实现方式,确定单元具体可以包括第一处理子单元、第二处理子单元、第三处理子单元、计算子单元和第四处理子单元,其中,
第一处理子单元,用于对任一音频帧对应的波形数据进行预加重处理,得到预加重处理后的波形数据。
第二处理子单元,用于对预加重处理后的波形数据进行加汉明窗处理,得到加汉明窗处理后的波形数据。
第三处理子单元,用于对加汉明窗处理后的波形数据进行离散傅里叶变换,得到任一音频帧对应的频谱特征;
计算子单元,用于计算任一音频帧对应的频谱特征经过各个的三角梅尔频率滤波器组后分别对应的输出能量。
第四处理子单元,用于将经过各个三角梅尔频率滤波器组后的分别对应的输出能量进行离散余弦变换计算处理,得到任一音频帧对应的梅尔频率倒谱系数特征。
本申请实施例的另一种可能实现方式,输入模块202具体可以用于将预设音频特征输入至训练后的标注模型中,利用训练后的标注模型标注待标注的音频信息中各个字的起始点时间以及各个字的终止点时间,得到标注后的音频信息。
本申请实施例的另一种可能实现方式,自动标注装置20具体还可以包括第二获取模块和训练模块,其中,
第二获取模块,用于获取多个训练样本。
其中,任一训练样本具体可以包括标注后的用于训练的音频信息以及用于训练的音频信息对应的预设音频特征。
训练模块,用于基于多个训练样本对预设模型进行训练,得到训练后的标注模型。
本申请实施例的另一种可能实现方式,预设模型具体可以包括隐马尔可夫模型。
训练模块,具体可以用于基于多个训练样本并利用最大期望算法对隐马尔可夫模型进行训练。
对于本申请实施例,第一获取模块和第二获取模块可以为同一个获取模块,也可以为两个不同的获取模块,第一获取单元和第二获取单元可以为同一个获取单元,也可以为两个不同的获取单元,第一处理子单元、第二处理子单元、第三处理子单元和第四处理子单元中可以为同一个处理子单元,也可以其中任意两个为同一个处理子单元,还可以其中任意三个为同一个处理子单元,或者可以为四个不同的处理子单元,在本申请实施例中不做限定。
本申请实施例提供的一种自动标注装置可以用于执行前述方法实施例提供的自动标注方法对应的操作,其实现原理类似,在此不再赘述。
本申请实施例提供了一种自动标注装置,与现有技术相比,本申请实施例从待标注的音频信息中提取预设音频特征,并将预设音频特征输入至训练后的标注模型中,得到标注后的音频信息,实现了对音频信息的自动标注,与对音频信息进行人工标注相比,节省了人力资源和时间资源,且对音频信息进行自动标注能有效提高标注效率。
上述从模块、单元或者子单元的角度具体阐述自动标注装置,下面从实体装置的角度具体阐述一种电子设备,本申请实施例中的电子设备可以为终端设备,也可以为服务器,在本申请实施例中不做限定。
本申请实施例提供一种电子设备,如图3所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI总线或EISA总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器4003用于存储执行本申请方案的应用程序代码,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现前述任一方法实施例所示的内容。
本申请实施例提供了一种电子设备,本申请实施例中的电子设备包括:存储器和处理器;至少一个程序,存储于所述存储器中,用于被所述处理器执行时,与现有技术相比可实现:从待标注的音频信息中提取预设音频特征,并将预设音频特征输入至训练后的标注模型中,得到标注后的音频信息,实现了对音频信息的自动标注,与对音频信息进行人工标注相比,节省了人力资源和时间资源,且对音频信息进行自动标注能有效提高标注效率。
上述从实体装置的角度介绍本申请的电子设备,下面从存储介质的角度介绍本申请的计算机可读存储介质。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与现有技术相比,从待标注的音频信息中提取预设音频特征,并将预设音频特征输入至训练后的标注模型中,得到标注后的音频信息,实现了对音频信息的自动标注,与对音频信息进行人工标注相比,节省了人力资源和时间资源,且对音频信息进行自动标注能有效提高标注效率。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (20)
1.一种自动标注方法,其特征在于,包括:
从待标注的音频信息中提取预设音频特征;
将所述预设音频特征输入至训练后的标注模型中,得到标注后的音频信息。
2.根据权利要求1所述的方法,其特征在于,所述从待标注的音频信息中提取预设音频特征,之前还包括:
获取所述待标注的音频信息;
对所述待标注的音频信息按照预设格式进行转码处理;
其中,所述从待标注的音频信息中提取预设音频特征,包括:
从转码处理后的音频信息中提取所述预设音频特征。
3.根据权利要求2所述的方法,其特征在于,所述获取所述待标注的音频信息,包括以下至少一项:
获取用户输入的待标注的音频信息;
从本地存储获取待标注的音频信息。
4.根据权利要求1所述的方法,其特征在于,所述预设音频特征包括以下至少一项:
梅尔频率倒谱系数特征;
短时能量特征;
短时功率特征;
短时过零率特征。
5.根据权利要求4所述的方法,其特征在于,从待标注的音频信息中提取梅尔频率倒谱系数特征,包括:
提取所述待标注的音频信息中各个音频帧分别对应的波形数据;
基于所述各个音频帧分别对应的波形数据确定各个音频帧分别对应的梅尔频率倒谱系数特征。
6.根据权利要求5所述的方法,其特征在于,基于任一音频帧对应的波形数据确定任一音频帧对应的梅尔频率倒谱系数特征,包括:
对所述任一音频帧对应的波形数据进行预加重处理,得到预加重处理后的波形数据;
对所述预加重处理后的波形数据进行加汉明窗处理,得到加汉明窗处理后的波形数据;
对所述加汉明窗处理后的波形数据进行离散傅里叶变换,得到任一音频帧对应的频谱特征;
计算所述任一音频帧对应的频谱特征经过各个三角梅尔频率滤波器组后分别对应的输出能量;
将所述经过各个三角梅尔频率滤波器组后的分别对应的输出能量进行离散余弦变换计算处理,得到所述任一音频帧对应的梅尔频率倒谱系数特征。
7.根据权利要求1所述的方法,其特征在于,所述将所述预设音频特征输入至训练后的标注模型中,得到标注后的音频信息,包括:
将所述预设音频特征输入至训练后的标注模型中,利用所述训练后的标注模型标注所述待标注的音频信息中各个字的起始点时间以及各个字的终止点时间,得到标注后的音频信息。
8.根据权利要求1所述的方法,其特征在于,所述将所述预设音频特征输入至训练后的标注模型中,之前还包括:
获取多个训练样本,任一训练样本包括:标注后的用于训练的音频信息以及所述用于训练的音频信息对应的预设音频特征;
基于所述多个训练样本对预设模型进行训练,得到训练后的标注模型。
9.根据权利要求8所述的方法,其特征在于,所述预设模型包括隐马尔可夫模型;
所述基于所述多个训练样本对预设模型进行训练,包括:
基于所述多个训练样本并利用最大期望算法对所述隐马尔可夫模型进行训练。
10.一种自动标注装置,其特征在于,包括:
提取模块,用于从待标注的音频信息中提取预设音频特征;
输入模块,用于将所述预设音频特征输入至训练后的标注模型中,得到标注后的音频信息。
11.根据权利要求10所述的装置,其特征在于,所述自动标注装置还包括第一获取模块和转码模块,其中,
所述第一获取模块,用于获取所述待标注的音频信息;
所述转码模块,用于对所述待标注的音频信息按照预设格式进行转码处理;
所述提取模块,具体用于从转码处理后的音频信息中提取所述预设音频特征。
12.根据权利要求11所述的装置,其特征在于,所述第一获取模块包括第一获取单元与第二获取单元中的至少一项,其中,
所述第一获取单元,用于获取用户输入的待标注的音频信息;
所述第二获取单元,用于从本地存储获取待标注的音频信息。
13.根据权利要求10所述的装置,其特征在于,所述预设音频特征包括以下至少一项:
梅尔频率倒谱系数特征;
短时能量特征;
短时功率特征;
短时过零率特征。
14.根据权利要求13所述的装置,其特征在于,所述提取模块包括提取单元和确定单元,其中,
所述提取单元,用于提取所述待标注的音频信息中各个音频帧分别对应的波形数据;
所述确定单元,用于基于所述各个音频帧分别对应的波形数据确定各个音频帧分别对应的梅尔频率倒谱系数特征。
15.根据权利要求14所述的装置,其特征在于,所述确定单元包括第一处理子单元、第二处理子单元、第三处理子单元、计算子单元和第四处理子单元,其中,
所述第一处理子单元,用于对所述任一音频帧对应的波形数据进行预加重处理,得到预加重处理后的波形数据;
所述第二处理子单元,用于对所述预加重处理后的波形数据进行加汉明窗处理,得到加汉明窗处理后的波形数据;
所述第三处理子单元,用于对所述加汉明窗处理后的波形数据进行离散傅里叶变换,得到任一音频帧对应的频谱特征;
所述计算子单元,用于计算所述任一音频帧对应的频谱特征经过各个三角梅尔频率滤波器组后分别对应的输出能量;
所述第四处理子单元,用于将所述经过各个三角梅尔频率滤波器组后的分别对应的输出能量进行离散余弦变换计算处理,得到所述任一音频帧对应的梅尔频率倒谱系数特征。
16.根据权利要求10所述的装置,其特征在于,所述输入模块,具体用于将所述预设音频特征输入至训练后的标注模型中,利用所述训练后的标注模型标注所述待标注的音频信息中各个音调的起始点时间以及各个音调的终止点时间,得到标注后的音频信息。
17.根据权利要求10所述的装置,其特征在于,所述自动标注装置还包括第二获取模块和训练模块,其中,
所述第二获取模块,用于获取多个训练样本,任一训练样本包括:标注后的用于训练的音频信息以及所述用于训练的音频信息对应的预设音频特征;
所述训练模块,用于基于所述多个训练样本对预设模型进行训练,得到训练后的标注模型。
18.根据权利要求17所述的装置,其特征在于,所述预设模型包括隐马尔可夫模型;
所述训练模块,具体用于基于所述多个训练样本并利用最大期望算法对所述隐马尔可夫模型进行训练。
19.一种电子设备,其特征在于,其包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据权利要求1~9任一项所述的自动标注方法。
20.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1~9任一项所述的自动标注方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910780661.3A CN112420070A (zh) | 2019-08-22 | 2019-08-22 | 自动标注方法、装置、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910780661.3A CN112420070A (zh) | 2019-08-22 | 2019-08-22 | 自动标注方法、装置、电子设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112420070A true CN112420070A (zh) | 2021-02-26 |
Family
ID=74780223
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910780661.3A Pending CN112420070A (zh) | 2019-08-22 | 2019-08-22 | 自动标注方法、装置、电子设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112420070A (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101639934A (zh) * | 2009-09-04 | 2010-02-03 | 西安电子科技大学 | 基于轮廓波域块隐马尔可夫模型sar图像去噪方法 |
CN101753941A (zh) * | 2008-12-19 | 2010-06-23 | 康佳集团股份有限公司 | 一种成像设备中实现标注信息的方法及成像设备 |
JP2013057735A (ja) * | 2011-09-07 | 2013-03-28 | National Institute Of Information & Communication Technology | 音声合成用の隠れマルコフモデル学習装置及び音声合成装置 |
CN104795082A (zh) * | 2015-03-26 | 2015-07-22 | 广州酷狗计算机科技有限公司 | 音频字幕显示方法、装置及播放器 |
CN105872855A (zh) * | 2016-05-26 | 2016-08-17 | 广州酷狗计算机科技有限公司 | 视频文件的标注方法及装置 |
CN108053836A (zh) * | 2018-01-18 | 2018-05-18 | 成都嗨翻屋文化传播有限公司 | 一种基于深度学习的音频自动化标注方法 |
WO2018107810A1 (zh) * | 2016-12-15 | 2018-06-21 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、电子设备及介质 |
CN108205535A (zh) * | 2016-12-16 | 2018-06-26 | 北京酷我科技有限公司 | 情感标注的方法及其*** |
CN108257614A (zh) * | 2016-12-29 | 2018-07-06 | 北京酷我科技有限公司 | 音频数据标注的方法及其*** |
CN108986798A (zh) * | 2018-06-27 | 2018-12-11 | 百度在线网络技术(北京)有限公司 | 语音数据的处理方法、装置及设备 |
CN109036381A (zh) * | 2018-08-08 | 2018-12-18 | 平安科技(深圳)有限公司 | 语音处理方法及装置、计算机装置及可读存储介质 |
CN109256138A (zh) * | 2018-08-13 | 2019-01-22 | 平安科技(深圳)有限公司 | 身份验证方法、终端设备及计算机可读存储介质 |
CN109378016A (zh) * | 2018-10-10 | 2019-02-22 | 四川长虹电器股份有限公司 | 一种基于vad的关键词识别标注方法 |
CN109508402A (zh) * | 2018-11-15 | 2019-03-22 | 上海指旺信息科技有限公司 | 违规用语检测方法及装置 |
-
2019
- 2019-08-22 CN CN201910780661.3A patent/CN112420070A/zh active Pending
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101753941A (zh) * | 2008-12-19 | 2010-06-23 | 康佳集团股份有限公司 | 一种成像设备中实现标注信息的方法及成像设备 |
CN101639934A (zh) * | 2009-09-04 | 2010-02-03 | 西安电子科技大学 | 基于轮廓波域块隐马尔可夫模型sar图像去噪方法 |
JP2013057735A (ja) * | 2011-09-07 | 2013-03-28 | National Institute Of Information & Communication Technology | 音声合成用の隠れマルコフモデル学習装置及び音声合成装置 |
CN104795082A (zh) * | 2015-03-26 | 2015-07-22 | 广州酷狗计算机科技有限公司 | 音频字幕显示方法、装置及播放器 |
CN105872855A (zh) * | 2016-05-26 | 2016-08-17 | 广州酷狗计算机科技有限公司 | 视频文件的标注方法及装置 |
WO2018107810A1 (zh) * | 2016-12-15 | 2018-06-21 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、电子设备及介质 |
CN108205535A (zh) * | 2016-12-16 | 2018-06-26 | 北京酷我科技有限公司 | 情感标注的方法及其*** |
CN108257614A (zh) * | 2016-12-29 | 2018-07-06 | 北京酷我科技有限公司 | 音频数据标注的方法及其*** |
CN108053836A (zh) * | 2018-01-18 | 2018-05-18 | 成都嗨翻屋文化传播有限公司 | 一种基于深度学习的音频自动化标注方法 |
CN108986798A (zh) * | 2018-06-27 | 2018-12-11 | 百度在线网络技术(北京)有限公司 | 语音数据的处理方法、装置及设备 |
CN109036381A (zh) * | 2018-08-08 | 2018-12-18 | 平安科技(深圳)有限公司 | 语音处理方法及装置、计算机装置及可读存储介质 |
CN109256138A (zh) * | 2018-08-13 | 2019-01-22 | 平安科技(深圳)有限公司 | 身份验证方法、终端设备及计算机可读存储介质 |
CN109378016A (zh) * | 2018-10-10 | 2019-02-22 | 四川长虹电器股份有限公司 | 一种基于vad的关键词识别标注方法 |
CN109508402A (zh) * | 2018-11-15 | 2019-03-22 | 上海指旺信息科技有限公司 | 违规用语检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shrawankar et al. | Techniques for feature extraction in speech recognition system: A comparative study | |
Singh et al. | Multimedia analysis for disguised voice and classification efficiency | |
CN102968986B (zh) | 基于长时特征和短时特征的重叠语音与单人语音区分方法 | |
JP3277398B2 (ja) | 有声音判別方法 | |
CN109767756B (zh) | 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法 | |
WO2018223727A1 (zh) | 识别声纹的方法、装置、设备及介质 | |
CN110459241B (zh) | 一种用于语音特征的提取方法和*** | |
CN109256138B (zh) | 身份验证方法、终端设备及计算机可读存储介质 | |
CN108305639B (zh) | 语音情感识别方法、计算机可读存储介质、终端 | |
Shanthi et al. | Review of feature extraction techniques in automatic speech recognition | |
CN109147796A (zh) | 语音识别方法、装置、计算机设备及计算机可读存储介质 | |
CN111833843B (zh) | 语音合成方法及*** | |
CN108682432B (zh) | 语音情感识别装置 | |
CN113327626A (zh) | 语音降噪方法、装置、设备及存储介质 | |
Sapijaszko et al. | An overview of recent window based feature extraction algorithms for speaker recognition | |
CN113421584A (zh) | 音频降噪方法、装置、计算机设备及存储介质 | |
Makhijani et al. | Speech enhancement using pitch detection approach for noisy environment | |
CN112420070A (zh) | 自动标注方法、装置、电子设备及计算机可读存储介质 | |
CN112397087B (zh) | 共振峰包络估计、语音处理方法及装置、存储介质、终端 | |
Tomchuk | Spectral masking in MFCC calculation for noisy speech | |
Singh et al. | A comparative study on feature extraction techniques for language identification | |
CN111862931A (zh) | 一种语音生成方法及装置 | |
Sen et al. | Feature extraction | |
Jiang et al. | Acoustic feature comparison of MFCC and CZT-based cepstrum for speech recognition | |
Dendukuri et al. | Extraction of Voiced Regions of Speech from Emotional Speech Signals Using Wavelet-Pitch Method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |