CN116982111A - 音频特征补偿方法、音频识别方法及相关产品 - Google Patents
音频特征补偿方法、音频识别方法及相关产品 Download PDFInfo
- Publication number
- CN116982111A CN116982111A CN202180095675.7A CN202180095675A CN116982111A CN 116982111 A CN116982111 A CN 116982111A CN 202180095675 A CN202180095675 A CN 202180095675A CN 116982111 A CN116982111 A CN 116982111A
- Authority
- CN
- China
- Prior art keywords
- frequency domain
- domain data
- frequency
- air density
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 141
- 238000012549 training Methods 0.000 claims description 107
- 238000012545 processing Methods 0.000 claims description 64
- 238000005070 sampling Methods 0.000 claims description 53
- 230000015654 memory Effects 0.000 claims description 48
- 238000007493 shaping process Methods 0.000 claims description 34
- 230000009466 transformation Effects 0.000 claims description 16
- 230000007480 spreading Effects 0.000 claims description 13
- 238000000605 extraction Methods 0.000 abstract description 7
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 33
- 238000001228 spectrum Methods 0.000 description 25
- 230000006870 function Effects 0.000 description 23
- 238000013528 artificial neural network Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 20
- 238000004891 communication Methods 0.000 description 13
- 230000007613 environmental effect Effects 0.000 description 12
- 239000011159 matrix material Substances 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 8
- 230000001537 neural effect Effects 0.000 description 8
- 230000004913 activation Effects 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 6
- 210000001260 vocal cord Anatomy 0.000 description 6
- 230000001755 vocal effect Effects 0.000 description 6
- 239000001307 helium Substances 0.000 description 5
- 229910052734 helium Inorganic materials 0.000 description 5
- SWQJXJOGLNCZEY-UHFFFAOYSA-N helium atom Chemical compound [He] SWQJXJOGLNCZEY-UHFFFAOYSA-N 0.000 description 5
- 230000005236 sound signal Effects 0.000 description 5
- 241000238558 Eucarida Species 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 238000013213 extrapolation Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 239000000872 buffer Substances 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000001131 transforming effect Effects 0.000 description 3
- MHABMANUFPZXEB-UHFFFAOYSA-N O-demethyl-aloesaponarin I Natural products O=C1C2=CC=CC(O)=C2C(=O)C2=C1C=C(O)C(C(O)=O)=C2C MHABMANUFPZXEB-UHFFFAOYSA-N 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 239000007789 gas Substances 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000002618 waking effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 210000001331 nose Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
一种音频特征补偿方法及装置、音频识别方法及装置、电子装置以及计算机可读介质,该音频特征补偿方法包括:获取第一音频数据(601);根据第一空气密度和第一参考空气密度,对第一音频数据进行特征补偿,得到第二音频数据,其中第一空气密度为采集第一音频数据时所处环境下的空气密度(602)。该方法及装置有利于提高音频特征的提取精度。
Description
本申请涉及人工智能技术领域,具体涉及一种音频特征补偿方法、音频识别方法及相关产品。
音频信号中有丰富的语音语义信息,通过对这些信息的提取和识别,可以实现非常多的智能业务,如语音助手、声纹识别等。其中声纹是人体比较明显的生物属性,由于易于提取、操作简单,声纹识别目前已经得到了越来越多的应用,比如银行或数据库***的身份认证、实时通信中的黑白名单、会议***中的会议记录、智能家居中的控制鉴权等。
从业界对音频信号处理的方式上看,本质上就是在音频信号的频谱上提取频谱特征,然而,音频信号的频谱会受环境因素的影响,导致提取出的音频特征精度较低,这样就导致在许多应用场景中的识别精度也较低。因此,如何提高音频特征的提取精度,是目前亟待解决的问题。
发明内容
本申请实施例提供了一种音频特征补偿方法、音频识别方法及相关产品,通过音频特征的补偿,消除环境因素对音频特征的影响,提高音频特征的提取精度。
第一方面,本申请实施提供了一种音频特征补偿方法,包括:获取第一音频数据;根据第一空气密度和第一参考空气密度,对第一音频数据进行特征补偿,得到第二音频数据,第一空气密度为采集第一音频数据时所处环境下的空气密度。
其中,第一参考空气密度为采集训练样本中的音频数据样本时所处环境下的空气密度,即第一参考空气密度与采集音频数据样本的采集时间以及采集地点相关,比如,在T2时刻以及地点W2处采集了音频数据样本,则该第一参考空气密度为地点W2在T2时刻的空气密度。其中,该训练样本可以用于训练第一音频识别模型,该第一音频识别模型可以用于对该第二音频数据进行音频识别。
可以看出,在本申请实施例中,首先根据第一空气密度和第一参考空气密度对获取到的第一音频数据进行特征补偿,这样就可以把在各个空气密度下采集到的音频数据统一到第一参考空气密度下,也就是使在任何空气密度下采集音频数据,都相当于是在第一参考空气密度下采集音频数据,从而消除环境因素,比如,空气密度,对音频数据的音频特征的影响,提高音频特征的提取精度。
结合第一方面,在一些可能的实施方式中,根据第一空气密度和第一参考空气密度,对第一音频数据进行补偿,得到第二音频数据,包括:对第一音频数据进行频域变换,得到第一频域数据;根据第一空气密度和第一参考空气密度,对第一频域数据进行特征补偿,得到第二频域数据;对第二频域数据进行频域反变换,得到第二音频数据。
可以看出,在本申请实施例中,可以通过频域变换,以及频域反变换的方式对音频特征进行补偿,消除空气密度对音频特征的影响,提高音频特征的提取精度。
结合第一方面,在一些可能的实施方式中,根据第一空气密度和第一参考空气密度,对第一频域数据进行特征补偿,得到第二频域数据,包括:在第一空气密度大于第一参考空气密度的情况下,根据第一空气密度和第一参考空气密度,对第一频域数据进行第一采样操作,得到采样后的第一频域数据;对第一频域数据以及采样后的第一频域数据进行第一频域整形操作,得到第二频域数据,其中,第二频域数据的频点数量与第一频域数据的频点数量相同,第二频域数据中相邻频点之间的频率间隔与第一频域数据中相邻频点之间的频率间隔相同。
结合第一方面,在一些可能的实施方式中,在第一空气密度小于第一参考空气密度的情况下,根据第一空气密度和第一参考空气密度,对第一频域数据向高频方向扩频,得到第三频域数据;根据第一空气密度和第一参考空气密度,对第三频域数据进行第一采样操作,得到采样后的第三频域数据;对第三频域数据以及采样后的第三频域数据进行第一频域整形操作,得到第二频域数据,其中,第二频域数据的频点数量与采样后的第三频域数据的频点数量相同,第二频域数据中相邻频点之间的频率间隔与第三频域数据中相邻频点之间的频率间隔相同。
可以看出,在上述两个实施例中,先将第一空气密度和第一参考空气密度进行大小比较,得到两者的差异,根据该差异对音频特征的实际影响,对音频特征进行补偿,可以精确的将第一音频数据从第一空气密度补偿到第一参考空气密度,消除空气密度的影响。
结合第一方面,在一些可能的实施方式中,根据第一空气密度和第一参考空气密度,对第一频域数据进行扩频,得到第三频域数据,包括:根据第一声速以及第一参考声速,对第一频域数据向高频方向扩频,得到第三频域数据,其中,第三频域数据的频点数量与第一频域数据的频点数量之间的比值,为第一声速与第一参考声速之间的比值,第一声速是根据第一空气密度确定的,第一参考声速是根据第一参考空气密度确定的。
可以看出,在本申请实施例中,在第一空气密度小于第一参考空气密度的情况下,也就是说在第一声速大于第一参考声速时,先向高频方向扩展,得到高频信息,从而为后续的采样操作和整形操作,提供高频信息。
结合第一方面,在一些可能的实施方式中,第一采样操作,包括:根据第一声速以及第一参考声速,对频域数据A进行采样,得到采样后的频域数据A;其中,第一声速是根据第一空气密度确定的,第一参考声速是根据第一参考空气密度确定的;其中,采样后的频域数据A的频点数量与频域数据A的频点数量之间的比值为第一参考声速与第一声速之间的比值;在频域数据A为第一频域数据的情况下,采样后的频域数据A为采样后的第一频域数据,在频域数据A为第三频域数据的情况下,采样后的频域数据A为采样后的第三频域数据。
可以看出,在本申请实施例中,对频域数据A进行采样,得到采样后的频域数据A,这样就可以使用采样后的频域数据A将第一频域数据偏移的共振峰拉回到正常位置,从而消除空气密度对音频特征的影响。
结合第一方面,在一些可能的实施方式中,第一频域整形操作,包括:对频域数据B进行数字化处理,得到数字化处理后的频域数据B,其中,若频点A在频域数据B中对应的取值不为0,则频点A在数字化处理后的频域数据B中对应的取值为1,若频点A在频 域数据B中对应的取值为0,则频点A在数字化处理后的频域数据B中对应的取值为0,频点A为频域数据B中的任意一个频点;按照频点的频率从小到大的顺序,对数字化处理后的频域数据B与频域数据C进行数学运算处理,得到第二频域数据;在频域数据B为第一频域数据的情况下,则频域数据C为采样后的第一频域数据;在频域数据B为第三频域数据的情况下,则频域数据C为采样后的第三频域数据。
结合第一方面,在一些可能的实施方式中,按照频点的频率从小到大的顺序,对数字化处理后的频域数据B与频域数据C进行数学运算处理,得到第二频域数据,包括:按照频点的频率从小到大的顺序,对数字化处理后的频域数据B与频域数据C进行数学运算处理,得到第四频域数据;对第四频域数据进行能量整形,得到第二频域数据,其中,第二频域数据对应的能量和与第一频域数据对应的能量和相同。
可以看出,在本申请实施例中,通过能量整形,使第二频域数据和第一频域数据的能量和相同,从而使特征补偿后的第二音频数据只是将波形做了变换,在能量上保持一致,而未改变第一音频数据的内在本质特征,使用第二音频数据进行音频识别的精度会更高。
结合第一方面,在一些可能的实施方式中,该方法还包括:对第二音频数据进行音频识别,得到与第一音频数据对应的音频识别结果。
可以看出,在本申请实施例中,由于第二音频数据是与第一参考空气密度下的音频数据,消除了空气密度的差异对音频特征的影响,使音频特征的提取不会受空气密度的影响,从而提高了对第一音频数据进行音频识别的精度。
结合第一方面,在一些可能的实施方式中,对第二音频数据进行音频识别,得到与第一音频数据对应的音频识别结果,包括:将第二音频数据输入到完成训练的第一音频识别模型进行音频识别,得到与第一音频数据对应的音频识别结果,其中,第一参考空气密度为采集训练样本中的音频数据样本时的空气密度,训练样本用于对第一音频识别模型进行训练。
可以看出,在本申请实施例中,由于第一音频识别模型是使用第一参考空气密度下的音频数据样本训练得到的,这样第一音频识别模型更好的记住了第一参考空气密度下的音频特征。因此,在应用阶段将采集到的第一音频数据补偿到第一参考空气密度下,得到第二音频数据,使用该第二音频数据进行音频识别,可以提高音频识别精度。
第二方面,本申请实施例提供了一种音频识别方法,包括:获取第一音频数据;将第一音频数据输入到完成训练的第二音频识别模型进行音频识别,得到与第一音频数据对应的音频识别结果,其中,第二音频识别模型根据训练样本集确定的,训练样本集包括多个原始音频数据样本和多个扩充音频数据样本,多个扩充音频数据样本是根据第二空气密度和多个第二参考空气密度,分别对多个原始音频数据样本中的每个原始音频数据样本进行特征补偿得到的,第二空气密度为采集每个原始音频数据样本时所处环境下的空气密度。
可以看出,在本申请实施例中,使用各个空气密度下的音频数据样本对第二音频识别模型进行训练,这样训练出的第二音频识别模型可以记住用户在各个空气密度下的音频特征,也就使该第二音频识别模型的鲁棒性比较高,提高了音频识别精度。可以使用该第二音频识别模型对采集到的第一音频数据直接进行音频识别,无需进行音频特征补偿,从而在提高音频识别精度的同时,还可以提高音频识别效率。
结合第二方面,在一些可能的实施方式中,在获取第一音频数据之前,该方法还包括:获取多个原始音频数据样本;根据第二空气密度和多个第二参考空气密度,分别对多个原始音频数据样本中的每个原始音频数据样本进行特征补偿,得到与每个原始音频数据样本对应的多个扩充音频数据样本;根据每个原始音频数据样本对应的多个扩充音频数据样本以及多个原始音频数据样本,构造训练样本集;根据训练样本集,确定完成训练的第二音频识别模型。
可以看出,在本申请实施例中,先对原始音频数据样本进行扩充,从而可以得到各个空气密度下的扩充音频数据样本,使用这样的音频数据样本对第二音频识别模型进行训练,可以使第二音频识别模型的鲁棒性较高,提高后续音频识别精度。
结合第二方面,在一些可能的实施方式中,根据第二空气密度和多个第二参考空气密度,分别对多个原始音频数据样本中的每个原始音频数据样本进行特征补偿,得到与每个原始音频数据样本对应的多个扩充音频数据样本,包括:对每个原始音频数据样本进行频域变换,得到与每个原始音频数据对应的第五频域数据;针对每个原始音频数据样本,根据多个第二参考空气密度中的每个第二参考空气密度以及第二空气密度,对第五音频数据进行特征补偿,得到与每个第二参考空气密度对应的第六频域数据,并根据与每个第二参考空气密度对应的第六频域数据,得到与每个原始音频数据样本对应的多个第六频域数据,其中,多个第六频域数据与多个第二参考空气密度一一对应;分别对每个原始音频数据样本对应的多个第六频域数据中的每个第六频域数据进行频域反变换,得到与每个原始音频数据样本对应的多个扩充音频数据样本。
结合第二方面,在一些可能的实施方式中,根据多个第二参考空气密度中的每个第二参考空气密度以及第二空气密度,对第五音频数据进行特征补偿,得到与每个第二参考空气密度对应的第六频域数据,包括:在第二空气密度大于第二参考空气密度A的情况下,根据第二空气密度和第二参考空气密度A,对第五频域数据进行第二采样操作,得到采样后的第五频域数据;对第五频域数据以及采样后的第五频域数据进行第二频域整形操作,得到与第二参考空气密度A对应的第六频域数据,其中,与第二参考空气密度A对应的第六频域数据的频点数量与第五频域数据的频点数量相同,与第二参考空气密度A对应的第六频域数据中相邻频点之间的频率间隔与第五频域数据中相邻频点之间的频率间隔相同;
其中,第二参考空气密度A为多个第二参考空气密度中的任意一个。
结合第二方面,在一些可能的实施方式中,在第二空气密度小于第二参考空气密度A的情况下,根据第二空气密度和第二参考空气密度A,对第五频域数据向高频方向扩频,得到第七频域数据;根据第二空气密度和第二参考空气密度A,对第七频域数据进行第二采样操作,得到采样后的第七频域数据;对第七频域数据以及采样后的第七频域数据进行第二频域整形操作,得到与第二参考空气密度A对应的第六频域数据;其中,第二参考空气密度A为多个第二参考空气密度中的任意一个,其中,与二参考空气密度A对应的第六频域数据的频点数量与采样后的第七频域数据的频点数量相同,与第二参考空气密度A对应的第六频域数据中相邻频点之间的频率间隔与第七频域数据中相邻频点之间的频率间隔相同。
结合第二方面,在一些可能的实施方式中,根据第二空气密度和第二参考空气密度A, 对第五频域数据向高频方向扩频,得到第七频域数据,包括:根据第二声速以及第二参考声速A,对第五频域数据向高频方向扩频,得到第七频域数据,其中,七频域数据的频点数量与第五频域数据的频点数量之间的比值,为第二参考声速A与第二声速之间的比值,其中,第二声速是根据第二空气密度确定的,第二参考声速A是根据第二参考空气密度A确定的。
结合第二方面,在一些可能的实施方式中,第二采样操作,包括:根据第二声速以及第二参考声速A,对频域数据D进行采样,得到采样后的频域数据D;其中,第二声速是根据第二空气密度确定的,第二参考声速A是根据第二参考空气密度A确定的;其中,采样后的频域数据D的频点数量与频域数据D的频点数量之间的比值,为第二声速与第二参考声速A之间的比值;在频域数据D为第五频域数据的情况下,采样后的频域数据D为采样后的第五频域数据,在频域数据D为第七频域数据的情况下,采样后的频域数据D为采样后的第七频域数据。
结合第二方面,在一些可能的实施方式中,第二频域整形操作,包括:对频域数据E进行数字化处理,得到数字化处理后的频域数据E,其中,若频点B在频域数据E中对应的取值不为0,则频点B在数字化处理后的频域数据E中对应的取值为1,若频点B在频域数据E中对应的取值为0,则频点B在数字化处理后的频域数据E中对应的取值为0,频点B为频域数据E中的任意一个频点;按照频点的频率从小到大的顺序,对数字化处理后的频域数据E与频域数据F进行数学运算处理,得到与第二参考空气密度A对应的第六频域数据;其中,在频域数据E为第五频域数据的情况下,频域数据F为采样后的第五频域数据;在频域数据为第七频域数据的情况下,频域数据F为采样的第七频域数据。
结合第二方面,在一些可能的实施方式中,按照频点的频率从小到大的顺序,对数字化处理后的频域数据E与频域数据F进行数学运算处理,得到与第二参考空气密度A对应的第六频域数据,包括:按照频点的频率从小到大的顺序,对数字化处理后的频域数据E与频域数据F进行数学运算处理,得到第八频域数据;对第八频域数据进行能量整形,得到与第二参考空气密度A对应的第六频域数据,其中,第六频域数据对应的能量和与第五频域数据对应的能量和相同。
第三方面,本申请实施例提供了一种音频特征补偿装置。有益效果可以参见第一方面的描述此处不再赘述。音频特征补偿装置具有实现上述第一方面的方法实例中行为的功能。功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。在一个可能的设计中,该音频特征补偿装置包括:获取单元,用于获取第一音频数据;处理单元,用于根据第一空气密度和第一参考空气密度,对第一音频数据进行特征补偿,得到第二音频数据,第一空气密度为采集第一音频数据时的空气密度。
第四方面,本申请实施例提供了一种音频识别装置。有益效果可以参见第二方面的描述此处不再赘述。音频识别装置具有实现上述第二方面的方法实例中行为的功能。功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。在一个可能的设计中,该音频识别装置包括:获取单元,用于获取第一音频数据;处理单元,用于将第一音频数据输入到完成训练的第二音频识别模型进 行音频识别,得到与第一音频数据对应的音频识别结果,其中,第二音频识别模型是通过训练样本集进行训练得到的,训练样本集包括多个原始音频数据样本和多个扩充音频数据样本,多个扩充音频数据样本是根据第二空气密度和多个第二参考空气密度,分别对多个原始音频数据样本中的每个原始音频数据样本进行特征补偿得到的,第二空气密度为采集每个原始音频数据样本时的空气密度。
第五方面,本申请实施例提供了一种电子装置,包括:存储器,用于存储程序;处理器,用于执行存储器存储的程序,当存储器存储的程序被执行时,处理器用于上述执行第一方面或第二方面的方法。
第六方面,本申请实施例提供了提供一种计算机可读介质,该计算机可读介质存储用于设备执行的程序代码,该程序代码包括用于执行上述第一方面或第二方面中的方法。
第七方面,本申请实施例提供了提供一种包含指令的计算机程序产品,当该计算机程序产品在计算机上运行时,使得计算机执行上述如第一方面或第二方面中的方法。
第八方面,本申请实施例提供了提供一种芯片,该芯片包括处理器与数据接口,处理器通过数据接口读取存储器上存储的指令,执行上述第一方面或第二方面中的方法。
可选地,作为一种实现方式,芯片还可以包括存储器,存储器中存储有指令,处理器用于执行存储器上存储的指令,当指令被执行时,处理器用于执行上述第一方面或第二方面中的方法。
图1为本申请实施例提供的一种发声模型的示意图;
图2为本申请实施例提供的一种吸入氦气的共振峰的变化的示意图;
图3为本申请实施例提供的一种声纹识别的示意图;
图4为本申请实施例提供的一种***架构图;
图5为本申请实施例提供的一种芯片硬件架构示意图;
图6为本申请实施例提供的一种音频特征补偿方法的流程示意图;
图7为本申请实施例提供的一种第一频域数据的示意图;
图8为本申请实施例提供的一种对第一频域数据进行扩频的示意图;
图9为本申请实施例提供的一种对第一频域数据进行第一采样操作的示意图;
图10为本申请实施例提供的一种对第三频域数据进行第一采样操作的示意图;
图11为本申请实施例提供的一种对第一频域数据进行数字化处理的示意图;
图12为本申请实施例提供的一种对第三频域数据进行数字化处理的示意图;
图13为本申请实施例提供的一种对第一频域数据和采样后的第一频域数据进行数学运算处理的示意图;
图14为本申请实施例提供的一种对第三频域数据和采样后的第三频域数据进行数学运算处理的示意图;
图15为本申请实施例提供的一种在第一声速小于第一参考声速时,音频特征补偿前后的频谱图;
图16为本申请实施例提供的一种在第一声速大于第一参考声速时,音频特征补偿前后 的频谱图;
图17为本申请实施例提供的一种音频识别模型训练方法的流程示意图;
图18为本申请实施例提供的一种音频识别方法的流程示意图;
图19为本申请实施例提供的另一种音频识别方法的示意图;
图20为本申请实施例提供的一种音频特征补偿装置的结构示意图;
图21为本申请实施例提供的一种音频识别装置的结构示意图;
图22为本申请实施例提供的一种电子装置的结构示意图。
为了便于理解本申请,首先对本申请涉及到相关技术进行解释说明。
人类的发声模型可以简化为声带激励声道,产生声音的过程如图1所示,发声模型主要包括声带A和声道***B,其中,声带A可以产生不同基频和谐波的声带信号,声道***B由嘴、喉、鼻腔等组成,即声道***B可以看做一个滤波器,该滤波器在滤波的过程会将该声带信号的某些频率抑制,某些频率增强(即实现共振)。这样声带信号经过该声带***B进行滤波后,得到输出信号C,即人体发出的声音。
然而,即使一个说话人在不同的环境下说话,声音会发生变化,则输出信号C的共振峰位置也是不同的。具体的,如果将声道***抽象为一个管道,则共振峰的位置为f的整数倍,其中,f=c/4L,L为管道的长度,c为声速。由于说话人的声道***一般不会发生变化,则管道的长度L一般不会发生变化,所以影响共振峰的位置主要是声速,而声速又与空气密度相关,因此当声速发生变化时,共振峰的位置也会随之变化。其中,声速可以通过公式(1)表示:
c是声速,K是体积模量,ρ是气体密度。
因此,当空气密度变大时,声速会变小,则共振峰的位置会向低频方向偏移,当空气密度变小时,声速会变大,则共振峰的位置会向高频方向偏移。
举例来说,如图2所示,左图表示了吸入氦气之前,共振峰的位置出现在f1和f2处,在吸入氦气之后,共振峰的位置出现在f0,可以看出,当吸入氦气之后,空气密度会变小,造成共振峰的位置明显往高频方向偏移。
因此,在不同的环境下,即使同一个人说话,由于环境不同则会导致共振峰的位置发生偏移,导致这个人说话的声音的特征也会发生变化,最终导致提取到的音频特征精度较低。因此,如何使提取出的音频特征的精度较高,且可以不受环境因素的影响,是目前亟待解决的问题。
下面将结合附图,对本申请中的技术方案进行描述。
本申请实施例提供的音频特征补偿方法和/或音频识别方法能够应用在语音助手以及其他需要进行音频识别的场景。具体而言,本申请实施例的音频特征补偿方法和/或音频识别方法能够应用到语音助手场景以及身份识别(音频识别的一种)场景。下面分别对语音助手场景以及身份识别场景进行介绍。
语音助手场景:
针对本申请提供的音频特征补偿方法,用户在呼出或唤醒语音助手时,设备首先采集用户发出的用于呼出或唤醒语音助手的语音,比如,在呼出或者唤醒苹果手机的语音助手Siri时,采集到的语音可以为“嗨,Siri”;然后设备对采集到的语音进行音频特征补偿,将该语音的音频特征补偿到正常环境(比如,录入语音模板时的环境)下,消除了环境因素对音频特征的影响,使设备采集到语音的音频特征不受环境因素的影响,也就保证设备可以准确的识别出在任何环境下采集到的语音的语义,进而实现在任何环境下用户都可以快速、准确的呼出或者唤醒设备的语音助手;
针对本申请提供的音频识别方法,无论处于任何环境下,用户在呼出或唤醒语音助手时,设备会首先采集用户发出的用于呼出或唤醒语音助手的语音,比如,在呼出或者唤醒苹果手机的语音助手Siri时,采集到的语音可以为“嗨,Siri”;然后调用训练好的模型对采集到的语音进行识别,由于该训练好的模型是通过丰富的样本训练得到的。因此,无论用户处于哪个环境下,设备都可以准确的识别出用户发出的语音的语义,这样也就保证了,无论用户在任何环境下呼出或唤醒语音助手时,设备都可以准确的识别出该用户的语音的语义,即实现在任何环境下用户都可以快速、准确的呼出或者唤醒设备的语音助手。
身份识别场景:
针对身份识别场景,也可以理解为声纹识别场景,目前主要通过调用神经网络进行身份识别。具体的,如图3所示,目前基于音频数据进行身份识别,主要包括以下几个步骤:1)数据训练:训练用于声纹识别的说话人模型,需要采用在不同的说话环境,不同个体的人声进行训练,且数据量越大,则说话人模型识别效果越稳定,鲁棒性越好;2)数据注册:实时采集一段人声,将其注册进说话人模型,这样该人的声纹特征就被说话人模型“记住”,即模型更够将人的声纹特征存储下来,生成一个说话人模型库;3)数据识别:从说话人模型库中迁移应用完成注册的说话人模型,并调用该说话人模型对实时采集到的语音进行声纹识别,即与注册后的各个候选者进行对比,即阈值判决,如果与存储的某个已经注册的候选者的声纹特征比较匹配,则该语音对应的用户与已注册的声纹特征对应的候选者属于同一个人,完成身份识别。
针对本申请提供的音频特征补偿方法,可获取待验证身份的用户的音频数据;然后,对该音频数据进行特征补偿,将该音频数据的特征补偿到预设环境下,比如,进行数据注册的环境,得到补偿后的音频数据;最后,可以使用补偿后的音频数据对该待验证身份的用户进行身份验证。这样无论用户处于任何环境,都可以将采集到的音频数据补偿到预设环境下,从而实现无论用户处于什么环境下,都可以准确的识别出用户的身份;
针对本申请提供的音频识别方法,在进行数据注册的时候,可以将采集到的数据进行扩充,得到用户在各个环境下的音频特征,这样说话人模型就可以记住用户在各个环境下的音频特征。后续进行身份识别时,无论用户处于任何环境,都可以准确的识别出该用户的身份信息。
本申请实施例提供的方法和装置还可以用于扩充训练数据库,如图4所示执行设备110的I/O接口112可以将经该执行设备110处理过的扩充音频数据样本以及原始音频数据样本全部作为训练数据发送给数据库130,以使得数据库130维护的训练数据更加丰富,从而为 训练设备120的训练工作提供更丰富的训练数据。
下面从模型训练侧和模型应用侧对本申请提供的方法进行描述:
本申请实施例提供的第一音频识别模型的训练方法,涉及音频数据的处理,具体可以应用于数据训练、机器学习、深度学习等数据处理方法,对训练数据,比如,如本申请中的原始音频数据样本,进行符号化和形式化的智能信息建模、抽取、预处理、训练等,最终得到完成训练的第一音频识别模型;并且,本申请实施例提供的音频特征补偿方法可以运用到上述训练好的第一音频识别模型,即将补偿后的音频数据,即对第一音频数据进行特征补偿后得到的第二音频数据,输入到完成训练的第一音频识别模型中,得到音频识别结果;
本申请实施例提供的第二音频识别模型的训练方法,涉及音频数据的处理,具体可以应用于数据训练、机器学习、深度学习等数据处理方法,对训练数据,比如,本申请中的原始音频数据样本和扩充音频数据样本,进行符号化和形式化的智能信息建模、抽取、预处理、训练等,最终得到完成训练的第二音频识别模型;并且,本申请实施例提供的音频识别方法可以运用上述训练好的第二音频识别模型,将直接采集到的音频数据,即本申请中的第一音频数据,输入到完成训练的第二音频识别模型中,得到音频识别结果。
由于本申请实施例涉及大量神经网络的应用,为了便于理解,下面先对本申请实施例涉及的相关术语及神经网络等相关概念进行介绍。
(1)神经网络
神经网络可以是由神经单元组成的,神经单元可以是指以x
s和截距1为输入的运算单元,该运算单元的输出可以为:
其中,s=1、2、……n,n为大于1的自然数,W
s为x
s的权重,b为神经单元的偏置。f为神经单元的激活函数(activation functions),用于将非线性特性引入神经网络中,来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入。激活函数可以是sigmoid函数。神经网络是将许多个上述单一的神经单元联结在一起形成的网络,即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连,来提取局部接受域的特征,局部接受域可以是由若干个神经单元组成的区域。
(2)损失函数
在训练深度神经网络的过程中,因为希望深度神经网络的输出尽可能的接近真正想要预测的值,所以可以通过比较当前网络的预测值和真正想要的目标值,再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然,在第一次更新之前通常会有初始化的过程,即为深度神经网络中的各层预先配置参数),比如,如果网络的预测值高了,就调整权重向量让它预测低一些,不断的调整,直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此,就需要预先定义“如何比较预测值和目标值之间的差异”,这便是损失函数(loss function)或目标函数(objective function),它们是用于衡量预测值和目标值的差异的重要方程。其中,以损失函数举例,损失函数的输出值 (loss)越高表示差异越大,那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。
(3)反向传播算法
卷积神经网络可以采用误差反向传播(back propagation,BP)算法在训练过程中修正初始的超分辨率模型中参数的大小,使得超分辨率模型的重建误差损失越来越小。具体地,前向传递输入信号直至输出会产生误差损失,通过反向传播误差损失信息来更新初始的超分辨率模型中参数,从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动,旨在得到最优的超分辨率模型的参数,例如权重矩阵。
参阅图4,图4为本申请实施例提供的一种***架构100。如图4示出的***架构100,数据采集设备160用于采集训练数据,并将训练数据存入数据库130,本申请实施例中训练数据包括:原始音频数据样本;训练设备120基于数据库130中维护的训练数据训练得到音频识别模型101。该音频识别模型101能够用于实现音频识别。示例性的,在实现本申请实施例提供的音频特征补偿方法时,音频识别模型101可以为完成训练的第一音频识别模型,则可将特征补偿得到的第二音频数据输入到该音频识别模型101,得到第一音频数据的音频识别结果;在实现本申请实施例提供的音频识别方法时,音频识别模型101可以为完成训练的第二音频识别模型,则可以将采集到的第一音频数据直接输入到该音频识别模型101,得到第一音频数据的音频识别结果。另外需要说明的是,训练设备120也不一定完全基于数据库130维护的训练数据进行音频识别模型101的训练,也有可能从云端或其他地方获取训练数据进行模型训练,上述描述不应该作为对本申请实施例的限定。
根据训练设备120训练得到的音频识别模型101可以应用于不同的***或设备中,如应用于图4所示的执行设备110,执行设备110可以是终端,如手机终端,平板电脑,笔记本电脑,AR/VR,车载终端等,还可以是服务器或者云端等。在附图4中,执行设备110配置有I/O接口112,用于与外部设备进行数据交互,用户可以通过客户设备140向I/O接口112输入数据,输入数据在本申请实施例中可以包括:在应用过程中采集到的第一音频数据,以及在训练过程中采集的训练数据,比如,原始音频数据样本。
预处理模块113用于根据I/O接口112接收到的输入数据进行预处理。比如,在音频识别模型101是使用单一环境下的训练数据,比如,原始音频数据样本,训练得到的情况下,也就是该音频识别模型101是后面提到的第一音频识别模型,则在使用音频识别模型101进行音频识别时,预处理模块113可以对采集到的第一音频数据进行特征补偿,然后,将补偿后的第二音频数据输入给音频识别模型101。
在执行设备110对输入数据进行预处理,或者在执行设备110的计算模块111执行计算等相关的处理过程中,执行设备110可以调用数据存储***150中的数据、代码等以用于相应的处理,也可以将相应处理得到的数据、指令等存入数据存储***150中。
最后,I/O接口112将处理结果,如上述得到的音频识别结果返回给客户设备140,从而提供给用户。
值得说明的是,训练设备120可以针对不同的目标或称不同的任务,基于不同的训练数据生成相应的音频识别模型101,该相应的音频识别模型101,即可以用于实现上述音频识别任务,从而为用户提供所需的结果。
在附图4中所示情况下,用户可以手动给定输入数据,该手动给定可以通过I/O接口112提供的界面进行操作。另一种情况下,客户设备140可以自动地向I/O接口112发送输入数据,如果要求客户设备140自动发送输入数据需要获得用户的授权,则用户可以在客户设备140中设置相应权限。用户可以在客户设备140查看执行设备110输出的结果,具体的呈现形式可以是显示、声音、动作等具体方式。客户设备140也可以作为数据采集端,采集如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果作为新的样本数据,并存入数据库130。当然,也可以不经过客户设备140进行采集,而是由I/O接口112直接将如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果,作为新的样本数据存入数据库130。
值得注意的是,附图4仅是本发明实施例提供的一种***架构的示意图,图4中所示设备、器件、模块等之间的位置关系不构成任何限制,例如,在附图4中,数据存储***150相对执行设备110是外部存储器,在其它情况下,也可以将数据存储***150置于执行设备110内部。
如图4所示,根据训练设备120训练得到音频识别模型101,音频识别模型101在本申请实施例中可以是本申请的第一音频识别模型或第二音频识别模型,具体的,本申请实施例提供的音频识别模型可以包括:卷积神经网络。也就是说,在本申请实施例提供的卷积神经网络中,第一音频识别模型和第二音频识别模型都可以是卷积神经网络。
下面介绍本申请实施例提供的一种芯片硬件结构。
图5为本申请实施例提供的一种芯片硬件结构,该芯片包括神经网络处理器50。该芯片可以被设置在如图4所示的执行设备110中,用以完成计算模块111的计算工作。该芯片也可以被设置在如图4所示的训练设备120中,用以完成训练设备120的训练工作并输出音频识别模型101。本申请实施例中的音频特征补偿方法以及音频识别方法均可在图5所示的芯片中得以实现。
神经网络处理器(Neural Network Processing Unit,NPU)50作为协处理器挂载到主CPU(Host CPU)上,由Host CPU分配任务。NPU的核心部分为运算电路503,控制器504控制运算电路503提取存储器(权重存储器或输入存储器)中的数据并进行运算。
在一些实现中,运算电路503内部包括多个处理单元(Process Engine,PE)。在一些实现中,运算电路503是二维脉动阵列。运算电路503还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中,运算电路503是通用的矩阵处理器。
举例来说,假设有输入矩阵A,权重矩阵B,输出矩阵C。运算电路503从权重存储器502中取权重矩阵B相应的数据,并缓存在运算电路中每一个PE上。运算电路503从输入存储器501中取输入矩阵A与权重矩阵B进行矩阵运算,得到的矩阵的部分结果或最终结果,保存在累加器508(accumulator)中。
向量计算单元507可以对运算电路的输出做进一步处理,如向量乘,向量加,指数运算,对数运算,大小比较等等。例如,向量计算单元507可以用于神经网络中非卷积/非FC层的网络计算,如池化(Pooling),批归一化(Batch Normalization),局部响应归一化(Local Response Normalization)等。
在一些实现中,向量计算单元507能将经处理的输出的向量存储到统一缓存器506。例如,向量计算单元507可以将非线性函数应用到运算电路503的输出,例如累加值的向量,用以生成激活值。在一些实现中,向量计算单元507生成归一化的值、合并值,或二者均有。在一些实现中,处理过的输出的向量能够用作到运算电路503的激活输入,例如用于在神经网络中的后续层中的使用。
统一存储器506用于存放输入数据以及输出数据。
权重数据直接通过存储单元访问控制器505(Direct Memory Access Controller,DMAC)将外部存储器中的输入数据搬运到输入存储器501和/或统一存储器506、将外部存储器中的权重数据存入权重存储器502,以及将统一存储器506中的数据存入外部存储器。
总线接口单元(Bus Interface Unit,BIU)510,用于通过总线实现主CPU、DMAC和取指存储器509之间进行交互;
与控制器504连接的取指存储器(instruction fetch buffer)509,用于存储控制器504使用的指令;
控制器504,用于调用取指存储器509中缓存的指令,实现控制该运算加速器的工作过程。
一般地,统一存储器506,输入存储器501,权重存储器502以及取指存储器509均为片上(On-Chip)存储器,外部存储器为NPU50外部的存储器,该外部存储器可以为双倍数据率同步动态随机存储器(Double Data Rate Synchronous Dynamic Random Access Memory,简称DDR SDRAM)、高带宽存储器(High Bandwidth Memory,HBM)或其他可读可写的存储器。
参阅图6,图6为本申请实施例提供的一种音频特征补偿方法的流程示意图。该方法具体可以由如图4所示的执行设备110执行。该方法包括以下步骤:
601:获取第一音频数据。
示例性的,该第一音频数为对需要进行音频识别的用户进行音频采集得到的。其中,该第一音频数据可以是实时采集的,也可以是预先采集,在需要使用的情况下,从存储音频数据空间中获取该第一音频数据。本申请不对获取第一音频数据的方式进行限定。
602:根据第一空气密度和第一参考空气密度,对第一音频数据进行特征补偿,得到第二音频数据,其中,第一空气密度为采集第一音频数据时所处环境下的空气密度。
其中,第一空气密度为采集第一音频数据时所处环境下的空气密度,即该第一空气密度与采集第一音频数据的采集时刻和采集地点相关。比如,在T1时刻以及地点W1处采集到了第一音频数据,则该第一空气密度则为地点W1在T1时刻的空气密度。
示例性的,在采集第一音频数据时,可以获取采集设备采集第一音频数据时的地理位置,根据该地理位置确定出采集该第一音频数据时的第一空气密度。当然,还可以通过其他的方式获取该第一空气密度,比如,可以通过密度监测仪,获取采集该第一音频数据时所处环境下的第一空气密度。
其中,该第一参考空气密度为采集训练样本中的音频数据样本时所处环境下的空气密度。同样,该第一参考空气密度与采集音频数据样本的采集时间以及采集地点相关,比如,在T2时刻以及地点W2处采集了音频数据样本,则该第一参考空气密度为地点W2在T2 时刻的空气密度。示例性的,在标准空气密度下采集音频数据样本时,则该第一参考空气密度为标准空气密度;或者,在实验室环境下进行音频数据样本的采集,则该第一参考空气密度为实验室环境下进行音频数据样本采集时的空气密度;又如,在特殊环境下采集音频数据样本时,比如,在添加有氦气的环境下采集音频数据样本,则该第一参考空气密度为该特殊环境下进行音频数据样本采集时的空气密度。因此,可以在各种空气密度下采集音频数据样本,即本申请中不对第一参考密度的取值进行限定。
此外,该训练样本用于对第一音频识别模型进行训练,则完成训练的第一音频识别模型可以用来对第二音频数据进行音频识别,后面再叙述音频识别过程,在此不做过多描述。
因此,可根据第一空气密度与第一参考空气密度之间的差异性,对该第一音频数据进行特征补偿,得到第二音频数据。也就是消除空气密度的差异对音频数据采集带来的影响,将第一音频数据变换到相当于在第一参考空气密度下采集到的音频数据。
可以看出,在本申请实施例中,将在第一空气密度下采集到的用户的第一音频数据进行特征补偿,即将第一音频数据的音频特征补偿到第一参考空气密度下,使第一空气密度下采集到的第一音频数据的音频特征与第一参考空气密度对齐,得到第二音频数据。这样可以把在任何空气密度下采集到的音频数据的音频特征统一到第一参考空气密度下,即实现无论在哪个空气密度下采集音频数据,都相当于在第一参考空气密度下采集音频数据,从而可以消除环境因素对音频特征的影响,这样使用补偿后的第二音频数据进行音频识别时,识别精度较高,不会受环境因素的影响。
下面介绍一下本申请实施例提供的特征补偿的实现方法。
示例性的,对第一音频数据S(n)进行频域变换,得到第一频域数据,比如,对第一音频数进行傅里叶变换,得到该第一频域数据S1(w),如图7所示,该第一频域数据S1(w)可以为第一音频数据S(n)的频谱图,其中,该频谱图中包括N个频点。示例性的,该频谱图包括但不限于能量谱图、功率谱图或者振幅谱图,本申请中以频域数据为振幅谱图为例进行说明。然后,根据该第一空气密度和第一参考空气密度,对该第一频域数据进行特征补偿,得到第二频域数据;对该第二频域数据进行频域反变换,得到第二音频数据,比如,对第二频域数据进行傅里叶反变换,得到第二音频数据。
可选的,在该第一空气密度大于第一参考空气密度的情况下,首先根据该第一空气密度和第一参考空气密度对该第一频域数据进行第一采样操作,得到采样后的第一频域数据;对该第一频域数据以及该采样后的第一频域数据进行第一频域整形操作,得到第二频域数据;可选的,在该第一空气密度小于第一参考空气密度的情况下,先根据该第一空气密度和第一参考空气密度,对该第一频域数据向高频方向扩频,得到第三频域数据;然后,对该第三频域数据进行上述的第一采样操作,得到采样后的第三频域数据;对该第三频域数据以及采样后的第三频域数据进行上述的第一频域整形操作;得到该第二频域数据。应理解,在该第一空气密度等于该第一参考空气密度的情况下,则不需要对该第一音频数据进行特征补偿,可直接使用该第一音频数据进行音频识别。
示例性的,根据上述的公式(1)以及该第一空气密度确定第一声速,以及根据该第一参考空气密度确定第一参考声速;然后,根据该第一声速以及该第一参考声速,对该第一频域数据向高频方向扩频,得到第三频域数据,其中,该第三频域数据中的频点数据与该 第一频域数据中的频点数量之间的比值,为该第一声速与该第一参考声速之间的比值。
示例性的,该比值可以通过公式(3)表示:
其中,M为第三频域数据中的频点数量,N为第一频域数据中的频点数量,C
1为第一声速,C
0为第一参考声速。
示例性的,如图8所示,将第一频域数据S1(w)向高频方向进行扩频,得到第三频域数据S3(w),也就将第一频域数据S1(w)的频点数量从N个扩展为M个,得到高频信息,进而得到频点数量为M个的第三频域数据。
示例性的,对频域数据进行扩频可以通过线性外推(Linear Extrapolation,LE)、有效高频带宽扩展(Effi-cient High-frequency Bandwidth Extension,EHBE)、混合信号外推(Hybrid Signal Extrapolation,HSE)和非线性预测等方法来实现。本申请以LE为例说明扩频的实现过程,该LE主要是利用音频信号的对数幅度谱包络呈近似线性递减关系来实现扩频。
示例性,首先获取第一频域数据S1(w)的频谱包络,这部分频谱可以看做低频部分的频谱包络;然后,将该第一频域数据S1(w)的频谱包络变换到对数域,并在对数域采用线性最小二乘法将该频谱包络拟合成一条直线,得到该拟合直线的斜率;最后,将低频谱信息,即低频部分对应的频谱包络,进行复制得到高频信息,并利用拟合直线的斜率对高频信息进行包络衰减,得到高频部分在对数域的频谱包络,将对数域的整个频谱包络(包括低频部分的频谱包络和高频部分的频谱包络)变换到与第一频域数据相同的坐标系,得到该第三频域数据。
应理解,由于声速是通过空气密度确定出的,在实际应用中,可以不用确定出声速,可以直接根据空气密度完成扩频。比如,上述根据第一空气密度和第一参考空气密度,对第一频域数据向高频方向扩频,实质上就是根据第一空气密度和第一参考空气密度之间的比值,对第一频域数据向高频方向扩频,其中,第三频域数据的频点数量与第一频域数据的频点数量之间的比值,为第一参考空气密度与第一空气密度之间的比值的算术平方根。因此,第三频域数据的频点数量与第一频域数据的频点数量之间的比值还可以通过公式(4)表示:
其中,M为第三频域数据中的频点数量,N为第一频域数据中的频点数量,ρ
0为第一参考空气密度,ρ
1为第一空气密度。
应理解,上述以及后面所涉及的频点数量之间的比值只是为了限定出变换后(比如,采样和扩频)的频域数据的形状,在实际应用中还可以通过其他的频域参数来限定变换后的频域数据的形状,本申请不再赘述。
下面介绍一下本申请的第一采样操作。
示例性的,根据该第一空气密度确定第一声速,以及根据该第一参考空气密度,确定第一参考声速;然后,根据第一声速以及该第一参考声速,对频域数据A进行采样,得到采样后的频域数据A,其中,该采样后的频域数据A的频点数量与该频域数据A的频点数 量之间的比值为该第一参考声速与该第一声速之间的比值。示例性的,采样后的频域数据A的频点数量与该频域数据A的频点数量之间的比值可以通过公式(5)表示:
其中,M为采样后的频域数据A中的频点数量,N为频域数据A中的频点数量,C
0为第一参考声速,C
1为第一声速。
因此,在该频域数据A为第一频域数据的情况下,也就是说对该第一频域数据进行采样的情况下,如图9所示,对该第一频域数据S1(w)进行第一采样操作,得到采样后的第一频域数据S1(w),也就将频点数量从N个频点变为M个频点。在该频域数据A为第三频域数据S3(w)的情况下,如图10所示,对该第三频域数据S3(w)进行该第一采样操作,得到采样后的第三频域数据S3(w),也就将频点数量从M个变为N个。
同样,与上述进行扩频类似的,也可以直接根据第一空气密度和第一参考空气密度进行第一采样操作,则该采样后的频域数据A的频点数量与该频域数据A的频点数量之间的比值可以通过公式(6)表示:
其中,M为采样后的频域数据A中的频点数量,N为频域数据A中的频点数量,ρ
0为第一参考空气密度,ρ
1为第一空气密度。
下面介绍一下本申请的第一频域整形操作。
首先,对频域数据B进行数字化处理,得到数字化处理后的频域数据B。示例性的,若频点A在频域数据B中对应的取值不为0,则在数字化处理后的频域数据B中对应的取值为1,若频点A在频域数据B中对应的取值为0,则在数字化处理后的频域数据B中对应的取值为0。其中,频点A在频域数据B中对应的取值实质上就是在该频点A对应的纵坐标的取值,比如,频域数据B为振幅频谱图的情况下,则该频点A在该频域数据B中对应的取值即为该频点A对应的振幅,再如,频域数据B为能量谱的情况下,则该频点A在该频域数据B中对应的取值即为该频点A对应的能量,等等。
示例性的,该频域数据B可以为第一频域数据或者第三频域数据。如图11所示,在该频域数据为第一频域数据S1(w)的情况下,对该频域数据B进行数字化处理,得到数字化处理后的频域数据B,即S′1(w);如图12所示,在该频域数据为第三频域数据S3(w)的情况下,对该频域数据B进行数字化处理,得到数字化处理后的频域数据B,即S′3(w)。
进一步的,在对该频域数据B进行数字化处理后,按照频点的频率从小到大的顺序,对该数字化处理后的频域数据B与频域数据C进行数学运算处理,得到该第二频域数据。示例性的,将该数字化处理后的频域数据B与频域数据C中处于对应位置的频点的取值进行相乘,得到该第二频域数据。
具体的,若该频域数据B为第一频域数据,则该频域数据C为采样后的第一频域数据,由于该数字化处理后的频域数据B中包含有N个频点,而采样后的第一频域数据中包含M个频点(且M>N),则无法对该数字化处理后的频域数据B和采样后的第一频域数据直接进行乘积处理,因此,如图13所示,先按照频率大小的顺序从该采样后的第一频域数据 中截取出N个频点(即截取出前N个频点),然后,将该N个频点与该数字化后的第一频域数据中的N个频点进行乘积处理,即对应频点的取值进行乘积,得到该第二频域数据。因此,该第二频域数据的频点数量与该数字化处理后的第一频域数据或者采样后的第一频域数据的频点数量相同,且该第二频域数据中的各个频点的频率与数字化处理后的第一频域数据中的各个频点的频率一一对应(相同),且各个频点的取值是对应频点取值的乘积,即该第二频域数据中相邻频点之间的频率间隔与该数字化处理后的第一频域数据中相邻频点之间的频率间隔相同,即两个频域数据的采样间隔相同。比如,将数字化处理后的第一频域数据中的第一个频点的取值与采样处理后的第一频域数据中的第一个频点的取值进行乘积处理,并将乘积处理得到的取值作为第二频域数据中第一个频点的取值,且该第二频域数据中第一个频点的频率与该数字化处理后的第一频域数据中的第一个频点的频率相同。
具体的,若该频域数据B为第三频域数据,则该频域数据C为采样后的第三频域数据,由于数字化处理后的频域数据B中包含有M个频点,而采样后的第三频域数中包含N个频点,同样,无法将数字化处理后的第三频域数据与采样后的第三频域数据直接进行乘积处理。因此,如图14所示,先按照频率大小的顺序从采样后的第三频域数据中截取出N个频点,即截取出前N个频点;然后,将该N个频点与采样后的第三频域数据中的N个频点进行乘积处理,即对应频点的取值进行乘积,得到第二频域数据。因此,该第二频域数据的频点数量与数字化处理后的第三频域数据或者采样后的第三频域数据的频点数量相同,且该第二频域数据中的各个频点的频率与数字化处理后的第三频域数据中的各个频点的频率一一对应(相同),且各个频点的取值是对应频点取值的乘积,即该第二频域数据中相邻频点之间的频率间隔与该数字化处理后的第三频域数据中相邻频点之间的频率间隔相同,即两个频域数据的采样间隔相同。比如,将数字化处理后的第三频域数据中的第一个频点的取值与采样处理后的第三频域数据中的第一个频点的取值进行乘积处理,并将乘积处理得到的取值作为第二频域数据中第一个频点的取值,且该第二频域数据中第一个频点的频率与该数字化处理后的第三频域数据中的第一个频点的频率相同。
可以看出,在该第一空气密度大于第一参考空气密度的情况下,由公式(1)可知,也就是第一声速小于第一参考声速,如图15所示,实线代表第一音频数据的频谱图,虚线为该用户在第一参考空气密度下采集到的音频数据的频谱图,相当于特征补偿后得到的第二音频数据的频谱图。因此,该第一频域数据相对于在第一参考空气密度下采集到的频域数据,共振峰会往低频方向偏移。由于第一音频识别模型都是通过第一参考空气密度下的音频数据样本训练得到的,则该第一音频识别模型能够精确的识别出第一参考空气密度下的音频数据。因此,需要对对该第一音频数据进行特征补偿,得到第二音频数据。而从图13中可以看出,从采样后的第一频域数据中截取出N个频点与数字化后的第一频域数据进行数学运算处理,由于数字化后的第一频域数据的采样间隔是大于采样后的第一频域数据的采样间隔,这样运算处理后,则会将从采样后的第一频域数据中截取出N个频点往高频方向移动,从而使共振峰往高频方向偏移,即可以将第一频域数据的共振峰拉回到正常的位置,其中,该正常的位置为在第一参考空气密度下采集到的音频数据的共振峰所在的位置;这样就将第一音频数据变换到相当于在第一参考空气密度下采集到的音频数据,从而把环 境因素统一到同一个环境下,提高后续音频识别的精确度。
可以看出,在该第一空气密度小于第一参考空气密度的情况下,由公式(1)可知,也就是第一声速大于第一参考声速,如图16所示,实线代表该用户在第一空气密度下采集到的第一音频数据的频谱图,虚线为该用户在第一参考空气密度下采集到的音频数据的频谱图,相当于特征补偿后得到的第二音频数据的频谱图。因此,该第一频域数据相对于在第一参考空气密度下采集到的频域数据,共振峰会往高频方向偏移。由于第一音频识别模型都是通过第一参考空气密度下的音频数据样本训练得到的,则该第一音频识别模型能够精确的识别出第一参考空气密度下的音频数据,因此,需要对该第一音频数据进行特征补偿,得到第二音频数据。而从图14中可以看出,从数字化处理后的第三频域数据中截取出N个频点与采样后的第三频域数据进行数学运算处理,由于数字化处理后的第三频域数据的采样间隔小于采样后的第一频域数据的采样间隔,这样数学运算处理后,则会将采样后的第三频域数据中的N个频点往低频方向移动,从而使共振峰往低频方向偏移,即可以将第一频域数据的共振峰拉回到正常的位置,其中,该正常的位置为在第一参考空气密度下采集到的音频数据的共振峰所在的位置,这样就将第一音频数据变换到相当于在第一参考空气密度下采集到的音频数据,从而把环境因素统一到同一个环境下,提高后续音频识别的精确度。
在本申请的一个实施方式中,可以先按照频点的频率从小到大的顺序,对数字化处理后的频域数据B与频域数据C进行数学运算处理,得到第四频域数据;然后,再该第四频域数据进行能量整形,得到该第二频域数据,其中,该第二频域数据对应的能量和与该第一频域数据对应的能量和相同。
示例性的,根据第一频域数据确定第一频域数据的能量和,即各个频点的振幅的平方和;根据第四频域数据确定第四频域数据的能量和;确定该第一频域数据的能量和该第四频域数据的能量和之间的比值;然后,将该第四频域数据中各个频点的振幅乘以该比值的算术平方根,得到该第二频域数据。
可以看出,上述数学运算处理只截取了部分频点,这样就可能造成数学运算处理得到的频域数据的能量和与第一频域数据的能量和不相同,因此,通过能量整形使第二频域数据和第一频域数据的能量和相同,从而在将第一频域数据变换到第一参考空气密度的情况下,尽可能的保留第一音频数据的音频特征,进一步的提高后续音频识别的精确度。
在本申请的另一个实施方式中,在得到第二音频数据后,可对该第二音频数据进行音频识别,得到该第一音频数据对应的音频识别结果。示例性的,可将该第二音频数据输入到完成训练的第一音频识别模型,得到该音频识别结果。其中,该第一音频识别模型是通过在第一参考空气密度下采集到的音频数据样本进行训练得到的,并且对音频数据进行音频识别的方法后面再叙述,在此不做过多描述。其中,对该第一音频识别模型进行训练可以通过采集到的音频数据样本进行有监督训练得到,不再叙述。
应理解的是,本申请实施例的音频特征补偿方法可以由如图4所示的执行设备110执行,该第一音频数据可以是如图4所示的客户设备140给出的输入数据,执行设备110中的预处理模块113可以用来执行述的音频特征补偿方法,执行设备110中的计算模块111可以用于执行后续的音频识别方法。
可选的,上述的音频特征补偿方法可以由CPU处理,也可以由CPU和GPU共同处理,也可以不用GPU,而使用其他适合用于神经网络计算的处理器,本申请不做限制。
参阅图17,图17为本申请实施例提供的一种音频识别模型训练方法的流程示意图。本实施例中与图6所示的实施例中的重复内容在此不再重复。该方法包括以下步骤:
1701:获取多个原始音频数据样本。
示例性的,该多个原始音频数据样本为多个说话人的音频数据,其中,该多个原始音频数据样本与该多个说话人一一对应,也可以不一一对应,比如,一个说话人可以对应两个原始音频数据样本,本申请中以该多个原始音频数据样本与该多个说话人一一对应为例进行说明,该多个说话人的身份可以理解为该多个原始音频数据样本的标签;该多个原始音频数据样本可以是在同一个环境下采集得到的,也可以是在多个环境下采集得到的,本申请中以该多个原始音频数据样本是在同一个环境下采集得到的为例进行说明。
1702:根据第二空气密度和多个第二参考空气密度,分别对多个原始音频数据样本中的每个原始音频数据样本进行特征补偿,得到与每个原始音频数据样本对应的多个扩充音频数据样本。
其中,该第二空气密度为采集该多个原始音频数据样本中的每个原始音频数据样本时所处环境下的空气密度,即该第二空气密度与采集原始音频数据样本所处的时刻与地点相关。与图6中示出的音频特征补偿方法类似,本实施例中可以将多个第二参考空气密度作为标准密度,将在第二空气密度下采集到每个说话人的原始音频数据样本分别补偿到该多个第二参考空气密度下,得到每个说话人在该多个第二参考空气密度下的音频数据样本,即得到多个扩充音频数据样本。
示例性的,对每个原始音频数据样本进行频域变换,得到与每个原始音频数据样本对应的第五频域数据;针对每个原始音频数据样本,根据该多个第二参考空气密度中的每个第二参考空气密度以及该第二空气密度,对该第五音频数据进行特征补偿,得到与每个第二参考空气密度对应的第六频域数据,这样在对该多个第二参考空气密度进行特征补偿之后,可得到与每个原始音频数据样本对应的多个第六频域数据,也就是根据在第二空气密度下每个原始音频数据样本,扩充出该原始音频数据样本在多个第二参考空气密度下的多个第六频域数据,其中,每个第二参考空气密度对应一个第六频域数据;然后,分别对每个原始音频数据样本对应的多个第六频域数据中的每个第六频域数据进行频域反变换,得到与每个原始音频数据样本对应的多个扩充音频数据样本。其中,此处的频域变换和频域反变换与上述音频特征补偿方法中的频域变换和频域反变换类似,不再叙述。
具体的,在第二空气密度大于第二参考空气密度A的情况下,根据该第二空气密度和第二参考空气密度A,对该第五频域数据进行第二采样操作,得到采样后的第五频域数据,并对该第五频域数据以及该采样后的第五频域数据进行第二频域整形操作,得到与该第二参考空气密度A对应的第六频域数据;或者,在该第二空气密度小于该第二参考空气密度A的情况下,根据该第二空气密度和第二参考空气密度A,对第五频域数据向高频方向扩频,得到第七频域数据,其中,对第五数据向高频方向扩频可以参见上述对第一频域数据进行高频方向扩频的过程,不再叙述;然后,根据该第二空气密度和该第二参考空气密度A对该第七频域数据进行该第二采样操作,得到采样后的第七频域数据,并对该第七频域 数据和该采样后的第七频域数据进行第二频域整形操作,得到与第二参考空气密度A对应的第六频域数据。其中,该第二参考空气密度A为该多个第二参考空气密度中的任意一个第二参考空气密度。
应理解的是,与第一采样操作类似,即将第二空气密度可以看做第一重采操作中的第一空气密度,第二参考空气密度A可以看做第一采样操作中的第一参考空气密度,该第二采样操作主要包括以下内容:
示例性的,根据第二声速以及第二参考声速A,对频域数据D进行采样,得到采样后的频域数据D,其中,该第二声速是根据该第二空气密度确定的,该第二参考声速A是根据第二参考空气密度A确定的,对频域数据D的采样过程可以参见上述第一采样操作中对频域数据A进行采样的过程。因此,该采样后的频域数据D的频点数量与频域数据D的频点数量之间的比值,为第二声速与第二参考声速A之间的比值。并且,在该频域数据D为第五频域数据的情况下,则该采样后的频域数据D为采样后的第五频域数据,在该频域数据D为该第七频域数据的情况下,则该采样后的频域数据D为采样后的第七频域数据。
应理解的是,与第一频域整形操作类似,可以将第二空气密度可以看做第一频域整形操作中的第一空气密度,第二参考空气密度A可以看做第一频域整形操作中的第一参考空气密度,则该第二频域整形操作主要包括以下内容:
进一步地,对频域数据E进行数字化处理,得到数字化处理后的频域数据E。示例性的,若频点B在频域数据E中对应的取值不为0,则频点B在数字化处理后的频域数据E中对应的取值为1,若频点B在频域数据E中对应的取值为0,则频点B在数字化处理后的频域数据E中对应的取值为0,频点B为频域数据E中的任意一个频点;按照频点的频率从小到大的顺序,对数字化处理后的频域数据E与频域数据F进行数学运算处理,得到与第二参考空气密度A对应的第六频域数据,同样,数字化处理后的频域数据E与频域数据F的数学运算处理,与上述第一频域整形操作中对该数字化处理后的频域数据B与频域数据C进行数学运算处理的过程,不再叙述。因此,在频域数据E为第五频域数据的情况下,频域数据F为采样后的第五频域数据,且与第二参考空气密度A对应的第六频域数据的频点数量与第五频域数据的频点数量相同,与所述第二参考空气密度A对应的第六频域数据中相邻频点之间的频率间隔与所述第五频域数据中相邻频点之间的频率间隔相同;在频域数据为第七频域数据的情况下,频域数据F为采样的第七频域数据,且与第二参考空气密度A对应的第六频域数据的频点数量与采样后的第七频域数据的频点数量相同,与所述第二参考空气密度A对应的第六频域数据中相邻频点之间的频率间隔与所述第七频域数据中相邻频点之间的频率间隔相同。
同样,在按照频点的频率从小到大的顺序,对数字化处理后的频域数据E与频域数据F进行数学运算处理之后,还可以进行能量整形。示例性的,对数字化处理后的频域数据E与频域数据F进行数学运算处理,得到第八频域数据;对第八频域数据进行能量整形,得到与第二参考空气密度A对应的第六频域数据,其中,第六频域数据对应的能量和与第五频域数据对应的能量和相同。其中,对第八频域数据进行能量整形可以参见上述对第四频域数据进行能量整形的过程,不再叙述。
1703:根据每个原始音频数据样本对应的多个扩充音频数据样本以及多个原始音频数 据样本,构造训练样本集。
示例性的,将每个原始音频数据样本对应的多个扩充音频数据样本与该多个原始音频数据样本进行组合,得到该训练样本集。
应理解,若在实际应用只需要构造丰富的训练样本集的情况下,也就是得到每个说话人在各个空气密度下的音频数据样本的情况下,则不需要再执行步骤1704中的内容。
1704:根据训练样本集,确定完成训练的第二音频识别模型。
示例性的,使用该训练样本集进行模型训练,得到完成训练的第二音频识别模型,即使用该训练样本集中的扩充音频数据样本和原始音频数据样本进行有监督的模型训练,得到完成训练的第二音频识别模型。
上述的原始音频数据样本和扩充音频数据样本可以是如图4所示的数据库130中维护的训练数据,可选的,上述的第二音频模型的训练可以在训练设备120中执行,也可以在训练设备120之前由其他功能模块预先执行。
可选的,上述的音频识别模型训练方法可以由CPU处理,也可以由CPU和GPU共同处理,也可以不用GPU,而使用其他适合用于神经网络计算的处理器,本申请不做限制。
可以看出,在本申请实施例中,首先对每个说话人的原始音频数据样本进行扩充,得到在多个第二参考空气密度下的多个扩充音频数据样本,这样每个说话都有在各个环境下的音频数据样本。因此,使用这样丰富的音频数据样本进行模型训练,使训练得到的第二音频识别模型可以记住每个用户在各个空气密度下的音频特征,鲁棒性较高,这样无论用户后续处于什么环境下,通过该第二音频识别模型都可以准确的识别出用户的身份信息,不会受环境因素的干扰,提高了音频识别的精确度。
参阅图18,图18为本申请实施例提供的一种音频识别方法的流程示意图。本实施例中与图6以及图17所示的实施例中的重复内容,在此不再叙述。该方法包括但不限于以下步骤:
1801:获取第一音频数据。
1802:将第一音频数据输入到完成训练的第二音频识别模型进行音频识别,得到与第一音频数据对应的音频识别结果,其中,第二音频识别模型是根据训练样本集确定的,训练样本集包括多个原始音频数据样本和多个扩充音频数据样本,多个扩充音频数据样本是根据第二空气密度和多个第二参考空气密度,分别对多个原始音频数据样本中的每个原始音频数据样本进行特征补偿得到的,第二空气密度为采集每个原始音频数据样本时所处环境下的空气密度。
可以看出,在本申请实施例中,使用鲁棒性较高的第二音频识别模型进行音频识别,则可以直接对采集到的第一音频数据进行识别,无需进行音频特征补偿,也可实现不受环境因素干扰,提高音频识别的精度。
下面结合图19介绍一下本申请实施例提供的另一种音频识别方法。该音频识别方法主要包括以下步骤:
步骤1):对获取到的语音信号进行预加重,在本申请中该语音信号为图6所对应的实施例中的第二音频数据或者图18所对应的实施例中的第一音频数据。其中,预加重的目的是消除发音时口鼻辐射带来的影响,通过高通滤波器,使语音高频部分得到提升;
步骤2):对预加重后的语音信号进行分帧加窗。由于语音信号短时平稳,通过分帧加窗将语音信号分为一个一个的短时段,每个短时段被称为一个音频帧。同时为了避免语音信号动态信息的丢失,相邻帧之间要有一段重叠区域;
步骤3):对每个音频帧进行快速傅里叶变换(FFT),即将将分帧加窗后的时域信号通过FFT变换到频域,得到每个音频帧的频谱特征X(k);
步骤4):通过梅尔滤波器组对每个音频帧的频谱特征X(k)进行滤波,以便得到每个音频帧的能量;
步骤5):获取每个音频帧的能量,并将其变换到对数域,得到该语音信号的梅尔频率对数能量谱S(m);
步骤6):将S(m)进行离散余弦变换(DCT)得到梅尔频率倒谱系数MFCC;
步骤7):将该MFCC作为该语音信号的音频特征,并基于该MFCC进行音频识别。
参阅图20,图20为本申请实施例提供的一种音频特征补偿装置的结构示意图。如图20所示,音频特征补偿装置2000包括获取单元2001和处理单元2002;
获取单元2001,用于获取第一音频数据;
处理单元2002,用于根据第一空气密度和第一参考空气密度,对第一音频数据进行特征补偿,得到第二音频数据,第一空气密度为采集第一音频数据时所处环境下的空气密度。
关于上述获取单元2001和处理单元2202更详细的描述,可参考上述方法实施例中的相关描述,在此不再说明。
参阅图21,图21为本申请实施例提供的一种音频识别装置的结构示意图。如图21所示,音频识别装置2100包括获取单元2101和处理单元2102;
获取单元2101,用于获取第一音频数据;
处理单元2102,用于将第一音频数据输入到完成训练的第二音频识别模型进行音频识别,得到与第一音频数据对应的音频识别结果,其中,第二音频识别模型是通过训练样本集进行训练得到的,训练样本集包括多个原始音频数据样本和多个扩充音频数据样本,多个扩充音频数据样本是根据第二空气密度和多个第二参考空气密度,分别对多个原始音频数据样本中的每个原始音频数据样本进行特征补偿得到的,第二空气密度为采集每个原始音频数据样本时所处环境下的空气密度。
关于上述获取单元2101和处理单元2102更详细的描述,可参考上述方法实施例中的相关描述,在此不再说明。
图22是本申请实施例提供的一种电子装置的硬件结构示意图。图22所示的电子装置2200(该电子装置2200具体可以是一种计算机设备)包括存储器2201、处理器2202、通信接口2203以及总线2204。其中,存储器2201、处理器2202、通信接口2203通过总线2204实现彼此之间的通信连接。
存储器2201可以是只读存储器(Read Only Memory,ROM),静态存储设备,动态存储设备或者随机存取存储器(Random Access Memory,RAM)。存储器2201可以存储程序,当存储器2201中存储的程序被处理器2202执行时,处理器2202和通信接口2203用于执行本申请实施例的音频特征补偿方法或音频识别模型训练方法或音频识别方法中的各个步骤。
处理器2202可以采用通用的中央处理器(Central Processing Unit,CPU),微处理器,应用专用集成电路(Application Specific Integrated Circuit,ASIC),图形处理器(graphics processing unit,GPU)或者一个或多个集成电路,用于执行相关程序,以实现本申请实施例的音频特征补偿装置或音频识别装置中的单元所需执行的功能,或者执行本申请方法实施例的音频特征补偿方法或音频识别模型训练方法或音频识别方法。
处理器2202还可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,本申请的音频特征补偿方法或音频识别模型训练方法或音频识别方法中的各个步骤可以通过处理器2202中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器2202还可以是通用处理器、数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器2201,处理器2202读取存储器2201中的信息,结合其硬件完成本申请实施例的音频特征补偿装置或音频识别装置中包括的单元所需执行的功能,或者执行本申请方法实施例的音频特征补偿方法或音频识别模型训练方法或音频识别方法中的各个步骤。
通信接口2203使用例如但不限于收发器一类的收发装置,来实现电子装置2200与其他设备或通信网络之间的通信。例如,可以通过通信接口2203获取第一音频数据。
总线2204可包括在装置电子装置2200各个部件(例如,存储器2201、处理器2202、通信接口2203)之间传送信息的通路。
应理解,音频特征补偿装置2000中的获取单元2001或者音频识别装置2100中的获取单元2101相当于电子装置2200中的通信接口2203,音频特征补偿装置2000中的处理单元2002或者音频识别装置2100中的处理单元2102可以相当于处理器2202。
应注意,尽管图22所示电子装置2200仅仅示出了存储器、处理器、通信接口,但是在具体实现过程中,本领域的技术人员应当理解,电子装置2200还包括实现正常运行所必须的其他器件。同时,根据具体需要,本领域的技术人员应当理解,电子装置2200还可包括实现其他附加功能的硬件器件。此外,本领域的技术人员应当理解,电子装置2200也可仅仅包括实现本申请实施例所必须的器件,而不必包括图22中所示的全部器件。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件 可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (23)
- 一种音频特征补偿方法,其特征在于,包括:获取第一音频数据;根据第一空气密度和第一参考空气密度,对所述第一音频数据进行特征补偿,得到第二音频数据,所述第一空气密度为采集所述第一音频数据时所处环境下的空气密度。
- 根据权利要求1所述的方法,其特征在于,所述根据第一空气密度和第一参考空气密度,对所述第一音频数据进行补偿,得到第二音频数据,包括:对所述第一音频数据进行频域变换,得到第一频域数据;根据所述第一空气密度和所述第一参考空气密度,对所述第一频域数据进行特征补偿,得到第二频域数据;对所述第二频域数据进行频域反变换,得到第二音频数据。
- 根据权利要求2所述的方法,其特征在于,所述根据所述第一空气密度和所述第一参考空气密度,对所述第一频域数据进行特征补偿,得到第二频域数据,包括:在所述第一空气密度大于所述第一参考空气密度的情况下,根据所述第一空气密度和所述第一参考空气密度,对所述第一频域数据进行第一采样操作,得到采样后的第一频域数据;对所述第一频域数据以及所述采样后的第一频域数据进行第一频域整形操作,得到所述第二频域数据,其中,所述第二频域数据的频点数量与所述第一频域数据的频点数量相同,所述第二频域数据中相邻频点之间的频率间隔与所述第一频域数据中相邻频点之间的频率间隔相同。
- 根据权利要求2或3所述的方法,其特征在于,所述根据所述第一空气密度和所述第一参考空气密度,对所述第一频域数据进行特征补偿,得到第二频域数据,包括:在所述第一空气密度小于所述第一参考空气密度的情况下,根据所述第一空气密度和所述第一参考空气密度,对所述第一频域数据向高频方向扩频,得到第三频域数据;根据所述第一空气密度和所述第一参考空气密度,对所述第三频域数据进行所述第一采样操作,得到采样后的第三频域数据;对所述第三频域数据以及所述采样后的第三频域数据进行所述第一频域整形操作,得到所述第二频域数据,其中,所述第二频域数据的频点数量与所述采样后的第三频域数据的频点数量相同,所述第二频域数据中相邻频点之间的频率间隔与所述第三频域数据中相邻频点之间的频率间隔相同。
- 根据权利要求4所述的方法,其特征在于,所述根据所述第一空气密度和所述第一参考空气密度,对所述第一频域数据向高频方向扩频,得到第三频域数据,包括:根据第一声速以及第一参考声速,对所述第一频域数据向高频方向扩频,得到第三频域数据,其中,所述第三频域数据的频点数量与所述第一频域数据的频点数量之间的比值,为所述第一声速与所述第一参考声速之间的比值,所述第一声速是根据所述第一空气密度确定的,所述第一参考声速是根据所述第一参考空气密度确定的。
- 根据权利要求3-5任一项所述的方法,其特征在于,所述第一采样操作,包括:根据第一声速以及第一参考声速,对频域数据A进行采样,得到采样后的频域数据A;其中,所述第一声速是根据所述第一空气密度确定的,所述第一参考声速是根据所述第一参考空气密度确定的;其中,所述采样后的频域数据A的频点数量与所述频域数据A的频点数量之间的比值为所述第一参考声速与所述第一声速之间的比值;在所述频域数据A为所述第一频域数据的情况下,所述采样后的频域数据A为所述采样后的第一频域数据,在所述频域数据A为所述第三频域数据的情况下,所述采样后的频域数据A为所述采样后的第三频域数据。
- 根据权利要求3-6任一项所述的方法,其特征在于,所述第一频域整形操作,包括:对频域数据B进行数字化处理,得到数字化处理后的频域数据B,其中,若频点B在频域数据B中对应的取值不为0,则所述频点A在所述数字化处理后的频域数据B中对应的取值为1,若所述频点B在所述频域数据B中对应的取值为0,则所述频点A在所述数字化处理后的频域数据B中对应的取值为0,所述频点A为所述频域数据B中的任意一个频点;按照频点的频率从小到大的顺序,对所述数字化处理后的频域数据B与频域数据C进行数学运算处理,得到所述第二频域数据;在所述频域数据B为所述第一频域数据的情况下,则所述频域数据C为所述采样后的第一频域数据;在所述频域数据B为所述第三频域数据的情况下,则所述频域数据C为所述采样后的第三频域数据。
- 根据权利要求7所述的方法,其特征在于,所述按照频点的频率从小到大的顺序,对所述数字化处理后的频域数据B与频域数据C进行数学运算处理,得到所述第二频域数据,包括:按照频点的频率从小到大的顺序,对所述数字化处理后的频域数据B与频域数据C进行数学运算处理,得到第四频域数据;对所述第四频域数据进行能量整形,得到所述第二频域数据,其中,所述第二频域数据对应的能量和与所述第一频域数据对应的能量和相同。
- 根据权利要求1-8任一项所述的方法,其特征在于,所述方法还包括:对所述第二音频数据进行音频识别,得到与所述第一音频数据对应的音频识别结果。
- 根据权利要求9所述的方法,其特征在于,所述对所述第二音频数据进行音频识别,得到与所述第一音频数据对应的音频识别结果,包括:将所述第二音频数据输入到完成训练的第一音频识别模型进行音频识别,得到与所述第一音频数据对应的音频识别结果,其中,所述第一参考空气密度为采集训练样本中的音频数据样本时的空气密度,所述训练样本用于对所述第一音频识别模型进行训练。
- 一种音频识别方法,其特征在于,包括:获取第一音频数据;将所述第一音频数据输入到完成训练的第二音频识别模型进行音频识别,得到与所述第一音频数据对应的音频识别结果,其中,所述第二音频识别模型是根据训练样本集确定的,所述训练样本集包括多个原始音频数据样本和多个扩充音频数据样本,所述多个扩充音频数据样本是根据第二空气密度和多个第二参考空气密度,分别对所述多个原始音频数 据样本中的每个原始音频数据样本进行特征补偿得到的,所述第二空气密度为采集所述每个原始音频数据样本时所处环境下的空气密度。
- 根据权利要求11所述的方法,其特征在于,在获取第一音频数据之前,所述方法还包括:获取所述多个原始音频数据样本;根据所述第二空气密度和所述多个第二参考空气密度,分别对所述多个原始音频数据样本中的每个原始音频数据样本进行特征补偿,得到与所述每个原始音频数据样本对应的多个扩充音频数据样本;根据所述每个原始音频数据样本对应的多个扩充音频数据样本以及所述多个原始音频数据样本,构造所述训练样本集;根据所述训练样本集,确定所述完成训练的第二音频识别模型。
- 根据权利要求12所述的方法,其特征在于,所述根据所述第二空气密度和所述多个第二参考空气密度,分别对所述多个原始音频数据样本中的每个原始音频数据样本进行特征补偿,得到与所述每个原始音频数据样本对应的多个扩充音频数据样本,包括:对所述每个原始音频数据样本进行频域变换,得到与所述每个原始音频数据对应的第五频域数据;针对所述每个原始音频数据样本,根据所述多个第二参考空气密度中的每个第二参考空气密度以及所述第二空气密度,对所述第五音频数据进行特征补偿,得到与所述每个第二参考空气密度对应的第六频域数据,并根据与所述每个第二参考空气密度对应的第六频域数据,得到与所述每个原始音频数据样本对应的多个第六频域数据,其中,所述多个第六频域数据与所述多个第二参考空气密度一一对应;分别对所述每个原始音频数据样本对应的多个第六频域数据中的每个第六频域数据进行频域反变换,得到与所述每个原始音频数据样本对应的多个扩充音频数据样本。
- 根据权利要求13所述的方法,其特征在于,所述根据所述多个第二参考空气密度中的每个第二参考空气密度以及所述第二空气密度,对所述第五音频数据进行特征补偿,得到与所述每个第二参考空气密度对应的第六频域数据,包括:在所述第二空气密度大于第二参考空气密度A的情况下,根据所述第二空气密度和所述第二参考空气密度A,对所述第五频域数据进行第二采样操作,得到采样后的第五频域数据;对所述第五频域数据以及所述采样后的第五频域数据进行第二频域整形操作,得到与所述第二参考空气密度A对应的第六频域数据,其中,与所述第二参考空气密度A对应的第六频域数据的频点数量与所述第五频域数据的频点数量相同,与所述第二参考空气密度A对应的第六频域数据中相邻频点之间的频率间隔与所述第五频域数据中相邻频点之间的频率间隔相同;其中,所述第二参考空气密度A为所述多个第二参考空气密度中的任意一个。
- 根据权利要求13或14所述的方法,其特征在于,所述根据所述多个第二参考空气密度中的每个第二参考空气密度以及所述第二空气密度,对所述第五音频数据进行特征补偿,得到与所述每个第二参考空气密度对应的第六频域数据,包括:在所述第二空气密度小于所述第二参考空气密度A的情况下,根据所述第二空气密度和所述第二参考空气密度A,对所述第五频域数据向高频方向扩频,得到第七频域数据;根据所述第二空气密度和所述第二参考空气密度A,对所述第七频域数据进行所述第二采样操作,得到采样后的第七频域数据;对所述第七频域数据以及所述采样后的第七频域数据进行所述第二频域整形操作,得到与所述第二参考空气密度A对应的第六频域数据,其中,与所述第二参考空气密度A对应的第六频域数据的频点数量与所述采样后的第七频域数据的频点数量相同,与所述第二参考空气密度A对应的第六频域数据中相邻频点之间的频率间隔与所述第七频域数据中相邻频点之间的频率间隔相同;其中,所述第二参考空气密度A为所述多个第二参考空气密度中的任意一个。
- 根据权利要求15所述的方法,其特征在于,所述根据所述第二空气密度和所述第二参考空气密度A,对所述第五频域数据向高频方向扩频,得到第七频域数据,包括:根据第二声速以及第二参考声速A,对所述第五频域数据向高频方向扩频,得到第七频域数据,其中,所述七频域数据的频点数量与所述第五频域数据的频点数量之间的比值,为所述第二参考声速A与所述第二声速之间的比值,其中,所述第二声速是根据所述第二空气密度确定的,所述第二参考声速A是根据所述第二参考空气密度A确定的。
- 根据权利要求14-16任一项所述的方法,其特征在于,所述第二采样操作,包括:根据第二声速以及第二参考声速A,对频域数据D进行采样,得到采样后的频域数据D;其中,所述第二声速是根据所述第二空气密度确定的,所述第二参考声速A是根据所述第二参考空气密度A确定的;其中,所述采样后的频域数据D的频点数量与所述频域数据D的频点数量之间的比值,为所述第二声速与所述第二参考声速A之间的比值;在所述频域数据D为所述第五频域数据的情况下,所述采样后的频域数据D为所述采样后的第五频域数据,在所述频域数据D为所述第七频域数据的情况下,所述采样后的频域数据D为所述采样后的第七频域数据。
- 根据权利要求14-17任一项所述的方法,其特征在于,所述第二频域整形操作,包括:对频域数据E进行数字化处理,得到数字化处理后的频域数据E,其中,若频点B在频域数据E中对应的取值不为0,则所述频点B在所述数字化处理后的频域数据E中对应的取值为1,若所述频点B在所述频域数据E中对应的取值为0,则所述频点B在所述数字化处理后的频域数据E中对应的取值为0,所述频点B为所述频域数据E中的任意一个频点;按照频点的频率从小到大的顺序,对所述数字化处理后的频域数据E与频域数据F进行数学运算处理,得到与所述第二参考空气密度A对应的第六频域数据;其中,在所述频域数据E为所述第五频域数据的情况下,所述频域数据F为所述采样后的第五频域数据;在所述频域数据E为所述第七频域数据的情况下,所述频域数据F为所述采样的第七频域数据。
- 根据权利要求18所述的方法,其特征在于,所述按照频点的频率从小到大的顺序, 对所述数字化处理后的频域数据E与频域数据F进行数学运算处理,得到与所述第二参考空气密度A对应的第六频域数据,包括:按照频点的频率从小到大的顺序,对数字化处理后的频域数据E与频域数据F进行数学运算处理,得到第八频域数据;对所述第八频域数据进行能量整形,得到与所述第二参考空气密度A对应的第六频域数据,其中,所述第六频域数据对应的能量和与所述第五频域数据对应的能量和相同。
- 一种音频特征补偿装置,其特征在于,包括用于执行权利要求1-10任一项所述的方法的模块。
- 一种音频识别装置,其特征在于,包括用于执行权利要求11-19任一项所述的方法的模块。
- 一种电子装置,其特征在于,包括:存储器,用于存储程序;处理器,用于执行存储器存储的程序,当存储器存储的程序被执行时,处理器用于执行权利要求1-19任一项所述的方法。
- 一种计算机可读介质,其特征在于,所述计算机可读介质存储用于设备执行的程序代码,所述程序代码包括用于执行权利要求1-19任一项所述的方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2021/084787 WO2022205249A1 (zh) | 2021-03-31 | 2021-03-31 | 音频特征补偿方法、音频识别方法及相关产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116982111A true CN116982111A (zh) | 2023-10-31 |
Family
ID=83457763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180095675.7A Pending CN116982111A (zh) | 2021-03-31 | 2021-03-31 | 音频特征补偿方法、音频识别方法及相关产品 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN116982111A (zh) |
WO (1) | WO2022205249A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117238299B (zh) * | 2023-11-14 | 2024-01-30 | 国网山东省电力公司电力科学研究院 | 输电线路鸟类声音识别模型优化方法、***、介质及设备 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100694879B1 (ko) * | 2006-11-23 | 2007-03-14 | 부산대학교 산학협력단 | 아이겐 환경 및 바이어스 벡터 동시 가중치 추정을 통한잡음 보상 방법 |
CN107527624B (zh) * | 2017-07-17 | 2021-03-09 | 北京捷通华声科技股份有限公司 | 一种声纹识别方法及装置 |
CN109302660B (zh) * | 2017-07-24 | 2020-04-14 | 华为技术有限公司 | 音频信号的补偿方法、装置及*** |
CN108257606A (zh) * | 2018-01-15 | 2018-07-06 | 江南大学 | 一种基于自适应并行模型组合的鲁棒语音身份识别方法 |
CN111261183B (zh) * | 2018-12-03 | 2022-11-22 | 珠海格力电器股份有限公司 | 一种语音去噪的方法及装置 |
CN111489763B (zh) * | 2020-04-13 | 2023-06-20 | 武汉大学 | 一种基于gmm模型的复杂环境下说话人识别自适应方法 |
-
2021
- 2021-03-31 CN CN202180095675.7A patent/CN116982111A/zh active Pending
- 2021-03-31 WO PCT/CN2021/084787 patent/WO2022205249A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2022205249A1 (zh) | 2022-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、***及装置 | |
WO2021208287A1 (zh) | 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质 | |
KR102235568B1 (ko) | 합성곱 신경망 기반 환경음 인식 방법 및 시스템 | |
TW201935464A (zh) | 基於記憶性瓶頸特徵的聲紋識別的方法及裝置 | |
US20210193149A1 (en) | Method, apparatus and device for voiceprint recognition, and medium | |
CN109817222B (zh) | 一种年龄识别方法、装置及终端设备 | |
WO2022141868A1 (zh) | 一种提取语音特征的方法、装置、终端及存储介质 | |
CN112289338B (zh) | 信号处理方法及装置、计算机设备以及可读存储介质 | |
CN110738980A (zh) | 歌声合成模型的训练方法、***及歌声合成方法 | |
CN112037800A (zh) | 声纹核身模型训练方法、装置、介质及电子设备 | |
CN114141237A (zh) | 语音识别方法、装置、计算机设备和存储介质 | |
CN112185342A (zh) | 语音转换与模型训练方法、装置和***及存储介质 | |
CN112837670B (zh) | 语音合成方法、装置及电子设备 | |
Zhao et al. | A survey on automatic emotion recognition using audio big data and deep learning architectures | |
CN117542373A (zh) | 一种非空气传导语音的恢复***及方法 | |
CN116982111A (zh) | 音频特征补偿方法、音频识别方法及相关产品 | |
CN112397090B (zh) | 一种基于fpga的实时声音分类方法及*** | |
CN116913258B (zh) | 语音信号识别方法、装置、电子设备和计算机可读介质 | |
KR102220964B1 (ko) | 오디오 인식을 위한 방법 및 디바이스 | |
CN111354374A (zh) | 语音处理方法、模型训练方法及电子设备 | |
CN114913859B (zh) | 声纹识别方法、装置、电子设备和存储介质 | |
CN113488069B (zh) | 基于生成式对抗网络的语音高维特征快速提取方法和装置 | |
CN114627889A (zh) | 多声源声音信号处理方法及装置、存储介质和电子设备 | |
CN114783455A (zh) | 用于语音降噪的方法、装置、电子设备和计算机可读介质 | |
Zheng et al. | Bandwidth extension WaveNet for bone-conducted speech enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |