CN112750459B - 音频场景识别方法、装置、设备及计算机可读存储介质 - Google Patents
音频场景识别方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112750459B CN112750459B CN202010794916.4A CN202010794916A CN112750459B CN 112750459 B CN112750459 B CN 112750459B CN 202010794916 A CN202010794916 A CN 202010794916A CN 112750459 B CN112750459 B CN 112750459B
- Authority
- CN
- China
- Prior art keywords
- audio
- scene
- recognition
- fragment
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000005236 sound signal Effects 0.000 claims abstract description 185
- 239000012634 fragment Substances 0.000 claims abstract description 128
- 230000003068 static effect Effects 0.000 claims description 65
- 238000001228 spectrum Methods 0.000 claims description 63
- 238000012545 processing Methods 0.000 claims description 32
- 230000015654 memory Effects 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 13
- 238000009432 framing Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 238000012549 training Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 12
- 238000005070 sampling Methods 0.000 description 9
- 230000011218 segmentation Effects 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000037433 frameshift Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 206010039740 Screaming Diseases 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种音频场景识别方法、装置、设备及计算机可读存储介质;方法包括:对待识别的音频信号进行音频片段提取,得到第一音频片段和第二音频片段;其中,第一音频片段包含第二音频片段、且第一音频片段的时长大于第二音频片段的时长;获取第一音频片段的动态音频特征,及第二音频片段的动态音频特征;将第一音频片段的动态音频特征输入第一识别模型中,对所述音频信号进行音频场景识别,得到第一识别结果,并将第二音频片段的动态音频特征输入所述第一识别模型中,对所述音频信号进行音频场景识别,得到第二识别结果;结合所述第一识别结果和所述第二识别结果,确定所述音频信号对应的音频场景。通过本申请,能够提高音频场景识别精度。
Description
技术领域
本申请涉及计算机技术,尤其涉及一种音频场景识别方法、装置、设备及计算机可读存储介质。
背景技术
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及深度学习等几大方向。
音频场景识别是语音处理技术的重要应用之一,旨在识别一段连续的音频流所包含的音频场景,如说话声、音乐声、噪音等。在传统的音频场景识别***中,通常根据输入的音频文件,对提取的音频信号进行特征提取,并采用不同的分类模型对提取的特征进行识别,然而这种方式对录制设备和录制环境要求较高,仅适用于没有杂音的环境,对于嘈杂环境的音频场景识别准确率不高。
发明内容
本申请实施例提供一种音频场景识别方法、装置及计算机可读存储介质,能够提高音频场景识别的准确率。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种音频场景识别方法,包括:
对待识别的音频信号进行音频片段提取,得到第一音频片段和第二音频片段;
其中,所述第一音频片段包含所述第二音频片段、且所述第一音频片段的时长大于所述第二音频片段的时长;
获取所述第一音频片段的动态音频特征,及所述第二音频片段的动态音频特征;
将所述第一音频片段的动态音频特征输入第一识别模型中进行音频场景识别,得到对应的第一识别结果,并将所述第二音频片段的动态音频特征输入所述第一识别模型中进行音频场景识别,得到对应的第二识别结果;
结合所述第一识别结果和所述第二识别结果,确定所述音频信号对应的音频场景。
本申请实施例提供一种音频场景识别装置,包括:
片段提取模块,用于对待识别的音频信号进行音频片段提取,得到第一音频片段和第二音频片段;
其中,所述第一音频片段包含所述第二音频片段、且所述第一音频片段的时长大于所述第二音频片段的时长;
特征获取模块,用于获取所述第一音频片段的动态音频特征,及所述第二音频片段的动态音频特征;
场景识别模块,用于将所述第一音频片段的动态音频特征输入第一识别模型中进行音频场景识别,得到对应的第一识别结果,并将所述第二音频片段的动态音频特征输入所述第一识别模型中进行音频场景识别,得到对应的第二识别结果;
场景确定模块,用于结合所述第一识别结果和所述第二识别结果,确定所述音频信号对应的音频场景。
上述方案中,所述片段提取模块,还用于通过第一窗口对所述音频信号进行音频片段提取,得到第一音频片段;
通过第二窗口对所述音频信号进行音频片段提取,得到第二音频片段;
其中,所述第一窗口对应的时域包含所述第二窗口对应的时域、且所述第一窗口的窗口大小大于所述第二窗口的窗口大小。
上述方案中,所述特征获取模块,还用于分别对所述第一音频片段和第二音频片段执行以下操作:
获取音频片段的静态音频特征;
对所述静态音频特征进行一阶差分处理,得到对应的一阶差分特征;
对所述静态音频特征进行二阶差分处理,得到对应的二阶差分特征;
将所述静态音频特征、所述一阶差分特征及所述二阶差分特征进行拼接,得到所述音频片段的动态音频特征。
上述方案中,所述特征获取模块,还用于对所述音频片段进行快速傅里叶变换,得到对应的音频频谱;
对所述音频频谱进行求平方,得到对应的音频功率谱;
对所述音频功率谱进行梅尔滤波,得到对应的音频梅尔频谱;
对所述音频梅尔频谱进行取对数处理,得到对应的对数梅尔频谱特征,并将所述对数梅尔频谱特征确定为所述音频片段的静态音频特征。
上述方案中,所述特征获取模块,还用于对所述音频片段进行分帧处理,得到对应的至少两个音频帧;
对所述至少两个音频帧进行加窗处理,得到对应的加窗音频信号;
对所述加窗音频信号进行快速傅里叶变换,得到对应的音频频谱。
上述方案中,所述装置还包括第一识别模型训练模块,所述第一识别模型训练模块,用于在将所述第一音频片段的动态音频特征输入第一识别模型中之前,
获取音频信号样本的动态音频特征,所述音频信号样本标注有对应的音频场景;
将所述音频信号样本的动态音频特征输入至第一识别模型中,对所述音频信号样本进行音频场景识别,得到识别结果;
获取所述识别结果与所述音频信号样本的标注之间的差异;
基于获取的所述差异,更新所述第一识别模型的模型参数。
上述方案中,所述第一识别模型训练模块,还用于当所述差异超过差异阈值时,基于所述差异确定所述第一识别模型的误差信号;
将所述误差信号在所述第一识别模型中反向传播,并在传播的过程中更新各个层的模型参数。
上述方案中,所述第一识别结果表征所述音频信号对应不同音频场景的第一预测概率,所述第二识别结果表征所述音频信号对应不同音频场景的第二预测概率;
所述场景确定模块,还用于分别获取对应同一音频场景下的所述第一预测概率与所述第二预测概率的均值;
取均值最大的音频场景作为所述音频信号对应的音频场景。
上述方案中,所述第一识别结果表征所述音频信号对应不同音频场景的第一预测概率,所述第二识别结果表征所述音频信号对应不同音频场景的第二预测概率,当所述第二音频片段的数量为至少两个时,
所述场景确定模块,还用于分别基于各所述第二音频片段的第二识别结果,确定与各所述第二音频片段相对应的同一音频场景下的所述第二预测概率值的第一均值;
获取对应同一音频场景下的所述第一预测概率与所述第一均值的第二均值;
取第二均值最大的音频场景作为所述音频信号对应的音频场景。
上述方案中,所述第一音频片段与所述第二音频片段组成音频片段对,当所述音频片段对的数量为至少两个时,
所述场景确定模块,还用于分别基于各所述音频片段对的第一识别结果和第二识别结果,确定与各所述音频片段对相对应的音频场景;
分别获取与确定的各所述音频场景对应的音频片段对的数量;
基于各所述音频场景对应的音频片段对的数量,确定所述音频信号对应的音频场景。
上述方案中,当确定所述音频信号对应的音频场景为目标音频场景时,所述装置还包括第二识别处理模块,所述第二识别处理模块,用于
获取所述第一音频片段的静态音频特征及所述第二音频片段的静态音频特征;
将所述第一音频片段的静态音频特征输入第二识别模型中进行音频场景识别,得到对应的第三识别结果,并将所述第二音频片段的静态音频特征输入第二识别模型中进行音频场景识别,得到对应的第四识别结果;
结合所述第三识别结果和所述第四识别结果,确定所述音频信号对应所述目标音频场景中的子音频场景。
上述方案中,所述装置还包括第二识别模型训练模块,所述第二识别模型训练模块,用于在将所述第一音频片段的静态音频特征输入第二识别模型中进行音频场景识别之前,
获取音频信号样本的静态音频特征,所述音频信号样本标注有对应的音频场景;
将所述音频信号样本的静态音频特征输入至第二识别模型中,对所述音频信号样本进行音频场景识别,得到识别结果;
获取所述识别结果与所述音频信号样本的标注之间的差异;
基于获取的所述差异,更新所述第二识别模型的模型参数。
本申请实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的音频场景识别方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的音频场景识别方法。
本申请实施例具有以下有益效果:
针对待识别的音频信号,从中提取不同时长的第一音频片段和第二音频片段,并分别获取基于各音频片段进行音频场景识别的识别结果,再结合各音频片段对应的识别结果,得到音频信号对应的音频场景,由于长时长的音频片段能够在更大程度上表征音频场景数据的整体特性,短时长的音频片段的计算复杂度低且延时低,因此采用短时长与长时长音频片段的分类结合的方式得到的识别结果鲁棒性强、识别效率高,准确度高。
附图说明
图1为本申请实施例提供的音频场景识别***的一个可选的架构示意图;
图2为本申请实施例提供的电子设备的一个可选的结构示意图;
图3为本申请实施例提供的音频场景识别方法的一个可选的流程示意图;
图4为本申请实施例提供的确定动态音频特征的方法的一个可选的流程示意图;
图5为本申请实施例提供的确定静态音频特征的方法的一个可选的流程示意图;
图6为本申请实施例提供的音频片段示意图;
图7为本申请实施例提供的音频片段示意图;
图8为本申请实施例提供的音频场景识别的数据流向示意图;
图9为本申请实施例提供的特征提取流程示意图;
图10为本申请实施例提供的分类器训练示意图;
图11为本申请实施例提供的音频场景识别装置的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二…”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二…”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
参见图1,图1为本申请实施例提供的音频场景识别***100的一个可选的架构示意图,为实现支撑一个示例性应用,终端400(示例性示出了终端400-1和终端400-2)通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线链路实现数据传输。
在实际应用中,终端400可以为智能手机、平板电脑、笔记本电脑等各种类型的用户终端,还可以为台式计算机、游戏机、电视机或者这些数据处理设备中任意两个或多个的组合;服务器200既可以为单独配置的支持各种业务的一个服务器,亦可以配置为一个服务器集群,还可以为云服务器等。在实际实施时,本申请实施例提供的音频场景识别方法可由服务器或终端单独实施,还可由服务器及终端协同实施。
在一些实施例中,终端400,用于对待识别的音频信号进行音频片段提取,得到第一音频片段和第二音频片段;获取第一音频片段的动态音频特征,及第二音频片段的动态音频特征;将第一音频片段的动态音频特征输入第一识别模型中进行音频场景识别,得到对应的第一识别结果,并将第二音频片段的动态音频特征输入第一识别模型中进行音频场景识别,得到对应的第二识别结果;结合第一识别结果和第二识别结果,确定音频信号对应的音频场景。
在另一些实施例中,终端400上安装有音频采集设备(如麦克风),通过音频采集设备采集待识别的音频信号,并将待识别的音频信号发送至服务器200,服务器200,用于对待识别的音频信号进行音频片段提取,得到第一音频片段和第二音频片段;获取第一音频片段的动态音频特征,及第二音频片段的动态音频特征;将第一音频片段的动态音频特征输入第一识别模型中进行音频场景识别,得到对应的第一识别结果,并将第二音频片段的动态音频特征输入第一识别模型中进行音频场景识别,得到对应的第二识别结果;结合第一识别结果和第二识别结果,确定并返回音频信号对应的音频场景至终端400,终端400基于音频信号对应的音频场景执行下一步处理,如提高噪音下的言语清晰度或提升音乐的欣赏能力等。
作为一个示例,本申请实施例提供的音频场景识别方法可应用于智能家居,当用户白天在公司上班,家里没人,使用音频场景识别方法可以检测到家中出现的异常,比如,通过采集音频信号,并识别出音频信号对应的音频场景,如门被暴力撞击、火警警报,这样就能够在第一时间了解家中发生的事情,及时采取应对措施。
作为另一个示例,本申请实施例提供的音频场景识别方法还可应用于无人驾驶,虽然大多无人驾驶技术均基于图像识别,并没有有效利用音频资源,但在一些场景中会有视频所不能及的地方,比如,在类似拐弯的视频盲区,摄像头无法给出同步画面信息,这种情况可利用音频场景识别方法,识别一些音频信号对应的音频场景,比如,对于识别出的一些需要紧急通行的汽车发出的音频信号的音频场景,需及时减速让行,又比如,对于识别出的突发事件(比如暴力、行人的尖叫等)的音频场景,需及时避让。
参见图2,图2为本申请实施例提供的电子设备500的一个可选的结构示意图,在实际应用中,电子设备500可以为图1中的终端400或服务器200,以电子设备为图1所示的终端400为例,对实施本申请实施例的音频场景识别方法的电子设备进行说明。图2所示的电子设备500包括:至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线***540耦合在一起。可理解,总线***540用于实现这些组件之间的连接通信。总线***540除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图3中将各种总线都标为总线***540。
处理器510可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器550可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。
存储器550包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。
在一些实施例中,存储器550能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作***551,包括用于处理各种基本***服务和执行硬件相关任务的***程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块552,用于经由一个或多个(有线或无线)网络接口520到达其他计算设备,示例性的网络接口520包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块553,用于经由一个或多个与用户接口530相关联的输出装置531(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作***设备和显示内容和信息的用户接口);
输入处理模块554,用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的音频场景识别装置可以采用软件方式实现,图2示出了存储在存储器550中的音频场景识别装置555,其可以是程序和插件等形式的软件,包括以下软件模块:片段提取模块5551、特征获取模块5552、场景识别模块5553和场景确定模块5554,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。
将在下文中说明各个模块的功能。
在另一些实施例中,本申请实施例提供的音频场景识别装置可以采用硬件方式实现,作为示例,本申请实施例提供的音频场景识别装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的音频场景识别方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
接下来对本申请实施例的提供的音频场景识别方法进行说明,在实际实施时,本申请实施例提供的音频场景识别方法可由服务器或终端单独实施,还可由服务器及终端协同实施。
参见图3,图3为本申请实施例提供的音频场景识别方法的一个可选的流程示意图,将结合图3示出的步骤进行说明。
步骤101:终端对待识别的音频信号进行音频片段提取,得到第一音频片段和第二音频片段。
在实际应用中,终端上安装有音频信号采集设备(如麦克风),通过音频信号采集设备采集得到待识别的音频信号,或者,待识别的音频信号是其他设备或服务器发送过来的信号。
在对待识别的音频信号进行特征提取之前,需对音频信号进行音频分段提取,得到第一音频片段和第二音频片段。在一些实施例中,终端可通过如下方式对音频信号进行音频片段提取,得到第一音频片段和第二音频片段:
通过第一窗口对音频信号进行音频片段提取,得到第一音频片段;通过第二窗口对音频信号进行音频片段提取,得到第二音频片段;其中,第一窗口对应的时域包含第二窗口对应的时域、且第一窗口的窗口大小大于第二窗口的窗口大小。
这里,第一窗口和第二窗口的大小可根据实际情况而定,例如,音视频实时通话是基于互联网实现的多人语音、视频的聊天功能,其对音视频的实时性要求较高,在此情况下,第二窗口对应的采样时长(即窗口大小)最小可为20毫秒,当第二窗口对应的采样时长设置为20毫秒时,通过第二窗口提取的第二音频片段为时长为20毫秒的音频片段,由于第一窗口对应的采样时长大于第二窗口对应的采样时长,因此可设第一窗口对应的采样时长为50毫秒,那么通过第一窗口提取的第一音频片段为时长为50毫秒的音频片段,由于第一窗口对应的时域包含第二窗口对应的时域,相应地,分段提取得到的第一音频片段包含第二音频片段、且第一音频片段的时长大于第二音频片段的时长。
又例如,对于听力障碍者佩戴的助听器所采集的待识别的音频信号,为了避免对助听器CPU的过渡消耗,其并不需要实时对音频信号的音频场景进行识别,在此情况下,第二窗口对应的采样时长最小可为5秒,当第二窗口对应的采样时长设置为5秒时,第一窗口的采样时长可设置为20秒,那么通过第二窗口提取的第二音频片段为时长为5秒的音频片段,通过第一窗口提取的第一音频片段为时长为20秒的音频片段。
步骤102:获取第一音频片段的动态音频特征,及第二音频片段的动态音频特征。
这里,音频片段的动态音频特征是由音频片段的静态音频特征、静态音频特征对应的一阶差分特征及二阶差分特征拼接得到的三个维度的音频特征。
在一些实施例中,参见图4,图4为本申请实施例提供的确定动态音频特征的方法的一个可选的流程示意图,图3示出的步骤102可通过分别对第一音频片段和第二音频片段,执行如图4所示的步骤201-204来实现:
步骤201:获取音频片段的静态音频特征。
这里,分别获取第一音频片段的静态音频特征,及第二音频片段的静态音频特征,静态音频特征为相应音频片段的对数梅尔频谱特征。
在一些实施例中,参见图5,图5为本申请实施例提供的确定静态音频特征的方法的一个可选的流程示意图,图4示出的步骤201可通过如图5所示的步骤2011-2014来实现:
步骤2011:对音频片段进行快速傅里叶变换,得到对应的音频频谱。
在一些实施例中,对于每个音频片段,终端可通过如下方式获取音频片段的音频频谱:
对音频片段进行分帧处理,得到对应的至少两个音频帧;对至少两个音频帧进行加窗处理,得到对应的加窗音频信号;对加窗音频信号进行快速傅里叶变换,得到对应的音频频谱。
为了能够得到精准度高的识别结果,在进行音频场景识别时,所需的音频信号应该为一个稳定的信号,但在实际应用中,待识别的音频信号整体上可能并不太稳定,导致分割得到的音频片段也可能不太稳定。虽然音频信号具有时变特性,但在一个短时间内(如在10-30毫秒范围内),其特性可认为是相对稳定的。因此,为了得到稳定的音频片段,需要对各音频片段进行分帧处理,将音频片段分割成多个音频帧,在实际实施时,可采用连续分段的方式或交叠分段的方式进行分帧,其中,交叠分段的方式可避免帧与帧之间平滑过渡,保持各音频帧间的连续性,相邻两帧之间的交叠部分称为帧移位,帧移位与帧长的比值一般取为0~1/2。例如,由于认为在10-30毫秒范围内的音频信号是稳定的,那么以不少于20毫秒为帧长,约1/2的时间作为帧移位帧对各音频片段进行分帧处理。
通过上述分帧之后,得到的音频片段中每一帧的开始和结束可能出现间断,若分割的音频帧越多,与原音频片段的音频信号的误差将越大,为了减少误差,使分帧后的音频片段的音频信号变得连续,且使每一帧音频信号均表现出周期函数的特性,通过可采用窗函数对分帧后的音频信号进行加窗处理,在实际实施时,常用的窗函数有矩形窗、汉明窗和汉宁窗,可根据不同的情况选择不同的窗函数。
通过上述加窗处理,得到对应的加窗音频信号,最后对加窗音频信号的每一音频帧进行快速傅里叶变换,得到对应的音频频谱。
步骤2012:对音频频谱进行求平方,得到对应的音频功率谱。
步骤2013:对音频功率谱进行梅尔滤波,得到对应的音频梅尔频谱。
步骤2014:对音频梅尔频谱进行取对数处理,得到对应的对数梅尔频谱特征,并将对数梅尔频谱特征确定为音频片段的静态音频特征。
这里,音频频谱用于表征音频片段的声谱图,而声谱图往往是很大一张图,为了得到合适大小的音频特征,往往将之通过梅尔滤波器变换成音频梅尔频谱,以实现模拟人耳听觉对音频信号的实际频率的敏感程度,这是由于人耳听到的声音高低和声音的实际频率(Hz)不呈线性关系,用梅尔频率(Mel)更符合人耳的听觉特性,即在1000Hz以下呈线性分布,1000Hz以上呈对数增长,Mel频率与Hz频率的关系如下所示:
其中,f表示实际频率,fMel表示梅尔频率。
步骤202:对静态音频特征进行一阶差分处理,得到对应的一阶差分特征。
步骤203:对静态音频特征进行二阶差分处理,得到对应的二阶差分特征。
步骤204:将静态音频特征、一阶差分特征及二阶差分特征进行拼接,得到音频片段的动态音频特征。
这里,在得到音频片段的对数梅尔频谱特征(即静态音频特征)之后,计算其一阶差分与二阶差分,得到对应的一阶特征和二阶特征,并将对数梅尔频谱特征(即静态音频特征)、一阶特征和二阶特征进行拼接,最终得到的特征为三维的动态音频特征。
步骤103:将第一音频片段的动态音频特征输入第一识别模型中进行音频场景识别,得到对应的第一识别结果,并将第二音频片段的动态音频特征输入第一识别模型中进行音频场景识别,得到对应的第二识别结果。
在实际实施时,为了减少噪音带来的影响,可将第一音频片段的动态音频特征和第二音频片段的动态音频特征进行标准化之后再输入第一识别模型,第一识别模型用于对提取的动态音频特征进行分类和识别,得到用于表征音频信号对应的音频场景的识别结果。
在实际应用中,第一识别模型可为隐马尔可夫模型(HMM,Hidden Mark ovModel)、支持向量机(SVM,Support Vector Machine)等传统分类模型,或为卷积神经网络(CNN,Convolutional Neural Network)和循环神经网络(R NN,Recurrent NeuralNetwork)等神经网络模型。对于实时性要求比较高的应用,如音视频实时通话,第一识别模型可为压缩后的残差网络(ResNet,Re sidual Network)模型,该模型尺寸较小,满足较低的计算复杂度和低时延的要求。
在一些实施例中,在将第一音频片段的动态音频特征输入第一识别模型中之前,还可通过如下方式训练得到第一识别模型:
获取音频信号样本的动态音频特征,其中,音频信号样本标注有对应的音频场景;将音频信号样本的动态音频特征输入至第一识别模型中,对音频信号样本进行音频场景识别,得到识别结果;获取识别结果与音频信号样本的标注之间的差异;基于获取的差异,更新第一识别模型的模型参数。
在实际实施时,可根据识别结果与音频信号样本的标注之间的差异,确定第一识别模型的损失函数的值;在训练过程中,可采用交叉熵作为损失函数,当损失函数的值达到预设阈值时,基于第一识别模型的损失函数的值确定相应的误差信号;将误差信号在第一识别模型中反向传播,并在传播的过程中更新第一识别模型的各个层的模型参数。
这里,对反向传播进行说明,将训练样本数据输入到神经网络模型的输入层,经过隐藏层,最后达到输出层并输出结果,这是神经网络模型的前向传播过程,由于神经网络模型的输出结果与实际结果有误差,则计算输出结果与实际值之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播到输入层,在反向传播的过程中,根据误差调整模型参数的值;不断迭代上述过程,直至收敛。
步骤104:结合第一识别结果和第二识别结果,确定音频信号对应的音频场景。
这里,综合考虑了基于第一音频片段确定的第一识别结果,与基于第二音频片段确定的第二识别结果,得到音频信号对应的音频场景。
在一些实施例中,第一识别结果表征音频信号对应不同音频场景的第一预测概率,第二识别结果表征音频信号对应不同音频场景的第二预测概率;终端可通过如下方式结合第一识别结果和第二识别结果,确定音频信号对应的音频场景:
分别获取对应同一音频场景下的第一预测概率与第二预测概率的均值;取均值最大的音频场景作为音频信号对应的音频场景。
这里,将第一音频片段对应的动态音频特征输入至第一识别模型中,输出的是音频信号对应各个音频场景的预测概率。分别获取第一音频片段对应的各个音频场景的第一预测概率和第二音频片段对应的各个音频场景的第二预测概率,将对应同一音频场景下的第一预测概率与第二预测概率的均值,并取均值最大的音频场景作为音频信号对应的音频场景。
例如,音视频实时通话的常见音频场景包括:音乐、干净语音、噪音类,那么将音视频实时通话的音频片段的动态音频特征输入至第一识别模型,输出的是音乐、干净语音、噪音类这三个类别的预测概率。假设将待识别的语音信号的第一音频片段对应的动态音频特征输入至第一识别模型,输出对应音乐、干净语音、噪音类这三个音频场景的预测概率分别为0.5、0.8、0.6,将第二音频片段对应的动态音频特征输入至第一识别模型,输出对应音乐、干净语音、噪音类这三个音频场景的预测概率分别为0.4、0.7、0.7,计算得到对应音乐、干净语音、噪音类这三个音频场景的均值分别为0.45、0.75、0.65,可见,对应干净语音这一音频场景的均值最大,则可确定待识别的语音信号对应的音频场景为干净语音。
在一些实施例中,第一识别结果表征音频信号对应不同音频场景的第一预测概率,第二识别结果表征所述音频信号对应不同音频场景的第二预测概率,当第二音频片段的数量为至少两个时,终端可通过如下方式结合第一识别结果和第二识别结果,确定音频信号对应的音频场景:
分别基于各第二音频片段的第二识别结果,确定与各第二音频片段相对应的同一音频场景下的第二预测概率值的第一均值;获取对应同一音频场景下的第一预测概率与第一均值的第二均值;取第二均值最大的音频场景作为音频信号对应的音频场景。
这里,在实际应用中,将待识别的音频信号分割成多个短时长的第二音频片段和一个长时长的第一音频片段,分别将各个第二音频片段的动态音频特征输入至第一识别模型中进行音频场景识别,得到相应的多个对应不同音频场景的预测概率,此时,先将各个第二音频片段对应的同一音频场景下的预测概率进行加权求平均,得到与各第二音频片段相对应的同一音频场景下的预测概率均值;然后,针对同一音频场景,再将得到与各第二音频片段相对应的预测概率均值,与第一音频片段相对应的预测概率进行加权求平均,得到最终的对应该音频场景的预测概率均值,并从中选取将基于多个第二音频片段和一个第一音频片段确定的最大的预测概率均值对应的音频场景,作为待识别的音频信号对应的音频场景。
例如,假设待识别的音频信号为采集的音视频实时通话的音频信号,参见图6,图6为本申请实施例提供的音频片段示意图,如图6所示,将待识别的音频信号分割成一个长时长的音频片段A,两个短时长的音频片段B1和B2,其中,B1和B2均包含在A中,在进行音频场景识别时,基于B1进行音频场景识别的结果为:输出对应音乐、干净语音、噪音类这三个音频场景的预测概率分别为0.4、0.7、0.5,基于B2进行音频场景识别的结果为:输出对应音乐、干净语音、噪音类这三个音频场景的预测概率分别为0.5、0.9、0.7,则基于B1和B2确定的对应音乐、干净语音、噪音类这三个音频场景的概率均值分别为0.45、0.8、0.6;基于A进行音频场景识别的结果为:输出对应音乐、干净语音、噪音类这三个音频场景的预测概率分别为0.5、0.9、0.6,则最终基于A、B1和B2确定的对应音乐、干净语音、噪音类这三个音频场景的概率均值分别为:0.475、0.85、0.6,那么可知,对应干净语音这一音频场景的概率均值最大,则可确定待识别的语音信号对应的音频场景为干净语音。
在一些实施例中,第一音频片段与第二音频片段组成音频片段对,且当音频片段对的数量为至少两个时,终端还可通过如下方式结合第一识别结果和第二识别结果,确定音频信号对应的音频场景:
分别基于各音频片段对的第一识别结果和第二识别结果,确定与各音频片段对相对应的音频场景;分别获取与确定的各音频场景对应的音频片段对的数量;基于各音频场景对应的音频片段对的数量,确定音频信号对应的音频场景。
这里,将待识别的音频信号分割成多个音频片段对,其中,每个音频片段对包含一个短时长的第二音频片段和一个长时长的第一音频片段。例如,假设待识别的音频信号为采集的音视频实时通话的音频信号,参见图7,图7为本申请实施例提供的音频片段示意图,如图7所示,将音频信号分割为{A1,B1}、{A2,B2}和{A3,B3}三个音频片段对,对于音频片段对{A1,B1},基于A1进行音频场景识别的结果为:输出对应音乐、干净语音、噪音类这三个音频场景的预测概率分别为0.4、0.7、0.5,基于B1进行音频场景识别的结果为:输出对应音乐、干净语音、噪音类这三个音频场景的预测概率分别为0.5、0.9、0.7,则可确定基于A1和B1确定对应音乐、干净语音、噪音类这三个音频场景的预测概率均值为0.45、0.8、0.6,从中选取预测概率均值最大(0.8)对应的干净语音这一音频场景,作为与音频片段对{A1,B1}相对应的音频场景。同理,若确定与音频片段对{A2,B2}相对应的音频场景为音乐,与音频片段对{A3,B3}相对应的音频场景为干净语音,那么可知,在这三个音频片段对中,与干净语音这一音频场景相对应的音频片段对有2个,即与干净语音这一音频场景相对应的音频片段对占总音频片段对的比值最大,则可确定待识别的音频信号对应的音频场景为干净语音。
在一些实施例中,当确定音频信号对应的音频场景为目标音频场景时,终端还可通过如下方式进一步判断待识别的音频信号对应的音频场景为目标音频场景中的子音频场景:
获取第一音频片段的静态音频特征及第二音频片段的静态音频特征;将第一音频片段的静态音频特征输入第二识别模型中进行音频场景识别,得到对应的第三识别结果,并将第二音频片段的静态音频特征输入第二识别模型中进行音频场景识别,得到对应的第四识别结果;结合第三识别结果和所述第四识别结果,确定音频信号对应目标音频场景中的子音频场景。
这里,若通过第一识别模型识别得到的音频场景为目标音频场景,且目标音频场景中包含多个子音频场景时,需进一步识别待识别的音频信号对应的音频场景为哪个子音频场景。在实际实施时,获取各音频片段的静态音频特征,其中,静态音频特征的获取方式可参见上述步骤2011-步骤2014,将获取的静态音频特征输入至第二识别模型中进行音频场景识别,得到第三识别结果和第四识别结果,并结合第三识别结果与第四识别结果,采样上述类似的方式确定音频信号对应目标音频场景中的子音频场景。
例如,音视频实时通话的常见音频场景包括:音乐、干净语音、噪音类,噪音类包括噪音和加噪语音,若基于第一音频片段和第二音频片段的静态音频特征确定音频信号对应的音频场景为噪音类时,则将第一音频片段和第二音频片段的静态音频特征分别输入第二识别模型中进行音频场景识别,并结合得到的第三识别结果和第四识别结果,采样上述类似的方式,确定音频信号对应目标音频场景中的噪音或加噪语音。
在一些实施例中,在将第一音频片段的静态音频特征输入第二识别模型中进行音频场景识别之前,还可通过如下方式训练得到第二识别模型:
获取音频信号样本的静态音频特征,其中,音频信号样本标注有对应的音频场景;将音频信号样本的静态音频特征输入至第二识别模型中,对音频信号样本进行音频场景识别,得到识别结果;获取识别结果与音频信号样本的标注之间的差异;基于获取的差异,更新第二识别模型的模型参数。
这里,第一识别模型和第二识别模型所采用的网络结构可相同,如均采用压缩后的残差网络模型,区别在于,两者的输入不同,其中,第一识别模型输入的是音频片段的动态音频特征,第二识别模型输入的是音频片段的静态音频特征,在训练过程中,所采用的损失函数也可相同,如均以交叉熵作为损失函数。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
音频场景识别是在一段连续的音频流中识别出所包含的音频场景,如说话声、音乐声等等。音视频实时通话是基于互联网实现的多人语音、视频的聊天功能,因此,音视频实时通话的常见使用场景包括四类,音乐,噪音,干净语音和加噪语音,对实时通话使用的常见场景进行分类,便于针对不同的场景做下一步的处理,如提高噪音下的言语清晰度,提升音乐的欣赏能力等。
在音视频实时通话中,由于带宽有限,对模型大小要求较高,同时保证较低的计算复杂度和低延时的要求。在本申请中,采用压缩后的ResNet网络训练识别模型,并采用二级分类的方式,训练两个ResNet模型,其中,一个ResNet模型为一级分类器(即上述的第一识别模型),一个ResNet模型为二级分类器(即上述的第二识别模型),一级分类器为一个三类分类器,二级分类器为一个二类分类器,先采用一级分类器对音乐、干净语音、噪音类进行分类,再采用二级分类器对噪音类下的噪音和加噪语音进行分类。在进行分类识别时,将音频信号分割成不同时间长度的音频片段,在同一个分类器中分别以长时间音频片段(即上述的第一音频片段)和短时间音频片段(即上述的第二音频片段)的音频特征作为输入,通过打分融合的后处理方式得到音频信号对应的音频场景。
参见图8,图8为本申请实施例提供的音频场景识别的数据流向示意图,如图8所示,首先,对于采集的待识别的音频信号进行音频片段提取,得到音频片段A(即第一音频片段)和音频片段B(即第二音频片段),其中,音频片段A包含音频片段B,音频片段A的时长大于音频片段B的时长,每一个音频片段A对应一个音频片段B。
然后,分别对音频片段A和音频片段B进行特征提取,参见图9,图9为本申请实施例提供的特征提取流程示意图,分别对音频片段A和音频片段B执行如图9所示的处理:
步骤401:对音频片段进行分帧处理,得到对应的至少两个音频帧;
步骤402:对至少两个音频帧进行加窗处理,得到对应的加窗音频信号;
步骤403:对加窗音频信号进行快速傅里叶变换,得到对应的音频频谱;
步骤404:对音频频谱进行求平方,得到对应的音频功率谱;
步骤405:对音频功率谱进行梅尔滤波,得到对应的音频梅尔频谱;
步骤406:对音频梅尔频谱进行取对数处理,得到对应的对数梅尔频谱特征。
这里,对数梅尔频谱特征即为上述的音频片段的静态音频特征。
步骤407:对对数梅尔频谱特征进行一阶差分处理,得到对应的一阶差分特征;
步骤408:对对数梅尔频谱特征进行二阶差分处理,得到对应的二阶差分特征;
步骤409:将对数梅尔频谱特征、一阶差分特征与二阶差分特征进行拼接,得到三维梅尔频谱动态特征。
这里,三维梅尔频谱动态特征即为上述的动态音频特征。
其次,将音频片段A对应的三维梅尔频谱动态特征输入至一级分类器中进行音频场景识别,得到第一识别结果;将音频片段B对应的三维梅尔频谱动态特征输入至一级分类器中进行音频场景识别,得到第二识别结果,并结合第一识别结果和第二识别结果,确定音频信号对应的音频场景,如音乐、噪音类或干净语音。
当确定音频信号对应的音频场景为噪音类时,分别将音频片段A和音频片段B对应的对数梅尔频谱特征输入至二级分类器中,进一步判断音频信号对应的音频场景属于噪声还是加噪语音,假设使用C1,1C1,2,C1,3来表示一级分类器中的三个音频场景,使用C2,1和C2,2表示二级分类器的两个音频场景,其中,C2,1,C2,2∈C1,2使用F1和F2来表示一级分类器和二级分类器中的输出结果,对于输入x,预测得到最终的音频场景Class(x)为:
即,通过二级分类器输出对应各音频片段的预测概率值,其中,预测概率值的取值范围在[0,1]之间,然后获取各音频片段的预测概率值的均值,若该均值大于0.5,则确定音频信号对应的音频场景为噪音;否则,确定音频信号对应的音频场景为加噪语音。
最后,对本申请中的一级分类器和二级分类器的训练进行说明。参见图10,图10为本申请实施例提供的分类器训练示意图,如图10所示,一级分类器和二级分类器的训练过程完全相同,在训练前,需收集音频场景语料,也即收集音频信号样本,将不同的干净语音与噪音在时域上叠加,在叠加时保证信噪比为-5dB~10dB,生成加噪语音信号,加噪语音信号、干净语音、噪音和音乐信号为语料库中的音频信号训练样本,其中,音频信号训练样本标注有对应的音频场景。
一级分类器和二级分类器所采用的网络结构相同,如均采用压缩后的残差网络模型,区别在于,两者的输入不同,其中,一级分类器输入的是音频信号样本的三维梅尔频谱动态特征,一级分类器输入的是音频信号样本的对数梅尔频谱特征,因此,在对音频信号样本进行特征提取时,对于一级分类器的训练,需对音频信号样本执行上述步骤401-步骤409的处理,对于一级分类器的训练,需对音频信号样本执行上述步骤401-步骤406的处理;特征提取后,在训练过程中,将提取的音频信号样本的特征输入至残差网络模型进行训练,得到识别结果,获取识别结果与音频信号样本的标注之间的差异,基于获取的差异,更新残差网络模型的模型参数。
在实际实施时,可根据识别结果与音频信号样本的标注之间的差异,确定训练模型的损失函数的值;在训练过程中,可采用交叉熵作为损失函数,当损失函数的值达到预设阈值时,基于损失函数的值确定相应的误差信号,将误差信号在训练模型中反向传播,并在传播的过程中更新训练模型的各个层的模型参数直至收敛。
通过上述方式,本申请实施例提供的音频场景识别方法,采用二级分类和长时间与短时间片段分类结合的方式,与常见的音频场景识别***相比,可以在高准确率的同时,保证较低的计算复杂度和低延时的要求,满足音视频实时通话的使用场景及要求。
下面继续说明本申请实施例提供的音频场景识别装置555的实施为软件模块的示例性结构,在一些实施例中,如图11所示,图11为本申请实施例提供的音频场景识别装置的结构示意图,存储在存储器550的音频场景识别装置555中的软件模块可以包括:
片段提取模块5551,用于对待识别的音频信号进行音频片段提取,得到第一音频片段和第二音频片段;
其中,所述第一音频片段包含所述第二音频片段、且所述第一音频片段的时长大于所述第二音频片段的时长;
特征获取模块5552,用于获取所述第一音频片段的动态音频特征,及所述第二音频片段的动态音频特征;
场景识别模块5553,用于将所述第一音频片段的动态音频特征输入第一识别模型中进行音频场景识别,得到对应的第一识别结果,并将所述第二音频片段的动态音频特征输入所述第一识别模型中进行音频场景识别,得到对应的第二识别结果;
场景确定模块5554,用于结合所述第一识别结果和所述第二识别结果,确定所述音频信号对应的音频场景。
在一些实施例中,所述片段提取模块,还用于通过第一窗口对所述音频信号进行音频片段提取,得到第一音频片段;
通过第二窗口对所述音频信号进行音频片段提取,得到第二音频片段;
其中,所述第一窗口对应的时域包含所述第二窗口对应的时域、且所述第一窗口的窗口大小大于所述第二窗口的窗口大小。
在一些实施例中,所述特征获取模块,还用于分别对所述第一音频片段和第二音频片段执行以下操作:
获取音频片段的静态音频特征;
对所述静态音频特征进行一阶差分处理,得到对应的一阶差分特征;
对所述静态音频特征进行二阶差分处理,得到对应的二阶差分特征;
将所述静态音频特征、所述一阶差分特征及所述二阶差分特征进行拼接,得到所述音频片段的动态音频特征。
在一些实施例中,所述特征获取模块,还用于对所述音频片段进行快速傅里叶变换,得到对应的音频频谱;
对所述音频频谱进行求平方,得到对应的音频功率谱;
对所述音频功率谱进行梅尔滤波,得到对应的音频梅尔频谱;
对所述音频梅尔频谱进行取对数处理,得到对应的对数梅尔频谱特征,并将所述对数梅尔频谱特征确定为所述音频片段的静态音频特征。
在一些实施例中,所述特征获取模块,还用于对所述音频片段进行分帧处理,得到对应的至少两个音频帧;
对所述至少两个音频帧进行加窗处理,得到对应的加窗音频信号;
对所述加窗音频信号进行快速傅里叶变换,得到对应的音频频谱。
在一些实施例中,所述装置还包括第一识别模型训练模块,所述第一识别模型训练模块,用于在将所述第一音频片段的动态音频特征输入第一识别模型中之前,
获取音频信号样本的动态音频特征,所述音频信号样本标注有对应的音频场景;
将所述音频信号样本的动态音频特征输入至第一识别模型中,对所述音频信号样本进行音频场景识别,得到识别结果;
获取所述识别结果与所述音频信号样本的标注之间的差异;
基于获取的所述差异,更新所述第一识别模型的模型参数。
在一些实施例中,所述第一识别模型训练模块,还用于当所述差异超过差异阈值时,基于所述差异确定所述第一识别模型的误差信号;
将所述误差信号在所述第一识别模型中反向传播,并在传播的过程中更新各个层的模型参数。
在一些实施例中,所述第一识别结果表征所述音频信号对应不同音频场景的第一预测概率,所述第二识别结果表征所述音频信号对应不同音频场景的第二预测概率;
所述场景确定模块,还用于分别获取对应同一音频场景下的所述第一预测概率与所述第二预测概率的均值;
取均值最大的音频场景作为所述音频信号对应的音频场景。
在一些实施例中,所述第一识别结果表征所述音频信号对应不同音频场景的第一预测概率,所述第二识别结果表征所述音频信号对应不同音频场景的第二预测概率,当所述第二音频片段的数量为至少两个时,
所述场景确定模块,还用于分别基于各所述第二音频片段的第二识别结果,确定与各所述第二音频片段相对应的同一音频场景下的所述第二预测概率值的第一均值;
获取对应同一音频场景下的所述第一预测概率与所述第一均值的第二均值;
取第二均值最大的音频场景作为所述音频信号对应的音频场景。
在一些实施例中,所述第一音频片段与所述第二音频片段组成音频片段对,当所述音频片段对的数量为至少两个时,
所述场景确定模块,还用于分别基于各所述音频片段对的第一识别结果和第二识别结果,确定与各所述音频片段对相对应的音频场景;
分别获取与确定的各所述音频场景对应的音频片段对的数量;
基于各所述音频场景对应的音频片段对的数量,确定所述音频信号对应的音频场景。
在一些实施例中,当确定所述音频信号对应的音频场景为目标音频场景时,所述装置还包括第二识别处理模块,所述第二识别处理模块,用于
获取所述第一音频片段的静态音频特征及所述第二音频片段的静态音频特征;
将所述第一音频片段的静态音频特征输入第二识别模型中进行音频场景识别,得到对应的第三识别结果,并将所述第二音频片段的静态音频特征输入第二识别模型中进行音频场景识别,得到对应的第四识别结果;
结合所述第三识别结果和所述第四识别结果,确定所述音频信号对应所述目标音频场景中的子音频场景。
在一些实施例中,所述装置还包括第二识别模型训练模块,所述第二识别模型训练模块,用于在将所述第一音频片段的静态音频特征输入第二识别模型中进行音频场景识别之前,
获取音频信号样本的静态音频特征,所述音频信号样本标注有对应的音频场景;
将所述音频信号样本的静态音频特征输入至第二识别模型中,对所述音频信号样本进行音频场景识别,得到识别结果;
获取所述识别结果与所述音频信号样本的标注之间的差异;
基于获取的所述差异,更新所述第二识别模型的模型参数。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的音频场景识别方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的音频场景识别方法,例如,如图4示出的方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件***中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。
Claims (14)
1.一种音频场景识别方法,其特征在于,所述方法包括:
对待识别的音频信号进行音频片段提取,得到第一音频片段和第二音频片段;其中,所述第一音频片段包含所述第二音频片段、且所述第一音频片段的时长大于所述第二音频片段的时长;
获取所述第一音频片段的动态音频特征,及所述第二音频片段的动态音频特征;
将所述第一音频片段的动态音频特征输入第一识别模型中进行音频场景识别,得到对应的第一识别结果,并将所述第二音频片段的动态音频特征输入所述第一识别模型中进行音频场景识别,得到对应的第二识别结果;
结合所述第一识别结果和所述第二识别结果,确定所述音频信号对应的音频场景;
其中,当所述第一音频片段与所述第二音频片段组成音频片段对、且所述音频片段对的数量为至少两个时,所述结合所述第一识别结果和所述第二识别结果,确定所述音频信号对应的音频场景,包括:
分别基于各所述音频片段对的第一识别结果和第二识别结果,确定与各所述音频片段对相对应的音频场景;
分别获取与确定的各所述音频场景对应的音频片段对的数量;
基于各所述音频场景对应的音频片段对的数量,确定所述音频信号对应的音频场景。
2.如权利要求1所述的方法,其特征在于,所述对所述音频信号进行音频片段提取,得到第一音频片段和第二音频片段,包括:
通过第一窗口对所述音频信号进行音频片段提取,得到第一音频片段;
通过第二窗口对所述音频信号进行音频片段提取,得到第二音频片段;
其中,所述第一窗口对应的时域包含所述第二窗口对应的时域、且所述第一窗口的窗口大小大于所述第二窗口的窗口大小。
3.如权利要求1所述的方法,其特征在于,所述获取所述第一音频片段的动态音频特征,及所述第二音频片段的动态音频特征,包括:
分别对所述第一音频片段和第二音频片段执行以下操作:
获取音频片段的静态音频特征;
对所述静态音频特征进行一阶差分处理,得到对应的一阶差分特征;
对所述静态音频特征进行二阶差分处理,得到对应的二阶差分特征;
将所述静态音频特征、所述一阶差分特征及所述二阶差分特征进行拼接,得到所述音频片段的动态音频特征。
4.如权利要求3所述的方法,其特征在于,所述获取音频片段的静态音频特征,包括:
对所述音频片段进行快速傅里叶变换,得到对应的音频频谱;
对所述音频频谱进行求平方,得到对应的音频功率谱;
对所述音频功率谱进行梅尔滤波,得到对应的音频梅尔频谱;
对所述音频梅尔频谱进行取对数处理,得到对应的对数梅尔频谱特征,并将所述对数梅尔频谱特征确定为所述音频片段的静态音频特征。
5.如权利要求4所述的方法,其特征在于,所述对所述音频片段进行快速傅里叶变换,得到对应的音频频谱,包括:
对所述音频片段进行分帧处理,得到对应的至少两个音频帧;
对所述至少两个音频帧进行加窗处理,得到对应的加窗音频信号;
对所述加窗音频信号进行快速傅里叶变换,得到对应的音频频谱。
6.如权利要求1所述的方法,其特征在于,所述将所述第一音频片段的动态音频特征输入第一识别模型中之前,所述方法还包括:
获取音频信号样本的动态音频特征,所述音频信号样本标注有对应的音频场景;
将所述音频信号样本的动态音频特征输入至第一识别模型中,对所述音频信号样本进行音频场景识别,得到识别结果;
获取所述识别结果与所述音频信号样本的标注之间的差异;
基于获取的所述差异,更新所述第一识别模型的模型参数。
7.如权利要求6所述的方法,其特征在于,所述基于获取的所述差异,更新所述第一识别模型的模型参数,包括:
当所述差异超过差异阈值时,基于所述差异确定所述第一识别模型的误差信号;
将所述误差信号在所述第一识别模型中反向传播,并在传播的过程中更新各个层的模型参数。
8.如权利要求1~7任一项所述的方法,其特征在于,当所述第一识别结果表征所述待识别的音频信号对应不同音频场景的第一预测概率,所述第二识别结果表征所述音频信号对应不同音频场景的第二预测概率时,
所述结合所述第一识别结果和所述第二识别结果,确定所述音频信号对应的音频场景,包括:
分别获取对应同一音频场景下的所述第一预测概率与所述第二预测概率的均值;
取均值最大的音频场景作为所述音频信号对应的音频场景。
9.如权利要求1~7任一项所述的方法,其特征在于,当所述第一识别结果表征所述音频信号对应不同音频场景的第一预测概率,所述第二识别结果表征所述音频信号对应不同音频场景的第二预测概率,且所述第二音频片段的数量为至少两个时,
所述结合所述第一识别结果和所述第二识别结果,确定所述音频信号对应的音频场景,包括:
分别基于各所述第二音频片段的第二识别结果,确定与各所述第二音频片段相对应的同一音频场景下的所述第二预测概率值的第一均值;
获取对应同一音频场景下的所述第一预测概率与所述第一均值的第二均值;
取第二均值最大的音频场景作为所述音频信号对应的音频场景。
10.如权利要求1~7任一项所述的方法,其特征在于,当确定所述音频信号对应的音频场景为目标音频场景时,所述方法还包括:
获取所述第一音频片段的静态音频特征及所述第二音频片段的静态音频特征;
将所述第一音频片段的静态音频特征输入第二识别模型中进行音频场景识别,得到对应的第三识别结果,并将所述第二音频片段的静态音频特征输入第二识别模型中进行音频场景识别,得到对应的第四识别结果;
结合所述第三识别结果和所述第四识别结果,确定所述音频信号对应所述目标音频场景中的子音频场景。
11.如权利要求10所述的方法,其特征在于,在将所述第一音频片段的静态音频特征输入第二识别模型中进行音频场景识别之前,所述方法还包括:
获取音频信号样本的静态音频特征,所述音频信号样本标注有对应的音频场景;
将所述音频信号样本的静态音频特征输入至第二识别模型中,对所述音频信号样本进行音频场景识别,得到识别结果;
获取所述识别结果与所述音频信号样本的标注之间的差异;
基于获取的所述差异,更新所述第二识别模型的模型参数。
12.一种音频场景识别装置,其特征在于,所述装置包括:
片段提取模块,用于对待识别的音频信号进行音频片段提取,得到第一音频片段和第二音频片段;
其中,所述第一音频片段包含所述第二音频片段、且所述第一音频片段的时长大于所述第二音频片段的时长;
特征获取模块,用于获取所述第一音频片段的动态音频特征,及所述第二音频片段的动态音频特征;
场景识别模块,用于将所述第一音频片段的动态音频特征输入第一识别模型中进行音频场景识别,得到对应的第一识别结果,并将所述第二音频片段的动态音频特征输入所述第一识别模型中进行音频场景识别,得到对应的第二识别结果;
场景确定模块,用于结合所述第一识别结果和所述第二识别结果,确定所述音频信号对应的音频场景;
其中,当所述第一音频片段与所述第二音频片段组成音频片段对、且所述音频片段对的数量为至少两个时,所述场景确定模块,还用于分别基于各所述音频片段对的第一识别结果和第二识别结果,确定与各所述音频片段对相对应的音频场景;
分别获取与确定的各所述音频场景对应的音频片段对的数量;
基于各所述音频场景对应的音频片段对的数量,确定所述音频信号对应的音频场景。
13.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至11任一项所述的音频场景识别方法。
14.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于被处理器执行时,实现权利要求1至11任一项所述的音频场景识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010794916.4A CN112750459B (zh) | 2020-08-10 | 2020-08-10 | 音频场景识别方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010794916.4A CN112750459B (zh) | 2020-08-10 | 2020-08-10 | 音频场景识别方法、装置、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112750459A CN112750459A (zh) | 2021-05-04 |
CN112750459B true CN112750459B (zh) | 2024-02-02 |
Family
ID=75645375
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010794916.4A Active CN112750459B (zh) | 2020-08-10 | 2020-08-10 | 音频场景识别方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112750459B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113793622B (zh) * | 2021-09-10 | 2023-08-29 | 中国科学院声学研究所 | 一种音频场景识别方法、***及装置 |
CN115334349B (zh) * | 2022-07-15 | 2024-01-02 | 北京达佳互联信息技术有限公司 | 音频处理方法、装置、电子设备及存储介质 |
CN116070174A (zh) * | 2023-03-23 | 2023-05-05 | 长沙融创智胜电子科技有限公司 | 一种多类别目标识别方法及*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101645265A (zh) * | 2008-08-05 | 2010-02-10 | 中兴通讯股份有限公司 | 一种音频类别的实时识别方法及装置 |
CN102486920A (zh) * | 2010-12-06 | 2012-06-06 | 索尼公司 | 音频事件检测方法和装置 |
CN102968986A (zh) * | 2012-11-07 | 2013-03-13 | 华南理工大学 | 基于长时特征和短时特征的重叠语音与单人语音区分方法 |
CN108305616A (zh) * | 2018-01-16 | 2018-07-20 | 国家计算机网络与信息安全管理中心 | 一种基于长短时特征提取的音频场景识别方法及装置 |
CN108717856A (zh) * | 2018-06-16 | 2018-10-30 | 台州学院 | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11024291B2 (en) * | 2018-11-21 | 2021-06-01 | Sri International | Real-time class recognition for an audio stream |
-
2020
- 2020-08-10 CN CN202010794916.4A patent/CN112750459B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101645265A (zh) * | 2008-08-05 | 2010-02-10 | 中兴通讯股份有限公司 | 一种音频类别的实时识别方法及装置 |
CN102486920A (zh) * | 2010-12-06 | 2012-06-06 | 索尼公司 | 音频事件检测方法和装置 |
CN102968986A (zh) * | 2012-11-07 | 2013-03-13 | 华南理工大学 | 基于长时特征和短时特征的重叠语音与单人语音区分方法 |
CN108305616A (zh) * | 2018-01-16 | 2018-07-20 | 国家计算机网络与信息安全管理中心 | 一种基于长短时特征提取的音频场景识别方法及装置 |
CN108717856A (zh) * | 2018-06-16 | 2018-10-30 | 台州学院 | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112750459A (zh) | 2021-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112750459B (zh) | 音频场景识别方法、装置、设备及计算机可读存储介质 | |
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、***及装置 | |
US11776530B2 (en) | Speech model personalization via ambient context harvesting | |
Adeel et al. | Contextual deep learning-based audio-visual switching for speech enhancement in real-world environments | |
Lakomkin et al. | On the robustness of speech emotion recognition for human-robot interaction with deep neural networks | |
CN112053702B (zh) | 一种语音处理的方法、装置及电子设备 | |
US20190206418A1 (en) | Device and a method for classifying an acoustic environment | |
CN114267347A (zh) | 一种基于智能语音交互的多模态拒识方法和*** | |
CN111640456A (zh) | 叠音检测方法、装置和设备 | |
US20240004606A1 (en) | Audio playback method and apparatus, computer readable storage medium, and electronic device | |
CN112735385A (zh) | 语音端点检测方法、装置、计算机设备及存储介质 | |
Salekin et al. | Distant emotion recognition | |
CN114399995A (zh) | 语音模型的训练方法、装置、设备及计算机可读存储介质 | |
Adeel et al. | Towards next-generation lipreading driven hearing-aids: A preliminary prototype demo | |
CN111508530A (zh) | 语音情感识别方法、装置及存储介质 | |
CN111312223A (zh) | 语音分割模型的训练方法、装置和电子设备 | |
CN113571063B (zh) | 语音信号的识别方法、装置、电子设备及存储介质 | |
CN113327631B (zh) | 一种情感识别模型的训练方法、情感识别方法及装置 | |
CN114495946A (zh) | 声纹聚类方法、电子设备和存储介质 | |
CN116612747B (zh) | 语音音素识别方法、装置、设备及存储介质 | |
Faridh et al. | HiVAD: A Voice Activity Detection Application Based on Deep Learning | |
CN117636909B (zh) | 一种数据处理方法、装置、设备以及计算机可读存储介质 | |
CN116109989B (zh) | 评价信息生成方法、装置、电子设备和计算机可读介质 | |
Mesbahi et al. | Shout analysis and characterisation | |
US20240233741A9 (en) | Controlling local rendering of remote environmental audio |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40043561 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |