CN113782034A - 一种音频识别方法、装置及电子设备 - Google Patents
一种音频识别方法、装置及电子设备 Download PDFInfo
- Publication number
- CN113782034A CN113782034A CN202111138660.2A CN202111138660A CN113782034A CN 113782034 A CN113782034 A CN 113782034A CN 202111138660 A CN202111138660 A CN 202111138660A CN 113782034 A CN113782034 A CN 113782034A
- Authority
- CN
- China
- Prior art keywords
- audio
- awakening
- preset
- features
- mixed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 238000001228 spectrum Methods 0.000 claims description 43
- 230000015654 memory Effects 0.000 claims description 18
- 238000000926 separation method Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 abstract description 4
- 239000013598 vector Substances 0.000 description 8
- 230000000694 effects Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000010923 batch production Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephone Function (AREA)
Abstract
本发明公开了一种音频识别方法、装置及电子设备,该方法包括:获取混合音频,对混合音频进行分离,得到分离后的至少一单音频;对分离后的至少一单音频进行特征提取,得到各单音频的音频特征;将预设唤醒音频特征与各单音频的音频特征分别输入到预设的声纹模型,得到至少一声纹对比输出结果;预设唤醒音频特征为基于唤醒音频进行特征提取得到的;对比各声纹对比输出结果,将相似度最高的单音频确定为唤醒音频。通过对混合音频进行分离,将分离后的音频特征与预设唤醒音频特征进行一一对比得到与唤醒人音频特征最相似的音频,可以准确地在混合音频中识别到唤醒音频,不受限于唤醒人的位置等环境因素。
Description
技术领域
本发明涉及混合音频的识别技术领域,具体涉及一种音频识别方法、装置及电子设备。
背景技术
现有的语音对话***中,当出现多个人同时说话的时候,机器识别不到真正想下发指令的是谁,因此不能准确的识别到正确的指令,现有技术中首先挑选语音识别***中唤醒人的定位结果,根据定位结果识别混合音频中的多个音频,基于该定位结果从多个音频中筛选出唤醒音频,并执行相应指令。由于这种方法需要依靠定位结果进行音频的筛选,受限于说话人所处的空间,当唤醒人位置发生变化时,则容易导致算法失效,识别结果不准确。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中混合音频的识别中受限于说话人所处的空间,当唤醒人位置发生变化时,则容易导致算法失效,识别结果不准确,从而提供一种音频识别方法、装置及电子设备。
根据第一方面,本发明实施例公开了一种音频识别方法,包括:获取混合音频,对所述混合音频进行分离,得到分离后的至少一单音频;对分离后的至少一单音频进行特征提取,得到各所述单音频的音频特征;将预设唤醒音频特征与各所述单音频的音频特征分别输入到预设的声纹模型,得到至少一声纹对比输出结果;所述预设唤醒音频特征为基于所述唤醒音频进行特征提取得到的;对比各所述声纹对比输出结果,将相似度最高的单音频确定为所述唤醒音频。
可选地,提取所述预设唤醒音频特征的过程,包括:对所述唤醒音频进行傅里叶分析,得到所述唤醒音频的傅里叶频谱;将所述傅里叶频谱进行滤波得到滤波后的频谱;基于所述傅里叶频谱和滤波后的频谱得到所述预设唤醒音频特征。
可选地,所述基于所述傅里叶频谱和滤波后的频谱得到所述唤醒音频特征,包括:将所述傅里叶频谱和滤波后的频谱进行点乘,并对点乘后的频谱取对数得到所述唤醒音频特征。
可选地,所述获取混合音频,对所述混合音频进行分离,得到分离后的至少一单音频,包括:将所述混合音频进行编码,将编码后的混合音频输入到分离掩码模块,得到掩码矩阵;将所述掩码矩阵与编码后的混合音频相乘再进行线性解码器进行解码得到所述至少一单音频。
可选地,所述将预设唤醒音频特征与各所述单音频的音频特征分别输入到预设的声纹模型,得到至少一声纹对比输出结果,包括:将所述预设唤醒音频特征和所述单音频的音频特征输入到声纹模型,得到所述唤醒人音频和所述单音频的相似度分数。
可选地,提取所述单音频的音频特征的步骤,包括:对所述至少一单音频进行傅里叶分析,得到所述至少一单音频的傅里叶频谱;将所述至少一单音频的傅里叶频谱进行滤波得到滤波后的至少一单音频频谱;基于所述至少一单音频的傅里叶频谱和滤波后的至少一单音频频谱得到所述至少一单音频的预设音频特征。
根据第二方面,本发明实施例还公开了一种音频识别装置,包括:获取模块,用于获取混合音频,对所述混合音频进行分离,得到分离后的至少一单音频;特征提取模块,用于对分离后的至少一单音频进行特征提取,得到各所述单音频的音频特征;对比模块,用于将预设唤醒音频特征与各所述单音频的音频特征分别输入到预设的声纹模型,得到至少一声纹对比输出结果;所述预设唤醒音频特征为基于所述唤醒音频进行特征提取得到的;输出模块,用于对比各所述声纹对比输出结果,将相似度最高的单音频确定为所述唤醒音频。
根据第三方面,本发明实施例还公开了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如第一方面或第一方面任一可选实施方式所述的音频识别方法的步骤。
根据第四方面,本发明实施方式还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面或第一方面任一可选实施方式所述的音频识别方法的步骤。
本发明技术方案,具有如下优点:
本发明提供的音频识别方法、装置及电子设备,该方法包括:获取混合音频,对混合音频进行分离,得到分离后的至少一单音频;对分离后的至少一单音频进行特征提取,得到各单音频的音频特征;将预设唤醒音频特征与各单音频的音频特征分别输入到预设的声纹模型,得到至少一声纹对比输出结果;预设唤醒音频特征为基于唤醒音频进行特征提取得到的;对比各声纹对比输出结果,将相似度最高的单音频确定为唤醒音频。通过对混合音频进行分离,将分离后的音频特征与预设唤醒音频特征进行一一对比得到与唤醒人音频特征最相似的音频,可以准确的在混合音频中识别到唤醒音频,不受限于唤醒人的位置等环境因素。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中音频识别方法的一个具体示例的流程图;
图2为本发明实施例中音频识别装置的一个具体示例的原理框图;
图3为本发明实施例中电子设备的一个具体示例图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
本发明实施例公开了一种音频识别方法,如图1所示,该方法包括如下步骤:
步骤101:获取混合音频,对所述混合音频进行分离,得到分离后的至少一单音频。
示例性地,混合音频为人机对话***中采集到的音频信息,该音频信息中包含一个或多个人的音频,为使得人机对话***识别到正确的指令,需要在采集到的混合音频中识别出唤醒音频,从而执行正确的指令。例如,在人车对话***中,可能存在坐在主驾、副驾和后排的人同时说话的情况,这时车内的对话***就很难识别到真正坐在主驾的司机要下发什么指令,因此车内的对话***就需要准确地识别到主驾司机的音频信息,本申请实施例中均以车内对话***为例进行介绍。
步骤102:对分离后的至少一单音频进行特征提取,得到各所述单音频的音频特征。示例性地,在步骤101中实现了对混合音频的分离,得到了至少一单音频,为了识别到正确的唤醒音频特征,需要对分离后的单音频进行特征提取,来识别分离后的单音频中的唤醒人音频。
步骤103:将预设唤醒音频特征与各所述单音频的音频特征分别输入到预设的声纹模型,得到至少一声纹对比输出结果;所述预设唤醒音频特征为基于所述唤醒音频进行特征提取得到的。
示例性地,将唤醒音频特征和对混合音频分离后得到的单音频的音频特征分别输入到声纹模型中,通过声纹模型判断分离出的每一个单音频与预设的唤醒人音频的对比输出结果,对比输出结果用以表示单音频的音频特征与唤醒音频特征的相似度。
步骤104:对比各所述声纹对比输出结果,将相似度最高的单音频确定为所述唤醒音频。示例性地,根据每一个单音频的音频特征与唤醒音频特征的对比输出结果,对比输出结果中选取与唤醒音频特征最相似的单音频作为唤醒音频,对话***执行相似度最高的单音频的指令。
本发明实施例提供的音频识别方法,包括:获取混合音频,对混合音频进行分离,得到分离后的至少一单音频;对分离后的至少一单音频进行特征提取,得到各单音频的音频特征;将预设唤醒音频特征与各单音频的音频特征分别输入到预设的声纹模型,得到至少一声纹对比输出结果;预设唤醒音频特征为基于唤醒音频进行特征提取得到的;对比各声纹对比输出结果,将相似度最高的单音频确定为唤醒音频。通过对混合音频进行分离,将分离后的音频特征与预设唤醒音频特征进行一一对比得到与唤醒人音频特征最相似的音频,可以准确的在混合音频中识别到唤醒音频,不受限于唤醒人的位置等环境因素。
作为本发明的一个可选实施方式,该预设唤醒音频特征是用于与从混合音频中分离得到的单音频进行对比,是预先存储的,作为评判单音频的标准,提取所述预设唤醒音频特征的过程,包括:对所述唤醒音频进行傅里叶分析,得到所述唤醒音频的傅里叶频谱;将所述傅里叶频谱进行滤波得到滤波后的频谱;基于所述傅里叶频谱和滤波后的频谱得到所述预设唤醒音频特征。
示例性地,唤醒音频特征的提取为计算音频的特征向量,具体地,其中特征向量的计算可以是:a)音频信号经过短时傅里叶分析,得到FFT(Fast Fourier Transform,快速傅里叶变化)对应的频谱;b)将上面的频谱通过Mel滤波器组得到Mel频谱;c)将a)和b)得到的结果点乘,再取对数,便可以得到特征向量。本发明实施例对音频特征的提取方法不作限定,本领域技术人员可以根据实际需要确定。
作为本发明的一个可选实施方式,所述步骤101中,获取混合音频,对所述混合音频进行分离,得到分离后的至少一单音频的过程,包括:将所述混合音频进行编码,将编码后的混合音频输入到分离掩码模块,得到掩码矩阵;将所述掩码矩阵与编码后的混合音频相乘再进行线性解码器进行解码得到所述至少一单音频。
示例性地,混合音频经过分离模型得到分离后的单音频,例如,混合的音频,可以在云端识别***中经过分离模型,得到若干条音频B1,B2,…,Bn等。采用端到端神经网络模型的进行分离,具体地可以采用卷积时域音频分离网络架构,混合的音频经过编码器编码后,解码输出若干分离好的音频,在编码器和解码器中间的分离掩码模块,是由一些堆叠的卷积层组成,分离掩码模块负责输出一个掩码的矩阵,与时域上的混合音频相乘,再经过解码器得到分离好的音频作为结果。通过使用端到端的神经网络模型对混合音频进行分离,使得分离的单音频更加准确,性能更好。
作为本发明一个可选实施方式,上述步骤103,具体包括:将所述唤醒人的预设音频特征和所述单音频的音频特征输入到声纹模型,得到所述唤醒人音频和所述单音频的相似度分数。
示例性地,分离后的单音频进过声纹模型得到每一个单音频的音频特征与唤醒音频特征的相似度,具体地,唤醒音频特征向量分别经过声纹模型,得到声纹模型的分数S1,S2,…,Sn。声纹模型可以是端到端的神经网络模型,输入两段音频的特征向量,输出这两段音频的相似度分数。声纹模型可以采用Generalized-loss进行训练,这种损失函数会使得网络在更新参数的时候更注重于那些不容易被区分的数据,损失函数Generalized-loss增加了一个批处理内可以考虑的关系,例如,在一个批处理中包含N个说话人,每个人M条语音,针对每个人的M条语音,都会计算一个中心向量,有了中心向量,便可以定义一个相似度矩阵,这里表示每条语音和每个人的中心向量的相似度。这就相当于考虑了一个批处理中每个人的每条语音和其余所有人之间的关系,这种训练方式更加高效,数据的利用率更高,计算向量之间的相似度都是在线进行,不用保存到声纹库中,符合声纹比对的逻辑进行相似度对比时效果更好,本发明实施例对声纹模型的对比方式不作限定,本领域技术人员可以根据实际需要确定。
作为本发明一个可选实施方式,上述步骤102中,提取所述单音频的音频特征的过程,包括:对所述至少一单音频进行傅里叶分析,得到所述至少一单音频的傅里叶频谱;将所述至少一单音频的傅里叶频谱进行滤波得到滤波后的至少一单音频频谱;基于所述至少一单音频的傅里叶频谱和滤波后的至少一单音频频谱得到所述至少一单音频的预设音频特征。
示例性地,单音频的音频特征的提取方法和唤醒人音频的提取方式相同,详情见上述唤醒音频特征提取方法,此处不再赘述。
本发明实施例还公开了一种音频识别装置,如图2所示,该装置包括:
获取模块201,用于获取混合音频,对所述混合音频进行分离,得到分离后的至少一单音频。示例性地,详情见上述步骤101的详细内容,此处不再赘述。
特征提取模块202,用于对分离后的至少一单音频进行特征提取,得到各所述单音频的音频特征。示例性地,详情见上述步骤102的详细内容,此处不再赘述。
对比模块203,用于将预设唤醒音频特征与各所述单音频的音频特征分别输入到预设的声纹模型,得到至少一声纹对比输出结果;所述预设唤醒音频特征为基于所述唤醒音频进行特征提取得到的。示例性地,详情见上述步骤103的详细内容,此处不再赘述。
输出模块204,用于对比各所述声纹对比输出结果,将相似度最高的单音频确定为所述唤醒音频。示例性地,详情见上述步骤104的详细内容,此处不再赘述。
本发明提供的音频识别装置,该装置包括:
获取模块201,用于获取混合音频,对所述混合音频进行分离,得到分离后的至少一单音频。特征提取模块202,用于对分离后的至少一单音频进行特征提取,得到各所述单音频的音频特征。对比模块203,用于将预设唤醒音频特征与各所述单音频的音频特征分别输入到预设的声纹模型,得到至少一声纹对比输出结果;所述预设唤醒音频特征为基于所述唤醒音频进行特征提取得到的。输出模块204,用于对比各所述声纹对比输出结果,将相似度最高的单音频确定为所述唤醒音频。通过对混合音频进行分离,将分离后的音频特征与预设唤醒音频特征进行一一对比得到与唤醒人音频特征最相似的音频,可以准确的在混合音频中识别到唤醒音频,不受限于唤醒人的位置等环境因素。
本发明实施例还提供了一种电子设备,如图3所示,该电子设备可以包括处理器301和存储器302,其中处理器301和存储器302可以通过总线或者其他方式连接,图3中以通过总线连接为例。
处理器301可以为中央处理器(Central Processing Unit,CPU)。处理器301还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器302作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的违法行为检测方法对应的程序指令/模块。处理器301通过运行存储在存储器302中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的音频识别方法。
存储器302可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储处理器301所创建的数据等。此外,存储器302可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器302可选包括相对于处理器301远程设置的存储器,这些远程存储器可以通过网络连接至处理器301。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器302中,当被所述处理器301执行时,执行如图1所示实施例中的音频识别方法。
上述电子设备具体细节可以对应参阅图1所示的实施例中对应的相关描述和效果进行理解,此处不再赘述。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(RandomAccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (9)
1.一种音频识别方法,其特征在于,包括:
获取混合音频,对所述混合音频进行分离,得到分离后的至少一单音频;
对分离后的至少一单音频进行特征提取,得到各所述单音频的音频特征;
将预设唤醒音频特征与各所述单音频的音频特征分别输入到预设的声纹模型,得到至少一声纹对比输出结果;所述预设唤醒音频特征为基于所述唤醒音频进行特征提取得到的;
对比各所述声纹对比输出结果,将相似度最高的单音频确定为所述唤醒音频。
2.根据权利要求1所述的方法,其特征在于,提取所述预设唤醒音频特征的过程,包括:
对所述唤醒音频进行傅里叶分析,得到所述唤醒音频的傅里叶频谱;
将所述傅里叶频谱进行滤波得到滤波后的频谱;
基于所述傅里叶频谱和滤波后的频谱得到所述预设唤醒音频特征。
3.根据权利要求2所述的方法,其特征在于,所述基于所述傅里叶频谱和滤波后的频谱得到所述唤醒音频特征,包括:
将所述傅里叶频谱和滤波后的频谱进行点乘,并对点乘后的频谱取对数得到所述唤醒音频特征。
4.根据权利要求1所述的方法,其特征在于,所述获取混合音频,对所述混合音频进行分离,得到分离后的至少一单音频,包括:
将所述混合音频进行编码,将编码后的混合音频输入到分离掩码模块,得到掩码矩阵;
将所述掩码矩阵与编码后的混合音频相乘再进行线性解码器进行解码得到所述至少一单音频。
5.根据权利要求1所述的方法,其特征在于,所述将预设唤醒音频特征与各所述单音频的音频特征分别输入到预设的声纹模型,得到至少一声纹对比输出结果,包括:
将所述预设唤醒音频特征和所述单音频的音频特征输入到声纹模型,得到所述唤醒人音频和所述单音频的相似度分数。
6.根据权利要求1所述的方法,其特征在于,提取所述单音频的音频特征的步骤,包括:
对所述至少一单音频进行傅里叶分析,得到所述至少一单音频的傅里叶频谱;
将所述至少一单音频的傅里叶频谱进行滤波得到滤波后的至少一单音频频谱;
基于所述至少一单音频的傅里叶频谱和滤波后的至少一单音频频谱得到所述至少一单音频的预设音频特征。
7.一种音频识别装置,其特征在于,包括:
获取模块,用于获取混合音频,对所述混合音频进行分离,得到分离后的至少一单音频;
特征提取模块,用于对分离后的至少一单音频进行特征提取,得到各所述单音频的音频特征;
对比模块,用于将预设唤醒音频特征与各所述单音频的音频特征分别输入到预设的声纹模型,得到至少一声纹对比输出结果;所述预设唤醒音频特征为基于所述唤醒音频进行特征提取得到的;
输出模块,用于对比各所述声纹对比输出结果,将相似度最高的单音频确定为所述唤醒音频。
8.一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-6任一所述的音频识别方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的音频识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111138660.2A CN113782034A (zh) | 2021-09-27 | 2021-09-27 | 一种音频识别方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111138660.2A CN113782034A (zh) | 2021-09-27 | 2021-09-27 | 一种音频识别方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113782034A true CN113782034A (zh) | 2021-12-10 |
Family
ID=78853885
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111138660.2A Pending CN113782034A (zh) | 2021-09-27 | 2021-09-27 | 一种音频识别方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113782034A (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764184A (zh) * | 2018-06-01 | 2018-11-06 | 广东工业大学 | 一种心肺音信号的分离方法、装置、设备及存储介质 |
CN109524011A (zh) * | 2018-10-22 | 2019-03-26 | 四川虹美智能科技有限公司 | 一种基于声纹识别的冰箱唤醒方法及装置 |
CN109979438A (zh) * | 2019-04-04 | 2019-07-05 | Oppo广东移动通信有限公司 | 语音唤醒方法及电子设备 |
CN110070882A (zh) * | 2019-04-12 | 2019-07-30 | 腾讯科技(深圳)有限公司 | 语音分离方法、语音识别方法及电子设备 |
CN111210829A (zh) * | 2020-02-19 | 2020-05-29 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、***、设备和计算机可读存储介质 |
CN111816185A (zh) * | 2020-07-07 | 2020-10-23 | 广东工业大学 | 一种对混合语音中说话人的识别方法及装置 |
CN112289338A (zh) * | 2020-10-15 | 2021-01-29 | 腾讯科技(深圳)有限公司 | 信号处理方法及装置、计算机设备以及可读存储介质 |
CN112735435A (zh) * | 2020-12-25 | 2021-04-30 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 具备未知类别内部划分能力的声纹开集识别方法 |
CN113241059A (zh) * | 2021-04-27 | 2021-08-10 | 标贝(北京)科技有限公司 | 语音唤醒方法、装置、设备及存储介质 |
CN113362829A (zh) * | 2021-06-04 | 2021-09-07 | 思必驰科技股份有限公司 | 说话人验证方法、电子设备及存储介质 |
CN113393847A (zh) * | 2021-05-27 | 2021-09-14 | 杭州电子科技大学 | 基于Fbank特征和MFCC特征融合的声纹识别方法 |
-
2021
- 2021-09-27 CN CN202111138660.2A patent/CN113782034A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764184A (zh) * | 2018-06-01 | 2018-11-06 | 广东工业大学 | 一种心肺音信号的分离方法、装置、设备及存储介质 |
CN109524011A (zh) * | 2018-10-22 | 2019-03-26 | 四川虹美智能科技有限公司 | 一种基于声纹识别的冰箱唤醒方法及装置 |
CN109979438A (zh) * | 2019-04-04 | 2019-07-05 | Oppo广东移动通信有限公司 | 语音唤醒方法及电子设备 |
CN110070882A (zh) * | 2019-04-12 | 2019-07-30 | 腾讯科技(深圳)有限公司 | 语音分离方法、语音识别方法及电子设备 |
CN111210829A (zh) * | 2020-02-19 | 2020-05-29 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、***、设备和计算机可读存储介质 |
CN111816185A (zh) * | 2020-07-07 | 2020-10-23 | 广东工业大学 | 一种对混合语音中说话人的识别方法及装置 |
CN112289338A (zh) * | 2020-10-15 | 2021-01-29 | 腾讯科技(深圳)有限公司 | 信号处理方法及装置、计算机设备以及可读存储介质 |
CN112735435A (zh) * | 2020-12-25 | 2021-04-30 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 具备未知类别内部划分能力的声纹开集识别方法 |
CN113241059A (zh) * | 2021-04-27 | 2021-08-10 | 标贝(北京)科技有限公司 | 语音唤醒方法、装置、设备及存储介质 |
CN113393847A (zh) * | 2021-05-27 | 2021-09-14 | 杭州电子科技大学 | 基于Fbank特征和MFCC特征融合的声纹识别方法 |
CN113362829A (zh) * | 2021-06-04 | 2021-09-07 | 思必驰科技股份有限公司 | 说话人验证方法、电子设备及存储介质 |
Non-Patent Citations (16)
Title |
---|
JACK: "GE2E论文笔记", 《知乎HTTPS://ZHUANLAN.ZHIHU.COM/P/108536398》 * |
JACK: "GE2E论文笔记", 《知乎HTTPS://ZHUANLAN.ZHIHU.COM/P/108536398》, 26 December 2019 (2019-12-26), pages 1 - 10 * |
JACK_WOO: "1710.10467 generalized end-to-end loss for speaker verification", 《HTTPS://WWW.JIANSHU.COM/P/D70C0DFF5721》 * |
JACK_WOO: "1710.10467 generalized end-to-end loss for speaker verification", 《HTTPS://WWW.JIANSHU.COM/P/D70C0DFF5721》, 24 February 2020 (2020-02-24), pages 1 - 9 * |
LIGHT SEA: "GE2E", 《知乎HTTPS://ZHUANLAN.ZHIHU.COM/P/339630443》 * |
LIGHT SEA: "GE2E", 《知乎HTTPS://ZHUANLAN.ZHIHU.COM/P/339630443》, 25 December 2020 (2020-12-25), pages 1 - 5 * |
WAN, LI ET AL.: "Generalized End-to-End Loss for Speaker Verification", 《AXXIV》 * |
WAN, LI ET AL.: "Generalized End-to-End Loss for Speaker Verification", 《AXXIV》, 31 January 2018 (2018-01-31) * |
WAN, LI, ET AL.: "Generalized end-to-end loss for speaker verification", 《ARXIV》 * |
WAN, LI, ET AL.: "Generalized end-to-end loss for speaker verification", 《ARXIV》, 9 November 2020 (2020-11-09) * |
卑微的蜗牛: "声纹识别算法阅读之GE2E", 《博客园HTTPS://WWW.CNBLOGS.COM/ZY230530/P/13657678.HTML》 * |
卑微的蜗牛: "声纹识别算法阅读之GE2E", 《博客园HTTPS://WWW.CNBLOGS.COM/ZY230530/P/13657678.HTML》, 12 September 2020 (2020-09-12), pages 1 - 6 * |
大鱼不做程序猿: "GENERALIZED END-TO-END LOSS FOR SPEAKER VERIFICATION", 《HTTPS://BLOG.CSDN.NET/QQ_40703471/ARTICLE/DETAILS/113078468》 * |
大鱼不做程序猿: "GENERALIZED END-TO-END LOSS FOR SPEAKER VERIFICATION", 《HTTPS://BLOG.CSDN.NET/QQ_40703471/ARTICLE/DETAILS/113078468》, 24 January 2021 (2021-01-24), pages 1 - 5 * |
曾向阳: "《智能水中目标识别》", 31 March 2016, pages: 225 - 228 * |
韩志艳: "《语音识别及语音可视化技术研究》", 31 January 2017, 东北大学出版社, pages: 50 - 52 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109473123B (zh) | 语音活动检测方法及装置 | |
DE112017003563B4 (de) | Verfahren und system einer automatischen spracherkennung unter verwendung von a-posteriori-vertrauenspunktzahlen | |
CN108766418B (zh) | 语音端点识别方法、装置及设备 | |
CN106683680B (zh) | 说话人识别方法及装置、计算机设备及计算机可读介质 | |
US20160111112A1 (en) | Speaker change detection device and speaker change detection method | |
CN110299142B (zh) | 一种基于网络融合的声纹识别方法及装置 | |
CN109147798B (zh) | 语音识别方法、装置、电子设备及可读存储介质 | |
CN109658921B (zh) | 一种语音信号处理方法、设备及计算机可读存储介质 | |
CN112435684A (zh) | 语音分离方法、装置、计算机设备和存储介质 | |
CN111554302A (zh) | 基于声纹识别的策略调整方法、装置、终端及存储介质 | |
CN108847253B (zh) | 车辆型号识别方法、装置、计算机设备及存储介质 | |
DE102019109148A1 (de) | Wake-on-voice-schlüsselphrasensegmentierung | |
CN110807093A (zh) | 语音处理方法、装置及终端设备 | |
CN110648671A (zh) | 声纹模型重建方法、终端、装置及可读存储介质 | |
CN110570870A (zh) | 一种文本无关的声纹识别方法、装置及设备 | |
CN111009248A (zh) | 说话者识别装置、说话者识别方法及记录介质 | |
CN111785288A (zh) | 语音增强方法、装置、设备及存储介质 | |
CN110570871A (zh) | 一种基于TristouNet的声纹识别方法、装置及设备 | |
US11410685B1 (en) | Method for detecting voice splicing points and storage medium | |
CN115394318A (zh) | 一种音频检测方法和装置 | |
DE112018007847T5 (de) | Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und programm | |
CN109065026B (zh) | 一种录音控制方法及装置 | |
CN111785302A (zh) | 说话人分离方法、装置及电子设备 | |
CN107993666B (zh) | 语音识别方法、装置、计算机设备及可读存储介质 | |
CN113782034A (zh) | 一种音频识别方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211210 |
|
RJ01 | Rejection of invention patent application after publication |