CN113782034A

CN113782034A - 一种音频识别方法、装置及电子设备

Info

Publication number: CN113782034A
Application number: CN202111138660.2A
Authority: CN
Inventors: 于洋
Original assignee: Mgjia Beijing Technology Co ltd
Current assignee: Mgjia Beijing Technology Co ltd
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2021-12-10

Abstract

本发明公开了一种音频识别方法、装置及电子设备，该方法包括：获取混合音频，对混合音频进行分离，得到分离后的至少一单音频；对分离后的至少一单音频进行特征提取，得到各单音频的音频特征；将预设唤醒音频特征与各单音频的音频特征分别输入到预设的声纹模型，得到至少一声纹对比输出结果；预设唤醒音频特征为基于唤醒音频进行特征提取得到的；对比各声纹对比输出结果，将相似度最高的单音频确定为唤醒音频。通过对混合音频进行分离，将分离后的音频特征与预设唤醒音频特征进行一一对比得到与唤醒人音频特征最相似的音频，可以准确地在混合音频中识别到唤醒音频，不受限于唤醒人的位置等环境因素。

Description

一种音频识别方法、装置及电子设备

技术领域

本发明涉及混合音频的识别技术领域，具体涉及一种音频识别方法、装置及电子设备。

背景技术

现有的语音对话***中，当出现多个人同时说话的时候，机器识别不到真正想下发指令的是谁，因此不能准确的识别到正确的指令，现有技术中首先挑选语音识别***中唤醒人的定位结果，根据定位结果识别混合音频中的多个音频，基于该定位结果从多个音频中筛选出唤醒音频，并执行相应指令。由于这种方法需要依靠定位结果进行音频的筛选，受限于说话人所处的空间，当唤醒人位置发生变化时，则容易导致算法失效，识别结果不准确。

发明内容

因此，本发明要解决的技术问题在于克服现有技术中混合音频的识别中受限于说话人所处的空间，当唤醒人位置发生变化时，则容易导致算法失效，识别结果不准确，从而提供一种音频识别方法、装置及电子设备。

根据第一方面，本发明实施例公开了一种音频识别方法，包括：获取混合音频，对所述混合音频进行分离，得到分离后的至少一单音频；对分离后的至少一单音频进行特征提取，得到各所述单音频的音频特征；将预设唤醒音频特征与各所述单音频的音频特征分别输入到预设的声纹模型，得到至少一声纹对比输出结果；所述预设唤醒音频特征为基于所述唤醒音频进行特征提取得到的；对比各所述声纹对比输出结果，将相似度最高的单音频确定为所述唤醒音频。

可选地，提取所述预设唤醒音频特征的过程，包括：对所述唤醒音频进行傅里叶分析，得到所述唤醒音频的傅里叶频谱；将所述傅里叶频谱进行滤波得到滤波后的频谱；基于所述傅里叶频谱和滤波后的频谱得到所述预设唤醒音频特征。

可选地，所述基于所述傅里叶频谱和滤波后的频谱得到所述唤醒音频特征，包括：将所述傅里叶频谱和滤波后的频谱进行点乘，并对点乘后的频谱取对数得到所述唤醒音频特征。

可选地，所述获取混合音频，对所述混合音频进行分离，得到分离后的至少一单音频，包括：将所述混合音频进行编码，将编码后的混合音频输入到分离掩码模块，得到掩码矩阵；将所述掩码矩阵与编码后的混合音频相乘再进行线性解码器进行解码得到所述至少一单音频。

可选地，所述将预设唤醒音频特征与各所述单音频的音频特征分别输入到预设的声纹模型，得到至少一声纹对比输出结果，包括：将所述预设唤醒音频特征和所述单音频的音频特征输入到声纹模型，得到所述唤醒人音频和所述单音频的相似度分数。

可选地，提取所述单音频的音频特征的步骤，包括：对所述至少一单音频进行傅里叶分析，得到所述至少一单音频的傅里叶频谱；将所述至少一单音频的傅里叶频谱进行滤波得到滤波后的至少一单音频频谱；基于所述至少一单音频的傅里叶频谱和滤波后的至少一单音频频谱得到所述至少一单音频的预设音频特征。

根据第二方面，本发明实施例还公开了一种音频识别装置，包括：获取模块，用于获取混合音频，对所述混合音频进行分离，得到分离后的至少一单音频；特征提取模块，用于对分离后的至少一单音频进行特征提取，得到各所述单音频的音频特征；对比模块，用于将预设唤醒音频特征与各所述单音频的音频特征分别输入到预设的声纹模型，得到至少一声纹对比输出结果；所述预设唤醒音频特征为基于所述唤醒音频进行特征提取得到的；输出模块，用于对比各所述声纹对比输出结果，将相似度最高的单音频确定为所述唤醒音频。

根据第三方面，本发明实施例还公开了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如第一方面或第一方面任一可选实施方式所述的音频识别方法的步骤。

根据第四方面，本发明实施方式还公开了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面或第一方面任一可选实施方式所述的音频识别方法的步骤。

本发明技术方案，具有如下优点：

本发明提供的音频识别方法、装置及电子设备，该方法包括：获取混合音频，对混合音频进行分离，得到分离后的至少一单音频；对分离后的至少一单音频进行特征提取，得到各单音频的音频特征；将预设唤醒音频特征与各单音频的音频特征分别输入到预设的声纹模型，得到至少一声纹对比输出结果；预设唤醒音频特征为基于唤醒音频进行特征提取得到的；对比各声纹对比输出结果，将相似度最高的单音频确定为唤醒音频。通过对混合音频进行分离，将分离后的音频特征与预设唤醒音频特征进行一一对比得到与唤醒人音频特征最相似的音频，可以准确的在混合音频中识别到唤醒音频，不受限于唤醒人的位置等环境因素。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中音频识别方法的一个具体示例的流程图；

图2为本发明实施例中音频识别装置的一个具体示例的原理框图；

图3为本发明实施例中电子设备的一个具体示例图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，还可以是两个元件内部的连通，可以是无线连接，也可以是有线连接。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本发明实施例公开了一种音频识别方法，如图1所示，该方法包括如下步骤：

步骤101：获取混合音频，对所述混合音频进行分离，得到分离后的至少一单音频。

示例性地，混合音频为人机对话***中采集到的音频信息，该音频信息中包含一个或多个人的音频，为使得人机对话***识别到正确的指令，需要在采集到的混合音频中识别出唤醒音频，从而执行正确的指令。例如，在人车对话***中，可能存在坐在主驾、副驾和后排的人同时说话的情况，这时车内的对话***就很难识别到真正坐在主驾的司机要下发什么指令，因此车内的对话***就需要准确地识别到主驾司机的音频信息，本申请实施例中均以车内对话***为例进行介绍。

步骤102：对分离后的至少一单音频进行特征提取，得到各所述单音频的音频特征。示例性地，在步骤101中实现了对混合音频的分离，得到了至少一单音频，为了识别到正确的唤醒音频特征，需要对分离后的单音频进行特征提取，来识别分离后的单音频中的唤醒人音频。

步骤103：将预设唤醒音频特征与各所述单音频的音频特征分别输入到预设的声纹模型，得到至少一声纹对比输出结果；所述预设唤醒音频特征为基于所述唤醒音频进行特征提取得到的。

示例性地，将唤醒音频特征和对混合音频分离后得到的单音频的音频特征分别输入到声纹模型中，通过声纹模型判断分离出的每一个单音频与预设的唤醒人音频的对比输出结果，对比输出结果用以表示单音频的音频特征与唤醒音频特征的相似度。

步骤104：对比各所述声纹对比输出结果，将相似度最高的单音频确定为所述唤醒音频。示例性地，根据每一个单音频的音频特征与唤醒音频特征的对比输出结果，对比输出结果中选取与唤醒音频特征最相似的单音频作为唤醒音频，对话***执行相似度最高的单音频的指令。

本发明实施例提供的音频识别方法，包括：获取混合音频，对混合音频进行分离，得到分离后的至少一单音频；对分离后的至少一单音频进行特征提取，得到各单音频的音频特征；将预设唤醒音频特征与各单音频的音频特征分别输入到预设的声纹模型，得到至少一声纹对比输出结果；预设唤醒音频特征为基于唤醒音频进行特征提取得到的；对比各声纹对比输出结果，将相似度最高的单音频确定为唤醒音频。通过对混合音频进行分离，将分离后的音频特征与预设唤醒音频特征进行一一对比得到与唤醒人音频特征最相似的音频，可以准确的在混合音频中识别到唤醒音频，不受限于唤醒人的位置等环境因素。

作为本发明的一个可选实施方式，该预设唤醒音频特征是用于与从混合音频中分离得到的单音频进行对比，是预先存储的，作为评判单音频的标准，提取所述预设唤醒音频特征的过程，包括：对所述唤醒音频进行傅里叶分析，得到所述唤醒音频的傅里叶频谱；将所述傅里叶频谱进行滤波得到滤波后的频谱；基于所述傅里叶频谱和滤波后的频谱得到所述预设唤醒音频特征。

示例性地，唤醒音频特征的提取为计算音频的特征向量，具体地，其中特征向量的计算可以是：a)音频信号经过短时傅里叶分析，得到FFT(Fast Fourier Transform，快速傅里叶变化)对应的频谱；b)将上面的频谱通过Mel滤波器组得到Mel频谱；c)将a)和b)得到的结果点乘，再取对数，便可以得到特征向量。本发明实施例对音频特征的提取方法不作限定，本领域技术人员可以根据实际需要确定。

作为本发明的一个可选实施方式，所述步骤101中，获取混合音频，对所述混合音频进行分离，得到分离后的至少一单音频的过程，包括：将所述混合音频进行编码，将编码后的混合音频输入到分离掩码模块，得到掩码矩阵；将所述掩码矩阵与编码后的混合音频相乘再进行线性解码器进行解码得到所述至少一单音频。

示例性地，混合音频经过分离模型得到分离后的单音频，例如，混合的音频，可以在云端识别***中经过分离模型，得到若干条音频B1，B2，…，Bn等。采用端到端神经网络模型的进行分离，具体地可以采用卷积时域音频分离网络架构，混合的音频经过编码器编码后，解码输出若干分离好的音频，在编码器和解码器中间的分离掩码模块，是由一些堆叠的卷积层组成，分离掩码模块负责输出一个掩码的矩阵，与时域上的混合音频相乘，再经过解码器得到分离好的音频作为结果。通过使用端到端的神经网络模型对混合音频进行分离，使得分离的单音频更加准确，性能更好。

作为本发明一个可选实施方式，上述步骤103，具体包括：将所述唤醒人的预设音频特征和所述单音频的音频特征输入到声纹模型，得到所述唤醒人音频和所述单音频的相似度分数。

示例性地，分离后的单音频进过声纹模型得到每一个单音频的音频特征与唤醒音频特征的相似度，具体地，唤醒音频特征向量分别经过声纹模型，得到声纹模型的分数S1，S2，…，Sn。声纹模型可以是端到端的神经网络模型，输入两段音频的特征向量，输出这两段音频的相似度分数。声纹模型可以采用Generalized-loss进行训练，这种损失函数会使得网络在更新参数的时候更注重于那些不容易被区分的数据，损失函数Generalized-loss增加了一个批处理内可以考虑的关系，例如，在一个批处理中包含N个说话人，每个人M条语音，针对每个人的M条语音，都会计算一个中心向量，有了中心向量，便可以定义一个相似度矩阵，这里表示每条语音和每个人的中心向量的相似度。这就相当于考虑了一个批处理中每个人的每条语音和其余所有人之间的关系，这种训练方式更加高效，数据的利用率更高，计算向量之间的相似度都是在线进行，不用保存到声纹库中，符合声纹比对的逻辑进行相似度对比时效果更好，本发明实施例对声纹模型的对比方式不作限定，本领域技术人员可以根据实际需要确定。

作为本发明一个可选实施方式，上述步骤102中，提取所述单音频的音频特征的过程，包括：对所述至少一单音频进行傅里叶分析，得到所述至少一单音频的傅里叶频谱；将所述至少一单音频的傅里叶频谱进行滤波得到滤波后的至少一单音频频谱；基于所述至少一单音频的傅里叶频谱和滤波后的至少一单音频频谱得到所述至少一单音频的预设音频特征。

示例性地，单音频的音频特征的提取方法和唤醒人音频的提取方式相同，详情见上述唤醒音频特征提取方法，此处不再赘述。

本发明实施例还公开了一种音频识别装置，如图2所示，该装置包括：

获取模块201，用于获取混合音频，对所述混合音频进行分离，得到分离后的至少一单音频。示例性地，详情见上述步骤101的详细内容，此处不再赘述。

特征提取模块202，用于对分离后的至少一单音频进行特征提取，得到各所述单音频的音频特征。示例性地，详情见上述步骤102的详细内容，此处不再赘述。

对比模块203，用于将预设唤醒音频特征与各所述单音频的音频特征分别输入到预设的声纹模型，得到至少一声纹对比输出结果；所述预设唤醒音频特征为基于所述唤醒音频进行特征提取得到的。示例性地，详情见上述步骤103的详细内容，此处不再赘述。

输出模块204，用于对比各所述声纹对比输出结果，将相似度最高的单音频确定为所述唤醒音频。示例性地，详情见上述步骤104的详细内容，此处不再赘述。

本发明提供的音频识别装置，该装置包括：

获取模块201，用于获取混合音频，对所述混合音频进行分离，得到分离后的至少一单音频。特征提取模块202，用于对分离后的至少一单音频进行特征提取，得到各所述单音频的音频特征。对比模块203，用于将预设唤醒音频特征与各所述单音频的音频特征分别输入到预设的声纹模型，得到至少一声纹对比输出结果；所述预设唤醒音频特征为基于所述唤醒音频进行特征提取得到的。输出模块204，用于对比各所述声纹对比输出结果，将相似度最高的单音频确定为所述唤醒音频。通过对混合音频进行分离，将分离后的音频特征与预设唤醒音频特征进行一一对比得到与唤醒人音频特征最相似的音频，可以准确的在混合音频中识别到唤醒音频，不受限于唤醒人的位置等环境因素。

本发明实施例还提供了一种电子设备，如图3所示，该电子设备可以包括处理器301和存储器302，其中处理器301和存储器302可以通过总线或者其他方式连接，图3中以通过总线连接为例。

处理器301可以为中央处理器(Central Processing Unit，CPU)。处理器301还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器302作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本发明实施例中的违法行为检测方法对应的程序指令/模块。处理器301通过运行存储在存储器302中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及数据处理，即实现上述方法实施例中的音频识别方法。

存储器302可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储处理器301所创建的数据等。此外，存储器302可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器302可选包括相对于处理器301远程设置的存储器，这些远程存储器可以通过网络连接至处理器301。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个模块存储在所述存储器302中，当被所述处理器301执行时，执行如图1所示实施例中的音频识别方法。

上述电子设备具体细节可以对应参阅图1所示的实施例中对应的相关描述和效果进行理解，此处不再赘述。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(RandomAccessMemory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种音频识别方法，其特征在于，包括：

获取混合音频，对所述混合音频进行分离，得到分离后的至少一单音频；

对分离后的至少一单音频进行特征提取，得到各所述单音频的音频特征；

将预设唤醒音频特征与各所述单音频的音频特征分别输入到预设的声纹模型，得到至少一声纹对比输出结果；所述预设唤醒音频特征为基于所述唤醒音频进行特征提取得到的；

对比各所述声纹对比输出结果，将相似度最高的单音频确定为所述唤醒音频。

2.根据权利要求1所述的方法，其特征在于，提取所述预设唤醒音频特征的过程，包括：

对所述唤醒音频进行傅里叶分析，得到所述唤醒音频的傅里叶频谱；

将所述傅里叶频谱进行滤波得到滤波后的频谱；

基于所述傅里叶频谱和滤波后的频谱得到所述预设唤醒音频特征。

3.根据权利要求2所述的方法，其特征在于，所述基于所述傅里叶频谱和滤波后的频谱得到所述唤醒音频特征，包括：

将所述傅里叶频谱和滤波后的频谱进行点乘，并对点乘后的频谱取对数得到所述唤醒音频特征。

4.根据权利要求1所述的方法，其特征在于，所述获取混合音频，对所述混合音频进行分离，得到分离后的至少一单音频，包括：

将所述混合音频进行编码，将编码后的混合音频输入到分离掩码模块，得到掩码矩阵；

将所述掩码矩阵与编码后的混合音频相乘再进行线性解码器进行解码得到所述至少一单音频。

5.根据权利要求1所述的方法，其特征在于，所述将预设唤醒音频特征与各所述单音频的音频特征分别输入到预设的声纹模型，得到至少一声纹对比输出结果，包括：

将所述预设唤醒音频特征和所述单音频的音频特征输入到声纹模型，得到所述唤醒人音频和所述单音频的相似度分数。

6.根据权利要求1所述的方法，其特征在于，提取所述单音频的音频特征的步骤，包括：

对所述至少一单音频进行傅里叶分析，得到所述至少一单音频的傅里叶频谱；

将所述至少一单音频的傅里叶频谱进行滤波得到滤波后的至少一单音频频谱；

基于所述至少一单音频的傅里叶频谱和滤波后的至少一单音频频谱得到所述至少一单音频的预设音频特征。

7.一种音频识别装置，其特征在于，包括：

获取模块，用于获取混合音频，对所述混合音频进行分离，得到分离后的至少一单音频；

特征提取模块，用于对分离后的至少一单音频进行特征提取，得到各所述单音频的音频特征；

对比模块，用于将预设唤醒音频特征与各所述单音频的音频特征分别输入到预设的声纹模型，得到至少一声纹对比输出结果；所述预设唤醒音频特征为基于所述唤醒音频进行特征提取得到的；

输出模块，用于对比各所述声纹对比输出结果，将相似度最高的单音频确定为所述唤醒音频。

8.一种电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如权利要求1-6任一所述的音频识别方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的音频识别方法的步骤。