CN114067782A

CN114067782A - 音频识别方法及其装置、介质和芯片***

Info

Publication number: CN114067782A
Application number: CN202010759752.1A
Authority: CN
Inventors: 杨舒; 张柏雄; 吴义镇
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2022-02-18

Abstract

本申请涉及一种音频识别方法及其装置、介质和芯片***，涉及人工智能(Artificial Intelligence，AI)领域的语音识别技术。本申请的音频识别方法包括：获取待识别音频；通过线性预测器从待识别音频中分离出表示声道特征的低频部分和表示声源特征的高频谐波部分；并基于从低频部分中提取的第一音频特征和从高频谐波部分中提取的第二音频特征中的至少一种，对音频进行识别以确定待识别音频的类型。将高频谐波部分与低频部分分离后可以采用不同的算法对两部分进行音频特征提取，可以提高音频识别的准确度。

Description

音频识别方法及其装置、介质和芯片***

技术领域

本申请涉及语音识别领域，特别涉及一种音频识别方法及其装置、介质和芯片***。

背景技术

随着互联网和信息技术的迅速发展，人们生活水平的日益提高，对生活的质量及工作要求也越来越高，音频作为人们日常生活及工作中的一种媒介，极大地影响着日常生活的行为。音频中包含有异常丰富的信息，例如，环境、语种或方言、情绪等等，音频处理就是在复杂的语音环境中提取有效的音频信息，通过对从音频中提取的音频信息的分析，可以对音频对应的环境中的噪音类型进行区分、对音频中的人或物的声音进行区分(声纹识别)等等。

以声纹识别为例，声纹特征是指能惟一识别某人或某物的声音特征，是用电声学仪器显示的携带声音信息的声波频谱。声纹识别技术是一种基于发音装置所表征出来的生理与物理特征实现自动鉴别发音装置属性和类别的应用技术。声纹识别一般由音频预处理、声音特征参数提取以及声纹模型训练决策三部分组成。其中，音频特征提取作为声纹识别的关键部分之一，旨在提取出反映声音特性的特征参数，它的选择将直接影响声纹识别的整体效果。声音特征参数的选取以类间距离最大，类内距离最小为佳。声纹识别领域常用的声音特征参数有梅尔倒谱系数(Mel Frequency Cepstral Coefficents，MFCC)。

发明内容

本申请实施例提供一种音频识别方法及其装置、介质和芯片***，以提高音频识别的准确度。

本申请的第一方面提供了一种音频识别方法，包括：获取待识别音频；通过线性预测器从待识别音频中分离出第一频段范围部分和第二频段范围部分，其中，第一频段范围部分包含的频段的频率低于第二频段范围部分包含的频段的频率；基于从第一频段范围部分中提取的第一音频特征和从第二频段范围部分中提取的第二音频特征中的至少一种，对音频进行识别以确定待识别音频的类型。

在该方法中，将音频中表示声道特征的低频部分或者说声道信号(第一频段范围部分)和表示声源特征的高频谐波部分或者说声源信号(第二频段范围部分)分离开来，分别提取音频特征。可以避免高频谐波部分对例如MFCC这种模拟人耳耳蜗感知能力的音频特征提取算法的干扰，以提高音频识别的准确度。

在上述第一方面的一种可能的实现中，通过小波变换从第二频段范围部分中提取第二音频特征，其中第二音频特征为通过小波变换得到的时频特征。

在上述第一方面的一种可能的实现中，第一频段范围部分表征发出待识别音频的发声物体的声道的特征，第二频段范围部分表征发声物体的声源的特征。

在上述第一方面的一种可能的实现中，通过线性预测器从待识别音频中分离出第一频段范围部分和第二频段范围部分包括：通过线性预测器从待识别音频中分离出第一频段范围部分，并将分离出第一频段范围部分后待识别音频的剩余部分，作为第二频段范围部分。

在上述第一方面的一种可能的实现中，还包括：通过模拟人耳耳蜗感知能力的音频特征提取算法从第一频段范围部分中提取第一音频特征。

在上述第一方面的一种可能的实现中，模拟人耳耳蜗感知能力的音频特征提取算法为梅尔频率倒谱系数MFCC提取法，并且第一音频特征为梅尔频率倒谱系数MFCC。

在上述第一方面的一种可能的实现中，基于从第一频段范围部分中提取的第一音频特征和从第二频段范围部分中提取的第二音频特征中的至少一种，对音频进行识别以确定待识别音频的类型包括：

将待识别音频的第一音频特征或第二音频特征与对应第一音频类型的第一音频特征进行匹配，并在匹配度大于第一匹配度阈值时，确定待识别音频的类型为第一音频类型。即采用第一音频特征和第二音频特征中的一种特征进行音频识别，例如，通过将待识别音频的第一音频特征或者第二音频特征与已知音频类型的音频特征进行匹配，确定待识别音频的类型是否是该已知的音频类型。

将第一音频特征和第二音频特征进行融合得到融合音频特征，并将融合音频特征与对应第二音频类型的第二音频特征进行匹配，并在匹配度大于第二匹配度阈值时，确定待识别音频的类型为第二音频类型。

即通过融合的方式，同时采用第一音频特征和第二音频特征进行音频识别。例如，在第一音频特征和第二音频特征分别是MFCC特征参数和时频特征参数的情况下，可以将两者进行线性融合，组合成特征向量。或者将二者进行归一化处理后再进行线性融合，还可以将二者进行加权后再进行线性融合，组合成特征向量。对特征向量计算其对应的特征值，在计算出的特征值与第二音频类型对应的特征值之间的差异大于第二匹配度阈值的情况下，则待识别音频的类型为第二音频类型。

将第一音频特征、第二音频特征或者第一音频特征和第二音频特征的融合音频特征输入神经网络模型中，得到待识别音频的类型。

在上述第一方面的一种可能的实现中，待识别音频包括噪音。

例如，用户佩戴降噪耳机搭乘地铁，降噪耳机通过麦克风采集地铁内的音频，在音频强度超过降噪耳机内预设的声强阈值的情况下，降噪耳机通过线性滤波器从采集到的音频中分离出声道信号和声源信号。之后，对声道信号提取MFCC特征参数，对声源信号提取时频特征参数。最后，根据MFCC特征参数和时频特征参数识别出音频，并通过降噪耳机进行降噪。

本申请的第二方面提供了一种音频识别装置，包括：获取模块，用于获取待识别音频；分离模块，用于从待识别音频中分离出第一频段范围部分和第二频段范围部分，其中，第一频段范围部分包含的频段的频率低于第二频段范围部分包含的频段的频率；识别模块，基于从第一频段范围部分中提取的第一音频特征和从第二频段范围部分中提取的第二音频特征中的至少一种，对音频进行识别以确定待识别音频的类型。所述音频识别装置可以实现前述第一方面提供的任一方法。

本申请的第三方面提供了一种计算机可读介质，其特征在于，计算机可读介质上存储有指令，该指令在计算机上执行时使计算机执行前述第一方面提供的任一方法。

本申请的第四方面提供了一种电子装置，包括：处理器，处理器和存储器耦合，存储器存储有程序指令，当存储器存储的程序指令被处理器执行时使得电子装置执行前述第一方面提供的任一方法。

本申请的第五方面提供了一种芯片***，其特征在于，芯片***包括处理器与数据接口，处理器通过数据接口读取存储器上存储的指令，以执行前述第一方面提供的任一方法。

附图说明

图1根据本申请的一些实施例，示出了一种通过本申请提供的音频识别方法进行噪声识别的场景；

图2根据本申请的一些实施例，示出了图1所示的降噪耳机的硬件结构图；

图3根据本申请的一些实施例，示出了一种采用服务器训练噪声场景识别模型，并将训练出的噪声场景识别模型移植到降噪耳机上，以实现智能降噪的流程图；

图4根据本申请的一些实施例，示出了对地铁场景下分离出来的声道信号进行MFCC特征参数提取的过程；

图5(a)根据本申请的一些实施例，示出了一种声源信号的时域波形图；

图5(b)根据本申请的一些实施例，示出了从图5(a)所示的声源信号中提取出的基音脉冲信号的时域波形图；

图5(c)根据本申请的一些实施例，示出了图5(a)所示的声源信号在不同子带频率下的时域波形图；

图6根据本申请的一些实施例，示出了一种音频识别方法的流程图；

图7根据本申请的一些实施例，示出了一种音频识别装置的结构示意图；

图8根据本申请的一些实施例，示出了一种电子设备的结构示意图；

图9根据本申请的一些实施例，示出了一种片上***(SoC)的框图。

具体实施方式

本申请的说明性实施例包括但不限于一种音频识别方法及其装置、介质和电子设备。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文本中用于描述各种元件，但除非特别说明，这些元件不受这些术语限制。这些术语仅用于将第一个元件与另外一个元件区分。

本申请实施例公开了一种音频识别方法及其装置、介质和电子设备。现有的MFCC表征的是发声装置的声道特性，其含有丰富的低频声道信号特征，但是，反映发声装置声源特性的高频声源信号特征无法被提取出并且直接从高低频掺杂的原始音频中提取梅尔倒谱系数，使得其容易被高频信号污染，影响梅尔倒谱系数的泛化能力，进而影响声纹识别的准确度。本申请提供的一些实施例通过设计一种线性预测器，将音频中的低频部分(表征发出该音频的发声物体的声道的特征)和高频谐波部分(表征发出该音频的发声物体的声源的特征)进行分离，再对分离出来的低频部分和高频谐波部分分别采用对应的特征提取算法进行特征提取，得到对应于该音频低频部分(以下简称为声道信息)的低音频特征和对应于高频谐波部分(以下简称为声源信号)的高音频特征。例如，对音频中的声道信号进行梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients，MFCC)的提取，使得提取出来的MFCC特征参数免受高频谐波的干扰，可以更好的描述该音频的发声物体的声道特性，增强MFCC特征参数的泛化能力。并且，例如，通过多尺度小波变换对该音频中通过线性预测器分离出来的声源信号进行时频特征参数提取，可以有效表征该音频的发声物体的声源特性。最后利用声道信号和声源信号在低频部分和高频谐波部分具有很强的互补性特点，将上述从低频的声道信号中提取出来的MFCC特征参数和从高频的声源信号中提取出来的时频特征参数进行线性融合成最终的特征向量，该特征向量可以更加准确地反映出音频的特点，有助于提升音频识别(例如声纹识别、噪音识别等)的效果。

可以理解，在本申请的各实施例中，发音物体可以是生物(例如人)的发音器官，也可以是非生物(例如乐器、机械、发音设备)的发音器件等各种能够产生音频的装置。

下面结合附图对本申请的实施例作进一步地详细描述。

图1根据本申请的一些实施例，示出了一种通过本申请提供的音频识别方法进行噪声识别的场景10。具体的，如图1所示，该场景10包括电子设备100以及电子设备200。其中，电子设备100能够通过本申请实提供的音频识别方法对用户所处的场景中的噪声进行识别，从而使电子设备100根据识别出的噪声类型，确定用户所处的场景类型，然后根据确定出的场景类型，自适应调整降噪模式，满足用户针对不同场景(例如飞机场、火车站、公交车、地铁、商场、会议室等等)下的个性化降噪需求，提升用户体验。

可以理解，本申请一些实施例提供的电子设备100和电子设备200可以是能够采用本申请提供的音频识别方法进行音频识别的各种电子设备，包括但不限于降噪耳机、服务器、平板电脑、智能手机、膝上型计算机、台式计算机、可穿戴电子设备、头戴式显示器、移动电子邮件设备、便携式游戏机、便携式音乐播放器等，其中嵌入或耦接有一个或多个处理器的电视机、或能够访问网络的其他电子设备。可以理解，电子设备100和电子设备200可以通过音频采集装置对用户所处不同场景下的音频进行采集。该音频采集装置可以为电子设备100或电子设备200的一部分，也可以为独立于电子设备100和电子设备200的独立的装置，可以与电子设备100和电子设备200进行数据连接，以将采集到的音频发送给电子设备100和电子设备200。

为了便于说明，下文以电子设备100为降噪耳机100，电子设备200为服务器200为例，说明本申请的技术方案。

图2根据本申请的一些实施例，示出了一种降噪耳机100的硬件结构图。具体地，如图2所示，降噪耳机100包括数据处理芯片110、音频模块120、电源模块130、降噪电路140、神经网络处理器(Neural-network Processing Unit，NPU)150、麦克风160、以及扬声器170。其中，

麦克风160用于采集用户所处场景中的音频。

音频模块120用于将数字音频信息转换成模拟音频信号后供扬声器170输出，也用于将麦克风160采集到的模拟音频信号转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理芯片110中，或将音频模块170的部分功能模块设置于处理芯片110中。

数据处理芯片110(例如数字信号处理(Digital Signal Processing，DSP)芯片)，用于将麦克风160采集到的音频中的中低频的声道信号和高频的声源信号进行分离，并且能够分别对分离出来的声道信号进行MFCC特征参数提取，对声源信号进行时频特征参数提取，以及对MFCC特征参数和时频特征参数进行融合(例如，将二者进行线性融合，组合成特征向量，或者将二者进行归一化处理，将二者进行加权后再组合等等)，得到对应于该音频的融合特征参数。神经网络处理器150用于根据提取出来的MFCC特征参数和时频特征参数的其中一种，或者将二者进行融合后得到的融合特征参数，识别出用户所处的噪声场景类型，再根据识别出来的噪声场景类型自适应匹配相应的降噪模式。在一种可能的实现方式中，所述神经网络处理器150可以位于所述降噪耳机100之外，比如可以位于与降噪耳机100协同工作的电子设备(如手机)中。

降噪电路140用于根据神经网络处理器150确定的降噪模式，产生与识别出的噪声场景对应的电信号(例如，该电信号与识别出的场景中的噪声相比，相位相反、振幅相同)。扬声器170用于将降噪电路110产生的电信号转换为声波输出，从而达到降噪的目的。电源模块130用于为神经网络处理器150、数据处理芯片110，降噪电路140，音频模块120供电。

可以理解的是，本申请实施例提供的降噪耳机100的硬件结构并不构成对降噪耳机100的具体限定。在本申请另一些实施例中，降噪耳机100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。

图3根据本申请的一些实施例，示出了图1所示场景的具体降噪技术。在该技术方案中，通过服务器200训练出噪声场景识别模型，然后将训练好的噪声场景识别模型移植到降噪耳机100上，从而使得降噪耳机100能够通过该噪声场景识别模型进行噪声类型识别，并根据识别出的噪声场景，自适应调整降噪模式。

具体地，图3所示的降噪技术主要包括噪声场景识别模型训练和模型降噪。其中，服务器200在训练噪声场景识别模型的过程中，可以将在不同场景下采集到的大量的音频数据分别通过线性预测器进行信号分离得到对应个音频数据的声源信号和声道信号。然后分别提取出声道信号的MFCC特征参数和声源信号的时频特征参数，再基于提取出的MFCC特征参数与时频特征参数以及对应的场景类型，对神经网络模型进行训练，训练出噪声场景识别模型。

需要说明的是，本申请实施例提供的音频识别方法可以适用于各种神经网络模型，例如，卷积神经网络(Convolutional Neural Network，CNN)、深度神经网络(DeepNeural Networks，DNN)以及循环神经网络(Recurrent Neural Networks，RNN)、二值神经网络(Binary Neural Network，BNN)等。其中，在具体实现中，神经网络模型的层数、每层的节点数、以及相连接的两个节点的连接参数(即两个节点连线上的权重)均可以根据实际需求进行预先设置。

如图3所示，上述噪声场景识别模型的训练过程包括：

S301：服务器200获取用于模型训练的音频数据。

可以理解，服务器200可以实时获取用于模型训练的音频数据，也可以获取音频采集装置已经采集好的音频数据。

S302：服务器200通过检测音频强度选取用于训练的音频数据。

选择音频强度达到声强阈值(例如10^-5(W/m²))的音频数据进行训练，或者服务器200实时监测通过音频采集装置(例如麦克风)采集到的音频的强度，只有当服务器200判断采集到的音频数据的音频强度达到声强阈值(例如10^-5(W/m²))时，服务器200才开始进行后续处理。例如，当服务器200判断采集到的音频数据的音频强度小于声强阈值时，可以认为当前的场景(例如下班后空无一人的办公室)非常寂静，不存在噪声。当服务器200判断采集到的音频数据的音频强度大于声强阈值时，服务器200对采集到的音频中的声道信号和声源信号进行分离，再对分离出来的声道信号和声源信号分别进行特征参数提取，得到对应于声道信号的MFCC特征参数和对应于声源信号的时频特征参数。

S303：服务器200通过线性预测从音频数据中分离出声道信号和声源信号。

在训练噪声场景识别模型时，服务器200首先需要对符合音频强度条件的、训练所用到的多个场景下的音频数据进行线性预测分离出低频的声道信号(例如音频中频率在200赫兹以下的低频部分和频率在200至3000赫兹之间的中频部分)和高频的声源信号(例如音频中频率在3000赫兹以上的部分)。

例如，以服务器200对地铁场景下的音频的特征参数提取为例，在一些实施例中，利用P阶线性预测器来分离出地铁场景中采集到的音频数据中的声道信号和声源信号。即可以通过地铁场景下的音频在过去P个历史时刻的取样值的加权和来预测地铁场景下的音频x(n)当前的取样值

(即地铁场景下的音频中的声道信号)，则地铁场景下的音频中的声道信号

可以被表示为：

其中a_i是线性预测系数，线性预测器的阶数为P阶。

P阶线性预测器的传递函数为：

为了求出线性预测系数a_i，定义地铁场景下的音频x(n)与其声道信号

之间的误差E如下：

令误差E对线性预测系数a_i的偏导数等于0，求出误差E的最小值：

结合式公式3和公式4，得到：

公式5可以被化简为如下所示：

将公式6代入到公式3得到：

因此，如果能够计算出φ(j,i)，就可以由式公式7得到线性预测系数a_i。为了求出φ(j,i)，可以定义地铁场景下的音频x(n)的自相关函数如下：

式中，L表示音频的片段长度。因此，由公式6可以得到：

φ(j,i)＝r(j-i) (公式9)由于r(j)是偶函数，故式(公式5)可以被化简为：

公式10的矩阵表示形式为：

求解上式即可得到线性预测系数a_i的值。此时

即为声道信号。通过求出地铁场景下的音频x(n)与声道信号

的差值，即可得到地铁场景下的音频中的声源信号。

S304：服务器200对音频数据中分离出来的声道信号和声源信号分别进行特征提取。

图4根据本申请的一些实施例，示出了对地铁场景下分离出来的声道信号进行MFCC提取的过程。具体地，参考图4，将从地铁场景下的音频中分离出来的声道信号进行预加重、分帧和加窗等预处理，以加强声道信号的信噪比、提高处理精度。然后对每一个短时分析窗通过FFT(Fast Fourier Transformation，快速傅里叶变换)得到对应的频谱，以获得声道信号分布在时间轴上不同时间窗内的频谱。将获得的频谱通过Mel滤波器组得到Mel频谱，以通过Mel频谱，将线形的自然频谱转换为体现人耳听觉特性的Mel频谱。然后在Mel频谱上进行倒谱分析，例如对获得的Mel频谱取对数，然后通过DCT(Discrete CosineTransform，离散余弦变换)得到声道信号的MFCC。

可以理解，现有技术中MFCC的提取技术均适用于本申请的技术方案，不限于图4所示的方案，故在此不做限制。此外，也可以通过其他模拟人耳耳蜗感知能力的音频特征提取算法来提取上述声道信号的声道特征，例如线性预测倒谱系数(Linear PredictionCepstrum Coefficien，LPCC)提取算法。

下面对服务器200采用多尺度小波变换对声源信号进行时频特征提取的过程进行详细介绍。

在一些实施例中，为了消除声音强度对声源信号的时频特征提取的影响，对声源信号做幅度归一化处理，以得到归一化的声源信号x_e(n)为：

其中，公式12中的xn表示地铁场景下的音频的当前的取样值，

表示地铁场景下的音频中的声道信号。

例如，在图5(a)所示的实施例中，声源信号x_e(n)由周期性的基音脉冲组成，利用窗长为两个基音周期(例如，这里的基音周期可以设定为10ms)的汉明窗来提取声源信号x_e(n)中的每个基音脉冲。得到图5(b)所示的基音脉冲信号x_ew(n)。

对基音脉冲信号x_ew(n)进行二进制离散小波变换，可以由下式计算得到：

其中，N是汉明窗长度；ψ^*(n)是Daubechies小波基的共轭函数；a、b分别表示尺度参数和时间因子，反映基音脉冲x_ew(n)的频率信息和时间信息。

为了提取频率特征，将基音脉冲x_ew(n)由K个具有不同频率分辨率的子带W_k表示：

一般来说，音频的频率范围为300～3400Hz。因此，可以令K＝4，得到如图5(c)所示的4个具有不同频率范围的子带：2000～4000Hz(W₁)、1000～2000Hz(W₂)、500～1000Hz(W₃)、250～500Hz(W₄)。

为了保留时间信息，将公式14中的每组小波系数划分为M个子集：

其中，M＝4是子集的个数。计算每个小波系数w_k子集的2-范数，可以得到4个子向量：

其中，||||代表2-范数。声源信号的时频特征参数就可以表示成如下所示：

ω＝[ω₁,ω₂,ω₃,ω₄]^T (公式17)

可以理解，除了小波变换，也可以采用其他算法提取声源信号中的时频特征，在此不做限制，例如，基音周期的提取方法。

S305：将声道信号中提取的MFCC和声源信号中提取的时频特征进行融合，得到音频数据的特征向量。

具体地，在一些实施例中，服务器200可以将不同场景下采集到的大量的音频按照上述方法进行特征参数提取后，将每一个场景下采集到的音频中的声道信号的MFCC特征参数和声源信号的时频特征参数进行融合，得到融合特征参数，将融合特征参数输入神经网络模型进行训练。由于融合特征参数中既包括能够反映音频中的中低频部分的声道信号的特征参数，又包括能够反映音频中的高频部分的声源信号的特征参数，可以使得利用融合后的特征参数训练出的神经网络模型能够更加准确地识别出用户所处的场景。有组于提升场景识别效果。

例如，在一些实施例中，可以将MFCC特征参数与时频特征参数进行线性融合，组合成特征向量，或者将二者进行归一化处理后再进行线性融合，还可以将二者进行加权后再进行线性融合。在其他实施例中，也可以将二者进行非线性融合，例如将二者进行相乘运算。在具体实现过程中，可以根据需要预先设定融合规则，本方案对此不做限定。

此外，可以理解，在其他实施例中，也可以不进行特征融合，而是将MFCC特征和时频特征直接输入神经网路模型中进行训练。

S306：将融合后得到的特征向量输入神经网络模型中进行模型训练。

具体地，服务器200可以将每一个场景下采集到的音频中的声道信号的MFCC特征参数和声源信号的时频特征参数融合后得到的特征向量输入神经网络模型进行训练。例如，将地铁场景下采集到的音频中的声道信号的MFCC特征参数和声源信号的时频特征参数进行线性融合后得到的特征向量输入神经网络模型，然后将模型的输出(即采用铁场景下采集到的音频的融合后的特征向量对模型进行训练的训练结果)和表征地铁场景的数据进行比较，求出误差(即二者之间的差值)，对前述误差求偏导数，根据该偏导数来更新权重。直至最后模型输出表征地铁场景的数据时，认为模型训练完成。可以理解，还可以输入其他场景下的融合后的特征参数对模型进行训练，从而在大量的样本场景的训练中，通过不断的调整权重，在输出的误差达到一个很小的值时(例如，满足预定误差阈值)，认为神经网络模型收敛，训练出了噪声场景识别模型。

可以理解，训练好的噪声场景识别模型可以仅包括上述训练过的神经网路模型，也可以在具有上述训练过的神经网路模型的同时，包括S302至305步骤中的音频强度检测功能、线性预测功能、特征提取功能以及特征融合功能中的一种或者多种。

对于降噪耳机100，可以将上述训练好的噪声场景识别模型移植到降噪耳机100中，供降噪耳机100在是使用过程中进行降噪处理。例如，在服务器200上训练好噪声场景识别模型后，可以建立一个Android工程，将该模型通过前述工程中的模型读取接口读取并解析该模型，然后编译生成APK(Android application package，Android应用程序包)文件，安装到降噪耳机100中，完成噪声场景识别模型的移植。

然后，降噪耳机可以利用移植到降噪耳机100上的噪声场景识别模型进行场景识别，识别出相应的噪声场景，之后，降噪耳机100根据识别出的场景，然后设置场景对应的降噪模式，实现个性化的降噪功能。

可以理解，利用降噪耳机100对不同场景下的音频进行降噪的过程类似，下面继续参考图3，并结合图2和4，以利用降噪耳机100对地铁场景下的音频进行降噪为例，对采用降噪耳机100进行降噪的过程进行介绍，在下面的实施例中，噪声场景识别模型仅包括上述训练过的神经网路模型。具体地，降噪耳机100的降噪过程包括：

S307：获取待识别的音频数据。例如，降噪耳机100的麦克风160在地铁中采集模拟音频数据，经音频模块120进行模数转换后，得到待识别的数字的音频数据。

S308：降噪耳机100的数据处理芯片110利用P阶线性滤波器从采集到的音频数据中分离出声道信号和声源信号。具体分离过程与上述利用服务器200分离出声道信号和声源信号的过程类似，在此不再赘述。

S309：降噪耳机100的数据处理芯片110对分离出来的声道信号和声源信号分别进行特征提取，并对提取出来的特征进行特征融合。具体提取过程和融合过程与上文通过服务器200对声道信号和声源信号分别进行特征提取的过程和融合过程类似，在此不再赘述。

S310：降噪耳机100将融合后的特征向量输入被移植到降噪耳机100的神经网络处理器150中的噪声场景识别模型，进行场景识别。例如，上述从地铁场景中采集到的音频数据，最终识别出的结果表征用户在搭乘地铁，降噪场景为地铁场景。

S311：降噪耳机100的降噪电路140根据识别出的场景，产生对应的降噪模式的电信号，然后将该电信号转换为音频数据，与降噪耳机100正常输出的音频数据合并后产生降噪后的音频数据，并输出降噪后的音频数据。

可以理解，对于不同的场景，可以采用不同的降噪模式。对于地铁场景、公交车场景、机场场景等，降噪耳机100可以通过产生与场景中的噪声相位相反、振幅相同的电信号，实现降噪。例如，用户乘坐地铁并使用手机、平板电脑等电子设备进行听歌、打游戏、看电影等娱乐活动时，为了免受周围环境中的嘈杂的人声、交通工具行驶的轰鸣声等噪音的干扰，降噪耳机100中的降噪电路110可以产生与场景下的音频中的噪声相位相反、振幅相同的电信号，然后将其与降噪耳机100正常输出的音频数据进行叠加，输出降噪后的音频数据。而在另外一些场景下，降噪程度不宜过强，例如，用户在步行通过十字路口时，降噪耳机100不会采用过强的降噪，因为如果降噪程度过强，将马路上行驶的车辆的鸣笛声、发动机的轰鸣声等噪声完全去除的话，存在用户因听不到外部警示音而引起交通安全事故的情况，故降噪电路110产生的电信号的相位与噪声的相反，但是振幅小于噪声振幅。

上述实施例公开了将本申请的音频识别技术用于降噪的方案，可以理解，本申请的音频识别技术还可以用于声纹识别，例如，用于电子设备的语音助手、车机的语音指令识别、用户的声纹识别等等。下面介绍将本申请的技术方案用于电子设备的声纹识别的实施例。具体地，如图6所示，包括：

S602：电子设备采集用户的语音得到音频数据。

S604：电子设备利用线性滤波器从采集到的音频数据中分离出声道信号和声源信号。具体的分离方案与图3所示的相同，在此不再赘述。

S606：电子设备对分离出来的声道信号和声源信号分别进行特征提取，并对提取出来的特征进行特征融合，得到特征向量。具体的提取和融合方案与图3所示的相同，在此不再赘述。

S608：电子设备将得到的特征向量与已经存储的合法用户的语音信号的特征向量进行匹配。

例如，对合法用户的语音的特征向量配置匹配度阈值A，计算融合后的用户的语音的特征向量的特征值以及合法用户的语音的特征向量的特征值，在两者的特征值之间的差异(两者差值的绝对值)大于该匹配度阈值A的情况下，确认发出语音的用户为合法用户。匹配度阈值A可以配置为0.5，在融合后的用户的语音的特征向量的特征值与合法用户的语音的特征向量的特征值之间的差值的绝对值大于0.5的情况下，确认发出语音的用户为合法用户。

如果匹配，则进入610；否则，提醒用户无法识别语音，请用户重新发出语音，再次进入602。

S610：声纹识别通过，电子设备执行相应的操作。例如，电子设备为门禁，在声纹识别通过后打开门。再例如，电子设备为手机，在声纹识别通过后，解锁手机。

此外，可以理解，在其他实施例中，在S604中，也可以不对提取出来的声道信号和声源信号的特征进行融合，而是直接在S606中，将已经存储的合法用户的语音中的声道信号和/或声源信号的特征分别与S604中得到的声道信号和声源信号的特征分别进行匹配。

例如，对合法用户的语音中的声道信号和/或声源信号的特征分别配置匹配度阈值B。计算用户的语音的声道信号或者声源信号的特征向量的特征值，在声道信号的特征值与合法用户的语音中的声道信号的特征的特征值之间的差异(两者差值的绝对值)大于匹配度阈值B的情况下，或者，声源信号的特征值与合法用户的语音中的声源信号的特征的特征值之间的差异(两者差值的绝对值)大于匹配度阈值B情况下，确认发出语音的用户为合法用户。

图7根据本申请的一些实施例，提供了一种音频识别装置700的结构示意图。如图7所示，音频识别装置700包括：

获取模块702，用于获取待识别音频；

分离模块704，用于从待识别音频中分离出低频部分和高频谐波部分；

识别模块706，基于从低频部分中提取的低音频特征和从高频谐波部分中提取的高音频特征中的至少一种，对音频进行识别以确定待识别音频的类型。

可以理解，图7所示的音频识别装置700与本申请提供的音频识别方法相对应，以上关于本申请提供的音频识别方法的具体描述中的技术细节依然适用于图7所示的音频识别装置700，具体描述请参见上文，在此不再赘述。

根据本申请的实施例，图8示出了一种电子设备800的结构示意图。该电子设备800也能够执行本申请上述实施例公开的音频识别方法。在图8中，相似的部件具有同样的附图标记。如图8所示，电子设备800可以包括处理器810、电源模块840、存储器880，移动通信模块830、无线通信模块820、传感器模块890、音频模块850、摄像头870、接口模块860、按键801以及显示屏802等。

可以理解的是，本发明实施例示意的结构并不构成对电子设备800的具体限定。在本申请另一些实施例中，电子设备800可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器810可以包括一个或多个处理单元，例如，可以包括中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)、数字信号处理器(Digital Signal Processing，DSP)、微处理器(Micro-programmed Control Unit，MCU)、人工智能(Artificial Intelligence，AI)处理器或可编程逻辑器件(Field ProgrammableGate Array，FPGA)等的处理模块或处理电路。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。处理器810中可以设置存储单元，用于存储指令和数据。在一些实施例中，处理器810中的存储单元为高速缓冲存储器880。存储器880主要包括存储程序区881以及存储数据区882，其中，存储程序区881可存储操作***以及至少一个功能所需的应用程序(比如语音播放，语音识别等功能)。存储数据区882可存储利用本申请提供的方法从音频中提取出的MFCC特征参数和时频特征参数。在本申请实施例提供的神经网络模型可视为存储程序区881中能够实现音频识别等功能的应用程序。

电源模块840可以包括电源、电源管理部件等。电源可以为电池。电源管理部件用于管理电源的充电和电源向其他模块的供电。在一些实施例中，电源管理部件包括充电管理模块和电源管理模块。充电管理模块用于从充电器接收充电输入；电源管理模块用于连接电源，充电管理模块与处理器810。电源管理模块接收电源和/或充电管理模块的输入，为处理器810，显示屏802，摄像头870，及无线通信模块820等供电。

移动通信模块830可以包括但不限于天线、功率放大器、滤波器、低噪声放大器(Low noise amplify，LNA)等。移动通信模块830可以提供应用在电子设备800上的包括2G/3G/4G/5G等无线通信的解决方案。

无线通信模块820可以包括天线，并经由天线实现对电磁波的收发。无线通信模块820可以提供应用在电子设备800上的包括无线局域网(wireless localarea networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星***(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。电子设备800可以通过无线通信技术与网络以及其他设备进行通信。

在一些实施例中，电子设备800的移动通信模块830和无线通信模块820也可以位于同一模块中。

显示屏802用于显示人机交互界面、图像、视频等。显示屏802包括显示面板。

传感器模块890可以包括接近光传感器、压力传感器，陀螺仪传感器，气压传感器，磁传感器，加速度传感器，距离传感器，指纹传感器，温度传感器，触摸传感器，环境光传感器，骨传导传感器等。

音频模块850用于将数字音频信息转换成模拟音频输出，或者将模拟音频输入转换为数字音频。音频模块850还可以用于对音频编码和解码。在一些实施例中，音频模块850可以设置于处理器810中，或将音频模块850的部分功能模块设置于处理器810中。在一些实施例中，音频模块850可以包括扬声器、听筒、麦克风以及耳机接口。

摄像头870用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件把光信号转换成电信号，之后将电信号传递给图像信号处理(Image SignalProcessing，ISP)转换成数字图像信号。电子设备800可以通过ISP，摄像头870，视频编解码器，图形处理器(Graphic Processing Unit，GPU)，显示屏802以及应用处理器等实现拍摄功能。

接口模块860包括外部存储器接口、通用串行总线(universal serial bus，USB)接口及用户标识模块(subscriber identification module，SIM)卡接口等。其中外部存储器接口可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备800的存储能力。外部存储卡通过外部存储器接口与处理器810通信，实现数据存储功能。通用串行总线接口用于电子设备800和其他电子设备进行通信。用户标识模块卡接口用于与安装至电子设备800的SIM卡进行通信，例如读取SIM卡中存储的电话号码，或将电话号码写入SIM卡中。

在一些实施例中，电子设备800还包括按键801、马达以及指示器等。其中，按键801可以包括音量键、开/关机键等。马达用于使电子设备800产生振动效果，例如在用户的电子设备800被呼叫的时候产生振动，以提示用户接听电子设备800来电。指示器可以包括激光指示器、射频指示器、LED指示器等。

根据本申请的实施例，图9示出了一种片上***(System on Chip，SoC)900的框图。在图9中，相似的部件具有同样的附图标记。另外，虚线框是更先进的SoC的可选特征。在图9中，SoC900包括：互连单元950，其被耦合至应用处理器910；***代理单元970；总线控制器单元980；集成存储器控制器单元940；一组或一个或多个协处理器920，其可包括集成图形逻辑、图像处理器、音频处理器和视频处理器；静态随机存取存储器(SRAM)单元930；直接存储器存取(DMA)单元960。在一个实施例中，协处理器920包括专用处理器，例如网络或通信处理器、压缩引擎、GPU、高吞吐量MIC处理器、或嵌入式处理器等等。

本申请公开的机制的各实施例可以被实现在硬件、软件、固件或这些实现方法的组合中。本申请的实施例可实现为在可编程***上执行的计算机程序或程序代码，该可编程***包括至少一个处理器、存储***(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。

可将程序代码应用于输入指令，以执行本申请描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。处理***可以包括具有诸如例如数字信号处理器(Digital Signal Processing，DSP)、微控制器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)或微处理器之类的处理器的任何***。

程序代码可以用高级程序化语言或面向对象的编程语言来实现，以便与处理***通信。在需要时，也可用汇编语言或机器语言来实现程序代码。事实上，本申请中描述的机制不限于任何特定编程语言的范围。在任一情形下，该语言可以是编译语言或解释语言。

在一些情况下，所公开的实施例可以以硬件、固件、软件或其任何组合来实现。所公开的实施例还可以被实现为由一个或多个暂时或非暂时性机器可读(例如，计算机可读)存储介质承载或存储在其上的指令，其可以由一个或多个处理器读取和执行。例如，指令可以通过网络或通过其他计算机可读介质分发。因此，机器可读介质可以包括用于以机器(例如，计算机)可读的形式存储或传输信息的任何机制，包括但不限于，软盘、光盘、光碟、只读存储器(CD-ROMs)、磁光盘、只读存储器(Read Only Memory，ROM)、随机存取存储器(Randomaccess memory，RAM)、可擦除可编程只读存储器(Erasable Programmable Read OnlyMemory，EPROM)、电可擦除可编程只读存储器(Electrically Erasable ProgrammableRead-Only Memory，EEPROM)、磁卡或光卡、闪存、或用于利用因特网以电、光、声或其他形式的传播信号来传输信息(例如，载波、红外信号数字信号等)的有形的机器可读存储器。因此，机器可读介质包括适合于以机器(例如计算机)可读的形式存储或传输电子指令或信息的任何类型的机器可读介质。

在附图中，可以以特定布置和/或顺序示出一些结构或方法特征。然而，应该理解，可能不需要这样的特定布置和/或排序。而是，在一些实施例中，这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。另外，在特定图中包括结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征，并且在一些实施例中，可以不包括这些特征或者可以与其他特征组合。

需要说明的是，本申请各设备实施例中提到的各单元/模块都是逻辑单元/模块，在物理上，一个逻辑单元/模块可以是一个物理单元/模块，也可以是一个物理单元/模块的一部分，还可以以多个物理单元/模块的组合实现，这些逻辑单元/模块本身的物理实现方式并不是最重要的，这些逻辑单元/模块所实现的功能的组合才是解决本申请所提出的技术问题的关键。此外，为了突出本申请的创新部分，本申请上述各设备实施例并没有将与解决本申请所提出的技术问题关系不太密切的单元/模块引入，这并不表明上述设备实施例并不存在其它的单元/模块。

需要说明的是，在本专利的示例和说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然通过参照本申请的某些优选实施例，已经对本申请进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本申请的精神和范围。

Claims

1.一种音频识别方法，其特征在于，包括：

获取待识别音频；

通过线性预测器从所述待识别音频中分离出第一频段范围部分和第二频段范围部分，其中，所述第一频段范围部分包含的频段的频率低于所述第二频段范围部分包含的频段的频率；

基于从所述第一频段范围部分中提取的第一音频特征和从所述第二频段范围部分中提取的第二音频特征中的至少一种，对所述音频进行识别以确定所述待识别音频的类型。

2.根据权利要求1所述的方法，其特征在于，还包括：

通过小波变换从所述第二频段范围部分中提取所述第二音频特征，其中所述第二音频特征为通过所述小波变换得到的时频特征。

3.根据权利要求1或2所述的方法，其特征在于，所述第一频段范围部分表征发出所述待识别音频的发声物体的声道的特征，所述第二频段范围部分表征所述发声物体的声源的特征。

4.根据权利要求1-3中任一所述的方法，其特征在于，所述通过线性预测器从所述待识别音频中分离出第一频段范围部分和第二频段范围部分包括：

通过线性预测器从所述待识别音频中分离出所述第一频段范围部分，并将分离出所述第一频段范围部分后所述待识别音频的剩余部分，作为所述第二频段范围部分。

5.根据权利要求1-4中任一所述的方法，其特征在于，还包括：

通过模拟人耳耳蜗感知能力的音频特征提取算法从所述第一频段范围部分中提取所述第一音频特征。

6.根据权利要求5所述的方法，其特征在于，所述模拟人耳耳蜗感知能力的音频特征提取算法为梅尔频率倒谱系数MFCC提取法，并且所述第一音频特征为梅尔频率倒谱系数MFCC。

7.根据权利要求1至6中任一项所述的方法，其特征在于，基于从所述第一频段范围部分中提取的第一音频特征和从所述第二频段范围部分中提取的第二音频特征中的至少一种，对所述音频进行识别以确定所述待识别音频的类型包括：

将所述待识别音频的第一音频特征或第二音频特征与对应第一音频类型的第一音频特征进行匹配，并在匹配度大于第一匹配度阈值时，确定所述待识别音频的类型为第一音频类型。

8.根据权利要求1至6中任一项所述的方法，其特征在于，基于从所述第一频段范围部分中提取的第一音频特征和从所述第二频段范围部分中提取的第二音频特征中的至少一种，对所述音频进行识别以确定所述待识别音频的类型包括：

将所述第一音频特征和第二音频特征进行融合得到融合音频特征，并将所述融合音频特征与对应第二音频类型的第二音频特征进行匹配，并在匹配度大于第二匹配度阈值时，确定所述待识别音频的类型为第二音频类型。

9.根据权利要求1至6中任一项所述的方法，其特征在于，基于从所述第一频段范围部分中提取的第一音频特征和从所述第二频段范围部分中提取的第二音频特征中的至少一种，对所述音频进行识别以确定所述待识别音频的类型包括：

将所述第一音频特征、所述第二音频特征或者所述第一音频特征和第二音频特征的融合音频特征输入神经网络模型中，得到所述待识别音频的类型。

10.根据权利要求1至9中任一项所述的方法，其特征在于，所述待识别音频包括噪音。

11.一种音频识别装置，其特征在于，包括：

获取模块，用于获取待识别音频；

分离模块，用于从所述待识别音频中分离出第一频段范围部分和第二频段范围部分，其中，所述第一频段范围部分包含的频段的频率低于所述第二频段范围部分包含的频段的频率；

识别模块，基于从所述第一频段范围部分中提取的第一音频特征和从所述第二频段范围部分中提取的第二音频特征中的至少一种，对所述音频进行识别以确定所述待识别音频的类型。

12.一种计算机可读介质，其特征在于，所述计算机可读介质上存储有指令，该指令在计算机上执行时使计算机执行权利要求1至10中任一项所述的音频识别方法。

13.一种电子装置，其特征在于，包括：

处理器，所述处理器和存储器耦合，所述存储器存储有程序指令，当所述存储器存储的程序指令被所述处理器执行时使得所述电子装置执行权利要求1至10中任一项所述的音频识别方法。

14.一种芯片***，其特征在于，所述芯片***包括处理器与数据接口，所述处理器通过所述数据接口读取存储器上存储的指令，以执行如权利要求1至10中任一项所述的方法。