CN112955954A

CN112955954A - 用于音频场景分类的音频处理装置及其方法

Info

Publication number: CN112955954A
Application number: CN201880099051.0A
Authority: CN
Inventors: 耶塞妮娅·拉库蒂尔·帕罗蒂; 弗洛里安·艾本; 安德里亚·克雷斯皮; 邓军
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2021-06-11
Anticipated expiration: 2038-12-21
Also published as: US20210312912A1; US11776532B2; EP3847646B1; CN112955954B; WO2020126028A1; EP3847646A1

Abstract

本发明涉及一种被配置为将音频信号分类为一个或多个音频场景类别的音频处理装置(200)，所述音频信号包括分量信号。所述装置(200)包括：处理电路，被配置为：将所述音频信号的所述分量信号分类为前景层分量信号或背景层分量信号；基于所述音频信号获得音频信号特征；根据对所述分量信号的所述分类，选择第一权重集或第二权重集；以及基于所述音频信号特征、所述前景层分量信号或所述背景层分量信号以及所述选择的权重集，对所述音频信号进行分类。

Description

用于音频场景分类的音频处理装置及其方法

技术领域

总体上，本发明涉及音频处理。具体地，本发明涉及一种用于对音频场景进行分类的音频处理装置以及对应方法。

背景技术

声音或音频场景分类(ASC)是一种旨在根据在该位置记录的声音(发生在特定环境中的声音事件和/或环境自身产生的声音)来识别环境类型(汽车、办公室、街道、家庭、餐厅等)的技术。任务是将语义标签与标识环境的音频流相关联。首先，从训练集中的每个声学场景推导的特征矢量用于训练统计模型，该模型汇总属于同一类别的音景的特性。然后，定义决策标准，以将未标记的记录分配给与其特征分布相匹配的类别。

ASC流程分成训练阶段和分类阶段。模型训练阶段涉及根据合适的分类器(支持矢量机、SVM、高斯混合模型、GMM、神经网络等)对场景模型104进行估计。通过从音频记录数据库101的每个示例提取音频特征102并通过使用所有类别的已知样本来训练***，完成模型训练阶段103，如图1a所示。

分类阶段需要在训练阶段中获得的场景模型113，并且分类阶段涉及从音频样本提取相同特征112。基于这些输入，音频样本被分类114为匹配的类别，如图1b所示。

ASC方案的重要部分是定义和提取表征特定环境的特性——音频特征。当前ASC方案利用几类音频特征，通常是从语音分析和听觉研究中借用的音频特征。在严格受限的分类方案中，某些事件的识别可以帮助表征总体环境，然而，在现实生活环境中，这些方法存在以下缺点。声音事件需要手动定义和选择，在现实生活环境中通常存在大量这类声音事件，并且定义和选择所有这类事件是不现实的。难以确保某些声音事件必定在特定声学环境中出现，并且某些声音事件也可以在不同的声学环境中听到。表征某个环境的一系列声事件通常是无界的，而且很难一概而论，因此，现有技术无法直接应用于软约束的ASC问题。

发明内容

本发明的目的是提供一种用于对音频场景进行分类的改进型音频处理装置以及对应的音频处理方法。

前述和其他目的是通过独立权利要求的主题来实现的。根据从属权利要求、说明书和附图，进一步的实现方式是显而易见的。

通常，一些实施例将帧级特征(例如，对数梅尔频谱)与二进制特征合并，该二进制特征根据其对声学场景(或背景层)的背景或对声学场景(或前景层)的前景的亲和力来表征输入信号中的每个帧。然后，可以在一种“事件通知”深度神经网络(DNN)的上下文中使用这些特征，其中，主要特征矢量用作DNN的标准输入特征，而二进制层特征则以卷积的方式用于DNN，同时在预训练/初始化阶段用作目标，然后在实际的训练和分类阶段作为控制参数被馈送至网络的中间层。因此，本发明的实施例通过使神经网络学***板电脑或智能可穿戴设备中。本发明的实施例通过对场景的声音的深入分析来对设备的环境进行分类。

根据第一方面，本发明涉及一种音频处理装置，被配置为将音频信号分类为一个或多个音频场景类别，其中，所述音频信号包括分量信号。所述装置包括被配置为执行以下操作的处理电路：将音频信号的分量信号分类为前景层分量信号或背景层分量信号；基于音频信号获得音频信号特征；根据对分量信号的分类，选择第一权重集或第二权重集；以及基于音频信号特征、前景层分量信号或背景层分量信号以及选择的权重集，对音频信号进行分类。

在可能的实现方式中，所述处理电路被配置为：在音频信号的分量信号具有或包括短期音频事件或长期音频事件时，将音频信号的分量信号分类为前景层分量信号；或在音频信号的分量信号不具有或包括短期音频事件和长期音频事件时，将音频信号的分量信号分类为背景层分量信号。

在可能的实现方式中，所述处理电路被配置为：在音频信号的分量信号具有短期音频事件或长期音频事件时，将音频信号的分量信号分类为前景层分量信号；以及将不具有短期音频事件或不具有长期音频事件的音频信号的每个分量信号分类为背景层分量信号。

在所述第一方面的另一个可能实现方式中，所述处理电路被配置为：将音频信号划分为多个帧，并通过针对音频信号的每个帧确定复数域差CDD来对音频信号的一个或多个分量信号进行分类。在此示例中，一帧是一个分量信号，或一个分量信号包括至少两个帧。

在数学分析中，域是有限维矢量空间的任何连接的开放子集。

在复杂分析中，复杂域(或简单域)是复杂平面的任何连接的开放子集。例如，整个复平面是一个域、开放单元盘、开放上半平面等也是一个域。通常，复杂域用作全纯函数的定义域。

在所述第一方面的另一个可能实现方式中，基于以下等式而确定CDD：

其中，n表示帧索引，k表示频率位索引，N表示样本中的帧大小，并且其中，目标频谱X_T(n,k)定义为：

X_T(n,k)＝|X(n-1,k)|e^{ψ(n-1,k)+ψ'(n-1,k)}，

其中，ψ'(n-1,k)＝ψ(n,k)-ψ(n-1,k)表示第k频率位在当前帧n与前一帧n-1之间的相位差，Ψ(n,k)是X(n,k)的相位。

在所述第一方面的另一个可能实现方式中，所述处理电路被配置为：针对音频信号的每个帧向CDD应用高通滤波器，并将高通滤波后的CDD中的峰值识别为短期音频事件。或者，所述处理电路被配置为在高通滤波后的信号包括峰值时检测音频信号的分量信号中的短期事件。

在所述第一方面的另一个可能实现方式中，所述处理电路被配置为：针对音频信号的每个帧向CDD应用低通滤波器，并通过确定低通滤波后的CDD中的峰值来识别长期音频事件。或者，所述处理电路被配置为在低通滤波后的信号包括峰值时检测音频信号的分量信号中的长期事件。

在所述第一方面的另一个可能实现方式中，所述处理电路被配置为：将音频信号从时域变换到频域，并在频域中从音频信号获得一个或多个音频信号特征。

在所述第一方面的另一个可能实现方式中，所述一个或多个音频信号特征包括音频信号的对数梅尔频谱。

在所述第一方面的另一个可能实现方式中，所述处理电路被配置为提供或实现神经网络，其中，所述神经网络被配置为基于一个或多个音频信号特征、一个或多个前景层分量信号或一个或多个背景层分量信号以及选择的权重集来对音频信号进行分类。

在所述第一方面的另一个可能实现方式中，所述神经网络包括第一神经子网络和第二神经子网络，其中，所述第一神经子网络被配置为根据一个或多个分量信号的分类来将第一权重集或第二权重集提供给第二神经子网，并且其中，所述第二神经子网被配置为基于一个或多个音频信号特征、一个或多个前景层分量信号或一个或多个背景层分量信号以及由第一神经子网络提供的选择的权重集来对音频信号进行分类。

根据第二方面，本发明涉及一种用于将音频信号分类为一个或多个音频场景类别的音频处理方法，其中，所述音频信号包括分量信号。所述方法包括以下步骤：将分量信号分类为前景层分量信号或背景层分量信号；基于音频信号获得音频信号特征；根据对分量信号的分类，选择第一权重集或第二权重集；以及基于音频信号特征、前景层分量信号或背景层分量信号以及选择的权重集，对音频信号进行分类。

因此，提供了一种改进型音频处理方法。可通过根据本发明的所述第一方面的音频处理装置来执行根据本发明的所述第二方面的音频处理方法。根据本发明的所述第二方面的所述音频处理方法的其他特征对应于或直接源自根据本发明的所述第一方面的音频处理装置的功能性以及其在上文和下文所述的不同实现方式。

根据第三方面，本发明涉及一种计算机程序产品，包括用于在计算机上执行时执行根据所述第二方面的方法的程序代码。在示例中，所述程序代码被存储在非暂时性存储器中。在附图和以下描述中阐述了一个或多个实施例的细节。根据说明书、附图和权利要求书，其他特征、目的和优点将是显而易见的。

附图说明

图1a和图1b分别是常规ASC***处于训练阶段和分类阶段的示意图；

图2是根据本申请实施例的音频处理装置的示例的示意图；

图3是由根据本申请的实施例的音频处理装置的层分割器的示意图；

图4更详细地示出了由根据本申请的实施例的由音频处理装置实现的神经网络的不同方面的示意图；

图5更详细地示出了由根据本申请的实施例的由音频处理装置实现的神经网络执行的层选择合并的示意图；

图6是根据本申请的实施例的由音频处理装置实现的神经网络架构的示例的示意图；

图7是根据本申请的实施例的音频处理方法的示例的流程图。

在下文中，相同的附图标记表示相同或至少在功能上等同的特征。

具体实施方式

在以下描述中，参考了附图，这些附图形成了本发明的一部分，并且通过说明的方式示出了本发明的实施例的特定方面或其中可使用本发明的实施例的特定方面。应理解，本发明的实施例可用于其他方面，并且包括在附图中未示出的结构或逻辑改变。因此，以下详细描述不应被视为限制性意义，并且本发明的范围由所附权利要求书限定。

例如，应理解，与所描述的方法有关的公开内容对于被配置为执行该方法的对应设备或***也可成立，反之亦然。例如，如果描述了一个或多个特定的方法步骤，则对应的设备可包括一个或多个单元(例如，功能单元)，以执行所描述的一个或多个方法步骤(例如，一个单元执行一个或多个步骤，或多个单元各自执行多个步骤中的一个或多个)，即使这样的一个或多个单元在附图中未明确描述或示出。另一方面，例如，如果基于一个或多个单元(例如，功能单元)来描述特定装置，对应的方法可包括执行一个或多个单元的功能性的一个步骤(例如，执行一个或多个单元的功能性的一个步骤，或各自执行多个单元中的一个或多个单元的功能性的多个步骤)，即使未在附图中明确描述或说明这样一个或多个步骤。此外，应理解，除非另外特别指出，否则本文所述的各种示例性实施例和/或方面的特征可彼此组合。

图2示出了根据本发明实施例的音频处理装置200。音频处理装置200被配置为将由由音频信号定义(即与音频信号相关联)的声学场景或音频场景(在本文中，这两个术语同义地使用)分类为多个音频场景类中的一个或多个音频场景类，例如音频场景类汽车、办公室、街道、家庭、餐厅等。要由音频处理装置200分类的音频信号可以包括一个或多个分量信号，包括一个或多个前景层分量信号(在本文中也称为事件或场景相关的分量信号)和/或一个或多个背景层分量信号(在本文中也称为环境相关分量信号)。

如下文将更详细地描述，图2所示的音频信号处理装置200包括处理电路，该处理电路被配置为：将一个或多个分量信号分类为一个或多个前景层分量信号和/或一个或多个背景层分量信号，例如借助于图2所示的层分割器210；基于音频信号获得一个或多个音频信号特征，例如借助于图2所示的特征提取器205；根据对一个或多个分量信号的分类来选择第一权重集或第二权重集；以及基于一个或多个音频信号特征、一个或多个前景层分量信号或一个或多个背景层分量信号以及所选择的权重集来对音频信号进行分类。

如图2所示，根据实施例，音频信号处理装置200的处理电路被配置为提供神经网络200，该神经网络200包括第一神经子网络221和第二神经子网络223。如下文将更详细地描述，根据实施例，第一神经子网络221被配置为根据一个或多个分量信号的分类来将第一权重集或第二权重集提供给第二神经子网223，并且第二神经子网223被配置为基于一个或多个音频信号特征、一个或多个前景层分量信号或一个或多个背景层分量信号以及由第一神经子网络221提供的所选择的权重集来对音频信号进行分类。

因此，根据本发明的实施例，音频处理装置200被配置为在来自日常生活环境的音频记录中将音频信号的事件相关帧(前景层)与其余音频信号(背景层)分离，并将分为前景层和背景层帧的这种分离集成到基于DNN的声学场景分类器中，该分类器由层信息增强。在示例中，分量信号是指与前景/背景相关的信号分量。帧是信号的一部分，被分类为前景/背景。通常，分量信号包含若干帧，它更一般地描述该信号。

如上所述，音频处理装置200包括被配置为实现层分割器210的处理电路，如图2所示的实施例所示。可以被实现为特定硬件处理器和/或借助于在通用处理器上运行的软件实现的层分割器210被配置为将一个或多个分量信号分类为一个或多个前景层(即，事件相关的分量信号)和/或一个或多个背景层(即，环境相关的分量信号)，下文将在图3中进一步详细描述。

在实施例中，特征提取器205可以被配置为在频域中从音频信号提取一个或多个音频信号特征。在实施例中，在频域中从音频信号提取的一个或多个音频信号特征可以包括音频信号的对数梅尔频谱。

在声音处理中，基于对数功率谱在非线性梅尔频率阶上的线性余弦变换，梅尔频率倒谱(MFC)可以是声音的短期功率谱的表示。

下文将更详细地描述，在分类阶段，第一神经子网络221被配置为向第二神经网络223提供所选择的权重集，其中，取决于将一个或多个分量信号分类为一个或多个前景层分量信号和/或一个或多个背景层分量信号，权重集通过层分割器210分为第一权重集或第二权重集。

通常，具有其第一子网络221和第二子网络223的神经网络220的操作可以描述如下。

如图1所示，根据实施例，可以将逐帧层标签(即由层分割器210提供的分类)用作目标来训练第一神经子网221，该等目标经由层分割从音频信号提取，如下文将在图3的上下文中更详细地描述。

根据实施例，第二神经子网络223的拓扑建立在第一神经子网络221的拓扑之上(具有用于训练的初始化权重)，并且将由层分割器210提供的逐块场景标签用作目标来进行反向传播训练，同时还将逐帧层标签输入到神经网络220中(从而控制合并阶段)。

卷积网络可包括局部或全局合并层，这些层将一层神经元集群的输出组合为下一层中的单个神经元。例如，最大合并使用来自上一层神经元集群中每个集群的最大值。另一个示例是平均合并，它使用来自上一层神经元集群中每个集群的平均值。

在分类阶段，第二神经子网络223被馈送有未见数据(或未标记、未分类)，并且输出对应于预测(声学场景标签)，在示例中，未见数据是在训练期间尚未使用的数据。

根据实施例，音频处理装置200被配置为将音频信号分割为块和帧。根据实施例，通过使用例如汉恩、汉明或布莱克曼等窗函数，音频处理装置200的第一成帧器201将输入音频信号分割成相等长度(几十秒的量级)的块。结果是数个等长的音频块，例如30秒。根据实施例，然后可以由音频处理装置200的第二成帧器203将每个块再次分割成相等长度的(重叠)帧(几百个样本，例如1024个样本)。如将了解，一帧的持续时间取决于该帧的样本数和采样率。例如，对于16kHz的示例性采样率，1024个样本的帧具有64ms的持续时间。然后，将基于帧的定义的音频信号用于由音频处理装置200定义的处理链的其他步骤，尤其是由音频处理装置200的层分割器210和神经网络220定义的步骤。

进一步参考图3，现在将详细描述层分割器210的实施例。

根据本发明的实施例，可以从音频信号的每个帧计算例如低电平描述符(LLD)等音频信号特征。可以使用常规过程(例如，在音频处理装置200的特征提取器205中实现)来计算例如频谱峰值、功率、频谱质心等LLD。结果是用于与基于段的LLD进行聚合的基于帧的LLD。在一些示例中，基于帧的LLD是指基于帧的LLD。那是基于通常重叠的音频数据的每一帧。而基于分段的LLD基于由层分割器提取的分段(短事件/长事件/背景)。

并行于提取LLD，层分割器210被配置为通过计算来自输入帧的开始检测函数来检测短事件和长事件(如图3所示的层分割器210的框213和214所示)。

根据本发明的实施例，短期音频事件被定义为声学场景中的突然改变(频谱内容从一帧到下一帧的急剧改变)。因此，这些短事件不一定是冲动性事件，并且在音频信号的一些方面中也可能是阶梯状(上升或下降)改变。示例是关门、厨房中的餐具噪音、冲动性汽车喇叭声。在示例中，突然改变意味着改变在非常短的时间内发生。例如，如果帧大小为16kHz采样频率下的1024个样本，则突然改变的持续时间将少于64ms。在另一个示例中，急剧改变是指冲动性特性，而不是冲动本身。即，少于1帧的持续时间。

根据本发明的实施例，长期音频事件被定义为一些声学特性中的渐进(但一致)的改变，这些改变最终在一段时间后最终回到稳态。未被定义为短期事件但在几秒钟内仍能带来一定的声学特性改变率的事件集群也属于此定义。示例是汽车在街上路过、安静背景下的讲话、阵风吹到麦克风上。在示例中，与短事件相反，长事件是在几个帧期间发生的改变，长事件具有更长的持续时间。

因此，这些帧由层分割器210根据层成员资格(即，FG或BG层)来标记。此外，根据本发明的其他实施例，可以在此阶段期间获得事件检测相关的特征，这在图3中示出并且基于由层分割器210实现的以下信号流。

根据实施例，将信号块中的每个帧乘以分析窗口(Hann)，然后应用傅立叶变换(图3的处理块211)。以此方式，获得每个帧的频率表示。

根据实施例，为每个帧计算复数域差(CDD)(图3的处理块212)，得到在信号块上展开的CDD时间函数。根据实施例，层分割器210(或更具体地，其处理块212)被配置为基于以下等式来为音频信号的每个帧确定CDD：

X_T(n,k)＝|X(n-1,k)|e^{ψ(n-1,k)+ψ'(n-1,k)}，

其中，ψ'(n-1,k)＝ψ(n,k)-ψ(n-1,k)表示第k频率位在当前帧n与前一帧n-1之间的相位差。

根据实施例，层分割器210被配置为借助于分离低频和高频内容将此CDD函数分解为与短期音频(快速)事件和长期音频(慢速)事件相关的两个组件。

根据实施例，层分割器201的短事件检测器213可以包括高通滤波器(被配置为从CDD减去其自身的(因果)中值滤波版本)，随后是返回与短期音频事件的开始相关的时间索引的基本峰值拣选算法。所得信号也可以被半波整流，并因此可以获得短期音频事件函数。

根据实施例，层分割器210的长事件(长期音频事件)检测器214可以包括低通滤波器，随后是返回与长事件的持续时间相关的时间指数的另一峰值拣选算法，下面将更详细地描述该算法。根据实施例，由层分割器210的长事件检测器214实现的另一峰值拣选算法以以下方式操作。

首先，通过从CDD函数减去短事件(短期音频事件)函数来平滑CDD函数的局部尖峰，然后对被识别为属于短事件的那些帧执行此平滑过程。然后，分两个阶段对所获得的信号进行低通滤波(例如，首先进行中值滤波，然后再进行移动平均滤波)，从而得到长事件函数。属于长事件区域的帧分两步定义：首先，通过相对于相邻谷值施加一定的相对高度以及最小阈值(例如，根据经验选择)来选择峰值。此过程为每个检测到的事件返回一个枢轴帧。然后，从枢轴帧开始，在两个时间方向上增长长事件区域，直到长事件函数降至低于信号相关的阈值。最后，任何属于短事件和长事件定义的帧都将从长事件帧集删除。

根据实施例，图3所示的层分割器210的处理块215被配置为将前景层定义为属于短期音频事件和长期音频事件的帧集合的并集。

根据实施例，图3所示的层分割器210的处理块216被配置为将背景层定义为所有帧的集合中的前景层的相对互补。换句话说，不属于短期和长期事件的定义的一切。

图4是示出根据本发明的实施例的由音频处理装置200实现的神经网络220的示意图。如上所述，在训练前阶段或训练阶段的第一阶段中，训练第一神经子网221以区分背景帧与前景帧。以此方式，在此过程中就可了解隐藏层中的最佳权重集。在训练阶段的第二阶段中，训练第二神经子网络223的拓扑，以根据信号块的目标声学场景标签来对信号块进行分类。逐帧层标签被馈送到第二神经子网络223中作为用于层选择合并的二进制控制参数。

图5是更详细地示出由根据本发明的实施例的由音频处理装置200实现的神经网络220(特别是第二神经子网络223)执行的层选择合并的示意图。鉴于最后一个帧级网络层输出处的N个单元，层选择合并阶段可以对属于前景(FG)和背景(BG)层的单元有选择地执行两次合并，如图5所示。结果，合并阶段输出2N个单元，其中，一半与前景相关，剩余的一半与背景相关。从此阶段开始，信息具有对应于块级别的时间分辨率，并且在合并阶段之后，以2N个单位的顺序隐式嵌入前景与背景之间的实际区别。

如上所述，在分类阶段，第二神经子网络223的拓扑是建立在第一神经子网络221的拓扑之上的。在训练期间，第一神经子网络221的输出是二进制的，即前景或背景(参见图2中的“训练期间的FG/BG”)。另一方面，在分类阶段中，第一神经子网络221与第二神经子网络223被组合在一起，因为第一神经子网络221的最后一层被除去并用作具有初始化权重的隐藏层激活。第二神经子网223然后被馈送有未见数据，并预测声学场景，例如汽车、办公室、火车等

在音频处理装置200的以下实施例中，将更详细地描述层分割器210和神经网络220。

本发明的实施例可以使用一组音频信号(例如，未压缩的音频，16kHz采样率，16位)来运行，这些音频信号优选地共享相同的30秒的长度，因此可以表示信号块。这意味着在音频处理装置200的这种实现方式中，图2所示的第一成帧阶段201是不必要的。

根据本发明的实施例，第二成帧阶段(由图2的处理块203实现)可以在两个时间分辨率级别上执行：用于层分割器210的较精细分辨率(64ms帧，具有50％的重叠)以及特征提取器205的较粗略分辨率(200ms帧，具有50％的重叠)。这些不同分辨率可能是有利的，因为较精细分辨率在分层方面可以提供更好的结果(尤其是与孤立的短期事件的检测有关)，但不幸的是，当涉及到分层计算时，它将为标准计算资源带来巨大的计算负担训练神经网络拓扑。另一方面，发现较长时间的窗口通常在使用神经网络进行分类方面提供更好的结果。因此，在***中使用层信息之前，可以对层分割器210给出的帧标签进行下采样，以匹配提供特征提取器205所实现的特征提取过程的分辨率，从而使整个***最终能够以较粗略分辨率工作。

根据实施例，层分割器210被配置为接收输入音频信号作为WAV文件并输出具有逐帧层信息的CSV文件。根据本发明的实施例，以下算法的一些或更多步骤可以由层分割器210实现：

·将音频文件加载到存储器缓冲区

·根据音频信号(量级和相位)计算复杂频谱图：

对于每个帧：

·应用汉恩窗口

·计算FFT

·将频谱从直角坐标转换为极坐标

·通过频谱图计算CDD函数

·计算短期事件函数：

·将因果中值滤波器应用于CDD函数->“平滑”CDD函数

·从原始CDD函数减去平滑CDD函数->短期事件函数

·通过在短期事件函数中选择峰值来检测短期音频事件

·扩展短事件帧区域：

对于与短期事件相关联的每个帧：

·在与短期事件相关联的帧池的左侧添加1帧，在右侧添加3帧

·计算长期事件函数：

对于与短期事件相关联的每个帧：

·从原始CDD函数减去短期事件函数->auxCDD函数

·将中值滤波器应用于auxCDD函数(就位)

·将正向和后向移动平均滤波器应用于auxCDD函数->长期事件函数(LEF)

·确定属于长期事件的帧：

·根据每个相对最大值和相邻谷值之间的高度差，在LEF中选择峰值：与整个信号范围内的函数中值相比，当差值较低时，实际上只有高度相似的最大值组中的最大值选择为真实峰值(适用经验阈值)。

·对于每对真实峰值：考虑最低谷值，以使得在每个真实峰值周围获得两个定义良好的谷值(一个在其后，一个在其前)：g1和g2是峰值与两个峰值之间的高度差谷值。

·对于高度h的每个峰值，计算新的阈值t＝h-min(g1，g2)，并在两个时间方向上增加长期事件区域，直到LEF降至低于t(可以突破局部最大值)。

·根据与短期音频事件和长期音频事件(前景层)相关的帧集计算联合集。

·将背景层计算为与前景层互补的帧集。

由特征提取器205实现的特征提取可以基于TensorFlow实现方式，并且可以包括计算输入帧的对数梅尔谱(使用，例如128个梅尔频率位)。

根据本发明的实施例，由神经网络220提供的分类方案可以基于用于机器学***台，例如描述和训练所呈现的神经网络拓扑的TensorFlow实现方式。实现神经网络220的TensorFlow程序接收先前由层分割器210分析的相同WAV音频文件，并且还被馈送有包含声学层信息的CSV文件。

在图6中示出与层分割器210结合的神经网络220的示例性架构。该架构由3个卷积层Conv(..)和一层长期短期记忆(LSTM)递归神经网络(RNN)组成，在每次卷积的整流线性单元(ReLu)激活之前始终应用批归一化(BN)层。有关架构的详细信息如下：

·第1层：Conv(1,24,3,3,1,1)

·第2层：Conv(24,32,3,3,1,1)

·第3层：Conv(32,32,3,3,1,1)

·第4层：LSTM(128)

·第5层：随时间推移的前景和背景选择性最大合并

·第6层：Softmax层

图7是示出根据本发明的实施例的对应的音频处理方法700的示例的流程图。方法700包括以下步骤：将一个或多个分量信号分类701为一个或多个前景层分量信号和/或一个或多个背景层分量信号；基于音频信号获得703一个或多个音频信号特征；根据对一个或多个分量信号的分类来选择第一权重集或第二权重集；以及基于一个或多个音频信号特征、一个或多个前景层分量信号或一个或多个背景层分量信号以及所选择的权重集来对音频信号进行分类。

本领域技术人员应理解，各个附图(方法和装置)的“框”(“单元”)代表或描述本发明实施例的功能性(而不一定是硬件或软件中的各个“单元”)，并且因此，均等地描述装置实施例以及方法实施例的功能或特征(单位＝步骤)。

在本申请提供的若干实施例中，应当理解，所公开的***、装置和方法可以以其他方式实现。例如，所描述的装置实施例仅是示例性的。例如，单位划分仅仅是逻辑功能划分，并且在实际实现方式中可以是其他划分。例如，可以将多个单元或组件组合或集成到另一个***中，或者可以忽略或不执行某些部件。另外，可以通过使用一些接口来实现所示出或讨论的相互耦合或直接耦合或通信连接。装置或单元之间的间接耦合或通信连接可以以电子、机械或其他形式实现。

被描述为分离的部分的单元在物理上可以是或不是物理上分离的，并且显示为单元的部分可以是或可以不是物理单元，可以位于一个位置，或者可以分布在多个网络单元上。可以根据实际需要选择部分或全部单元，以达到实施例解决方案的目的。

另外，本发明实施例中的功能单元可以集成到一个处理单元中，或者每个单元可以物理上单独存在，或者两个或更多个单元集成到一个单元中。

Claims

1.一种音频处理装置(200)，被配置为将音频信号分类为一个或多个音频场景类别，所述音频信号包括分量信号，其特征在于，所述装置(200)包括被配置为执行以下操作的处理电路：

将所述音频信号的所述分量信号分类为前景层分量信号或背景层分量信号；

基于所述音频信号获得音频信号特征；

根据对所述分量信号的所述分类，选择第一权重集或第二权重集；以及

基于所述音频信号特征、所述前景层分量信号或所述背景层分量信号以及所述选择的权重集，对所述音频信号进行分类。

2.根据权利要求1所述的装置(200)，其特征在于，所述处理电路被配置为：在所述音频信号的所述分量信号具有短期音频事件或长期音频事件时，将所述音频信号的所述分量信号分类为前景层分量信号；

或，

在所述音频信号的所述分量信号不具有短期音频事件和长期音频事件时，将所述音频信号的所述分量信号分类为背景层分量信号。

3.根据权利要求2所述的装置(200)，其特征在于，所述处理电路被配置为：将所述音频信号划分为多个帧，并通过针对所述音频信号的每个帧确定复数域差CDD来对所述音频信号的所述分量信号进行分类。

4.根据权利要求3所述的装置(200)，其特征在于，所述CDD是基于以下等式来确定的：

其中，n表示帧索引，k表示频率位索引，N表示样本中的帧大小，并且其中，频谱X_T(n,k)定义为：

其中，ψ'(n-1,k)＝ψ(n,k)-ψ(n-1,k)表示第k频率位中的相位差。

5.根据权利要求3所述的装置(200)，其特征在于，所述处理电路被配置为：针对所述音频信号的每个帧向所述CDD应用高通滤波器，并将所述高通滤波后的CDD中的峰值识别为短期音频事件。

6.根据权利要求4或5所述的装置(200)，其特征在于，所述处理电路被配置为：针对所述音频信号的每个帧向所述CDD应用低通滤波器，并通过确定低通滤波后的CDD中的峰值来识别长期音频事件。

7.根据权利要求1至6中任一项所述的装置(200)，其特征在于，所述处理电路被配置为：将所述音频信号从时域变换到频域，并在频域中从所述音频信号获得所述音频信号特征。

8.根据权利要求7所述的装置(200)，其特征在于，所述音频信号特征包括所述音频信号的对数梅尔频谱。

9.根据权利要求1至8中任一项所述的装置(200)，其特征在于，所述处理电路被配置为提供神经网络(220)，其中，所述神经网络(200)被配置为执行所述音频信号的所述分类。

10.根据权利要求9所述的装置(200)，其特征在于，所述神经网络(200)包括第一神经子网络(221)和第二神经子网络(223)，其中，所述第一神经子网络(221)被配置为根据所述分量信号的所述分类来将所述第一权重集或所述第二权重集提供给所述第二神经子网(223)，并且，所述第二神经子网(223)被配置为基于所述音频信号特征、所述前景层分量信号或所述背景层分量信号以及由所述第一神经子网络(221)提供的所述选择的权重集来对所述音频信号进行分类。

11.一种音频处理方法(700)，其特征在于，将音频信号分类为一个或多个音频场景类别，所述音频信号包括分量信号，所述方法(700)包括：

将所述分量信号分类(701)为前景层分量信号或背景层分量信号；

基于所述音频信号获得(703)音频信号特征；

根据对所述分量信号的所述分类，选择(705)第一权重集或第二权重集；以及

基于所述音频信号特征、所述前景层分量信号或所述背景层分量信号以及所述选择的权重集，对所述音频信号进行分类(707)。

12.一种计算机程序产品，其特征在于，包括用于在计算机或处理器上执行的如权利要求11所述的方法(700)的程序代码。