CN116803105A

CN116803105A - 音频内容识别

Info

Publication number: CN116803105A
Application number: CN202180062659.8A
Authority: CN
Inventors: 王贵平; 芦烈
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2020-08-18
Filing date: 2021-08-18
Publication date: 2023-09-22

Abstract

一种音频内容识别方法包括使用两级分类器。第一级包括先前存在的分类器，并且第二级包括新型分类器。将在不同时间段计算的第一级的输出和第二级的输出进行组合以生成引导信号。最终分类结果是由引导信号以及第一级的输出和第二级的输出的组合得到的。以这种方式，可以在不破坏现有分类器的情况下添加新型分类器。

Description

音频内容识别

相关申请的交叉引用

本申请要求以下优先申请的优先权：于2020年8月18日提交的PCT/CN国际申请PCT/CN2020/109744、于2020年9月4日提交的美国临时申请63/074,621以及于2020年10月6日提交的EP申请20200318.2。

技术领域

本公开涉及音频处理，并且具体地涉及音频内容识别。

背景技术

除非本文另外指示，否则本节中描述的方法不是本申请中的权利要求的现有技术，并且并不由于包含在本节中而被承认是现有技术。

随着例如智能手机、平板电脑、PC等消费娱乐设备的兴起，音频播放(audioplayback)已变得流行。还有数以万计的音频应用场景，如高保真播放、流媒体、游戏、播客、短视频和用户直播等。因此，为了提高音频的整体质量并提供不同的用户体验，有不同的音频处理算法以出于各种目的来增强音频信号。音频处理算法的一些典型示例包括对话增强和智能均衡。

对话增强通常增强语音信号。对话是电影中理解故事的重要组成部分。对话增强实施了用于增强对话的方法，以提高其清晰度和可懂度，尤其是对于听力能力下降的老年人。

智能均衡一般对音频音调(audio tone)执行动态调整。智能均衡通常应用于音乐内容，以提供频谱平衡(即，所谓的“音调”或“音色(timbre)”)的一致性。它通过以下方式来实现这种一致性：持续监测音频的频谱平衡，将其与期望音调进行比较，并动态调整均衡滤波器以将音频的原始音调变换为期望音调。

一般来说，音频处理算法具有其自己的应用场景/上下文。即，音频处理算法可能仅适用于特定的一组内容而不适用于所有可能的音频信号，因为不同的内容可能需要以不同的方式处理。例如，对话增强方法通常应用于电影内容。如果将其应用于没有对话的音乐，它可能会错误地提升某些频率子带并引入严重的音色变化和感知不一致性。同样，如果对电影内容应用智能均衡方法，音色伪影将会是可听到的。然而，对于音频处理***，其输入可能是任何可能类型的音频信号。因此，识别或区分被处理的内容变得很重要，以便对对应的内容应用最合适的算法(或每种算法的最合适的参数)。

通用的内容自适应音频处理***包括三个功能：音频内容识别、引导(steering)和音频处理。

音频内容识别自动识别播放中的内容的音频类型。音频分类技术可以通过信号处理、机器学习和模式识别而被应用于识别音频内容。置信度分数被估计，其表示关于一组预定义目标音频类型的音频内容的概率。

引导通常引导音频处理算法的行为。它基于从音频内容识别获得的结果，估计对应音频处理算法的最合适参数。

音频处理通常将使用所估计的参数的音频处理应用于输入音频信号以生成输出音频信号。

发明内容

随着不断变化的音频内容和新应用的增加，特别是对于用户生成的内容和对应的应用(例如聊天、流传输、直播、短视频等)，改进现有***中的音频识别器(分类器)和引导算法以满足对新内容或新用例的性能要求是必然的结果。以音乐为例，包括爵士乐、乡村音乐、摇滚乐和拉丁音乐在内的流行音乐过去往往是跨不同应用的主流。因此，许多现有***中的通用音乐分类器主要针对于识别上述音乐流派，并为后续的引导算法和音频处理算法精确地生成置信度分数。随着时尚潮流的变化，许多人偏好收听不同的音乐流派，比如说唱/嘻哈、电子音乐或不同音乐风格的组合。特别是，说唱音乐主要由(有节奏的)说话构成，这与普通的对话很难区分。在许多现有情况下，原始音乐分类器通常无法对说唱音乐或无伴奏音乐(cappella music)分类提供足够的准确性。作为结果，说唱音乐的一些片段/帧会被错误地识别为语音，并且随后由对话增强器提升，从而触发可听伪影。

此外，随着来自客户的需求的增加，音频处理***可能需要提供新功能性，这进一步要求音频分类器识别某些音频内容类型。以上两种场景都需要一种新型分类器。在新型音频分类器提供更多分类结果的同时，还希望对原来支持的内容类型(如对话或音乐)的分类结果仍能与来自旧分类器的分类结果相似，以使得在使用新型分类器后不需要对其他音频处理算法(如对话增强和智能均衡)进行很大程度调谐。

鉴于上述情况，需要向现有分类***添加新型分类器，同时仍保持原始音频处理行为与原来接近。无论是在特定的新内容上改进原始分类器还是添加新功能性，用新型分类器透明地更新或替代旧分类器通常并不是轻而易举的。在进行识别器替换之后，整个***可能不会以直截了当的方式最优地工作。在许多情况下，在识别器被更新后，后续的引导算法和音频处理算法也可能需要对应的细化或调谐；此外，用户期望在原始音乐识别器中保留以对先前内容进行行为测试的内容可能不再适用。这可能会引入大量额外的重新调谐工作才能完全整合新组成部分，这是不期望的。

在本公开中，我们提出了一种改进针对新内容的原始内容识别同时最大程度地减少开发或验证的额外工作的方法。本文描述的是与使用两级音频分类器有关的技术。

根据实施例，一种音频处理方法包括接收音频信号并对音频信号执行特征提取以提取多个特征。该方法进一步包括根据第一音频分类模型对多个特征进行分类以生成第一组置信度分数，并根据第二音频分类模型对多个特征进行分类以生成第二置信度分数。该方法进一步包括通过组合第一组置信度分数中的第一置信度分数和第一组置信度分数中的另一置信度分数来计算引导信号。该方法进一步包括根据引导信号、第一组置信度分数和第二置信度分数来计算最终置信度分数。该方法进一步包括根据最终置信度分数输出音频信号的分类。

根据另一实施例，一种装置包括处理器和存储器。处理器被配置为控制该装置实施本文所描述的方法中的一种或多种方法。该装置可以附加地包括与本文所描述的方法中的一种或多种方法的细节类似的细节。

根据另一实施例，一种非暂态计算机可读介质存储计算机程序，所述计算机程序在由处理器执行时控制装置执行包括本文所描述的方法中的一种或多种方法的处理。

以下详细描述和附图提供了对各个实施方式的性质和优点的进一步理解。

附图说明

图1是音频分类器100的框图。

图2是示出使分类器成为两级分类器200的布置的框图。

图3是音频处理***300的框图。

图4是可以用于实施音频分类器100(参见图1)等的设备400的框图。

图5是音频处理方法500的流程图。

具体实施方式

本文描述了与音频内容识别相关的技术。在以下描述中，出于解释的目的，阐述了许多示例和具体细节以便提供对本公开的透彻理解。然而，对于本领域技术人员显而易见的是，如由权利要求限定的本公开可以单独地或与以下描述的其他特征组合地包括这些示例中的一些或全部特征，并且可以进一步包括本文所描述的特征和概念的修改和等同物。

在以下描述中，详细描述了各种方法、过程和程序。虽然可能以某个顺序描述了特定步骤，但这种顺序主要是为了方便和清楚。特定步骤可以重复执行一次以上，可以在其他步骤之前或之后发生(即使这些步骤另外以另一种顺序描述)，并且可以与其他步骤并行发生。仅当必须在开始第二步骤之前完成第一步骤时，才需要在第一步骤之后进行第二步骤。当从上下文中不清楚时，将具体指出这种情况。

在本文档中，使用术语“和”、“或”以及“和/或”。这种术语应被理解为具有包含性含义。例如，“A和B”至少可以意指以下含义：“A和B两者”、“至少A和B两者”。作为另一个示例，“A或B”至少可以意指以下含义：“至少A”、“至少B”、“A和B两者”、“至少A和B两者”。作为另一个示例，“A和/或B”至少可以意指以下含义：“A和B”、“A或B”。当打算使用异或时，这将具体注明(例如，“要么A要么B”、“A和B中的至多一个”)。

本文档描述了与诸如块、元件、部件、电路等结构相关联的各种处理功能。通常，这些结构可以由受一个或多个计算机程序控制的处理器实施。

图1是音频分类器100的框图。音频分类器100通常接收输入音频信号102，使用各种模型执行对输入音频信号102的分类，并输出置信度分数128。音频分类器100包括特征提取器110、第一组分类器112(也称为原始分类器)、第二组分类器114(也称为新型分类器)、上下文检测器116和置信度判定器118。音频分类器100也可以统称为两级音频分类器或两级音乐分类器。可替代地，分类器112和114、上下文检测器116和置信度判定器118(例如，不包括特征提取器110)可以统称为两级音频分类器或两级音乐分类器。

特征提取器110接收音频信号102，对音频信号102执行特征提取，并生成提取的特征120。通常根据与分类器112和114所实施的模型相关的特定特征来选择提取的特定特征。作为示例，提取的特征120可以对应于音频信号102的各频带中的频谱能量。

分类器112通常包括音频分类器100的一级。分类器112接收提取的特征120，使用一个或多个模型执行对提取的特征120的分类，并生成一组置信度分数122(也称为原始置信度分数)。该组置信度分数122可以包括(例如与一个或多个模型相对应的)一个或多个置信度分数。

分类器112通常对应于一组现有的分类器。一般而言，该组现有的分类器已被开发用于对现有的音频流派进行分类，但可能不太能够准确地对新的音频流派进行分类。分类器112可以包括一个或多个分类器，包括语音分类器、音乐分类器、音效分类器、噪声分类器等。分类器112可以各自包括一种或多种不同类型的分类器，例如，两种或更多种类型的音乐分类器，每一种都被开发用于对特定音乐流派进行分类(例如，爵士乐分类器、摇滚乐分类器等)。语音分类器通常评估音频信号102是否对应于语音(例如对话)，而不是音乐、音效等。音效分类器通常评估音频信号102是否对应于音效(例如电影音效，比如车祸、***等)，而不是语音(例如对话)或音乐(例如背景音乐、情绪音乐等)。噪声分类器通常评估音频信号102是否包含噪声(例如，恒定或重复的声音，比如嗡嗡声、嗞嗞声、吱吱声、电钻声、警报声、瀑布声、雨声等)。

分类器112可以由使用各种音频类型的各种模型来执行各种分类的机器学习***实施。分类器112可以实施自适应提升(AdaBoost)或深度神经网络机器学习过程。AdaBoost过程可以在使用小模型大小或执行复杂计算的能力有限的设备中被实施。深度神经网络过程可以在允许更大模型大小和执行复杂计算的能力更强的设备中被实施。通常，分类器112的模型是通过对一组训练数据执行机器学习而被离线(offline)开发的。

分类器114通常包括音频分类器100的第二级。分类器114接收提取的特征120，使用一个或多个模型执行对提取的特征120的分类，并生成一组置信度分数124(也称为新置信度分数)。置信度分数124可以包括(例如与一个或多个模型相对应的)一个或多个置信度分数。

分类器114通常对应于一组新型分类器。通常，已开发新型分类器来对新的音频流派进行分类。例如，用于为原始分类器112开发模型的训练数据可能没有把用于新音乐流派的音频数据包括在内，使得原始分类器112在识别新流派方面表现不佳。如以下更详细描述的，新型分类器114包括说唱分类器。

分类器114可以由使用各种音频类型的各种模型来执行各种分类的机器学习***实施。分类器114可以实施自适应提升(AdaBoost)或深度神经网络机器学习过程。通常，分类器114的模型是通过对一组训练数据执行机器学习而被离线开发的。

分类器114还可以从分类器112接收信息，比如该组置信度分数122。例如，分类器114可以从分类器112接收音频信号102与语音或音乐(而不是音效或噪声)相对应的指示。

上下文检测器116接收该组置信度分数122并生成引导信号126。上下文检测器116可以从分类器112接收指示音频信号102既不包含语音也不包含音乐的信息。一般而言，上下文检测器116在各种时间帧内评估该组置信度分数122的分量，并在短期内使用平滑的置信度分数来降低错误分类的影响。上下文检测器116生成引导信号126以通过后续分量对各组组置信度分数122和124的影响进行加权。在下文提供了上下文检测器116和引导信号126的进一步细节。

置信度判定器118接收这些组置信度分数122和124以及引导信号126，并生成最终置信度分数128。一般而言，置信度检测器118根据置信度分数124在适当时将音频分类器100从仅使用分类器112平滑地过渡到也使用分类器114。在下文提供了置信度判定器118的进一步细节。

说唱音乐分类

以下章节讨论了分类器114的说唱音乐分类的特定用例。与现有的音乐流派相比，说唱音乐与对话和音乐都有相似之处。因此，使用现有的分类器存在将说唱音乐分类为对话并应用一组音频处理算法或者将说唱音乐分类为音乐并应用另一组音频处理算法的风险，这两种算法可能都不适用于说唱音乐。另外，现有的分类器可能会在对话分类与音乐分类之间快速切换，导致在这两种处理算法之间快速切换，从而导致不一致的收听体验。添加说唱分类器，并将说唱分类器与现有分类器整合以形成两级分类器，导致改进的收听体验而不破坏现有分类器。

基于子带的频谱能量

对于说唱音乐，由特征提取器110提取的新特征是基于频谱能量而发展的，频谱能量示出了不同内容在频域上的能量波动特性。首先，通过时频转换工具(例如正交镜像滤波器(QMF)、快速傅里叶变换(FFT)等)将输入音频信号变换为谱系数，然后通过上述谱系数计算能量谱，在此，本公开将整个能量谱进一步划分成四个子带。

第一子带能量，代表低于300Hz的低频能量分布，用于检测低音或鼓声的初动(onset)。第二子带能量，代表300Hz至1kHz之间的能量分布，用于测量发声音高(vocalpitch)的波动。第三子带能量，代表1kHz至3kHz之间的能量分布，用于测量发声谐波的波动。第四子带能量，代表3kHz至6kHz之间的能量分布，用于检测清音信号或小鼓(snaredrum)的波动。

所有子带频谱能量都是在短期帧(例如20ms)中被计算的，并且随后被存储在存储器缓冲区中，直到其满足预期的窗口长度，例如5s。最后，可以基于上述窗口长度的频谱能量得到高级特征。

子带的数量、每个子带的频率范围、帧长度和窗口长度可以根据需要进行调整。例如，为了对不同的新流派进行分类，可以使用适合于该新流派的子带生成用于另一个新型分类器114的模型。

说唱音乐的特性

与一般音乐相比，典型的说唱音乐有几个显著差异，包括发声节奏(tempo)、有节奏的歌词、音乐小节(musical bar)的规律性等。基于以上子带频谱能量，我们引入峰/谷跟踪方法来寻找反映发声节奏、节奏节拍(rhythmic meter)和音乐小节规律性的特性的线索。

对于典型的说唱音乐，一般节奏约为每分钟100到150拍(BPM)，并且通常带有4/4拍号(time signature)；歌词通常在固定的时段内有规律地演唱，使得每个句子中的音节(syllable)数量几乎相似。因此，相应地推导出一些新特征：

第一特征是子带频谱能量分布的统计特性。在固定的时段内，频谱能量参数被分成几个音乐小节；在每个小节中，可以计算峰/谷频谱能量，并且还对峰/谷的数量进行计数。指示上述频谱能量的统计特性的特征(例如，均值、标准差等)可以用于区分说唱音乐和一般语音内容。

第二特征是子带频谱能量的峰/谷位置间隔。发声或音节由浊音和清音构成，它们在某种程度上与频谱能量的峰和谷有关，使得一般说唱音乐的峰/谷位置有着规律的间隔。然而，对于自然对话来说，浊音与清音之间并没有明显且规律的间隔。因此，这里以连续的方式记录由窗口长度的频谱能量中的索引表示的峰/谷位置，并且随后毗邻的峰位置的每个间隔被计算。最后，这些间隔的均匀分布被用作说唱音乐的关键特征。

第三特征是峰谷频谱能量的对比。与电影或节目中一般的语音或对话相比，说唱音乐中发声能量峰和发声能量谷的对比差别不大，这也可以作为指示音频内容是否是对话内容的重要线索。

第四特征是押韵(rhyme)特征。大多数说唱音乐的歌词都是用特定的节拍和韵律(rhyme scheme)写成的。不幸的是，在没有语义识别的情况下，基于音节单位正确分割歌词在计算上可能是不可行的。另外，在说唱音乐中，有时压韵是不完整的，尤其是最后的韵脚(metrical foot)缺少一个或多个音节时。

第五特征是节奏特征(rhythmic feature)。在上述各种频谱范围的子带能量上计算节奏特征，该节奏特征代表音乐初动的频率和强度以及节奏的规律性和对比。分别地，一次测量可以基于第1/第4子带频谱能量，而另一次测量可以基于第2/第3子带频谱能量。

用于训练两级音乐分类器的数据和特征的选择

在训练说唱分类器之前，有必要准备一组训练数据并最终确定特征和分类器算法。训练数据库由各种内容类型构成，比如语音、说唱音乐、非说唱音乐、音效、噪声等，这些内容是随时间从各种应用中收集的并进行手工标记以表示其对应的音频类型。这些标记代表音频内容的地面真值(ground truth)。为了满足不同应用场景的需求，可以在旧特征与新特征之间联合或单独地选择特征集。类似地，新模型也可以通过使用不同的学习算法独立地或与多个模型联合进行训练。

取决于新型分类器的需求和***容忍度，旧特征/训练数据和新特征/训练数据有不同的组合。不幸的是，很难找到上述组合的最优解，因为我们无法枚举所有的选择可能性。在实践中，我们手动将训练数据集分成两个数据块(data chuck)，一个数据块代表说唱音乐内容流派，而另一个数据块代表非说唱。对于特征集，我们选择原始特征和新特征来训练说唱音乐分类器，同时为旧音乐分类器保留旧特征。因此，有两个独立的音乐分类器：一个是原始音乐分类器，作为用于一般音乐内容识别的第一级音乐分类器(例如，该组分类器112)，而另一个是新训练的说唱音乐分类器，作为专门用于在说唱歌曲与对话内容之间识别音频内容的第二级音乐分类器(例如，该组分类器114)。

使分类器成为两级的布置

图2是示出使分类器112和114(参见图1)成为两级分类器200的布置的框图。分类器112形成第一级，并且包括语音分类器202、音乐分类器204、音效分类器206和噪声分类器208。分类器112接收提取的特征120并分别生成语音置信度分数212、音乐置信度分数214、音效置信度分数216和噪声置信度分数218，这些置信度分数共同构成该组置信度分数122。

分类器114形成第二级并且包括说唱分类器230。第二级还包括决策级232。决策级232接收该组置信度分数122。当该组置信度分数122指示音频信号102不对应于语音或音乐时(例如，语音置信度分数212和音乐置信度分数214的值较低，或音效置信度分数216或噪声置信度分数218的值较高)，两级分类器200输出该组置信度分数122。当该组置信度分数122指示音频信号102确实对应于语音或音乐时(例如，语音置信度分数212或音乐置信度分数214的值较高)，决策级将该信息指示给说唱分类器230。

说唱分类器230接收提取的特征120和来自决策级232的对语音或音乐的指示。为了有效地降低计算复杂度，不必针对所有内容一直运行说唱分类器230。取而代之地，分类器112和分类器114被布置为两级级联分类器。首先，在第一级计算每种音频类型的置信度分数，这确定具有最大置信度分数的对应音频类型。如果音频类型是语音或音乐类型，则满足条件并向说唱分类器230提供指示以执行进一步识别。两级分类器200然后输出由说唱分类器230的操作产生的置信度分数124。如果第一级分类器的输出类型是音效或噪声，则可以绕过说唱分类器230。

上下文检测器116

上下文检测器116(参见图1)通常监测置信度值随时间的变化。原始分类器(例如分类器112)和新型分类器(例如分类器114)都可能在短期内出错。因此，上下文检测器116评估长期的连续上下文信息。例如，在几分钟的时段内听音乐导致上下文信息趋向于在该时段结束时具有音乐类型的高置信度分数，这有助于纠正短时间段内错误分类导致的突然误报。上下文检测器116考虑长期上下文和短期上下文两者。长期上下文信息是被缓慢平滑的音乐置信度分数(例如，音乐置信度分数214)。例如，缓慢平滑可以在8到12秒内确定，例如10秒。长期上下文信息然后可以根据下式(1)计算：

其中，p(t)是在音频信号102的当前帧t的音乐分类器的置信度分数(例如，音乐置信度分数214)，并且α_context是长期平滑系数。

以类似的方式，短期上下文信息是被快速平滑的非音乐置信度分数(例如，音效置信度分数216和噪声置信度分数218中的较大者)。例如，快速平滑可以在4到6秒内确定，例如5秒。短期上下文信息然后可以根据下式(2)计算：

其中，q(t)是音频信号102的当前帧t的音效置信度分数216和噪声置信度分数218中的最大值，并且β_context是短期平滑系数。

在给定上述上下文信号和/>的情况下，可以通过非线性函数h()确定引导信号s(t)。例如，根据下式(3)，可以使用S型函数(sigmoid function)将获得的上下文信号映射到预期的引导信号(从0到1)：

其中，h₁和h₂是根据下式(4)的S型函数：

其中，x是输出获得的上下文置信度(例如，或者/>)，并且A和B是两个参数。

上下文检测器116的输出是引导信号126，其被用作置信度判定器118的后续处理的加权因子。引导信号126的范围是从0.0到1.0的软值，其中，值0指示非音乐上下文，而值1.0指示音乐上下文。在0至1之间，值越大，音频信号102越有可能处于音乐上下文。

置信度判定器118

置信度判定器118(参见图1)通过联合考虑引导信号126、该组置信度分数122和置信度分数124来生成最终音乐置信度分数128。为了实现说唱音乐分类开/关之间的平滑过渡，如果w(t)∈(0，1)，则将采取混合程序。即，最终输出将是旧音乐分类器(例如，仅置信度分数122)和新音乐分类器(例如，置信度分数122和124两者的组合)的混合置信度分数。给定新音乐分类器的置信度分数x_new(t)、旧音乐分类器的置信度分数x_old(t)[例如，置信度分数122]以及上面讨论的引导信号s(t)[例如，引导信号126]，可以根据下式(5)计算x_new(t)：

x_new(t)＝x_old(t)+(1-x_old(t))*new_conf(t)

其中，new_conf(t)是第二级(说唱)音乐置信度输出(例如，置信度分数124)。

然后，最终输出置信度分数y(t)[例如，最终置信度分数128]可以根据下式(6)和(7)来表示：

y(t)＝w(t)x_new(t)+(1-w(t))x_old(t)

阈值可以经由训练数据的统计汇总来确定；根据实施例，0.9的阈值效果很好。

附加新型分类器的扩展

在本公开中，将说唱分类器作为构建两级音乐分类器的示例用例进行了详细说明，两级音乐分类器不仅保持了现有音频内容(比如语音、非说唱音乐、音效和噪声)的原始行为，而且还通过大大提高说唱歌曲的分类准确性提升了说唱音乐的整体收听体验。值得注意的是，所提出的方法可以被很容易地扩展或直接应用于音频***，以用于音乐内容分类的各种用例，比如为无伴奏音乐、游戏中的某些背景音乐和播客中的混响语音构建新型分类器。更广泛地，所提出的方法还可以被扩展到用于一般内容分类的一般音频***。以下段落讨论了其中旧的内容识别器需要通过新型内容识别器进行扩展的几个特定用例、场景和应用。

一个示例用例是混响检测。例如，需要对混响语音进行专门处理，并且随后编码为比特流，比如播客或用户生成的音频内容。在支持新数据类型的同时，新型检测器可能需要对旧数据类型生成类似结果以保持向后兼容性。在这种情况下，可以将混响语音分类器添加到分类器114(参见图1)。

另一示例用例是枪声检测。在游戏应用中，可以利用其他类型的音效(例如枪声)来更新音效检测器。在这种情况下，可以将枪声分类器添加到分类器114。

另一示例用例是噪声检测。随着客户需求的增加，音频处理***可能需要提供更多的功能性(例如，移动设备的噪声补偿)，这进一步要求噪声分类器识别更多的音频内容类型(例如，移动中的稳定噪声)。尽管新型噪声分类器提供更多分类结果，但是希望对原来支持的内容类型(如噪声或音效)上的分类结果仍能与来自旧分类器的分类结果相似，以使得在使用新型分类器后不需要对其他音频处理算法(如噪声抑制和音量调节(volumeleveler))进行很大程度调谐。在这种情况下，可以将新型噪声分类器添加到分类器114。

总之，当需要构建或改进新型分类器时，所提出的方法可以从以下四个考虑因素来进行一般化。

第一考虑因素是新旧用例的关系。这种考虑因素明确了新旧分类器的关系，从而决定了模型组合的结构。当新用例是旧用例的类型子集时，新型分类器可以与旧分类器组合成级联的多级结构。如果新用例是独立的需求，则新型分类器可以与旧分类器并行。此外，这种考虑因素有助于决定何时触发或激活新型分类器，以及如何将新型分类器的结果与原始***中旧分类器的置信度分数相结合。

第二考虑因素是新用例的新特性。这种考虑因素旨在找到代表新模式的本质特性的典型特征，其用于将目标类型与其他内容类型区分开。

第三考虑因素是新用例的训练模型。这种考虑因素根据新需求来准备训练数据和作为目标音频类型的标记数据，然后提取特征并通过对应的机器学习技术以离线方式训练新型分类器的模型。

第四考虑因素是新型分类器的整合。这种考虑因素旨在将新特征和分类器整合到原始***中，并调谐适当的参数以最小化旧用例的行为差异。

为了区分音频内容并相应地应用最佳参数或最佳音频处理算法，可能需要并预先设计不同的用例配置文件(profile)，并且***开发人员可以为正被部署的应用上下文选择配置文件。配置文件通常对将被应用的一组音频处理算法和/或其最佳参数进行编码，比如专为高性能应用或资源受限用例(例如移动)设计的“基于文件(File-based)”的配置文件和“便携式(Portable)”配置文件。基于文件的配置文件与便携式配置文件之间的主要区别在于特征选择和模型选择所致的计算复杂度，这些扩展功能性在基于文件的配置文件中被启用，而在便携式配置文件中被禁用。

避免对既定用例造成影响

当我们用新请求扩展原始***时，新***不应该对现有应用用例造成巨大影响。这提出了以下三项建议。

第一项建议涉及旧用例的特征/模型选择。总体目标是尽可能保持原始特征和分类器不变，并为新请求添加或训练单独的分类器，这是避免对现有用例造成重大影响的基本保证。

第二项建议涉及关于使用新型分类器的确定。为了减少不必要的误报，使用新型分类器的确定条件应该被微调，这表明对于旧用例，使用原始分类器计算置信度分数并输出结果，而仅对于新用例，将使用新型分类器来识别音频内容类型。

第三项建议涉及新旧分类器之间的置信度判定器。可以使用不同的平滑方案在旧置信度分数与新结果之间确定最终输出。例如，为了避免突然变化并做出对音频处理算法中的参数的更平滑估计，可以进一步平滑置信度分数。一种常见的平滑方法是基于加权平均，例如根据下式(8)和(9)：

Conf(t)＝α·old_Conf(t)+(1-α)·new_conf(t)

smoothConf(t)＝β·smoothConf(t-1)+(1-β)·conf(t)

其中，t是时间戳，α，β是权重，conf和smoothConf分别是平滑前后的置信度。

平滑算法也可以是“非对称的”，即，对不同情况使用不同的平滑权重。例如，假设当旧置信度分数增加时，我们更关心原始输出，那么我们可以根据下式(10)设计平滑算法：

上面的公式允许平滑后的置信度分数在旧的置信度分数增加时快速响应于当前状态，而在旧的置信度分数减小时缓慢地平滑。可以以类似的方式产生平滑函数的变体。

图3是音频处理***300的框图。音频处理***300包括音频分类器100(参见图1)和处理部件310，处理部件310包括对话增强器312、智能均衡器314和说唱音乐增强器316。

音频分类器100接收音频信号102并如上文讨论的那样操作以生成最终置信度分数128。处理部件310接收最终置信度分数并基于最终置信度分数128使用适当的部件来处理音频信号102。例如，当最终置信度分数128指示音频信号102是对话时，可以使用对话增强器312来处理音频信号102。当最终置信度分数128指示音频信号102具有不平衡的频谱平衡时，可以使用智能均衡器314来处理音频信号102。当最终置信度分数128指示音频信号102是说唱音乐时，可以使用说唱音乐增强器316来处理音频信号102。处理部件310生成经处理的音频信号320，其对应于已由所选部件处理的音频信号102。

图4是可以用于实施音频分类器100(参见图1)、两级分类器200(参见图2)、音频处理***300(参见图3)等的设备400的框图。设备400可以是计算机(台式计算机、膝上型计算机等)、游戏控制台、便携式设备(例如，移动电话、媒体播放器等)等。设备400包括由总线412连接的处理器402、存储器404、一个或多个输入部件406、一个或多个输出部件408以及一个或多个通信部件410。

处理器402通常例如根据一个或多个计算机程序的执行来控制设备400的操作。处理器402可以实施本文描述的一个或多个功能，比如特征提取器110(参见图1)、分类器112和114、上下文检测器116、置信度判定器118、音频处理部件310(参见图3)的功能、式(1)到(10)、方法500(参见图5)等。处理器402可以与存储器404交互以存储数据、计算机程序等。

存储器404通常存储由设备400操作的数据。例如，存储器404可以存储输入信号102(参见图1；例如，作为流传输信号的数据帧，作为存储的数据文件等)、提取的特征120、由分类器112和114使用的模型、置信度分数122和124、引导信号126、最终置信度分数128、式(1)到式(10)的结果等。存储器404还可以存储由处理器402执行的计算机程序。

输入部件406通常实现对设备400的输入。输入部件406的细节可以基于设备400的特定形状因数而变化。例如，移动电话的输入部件406可以包括触摸屏、麦克风、运动传感器、相机、控制按钮等。游戏控制台的输入部件406可以包括控制按钮、动力运动传感器、麦克风、游戏控制器等。

输出部件408通常实现设备400的输出。输出部件408的细节可以基于设备400的特定形状因数而变化。例如，移动电话的输出部件408可以包括屏幕、扬声器、触觉机制、发光二极管等。游戏控制台的输出部件408可以包括屏幕、扬声器等。

通信部件410通常实现设备400与其他设备之间的有线或无线通信。因此，通信部件410包括与输入部件406和输出部件408类似的附加输入部件和输出部件。无线部件包括无线电，比如蜂窝无线电、IEEE 802.15.1无线电(例如，Bluetooth^TM无线电)、IEEE 802.11无线电(例如，Wi-Fi^TM无线电)等。有线部件包括键盘、鼠标、游戏控制器、传感器等。输入部件406和输出部件408的细节可以基于设备400的特定形状因数而变化。例如，移动电话可以包括蜂窝无线电以接收作为流媒体信号的输入信号102，并包括IEEE 802.15.1无线电以将经处理的音频信号320传输到一对无线耳塞以作为声音输出。

图5是音频处理方法500的流程图。方法500可以由设备(例如，图4的设备400)实施，如通过一个或多个计算机程序的执行来控制。

在502处，接收音频信号。例如，可以由设备400的通信部件410(参见图4)接收音频信号102(参见图1)。作为另一示例，可以从存储器404接收音频信号102，音频信号先前已经存储在那里。

在504处，对音频信号执行特征提取以提取多个特征。例如，特征提取器110(参见图1)可以对音频信号102执行特征提取以生成提取的特征120。所执行的特征提取的细节以及由此产生的提取特征可能会基于这些特定特征与用于分类的模型的相关性而有所不同。例如，输入信号102的子带能量可能与说唱分类模型相关。

在506处，根据第一音频分类模型对多个特征进行分类以生成第一组置信度分数。例如，分类器112(参见图1)可以根据音乐分类模型、语音分类模型、噪声分类模型、音效分类模型等对提取的特征120进行分类，从而生成相应的置信度分数122。

在508处，根据第二音频分类模型对多个特征进行分类以生成第二置信度分数。例如，分类器114(参见图1)可以根据说唱分类模型对提取的特征120进行分类以生成说唱置信度分数124。

在510处，通过组合在第一时间段内平滑的第一组置信度分数中的第一分量和在第二时间段内平滑的第一组置信度分数中的第二分量来计算引导信号，其中，第二时间段短于第一时间段。例如，上下文检测器116(参见图1)可以使用根据式(1)的长期上下文信息和根据式(2)的短期上下文信息根据式(3)来生成引导信号126。

在512处，根据引导信号、第一组置信度分数和第二置信度分数来计算最终置信度分数。例如，置信度判定器118(参见图1)可以根据引导信号126、置信度分数122和置信度分数124生成最终置信度分数128。最终置信度分数可以对应于置信度分数122和124的加权组合，例如，根据等式(6)计算的。

在514处，根据最终置信度分数输出音频信号的分类。例如，置信度判定器118(参见图1)可以输出最终置信度分数128以供设备400的其他部件使用。

在516处，基于该分类，选择性地对音频信号执行第一处理和第二处理之一以生成经处理的音频信号，其中，当该分类是第一分类时执行第一处理，并且当该分类是第二分类时执行第二处理。例如，当音频信号102(参见图1)对应于语音时，可以使用对话增强器312(参见图3)生成经处理的音频信号320。当音频信号102对应于说唱时，可以使用说唱音乐增强器316生成经处理的音频信号320。

在518处，经处理的音频信号被作为声音输出。例如，设备400的扬声器可以将经处理的音频信号320输出为可听声音。

实施细节

实施例可以以硬件、存储在计算机可读介质上的可执行模块、或二者的组合(例如，可编程逻辑阵列)来实施。除非另有说明，否则由实施例执行的步骤不需要固有地与任何特定计算机或其他装置相关，尽管其可能在某些实施例中相关。具体地，各种通用机器可以与根据本文的传授内容编写的程序一起使用，或可以更方便地构建更专业的装置(例如，集成电路)以执行所需的方法步骤。因此，实施例可以在一个或多个可编程计算机***上执行的一个或多个计算机程序中实施，所述一个或多个可编程计算机***各自包括至少一个处理器、至少一个数据存储***(包括易失性和非易失性的存储器和/或存储元件)、至少一个输入设备或端口以及至少一个输出设备或端口。程序代码应用于输入数据以执行本文所描述的功能并生成输出信息。输出信息以已知的方式应用于一个或多个输出设备。

每个这种计算机程序优选地存储在或下载到可由通用或专用可编程计算机读取的存储介质或设备(例如，固态存储器或介质、或者磁性或光学介质)，以用于在计算机***读取存储介质或设备时配置并操作计算机以执行本文所描述的程序。本发明的***还可以被认为是实施为配置有计算机程序的计算机可读存储介质，其中，这样配置的存储介质使计算机***以具体且预定义的方式操作以执行本文所描述的功能。(软件本身和无形或暂态信号在它们是不可申请专利的主题的意义上被排除。)

以上描述说明了本公开的各个实施例以及可以如何实施本公开的各方面的示例。以上示例和实施例不应被认为是仅有的实施例，而是被呈现以说明由所附权利要求限定的本公开的灵活性和优点。基于以上公开和所附权利要求，其他布置、实施例、实施方式和等同物对于本领域技术人员将是显而易见的，并且可以在不脱离由权利要求限定的本公开的精神和范围的情况下采用。

可以从以下枚举的示例实施例(EEE)中理解本发明的各个方面：

EEE1.一种音频处理方法，所述方法包括：

接收音频信号；

对所述音频信号执行特征提取以提取多个特征；

根据第一音频分类模型对所述多个特征进行分类以生成第一置信度分数；

根据第二音频分类模型对所述多个特征进行分类以生成第二置信度分数；

通过组合所述第一置信度分数的第一分量和所述第一置信度分数的第二分量来计算引导信号；

根据所述引导信号、所述第一置信度分数和所述第二置信度分数来计算最终置信度分数；以及

根据所述最终置信度分数输出所述音频信号的分类。

EEE2.如EEE 1所述的方法，其中，多个模型包括第一组模型和所述第二音频分类模型，其中，所述第一组模型包括所述第一音频分类模型，其中，根据所述第一音频分类模型对所述多个特征进行分类以生成所述第一置信度分数包括：

根据所述第一组模型对所述多个特征进行分类以生成所述第一置信度分数。

EEE3.如EEE 2所述的方法，其中，所述第一组模型包括语音分类模型和音乐分类模型。

EEE4.如EEE 1至3中任一项所述的方法，其中，所述第二音频分类模型是说唱分类模型。

EEE5.如EEE 1至4中任一项所述的方法，其中，执行特征提取包括确定所述音频信号的多个子带的多个子带能量。

EEE6.如EEE 5所述的方法，其中，所述多个子带包括低于300Hz的第一子带、介于300Hz和1000Hz之间的第二子带、介于1kHz和3kHz之间的第三子带以及介于3kHz和6kHz之间的第四子带。

EEE7.如EEE 1至6中任一项所述的方法，其中，根据所述第一音频分类模型对所述多个特征进行分类包括：

使用自适应提升机器学习过程和深度神经网络机器学习过程中的至少一个根据所述第一音频分类模型对所述多个特征进行分类。

EEE8.如EEE 1至7中任一项所述的方法，其中，计算所述引导信号包括：

通过组合在第一时间段内平滑的所述第一置信度分数的第一分量和在第二时间段内平滑的所述第一置信度分数的第二分量来计算所述引导信号，其中，所述第二时间段短于所述第一时间段。

EEE9.如EEE 8所述的方法，其中，所述第一时间段是所述第二时间段的至少两倍。

EEE10.如EEE 8所述的方法，其中，所述第一时间段在8到12秒之间，并且其中，所述第二时间段在4到6秒之间。

EEE11.如EEE 8至10中任一项所述的方法，其中，在所述第一时间段内平滑的所述第一置信度分数的第一分量是基于第一平滑系数、所述音频信号的当前帧的当前音乐置信度分数和所述音频信号的前一帧的先前平滑的音乐置信度分数计算的；并且

其中，在所述第二时间段内平滑的所述第一置信度分数的第二分量是基于第二平滑系数、所述音频信号的当前帧的当前音效和噪声置信度分数和所述音频信号的前一帧的先前平滑的音效和噪声置信度分数计算的。

EEE12.如EEE 1至11中任一项所述的方法，其中，计算所述引导信号包括：

将第一S型函数应用于在所述第一时间段内平滑的所述第一置信度分数的第一分量；以及

将第二S型函数应用于在所述第二时间段内平滑的所述第一置信度分数的第二分量。

EEE13.如EEE 1至12中任一项所述的方法，其中，所述最终置信度分数是基于新置信度分量和旧置信度分量的组合来计算的，

其中，所述新置信度分量是基于将第一权重应用于所述第一置信度分数和所述第二置信度分数的组合的组合来计算的。

EEE14.如EEE 13所述的方法，其中，所述旧置信度分量是基于将第二权重应用于所述第一置信度分数来计算的。

EEE15.如EEE 14所述的方法，其中，所述第一权重和所述第二权重的和为一。

EEE16.如EEE 13所述的方法，其中，所述第一权重选择性地对应于所述引导信号以及所述引导信号与所述第二置信度分数的组合之一，并且

其中，当所述第二置信度分数小于阈值时，所述第一权重对应于所述引导信号。

EEE17.如EEE 1至16中任一项所述的方法，进一步包括：

基于所述分类，选择性地对所述音频信号执行第一处理和第二处理之一以生成经处理的音频信号，其中，当所述分类是第一分类时执行所述第一处理，并且当所述分类是第二分类时执行所述第二处理。

EEE18.一种非暂态计算机可读介质，所述非暂态计算机可读介质存储计算机程序，所述计算机程序在由处理器执行时控制装置以执行包括如EEE 1至17中任一项所述的方法的处理。

EEE19.一种用于音频处理的装置，所述装置包括：

处理器；以及

存储器，

其中，所述处理器被配置为控制所述装置接收音频信号，

其中，所述处理器被配置为控制所述装置对所述音频信号执行特征提取以提取多个特征，

其中，所述处理器被配置为控制所述装置根据第一音频分类模型对所述多个特征进行分类以生成第一置信度分数，

其中，所述处理器被配置为控制所述装置根据第二音频分类模型对所述多个特征进行分类以生成第二置信度分数，

其中，所述处理器被配置为控制所述装置通过组合在第一时间段内平滑的所述第一置信度分数的第一分量和在第二时间段内平滑的所述第一置信度分数的第二分量来计算所述引导信号，其中，所述第二时间段短于所述第一时间段，

其中，所述处理器被配置为控制所述装置根据所述引导信号、所述第一置信度分数和所述第二置信度分数来计算最终置信度分数，并且

其中，所述处理器被配置为控制所述装置根据所述最终置信度分数输出所述音频信号的分类。

EEE20.如EEE 19所述的装置，其中，所述第二音频分类模型是说唱分类模型，

其中，执行特征提取包括确定所述音频信号的多个子带的多个子带能量，并且

其中，所述多个子带包括低于300Hz的第一子带、介于300Hz和1000Hz之间的第二子带、介于1kHz和3kHz之间的第三子带以及介于3kHz和6kHz之间的第四子带。

参考文献

美国专利号10,129,314。

美国申请公开号2018/0181880。

美国专利号10,411,669。

美国申请公开号2020/0134083。

美国申请公开号2011/0029108。

美国专利号10,522,186。

美国专利号8,400,566。

美国专利号7,263,485。

美国专利号7,953,693。

美国专利号10,424,321。

美国专利号10,556,087。

美国申请公开号2020/0075019。

美国专利号9,020,816。

中国申请公开CN103186527A。

中国申请公开CN111177454A。

Ja-Hwung Su、Hsin-Ho Yeh、Philip S.Yu和Vincent S.Tseng，“MusicRecommendation Using Content and Context Information Mining[使用内容和上下文信息挖掘进行音乐推荐]”，IEEE智能***，第25卷，第1期，第16-26页，2010年1月至2月，doi:10.1109/MIS.2010.23。

美国专利号9,842,605。

Claims

1.一种音频处理方法，所述方法包括：

接收音频信号；

对所述音频信号执行特征提取以提取多个特征；

根据第一音频分类模型对所述多个特征进行分类以生成第一组置信度分数；

通过组合所述第一组置信度分数中的第一置信度分数和所述第一组置信度分数中的另一置信度分数来计算引导信号；

根据所述引导信号、所述第一组置信度分数和所述第二置信度分数来计算最终置信度分数；以及

根据所述最终置信度分数输出所述音频信号的分类。

2.如权利要求1所述的方法，其中，多个模型包括第一组模型和所述第二音频分类模型，其中，所述第一组模型包括所述第一音频分类模型，其中，根据所述第一音频分类模型对所述多个特征进行分类以生成所述第一组置信度分数包括：

根据所述第一组模型对所述多个特征进行分类以生成所述第一组置信度分数。

3.如权利要求2所述的方法，其中，所述第一组模型包括语音分类模型和音乐分类模型。

4.如权利要求1至3中任一项所述的方法，其中，所述第二音频分类模型是说唱分类模型。

5.如权利要求1至4中任一项所述的方法，其中，执行特征提取包括确定所述音频信号的多个子带的多个子带能量。

6.如权利要求5所述的方法，其中，所述多个子带包括低于300Hz的第一子带、介于300Hz和1000Hz之间的第二子带、介于1kHz和3kHz之间的第三子带以及介于3kHz和6kHz之间的第四子带。

7.如权利要求1至6中任一项所述的方法，其中，根据所述第一音频分类模型对所述多个特征进行分类包括：

8.如权利要求1至7中任一项所述的方法，其中，计算所述引导信号包括：

通过组合在第一时间段内平滑的所述第一组置信度分数中的所述第一置信度分数和在第二时间段内平滑的所述第一组置信度分数中的所述另一置信度分数来计算所述引导信号，其中，所述第二时间段短于所述第一时间段。

9.如权利要求8所述的方法，其中，所述第一时间段是所述第二时间段的至少两倍。

10.如权利要求8或权利要求9所述的方法，其中，在所述第一时间段内平滑的所述第一组置信度分数中的所述第一置信度分数是基于第一平滑系数、所述音频信号的当前帧的当前音乐置信度分数和所述音频信号的前一帧的先前平滑的音乐置信度分数来计算的；并且

其中，在所述第二时间段内平滑的所述第一组置信度分数中的所述另一置信度分数是基于第二平滑系数、所述音频信号的当前帧的当前音效和噪声置信度分数和所述音频信号的前一帧的先前平滑的音效和噪声置信度分数来计算的。

11.如权利要求1至10中任一项所述的方法，其中，计算所述引导信号包括：

将第一S型函数应用于在所述第一时间段内平滑的所述第一组置信度分数中的所述第一置信度分数；以及

将第二S型函数应用于在所述第二时间段内平滑的所述第一组置信度分数中的所述另一置信度分数。

12.如权利要求1至11中任一项所述的方法，进一步包括：

基于所述分类，选择性地对所述音频信号执行第一处理和第二处理之一以生成经处理的音频信号，其中，当所述分类是第一分类时所述第一处理被执行，并且当所述分类是第二分类时所述第二处理被执行。

13.一种非暂态计算机可读介质，所述非暂态计算机可读介质存储计算机程序，所述计算机程序在由处理器执行时控制装置执行包括如权利要求1至12中任一项所述的方法的处理。

14.一种用于音频处理的装置，所述装置包括：

处理器；以及

存储器，

其中，所述处理器被配置为控制所述装置接收音频信号，

其中，所述处理器被配置为控制所述装置根据第一音频分类模型对所述多个特征进行分类以生成第一组置信度分数，

其中，所述处理器被配置为控制所述装置通过组合所述第一组置信度分数中的第一置信度分数和所述第一组置信度分数中的另一置信度分数来计算引导信号，

其中，所述处理器被配置为控制所述装置根据所述引导信号、所述第一组置信度分数和所述第二置信度分数来计算最终置信度分数，并且

15.如权利要求14所述的装置，其中，所述第二音频分类模型是说唱分类模型，

16.如权利要求14或15所述的装置，其中，计算所述引导信号包括：