CN116530009A

CN116530009A - 用于音频内容的动态均衡的目标简档的自动生成和选择

Info

Publication number: CN116530009A
Application number: CN202180079841.4A
Authority: CN
Inventors: G·琴加莱; N·L·恩格尔; P·W·斯坎内尔; D·斯卡伊尼
Original assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Current assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Priority date: 2020-11-27
Filing date: 2021-11-18
Publication date: 2023-08-01

Abstract

在实施例中，一种方法包括：过滤参考音频内容项以将参考音频内容项分离成不同的频带；对于每个频带，从参考音频内容项中的每一个的至少一部分中提取第一特征向量，其中第一特征向量包括参考音频内容项的至少一个音频特性；从参考音频内容项中的每一个的至少一部分中获得至少一个语义标签；获得由每个频带的第一特征向量和至少一个语义标签组成的第二特征向量；基于第二特征向量生成表示簇的质心的簇特征向量；根据簇特征向量分离参考音频内容项；以及基于簇中的参考音频内容项计算每个簇的平均目标简档。

Description

用于音频内容的动态均衡的目标简档的自动生成和选择

相关申请的交叉引用

本申请要求于2020年11月27日提交的西班牙专利申请第P202031189号以及于2021年2月3日提交的美国临时申请第63/145,017号的优先权，其全部内容通过引用整体并入本文。

技术领域

本公开一般涉及音频信号处理，并且更具体地涉及音频内容的动态均衡。

背景技术

动态均衡(DEQ)是一种通过将时间相关和频率相关的增益应用于音频内容来修改音频内容(例如，音乐或语音文件)的频谱轮廓和动态范围从而使得音频内容与特定的参考音频内容的频谱轮廓和动态范围相匹配的技术。在DEQ中，音频内容的频谱轮廓和动态范围由表示音频内容中的能量的统计分布的每个频带的一组分位数来表示。这组分位数通常被称为音频内容的“简档(profile)”。在获得参考音频内容的分位数(以下称为“目标简档”)和输入音频内容的分位数(以下称为“输入简档”)之后，DEQ计算应用于输入音频内容的增益，从而使得输入音频内容的分位数被修改以与参考音频内容相匹配。

现有的DEQ技术通过手动地选择从其可生成目标简档的一组参考音频内容来获得目标简档。一旦生成了目标简档，选择所需的目标简档以用于给定的输入音频内容就留给了用户。从多个目标简档中选择特定的目标简档对于应用DEQ之后的音频内容的主观质量具有显著影响。选择不适当的目标简档可能导致输入音频内容的感知劣化。感知劣化的一些相关示例包括处理古典音乐录音(例如，HPE宽的动态范围，醇厚的高音平衡)以匹配电子舞蹈音乐(EDM)录音(例如，小的动态范围，突出的高音)，或者处理男性讲话录音以匹配女性讲话录音的均衡(EQ)轮廓。

当多个参考音频内容项可用时，期望自动地生成多个显著最大不同的目标简档。此外，在不期望用户输入并且多个目标简档可用的情况下，期望自动地选择适当的目标简档。

发明内容

公开了用于自动生成和选择用于音频内容的DEQ的目标简档的实施例。

在实施例中，一种自动地生成用于音频内容的动态均衡的目标简档的方法包括：获得参考音频内容项；过滤参考音频内容项以将参考音频内容项分离成参考音频内容项的频谱的不同的频带；对于每个频带，从参考音频内容项中的每一个的至少一部分中提取第一特征向量，其中第一特征向量包括参考音频内容项的至少一个音频特性；从参考音频内容项中的每一个的至少一部分获得描述参考音频内容项的至少一个语义标签；获得由每个频带的第一特征向量和至少一个语义标签组成的第二特征向量；基于第二特征向量生成表示簇的质心的簇特征向量，其中每个参考音频内容项被分配给至少一个簇；根据簇特征向量分离参考音频内容项；基于簇中的参考音频内容项计算每个簇的平均目标简档；以及将每个簇的平均目标简档和对应的簇特征向量存储在存储设备中。

在实施例中，生成表示簇的质心的簇特征向量包括仅使用第一特征向量的至少一个音频特性来生成簇特征向量。

在实施例中，生成表示簇的质心的簇特征向量包括仅使用第二特征向量的至少一个语义标签来生成簇特征向量。

在实施例中，一种自动地生成用于音频内容的动态均衡的目标简档的方法包括：利用至少一个处理器获得第一组参考音频内容项；利用至少一个处理器过滤第一组参考音频内容项以将第一组参考音频内容项分离成参考音频内容项的频谱的不同的频带；利用至少一个处理器从第一组参考音频内容项中提取语义标签特征向量，其中语义标签特征向量包括描述第一组参考音频内容项的语义标签；利用至少一个处理器并基于语义标签特征向量生成表示第一组簇的第一组质心的第一组簇特征向量；利用至少一个处理器根据第一组簇特征向量将第一组参考音频内容项分离到第一组簇中；对于第一组簇中的每个簇和对于每个频带：利用至少一个处理器从分配给该簇的参考音频内容项中提取音频特性特征向量，其中音频特性特征向量包括第一组参考音频内容项的音频特性；利用至少一个处理器并基于音频特性特征向量生成表示第二组簇的第二组质心的第二组簇特征向量；利用至少一个处理器根据第二组簇特征向量将参考音频内容项分离到第二组簇中；利用至少一个处理器基于簇中的参考音频内容项计算第二组簇中的每个簇的平均目标简档；以及利用至少一个处理器将平均目标简档和对应的第二组簇特征向量存储在存储设备中。

在实施例中，一种自动地生成用于音频内容的动态均衡的目标简档的方法包括：利用至少一个处理器获得参考音频内容项；利用至少一个处理器过滤参考音频内容项以将参考音频内容项分离成参考音频内容项的频谱的不同的频带；对于每个频带，利用至少一个处理器从参考音频内容项中提取音频特性特征向量，其中音频特性特征向量包括参考音频内容项的音频特性；利用至少一个处理器并基于音频特性特征向量生成表示簇的质心的簇特征向量，其中每个参考音频内容项被分配给至少一个簇；利用至少一个处理器根据簇特征向量分离参考音频内容项；基于与簇中的各个参考音频内容项相关联的语义标签向每个簇特征向量分配语义标签；利用至少一个处理器基于分配给簇的语义标签计算每个簇的平均目标简档；以及利用至少一个处理器将每个向量和每个频带的平均目标简档和对应的簇特征向量存储在存储设备中。

在实施例中，至少一个音频特性是平均能量。

在实施例中，至少一个音频特性是基于参考音频内容项的能量分布中的两个百分位数之间的差的动态范围。

在实施例中，至少一个音频特性是包括拟合两个频带之间的平均能量的线的频谱斜率。

在实施例中，至少一个音频特性是频谱通量。

在实施例中，至少一个音频特性是波峰因子。

在实施例中，至少一个音频特性是过零率，其用于有效地区分(例如来自语音的音乐)并且因此改进聚类。

在实施例中，使用k均值聚类来生成簇特征向量。

在实施例中，方法还包括：利用至少一个处理器获得参考音频内容中所表示的多个独特风格标签；以及将簇的最小数量设置为等于参考音频内容中所表示的风格的数量。

在实施例中，从音频内容分类器、参考音频内容项的元数据、或从人类听众中的至少一个中获得独特风格标签的数量。

在实施例中，从音频内容分类器、参考音频内容项的元数据、或从人类听众中的至少一个中获得语义标签。

在实施例中，仅使用音频内容项的一部分(例如，前30秒)来计算音频特性和/或语义标签。

在实施例中，一种自动地选择用于音频内容的动态均衡的目标简档的方法包括：利用至少一个处理器获得输入音频内容项；利用至少一个处理器过滤输入音频内容项以将输入音频内容项分离成输入音频内容项的频谱的不同的频带；对于每个频带，利用至少一个处理器从输入音频内容项中提取第一特征向量，其中第一特征向量包括输入音频内容项的至少一个音频特性；获得描述输入音频内容项的至少一个语义标签；获得由每个频带的第一特征向量和至少一个语义标签组成的第二特征向量；利用至少一个处理器计算第二特征向量与对应于多个目标简档的多个簇特征向量之间的距离度量，其中多个簇特征向量每个包括参考音频内容项的至少一个音频特性和描述参考音频内容项的至少一个语义标签；利用至少一个处理器从多个目标简档中选择对应于所计算的距离度量中的最小距离度量的特定目标简档；以及利用至少一个处理器使用该特定目标简档将动态均衡应用于输入音频内容项。

在实施例中，距离度量是欧几里得距离度量。

在实施例中，方法还包括：利用至少一个处理器确定最小距离大于阈值；拒绝所选择的目标简档；利用至少一个处理器选择默认的目标简档；以及利用至少一个处理器使用默认的目标简档将动态均衡应用于输入音频内容项。

在实施例中，默认的目标简档是通过对多个目标简档或多个参考音频内容项中的至少一个进行平均所计算的平均目标简档，或者可以是用于另一簇的目标简档。

在实施例中，一种***包括：一个或多个处理器；以及存储指令的非暂时性计算机可读介质，该指令在由一个或多个处理器执行时使一个或多个处理器执行上述任何一种方法的操作。

在实施例中，一种存储指令的非暂时性计算机可读介质，该指令在由一个或多个处理器执行时使得一个或多个处理器执行上述任何一种方法的操作。

本文中所公开的其他实施例针对***，装置及计算机可读介质。在附图和以下描述中阐述了所公开的实施例的细节。根据说明书、附图和权利要求书，其他的特征、目的和优点是显而易见的。

本文所公开的特定实施例提供以下优点中的一个或多个。通过确保选择对于音频内容是适合的并且在DEQ期间将目标简档应用于音频内容时不会劣化音频内容，所公开的用于音频内容的DEQ的目标简档的自动生成和选择提供了优于传统的由用户手动选择目标简档的优点。

附图说明

在附图中，为了便于描述示出了示意性元素的特定布置或顺序，诸如那些代表性设备、单元、指令块和数据元素。然而，本领域技术人员应当理解附图中的示意性元素的具体顺序或布置并不意味着暗示需要特定的处理顺序或次序或过程的分离。此外，在附图中包括示意性元素并不意味着暗示在所有实施例中都需要此元素，或者在一些实施例中由此元素所表示的特征可以不包括在其他元素中或与其他元素组合。

此外，在附图中，连接元素(诸如实线或虚线或箭头)用于说明两个或更多个其他示意性元素之间或之中的连接、关系、或关联，缺乏任何这样的连接元素并不意味着暗示不存在连接、关系、或关联。换句话说，在附图中未示出元素之间的一些连接、关系、或关联，以免混淆本公开。另外，为了便于说明，单个连接元素用于表示元素之间的多个连接、关系、或关联。例如，在连接元素表示信号、数据、或指令的通信的情况下，本领域技术人员应当理解这种元素表示可能需要的一个或多个信号路径，以影响通信。

图1是根据实施例的用于自动生成用于音频内容的DEQ的目标简档的***的框图。

图2示出了根据实施例的特征向量的聚类。

图3是根据实施例的用于使用多个聚类阶段自动生成目标简档的***的框图。

图4是根据实施例的用于自动选择用于音频内容的DEQ的目标简档的***的框图。

图5是根据实施例的自动生成用于音频内容的DEQ的目标简档的过程的流程图。

图6是根据实施例的自动选择用于音频内容的DEQ的目标简档的过程的流程图。

图7是根据实施例的用于实现参照图1-6中描述的特征和过程的示例设备架构的框图。

在各个附图中使用的相同的参考符号指示相同的元素。

具体实施方式

在以下详细描述中，阐述了许多具体细节以提供对各种描述的实施例的透彻理解。对于本领域普通技术人员来说显而易见的是可以在没有这些具体细节的情况下实施各种描述的实施例。在其他实例中没有详细描述众所周知的方法、过程、组件、和电路，以免不必要地模糊实施例的各个方面。下文描述了若干特征，每一个特征可以相互独立地使用或与其他特征的任何组合一起使用。

命名法

如本文中所使用的，术语“包括”及其变体将作为开放式术语而被解读，意味着“包括，但不限于”。除非上下文另有明确指示，否则术语“或”将被解读为“和/或”。术语“基于”将被解读为“至少部分地基于”。术语“一个示例实施例”和“示例实施例”将被解读为“至少一个示例实施例”。术语“另一个实施例”将被解读为“至少一个其他实施例”。术语“确定”、“确定”、或“确定”将被解读为获得、接收、计算、运算、估计、预测或导出。此外，在以下描述和权利要求中，除非另有定义，否则本文所使用的所有技术和科学术语具有与本公开所属领域的普通技术人员通常所理解的含义相同的含义。

概述

给定一组参考内容(例如，数十个录制良好的音乐或语音文件)，为了将DEQ应用于音频内容，期望提取多个显著不同的但相关的目标简档而不是提取表示音频内容的平均属性的单个目标简档。例如，录制良好的歌曲集合可以包括来自不同音乐风格(例如，古典、爵士、摇滚、EDM、嘻哈)或不同时期(例如，70年代与80年代)或用不同乐器(例如，人声、吉他、钢琴等)演奏的歌曲。为每个风格、乐器或时期创建不同的目标简档可以产生多个目标简档，这些多个目标简档比表示音频内容的平均属性的单个目标简档更能覆盖每个特定的用例。这是因为不同的风格、时期或乐器通常反映出不同的频谱和动态范围特性。

对于给定的输入音频内容，生成目标简档和随后的选择合适的目标简档是两个相关的过程。对于给定的输入音频内容，用于生成目标简档的特征通常是与用于选择合适的目标简档的特征相同的特征，其中使用“相似度”的概念对它们进行比较。因此重要的是，在目标简档的生成过程中，产生音乐风格、乐器或时期的稳健分类的特征被包括在用于音频内容的DEQ的目标简档的选择中。

自动生成目标简档

图1是根据实施例的用于自动生成用于音频内容的DEQ的目标简档的***100的框图。***100包括参考内容数据库101，滤波器组102，特征提取单元103，聚类单元104，平均目标简档生成器单元105和目标简档数据库106。

参考音频内容数据库101中的每一项由滤波器组102进行分析，并且由特征提取单元103从每一项的输出项(f，i)中提取一组特征F(i)，其中“f”是频带,“i”是第i个项。在实施例中，滤波器组102被配置为输出适合于特定应用的频带。例如，对于语音增强应用，滤波器组102仅输出语音频率范围内的频带。

特征提取单元103接收由滤波器组102输出的项(f，i)，从每个项中提取特征，并将所提取的特征串联为该项的特征向量F(i)。在实施例中，特征可以包括但不限于：每个频带的平均能量(E)：E(f，i)、每个频带的动态范围(DR)：DR(f，i)和频谱斜率(SS)：SS(f，i)。DR(f，i)被定义为频带f的项i的能量分布E(f)中的两个预先定义的百分位数之间的差(例如，95百分位数和10百分位数之间的差)，并且频谱斜率SS(f，i)被定义为拟合在两个预先定义的频带fl和f2(例如，fl＝100Hz和f2＝5kHz)之间的E(f，i)的线的斜率。

替代地，或者除了每个频带的平均能量E(f，i)之外，还可以使用其他的与频率相关的、宽带或时域指示符，诸如频谱通量、峰值均方根(峰值-均方根)比率(即，“波峰因子”)和过零率(ZCR)。ZCR是音频信号从正变为零到负或从负变为零到正的比率，并且ZCR可以用于音高检测以对敲击声音进行分类，以及用于确定人类语音是否存在于音频信号中的语音活动检测(VAD)。频谱通量是衡量音频信号的功率谱改变有多快的度量，通过将一个帧的功率谱与来自前一帧的功率谱进行比较来计算。峰值均方根比率(波峰因子)指示在小时间段内音频信号的峰值和平均能量的相对平衡。

聚类单元104对特征向量F(i)应用聚类算法(例如，k均值聚类)生成k个特征向量FC(k)，表示参考音频内容项的不同簇的质心，如图2所示。参考音频内容项根据在聚类过程中被分配到的簇而被分离，并且属于每个簇k的内容被平均目标简档生成单元105用于计算该簇的平均目标简档TP(k)。TP(k)和与其对应的特征向量FC(k)一起存储在目标简档数据库106中，以用于参照图4所述的自动目标简档选择过程。

在实施例中，目标简档是参考歌曲或轨道或参考歌曲/轨道的集合的频谱简档。还可以为人声或乐器轨道构建目标简档，例如，通过使用男歌手录音、低音录音等的集合。术语“歌曲”或“轨道”一般用来指集合的每个节选。如果目标简档是从多于一个的歌曲/轨道中生成的，则在计算简档之前对歌曲/轨道进行归一化，使得它们具有相同的响度。在实施例中，根据标准欧洲广播联合推荐(EBU)R128所指定的标准计算响度。在归一化之后，通过分析所有歌曲/轨道的聚合帧来构建统计数据(就像所有歌曲/音轨已经被串联成单个)。

可以生成并存储用于DEQ处理的多个目标简档，诸如对应于不同音乐风格、乐器轨道(例如，人声、贝斯、鼓等)、电影素材(例如，对话、效果、音乐等)的目标。在一些应用中，可以在同一个组内提供多种目标简档，以允许用户选择和改变产生的输出效果。例如，可以提供表示内容创建者所使用的不同的人声混合风格或技术的不同的人声目标简档。

在实施例中，用于生成目标简档的***包括帧生成器、窗口函数、滤波器组、电平检测器和分位数生成器。输入音频信号的频谱简档是跨音频帧计算的其每个频带的电平的统计分布。帧生成器将输入音频信号s(t)划分成帧长度为frameLength个样本(例如4096个样本)，连续帧之间的重叠为nOverlap个样本(例如2048个样本)，其中在帧n处的输入音频信号被称为s(n)。窗口函数(例如，淡入、淡出窗口)被应用于每一帧n，以确保连续帧之间的平滑内插。在实施例中，使用了汉宁窗。滤波器组将加窗的信号s(t)划分成Nb个频带(例如，83个频带或子频带)，其中在第n帧处的频带f中的信号被称为s(n，f)。电平检测器计算在每一帧n处的每一频带f中的输入音频信号的电平L_in(n，f)。E(n，f)是在给定帧n处的频带中的输入音频信号的能量。电平是转换为dB的能量：

[1]L_in(n，f)＝10·log10(E(n，f))。

在实施例中，当计算每个频带中的新帧的能量时，可以通过使用例如由以下公式所描述的一阶低通滤波器来随时间平滑结果：

[2]eSmooth(n，f)＝eSmooth(n-1，f)·α+E(n，f)·(1-α)，其中，取决于当前帧处的能量是否分别大于或小于先前帧处的平滑值，可以在从不同的攻击/释放时间常数导出的攻击或释放系数当中选择系数a。

分位数生成器生成对应于每个频谱简档的分位数曲线。例如，在每个频带f中，电平分布的第x个分位数q_x(f)被计算为在其下包含了频带中的跨帧的电平的x％的值。如果信号是多通道的，则可以计算给定帧n处的每个频带中的电平，例如，作为跨通道的能量的均方根(RMS)平均：

[3]

其他选择(诸如取跨通道的最大值)在一般情况下会导致类似的结果，但在特定领域中(例如，应用于5.1轨道)可能是优选的。

图2示出了根据实施例的特征向量F(i)的聚类。在所示示例中，k均值聚类算法被应用于特征向量F(i)，其中k＝5。k均值聚类算法的输出是不同大小的5个簇201-205。簇201-205中的每一个分别具有由实心三角形所指示的质心201-1，202-1，203-1，204-1和205-1。在该示例中，每个频带的平均能量E(f，i)、每个频带的动态范围DR(f，i)和频谱斜率SS(f，i)形成特征向量F(i)的组成部分。k均值聚类算法生成k个初始均值(质心)，生成k个簇，其中生成k个簇是通过基于距离计算(例如，欧几里得距离)将每个特征向量F(i)分配给具有最近均值(质心)的簇，并且基于分配给簇的特征向量来更新或重新计算均值(质心)。重复特征向量到簇的分配和更新直到达到收敛(例如，分配不再改变)。

虽然在上面的示例中描述了k均值聚类，但是可以使用任何合适的聚类算法，包括但不限于：k-medoids、Fuzzy C均值、用期望最大化训练的高斯混合模型、k均值++、k均值的Hartigan-Wong方法、K-SVD、主成分分析(PCA)。可以使用任何合适的方法来生成初始均值(质心)，包括但不限于：随机分区、Forgy、Maximin、Bradley和Fayyad的方法。

除了音频特性之外，还可以对语义标签特征进行聚类，包括但不限于：由音频内容分类器生成的标签、或者从元数据中检索的标签、或者由人类听众通过例如用户界面提供的标签。语义标签特征的一些示例包括但不限于关于歌曲的风格(例如，摇滚、爵士等)的信息、歌曲中呈现的乐器列表(例如，人声、鼓、吉他等)、关于每首歌曲录制时期的信息(例如，70年代、80年代等)。这些语义标签特征提供关于参考音频内容的有意义的语义信息，其可以帮助***400在自动选择用于DEQ的目标简档的过程中做出对目标简档的合适的选择，如参照图4所述。例如，如果歌曲具有突出的低频峰值并且歌曲被识别为嘻哈风格，则与具有相同突出的峰值的古典音乐作品相比该歌曲更可能符合嘻哈风格的美学，而古典音乐作品反而是不可取的，因此必须纠正。

在实施例中，单独地在聚类中使用语义标签特征。例如，参考音频内容中的每个歌曲由风格进行标记，并且共享相同标签的歌曲被聚类在一起。如果歌曲与多于一个的标签(例如，流行和摇滚)相关联，则该歌曲可以被用于两个不同的簇中。另外，乐器标签用于进一步将每个簇细分成额外的簇，例如，将jazz簇细分为包括具有人声的爵士歌曲的簇和包括不具有人声的爵士歌曲的簇。

基于上述语义标签的“聚类”的过程包括对共享相同风格标签的内容进行分组。例如，对具有标签“摇滚”的所有歌曲求平均以计算称为“摇滚”的目标简档。然后，如果输入歌曲具有标签“摇滚”，则选择“摇滚”目标简档来作为用于DEQ的目标简档。语义标签不必由用户提供或不必嵌入在元数据中；在处理前，使用用于标记参考内容的相同标记过程对输入音频运行标签器(例如，音频风格分类器)就足够了。

簇的数量k可以手动地指定或自动地获得。在实施例中，k由计数器107确定，其中计数器107统计在参考音频内容数据库中存在多少独特风格标签。例如，如果在十首歌曲的集合中分类器分配了标签“爵士”、“古典”和“摇滚”，则k被设置为3，其目的在于特征的合理选择将使得聚类算法将与相同风格有关的歌曲归入同一聚类。可以从音频内容分类器、参考音频内容项的元数据或从人类听众中的至少一个中获得独特风格标签。

图3是根据实施例的用于使用多个聚类阶段来自动生成目标简档的***的框图。在实施例中，基于由特征提取单元103输出的第一类型特征(例如，音频特性特征(FL(i))或语义特征(FH(i))，也分别称为低级特征和高级特征)来执行第一聚类阶段104-1。在每个生成的簇FCL1(k)内，基于第二类型特征(例如，语义标签特征或音频特性特征)来执行第二聚类阶段104-2。第二聚类阶段的输出FCL2(k)被输入到平均目标简档生成器105中，平均目标简档生成器105生成平均目标简档并且将目标简档存储在目标简档数据库106中。两个聚类阶段104-1，104-2是顺序地应用的。这允许一种类型特征在第一聚类阶段104-1中占主导，然后对聚类阶段104-1输出的第一簇执行子聚类，例如，获得所有摇滚歌曲(语义标签特征占主导地位)，然后在先前聚类的摇滚歌曲中使用聚类阶段104-2来创建k个簇(音频特性特征占主导地位)。

在另一个实施例中，对音频特性特征和语义标签特征一起执行聚类，其中语义标签特征被添加到音频特性特征向量以创建扩展的特征向量，并且语义标签特征之间的距离被定义(例如，如果标签相同，则距离＝0，如果标签不相同，则距离＝c)。然后这些扩展的特征向量被馈送给聚类算法。c的值确定每个簇的“纯度”。例如，对于非常小的“c”，聚类将忽略标签(即，仅音频特性特征聚类)，而对于非常大的“c”，聚类将通过风格来分组并且忽略音频特性特征。

在另一个实施例中，基于音频特性特征(例如，E(f，i)、DR(f，i)、SS(f，i))来执行聚类，并且然后基于簇中的跨各个歌曲的多数投票，将整个语义标签集(例如，摇滚、爵士、嘻哈)分配给簇。例如，如果聚类返回10首歌曲的簇，其中7首被标记为“摇滚”，并且3首被标记为“爵士”，则标签“摇滚”被分配给簇。上述实施例的基本假设是在簇中可能需要标签，但是当创建簇时音频特性更值得信任。

目标简档的自动选择

图4是根据实施例的用于自动选择用于DEQ的目标简档的***400的框图。一旦多个自动生成的目标简档可用，我们的用于自动选择的基本实施例将按照如下方式实现。

输入内容401(例如，音频文件)由滤波器组402和特征提取单元403进行处理以获得针对输入音频内容项的特征向量FI(i)。在特征空间中，如参考图1所述，在特征向量FI和与数据库106中的对应的目标简档TP(k)一起存储的特征向量FC(k)之间计算距离度量d(k)(例如，欧几里德距离)。

选择对应于最小距离d(k)的选定目标简档STP(k)作为用于DEQ的目标简档。这等同于选择具有与输入简档相似度最高的目标简档。在实施例中，如果最小距离d(k)大于阈值D，则拒绝选择，并且使用默认的目标简档来处理输入音频内容；这样的默认的目标简档可以通过对多个目标简档或多个参考音频内容项中的至少一个进行平均来获得，作为对分布外输入音频内容(即，未在参考音频内容中表示的音频内容)的折衷；替代地，其可以是用于另一个簇的目标简档。

只要输入音频内容的特性接近目标简档的音频特性，上述目标简档生成和选择技术就是有用的，因此仅需要对EQ和动态范围进行微小的调整。然而这些技术在应用于需要大的EQ调整的输入音频内容时具有局限性。

例如，考虑嘻哈音乐的录制，其中由于录制过程中的一些缺陷，低频太弱而高频太突出。还假设有两个目标简档可用，这两个目标简档分别从嘻哈音乐和原声音乐的良好录制中获得。基于输入音频内容和目标简档之间的相似性的上述技术将“原声”目标简档分配给输入音频内容，从而防止DEQ恢复输入音频内容的期望频谱平衡。在该示例中，将输入音频内容和目标简档标记为“嘻哈”或“原声”将导致更适当地选择用于DEQ的目标简档。因此，在实施例中，仅使用标签/标记来将输入内容分配给目标簇。这些标签/标记可以是语义标签/标记的任何组合，诸如风格、调性、乐器等。在其他实施例中，通过将音频特性簇选择与语义标签簇选择组合来选择目标简档。如果存在不同的音频特性簇和语义簇，则用表示音频特性目标简档和语义目标简档的平均值或加权组合的目标简档来处理输入音频内容。

在实施例中，特征的部分子集用于计算输入音频内容和目标簇之间的距离，其中特征的部分子集可以包括低级特征和高级特征的组合。后一实施例是通过最大化每个阶段的两个不同的目标来激发的，后一实施例中对于目标简档的生成和选择阶段使用不同的特征集。例如，在生成阶段中，需要利用尽可能多的信息以确保簇之间有最大的不同，并且相似的内容被分配给相同的簇。另一方面，在选择阶段中，可能需要优先考虑某些被认为与手边的应用更相关的特征(例如，相对于音乐，与仅语音的应用更相关)。

在实施例中，出于效率原因，输入音频内容的一部分(例如，前30秒)而不是整个输入音频内容被用于计算特征向量。

示例过程

图5是根据实施例的自动生成用于DEQ的目标简档的过程500的流程图。可以使用例如参照图7所述的设备架构700来实现过程500。

过程500包括以下步骤：从参考音频内容项中提取特征向量(501)，对特征向量进行聚类(502)，根据簇分配分离参考内容项(503)，基于分配给簇的参考音频内容计算每个簇的平均目标简档(504)以及存储用于自动选择输入音频内容的目标简档的平均目标简档，如参照图6所述。

图6是根据实施例的自动选择用于DEQ的目标简档的过程600的流程图。可以使用例如，如参照图7所述的设备架构700来实现过程600。

过程600包括以下步骤：从输入音频内容中提取特征向量(601)，计算特征向量与与目标简档相关联的簇特征向量之间的距离(602)，选择对应于最小距离的平均目标简档(603)，以及在DEQ期间将平均目标简档应用于输入音频内容。

示例***架构

图7示出了适合于实现参照图1至图6所描述的示例实施例的示例***700的框图。***700包括中央处理单元(CPU)701，其能够根据存储在例如只读存储器(ROM)702中的程序或者从例如存储单元708加载到随机存取存储器(RAM)703中的程序来执行各种处理。在RAM 703中，还根据需要存储当CPU 701执行各种处理时所需要的数据。CPU 701、ROM 702和RAM 703经由总线704彼此连接，输入/输出(I/O)接口705也连接到总线704。

以下组件连接到I/O接口705：输入单元706，其可以包括键盘、鼠标等；输出单元707，其可以包括诸如液晶显示器(LCD)的显示器和一个或多个扬声器；存储单元708，其包括硬盘或其他合适的存储设备；以及通信单元709，其包括诸如网卡(例如，有线的或无线的)的网络接口卡。

在一些实施例中，输入单元706包括在不同位置(取决于主机设备)的一个或多个麦克风以使得能够捕获各种格式(例如，单声道、立体声、空间、沉浸式和其他合适的格式)的音频信号。

在一些实施例中，输出单元707包括具有各种数量的扬声器的***。输出单元707可以再现各种格式(例如，单声道、立体声、沉浸式、双耳和其他合适的格式)的音频信号。

通信单元709被配置为与其他设备进行通信(例如，经由网络)。根据需要，驱动器710也连接到I/O接口705。诸如磁盘、光盘、磁光盘、闪存驱动器的可移除介质711或其他合适的可移除介质安装在驱动器710上，以使得根据需要将从中读取的计算机程序安装在存储单元708中。本领域技术人员将理解尽管***700被描述为包括上述组件，但是在实际应用中可以添加、移除和/或替换这些部件中的一些并且所有这些修改或变更都落入本公开的范围内。

根据本公开的示例实施例，上述过程可以作为计算机软件程序或在计算机可读存储介质上来实现。例如，本公开的实施例包括计算机程序产品，该计算机程序产品包括有形地体现在机器可读介质上的计算机程序，该计算机程序包括用于执行方法的程序代码。在这样的实施例中，计算机程序可以经由通信单元709从网络下载和安装，和/或从可移除介质711安装，如图7中所示。

一般地，本公开的各种示例实施例可以在硬件或专用电路(例如，控制电路)、软件、逻辑或其任何组合中实现。例如，上文所论述的单元可由控制电路(例如，与图7的其他组件相结合的CPU)执行，因此，控制电路可执行本公开中所描述的动作。一些方面可在硬件中实现，而其他方面可在固件或由控制器、微处理器或其他计算设备(例如，控制电路)执行的软件中实现。虽然本公开的示例实施例的各个方面以框图、流程图或使用一些其他图形表示来示出和描述，但是可以理解的是，作为非限制性的示例，本文中所描述的框、装置、***、技术或方法可以在硬件、软件、固件、特殊用途电路或逻辑、通用硬件或控制器或其他计算设备、或其某种组合中实现。

另外，流程图中所示的各种框可被视为方法步骤，和/或被视为由计算机程序代码的操作产生的操作，和/或视为被构造成执行相关联功能的多个耦合的逻辑电路元件。例如，本公开的实施例包括计算机程序产品，其包括有形地体现在机器可读介质上的计算机程序，计算机程序包含被配置为执行如上所述的方法的程序代码。

在本公开的上下文中，机器可读介质可以是任何有形介质，其可以包含或存储供指令执行***、装置、或设备使用的或与其结合使用的程序。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以是非暂时性的并且可以包括但不限于电、磁、光、电磁、红外、或半导体***、装置、或设备、或前述的任何合适的组合。机器可读存储介质的更具体的示例将包括具有一个或多个电线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光存储设备、磁存储设备、或前述的任何合适的组合。

用于执行本公开的方法的计算机程序代码可以用一种或多种编程语言的任何组合来编写。这些计算机程序代码可以提供给通用计算机、专用计算机或具有控制电路的其他可编程数据处理装置的处理器，使得程序代码在由计算机或其他可编程数据处理装置的处理器执行时，将使得流程图和/或框图中所规定的功能/操作被实现。程序代码可以完全地在计算机上执行、部分地在计算机上执行、作为独立的软件包执行、部分在计算机上并且部分在远程计算机上执行、或者完全在远程计算机或服务器上执行、或者分布在一个或多个远程计算机和/或服务器上。

虽然本文档包含许多具体实施例细节，但这些细节不应被解释为对所要求保护的范围的限制，而是应被解释为对特定实施例特定的特征的描述。在本说明书中在单独实施例的上下文中描述的某些特征也可以在单个实施例中组合地实现。相反，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合在多个实施例中实现。此外，尽管上文将特征描述为以某些组合起作用，并且甚至最初也是这样要求的，但在一些情况下，来自所要求的组合的一个或多个特征可以从组合中删除，并且所要求的组合可以针对子组合或子组合的变体。图中描述的逻辑流程不需要按照所示的特定顺序或顺序次序来实现期望的结果。另外，可以提供其他步骤，或者从所描述的流程中移除步骤，并且可将其他组件添加到所描述的***或从所描述的***中移除其他组件。因此，其他实施例在所附权利要求的范围内。

Claims

1.一种自动地生成用于音频内容的动态均衡的目标简档的方法，所述方法包括：

利用至少一个处理器，获得参考音频内容项；

利用所述至少一个处理器，过滤所述参考音频内容项以将所述参考音频内容项分离成所述参考音频内容项的频谱的不同的频带；

对于每个频带，

利用所述至少一个处理器，从所述参考音频内容项中的每一个的至少一部分中提取第一特征向量，其中所述第一特征向量包括所述参考音频内容项的至少一个音频特性；

利用所述至少一个处理器，从所述参考音频内容项中的每一个的至少一部分中获得描述所述参考音频内容项的至少一个语义标签；

利用所述至少一个处理器，获得由每个频带的所述第一特征向量和所述至少一个语义标签组成的第二特征向量；

利用所述至少一个处理器并基于所述第二特征向量，生成表示簇的质心的簇特征向量，其中每个参考音频内容项被分配到至少一个簇；

利用所述至少一个处理器，根据所述簇特征向量分离所述参考音频内容项；

利用所述至少一个处理器，基于所述簇中的所述参考音频内容项计算每个簇的平均目标简档；以及

利用所述至少一个处理器，将每个簇的所述平均目标简档和对应的簇特征向量存储在存储设备中。

2.根据权利要求1所述的方法，其中，生成表示簇的质心的簇特征向量包括仅使用所述第一特征向量的所述至少一个音频特性来生成簇特征向量。

3.根据权利要求1所述的方法，其中，生成表示簇的质心的簇特征向量包括仅使用所述第二特征向量的所述至少一个语义标签来生成簇特征向量。

4.一种自动地生成用于音频内容的动态均衡的目标简档的方法，所述方法包括：

利用至少一个处理器，获得第一组参考音频内容项；

利用所述至少一个处理器，过滤所述第一组参考音频内容项以将所述第一组参考音频内容项分离成所述参考音频内容项的频谱的不同的频带；

利用所述至少一个处理器，从所述第一组参考音频内容项中的每一个的至少一部分中提取语义标签特征向量，其中所述语义标签特征向量包括描述所述参考音频内容项的语义标签；

利用所述至少一个处理器并基于所述语义标签特征向量，生成表示第一组簇的第一组质心的第一组簇特征向量；

利用所述至少一个处理器，根据所述第一组簇特征向量将所述第一组参考音频内容项分离成第一组簇；

对于所述第一组簇中的每个簇：

对于每个频带：

利用所述至少一个处理器，从分配给所述簇的所述参考音频内容项中提取音频特性特征向量，其中所述音频特性特征向量包括所述第一组参考音频内容项的音频特性；

利用所述至少一个处理器并基于所述音频特性特征向量，生成表示第二组簇的第二组质心的第二组簇特征向量；

利用所述至少一个处理器，根据所述第二组簇特征向量将所述参考音频内容项分离成第二组簇；

利用所述至少一个处理器，基于所述簇中的所述参考音频内容项计算所述第二组簇中的每个簇的平均目标简档；以及

利用所述至少一个处理器，将所述平均目标简档和对应的第二组簇特征向量存储在存储设备中。

5.一种自动地生成用于音频内容的动态均衡的目标简档的方法，所述方法包括：

利用至少一个处理器，获得参考音频内容项；

对于每个频带，

利用所述至少一个处理器，从所述参考音频内容项中的每一个的至少一部分中提取音频特性特征向量，其中所述音频特性特征向量包括所述参考音频内容项的音频特性；

利用所述至少一个处理器并基于所述音频特性特征向量，生成表示簇的质心的簇特征向量，其中每个参考音频内容项被分配到至少一个簇；

基于与所述簇中的各个参考音频内容项相关联的语义标签，为每个簇特征向量分配语义标签；

利用所述至少一个处理器，基于分配给所述簇的所述语义标签计算每个簇的平均目标简档；以及

6.根据前述权利要求1-5中的任何一项所述的方法，其中，所述至少一个音频特性是平均能量。

7.根据前述权利要求1-5中的任何一项所述的方法，其中，所述至少一个音频特性是基于所述参考音频内容项的能量分布中的两个百分位数之间的差的动态范围。

8.根据前述权利要求1-5中的任何一项所述的方法，其中，所述至少一个音频特性是包括拟合两个频带之间的平均能量的线的频谱斜率。

9.根据前述权利要求1-5中的任何一项所述的方法，其中，所述至少一个音频特性是频谱通量，波峰因子。

10.根据前述权利要求1-5中的任何一项所述的方法，其中，所述至少一个音频特性是过零率。

11.根据前述权利要求1-10中的任何一项所述的方法，其中，簇特征向量是使用k均值聚类生成的。

12.根据前述权利要求1-11中的任何一项所述的方法，还包括：

利用所述至少一个处理器，获得所述参考音频内容中所表示的独特风格标签的数量；以及

设置簇的最小数量为等于所述参考音频内容中所表示的风格的数量。

13.根据权利要求12所述的方法，其中，独特风格标签的数量是从音频内容分类器、所述参考音频内容项的元数据、或从人类听众中的至少一个中获得的。

14.根据前述权利要求1-13中的任何一项所述的方法，其中，所述语义标签是从音频内容分类器、所述参考音频内容项的元数据或人类听众中的至少一个中获得的。

15.一种自动地选择用于音频内容的动态均衡的目标简档的方法，所述方法包括：

利用至少一个处理器，获得输入音频内容项；

利用所述至少一个处理器，过滤所述输入音频内容项以将所述输入音频内容项分离成所述输入音频内容项的频谱的不同的频带；

对于每个频带，

利用所述至少一个处理器，从所述输入音频内容项的至少一部分中提取第一特征向量，其中所述第一特征向量包括所述输入音频内容项的至少一个音频特性；

从所述输入音频内容项的至少一部分中获得描述所述输入音频内容项的至少一个语义标签；

利用所述至少一个处理器，计算所述第二特征向量与对应于多个目标简档的多个簇特征向量之间的距离度量，其中所述多个簇特征向量各自与参考音频内容项的簇相关联，并且包括所述参考音频内容项的至少一个音频特性和描述所述参考音频内容项的至少一个语义标签；

利用所述至少一个处理器，从所述多个目标简档中选择对应于所计算的距离度量中的最小距离度量的特定的目标简档；以及

利用所述至少一个处理器，使用所述特定的目标简档将动态均衡应用于所述输入音频内容项。

16.根据权利要求15所述的方法，其中，所述距离度量是欧几里得距离度量。

17.根据权利要求15或16所述的方法，还包括：

利用所述至少一个处理器，确定所述最小距离大于阈值；

拒绝所选择的目标简档；

利用所述至少一个处理器，选择默认的目标简档；以及

利用所述至少一个处理器，使用所述默认的目标简档将动态均衡应用于所述输入音频内容项。

18.根据前述权利要求15-17中的任一项所述的方法，其中，所述默认的目标简档是通过对所述多个目标简档或多个所述参考音频内容项中的至少一个进行平均所计算的平均目标简档，或者是用于另一个簇的目标简档。

19.一种处理音频的***，包括：

一个或多个处理器；以及

存储指令的非暂时性计算机可读介质，其中，所述指令在由所述一个或多个处理器执行时使得所述一个或多个处理器执行根据权利要求1-18中的任何一项所述的操作。

20.一种存储指令的非暂时性计算机可读介质，其中，所述指令在由所述一个或多个处理器执行时使得所述一个或多个处理器执行根据权利要求1-18中的任何一项所述的操作。