CN104090902B

CN104090902B - 音频标签设置方法及装置

Info

Publication number: CN104090902B
Application number: CN201410025446.XA
Authority: CN
Inventors: 赵伟峰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2014-01-20
Filing date: 2014-01-20
Publication date: 2016-06-08
Anticipated expiration: 2034-01-20
Also published as: CN104090902A

Abstract

本发明提出一种音频标签设置方法及装置，其音频标签设置方法包括：根据色彩的要素特征设置多个色彩标签与声音要素特征的对应规则；提取音频文件的声音要素特征；根据提取的所述声音要素特征以及所述对应规则，对音频文件配置相应的色彩标签。本发明可以将音频与色彩结合起来，提高了音频管理的可扩展性，特别对于音频的搜索，相比于传统的流派、关键字等音频搜索方式，即使用户对一个音频文件不了解，也可以根据对其色彩标签上色彩要素特征的理解获悉该音频的旋律特点，因此可以快速、方便地找到用户想要的音频，大大提高了搜索效率。

Description

音频标签设置方法及装置

技术领域

本发明涉及计算机技术领域，特别涉及一种音频标签设置方法及装置。

背景技术

随着互联网信息量的几何级数的增长，怎样从海量的信息库中迅速而准确地找到需要的信息，成为人们使用互联网的一大瓶颈。基于内容的多媒体检索是一个新兴的研究领域，它给人们提供了全新的搜索方式，即用多媒体本身来搜索多媒体信息。多媒体信息包括有音频、视频、图像、动画等多种形式，其中音频信息占有相当大的比例。而在音频当中，音乐又是最常见的形式。目前针对音乐的检索，主要根据文本关键字来搜索，例如音乐名、作者、演唱歌星、专辑、流派、歌词等。但是音乐本身与文本关键字有着本质的不同，用户使用关键字进行搜索，前提条件是用户必须对目标音乐有所了解，熟悉与之相关的文本信息。如果用户只是对音乐旋律本身感兴趣，而对歌名、歌词等文本信息一无所知，则通过现有的搜索方法很难找出需要的音乐。由此可见，现有的音频搜索方式存在无法根据音频内容来进行检索的局限性。

发明内容

本发明实施例的目的是提供一种音频标签设置方法及装置，以解决现有的音频搜索方式无法根据音频内容来进行检索的问题。

本发明实施例提出一种音频标签设置方法，包括：

根据色彩的要素特征设置多个色彩标签与声音要素特征的对应规则；

提取音频文件的声音要素特征；

根据提取的所述声音要素特征以及所述对应规则，对音频文件配置相应的色彩标签；

其中，所述根据色彩的要素特征设置多个色彩标签与声音要素特征的对应规则的步骤包括：

根据色彩饱和度和亮度，建立所述多个色彩标签的二维向量组合；

根据各个色彩标签的二维向量在二维坐标系中的分布，对色彩标签设置标号；

设置声音要素特征与各个色彩标签的标号之间的对应关系。

本发明实施例还提出一种音频标签设置装置，包括：

规则设置模块，用于根据色彩的要素特征设置多个色彩标签与声音要素特征的对应规则；

声音要素特征提取模块，用于提取音频文件的声音要素特征；

标签配置模块，用于根据提取的所述声音要素特征以及所述对应规则，对音频文件配置相应的色彩标签；

其中，所述规则设置模块进一步包括：

向量组合建立单元，用于根据色彩饱和度和亮度，建立所述多个色彩标签的二维向量组合；

标号设置单元，用于根据各个色彩标签的二维向量在二维坐标系中的分布，对色彩标签设置标号；

对应关系设置单元，用于设置声音要素特征与各个色彩标签的标号之间的对应关系。

本发明实施例还提出一个或多个包含计算机可执行指令的存储介质，所述计算机可执行指令用于执行一种音频标签设置方法，所述方法包括以下步骤：

提取音频文件的声音要素特征；

根据提取的所述声音要素特征以及所述对应规则，对音频文件配置相应的色彩标签。

相对于现有技术，本发明的有益效果是：本发明实施例的方法及装置可以将音频与色彩结合起来，提高了音频管理的可扩展性，特别对于音频的搜索，相比于传统的流派、关键字等音频搜索方式，即使用户对一个音频文件不了解，也可以根据对其色彩标签上色彩要素特征的理解获悉该音频的旋律特点，因此可以快速、方便地找到用户想要的音频，大大提高了搜索效率。

附图说明

图1为本发明实施例的一种音频标签设置方法的流程图；

图2为本发明实施例的另一种音频标签设置方法的流程图；

图3为本发明实施例的一种色彩标签分布示意图；

图4为本发明实施例的一种音频标签设置装置的结构图；

图5为本发明实施例的另一种音频标签设置装置的结构图。

具体实施方式

有关本发明的前述及其他技术内容、特点及功效，在以下配合参考图式的较佳实施例详细说明中将可清楚的呈现。通过具体实施方式的说明，当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解，然而所附图式仅是提供参考与说明之用，并非用来对本发明加以限制。

在长期的生产实践和社会活动中，人们会逐步形成对不同色彩的不同理解和感情上的共鸣，有的色彩给人以华丽、朴素、雅致、秀美、鲜明、热烈的感觉，有的色彩使人感到喜庆、欢乐、愉快、舒适、甜美、忧郁、沉闷….不同的色彩使人产生的情绪和美感不尽相同。本发明实施例的主要思想是将音频和色彩结合起来，为音频文件打上色彩标签，从而将音频中的感情因素提取出来，将音频和感知结合起来，进而提高音频管理在曲库管理、音乐分类、乐曲关联、个性化推荐、用户收听标签、社交推荐等多种应用场合的可扩展性。

请参见图1，其为本发明实施例的一种音频标签设置方法的流程图，其包括以下步骤：

S101，根据色彩的要素特征设置多个色彩标签与声音要素特征的对应规则。

S102，提取音频文件的声音要素特征。

S103，根据提取的所述声音要素特征以及所述对应规则，对音频文件配置相应的色彩标签。

色彩要素特征和声音要素特征的选择均可以根据需要来确定，色彩要素特征可以是饱和度(Chroma)、亮度(Value)、色相(Hue)等色彩特性中的一种或多种，声音要素特征可以是音频的频率、音频声波的振幅、频谱质心等音频特性中的一种或多种。所述的多个色彩标签中，不同色彩标签的色彩要素特征可能不同，因而可以与不同的声音要素特征进行对应设置。

具体来说，色彩标签与声音要素特征的对应规则可以由技术人员预先设定，也可以通过向用户提供设置界面，由用户根据需求来进行设置。例如，可以设置大于一个亮度值的色彩标签与平均振幅大于一个设定值的音频对应，或者也可以设置大于一个饱和度值且小于一个亮度值的色彩标签与平均频率大于一个设定值的音频对应。

本实施例的方法可以将音频与色彩结合起来，提高了音频管理的可扩展性，特别对于音频的搜索，相比于传统的流派、关键字等音频搜索方式，即使用户对一个音频文件不了解，也可以根据对其色彩标签上色彩要素特征的理解获悉该音频的旋律特点，因此可以快速、方便地找到用户想要的音频，大大提高了搜索效率。

为进一步理解本方法，下面以一较为详尽的实施例来进行说明：

请参见图2，其为本发明实施例的另一种音频标签设置方法的流程图，在本实施例中，色彩要素特征采用饱和度和亮度，声音要素特征采用频谱质心，该方法包括以下步骤：

S201，根据色彩饱和度和亮度，建立所述多个色彩标签的二维向量组合。

S202，根据各个色彩标签的二维向量在二维坐标系中的分布，对色彩标签设置标号。

请结合参见图3，其中x轴代表饱和度的值，y轴代表亮度的值，两个维度组合，共4种色彩标签，根据4种色彩标签在二维坐标系中的分布，设置“1”、“2”、“3”、“4”四个标号，分别可以理解为“明亮的”、“浓烈的”、“阴郁的”和“平静的”(色彩标签的名称可以根据用户对色彩的理解来定义)。

S203，设置音频的频谱质心与各个色彩标签的标号之间的对应关系。可以通过引入若干个阈值来设置频谱质心和标号之间的对应关系，具体来说，即是将音频的频谱质心与预定的阈值进行比对，并根据比对结果确定与频谱质心对应的标号。本实施例中引入了第一阈值和第二阈值。

S204，将音频文件划分为多帧音频帧信号。

S205，计算每一帧音频帧信号的幅度谱。

设定一个音频文件包含M帧音频帧信号，M为正整数，则该音频文件包含的任一帧音频帧信号可表示为x_i(n)，其中，i表示该音频文件中该帧音频帧信号的顺序，i为正整数且i＝1,2,...M，n为正整数且n＝0,1,2,N-1，其中N为该帧音频帧信号的长度，即N为该帧音频帧信号的采样点数。x_i(n)的幅度谱可表示为X_i(n)，X_i(n)可采用下述公式(1)计算得到：

X_i(n)＝abs[fft(x_i(n))](1)

上述公式(1)中，abs[]为求模运算或绝对值运算；fft(x_i(n))为x_i(n)的快速傅里叶变换，n＝0,1,2,N-1且N的值为2的幂。

S206，根据所述幅度谱计算每一帧音频帧信号的频谱质心。

根据公式(1)，可以计算音频文件每一帧音频帧信号的频谱质心C：

C = \frac{Σ_{n = 0}^{N - 1} X (n) * n}{Σ_{n = 0}^{N - 1} X (n)} - - - (2)

S207，按照音频文件中各帧音频帧信号的顺序，构建音频文件的频谱质心序列。

音频文件的频谱质心序列C(i)可以表示为：

C (i) = \frac{Σ_{n = 0}^{N - 1} X_{i} (n) * n}{Σ_{n = 0}^{N - 1} X_{i} (n)} - - - (3)

S208，计算所述频谱质心序列的均值和标准差。

S209，将计算获得的均值和标准差分别与预设的第一阈值和第二阈值进行比对。

S210，根据比对结果，对音频文件配置相应的色彩标签。

假设频谱质心序列C(i)的均值E和标准差V，第一阈值TE和第二阈值TV，色彩标签的标号ID与频谱质心的对应规则如下：

(1)当E>＝TE&&V>＝TV的时候，ID＝2，表示音频的振幅较大(声音强度较大)，且音频帧之间的幅度变化大(音调变化大)；

(2)当E>＝TE&&V<TV的时候，ID＝4；

(3)当E<TE&&V>＝TV的时候，ID＝1；

(4)当E<TE&&V<TV的时候，ID＝3；

上述(1)～(4)点对应规则是根据对色彩的普遍理解来设置的，但并不以此限制本方法，可以根据用户的需要来对对应规则进行调整。

本实施例的方法通过分析音频文件特征，可以将音频与图像中的色彩相结合起来，为每一个音频文件打上一个色彩标签，使用户可以快速、直观地了解音频内容和旋律，方便音频文件的查询，而且也可以作为标签基础，向曲库管理、音乐分类、乐曲关联、个性化推荐、用户收听标签、社交推荐等等多种应用场合进行扩展，大大提高了音频管理的可扩展性。

本发明实施例还提出一种音频标签设置装置，请参见图4，该音频标签设置装置包括规则设置模块41、声音要素特征提取模块42以及标签配置模块43。

规则设置模块41用于根据色彩的要素特征设置多个色彩标签与声音要素特征的对应规则。色彩要素特征和声音要素特征的选择均可以根据需要来确定，色彩要素特征可以是饱和度、亮度、色相等色彩特性中的一种或多种，声音要素特征可以是音频的频率、音频声波的振幅、频谱质心等音频特性中的一种或多种。所述的多个色彩标签中，不同色彩标签的色彩要素特征可能不同，因而可以与不同的声音要素特征进行对应设置。

声音要素特征提取模块42用于提取音频文件的声音要素特征。

标签配置模块43用于根据声音要素特征提取模块42提取的所述声音要素特征以及规则设置模块41设置的所述对应规则，对音频文件配置相应的色彩标签。

通过本实施例的装置，可以为音频配置色彩标签，从而提高了音频文件管理的可扩展性。

请参见图5，其为本发明实施例的另一种音频标签设置装置的结构图。本实施例的音频标签设置装置包括规则设置模块41、声音要素特征提取模块42以及标签配置模块43。在本实施例中，色彩要素特征采用饱和度和亮度，声音要素特征采用频谱质心。

与图4的实施例相比，本实施例的规则设置模块41进一步包括：向量组合建立单元411、标号设置单元412及对应关系设置单元413。向量组合建立单元411用于根据色彩饱和度和亮度，建立所述多个色彩标签的二维向量组合。标号设置单元412用于根据各个色彩标签的二维向量在二维坐标系中的分布，对色彩标签设置标号。对应关系设置单元413用于设置声音要素特征与各个色彩标签的标号之间的对应关系。

本实施例的声音要素特征提取模块42进一步包括：音频帧划分单元421、幅度谱计算单元422、频谱质心计算单元423及序列构建单元424。音频帧划分单元421用于将音频文件划分为多帧音频帧信号。幅度谱计算单元422用于计算每一帧音频帧信号的幅度谱。频谱质心计算单元423用于根据所述幅度谱计算每一帧音频帧信号的频谱质心。序列构建单元424用于按照音频文件中各帧音频帧信号的顺序，构建音频文件的频谱质心序列。

本实施例的标签配置模块43进一步包括：序列处理单元431、比对单元432及色彩标签配置单元433。序列处理单元431用于计算所述频谱质心序列的均值和标准差。比对单元432用于将计算获得的均值和标准差分别与预设的第一阈值和第二阈值进行比对。色彩标签配置单元433用于根据比对结果，对音频文件配置相应的色彩标签。

本实施例的装置通过分析音频文件特征，可以将音频与图像中的色彩相结合起来，为每一个音频文件打上一个色彩标签，使用户可以快速、直观地了解音频内容和旋律，方便音频文件的查询，而且也可以作为标签基础，向曲库管理、音乐分类、乐曲关联、个性化推荐、用户收听标签、社交推荐等等多种应用场合进行扩展，大大提高了音频管理的可扩展性。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明实施例可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，本发明实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或网络设备等)执行本发明实施例各个实施场景所述的方法。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本申请技术方案范围内，当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本申请技术方案内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种音频标签设置方法，其特征在于，包括：

提取音频文件的声音要素特征；

设置声音要素特征与各个色彩标签的标号之间的对应关系。

2.如权利要求1所述的音频标签设置方法，其特征在于，所述根据色彩的要素特征设置多个色彩标签与声音要素特征的对应规则的步骤中，所述色彩的要素特征包括饱和度和亮度。

3.如权利要求1所述的音频标签设置方法，其特征在于，所述声音要素特征为音频的频谱质心。

4.如权利要求3所述的音频标签设置方法，其特征在于，所述提取音频文件的声音要素特征的步骤包括：

将音频文件划分为多帧音频帧信号；

计算每一帧音频帧信号的幅度谱；

根据所述幅度谱计算每一帧音频帧信号的频谱质心；

按照音频文件中各帧音频帧信号的顺序，构建音频文件的频谱质心序列。

5.如权利要求4所述的音频标签设置方法，其特征在于，所述对音频文件配置相应的色彩标签的步骤包括：

计算所述频谱质心序列的均值和标准差；

将计算获得的均值和标准差分别与预设的第一阈值和第二阈值进行比对；

根据比对结果，对音频文件配置相应的色彩标签。

6.一种音频标签设置装置，其特征在于，包括：

其中，所述规则设置模块进一步包括：

7.如权利要求6所述的音频标签设置装置，其特征在于，所述色彩的要素特征包括饱和度和亮度。

8.如权利要求6所述的音频标签设置装置，其特征在于，所述声音要素特征为音频的频谱质心。

9.如权利要求8所述的音频标签设置装置，其特征在于，所述声音要素特征提取模块进一步包括：

音频帧划分单元，用于将音频文件划分为多帧音频帧信号；

幅度谱计算单元，用于计算每一帧音频帧信号的幅度谱；

频谱质心计算单元，用于根据所述幅度谱计算每一帧音频帧信号的频谱质心；

序列构建单元，用于按照音频文件中各帧音频帧信号的顺序，构建音频文件的频谱质心序列。

10.如权利要求9所述的音频标签设置装置，其特征在于，所述标签配置模块进一步包括：

序列处理单元，用于计算所述频谱质心序列的均值和标准差；

比对单元，用于将计算获得的均值和标准差分别与预设的第一阈值和第二阈值进行比对；

色彩标签配置单元，用于根据比对结果，对音频文件配置相应的色彩标签。