发明内容
本发明实施例的目的是提供一种音频标签设置方法及装置,以解决现有的音频搜索方式无法根据音频内容来进行检索的问题。
本发明实施例提出一种音频标签设置方法,包括:
根据色彩的要素特征设置多个色彩标签与声音要素特征的对应规则;
提取音频文件的声音要素特征;
根据提取的所述声音要素特征以及所述对应规则,对音频文件配置相应的色彩标签;
其中,所述根据色彩的要素特征设置多个色彩标签与声音要素特征的对应规则的步骤包括:
根据色彩饱和度和亮度,建立所述多个色彩标签的二维向量组合;
根据各个色彩标签的二维向量在二维坐标系中的分布,对色彩标签设置标号;
设置声音要素特征与各个色彩标签的标号之间的对应关系。
本发明实施例还提出一种音频标签设置装置,包括:
规则设置模块,用于根据色彩的要素特征设置多个色彩标签与声音要素特征的对应规则;
声音要素特征提取模块,用于提取音频文件的声音要素特征;
标签配置模块,用于根据提取的所述声音要素特征以及所述对应规则,对音频文件配置相应的色彩标签;
其中,所述规则设置模块进一步包括:
向量组合建立单元,用于根据色彩饱和度和亮度,建立所述多个色彩标签的二维向量组合;
标号设置单元,用于根据各个色彩标签的二维向量在二维坐标系中的分布,对色彩标签设置标号;
对应关系设置单元,用于设置声音要素特征与各个色彩标签的标号之间的对应关系。
本发明实施例还提出一个或多个包含计算机可执行指令的存储介质,所述计算机可执行指令用于执行一种音频标签设置方法,所述方法包括以下步骤:
根据色彩的要素特征设置多个色彩标签与声音要素特征的对应规则;
提取音频文件的声音要素特征;
根据提取的所述声音要素特征以及所述对应规则,对音频文件配置相应的色彩标签。
相对于现有技术,本发明的有益效果是:本发明实施例的方法及装置可以将音频与色彩结合起来,提高了音频管理的可扩展性,特别对于音频的搜索,相比于传统的流派、关键字等音频搜索方式,即使用户对一个音频文件不了解,也可以根据对其色彩标签上色彩要素特征的理解获悉该音频的旋律特点,因此可以快速、方便地找到用户想要的音频,大大提高了搜索效率。
具体实施方式
有关本发明的前述及其他技术内容、特点及功效,在以下配合参考图式的较佳实施例详细说明中将可清楚的呈现。通过具体实施方式的说明,当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图式仅是提供参考与说明之用,并非用来对本发明加以限制。
在长期的生产实践和社会活动中,人们会逐步形成对不同色彩的不同理解和感情上的共鸣,有的色彩给人以华丽、朴素、雅致、秀美、鲜明、热烈的感觉,有的色彩使人感到喜庆、欢乐、愉快、舒适、甜美、忧郁、沉闷….不同的色彩使人产生的情绪和美感不尽相同。本发明实施例的主要思想是将音频和色彩结合起来,为音频文件打上色彩标签,从而将音频中的感情因素提取出来,将音频和感知结合起来,进而提高音频管理在曲库管理、音乐分类、乐曲关联、个性化推荐、用户收听标签、社交推荐等多种应用场合的可扩展性。
请参见图1,其为本发明实施例的一种音频标签设置方法的流程图,其包括以下步骤:
S101,根据色彩的要素特征设置多个色彩标签与声音要素特征的对应规则。
S102,提取音频文件的声音要素特征。
S103,根据提取的所述声音要素特征以及所述对应规则,对音频文件配置相应的色彩标签。
色彩要素特征和声音要素特征的选择均可以根据需要来确定,色彩要素特征可以是饱和度(Chroma)、亮度(Value)、色相(Hue)等色彩特性中的一种或多种,声音要素特征可以是音频的频率、音频声波的振幅、频谱质心等音频特性中的一种或多种。所述的多个色彩标签中,不同色彩标签的色彩要素特征可能不同,因而可以与不同的声音要素特征进行对应设置。
具体来说,色彩标签与声音要素特征的对应规则可以由技术人员预先设定,也可以通过向用户提供设置界面,由用户根据需求来进行设置。例如,可以设置大于一个亮度值的色彩标签与平均振幅大于一个设定值的音频对应,或者也可以设置大于一个饱和度值且小于一个亮度值的色彩标签与平均频率大于一个设定值的音频对应。
本实施例的方法可以将音频与色彩结合起来,提高了音频管理的可扩展性,特别对于音频的搜索,相比于传统的流派、关键字等音频搜索方式,即使用户对一个音频文件不了解,也可以根据对其色彩标签上色彩要素特征的理解获悉该音频的旋律特点,因此可以快速、方便地找到用户想要的音频,大大提高了搜索效率。
为进一步理解本方法,下面以一较为详尽的实施例来进行说明:
请参见图2,其为本发明实施例的另一种音频标签设置方法的流程图,在本实施例中,色彩要素特征采用饱和度和亮度,声音要素特征采用频谱质心,该方法包括以下步骤:
S201,根据色彩饱和度和亮度,建立所述多个色彩标签的二维向量组合。
S202,根据各个色彩标签的二维向量在二维坐标系中的分布,对色彩标签设置标号。
请结合参见图3,其中x轴代表饱和度的值,y轴代表亮度的值,两个维度组合,共4种色彩标签,根据4种色彩标签在二维坐标系中的分布,设置“1”、“2”、“3”、“4”四个标号,分别可以理解为“明亮的”、“浓烈的”、“阴郁的”和“平静的”(色彩标签的名称可以根据用户对色彩的理解来定义)。
S203,设置音频的频谱质心与各个色彩标签的标号之间的对应关系。可以通过引入若干个阈值来设置频谱质心和标号之间的对应关系,具体来说,即是将音频的频谱质心与预定的阈值进行比对,并根据比对结果确定与频谱质心对应的标号。本实施例中引入了第一阈值和第二阈值。
S204,将音频文件划分为多帧音频帧信号。
S205,计算每一帧音频帧信号的幅度谱。
设定一个音频文件包含M帧音频帧信号,M为正整数,则该音频文件包含的任一帧音频帧信号可表示为xi(n),其中,i表示该音频文件中该帧音频帧信号的顺序,i为正整数且i=1,2,...M,n为正整数且n=0,1,2,N-1,其中N为该帧音频帧信号的长度,即N为该帧音频帧信号的采样点数。xi(n)的幅度谱可表示为Xi(n),Xi(n)可采用下述公式(1)计算得到:
Xi(n)=abs[fft(xi(n))](1)
上述公式(1)中,abs[]为求模运算或绝对值运算;fft(xi(n))为xi(n)的快速傅里叶变换,n=0,1,2,N-1且N的值为2的幂。
S206,根据所述幅度谱计算每一帧音频帧信号的频谱质心。
根据公式(1),可以计算音频文件每一帧音频帧信号的频谱质心C:
S207,按照音频文件中各帧音频帧信号的顺序,构建音频文件的频谱质心序列。
音频文件的频谱质心序列C(i)可以表示为:
S208,计算所述频谱质心序列的均值和标准差。
S209,将计算获得的均值和标准差分别与预设的第一阈值和第二阈值进行比对。
S210,根据比对结果,对音频文件配置相应的色彩标签。
假设频谱质心序列C(i)的均值E和标准差V,第一阈值TE和第二阈值TV,色彩标签的标号ID与频谱质心的对应规则如下:
(1)当E>=TE&&V>=TV的时候,ID=2,表示音频的振幅较大(声音强度较大),且音频帧之间的幅度变化大(音调变化大);
(2)当E>=TE&&V<TV的时候,ID=4;
(3)当E<TE&&V>=TV的时候,ID=1;
(4)当E<TE&&V<TV的时候,ID=3;
上述(1)~(4)点对应规则是根据对色彩的普遍理解来设置的,但并不以此限制本方法,可以根据用户的需要来对对应规则进行调整。
本实施例的方法通过分析音频文件特征,可以将音频与图像中的色彩相结合起来,为每一个音频文件打上一个色彩标签,使用户可以快速、直观地了解音频内容和旋律,方便音频文件的查询,而且也可以作为标签基础,向曲库管理、音乐分类、乐曲关联、个性化推荐、用户收听标签、社交推荐等等多种应用场合进行扩展,大大提高了音频管理的可扩展性。
本发明实施例还提出一种音频标签设置装置,请参见图4,该音频标签设置装置包括规则设置模块41、声音要素特征提取模块42以及标签配置模块43。
规则设置模块41用于根据色彩的要素特征设置多个色彩标签与声音要素特征的对应规则。色彩要素特征和声音要素特征的选择均可以根据需要来确定,色彩要素特征可以是饱和度、亮度、色相等色彩特性中的一种或多种,声音要素特征可以是音频的频率、音频声波的振幅、频谱质心等音频特性中的一种或多种。所述的多个色彩标签中,不同色彩标签的色彩要素特征可能不同,因而可以与不同的声音要素特征进行对应设置。
声音要素特征提取模块42用于提取音频文件的声音要素特征。
标签配置模块43用于根据声音要素特征提取模块42提取的所述声音要素特征以及规则设置模块41设置的所述对应规则,对音频文件配置相应的色彩标签。
通过本实施例的装置,可以为音频配置色彩标签,从而提高了音频文件管理的可扩展性。
请参见图5,其为本发明实施例的另一种音频标签设置装置的结构图。本实施例的音频标签设置装置包括规则设置模块41、声音要素特征提取模块42以及标签配置模块43。在本实施例中,色彩要素特征采用饱和度和亮度,声音要素特征采用频谱质心。
与图4的实施例相比,本实施例的规则设置模块41进一步包括:向量组合建立单元411、标号设置单元412及对应关系设置单元413。向量组合建立单元411用于根据色彩饱和度和亮度,建立所述多个色彩标签的二维向量组合。标号设置单元412用于根据各个色彩标签的二维向量在二维坐标系中的分布,对色彩标签设置标号。对应关系设置单元413用于设置声音要素特征与各个色彩标签的标号之间的对应关系。
本实施例的声音要素特征提取模块42进一步包括:音频帧划分单元421、幅度谱计算单元422、频谱质心计算单元423及序列构建单元424。音频帧划分单元421用于将音频文件划分为多帧音频帧信号。幅度谱计算单元422用于计算每一帧音频帧信号的幅度谱。频谱质心计算单元423用于根据所述幅度谱计算每一帧音频帧信号的频谱质心。序列构建单元424用于按照音频文件中各帧音频帧信号的顺序,构建音频文件的频谱质心序列。
本实施例的标签配置模块43进一步包括:序列处理单元431、比对单元432及色彩标签配置单元433。序列处理单元431用于计算所述频谱质心序列的均值和标准差。比对单元432用于将计算获得的均值和标准差分别与预设的第一阈值和第二阈值进行比对。色彩标签配置单元433用于根据比对结果,对音频文件配置相应的色彩标签。
本实施例的装置通过分析音频文件特征,可以将音频与图像中的色彩相结合起来,为每一个音频文件打上一个色彩标签,使用户可以快速、直观地了解音频内容和旋律,方便音频文件的查询,而且也可以作为标签基础,向曲库管理、音乐分类、乐曲关联、个性化推荐、用户收听标签、社交推荐等等多种应用场合进行扩展,大大提高了音频管理的可扩展性。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明实施例可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本发明实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或网络设备等)执行本发明实施例各个实施场景所述的方法。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本申请技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本申请技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。