CN102750947A

CN102750947A - 音乐片段检测设备和方法以及音乐信号检测设备

Info

Publication number: CN102750947A
Application number: CN2012101070089A
Authority: CN
Inventors: 东山惠祐; 安部素嗣
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-04-19
Filing date: 2012-04-12
Publication date: 2012-10-24
Also published as: US20120266742A1; JP2012226106A; US8901407B2; EP2544175A1

Abstract

本公开涉及音乐片段检测设备和方法以及音乐信号检测设备。基于被变换到时间频率域中的输入信号的每个区域的信号分量的强度(例如功率频谱)和通过逼近所述信号分量的强度而获得的函数(二次函数)，指标计算单元计算所述信号分量的音调指标。音乐确定单元基于音调指标确定输入信号的每个区域是否包括音乐。本技术可以应用于音乐片段检测设备，该音乐片段检测设备从其中音乐与噪声相混合的输入信号中检测音乐部分。

Description

音乐片段检测设备和方法以及音乐信号检测设备

技术领域

本技术涉及音乐片段检测设备和方法、程序、记录介质以及音乐信号检测设备，并且更加具体地涉及能够从输入信号中检测音乐部分的音乐片段检测设备和方法、程序、记录介质以及音乐信号检测设备。

背景技术

过去，多首歌曲(音乐)已用在电视广播或无线电广播的广播节目中。在广播节目当中，存在如音乐节目中那样音乐明显地用作主要部分的节目，以及如戏剧中那样音乐用作背景音乐(BGM)的节目。

对于广播节目的观众而言，常常存在例如仅再生和观看音乐节目的音乐部分的需要。

进一步，对于广播电台而言，常常存在如下需要：容易地支付版权费，或者涉及根据广播节目通过管理使用的音乐来对广播节目进行编辑。

当准备了音乐数据库时，这可以通过使用如下技术来实现：将广播节目的语音信号和数据库的语音信号相比较，并且搜索广播节目的语音信号中包括的音乐。然而，当没有准备音乐数据库时，或者当广播节目的语音信号中包括的音乐没有登记到数据库时，难以使用上面描述的音乐搜索技术。在这种情况下，用户不得不收听广播节目并检查音乐的存在与否或者一致性。收听这样的大量广播节目会花费许多时间和努力。

在这点上，已提议了从广播节目的语音信号中检测包括音乐的片段的技术。

例如，存在如下技术：当输入信号被变换成频谱时，基于峰值在时间方向上持续的时间段来检测音乐片段(例如参见日本专利申请公开(JP-A)第10-301594号)。

发明内容

根据JP-A第10-301594号中公开的技术，可以以高精确度从仅在特定时间包括音乐的输入信号(诸如音乐节目的语音信号或者其中与音乐相比具有足够较低水平的非音乐声音(在下文中称之为“噪声”)与音乐相混合的输入信号)中检测音乐片段。

然而，从其中音乐作为BGM与噪声(如具有与如戏剧中那样的音乐几乎相同水平的语音)相混合的输入信号中，难以适当地检测频谱的峰值，所以检测音乐片段的准确性很可能降低。

进一步，存在如下技术：使用诸如对话或解说之类的语音通常被定向到广播节目中的中心这一特征，通过从输入信号的左声道信号中减去右声道信号(或者从右声道信号中减去左声道信号)来排除语音(噪声)的影响。然而，难以将这种技术应用于电视广播，并且同样难以将这种技术应用于其中音乐被定向到中心的输入信号。另外，独立于左右声道而生成通过语音压缩而得到的量化噪声，这样一来在这种技术中，与原始输入信号具有低相关性的量化噪声就可能包括在相减信号中。

进而，在频谱中被形成以在时间方向上持续的峰值不限于通过音乐造成，而是峰值可以通过噪声、旁瓣、干扰或时变音调等而造成。因为这个原因，难以从基于峰值的音乐片段的检测结果中完全排除除了音乐之外的噪声的影响。

如上所述，已难以以高精确度从其中音乐与具有几乎与音乐相同的水平的噪声相混合的输入信号中检测音乐部分。

考虑到前述状况而做出本技术，并且希望以高精确度从输入信号中检测音乐部分。

根据本技术的实施例，提供了一种音乐片段检测设备，该音乐片段检测设备包括：指标计算单元，其基于被变换到时间频率域中的输入信号的每个区域的信号分量的强度和通过逼近所述信号分量的强度而获得的函数，来计算所述信号分量的音调指标；以及音乐确定单元，其基于所述音调指标确定所述输入信号的每个区域是否包括音乐。

指标计算单元可以设置有：最大点检测单元，其从预定时间段的输入信号中检测信号分量的最大强度点；以及逼近处理单元，其通过二次函数在最大点附近逼近信号分量的强度。基于信号分量在最大点附近的强度和二次函数之间的误差，指标计算单元可以计算该指标。

指标计算单元可以根据二次函数的曲率来调整指标。

指标计算单元可以根据二次函数的最大点的频率来调整指标。

音乐片段检测设备可以进一步包括：特征量计算单元，其基于对应于预定时间的输入信号的每个区域的音调指标，计算对应于所述预定时间的输入信号的特征量；并且当特征量大于预定阈值时，音乐确定单元可以确定对应于预定时间的输入信号包括音乐。

通过针对每个频率在时间方向上求取对应于预定时间的输入信号的每个区域的音调指标的积分，特征量计算单元可以计算该特征量。

通过在对应于预定时间的输入信号的每个区域中针对每个频率求取其中大于预定阈值的音调指标在时间方向上最连续的区域的音调指标的积分，特征量计算单元可以计算该特征量。

音乐片段检测设备可以进一步包括：滤波处理单元，其在时间方向上对特征量进行滤波；并且当在时间方向上滤波的特征量大于预定阈值时，音乐确定单元可以确定对应于预定时间的输入信号包括音乐。

根据本技术的另一个实施例，提供了一种检测音乐片段的方法，该方法包括：基于被变换到时间频率域中的输入信号的每个区域的信号分量的强度和通过逼近所述信号分量的强度而获得的函数，来计算所述信号分量的音调指标；以及基于所述音调指标确定所述输入信号的每个区域是否包括音乐。

根据本技术的还有另一个实施例，提供了一种程序和一种记录在记录介质中的程序，该程序使计算机执行以下过程：基于被变换到时间频率域中的输入信号的每个区域的信号分量的强度和通过逼近所述信号分量的强度而获得的函数，来计算所述信号分量的音调指标；以及基于所述音调指标确定所述输入信号的每个区域是否包括音乐。

根据本技术的还有另一个实施例，提供了一种音乐信号检测设备，该音乐信号检测设备包括：指标计算单元，其基于被变换到时间频率域中的输入信号的每个区域的信号分量的强度和通过逼近所述信号分量的强度而获得的函数，来计算所述信号分量的音调指标。

根据本技术的实施例，基于被变换到时间频率域中的输入信号的每个区域的信号分量的强度和通过逼近所述信号分量的强度而获得的函数，来计算所述信号分量的音调指标，并且基于所述音调指标确定所述输入信号的每个区域是否包括音乐。

根据上面描述的本技术的实施例，可以以高精确度从输入信号中检测音乐部分。

附图说明

图1是图示根据本技术实施例的音乐片段检测设备的配置的框图；

图2是图示指标计算单元的功能配置例子的框图；

图3是图示特征量计算单元的功能配置例子的框图；

图4是用于描述音乐片段检测过程的流程图；

图5是用于描述指标计算过程的流程图；

图6是用于描述对峰值的检测的示图；

图7是用于描述对峰值周围的功率频谱的逼近的示图；

图8是用于描述指标调整函数的示图；

图9是用于描述输入信号的音调指标的例子的示图；

图10是用于描述特征量计算过程的流程图；

图11是用于描述对特征量的计算的示图；

图12是用于描述对特征量的计算的示图；

图13是图示特征量计算单元的另一个功能配置例子的框图；

图14是用于描述特征量计算过程的流程图；

图15是用于描述对特征量的计算的示图；

图16是用于描述通过现有技术对确定结果进行滤波的示图；

图17是图示音乐片段检测设备的另一个功能配置例子的框图；

图18是用于描述音乐片段检测过程的流程图；

图19是用于描述对特征量进行滤波的示图；以及

图20是图示计算机的硬件配置例子的框图。

具体实施方式

在下文中，参考附图来详细地描述本发明的优选实施例。注意，在本说明书和附图中，具有基本上相同功能和结构的结构性元件用相同的标号来指示，并且省略对这些结构性元件的重复说明。

在下文中，参考附图来描述本技术的实施例。按照以下顺序进行描述。

1.音乐片段检测设备的配置

2.音乐片段检测过程

3.其它配置

<1.音乐片段检测设备的配置>

图1图示了根据本技术实施例的音乐片段检测设备的配置。

图1的音乐片段检测设备11从其中音乐的信号分量与诸如人们之间的谈话或噪声之类的噪声分量(噪声)相混合的输入信号中检测音乐部分，并且输出检测结果。

音乐片段检测设备11包括裁剪单元31、时间频率变换单元32、指标计算单元33、特征量计算单元34和音乐片段确定单元35。

裁剪单元31从输入信号中裁剪对应于预定时间的信号，并且将裁剪的信号供应给时间频率变换单元32。

时间频率变换单元32将来自裁剪单元31的对应于预定时间的输入信号变换成时间频率域的信号(频谱图)，并且将时间频率域的频谱图供应给指标计算单元33。

针对频谱图的每个时间频率域，基于时间频率变换单元32的输入信号的频谱图，指标计算单元33计算表示音乐的信号分量的音调指标，并且将计算的指标供应给特征量计算单元34。

这里，音调指标表示音调相对于时间的稳定性，所述音调通过输入信号中每个频率的信号分量的强度(例如功率频谱)来表示。一般而言，音乐具有某个调(频率)中的声音并持续发声，这样一来在时间方向上就是稳定的。然而，人谈话具有其中音调在时间方向上不稳定的特性，并且在环境噪声中，很少看到在时间方向上持续的音调。在这点上，通过量化音调的存在与否以及对应于预定时间段的输入信号上的音调的稳定性，指标计算单元33计算音调指标。

基于来自指标计算单元33的频谱图的每个时间频率域的音调指标，特征量计算单元34计算表示输入信号有多音乐化(音乐性)的特征量，并且将特征量供应给音乐片段确定单元35。

基于来自特征量计算单元34的特征量，音乐片段确定单元35确定裁剪单元31裁剪的对应于预定时间的输入信号中是否包括音乐，并且输出确定结果。

[指标计算单元的配置]

接下来，参考图2来描述图1的指标计算单元33的详细配置。

图2的指标计算单元33包括时间段选择单元51、峰值检测单元52、逼近处理单元53、音调程度计算单元54和输出单元55。

时间段选择单元51在来自时间频率变换单元32的输入信号的频谱图中选择预定时间段的频谱图，并且将选择的频谱图供应给峰值检测单元52。

峰值检测单元52检测时间段选择单元51选择的预定时间段的频谱图中的每个单元频率处的峰值，所述峰值是这样的点，在所述点处，信号分量的强度为最强。

逼近处理单元53通过预定函数逼近预定时间段的频谱图中由峰值检测单元52检测的峰值周围的信号分量的强度(例如功率频谱)。

基于逼近处理单元53逼近的预定函数和峰值检测单元52检测的峰值周围的功率频谱之间的距离(误差)，音调程度计算单元54计算通过量化对应于预定时间段的频谱图上的音调指标而获得的音调程度。

输出单元55保持音调程度计算单元54计算的对应于预定时间段的频谱图上的音调程度。输出单元55将保持的全部时间段的频谱图上的音调程度供应给特征量计算单元34，作为裁剪单元31裁剪的对应于预定时间的输入信号的音调指标。

如上所述，针对时间频率域中的每个预定时间段，并且针对每个单元频率，计算裁剪单元31裁剪的对应于预定时间的输入信号上具有音调程度(元素)的音调指标。

[特征量计算单元的配置]

接下来，参考图3来描述图1所示的特征量计算单元34的详细配置。

图3的特征量计算单元34包括积分单元71、相加单元72和输出单元73。

积分单元71针对每个单元频率求取满足来自指标计算单元33的音调指标上的预定条件的音调程度的积分，并且将积分结果供应给相加单元72。

相加单元72将满足预定条件的积分值相加到来自积分单元71的每个单元频率的音调程度的积分值，并且将相加结果供应给输出单元73。

输出单元73对来自相加单元72的相加值执行预定计算，并且将计算结果输出到音乐片段确定单元35，作为裁剪单元31裁剪的对应于预定时间的输入信号的特征量。

<2.音乐片段检测过程>

接下来，参考图4的流程图来描述音乐片段检测设备11的音乐片段检测过程。当从外部装置等将输入信号输入到音乐片段检测设备11时，音乐片段检测过程开始。进一步，输入信号在时间方面被持续输入到音乐片段检测设备11。

裁剪单元31从输入信号中裁剪对应于预定时间(例如2秒)的信号，并且将裁剪的信号供应给时间频率变换单元32。裁剪的对应于预定时间的输入信号在下文中被适当地称为“块”。

在步骤S12中，使用诸如汉宁(Hann)窗之类的窗函数，或者使用离散傅里叶变换(DFT)等，时间频率变换单元32将来自裁剪单元31的对应于预定时间的输入信号(块)变换成频谱图，并且将频谱图供应给指标计算单元33。这里，窗函数不限于汉宁窗，而是可以使用正弦窗或汉明(Hamming)窗。进一步，本发明不限于DFT，而是可以使用离散余弦变换(DCT)。进一步，变换的频谱图可以是功率频谱、振幅频谱和对数振幅频谱中的任何一个。进一步，为了增加频率分辨率，通过用零填充进行过采样，频率变换长度可以增加以大于(例如两倍或四倍于)窗长。

在步骤S13中，指标计算单元33执行指标计算过程，并从而在频谱图的每个时间频率域中根据来自时间频率变换单元32的输入信号的频谱图来计算输入信号的音调指标。

[指标计算过程的细节]

这里，参考图5的流程图来描述图4的流程图的步骤S13中的指标计算过程的细节。

在步骤S31中，指标计算单元33的时间段选择单元51在来自时间频率变换单元32的输入信号的频谱图中选择任何一个帧的频谱图，并且将选择的频谱图供应给峰值检测单元52。例如，帧长为16毫秒。

在步骤S32中，在对应于时间段选择单元51选择的一个帧的频谱图中的频带附近，峰值检测单元52检测峰值，所述峰值是时间频率域中的点，在所述点处，每个频带上的信号分量的功率频谱(强度)为最强。

例如，在图6的上侧所示的被变换到时间频率域中的输入信号的频谱图(一个四边形(方块)表示每个帧的每个频率的频谱)中，在粗体方块所指示的某个帧的某个频率处检测图6的下侧所示的峰值p(具体而言，由表示峰值p的圆圈包围的频谱当中的最大频谱)。实际上，图6的上侧所示的方块在纵向方向上的数目等于图6的下侧所示的频谱在频率方向(水平轴方向)上的数目(黑圆圈的数目)。

在步骤S33中，逼近处理单元53通过二次函数在对应于时间段选择单元51选择的一个帧的频谱图上逼近峰值检测单元52检测的峰值周围的功率频谱。

如上所述，在图6的下侧检测峰值p，然而成为峰值的功率频谱并不限于在时间方向上稳定的音调(在下文中称之为“持久音调”)。由于峰值可能由诸如噪声、旁瓣、干扰或时变音调之类的信号分量造成，所以基于峰值可能无法适当地计算音调指标。进一步，由于DFT峰值是离散的，所以峰值频率不一定是真正的峰值频率。

根据J.O.Smith III和X.Serra在Proc.ICMC’87中的文献“PARSHL：A program for analysis/synthesis of inharmonic sounds basedon a sinusoidal representation”，某个帧中的峰值周围的对数振幅频谱的值可以通过二次函数来逼近，而不管它是音乐还是人语音。

这样一来，在本技术中，就通过二次函数来逼近峰值周围的对数振幅频谱。

进一步，在本技术中，在以下假定之下确定峰值是否由持久音调造成。

a)通过在时间方向上扩展二次函数而获得的函数来逼近持久音调。

b)频率的时间变化经受零阶逼近(不变化)，因为由音乐造成的峰值在时间方向上持久。

c)振幅的时间变化需要在某种程度上允许，并且例如通过二次函数来逼近。

这样一来，持久音调就通过如图7所示在某个帧中的时间方向上通过扩展二次函数而获得的隧道式函数(双二次函数)来建模，并且可以通过关于时间t和频率ω的以下公式(1)来表示。这里，ω_p表示峰值频率。

[数学式1]

g(t，ω)＝a(ω-ω_p)²+ct²+dt+e ——(1)

这样一来，例如通过利用最小二乘逼近在聚焦的峰值周围基于假定a)至c)应用双二次函数而获得的误差就可以用作音调(持久音调)指标。亦即，以下公式(2)可以用作误差函数。

[数学式2]

J (a, b, c, d, e) = \underset{Γ}{Σ} = {(f (k, n) - g (k, n))}^{2} &RightArrow; \min - - (2)

在公式(2)中，f(k，n)表示第k仓(bin)和第n帧的DFT频谱，而g(k，n)则是具有与表示持久音调的模型的公式(1)相同意义的函数，并且通过以下公式(3)来表示。

[数学式3]

g(k，n)＝ak²+bk+cn²+dn+e ——(3)

在公式(2)中，Γ表示目标峰值周围的时间频率域。在时间频率域Γ中，根据不大于频率变换长度所决定的主瓣的采样点数目的用于时间频率变换的窗数，决定频率方向上的尺寸。进一步，根据定义持久音调所必须的时间长度，决定时间方向上的尺寸。

返回参考图5，在步骤S34中，基于逼近处理单元53逼近的二次函数和峰值检测单元52检测的峰值周围的功率频谱之间的误差，亦即公式(2)的误差函数，音调程度计算单元54在对应于时间段选择单元51选择的一个帧的频谱图上计算作为音调指标的音调程度。

这里，通过将公式(2)的误差函数应用于平面模型而获得的误差函数用以下公式(4)来表示，并且此时音调程度η可以用以下公式(5)来表示。

[数学式4]

J^{,} (e^{,}) = \underset{Γ}{Σ} {(f (k, n) - e^{,})}^{2} &RightArrow; \min - - (4)

[数学式5]

η (k, n) = 1 - \sqrt{J (\hat{a}, \hat{b}, \hat{c}, \hat{d}, \hat{e}) / J^{,} ({\hat{e}}^{,})} - - (5)

在公式(5)中，a帽(其中“^”附加到“a”的字符被称为“a帽”，并且在本公开中使用类似的表示)、b帽、c帽、d帽和e帽分别是使J(a，b，c，d，e)最小化的a、b、c、d和e，而e’帽则是使J(e’)最小化的e’。

以这种方式来计算音调程度η。

同时，在公式(5)中，a帽表示(表示持久音调的)模型的曲线(二次函数)的峰值曲率。

当输入信号的信号分量是正弦波时，理论上峰值曲率是由用于时间频率变换的窗函数的类型和大小决定的整数。这样一来，随着实际获得的峰值曲率a帽的值偏离理论值，信号分量是持久音调的概率被认为降低。进一步，即使峰值具有旁瓣特性，由于获得的峰值曲率改变，所以可以说峰值曲率a帽的偏离影响音调指标。换言之，通过根据偏离峰值曲率a帽的理论值的值来调整音调程度η，可以获得更加适当的音调指标。根据偏离峰值曲率a帽的理论值的值而调整的音调程度η’用以下公式(6)来表示。

[数学式6]

η^{,} (k, n) = D (\hat{a} - a_{ideal}) η (k, n) - - (6)

在公式(6)中，值a_ideal是由用于时间频率变换的窗函数的类型和大小决定的峰值曲率的理论值。函数D(x)是具有图8所示的值的调整函数。根据函数D(x)，随着峰值曲率值和理论值之间的差增加，音调程度降低。换言之，根据公式(6)，音调程度η’在不是峰值的元素上为零(0)。函数D(x)并不限于具有图8所示的形状的函数，而是在随着峰值曲率值和理论值之间的差增加而音调程度降低的程度上，可以使用任何函数。

如上所述，通过根据曲线(二次函数)的峰值曲率来调整音调程度，获得了更加适当的音调程度。

同时，根据公式(5)中的a帽和b帽的值“-(b帽)/2(a帽)”表示从离散峰值频率至真正峰值频率的偏移。

理论上，真正的峰值频率处在与离散的峰值频率相距±0.5仓的位置处。当从离散峰值频率至真正峰值频率的偏移值“-(b帽)/2(a帽)”极其不同于聚焦峰值的位置时，符合计算公式(2)的误差函数不正确的概率高。换言之，由于这被认为影响了音调指标的可靠性，所以通过根据从聚焦峰值的位置(峰值频率)kp的偏移值“-(b帽)/2(a帽)”的偏离值来调整音调程度η，可以获得更加适当的音调指标。特别地，在公式(6)中的函数D(x)中，项“(a帽)-a_ideal”可以用“-(b帽)/2(a帽)-kp”来替换，并且通过将公式(6)的左手侧乘以函数D{-(b帽)/2(a帽)-kp}而获得的值可以用作调整的音调程度η’。

可以通过除了上面描述的技术之外的技术来计算音调程度η。

特别地，首先，给出通过以下获得的以下公式(7)的误差函数：使用通过逼近公式(2)的误差函数中的峰值周围的功率频谱的时间平均形状而获得的二次函数“ak²+bk+c”，来替换表示持久音调的模型g(k，n)。

[数学式7]

J (a, b, c) = \underset{Γ}{Σ} {(f (k, n) - ({ak}^{2} + bk + c))}^{2} &RightArrow; \min - - (7)

接下来，给出通过以下获得的以下公式(8)的误差函数：使用通过逼近公式(2)的误差函数中的聚焦峰值的第m帧的功率频谱而获得的二次函数“a’k²+b’k+c’”，来替换表示持久音调的模型g(k，n)。这里，m表示聚焦峰值的帧数。

[数学式8]

J^{,} (a^{,}, b^{,}, c^{,}) = \underset{Γ, n, m}{Σ} {(f (k, n) - ({a^{,} k}^{2} + b^{,} k^{2} + c^{,}))}^{2} &RightArrow; \min - - (8)

这里，当在公式(7)中使J(a，b，c)最小化的a、b和c分别被称为a帽、b帽和c帽并且在公式(8)中使J(a’，b’，c’)最小化的a’、b’和c’分别被称为a’帽、b’帽和c’帽时，通过以下公式(9)给出音调程度η。

[数学式9]

η (k, n) = D_{1} (1 - \frac{\hat{a}}{{\hat{a}}^{,}}) D_{2} {(- \frac{\hat{b}}{2 {\hat{a}}^{,}} - (- \frac{{\hat{b}}^{,}}{2 {\hat{a}}^{,}}))} - - (9)

在公式(9)中，函数D1(x)和D2(x)是具有图8所示的值的函数。根据公式(9)，在不是峰值的元素上，音调程度η’为零(0)，并且当a帽为零(0)或a’帽为零(0)时，音调程度η’为零(0)。

进一步，通过S函数(sigmoidal function)等，可以对以上面描述的方式计算的音调程度η执行非线性变换。

返回参考图5，在步骤S35中，输出单元55保持音调程度计算单元54计算的对应于一个帧的频谱图的音调程度，并且确定是否已对一个块中的全部帧都执行了上面描述的过程。

当在步骤S35中确定尚未对全部帧都已执行上面描述的过程时，过程返回到步骤S31，并且在下一帧的频谱图上重复步骤S31至S35的过程。

然而，当在步骤S35中确定已对全部帧都执行了上面描述的过程时，过程前进到步骤S36。

在步骤S36中，输出单元55以时间序列布置保持的各个帧的音调程度，然后将音调程度供应(输出)给特征量计算单元34。然后，过程返回到步骤S13。

图9是用于描述指标计算单元33计算的音调指标的例子的示图。

如图9所示，根据输入信号的频谱图计算的输入信号的音调指标S在时间方向和频率方向上具有作为元素(在下文中称之为“分量”)的音调程度。尽管在图9中未示出，音调指标S中的每个四边形(方块)表示每个时间(帧)和每个频率处的分量，并且具有作为音调程度的值。进一步，如图9所示，音调指标S的时间粒度(帧长)例如为16毫秒。

如上所述，输入信号的一个块上的音调指标具有每个时间和每个频率处的分量。

进一步，可以不对极低频带计算音调程度，因为由诸如嗡嗡的噪声之类的非音乐信号分量造成的峰值被包括的概率高。进一步，例如可以不对高于8kHz的高频带计算音调程度，因为它不是构造音乐的重要元素的概率高。进而，甚至当离散峰值频率中的功率频谱的值小于预定值如-80dB时，也可以不计算音调程度。

返回到图4的流程图，在步骤S13之后，在步骤S14中，特征量计算单元34基于来自指标计算单元33的音调指标执行特征量计算过程，并从而计算表示输入信号的音乐性的特征量。

[特征量计算过程的细节]

这里，参考图10的流程图来描述图4的流程图的步骤S14中的特征量计算过程的细节。

在步骤S51中，积分单元71针对每个频率求取来自指标计算单元33的音调指标上大于预定阈值的音调程度的积分，并且将积分结果供应给相加单元72。

例如，当从指标计算单元33供应图11所示的音调指标S时，积分单元71对音调指标S中最低频率(亦即图11中的最低行)的音调程度有兴趣。接下来，积分单元71在时间方向上(图11中从左到右的方向)相继相加感兴趣的频率(在下文中称之为“兴趣频率”)的音调程度当中大于预定阈值的音调程度(在图11中用阴影指示)。预定阈值被适当地设置，并且例如可以设置为零(0)。然后，积分单元71将兴趣频率提高一个单位，并且针对兴趣频率重复上面描述的过程。以这种方式，针对每个兴趣频率获得音调程度的积分值。当频率包括音乐信号分量时，音调程度的积分值具有高值。

返回到图10的流程图，在步骤S52中，积分单元71确定是否已对全部频率执行了对每个频率的音调程度求取积分的过程。

当在步骤S52中确定尚未对全部频率已执行该过程时，过程返回到步骤S51，并且重复步骤S51和S52的过程。

然而，当在步骤S52中确定已对全部频率执行了该过程时，亦即当使用图11的音调指标S中的全部频率作为兴趣频率来计算积分值时，积分单元71将每个频率的音调程度的积分值Sf供应给相加单元72，并且过程前进到步骤S53。

在步骤S53中，相加单元72相加来自积分单元71的各个频率的音调程度的积分值当中大于预定阈值的积分值，并且将相加结果供应给输出单元73。

例如，当从积分单元71供应图12所示的每个频率的音调程度的积分值Sf时，相加单元72相继相加频率方向(图12中从下侧到上侧的方向)上的各个频率的音调程度的积分值Sf当中大于预定阈值的积分值(在图12中用阴影指示)。预定阈值被适当地设置，并且例如可以设置为零(0)。然后，相加单元72将获得的相加值Sb供应给输出单元73。进一步，相加单元72对各个频率的音调程度的积分值Sf当中大于预定阈值的积分值进行计数，并且将计数值(在图12的例子中为5)连同相加值Sb一起供应给输出单元73。

在步骤S54中，输出单元73将通过使来自相加单元72的相加值除以来自相加单元72的计数值而获得的值供应给音乐片段确定单元35，作为对应于裁剪单元31裁剪的一个块的输入信号的特征量。换言之，例如，通过使相加值Sb除以计数值5而获得的值Sm被计算作为块的特征量。

以这种方式来计算输入信号的块上的表示音乐性的特征量。

返回到图4的流程图，在步骤S14之后，在步骤S15中，音乐片段确定单元35确定来自特征量计算单元34的特征量是否大于预定阈值。

当在步骤S15中确定特征量大于预定阈值时，过程前进到步骤S16。在步骤S16中，音乐片段确定单元35确定对应于裁剪单元31裁剪的块的输入信号的时间段是包括音乐的音乐片段，并且输出表示这一事实的信息。

然而，当在步骤S15中确定特征量不大于预定阈值时，过程前进到步骤S17。在步骤S17中，音乐片段确定单元35确定对应于裁剪单元31裁剪的块的输入信号的时间段是不包括音乐的非音乐片段，并且输出表示这一事实的信息。

在步骤S18中，音乐片段检测设备11确定是否已对全部的输入信号(块)执行了上述过程。

当在步骤S18中确定尚未对全部的输入信号执行上述过程时，亦即当输入信号连续地在时间方面被持续输入时，过程返回到步骤S11，并且重复步骤S11和随后的过程。

然而，当在步骤S18中确定已对全部的输入信号都执行了上述过程时，亦即当输入信号的输入已结束时，过程也结束。

根据上面描述的过程，从其中音乐与噪声相混合的输入信号中计算音调指标，并且基于从指标获得的输入信号的特征量来检测其中音乐包括在输入信号中的片段。由于音调指标是其中功率频谱相对于时间的稳定性被量化的指标，所以从指标获得的特征量可以可靠地表示音乐性。这样一来，就可以以高精确度从其中音乐与噪声相混合的输入信号中检测音乐部分。

<3.其它配置>

在上面的描述中，当频率包括音乐信号分量时，通过特征量计算过程获得的每个频率的音调程度的积分值具有高值。然而，甚至当具有高值的音调程度不连续地包括在某个兴趣频率中时，兴趣频率的音调程度的积分值也具有高值。音调程度表示时间方向上的每个帧的音调稳定性，然而，当音调程度在多个帧上持续为高时，更加明显地示出音调稳定性。

在这点上，下面描述用于估计多个帧上的连续音调程度的高度的特征量计算过程。

[特征量计算单元的另一个配置]

首先，结合特征量计算单元34的配置进行描述，该特征量计算单元34执行用于估计多个帧上的连续音调程度的高度的特征量计算过程。

在图13的特征量计算单元34中，具有与图3的特征量计算单元34中相同的功能的部件用相同的名称和相同的标号来指示，并且适当地省略其描述。

换言之，图13的特征量计算单元34与图3的特征量计算单元34的不同之处在于，设置了积分单元91来代替积分单元71。

积分单元91针对每个单元频率求取来自指标计算单元33的音调指标上满足预定条件的在时间方面最连续的音调程度的积分，并且将积分结果供应给相加单元72。

[特征量计算过程的细节]

接下来，参考图14的流程图来描述图13的特征量计算单元34进行的特征量计算过程的细节。

图14的流程图的步骤S92至S94的过程基本上类似于图10的流程图的步骤S52至S54的过程，因此省略其描述。

亦即，在步骤S91中，积分单元91针对每个单元频率基于来自指标计算单元33的音调指标求取其中大于预定阈值的音调程度在时间方向上最连续的时间段的音调程度的积分，并且将积分结果供应给相加单元72。

例如，当从指标计算单元33供应图15所示的音调指标S时，积分单元91首先对音调指标S中最低频率(亦即图15中的最低行)的音调程度有兴趣。接下来，积分单元91在时间方向上(图15中从左到右的方向)相继相加兴趣频率的音调程度当中大于预定阈值的音调程度(在图15中用阴影指示)。此时，积分单元91首先相加其中大于预定阈值的音调程度在时间方面连续的时间段t1的音调程度，并且对音调程度的数目亦即2进行计数。类似地，积分单元91同样相加时间段t2和时间段t3上的音调程度，并且对其数目亦即3和2进行计数。然后，积分单元91使用通过相加对应于计数的数目当中的最大数目亦即3的时间段t2的音调程度而获得的值作为每个兴趣频率的音调程度的积分值。积分单元91对全部频率重复上面描述的过程。以这种方式来获得每个兴趣频率的音调程度的积分值。当频率包括音乐信号分量时，音调程度的积分值具有高值，并且更加明显地示出音调稳定性。

这样一来，就可以增加表示音乐性的特征量的可靠性，并且可以以高精确度从其中音乐与噪声相混合的输入信号中检测音乐部分。

如上所述，通过音乐片段检测过程获得的音乐片段确定结果的可靠性增加，然而当特征量具有接近于阈值的值时，很可能获得其中音乐片段和非音乐片段被频繁切换的确定结果。这样一来，在过去，通过使用中值滤波器等对其中音乐片段和非音乐片段被频繁切换的确定结果进行滤波，获得了稳定的确定结果。

图16是用于描述通过现有技术对确定结果进行滤波的示图。

图16的上部图示了时间方向上的每个块的特征量。特征量在音乐片段中具有高值，但在非音乐片段中具有低值。

图16的中部图示了音乐片段确定结果，其中，使用预定阈值对图16的上部中图示的特征量进行二值化。在这个确定结果中，示出了这样的部分，在所述部分中，由于图16所示的非音乐片段中的特征量计算误差，非音乐片段被错误地确定为音乐片段。

图16的下部图示了对图16的中部中图示的确定结果进行滤波的结果。如图16的下部所示，非音乐片段中的特征量计算误差的影响可以通过滤波来排除，然而，相邻于非音乐片段的处于图16右侧的音乐片段的一部分被滤波误差处理为非音乐片段。

如上所述，不能说滤波的音乐片段的可靠性高。

在这点上，下面描述用于增加音乐片段确定结果的可靠性的配置。

[音乐片段检测设备的另一个配置]

图17图示了配置成增加音乐片段确定结果的可靠性的音乐片段检测设备的配置。

在图17的音乐片段检测设备111中，具有与图1的音乐片段检测设备11中相同的功能的部件用相同的名称和相同的标号来指示，并且适当地省略其描述。

亦即，图17的音乐片段检测设备111与图1的音乐片段检测设备11的不同之处在于，在特征量计算单元34和音乐片段确定单元35之间新近布置了滤波处理单元131。

滤波处理单元131对来自特征量计算单元34的特征量进行滤波，并且将滤波的特征量供应给音乐片段确定单元35。

图17的音乐片段检测设备111中的特征量计算单元34可以具有参考图3描述的配置或参考图13描述的配置。

[音乐片段检测过程的细节]

接下来，参考图18的流程图来描述图17的音乐片段检测设备111执行的音乐片段检测过程的细节。

图18的流程图的步骤S111至S114的过程基本上与图4的流程图的步骤S11至S14的过程相同，因此省略其描述。可以参考图10的流程图或图14的流程图来描述图18的流程图的步骤S115中的过程的细节。

参考图18的流程图，在步骤S114中，特征量计算单元34保持每个块的计算的特征量。

在步骤S115中，音乐片段检测设备111确定是否已对全部的输入信号(块)执行了步骤S111至S114的过程。

当在步骤S115中确定尚未对全部的输入信号执行上述过程时，亦即当输入信号连续地在时间方面被持续输入时，过程返回到步骤S111，并且重复步骤S111至S114的过程。

然而，当确定已对全部的输入信号都执行了所述过程时，亦即当输入信号的输入已结束时，特征量计算单元34将全部块的特征量供应给滤波处理单元131，并且过程前进到步骤S116。

在步骤S116中，滤波处理单元131使用低通滤波器对来自特征量计算单元34的特征量进行滤波，并且将平滑的特征量供应给音乐片段确定单元35。

在步骤S117中，音乐片段确定单元35依次以块为单位确定来自特征量计算单元34的特征量是否大于预定阈值。

当在步骤S117中确定特征量大于预定阈值时，过程前进到步骤S118。在步骤S118中，音乐片段确定单元35确定对应于该块的输入信号的时间段是包括音乐的音乐片段，并且输出表示这一事实的信息。

然而，当在步骤S117中确定特征量不大于预定阈值时，过程前进到步骤S119。在步骤S119中，音乐片段确定单元35确定对应于该块的输入信号的时间段是不包括音乐的非音乐片段，并且输出表示这一事实的信息。

在步骤S120中，音乐片段检测设备111确定是否已对全部的输入信号(块)的特征量执行了上述过程。

当在步骤S120中确定尚未对全部的输入信号的特征量执行上述过程时，过程返回到步骤S117，并且对下一块的特征量重复该过程。

然而，当确定已对全部的输入信号的特征量都执行了上述过程时，过程结束。

图19是用于描述在音乐片段检测过程中对特征量进行滤波的示图。

图19的上部图示了类似于图16上部的时间方向上的每个块的特征量。

图19的中部图示了对图19的上部中图示的特征量进行滤波的结果。如图19的中部所示，通过滤波平滑了图19的上部中图示的非音乐片段中的特征量计算误差。

图19的下部图示了音乐片段确定结果，其中，使用预定阈值对图19的中部中图示的特征量进行二值化。在这个确定结果中，正确地确定了音乐片段和非音乐片段。

基于通过量化功率频谱相对于时间的稳定性而获得的音调指标来计算特征量，并且该特征量是可靠地表示音乐性的值。这样一来，通过如上所述地对特征量进行滤波，就可以获得具有更高可靠性的音乐片段确定结果。

进一步，不需要对全部块的特征量都执行滤波，而是可以根据目的来选择将要滤波的块。

例如，在图17的音乐片段检测设备111中，全部输入信号都可以经受如图4的音乐片段检测过程中那样的确定输入信号是否是音乐片段，然后可以只是被确定为非音乐片段的块的特征量经受滤波。在这种情况下，音乐片段的检测遗漏减少，这样一来就可以增加音乐部分的查全率。

本技术不仅可以应用于图1所示的音乐片段检测设备11，而且还可以应用于其中经由网络如因特网传送或接收信息的网络***。特别地，终端装置如移动电话可以设置有图1的裁剪单元31，并且服务器可以设置有除了图1的裁剪单元31之外的配置。在这种情况下，服务器可以对经由因特网从终端装置传送的输入信号执行音乐片段检测过程。然后，服务器可以经由因特网将确定结果传送到终端装置。终端装置可以通过显示单元等显示从服务器接收的确定结果。

在上面的描述中，在音乐片段检测设备11(音乐片段检测设备111)中，基于从每个块的音调指标获得的特征量来确定块是否是音乐片段。然而，音乐片段检测设备11(音乐片段检测设备111)可以仅设置有裁剪单元31至指标计算单元33，并从而起到检测块中的音乐信号分量的音乐信号检测设备的作用。

上面描述的系列过程可以通过硬件或软件来执行。当系列过程通过软件来执行时，从程序记录介质中将软件安装在结合到专用硬件中的计算机或其中可以安装各种程序并且可以执行各种功能的通用计算机等中。

图20是图示通过程序执行上面描述的一系列过程的计算机的硬件的配置例子的框图。

在计算机中，中央处理单元(CPU)901、只读存储器(ROM)902和随机存取存储器(RAM)903经由总线904彼此连接。

输入/输出(I/O)接口905进一步连接到总线904。I/O接口905连接到包括键盘、鼠标和麦克风等的输入单元906、包括显示器和扬声器等的输出单元907、包括硬盘和非易失性存储器等的存储单元908、包括网络接口等的通信单元909以及驱动诸如磁盘、光盘、磁光盘和半导体存储器等之类的可移动介质911的驱动器910。

在具有上述配置的计算机中，CPU 901通过以下来执行上面描述的一系列过程：经由I/O接口905和总线904将存储单元908中存储的程序加载在RAM 903中，并且执行该程序。

由计算机(CPU 901)执行的程序可以记录在可移动介质911中，可移动介质911是打包介质，包括磁盘(包括软盘)、光盘(紧致盘(CD)-ROM或数字通用盘(DVD)等)、磁光盘或半导体存储器等。代替地，可以经由有线或无线传输介质如局域网(LAN)、因特网或数字卫星广播来提供程序。

当可移动介质911安装在驱动器910中时，可以经由I/O接口905将程序安装在存储单元908中。进一步，程序可以经由有线或无线传输介质由通信单元909接收，然后安装在存储单元908中。另外，程序可以预先安装在ROM 902或存储单元908中。

进一步，由计算机执行的程序可以是使过程按照在本公开中描述的顺序以时间序列执行的程序，也可以是使过程并行地或者在诸如当进行调用时之类的必要时刻执行的程序。

本领域技术人员应当理解的是，取决于设计要求和其它因素，可以进行各种修改、组合、再组合和变更，它们都处在所附权利要求或其等效含义的范围之内。

另外，本技术还可以配置如下。

(1)一种音乐片段检测设备，包括：

指标计算单元，其基于被变换到时间频率域中的输入信号的每个区域的信号分量的强度和通过逼近所述信号分量的强度而获得的函数，来计算所述信号分量的音调指标；以及

音乐确定单元，其基于所述音调指标确定所述输入信号的每个区域是否包括音乐。

(2)根据(1)所述的音乐片段检测设备，其中，所述指标计算单元包括：

最大点检测单元，其从预定时间段的所述输入信号中检测所述信号分量的最大强度点；以及

逼近处理单元，其通过二次函数在所述最大点附近逼近所述信号分量的强度，并且

基于所述信号分量在所述最大点附近的强度和所述二次函数之间的误差，所述指标计算单元计算所述指标。

(3)根据(2)所述的音乐片段检测设备，其中，所述指标计算单元根据所述二次函数的曲率来调整所述指标。

(4)根据(2)或(3)所述的音乐片段检测设备，其中，所述指标计算单元根据所述二次函数的最大点的频率来调整所述指标。

(5)根据(1)至(4)中任何一项所述的音乐片段检测设备，进一步包括：

特征量计算单元，其基于对应于预定时间的输入信号的每个区域的音调指标，计算对应于所述预定时间的输入信号的特征量，

其中，当所述特征量大于预定阈值时，所述音乐确定单元确定对应于所述预定时间的输入信号包括音乐。

(6)根据(5)所述的音乐片段检测设备，其中，通过针对每个频率在时间方向上求取对应于所述预定时间的输入信号的每个区域的音调指标的积分，所述特征量计算单元计算所述特征量。

(7)根据(5)所述的音乐片段检测设备，其中，通过在对应于所述预定时间的输入信号的每个区域中针对每个频率求取其中大于预定阈值的音调指标在时间方向上最连续的区域的音调指标的积分，所述特征量计算单元计算所述特征量。

(8)根据(5)至(7)中任何一项所述的音乐片段检测设备，进一步包括：

滤波处理单元，其在时间方向上对所述特征量进行滤波，

其中，当在时间方向上滤波的所述特征量大于预定阈值时，所述音乐确定单元确定对应于所述预定时间的输入信号包括音乐。

(9)一种检测音乐片段的方法，包括：

基于被变换到时间频率域中的输入信号的每个区域的信号分量的强度和通过逼近所述信号分量的强度而获得的函数，来计算所述信号分量的音调指标；以及

基于所述音调指标确定所述输入信号的每个区域是否包括音乐。

(10)一种使计算机执行以下过程的程序：

(11)一种记录如(10)所述的程序的记录介质。

(12)一种音乐信号检测设备，包括：

指标计算单元，其基于被变换到时间频率域中的输入信号的每个区域的信号分量的强度和通过逼近所述信号分量的强度而获得的函数，来计算所述信号分量的音调指标。

本公开包含与2011年4月19日向日本专利局申请的日本优先权专利申请JP 2011-093441中公开的主题有关的主题，该专利申请的整体内容通过引用结合于此。

Claims

1.一种音乐片段检测设备，包括：

2.根据权利要求1所述的音乐片段检测设备，其中，所述指标计算单元包括：

3.根据权利要求2所述的音乐片段检测设备，其中，所述指标计算单元根据所述二次函数的曲率来调整所述指标。

4.根据权利要求2所述的音乐片段检测设备，其中，所述指标计算单元根据所述二次函数的最大点的频率来调整所述指标。

5.根据权利要求1所述的音乐片段检测设备，进一步包括：

6.根据权利要求5所述的音乐片段检测设备，其中，通过针对每个频率在时间方向上求取对应于所述预定时间的输入信号的每个区域的音调指标的积分，所述特征量计算单元计算所述特征量。

7.根据权利要求5所述的音乐片段检测设备，其中，通过在对应于所述预定时间的输入信号的每个区域中针对每个频率求取其中大于预定阈值的音调指标在时间方向上最连续的区域的音调指标的积分，所述特征量计算单元计算所述特征量。

8.根据权利要求5所述的音乐片段检测设备，进一步包括：

滤波处理单元，其在时间方向上对所述特征量进行滤波，

9.一种检测音乐片段的方法，包括：

10.一种使计算机执行以下过程的程序：

11.一种记录如权利要求10所述的程序的记录介质。

12.一种音乐信号检测设备，包括：