具体实施方式
<获得本发明的经过>
发明人发现上述的专利文献1~4存在以下的问题。
即,在专利文献1记载的方法中,需要设定适当的偏移时间。此外,偏移时间根据AV内容的种类不同而长度不同。因此,例如想要从多个AV内容中分别提取兴趣区间而制作多个AV内容的摘要(digest)的情况下, 需要按每个AV内容设定偏移时间,然后提取兴趣区间。对用户来说,要考虑多个AV内容的每一个的适当的偏移时间,进行该设定是非常繁琐的。
此外,在专利文献2所记载的方法中,需要根据AV内容的内容来设定入点和出点的音响特征条件,因此,在想要从多个AV内容中提取兴趣区间的情况下,需要针对每个AV内容设定入点及出点的音响特征条件。因此,如果成为兴趣区间的提取对象的AV内容的数量变多,则该设定作业对用户而言成为很大的负担。
此外,在专利文献3所记载的方法中,通过目视对基于声波的形状的语音的起点及终点的位置进行确认,在无声子音等几乎没有功率的音韵位于语头的情况下,无声子音难以表现为声波的形状,所以始终点的决定变得困难。此外,在高噪声环境下,始终点被噪声淹没,很难确定。
此外,在专利文献4所记载的方法中,很难通过振幅的功率的阈值来判定无声子音等几乎没有功率的语音。此外,在以语音为基准的振幅的功率的阈值设定中,很难判定语音以外的声音(例如环境音)的振幅功率的变动。
在此,作为在动态图像区间中从用户拍摄的家庭视频中除去冗长部分并提取用户带有兴趣观看的兴趣区间的方法,制定了几个方法。
在此,作为在动态图像区间中从用户拍摄的家庭视频中除去冗长部分并提取用户带有兴趣观看的兴趣区间的方法,制定了几个方法。
作为其中的一个方法,有如下装置:用户观赏动态图像,在用户感兴趣的时刻,进行用于确定该时刻的输入,取得所输入的时刻的声音的信息,提取包含所输入的时刻并且具有与在输入的时刻的前后取得的声音的信息相似的声音的区间。
此时,所取得的声音的信息也包含有用户感兴趣的时刻的前后的一定区间的声音的特征。
并且,针对一定区间的前后的规定期间,在该规定期间的声音的特征与所取得的声音的信息所示出的特征一定程度以上相似的情况下,将兴趣区间伸长。并且,对接下来的规定期间也进行同样的判定,提取判定为并非一定程度以上相似的时刻的兴趣区间。
通过这种方法,能够通过来自用户的较少的输入来提取兴趣区间。
但是,发明人发现,该方法不一定能正确地提取兴趣区间。这是因为,在采用该方法的情况下,将兴趣区间以规定期间的单位伸长,因此在想要伸长的规定期间中只有不到一半的声音的特征与该兴趣区间的特征相似的情况下,该规定期间不被包含在兴趣区间中。在该情况下,可能会提取到例如会话中断、或会话唐突地开始那样的兴趣区间。
特别是,在无声声音位于所确定的兴趣区间的始端或终端部分的情况下,尽管发出了无声声音的声音,但很难作为声音的特征被检测到,因此,有时本来希望落入兴趣区间内的部分未落入兴趣区间。
并且,在提取到这样的兴趣区间的情况下,视听了该兴趣区间的用户会感到不协调感。
为了解决这样的问题,可以想到缩短所伸长的规定期间并将其伸长,但是发明人注意到,若缩短规定期间,则能够从规定期间取得的声音的特征没有宽度,因此很难作为兴趣期间进行伸长,存在很难提取一定程度的长度的兴趣区间的问题,或用于伸长的处理可能会变得相当多的问题。
在此,发明人为了解决这样的问题,发现了如下的情况:按照一定程度的规定期间的每一个将兴趣区间伸长,并且即使有这样的无声声音也将其包含在兴趣区间中,以这样的方式细微地对兴趣区间的始端及终端进行解析,能够解决上述问题。由此,能够避免本来应该包含在兴趣区间内的规定期间未被包含的状况,或者能够防止兴趣区间变得冗长。
以下,使用附图来说明本发明的兴趣区间确定装置的一实施方式的兴趣区间提取装置。
<实施方式>
<1>概要
首先,说明兴趣区间提取的概要。
本实施方式的兴趣区间提取装置按照动态图像文件所包含的音频信号的每个第一单位区间(10msec),分别使用多种锚模型(Anchor model)Ar,生成以相对于表现音频信号的特征量的特征量向量的似然度为成分的似然度向量。并且,兴趣区间提取装置使用比第一单位区间长的第二单位区间(1s)所包含的似然度向量,计算每个第二单位区间的频次向量(第二单位区间频次向量)。频次向量是表示第二单位区间的声音的特征的向量。兴趣 区间提取装置对于包含由用户指定的指定时刻的第二单位区间与位于其前方及后方的第二单位区间是否相似,通过反复判断各自的频次向量是否相似,提取成为兴趣区间的候选的兴趣区间候选。此时,兴趣区间提取装置自动地判别兴趣区间的候选所包含的微细的时间构造(也称作微细构造),通过仅对其必要的部分(主要是兴趣区间候选的起点附近和终点附近)进行解析,来精密地提取兴趣区间。
在此,微细的时间构造是指,在规定期间内包含有性质相互不同的声音的构造。换言之,是在各第二单位区间之中存在至少2个相互离开规定以上距离的似然度向量的构造。包含有性质相互不同的声音是因为,在该规定期间内存在声音的变化边界的可能性变高。
例如,如图1所示,动态图像文件是对运动会的场景进行摄影而得到的。并且,设用户想要从该动态图像文件中仅截取赛跑的起跑时刻前后起的规定长度的时间内的场景。
在该情况下,若用户指定赛跑的场景中的起跑时刻附近的时刻,则兴趣区间提取装置提取包含指定时刻的一部分区间,作为兴趣区间候选。
此外,在本实施方式的兴趣区间提取装置中,在想要作为兴趣区间来提取的区间的起点部分中包含有发声的开始时刻等微细的时间构造的情况(图1的起点附近的语音)下,仅对其必要部分的下部构造进行解析,能够精密地提取特征区间(参照图1的起点附近的语音的放大部分的语音的起点部分)。另外,在本实施方式中,以第一单位区间的100倍的第二单位区间(1sec)为标准单位来提取兴趣区间。以第二单位区间来提取兴趣区间,在判定为在该标准单位的时间中包含有微细构造的情况下,仅在该部分中以第一单位区间的10倍长度的第三单位区间(100ms)为作为下部构造进行解析的单位,对下部构造进行解析,进行精密地决定起点或终端的处理。换句话说,兴趣区间提取装置以第二单位区间粗略地提取了兴趣区间的候选之后,以更微细的第三单位区间严密地决定兴趣区间。
另外,在本说明书中,在表示声音整体的情况下记作声音,在表示人的声音的情况下记作语音。
<2>数据
对本实施方式的兴趣区间提取装置中使用的各种数据进行说明。
<2-1>动态图像文件
动态图像文件由音频信号和在时间轴方向上连续的多个图像数据构成。在此,音频信号是作为数字信号(或者从模拟信号变换成数字信号)而记录了声音的振幅值的时间序列数据,如果将该振幅值沿着时间轴排列,则例如能够由图2(a)所示那样的波形来表现。
<2-2>特征量向量
特征量向量是将单位时间量的音频信号变换成梅尔频率倒频谱系列的向量而得到的。
具体说明,设音频信号由图2(a)所示那样的波形来表示。在本实施方式中,对音频信号中的每个第一单位区间计算特征量向量。在此,第一单位区间为图2(a)中的时刻Tn至Tn+1的区间,具体地说,作为一例而设为10msec。
在计算特征量向量时,首先,将该第一单位区间的音频信号变换为功率谱S(ω)(参照图2(b))。功率谱是将规定单位区间(在此为第一单位区间)的振幅值(功率)变换为频率成分而得到的。图2(b)所示的功率谱S(ω)的横轴为实际频率。
然后,将功率谱S(ω)的横轴从实际频率ω变换为梅尔频率(参照图2(c))。
根据将横轴变换成梅尔频率的功率谱,计算由26个梅尔频率倒频谱系数MFCC(Mel-Frequency Cepstrum Coefficients)构成的向量、即特征量向量。
如上述那样,特征量向量M对每个第一单位区间(每10msec)计算,因此如图3所示,在从时刻0sec到时刻1sec的期间,共计算出100个特征量向量。另外,在图3中,M(1)~M(26)表示26次的梅尔频率倒频谱系数。
<2-3>锚模型
本实施方式的锚模型表示在计算似然度时成为基准的1024种音素各自的特征。锚模型按每种音素分别制作,各锚模型由多个参数构成。
在本实施方式中,采用GMM(Gaussian Mixture Model)来制作锚模型Ar(r=1~1024)。
使用图4来说明锚模型。如图4所示,锚模型通过与1024种音素分别对应的特征量出现概率函数bAr(M)来表示。特征量出现概率函数bAr(M)是表示各锚模型Ar存在的概率的概率函数。通过使用特征量出现概率函数bAr(M),将MFCC的26次的向量(特征量向量)M作为自变量来计算似然度。另外,在图4中,哪个锚模型对应于哪种音素未明确示出。
<2-4>似然度向量
似然度向量F以使用与多个音素分别对应的锚模型Ar(r=1~1024)对表现音频信号的特征量的特征量向量M计算出的似然度Lr为成分。因此,似然度向量F以1024维的向量来表现。另外,特征量向量M如上述<2-3>项所说明的那样,按照声音提取装置102提取的音频信号的每个第一单位区间来生成。
图5示出了似然度向量的例子。图5表示使用1024种音素各自的锚模型Ar计算出的似然度向量Fm及Fn。图5的右侧为似然度向量Fm,左侧为似然度向量Fn。在图5中,纵轴示出了相对于音频信号的锚模型的似然度,横轴示出了锚模型Ar的种类。似然度向量Fn是与从时刻0(基准时刻)起的第n个第一单位区间(即从时刻(10×(n-1))msec到时刻(10×n)msec的区间)对应的似然度向量(例如参照图2(a))。同样,似然度向量Fm是与从时刻0(基准时刻)起的第m个第一单位区间(即从时刻(10×(m-1))msec到时刻(10×m)msec的区间)对应的似然度向量。
似然度向量F如图5的似然度向量Fm及Fn的差异所示那样,随着作为对象的音频信号的时间变化而变化。另外,在音频信号没有变化的情况下,即使时间变化,似然度向量也不变化。
<3>构成
以下,对搭载有本实施方式的兴趣区间提取装置104的影像编辑装置100的功能结构进行说明。
<3-1>整体结构
图6是表示影像编辑装置100的功能结构例的框图。如图6所示,影像编辑装置100具备:输入装置101、声音提取装置102、内容存储装置103、兴趣区间提取装置104、兴趣区间存储装置105、输出装置106、锚模型制作装置108、接口装置109、声音数据存储装置130。
输入装置101由盘驱动器装置等构成,具备在安装有记录介质110时从记录介质110读入动态图像文件并保存在内容存储装置103中的功能。另外,记录介质110是具有存储各种数据的功能的介质,例如为光盘、软盘、SD卡、闪存器等。
声音提取装置102具有如下功能:取得内容存储装置103所保存的动态图像文件,从所取得的动态图像文件提取音频信号,并将音频信号输入至兴趣区间提取装置104。另外,声音提取装置102对编码后的音频信号进行解码处理,生成图2(a)所示的音频信号。
内容存储装置103由硬盘装置等构成,具有存储从输入装置110取得的动态图像文件的功能。
兴趣区间提取装置104具有如下功能:基于从接口装置109取得的指定时刻和从声音提取装置102输入的音频信号,从内容存储装置103所保存的动态图像文件中提取兴趣区间,并将表示所提取的兴趣区间的兴趣区间数据保存在兴趣区间存储装置105中。关于兴趣区间提取装置104的详细情况留待后述。
兴趣区间存储装置105由硬盘装置等构成,具有存储从兴趣区间提取装置104取得的兴趣区间数据的功能。兴趣区间数据包括:用于确定内容存储装置103所保存的动态图像文件的信息(动态图像文件的ID)、以及表示动态图像文件的再生时间轴上的时间(时间段)的信息。
声音数据存储装置130由硬盘装置等构成,具有存储当锚模型制作装置108制作表现多种音素各自的特征的锚模型Ar时使用的声音数据的功能。该声音数据由从与作为提取兴趣区间的对象的动态图像文件不同的多个动态图像文件提取并进行解码处理而得到的音频信号构成。另外,声音数据也可以包含作为提取兴趣区间的对象的动态图像文件的音频信号。
输出装置106具有向显示装置120输入影像数据并使其显示影像的功能。此外,输出装置106还具有如下功能:从兴趣区间存储装置105取得兴趣区间数据,基于所取得的兴趣区间数据,从内容存储装置103中选出构成动态图像内容的一部分的多个图像数据,使显示装置120显示将所选出的多个图像数据连结而成的摘要动态图像。另外,显示装置120是具有显示影像的功能的显示器,可以是影像编辑装置100附带的显示器,也可 以是外部的显示器。
锚模型制作装置108具有根据声音数据存储装置130所存储的声音数据来制作锚模型Ar的功能。此外,锚模型制作装置108具有将制作的锚模型Ar向兴趣区间提取装置104输出的功能。关于锚模型制作装置108的详细情况留待后述。
接口装置109具备键盘等操作部(未图示),具有接受来自用户的输入操作并将输入的信息传输给影像编辑装置100的各部的功能。在本实施方式中,接口装置109将从用户接受的指定时刻的信息和与兴趣区间的长度有关的信息通知给兴趣区间提取装置104,将应该制作的锚模型的个数通知给锚模型制作装置108。
<3-2>兴趣区间提取装置104
以下,说明兴趣区间提取装置104的详细情况。兴趣区间提取装置104由处理器(未图示)和存储器(未图示)构成,通过由处理器执行被读入至存储器的程序,实现图7所示的各结构。
图7是表示兴趣区间提取装置104的功能结构例的框图。如图7所示,兴趣区间提取装置104具备:特征量向量生成部201、似然度向量生成部202、锚模型储存部203、似然度向量缓冲器204、频次向量/方差生成部205、频次向量缓冲器206、兴趣区间候选提取部207、区间伸长基准指标计算部208、指定时刻取得部209、微细构造判定部210、层级扩展部211。以下说明各结构。
<3-2-1>特征量向量生成部201
特征量向量生成部201具有根据所输入的音频信号来生成特征量向量的功能。特征量向量生成部201如上述<2-2>所示,对于从声音提取装置102输入的音频信号,按照每个第一单位区间进行音响分析,计算功率谱S(ω)。并且,特征量向量生成部201根据计算出的功率谱S(ω),生成特征量向量M(M(1)、M(2)、…、M(25)、M(26))。特征量向量生成部201如图3所示,每1秒生成100个特征量向量。
<3-2-2>锚模型储存部203
锚模型储存部203由硬盘装置等来实现,具有存储由锚模型制作装置108制作的锚模型Ar的功能。在执行兴趣区间提取处理之前,该锚模型Ar 被存储在锚模型储存部203中。
<3-2-3>似然度向量生成部202
似然度向量生成部202具有如下功能:使用锚模型储存部203所储存的各音素的锚模型Ar,来计算相对于特征量向量M的似然度Lr,生成以计算出的似然度Lr为各成分的似然度向量F。并且,似然度向量生成部202还具有将生成的似然度向量F保存在似然度向量缓冲器204中的功能。
<3-2-4>似然度向量缓冲器204
似然度向量缓冲器204由存储器的一部分区域构成,具有存储由似然度向量生成部202生成的似然度向量F的功能。
<3-2-5>频次向量/方差生成部205
频次向量/方差生成部205具有按照音频信号的每个第二单位区间(每1sec)生成频次向量NF的功能。如图8所示,第二单位区间相当于多个(在本实施方式中,如上述那样为100个)连续的第一单位区间的集合。频次向量NF相当于第二单位区间所包含的似然度向量的标准化累积似然度。具体地说,频次向量/方差生成部205针对第二单位区间所包含的全部似然度向量的各成分,按照每个成分将该成分的值累积(相加)。并且,将累积得到的各成分标准化,从而计算频次向量。另外,在此标准化是指,使频次向量的范数(norm)为1。图9是表示频次向量NF的一例的示意图。
频次向量/方差生成部205根据来自兴趣区间候选提取部207的指示,使频次向量NF的生成开始/结束。
此外,频次向量/方差生成部205通过与第二单位区间所进行的计算同样的步骤,计算以第三单位区间(100msec)为单位计算的第三单位区间频次向量,使用得到的10个第三单位区间频次向量,计算各第二单位区间中方差。
另外,方差σ通过以下的数式(1)来计算。
[数1]
在上式中,n是第三单位区间频次向量的个数,在此取10。此外,Xi是各第三单位区间频次向量。并且,C是这些第三单位区间频次向量的向量 重心,通过以下的数式(2)来计算。
[数2]
<3-2-6>频次向量缓冲器206
频次向量缓冲器206具有将频次向量/方差生成部205生成的频次向量与表示计算对象的第二单位区间的信息建立对应地存储的功能。
<3-2-7>指定时刻取得部209
指定时刻取得部209具有如下功能:从接口装置109取得与指定时刻有关的指定时刻信息,将该指定时刻信息传输给区间伸长基准指标计算部208和兴趣区间候选提取部207。
<3-2-8>区间伸长基准指标计算部208
区间伸长基准指标计算部208具有如下功能:从指定时刻取得单元210接受指定时刻信息,计算基准向量NF0、阈值Rth及最大方差值σmax,该基准向量NF0、阈值Rth及最大方差值σmax是用于决定是否将位于包含指定时刻的第二单位区间的时间轴前方或时间轴后方的第二单位区间包含在兴趣区间候选中的基准指标。此外,区间伸长基准指标计算部208还具有将计算出的基准向量NF0、阈值Rth及最大方差值σmax传输给兴趣区间提取部207的功能。
具体地说,区间伸长基准指标计算部208从频次向量缓冲器206取得与包含指定时刻的第二单位区间对应的频次向量NF。此外,区间伸长基准指标计算部208还从频次向量缓冲器206取得与包含指定时刻的第二单位区间相连续的多个第二单位区间的频次向量NF。在图10的例子中,将与包含指定时刻的第二单位区间相连续的多个第二单位区间设为包含指定时刻的第二单位区间的前后4个第二单位区间。区间伸长基准指标计算部208通过求出所取得的9个频次向量(NF1~NF9)的平均值,来计算基准向量NF0。换句话说,区间伸长基准指标计算部208按照每个锚模型对构成频次向量的各标准化累积似然度进行合计,生成以将合计后的值除以所使用的频次向量的个数(9个)而得到的值为成分的基准向量NF。
区间伸长基准指标计算部208还计算在生成基准向量NF0时使用的多
个频次向量NF1~NF9与基准向量NF0之间的欧氏距离,计算与基准向量NF0之间的距离最远的频次向量NF和基准向量NF0之间的欧氏距离,作为用于判断是否属于兴趣区间候选的阈值Rth。
并且,区间伸长基准指标计算部208还在由频次向量/方差生成部205计算出的与基准区间中的各第二单位区间对应的方差的值中,将最大的值决定为最大方差值σmax。
图11是使用频次向量空间的概念来表示基准向量NF0、各频次向量NF、以及阈值Rth的概念图。在图11中,小○分别表示在基准向量NF0的计算中使用的频次向量NF(对应于图10所示的基准区间内的各频次向量NF1~NF9)。此外,圆状的斜线部分的中心是基准向量NF0。如果在该斜线部分内存在其他第二单位区间的频次向量,则该第二单位区间是兴趣区间候选所包含的第二单位区间。
然后,区间伸长基准指标计算部208将生成的基准向量NF0、阈值Rth及最大方差值σmax传输给兴趣区间候选提取部207。
<3-2-9>兴趣区间候选提取部207
兴趣区间候选提取部207具有如下功能:基于频次向量缓冲器206所存储的频次缓冲器、从指定时刻取得部209接受的指定时刻、以及从区间伸长基准指标计算部208接受的基准向量NF0及阈值Rth,提取成为兴趣区间的候选的兴趣区间候选。
在图12(a)的例子中,频次向量NF与基准向量NF0之间的欧氏距离超过从区间伸长基准指标计算部208输入的阈值Rth的时刻T3和T4各自的紧挨着(基准区间侧)的2个时刻T1、T2之间的区间,相当于兴趣区间候选。在图12(a)的例子中,时刻T3的频次向量与时刻T1的频次向量、或者时刻T4的频次向量与时刻T2的频次向量显然不同,因此,示出了时刻T3、T4的频次向量与基准向量之间的欧氏距离超过阈值Rth的例子。
图12(b)示出了频次向量空间的阈值Rth与欧氏距离之间的关系。兴趣区间候选的频次向量NF存在于以图12(b)所示的频次向量空间的基准向量NF0为中心的半径Rth的球的内侧。
兴趣区间候选提取部207如图13所示,一边从指定时刻T0回溯时刻,一边计算对象时刻的频次向量NF与基准向量NF0之间的欧氏距离,判定所 计算的欧氏距离是否超过阈值Rth(即,包含对象时刻的第二单位区间是否不再包含在兴趣区间候选中)。同样,在图13中虽未示出,但兴趣区间候选提取部207沿时间轴顺方向也执行同样的处理,判定包含对象时刻的第二单位区间是否包含在兴趣区间候选中。
兴趣区间候选提取部207在计算出的欧氏距离超过阈值(Rth)时,对频次向量/方差生成部205通知频次向量制作结束指示。
具体说明,兴趣区间候选提取部207取得当前时刻的兴趣区间候选(称作临时兴趣区间候选)在时间轴方向上的前1个第二单位区间的频次向量,判定所取得的频次向量NF与基准向量NF0之间的欧氏距离是否超过阈值Rth。在为阈值Rth以下的情况下,将该第二单位区间包含在临时兴趣区间候选中,反复判定新的临时兴趣区间候选的前1个第二单位区间是否被包含在新的临时兴趣区间候选中。在超过阈值Rth的情况下,将当前的临时兴趣区间候选的起点作为兴趣区间候选的起点。另外,在最初的时刻,基准区间成为临时兴趣区间候选。
同样,兴趣区间候选提取部207取得临时兴趣区间候选在时间轴方向上的后1个第二单位区间的频次向量,判定所取得的频次向量NF与基准向量NF0之间的距离是否超过阈值Rth。在为阈值Rth以下的情况下,将该第二单位区间包含在临时兴趣区间候选中,反复判定新的临时兴趣区间候选的后1个第二单位区间是否被包含在临时兴趣区间候选中。超过阈值Rth的情况下,将当前的临时兴趣区间候选的终点作为兴趣区间候选的终点。
并且,兴趣区间候选提取部207将这样提取的兴趣区间候选传输给微细构造判定部210。
另外,兴趣区间候选提取部207在临时兴趣区间候选的伸长时,对判定对象的第二单位区间是否被包含在临时兴趣区间候选中进行判定,并且还判断该对象时刻与指定时刻T0之间的长度是否比预先设定的兴趣区间的长度le短。并且,若判断为欧氏距离不超过阈值Rth(包含在兴趣区间候选中)且对象时刻与指定时刻T0之间的长度比预先设定的兴趣区间的长度le短(即,具备兴趣区间的条件),则包含对象时刻的第二单位区间的集合成为兴趣区间候选。另外,在比兴趣区间的长度le长的情况下,兴趣区间候选提取部207将该时刻的临时兴趣区间候选作为兴趣区间候选。
<3-2-10>微细构造判定部210
微细构造判定部210具有如下的功能:判定在由兴趣区间候选提取部207得到的兴趣区间候选的最初的第二单位区间(以下称作起点候选Stc)和最后的第二单位区间(以下称作终点候选Etc)中是否具有微细构造。此外,微细构造判定部210具有如下的功能:在判定为在起点候选中没有微细构造的情况下,判定在兴趣区间候选的前1个第二单位区间中是否具有微细构造;在判定为在终点候选中没有微细构造的情况下,判定在兴趣区间候选的后1个第二单位区间中是否具有微细构造。并且,微细构造判定部210具有将微细构造的有无的判定结果(包括在有微细构造时在哪个第二单位区间中存在微细构造的信息)传输给层级扩展部211的功能。
具体地说,微细构造判定部210将从兴趣区间候选提取部207传输来的兴趣区间的起点候选Stc及终点候选Etc的方差σstc及σetc分别与最大方差值σmax进行比较。如果σstc>σmax,则微细构造判定部210判断为在起点候选Stc中具有微细构造。此外,如果σetc>σmax,则判断为终端候选Etc中具有微细构造。
此外,如果σstc≤σmax,则微细构造判定部210判定在兴趣区间候选的前1个第二单位区间中是否具有微细构造。同样,如果σetc≤σmax,则微细构造判定部210判定在兴趣区间候选的后1个第二单位区间中是否具有微细构造。
图15是微细构造判定的概念图,使用该图表示微细构造判定的一具体例。在图15中,从上段起依次为:(a)音频信号所包含的声音的波形例,(b)各个第二单位区间的方差值例,(c)各个第二单位区间的频次向量例,(d)第二单位区间,(e)起点候选及终点候选的放大后的声音的波形例,(f)第三单位区间的频次向量例,(g)第三单位区间。σmax已由区间伸长基准指标计算部208计算出来,在此设为σmax=0.1。如图12(b)的方差所示那样,起点候选Stc的方差σstc为0.25,大于σmax,因此判定为具有微细构造。此外,终端Etc的方差σetc为0.03,小于σmax,因此判定为没有微细构造。此外,图15的(e)~(g)示意地表现了比第二单位区间短的单位区间、即各第三单位区间的频次向量的状态。在起点候选Stc中,在下部层级中存在微细的时间构造(在不同的第三单位区间之间具有 特征相互不同的频次向量的构造),因此方差的值较大。
在图12的例子中,确认到了终端候选Etc的第二单位区间所包含的各第三单位区间的缓慢的变化,但不包含微细的时间构造,因此方差较小(0.03)。另外,在图15中虽然没有示出,在该情况下,微细构造判定部211判定在终点候选Etc的紧之后、即兴趣区间候选的后1个第二单位区间中是否具有微细构造,也就是说方差是否超过最大方差值。
<3-2-11>层级扩展部211
层级扩展部211具有如下功能:在由微细构造判定部211判定为具有微细构造的情况下,将被判定为具有微细构造的第二单位区间作为下部层级,分割成比第一单位区间更细微的单位的第三单位区间(层级扩展),决定兴趣区间的真正的起点及终点,将表示基于该决定的兴趣区间的兴趣区间数据记录在兴趣区间存储装置105中。在判定为在起点部分(起点候选Stc或者起点候选Stc的前1个第二单位区间)中没有微细构造的情况下,兴趣区间候选的起点成为兴趣区间的起点,在判定为在终点部分(终点候选Etc或者终点候选Etc的后1个第二单位区间)中没有微细构造的情况下,兴趣区间候选的终点成为兴趣区间的终点。
具体地说,层级扩展部211将被判定为具有微细构造的第二单位区间分割为第三单位区间,计算各个第三单位区间频次向量。层级扩展部211使用该第三单位区间频次向量,根据基准区间侧的第三单位区间频次向量,判定该第三单位区间频次向量与基准向量NF0之间的欧氏距离是否超过阈值Rth。并且,将与被判定为超过阈值Rth的时刻对应的第三单位区间的前1个第三单位区间的起点或者终点作为兴趣区间的真正的起点或者终点,决定兴趣区间。
使用图15来说明层级扩展。将由微细构造判定部210判定为具有微细构造的起点候选Stc的第二单位区间分割为第三单位区间,利用与第二单位区间中求取的方法同样的方法,计算第三单位区间的频次向量。对于计算出的第三单位区间的频次向量,根据基准区间侧的第三单位区间,通过其频次向量的欧氏距离是否超过阈值Rth,来将临时兴趣区间候选伸长,在超过阈值Rth时,设为真正的起点或者终点。在图15中,如(e)及(f)所示,判定为在后数第6个第三单位区间超过了阈值,能够正确地检测出 以到后数第5个为止的第三单位区间为兴趣区间的兴趣区间的起点。
<3-3>锚模型制作装置108
使用图14来说明锚模型制作装置108。图14是表示锚模型制作装置108的功能结构及周边设备的功能框图。锚模型制作装置108具有如下功能:基于声音数据存储装置130所存储的声音数据来制作锚模型,将制作的锚模型记录在锚模型储存部204中。
如图14所示,锚模型制作装置108具备特征量向量生成部301、特征量向量分类部302、锚模型生成部303。
锚模型制作装置108由存储器(未图示)和处理器(未图示)构成,通过由处理器执行被读入至存储器的程序,实现图18所示的各结构。即,锚模型制作装置108如图18所示,实现特征量向量生成部301、特征量向量分类部302和锚模型生成部303。
<3-3-1>特征量向量生成部301
特征量向量生成部301与<3-2-1>中说明的特征量向量生成部201同样,具有如下功能:将从声音数据存储装置130取得的声音数据分割为第一单位区间,按照每个第一单位区间进行音响分析,计算功率谱S(ω),从计算出的功率谱S(ω)变换为梅尔倒频谱,生成特征量向量M。特征量向量生成部301还具有将生成的特征量向量M传输给特征量向量分类部302的功能。
<3-3-2>特征量向量分类部302
特征量向量分类部302具有对特征量向量生成部301生成的特征量向量进行分类(classing)的功能。
特征量向量分类部302基于从接口装置109输入的锚模型Ar的个数K,利用K-means法将多个特征量向量M分离成K个类别,并计算表示各类别的代表性的特征量向量(以下称作类别特征量向量)。该各类别与各锚模型Ar对应。另外,在本实施方式中,K=1024。
<3-3-3>锚模型生成部303
锚模型生成部303具有基于各类别的类别特征量向量来计算与各锚模型Ar对应的特征量出现概率函数bAr(M)的功能。并且,具有将由计算出的特征量出现概率函数表现的各锚模型Ar储存在锚模型储存部203中的功 能。
<动作>
以下,参照图16所示的流程图及图7所示的功能框图来说明本实施方式的兴趣区间提取装置的动作。
首先,声音提取装置102从内容记录装置103提取用户指定的动态图像文件所包含的音频信号(箭头P1),并输入至特征量向量生成部201(箭头P2)。
接下来,特征量向量生成部201根据所输入的音频信号,生成特征量向量,并输入至似然度向量生成部202(箭头P3)。
接着,似然度向量生成部202根据所输入的特征量向量和从锚模型储存部203取得的(箭头P4)锚模型Ar,按照每个第一单位区间生成似然度向量F,并与表示作为计算对象的第一单位区间的时间信息建立对应地保存在似然度向量缓冲器204中(箭头P5,步骤S1601)。
而且,频次向量/方差生成部205取得似然度向量缓冲器204所保存的多个似然度向量F(第二单位区间量的似然度向量)(箭头P6),生成频次向量NF。并且,频次向量/方差生成部205将所生成的频次向量NF保存在频次向量缓冲器206中(箭头P7,步骤S1602)。从兴趣区间候选提取部207通知了频次向量生成结束指示时,该处理结束,通知了频次向量生成开始指示时,该处理再次开始(箭头P9)。
另一方面,区间伸长基准指标计算部208从频次向量缓冲器206取得包含与指定时刻对应的频次向量NF的多个频次向量NF(箭头P11),并且从指定时刻取得部209取得指定时刻的信息(箭头P12),计算基准向量NF0、阈值Rth及最大方差值σmax。然后,区间伸长基准指标计算部208将生成的基准向量NF0、阈值Rth及最大方差值σmax输入至兴趣区间候选提取部207(箭头P13)。
兴趣区间候选提取部207使用从频次向量缓冲器206取得的(箭头P8)频次向量NF、从区间伸长基准指标计算部208输入的(箭头P13)基准向量NF0及阈值Rth及最大方差值σmax、从指定时刻取得部209输入的(箭头P15)指定时刻的信息,判断包含对象时刻的第二单位区间是否属于临时兴趣区间候选。此时,兴趣区间候选提取部207一边使时刻从指定时刻T0 起每次错移第二单位区间,一边判断对象时刻与指定时刻T0之间的长度是否比预先设定的兴趣区间的长度le短,若判断为对象时刻与指定时刻T0之间的长度比预先设定的兴趣区间的长度le短,则将包含对象时刻的第二单位区间作为兴趣区间候选,并输入至微细构造判定部210中(箭头P16,步骤S1603)。
微细构造判定部210判定从兴趣区间候选提取部207输入的起点候选Stc的方差σstc是否超过从区间伸长基准指标计算部208得到的最大方差σmax(步骤S1604)。
如果起点候选Stc的方差满足σstc>σmax(步骤S1604:是),则微细构造判定部210将起点候选Stc中具有微细构造的意思传输给层级扩展部211(箭头P17)。然后,层级扩展部211接受该意思,将起点候选Stc分割为第三单位区间(100msec),计算各自的频次向量,决定兴趣区间的真正的起点(步骤S1605)。
另一方面,如果起点候选Stc的方差不满足σstc>σmax(步骤S1604:否),则微细构造判定部210判定在起点候选Stc的前1个第二单位区间(兴趣区间候选的前1个第二单位区间)中是否具有微细构造(步骤S1606)。
如果起点候选Stc的前1个第二单位区间的方差超过σmax(步骤S1606:是),则微细构造判定部210将起点候选Stc的前1个第二单位区间中具有微细构造的意思传输给层级扩展部211(箭头P17)。然后,层级扩展部211接受该意思,将起点候选Stc的前1个第二单位区间分割为第三单位区间(100msec),计算各自的频次向量,决定兴趣区间的真正的起点(步骤S1605)。
另一方面,如果起点候选Stc的前1个第二单位区间的方差不超过σmax(步骤S1606:否),则将兴趣区间候选的起点部分中没有微细构造的意思传输给层级扩展部211(箭头P17)。然后,层级扩展部211接受该意思,将兴趣区间候选的起点决定为兴趣区间的起点(步骤S1608)。
关于微细构造的有无的判定等,兴趣区间提取装置在兴趣区间候选的终点侧也执行同样的处理。
微细构造判定部210判定从兴趣区间候选提取部207输入的终点候选Etc的方差σetc是否超过从区间伸长基准指标计算部208得到的最大方差 σmax(步骤S1609)。
如果终点候选Etc的方差满足σetc>σmax(步骤S1609:是),则微细构造判定部210将终点候选Etc中具有微细构造的意思传输给层级扩展部211(箭头P17)。然后,层级扩展部211接受该意思,将终点候选Etc分割为第三单位区间(100msec),计算各自的频次向量,决定兴趣区间的真正的终点(步骤S1610)。
另一方面,如果终点候选Etc的方差不满足σetc>σmax(步骤S1609:否),则微细构造判定部210判定终点候选Etc的前1个第二单位区间(兴趣区间候选的前1个第二单位区间)是否具有微细构造(步骤S1611)。
如果终点候选Etc的前1个第二单位区间的方差超过σmax(步骤S1611:是),则微细构造判定部210将终点候选Etc的后1个第二单位区间中具有微细构造的意思传输给层级扩展部211(箭头P21)。然后,层级扩展部211接受该意思,将终点候选Etc的前1个第二单位区间分割为第三单位区间(100msec),计算各自的频次向量,决定兴趣区间的真正的起点(步骤S1612)。
另一方面,如果终点候选Etc的后1个第二单位区间的方差不超过σmax(步骤S1611:否),则将兴趣区间候选的终点部分中不具有微细构造的意思传输给层级扩展部211(箭头P17)。然后,层级扩展部211接受该意思,将兴趣区间候选的终点决定为兴趣区间的终点(步骤S1613)。
然后,层级扩展部211将表示基于所决定的起点及终点的兴趣区间的兴趣区间数据记录在兴趣区间存储装置105中(箭头P18),兴趣区间提取装置结束与1个指定时刻对应的兴趣区间的提取。
<总结>
如上述那样,兴趣区间提取装置在提取了成为兴趣区间的候选的兴趣区间候选之后,对该兴趣区间候选的起点部分和终点部分,通过比为了决定兴趣区间的候选而使用的时间单位(第二单位区间)更细微的时间单位(第三单位区间)来决定兴趣区间的起点和终点,由此,与仅使用第二单位区间来提取兴趣区间相比,能够进行更适当的兴趣区间的提取。此外,在决定兴趣区间时,通过计算起点部分和终点部分的方差,来判定微细构造的有无,仅在具有微细构造的情况下,决定第三单位区间的兴趣区间的起 点和终点,因此,在不需要决定第三单位区间的兴趣区间的起点和终点的情况下,不进行该运算,因此能够减少运算量。
<变形例>
根据上述实施方式说明了本发明的兴趣区间提取装置,但本发明不限于此。以下,说明作为本发明的思想而包含的各种变形例。
(1)在上述实施方式中,微细构造判定部210判定在起点候选及其前1个第二单位区间、终点候选及其后1个第二单位区间中是否具有微细构造。但是,微细构造判定部210进行是否具有微细构造的判定的对象不限于这4个第二单位区间,也可以在兴趣区间候选的整个区域内进行判定。
通过判定在兴趣区间的中途是否具有微细构造,例如能够在该兴趣区间中的动态图像中确定看起来气氛最高涨的场景等。
(2)在上述实施方式中虽然没有特别记载,但是兴趣区间提取装置也可以使用以下所示的方法来进行兴趣区间的提取。
例如,也可以是,兴趣区间候选提取部207进行音频信号中是否包含有语音的判定,来提取兴趣区间。
第二单位区间的音频信号中是否包含有语音,例如在锚模型中预先设定表示语音的特定的锚模型,根据相对于该锚模型的似然度是否超过预先设定的阈值(例如0.8等)来进行判定。
此时,也可以是,层级扩展部211在判定为音频信号是语音的情况下,不判定第三单位区间的似然度向量相对于基准向量NF0是否位于阈值Rth内,而是判断第一单位区间的似然度向量相对于基准向量NF0是否位于阈值Rth内,然后对第二单位区间进行兴趣区间的提取。在包含有语音的情况下,通过进行更精细的解析,能够更严密地决定兴趣区间的起点终点。
(3)在上述实施方式中,第二单位区间及第三单位区间的频次向量是以各个区间所包含的似然度向量的各成分的标准化累积似然度为成分的向量。但是,频次向量只要能够表示该区间中的音频信号的特征即可,特别是只要能够确定频繁出现的声音的成分即可,也可以是以标准化累积似然度以外为成分的向量。例如,也可以是,对单位区间所包含的似然度向量的各成分进行累积,并将仅与累积似然度较高的上位k个(k为多个,例如10个)锚模型对应的累积似然度标准化后的向量。或者,频次向量也可以 不对所累积的值进行标准化,而是以直接累积的似然度为成分的向量。
(4)兴趣区间候选提取部207判断从指定时刻至对象时刻的时间的长度是否在规定的长度以内,但这只是为了避免兴趣区间成为规定的长度以上的措施,在可以不限定兴趣区间的长度的情况下,也可以省略该判断处理。
(5)在上述实施方式中,是否具有微细构造是基于方差是否超过规定的阈值来判定的。但是,是否具有微细构造,只要能够判定在第二单位区间内是否具有多种声音即可,可以使用除此之外的方式进行计算。
例如,也可以是,在第二单位区间内,选择任意2个似然度向量,根据该2个似然度向量间的距离是否离开规定阈值以上,来进行判定。
此时,若对全部的任意2个似然度向量进行距离的判定,则运算量很大,所以并不是必须对全部的任意2个似然度向量进行距离的判定。例如,对于一个第二单位区间是否具有微细构造,计算从该第二单位区间的两端朝向内侧依次连续的2个第一单位区间的似然度向量间的距离。然后,根据似然度向量间的距离的推移,来判定是否具有微细构造即可。例如,在第二单位区间内,如果呈现出似然度向量间的欧氏距离逐渐变长、在相距一定以上后再次变短这样的推移,则判定为具有微细构造。在该方法的情况下,在设第一单位区间为10mec、第二单位区间为1s时,似然度向量间的距离的计算进行50次即可。
(6)在上述实施方式中,图16所示的步骤S1604~S1608的处理和步骤S1609~S1613的处理的执行定时也可以相反,此外,这些处理也可以同时并行地进行。
(7)在上述实施方式中,虽然没有特别记载,但也可以是,经由接口装置109从用户接受多个指定时刻,提取包含各指定时刻的多个兴趣区间。
此外,影像编辑装置也可以具备如下功能:兴趣区间提取装置将提取的多个兴趣区间按照其再生顺序或者AV内容被录制的顺序,记录在该影像编辑装置所具备的记录装置或外部的记录介质中。此外,此时与各兴趣区间对应的AV内容也可以是从多个文件提取的。此外,在记录与该多个兴趣区间对应的多个数据时,也可以记录为将该多个数据按照与其对应的指定时刻的顺序统合成1个文件而成的摘要影像。此时,在相邻的兴趣区间彼 此有重复的部分的情况下,在摘要影像中以该重复部分不被反复的方式进行统合。
此外,也可以是,层级扩展部211具备同等功能,按照上述方法,将提取的多个兴趣区间记录在兴趣区间存储装置105中。
(8)上述实施方式所示的声音数据存储装置130中存储的声音数据也可以被适当地追加新的声音数据,此外,也可以存储内容存储装置103所存储的动态图像文件的声音数据。
并且,也可以是,伴随着新的声音数据的追加,锚模型制作装置108执着新的锚模型。
(9)此外,在上述实施方式中,说明了根据预先储存在声音数据存储装置130中的声音数据来自动地制作多种音素各自的锚模型Ar(所谓无教师地制作锚模型)例子,但是锚模型制作方法不限于此。例如,在音素的种类被限定为少量(例如几十种)的情况下,也可以是,对于声音数据存储装置130所储存的声音数据,由用户选择与各音素分别对应的声音数据,并分别赋予种类标签,根据种类标签相同的声音数据,制作对应的音素的锚模型(所谓有教师地制作锚模型Ar)。
(10)在上述实施方式中,在兴趣区间候选提取部207判断为欧氏距离不超过阈值Rth(包含在兴趣区间候选中)且对象时刻与指定时刻T0之间的长度比预先设定的兴趣区间的长度le短(即具备兴趣区间的条件)时,使包含对象时刻且作为起点候选Stc及终点候选Etc的第二单位区间成为兴趣区间候选。这是用于防止兴趣区间的长度成为一定以上长度的措施,如果不需要使兴趣区间的长度为一定以下,则也可以不进行该判断(与预先设定的兴趣区间的长度le的比较处理)。
此外,在上述实施方式中,未详细地记载临时兴趣区间候选比le长时的处理,该处理例如如以下那样构成。
例如可以是,采用兴趣区间候选提取部207将临时兴趣区间候选向时间轴逆方向伸长、然后向时间轴顺方向伸长的结构,将临时兴趣区间候选的长度超过le的时刻的临时兴趣区间候选决定为兴趣区间候选。另外,伸长的顺序也可以是时间轴顺方向先于时间轴逆方向进行。
或者,也可以采用兴趣区间候选提取部207将临时兴趣区间候选以第 二单位区间单位向时间轴逆方向和时间轴顺方向交替地伸长的结构。在进行该伸长时,也可以不以第二单位区间单位交替地伸长,而采用每隔一定数量的(例如每5个)第二单位区间交替地伸长的方法。
(11)在上述实施方式中,兴趣区间候选提取部207根据基准向量和与临时兴趣区间候选邻接的第二单位区间的频次向量间之间的欧氏距离是否超过Rth,来判定是否将该第二单位区间包含在临时兴趣区间候选中。但是,只要能够判定基准向量与第二单位区间的频次向量是否一定程度以上相似即可,并不是必须使用欧氏距离。
例如,也可以构成为,根据基准向量、第二单位区间的频次向量、锚模型的概率分布,将基准向量、频次向量视为混合分布的权重,计算表现各自的特征的、基准混合分布和当前成为比较对象的第二单位区间的混合分布,将2个混合分布的两方向的KL信息量(Kullback-Leibler divergence,俗称KL距离)作为距离来利用,从而提取兴趣区间候选。此时,阈值Rth也使用KL信息量,根据9个第二单位区间预先计算。
另外,KL信息量在概率论或信息理论中作为实现2个概率分布的差异的尺度是已知的,本发明的频次向量与基准向量之间的KL距离能够如以下那样计算。
首先,将一个一个的锚模型的概率函数bAr(M)表现为高斯分布gAr。
接着,作为将区间伸长的单位的第二单位区间的特征量能够由全部个数(1024个)的锚模型和第二单位区间的频次向量构成一个混合分布。具体地说,通过将第二单位区间的频次向量HS(HS=(α1,…,αAr,…,α1024))当做相对于1024个锚模型Ar(Ar=(g1,…,gAr,…,g1024))的权重,由此,该第二单位区间的特征量能够由以下的式(3)给出。
[数3]
另一方面,作为基准向量的概率性特征的其他表现,也能够同样地表现。即,通过将基准向量C(C=(μ1,…,μAr,…,μ1024))当做相对于1024个锚模型Ar(Ar=(g1,…,gAr,…,g1024))的权重,由此,基准向量的概率性特征的其他表现能够由以下的式(4)给出。
[数4]
于是,使用该2个混合分布GS及GC,GS向GC的KL信息量能够由以下的式(5)给出。
[数5]
另外,上述式(5)中,EY表示期待值。
此外,GC向GS的KL信息量能够由以下的式(6)给出。
[数6]
然后,求出式(5)和式(6)的两方向的KL信息量,如以下的式(7)那样定义两个概率分布间的KL距离。
[数7]
也可以代替上述实施方式所示的欧氏距离,而使用该式(7)所示的KL距离,来判定是否将第二单位区间包含在临时基准区间候选中。此时,代替阈值Rth(阈值欧氏距离),而在基准区间所包含的多个第二单位区间的频次向量之中,使用与该多个频次向量的重心向量(基准向量)的KL距离最远的频次向量和该重心向量(基准向量)之间的KL距离(阈值KL距离)即可。
此外,除此之外,作为不使用欧氏距离的方法,例如也可以采用如下方法:进行基准向量与第二单位区间的频次向量的相关运算,如果其相关值为一定值以上(例如0.6以上),则将该第二单位区间包含在临时兴趣区间候选中。此外,在该方法的情况下,也可以构成为,不使用基准向量,而使用包含指定时刻的第二单位区间的频次向量和与该第二单位区间(或 者临时兴趣区间候选)邻接的第二单位区间的频次向量之间的相关值,来提取兴趣区间候选。
(12)在上述实施方式中,示出了指定时刻取得单元209取得基于被输入至接口装置109的用户输入的指定时刻的结构。但是,指定时刻的取得方法不限于此。
例如,也可以是,指定时刻取得部209基于动态图像文件所包含的多个图像数据各自的特征量的时间变化,自动地取得指定时刻T0。
在此,指定时刻取得部209对于动态图像文件所包含的多个图像数据,利用一般的分类方法分别计算多个偏移特征量,根据各图像数据间的规定的偏移特征量的差分来计算指定时刻T0即可。例如,可以想到,着眼于表示多个图像数据各自的背景图像的偏移特征量,将时间轴上邻接的2个图像数据间的该偏移特征量的差分较大地变化之处自动地作为指定时刻T0。此外,这时,关于从动态图像文件的哪个部分取得指定时刻T0,可以由用户来指定该部分的起点和终点的时刻。
或者,不限于图像数据,也可以将检测到特定的声音的点检测为指定时刻。例如可以是,作为特定的声音,从动态图像文件检测特定的用户的声音,将检测到该特定的用户的声音的定时作为指定时刻来取得。预先存储有表示特定的用户的声音的特征量的信息,根据是否与该特征量规定程度以上相似,从动态图像的音频信号检测用户的声音。另外,在判定为在连续的期间中有用户的声音的情况下,将该连续的期间的中点作为指定时刻,来进行兴趣区间的提取。
此外,也可以代替该特定的声音,而将检测到特定的对象的定时作为指定时刻来处理。在该情况下,预先存储表示特定的对象的图像特征量,将检测到与从动态图像文件的图像数据检测到的图像特征量之间的相关为一定程度以上的定时作为指定时刻即可。
(13)上述实施方式中的第一单位区间、第二单位区间、第三单位区间各自的时间的长度只是一例。该时间长度满足第一单位区间<第三单位区间<第二单位区间即可,也可以是上述实施方式所示的秒数以外的长度。另外,此时,第二单位区间的长度若为第一单位区间的长度与第三单位区间的长度的公倍数,则处理变得容易。
(14)在上述实施方式中,层级扩展部211计算被判定为具有微细构造的第二单位区间的第三单位区间频次向量,但也可以利用频次向量/方差生成部205在计算方差时使用的第三单位区间频次向量。
(15)在上述实施方式中,兴趣区间提取装置从输入的动态图像提取兴趣区间,但也可以不进行兴趣区间的提取,而仅进行兴趣区间的确定。
即,本发明的兴趣区间确定装置也可以采用图17所示的结构。图17所示的结构在上述实施方式的图7所示的兴趣区间提取装置104的结构的基础上还具备索引部1700。
在图17中,对于具有与图7所示结构同等功能的部分赋予相同的名称及附图标记。
层级扩展部1711具有与层级扩展部211大致同等的功能。但是,不同于层级扩展部211,不提取兴趣区间,仅确定兴趣区间。兴趣区间的确定是指,确定兴趣区间的开始时刻和结束时刻。并且,层级扩展部1711将确定出的兴趣区间的信息传输给索引部1700。
索引部1700***在层级扩展部1711和兴趣区间存储装置105之间。索引部1700基于从层级扩展部1711传输来的兴趣区间的信息,对于对应的动态图像赋予由兴趣区间的信息表示的成为兴趣区间的起点的起点标志和成为终点的终点标志。另外,在兴趣区间长度固定的情况下,仅对动态图像赋予起点标志。
由此,通过对动态图像赋予兴趣区间的起点标志和终点标志,能够在动态图像的再生时执行以该标志为基准点的冒头再生。在该方法中,还能够缩短视听对用户来说不需要的动态图像的时间。
(16)在上述实施方式中,从用户接受指定时刻,决定兴趣区间候选,判定其中是否具有微细构造,然后提取真正的兴趣区间。但是,本发明不限于此。
兴趣区间候选也可以是,对预先输入至兴趣区间提取装置的动态图像赋予兴趣区间候选的信息(开始时刻和结束时刻),对该预先指定的兴趣区间候选判定微细构造的有无,由层级扩展部211执行兴趣区间的提取。
由此,例如即使是预先进行了章节设定的动态图像,在其章节的开始点或结束点不适当的情况下,也能够容易地进行修正等。在不具备动态图 像编辑的技术的用户手动地对动态图像执行章节设定的情况下,章节的开始点、结束点等经常欠缺正确性,因此,若将这样的动态图像输入至兴趣区间提取装置,能够容易地进行该章节的修正,是有用的。
(17)用于使影像编辑设备等处理器以及与该处理器连接的各种电路执行上述的实施方式所示的通信的动作、兴趣区间提取处理等(参照图16)的由程序代码构成的控制程序,也可以记录在记录介质中,或者经由各种通信路径等流通并分发。这样的记录介质有IC卡、硬盘、光盘、软盘、ROM等。流通、分发的控制程序被保存在能够被处理器读出的存储器等中而供利用,通过由该处理器执行该控制程序,实现实施方式所示的各种功能。
(18)构成上述实施方式所示的兴趣区间提取装置的结构要素的一部分或者全部,可以作为1个或多个集成电路(IC、LSI等)安装,也可以在图像管理装置的结构要素中加入其他要素而进行集成电路化(1芯片化)。
在此采用了LSI,但是根据集成度的不同,有时也称作IC、***LSI、超级LSI、超特LSI。此外,集成电路化的方法不限于LSI,也可以通过专用电路或者通用处理器来实现。也可以在LSI制造后,利用可编程的FPGA(Field Programmable Gate Array)或能够将LSI内部的电路元件的连接或设定重新构成的可重构处理器。进而,如果由于半导体技术的进步或者派生的其他技术而出现了置换LSI的集成电路化的技术,当然也可以使用该技术来进行功能模块的集成化。生物技术的应用等也是有可能的。
<补充>
根据上述实施方式,说明了本发明的一实施方式的兴趣区间确定装置,但是本发明的实施方式不限于此。以下,说明本发明的一实施方式及其获得的效果。
(a)如图18所示,本发明的兴趣区间确定装置,基于动态图像文件所包含的音频信号,在所述动态图像文件中,确定被推测为用户表现出兴趣的用户的兴趣区间,该兴趣区间确定装置的特征在于,具备:兴趣区间候选提取单元(1801),在所述动态图像文件中,提取成为所述兴趣区间的候选的兴趣区间候选;微细构造判定单元(1802),判定所述兴趣区间候选中是否包含有特定的微细构造;以及兴趣区间确定单元(1803),在由所述微细构造判定单元判定为包含有所述微细构造的情况下,对包含所述微细构 造且比所述兴趣区间候选短的特定区间进行解析,确定兴趣区间。
图18所示的兴趣区间候选提取单元1801相当于图7及图17中的兴趣区间候选提取部207。此外,微细构造判定单元1802相当于图7及图17中的微细构造判定部210。并且,兴趣区间确定单元1803相当于图7及图17中的层级扩展部211、1711。此外,图18所示的兴趣区间确定装置也可以还包括图7所示的特征量向量生成部201、似然度向量生成部202、锚模型储存部203、似然度向量缓冲器204、频次向量/方差生成部205、频次向量缓冲器206、区间伸长基准指标计算部208以及指定时刻取得部209,这些各功能部的连接关系如图7所示。
此外,微细构造如上述实施方式所述,换言之,可以说是在比兴趣区间候选短(细微)的时间区间中声音的特征具有一定程度以上的偏差(变化)的构造。此外,换言之,微细构造的有无的判定是指,作为兴趣区间候选,虽然是具有某种程度共同的声音的特征的区间,但是其中以微细的时间单位来看时,检测到声音的特征有差别。
此外,本发明的兴趣区间确定方法,是由兴趣区间确定装置进行的兴趣区间确定方法,基于动态图像文件所包含的音频信号,在所述动态图像文件中,确定被推测为用户表现出兴趣的用户的兴趣区间,该兴趣区间确定方法的特征在于,包括以下步骤:兴趣区间候选提取步骤,在所述动态图像文件中,提取成为所述兴趣区间的候选的兴趣区间候选;微细构造判定步骤,判定所述兴趣区间候选中是否包含有特定的微细构造;以及兴趣区间确定步骤,在所述微细构造判定步骤中判定为包含有所述微细构造的情况下,对包含所述微细构造且比所述兴趣区间候选短的特定区间进行解析,确定兴趣区间。
此外,本发明的兴趣区间确定程序,使计算机执行兴趣区间确定处理,该兴趣区间确定处理基于动态图像文件所包含的音频信号,在所述动态图像文件中确定被推测为用户表现出兴趣的用户的兴趣区间,该兴趣区间确定程序的特征在于,所述兴趣区间确定处理包括:兴趣区间候选提取步骤,在所述动态图像文件中,提取成为所述兴趣区间的候选的兴趣区间候选;微细构造判定步骤,判定所述兴趣区间候选中是否包含有特定的微细构造;以及兴趣区间确定步骤,在所述微细构造判定步骤中判定为包含有所述微 细构造的情况下,对包含所述微细构造且比所述兴趣区间候选短的特定区间进行解析,确定兴趣区间。
此外,本发明的兴趣区间确定集成电路,基于动态图像文件所包含的音频信号,确定包含指定时刻的用户的兴趣区间,该兴趣区间确定集成电路的特征在于,具备:兴趣区间候选提取单元,在所述动态图像文件中,提取成为所述兴趣区间的候选的兴趣区间候选;微细构造判定单元,判定所述兴趣区间候选中是否包含有特定的微细构造;以及兴趣区间确定单元,在由所述微细构造判定单元判定为包含有所述微细构造的情况下,对包含所述微细构造且比所述兴趣区间候选短的特定区间进行解析,确定兴趣区间。
由此,能够确定动态图像文件中的兴趣区间,因此,例如能够进行动态图像文件的再生时的跳跃再生,能够用于摘要的制作等,能够使用户仅视听动态图像文件中被推测为用户感兴趣的部分。
此外,根据本结构,在从动态图像文件(AV内容)提取兴趣区间时,不是由用户小心翼翼地指定区间的始端、终端的2个时刻,而是能够由兴趣区间确定装置(在判定为包含有微细构造的情况下)检查例如成为兴趣区间的起点者终点的部分,从而确定兴趣区间,因此,用户不进行正确的起点或者终点的输入,也能够精密地确定兴趣区间。
(b)此外,在上述(a)所示的兴趣区间确定装置中,也可以是,所述兴趣区间确定装置还具备:锚模型储存单元,储存用于表现成为基准的多种音素各自的特征的锚模型;指定时刻取得单元,从用户取得指定时刻;以及似然度向量生成单元,按照音频信号的每个第一单位区间,求出表示该第一单位区间的音频信号的特征量的特征量向量相对于各个所述锚模型的似然度,生成以各似然度为成分的似然度向量;所述兴趣区间候选提取单元基于所述似然度向量,计算包含所述指定时刻且比所述第一单位区间长的成为所述兴趣区间的候选的兴趣区间候选,所述微细构造判定单元对包含所述兴趣区间候选的区间中的比所述第一单位区间长且比所述兴趣区间候选短的特定区间,判定是否含有微细构造。
由此,基于在用户对动态图像感兴趣的定时接受的输入,能够确定兴趣区间。只要是感兴趣的定时的输入即可,即使不是正确的兴趣区间的起 点或终点的输入,兴趣区间确定装置也能够确定兴趣区间。
(c)此外,在上述(b)所示的兴趣区间确定装置中,也可以是,所述兴趣区间确定装置还具备:频次向量计算单元,根据由所述第一单位区间的N倍长度的第二单位区间的音频信号生成的N个似然度向量,计算第二单位区间频次向量,根据由所述第一单位区间的M倍长度的第三单位区间的音频信号生成的M个似然度向量,计算第三单位区间频次向量,其中,1<M<N,N为M的倍数;以及方差计算单元,计算所述第二单位区间所包含的第三单位区间的第三单位区间频次向量的方差;所述特定区间为所述第二单位区间,所述兴趣区间候选提取单元基于所述第二单位区间频次向量来计算所述兴趣区间候选,所述微细构造判定单元基于所述方差是否超过基准值来判定是否包含有微细构造。
由此,兴趣区间确定装置通过使用利用了第二单位区间所包含的第三单位区间的频次向量计算出的方差,能够判定是否具有微细构造,因此,在有微细构造的情况下,对具有微细构造的特定区间进行解析,能够更精密地确定兴趣区间。
(d)此外,在上述(c)所示的兴趣区间确定装置中,也可以是,所述兴趣区间确定装置还具备:基准指标计算部,针对由包含所述指定时刻的多个连续的第二单位区间构成的基准区间,基于该基准区间的多个第二单位区间频次向量来计算基准向量,将所述基准值设为所述基准区间所包含的各第二单位区间各自的方差中的最大值;所述兴趣区间候选提取单元将所述基准区间作为最初的临时兴趣区间候选,判定与所述临时兴趣区间候选邻接的第二单位区间的第二单位区间频次向量和所述基准向量是否一定程度以上相似,在判定为一定程度以上相似的情况下,反复将该第二单位区间包含在所述临时兴趣区间候选中,将判定为并非一定程度以上相似的时刻的临时兴趣区间候选决定为所述兴趣区间候选。
由此,兴趣区间确定装置通过使用基准区间的基准向量,不将包含指定时刻的第二单位区间作为兴趣区间候选来提取,而是将具有与该第二单位区间某种程度以上相似的声音的特征的第二单位区间作为兴趣区间候选来提取。不使用与指定时刻对应的第二单位区间的频次向量,而使用基准向量,从而能够使兴趣区间候选的提取具有宽度。
(e)此外,在上述(d)所示的兴趣区间确定装置中,也可以是,所述基准指标计算部还计算所述基准区间内包含的多个第二单位区间频次向量中的距离所述基准向量的欧氏距离最远的第二单位区间频次向量与所述基准向量之间的阈值欧氏距离,所述兴趣区间候选提取单元将所述基准区间作为最初的临时兴趣区间候选,判定与所述临时兴趣区间候选邻接的第二单位区间的第二单位区间频次向量与所述基准向量之间的欧氏距离是否超过所述阈值欧氏距离,在判定为未超过所述阈值欧氏距离的情况下,反复将该第二单位区间包含在所述临时兴趣区间候选中,将判定为超过所述阈值欧氏距离的时刻的临时兴趣区间候选决定为所述兴趣区间候选。
(f)此外,在上述(e)所示的兴趣区间确定装置中,也可以是,所述基准指标计算部还计算所述基准区间内包含的多个第二单位区间频次向量中与所述基准向量之间的KL距离(Kullback-Leibler divergence)最远的第二单位区间频次向量与所述基准向量之间的阈值KL距离,所述兴趣区间候选提取单元将所述基准区间作为最初的临时兴趣区间候选,判定与所述临时兴趣区间候选邻接的第二单位区间的第二单位区间频次向量与所述基准向量之间的KL距离是否超过所述阈值KL距离,在判定为未超过所述阈值KL距离的情况下,反复将该第二单位区间包含在所述临时兴趣区间候选中,将判定为超过所述阈值KL距离的时刻的临时兴趣区间候选决定为所述兴趣区间候选。
由此,兴趣区间提取装置能够根据基于基准区间计算出的各指标,提取成为兴趣区间的候选的兴趣区间候选。在使用KL距离的结构的情况下,通过使用在概率论、信息理论中被作为表示2个概率分布的差异的尺度广泛使用的KL距离,能够提高兴趣区间候选提取的可靠性。
(g)此外,在上述(f)所示的兴趣区间确定装置中,也可以是,所述微细构造判定单元判定所述兴趣区间候选的开头的第二单位区间或者最后的第二单位区间是否具有微细构造,所述兴趣区间确定单元,在判定为所述兴趣区间候选的开头的第二单位区间具有微细构造的情况下,对所述开头的第二单位区间进行解析,确定兴趣区间的起点,在判定为所述兴趣区间候选的最后的第二单位区间具有微细构造的情况下,对所述最后的第二单位区间进行解析,确定兴趣区间的终点。
由此,兴趣区间确定装置通过对确定的第二单位区间判定微细构造的有无,能够缩小判定微细构造的有无的范围,与在候选区间整个区域内判定微细构造的有无的情况相比,能够减少运算量。
(h)此外,在上述(f)所示的兴趣区间确定装置中,也可以是,所述微细构造判定单元在判定为所述兴趣区间候选的开头的第二单位区间没有微细构造的情况下,判定所述兴趣区间候选的前1个第二单位区间是否具有微细构造,所述兴趣区间确定单元,在判定为所述兴趣区间候选的前1个第二单位区间具有微细构造的情况下,对所述兴趣区间候选的前1个第二单位区间进行解析,确定兴趣区间的起点,在判定为所述兴趣区间候选的前1个第二单位区间没有微细构造的情况下,将该兴趣区间候选的起点作为所述兴趣区间的起点。
由此,兴趣区间提取装置确定出虽未进入兴趣区间候选但实际上应该包含在兴趣区间中的范围,能够更正确地决定兴趣区间的起点。
(i)此外,在上述(f)所示的兴趣区间确定装置中,也可以是,所述微细构造判定单元在判定为所述兴趣区间候选的最后的第二单位区间没有微细构造的情况下,判定所述兴趣区间候选的后1个第二单位区间是否具有微细构造,所述兴趣区间确定单元,在判定为所述兴趣区间候选的后1个第二单位区间具有微细构造的情况下,对所述兴趣区间候选的后1个第二单位区间进行解析,确定兴趣区间的终点,在判定为所述兴趣区间候选的后1个第二单位区间没有微细构造的情况下,将该兴趣区间候选的终点作为所述兴趣区间的终点。
由此,兴趣区间提取装置确定出虽未进入兴趣区间候选但实际上应该包含在兴趣区间中的范围,能够更正确地决定兴趣区间的终点。
(j)此外,在上述(d)所示的兴趣区间确定装置中,也可以是,在被判定为具有微细构造的第二单位区间包含在所述兴趣区间候选中的情况下,将从所述兴趣区间候选除去该第二单位区间后的区间作为第二临时兴趣区间候选,在被判定为具有微细构造的第二单位区间不包含在所述兴趣区间候选中的情况下,将所述兴趣区间候选作为第二临时兴趣区间候选,所述兴趣区间确定单元针对被判定为具有微细构造的第二单位区间,根据所述基准区间侧的第三单位区间,判定该第三单位区间频次向量相对于所 述基准向量是否超过所述阈值欧氏距离,在判定为未超过所述阈值欧氏距离的情况下,反复将该第三单位区间包含在所述第二临时兴趣区间候选中,将判定为超过所述阈值欧氏距离的时刻的第二临时兴趣区间候选的起点或终点决定为所述兴趣区间候选的起点或终点。
由此,兴趣区间提取装置通过以比第二单位区间细微的第三单位区间为基准来决定兴趣区间的起点和终点,能够更正确地提取兴趣区间。
(k)此外,在上述(d)所示的兴趣区间确定装置中,也可以是,所述兴趣区间确定装置还具备:判别单元,判别对所述微细构造进行判定的对象是否是人的声音;所述兴趣区间确定单元在所述判别单元判别为是人的声音的情况下,将被判定为具有所述微细构造的第二单位区间以所述第一单位区间的单位递归地进行解析。
由此,兴趣区间确定装置对被判定为具有微细构造的第二单位区间,进行其音频信号是否包含有语音的判定,在进行了肯定判定的情况下,在比第三单位区间细微的第一单位区间进行解析,能够更正确地提取兴趣区间。
(l)此外,在上述(b)所示的兴趣区间确定装置中,也可以是,所述微细构造判定单元针对所述兴趣区间候选的全部第二单位区间判定是否包含有所述微细构造。
由此,兴趣区间确定装置能够在候选区间整个区域内判定微细构造的有无。因此,能够进行更细微的解析。例如,在候选区间的中途具有微细构造的情况下,能够推定出该部分具有动态图像文件中看起来气氛最高涨的场景、即所谓高潮。
(m)此外,在上述(b)所示的兴趣区间确定装置中,也可以是,所述指定时刻取得单元取得多个指定时刻,所述兴趣区间确定单元提取与所述多个指定时刻分别对应的兴趣区间,所述兴趣区间确定装置还具备:记录单元,将与所述多个指定时刻分别对应的兴趣区间按照所述多个指定时刻所示的时刻的顺序记录在外部存储装置中。
由此,兴趣区间确定装置能够进行接受了多个指定时刻的指定的基础上的兴趣区间的提取。该结构在用户示出兴趣的场景有多个等情况下特别有用。此外,兴趣区间提取装置能够将与所提取的多个兴趣区间对应的动 态图像文件的数据以时间序列依次记录在记录介质中,因此,在用户视听该记录的兴趣区间的动态图像文件时,能够不会感到不协调感地进行视听。
(n)此外,在上述(m)所示的兴趣区间确定装置中,也可以是,所述记录单元将在所述多个指定时刻分别对兴趣区间按照所述多个指定时刻所示的时刻的顺序进行统合,并将统合后的统合数据记录在所述外部存储装置中。
由此,兴趣区间确定装置能够将与多个兴趣区间对应的部分动态图像文件记录在1个文件(统合数据)中,能够提高视听与外部存储装置所记录的兴趣区间对应的数据时的便利性。
(o)此外,在上述(b)所示的兴趣区间确定装置中,也可以是,所述兴趣区间确定装置还具备:特定期间指定单元,由用户指定所述动态图像文件中的再生时间上的特定期间;所述指定时刻取得单元基于在所述特定期间内图像数据各自的特征量的时间变化,从该特定期间内取得所述指定时刻。
由此,兴趣区间确定装置不用从用户接受指定时刻的指定,自身就能够取得指定时刻,因此能够实现兴趣区间提取的自动化。
(p)此外,在上述(a)所示的兴趣区间确定装置中,也可以是,所述兴趣区间确定装置还具备:兴趣区间信息赋予单元,将与所述兴趣区间确定单元所确定的兴趣区间相关的兴趣区间信息赋予到所述动态图像文件中。
由此,兴趣区间确定装置能够对动态图像文件赋予兴趣区间的信息,因此例如能够基于该信息,能够制作动态图像文件的摘要,能够利用为动态图像文件制作时的章节。
(q)此外,在上述(a)所示的兴趣区间确定装置中,也可以是,所述兴趣区间信息赋予单元,作为所述兴趣区间信息,在成为兴趣区间的起点的位置对所述动态图像文件赋予起点标志,并且/或者,在成为兴趣区间的终点的位置对所述动态图像文件赋予终点标志。
由此,兴趣区间确定装置对动态图像文件赋予起点标志或者终点标志,因此,能够利用于被赋予了起点标志或终点标志的动态图像文件再生时的冒头等中。
(r)此外,在上述(a)所示的兴趣区间确定装置中,也可以是,所述兴趣区间确定装置还具备:兴趣区间提取单元,从所述动态图像文件提取所述兴趣区间确定单元确定的兴趣区间。
由此,兴趣区间确定装置能够从动态图像文件提取兴趣区间,因此能够利用于动态图像文件的摘要的制作等中。
(s)此外,在上述(a)所示的兴趣区间确定装置中,也可以是,所述兴趣区间确定装置还具备:取得单元,取得预先指定了兴趣区间候选的动态图像文件;所述微细构造判定单元针对预先指定的兴趣区间候选,判定其始端部分或者终端部分的第一区间是否具有微细构造,所述兴趣区间确定单元确定所述取得单元取得的预先指定了兴趣区间候选的动态图像文件中的兴趣区间。
由此,兴趣区间确定装置在设定了兴趣区间的动态图像中该兴趣区间的设定不适当等情况下能够进行修正。
工业上的利用可能性
本发明的兴趣区间提取装置作为从包含语音、室内的声音、外出时的声音等在内的AV内容的音频信号提取成为用户的兴趣对象的兴趣区间的装置,能够作为AV内容的编辑技术被活用。
附图标记的说明
100 影像编辑装置
102 声音提取装置
103 内容存储装置
104 兴趣区间提取装置
105 兴趣区间存储装置
106 兴趣区间提取部
108 锚模型制作装置
109 接口装置
130 声音数据存储装置
201,301 特征量向量生成部
202 似然度向量生成部
203 锚模型储存部
204 似然度向量缓冲器
205 频次向量/方差生成部(频次向量计算单元、方差计算单元)
206 频次向量缓冲器
207 兴趣区间候选提取部
208 区间伸长基准指标计算部
209 指定时刻取得部
210 微细构造判定部
211 层级扩展部(兴趣区间提取单元)
302 特征量向量分类部
303 锚模型生成部