CN101576955B - 从音视频中检测广告的方法及*** - Google Patents

从音视频中检测广告的方法及*** Download PDF

Info

Publication number
CN101576955B
CN101576955B CN2009100874283A CN200910087428A CN101576955B CN 101576955 B CN101576955 B CN 101576955B CN 2009100874283 A CN2009100874283 A CN 2009100874283A CN 200910087428 A CN200910087428 A CN 200910087428A CN 101576955 B CN101576955 B CN 101576955B
Authority
CN
China
Prior art keywords
energy
frame
audio frequency
envelope sequence
advertisement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009100874283A
Other languages
English (en)
Other versions
CN101576955A (zh
Inventor
李新辉
王向东
高扬
钱跃良
林守勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN2009100874283A priority Critical patent/CN101576955B/zh
Publication of CN101576955A publication Critical patent/CN101576955A/zh
Application granted granted Critical
Publication of CN101576955B publication Critical patent/CN101576955B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明涉及从音视频中检测广告的方法和***,所述方法包括:步骤1,从待检测的音视频中提取音频,从音频中提取帧的短时能量和美尔倒谱系数特征;步骤2,根据帧的短时能量和美尔倒谱系数特征从所述音频中查找出相互间相似度满足预设条件的两组帧,每组内部中的帧在所述音频中位置连续,每组帧在待检测的音视频中对应的音视频片段为广告。本发明能够比现有技术更准确、高效地检测出视频音频中的广告片段。

Description

从音视频中检测广告的方法及***
技术领域
本发明涉及音视频的检测领域,特别是涉及从音视频中检测广告的方法及***。
背景技术
广告检测是指在视频、音频节目中定位和标记广告所出现的位置。自动广告检测就是利用计算机自动地从视、音流中检测出广告片段并精确地定位该广告片段的位置。
目前常见的自动广告检测的方法包括基于规则的方法、基于标识的方法、基于镜头分类的方法、基于识别的方法。
基于规则的方法,使用一系列的特征和规则来区分广告和普通的广播电视节目,普通的广播电视节目为非广告。通常广告都是成组的出现,每组广告被称为广告群。广告及广告群有直接衡量特征和间接衡量特征。广告及广告群的直接衡量特征包括:长度的有限,通常一个广告的长度不超过30秒,广告群不超过6分钟;广告与非广告节目之间及广告与广告之间通常由3到5个黑帧所分隔;广告的音量一般比电视节目的音量大。广告及广告群的间接衡量特征包括:广告通常有比非广告节目具有更高的镜头切换频率并且在颜色上具有更丰富的变化;广告包含许多静止的图像,特别是最后一个场景经常是一幅静止的图像来展示产品或公司的名字。基于规则的方法的问题包括:对于全部种类的节目找到统一的规则存在困难;所选择的表示广告的特征有时不够稳定和可靠;通过该些特征难以建立统一的检测***。例如,很多基于规则的方法根据黑帧检测广告,但是很多电视台现在已经不使用黑帧,而且像电影这样的节目也可能会含有许多黑帧。而普通节目片段和广告片段转换时不一定存在黑帧,甚至黑帧也可以为了某种剪辑需要随机的***,上述情况直接导致基于黑帧检测方法的失败。因此,基于规则的方法主要集中在检测某些特点种类节目,如新闻节目,中的广告。
基于标识的方法,通过电视台的台标来检测广告。该方法根据当电视台插播广告时自动隐去台标来检测广告的存在,可以采用边缘检测的方法检测台标是否存在。该方法的问题在于目前很多电视台在插播广告的时候不隐去台标,而且这种现象越来越多,所以这种通过台标检测广告的方法就失效了。例如,中国国家广电总局的相关规定明确要求所有的广告必要带有台标。此外,目前电视台的台标变得越来越复杂,且有时台标是半透明的,检测起来存在困难。
基于镜头分类的方法,将视频切分为镜头,并从镜头中提取相关特征,然后利用这些特征将电视镜头分成普通节目镜头和广告镜头。但是这种方法通常只是简单的分类,没有考虑如何消除错分镜头的影响,同时也没有考虑如何合并广告镜头得到广告片段的问题。该方法最大的问题在于,非广告节目与广告之间并不存在明显的、确定的特征上的区别,因此该种方法很难对所有节目达到很高的检测的性能。另外,上述方法即使在检测切变镜头方面具有很好的效果,但当检测消隐镜头或者淡入淡出镜头时就会遇到一些问题,导致检测结果错误。
基于识别的方法要求事先有一个大而全的广告数据库,该广告数据库存储预先定义的广告节目片段的特征,然后利用此数据库识别嵌入在电视节目里面的广告片段。然而,该方法的缺点在于包含大量广告的数据库获取困难,如果用人工从节目中截取和标注将耗费巨大的人力、物力。而且,这种方法不能检测出数据库中不存在的广告片段。另外,随着数据库规模的增大检测效率会下降。
上述各种方法处理的数据是视频数据,由于视频本身的特点,上述各种方法所需处理的数据量大,特征复杂度高,因此计算速度慢。
发明内容
为了解决上述的技术问题,本发明提供从音视频中检测广告的方法及***,能够比现有技术更准确、高效地检测出视频音频中的广告片段。
本发明公开了从音视频中检测广告的方法,所述方法包括:
步骤1,从待检测的音视频中提取音频,从音频中提取帧的短时能量和美尔倒谱系数特征;
步骤2,根据帧的短时能量和美尔倒谱系数特征从所述音频中查找出相互间相似度满足预设条件的两组帧,每组内部中的帧在所述音频中位置连续,每组帧在待检测的音视频中对应的音视频片段为广告。
所述步骤2进一步为:
步骤21,根据帧的短时能量将所述音频划分为能量包络单元;
步骤22,根据帧的短时能量和能量包络单元的长度从所述能量包络单元中查找出相互间能量包络形状相似度满足预设形状相似度条件的两组位置连续能量包络单元,每组能量包络单元组成能量包络序列;
步骤23,根据能量包络序列中帧的美尔倒谱系数特征判断所述能量包络序列间的语义相似度是否满足预设的语义相似度条件,如果满足,则所述能量包络序列在待检测的音视频中对应的音视频片段为广告。
在所述能量包络序列间的语义相似度满足预设的语义相似度条件时,所述步骤23后还包括:
步骤31,对于满足语义相似度条件的两组能量包络序列各自开始帧之前的帧,依次判断对应帧之间的语义相似度是否满足所述语义相似度条件,第一个不满足所述语义相似度条件的帧在音频中的下一个帧为广告的起始位置。
在所述能量包络序列间的语义相似度满足预设的语义相似度条件时,所述步骤23后还包括:
步骤41,对于满足语义相似度条件的两组能量包络序列各自结束帧之后的帧,依次判断对应帧之间的语义相似度是否满足所述语义相似度条件,第一个不满足所述语义相似度条件的帧在音频中前一个帧为广告的结束位置。
所述步骤1还包括,
步骤51,对帧的短时能量进行平滑处理,以平滑处理后的短时能量作为帧的短时能量。
所述步骤21进一步为,
步骤61,根据帧的短时能量,将位于能量曲线上升沿并且能量上升幅度超过预设的幅度值的帧作为能量包络单元的划分点;
步骤62,从所述划分点将音频划分为能量包络单元。
所述步骤22进一步为,
步骤71,从所述能量包络单元中查找出满足长度相似度条件的两组位置连续的能量包络单元,每组能量包络单元组成候选能量包络序列,所述长度相似度条件为每组间相同位置的能量包络单元的长度的差值小于预设长度差值;
步骤72,依据所述候选能量包络序列中帧的短时能量判断候选能量包络序列间的能量突变相关度是否大于预设的能量突变相关度阀值,如果是,则所述候选能量包络序列为所述能量包络序列。
所述步骤23进一步为,
步骤81,计算所述能量包络序列间的每对对应帧间的美尔倒谱系数的欧式距离;
步骤82,判断欧式距离小于预设距离阀值的帧的个数是否大于预设的数量阀值,如果是,则所述能量包络序列对应的音视频片段为广告。
所述步骤61进一步为,
步骤91,对于音频中每个帧,判断所述帧的短时能量是否小于所述帧的下一帧的短时能量,如果是,则所述帧位于能量曲线上升沿;
步骤92,对于位于能量曲线上升沿的帧,按如下公式计算所述帧的能量上升幅度,
DF = Max { ( STEN k + 1 - STNE k ) 2 STEN k 2 , . . . , ( STEN k + m - STNE k ) 2 STEN k 2 }
其中,DF为所述帧的能量上升幅度,k为所述帧在音频中的序号,STEN为帧的平滑处理后的短时能量,m为预设的比较帧数值;
如果DF大于所述预设的幅度值,则所述帧作为能量包络的划分点。
所述步骤71和所述步骤72之间还包括,
步骤101,判断所述候选能量包络序列的长度是否大于等于预设广告长度阀值,如果是,执行所述步骤72。
所述步骤72进一步为,
步骤111,按如下公式计算所述候选能量包络序列中帧的能量上升幅度,
DF = Max { ( STEN k + 1 - STNE k ) 2 STEN k 2 , . . . , ( STEN k + m - STNE k ) 2 STEN k 2 }
其中,DF为所述候选能量包络序列中帧的能量上升幅度,k为所述帧在音频中的序号,STEN为帧的平滑处理后的短时能量,m为预设的比较帧数值;
步骤112,根据所述帧的能量上升幅度计算所述候选能量包络序列间的能量突变度相关度,如果所述候选能量包络序列间的能量突变相关度大于预设的能量突变相关度阀值,则所述候选能量包络序列为所述能量包络序列。
所述步骤81进一步为,
步骤121,第一个能量包络序列的第i帧同第二个能量包络序列的第i+e帧对应,e为整数,取值范围为预设的范围;
步骤122,对应e的不同取值,计算所述能量包络序列间的每对对应帧间的美尔倒谱系数的欧式距离,对应相同e的取数计算的欧式距离组成一个欧式距离组;
所述步骤82进一步为,
步骤123,对于每个欧式距离组,计算其中数值小于预设距离阀值的欧式距离的个数,取所有欧式距离组中最大的个数值作为所述能量包络序列的个数值;
步骤124,判断所述能量包络序列的个数值是否大于预设的数量阀值,如果大于,则所述能量包络序列对应的音视频片段为广告。
本发明还公开了从音视频中检测广告的***,所述***包括:
参数提取模块,用于从待检测的音视频中提取音频,从音频中提取帧的短时能量和美尔倒谱系数特征;
广告查找模块,用于根据帧的短时能量和美尔倒谱系数特征从所述音频中查找出相互间相似度满足预设条件的两组帧,每组内部的帧在所述音频中位置连续,每组帧在待检测的音视频中对应的音视频片段为广告。
所述广告查找模块进一步包括:
单元划分模块,用于根据帧的短时能量将所述音频划分为能量包络单元;
形状相似查找模块,用于根据帧的短时能量和能量包络单元的长度从所述能量包络单元中查找出相互间能量包络形状相似度满足预设形状相似度条件的两组位置连续能量包络单元,每组能量包络单元组成能量包络序列;
语义相似查找模块,用于根据能量包络序列中帧的美尔倒谱系数特征判断所述能量包络序列间的语义相似度是否满足预设的语义相似度条件,如果满足,则所述能量包络序列在待检测的音视频中对应的音视频片段为广告。
所述语义相似查找模块,在所述能量包络序列间的语义相似度满足预设的语义相似度条件时,还用于对于每组能量包络序列开始帧之前的帧,依次判断该帧同其他能量包络序列间的语义相似度是否满足所述语义相似度条件,第一个不满足所述语义相似度条件的帧在音频中的下一个帧为广告的起始位置。
所述语义相似查找模块,在所述能量包络序列间的语义相似度满足预设的语义相似度条件时,还用于对于每组能量包络序列结束帧之后的帧,依次判断该帧同其他能量包络序列间的语义相似度是否满足所述语义相似度条件,第一个不满足所述语义相似度条件的帧在音频中前一个帧为广告的结束位置。
所述参数提取模块还用于对帧的短时能量进行平滑处理,以平滑处理后的短时能量作为帧的短时能量。
所述单元划分模块进一步用于根据帧的短时能量,将位于能量曲线上升沿并且能量上升幅度超过预设的幅度值的帧作为能量包络单元的划分点;从所述划分点将音频划分为能量包络单元。
所述形状相似查找模块进一步用于从所述能量包络单元中查找出满足长度相似度条件的两组位置连续的能量包络单元,每组能量包络单元组成候选能量包络序列,所述长度相似度条件为每组间相同位置的能量包络单元的长度的差值小于预设长度差值;依据所述候选能量包络序列中帧的短时能量判断候选能量包络序列间的能量突变相关度是否大于预设的能量突变相关度阀值,如果是,则所述候选能量包络序列为所述能量包络序列。
所述语义相似查找模块进一步用于计算所述能量包络序列间的每对对应帧间的美尔倒谱系数的欧式距离;判断欧式距离小于预设距离阀值的帧的个数是否大于预设的数量阀值,如果是,则所述能量包络序列对应的音视频片段为广告。
所述单元划分模块进一步用于在根据帧的短时能量,将位于能量曲线上升沿并且能量上升幅度超过预设的幅度值的帧作为能量包络单元的划分点时,
进一步用于对于音频中每个帧,判断所述帧的短时能量是否小于所述帧的下一帧的短时能量,如果是,则所述帧位于能量曲线上升沿;对于位于能量曲线上升沿的帧,按如下公式计算所述帧的能量上升幅度,
DF = Max { ( STEN k + 1 - STNE k ) 2 STEN k 2 , . . . , ( STEN k + m - STNE k ) 2 STEN k 2 }
其中,DF为所述帧的能量上升幅度,k为所述帧在音频中的序号,STEN为帧的平滑处理后的短时能量,m为预设的比较帧数值;如果DF大于所述预设的幅度值,则所述帧作为能量包络的划分点。
所述形状相似查找模块还用于判断所述候选能量包络序列的长度是否大于等于预设广告长度阀值,如果是,则进行所述依据所述候选能量包络序列中帧的短时能量判断候选能量包络序列间的能量突变相关度是否大于预设的能量突变相关度阀值。
所述形状相似查找模块在依据所述候选能量包络序列中帧的短时能量判断候选能量包络序列间的能量突变相关度是否大于预设的能量突变相关度阀值时,
进一步用于按如下公式计算所述候选能量包络序列中帧的能量上升幅度,
DF = Max { ( STEN k + 1 - STNE k ) 2 STEN k 2 , . . . , ( STEN k + m - STNE k ) 2 STEN k 2 }
其中,DF为所述候选能量包络序列中帧的能量上升幅度,k为所述帧在音频中的序号,STEN为帧的平滑处理后的短时能量,m为预设的比较帧数值;根据所述帧的能量上升幅度计算所述候选能量包络序列间的能量突变度相关度,如果所述候选能量包络序列间的能量突变相关度大于预设的能量突变相关度阀值,则所述候选能量包络序列为所述能量包络序列。
所述语义相似查找模块在计算所述能量包络序列间的每对对应帧间的美尔倒谱系数的欧式距离时,进一步用于将第一个能量包络序列的第i帧同第二个能量包络序列的第i+e帧对应,e为整数,取值范围为预设的范围;对应e的不同取值,计算所述能量包络序列间的每对对应帧间的美尔倒谱系数的欧式距离,对应相同e的取数计算的欧式距离组成一个欧式距离组;
所述语义相似查找模块在判断欧式距离小于预设距离阀值的帧的个数是否大于预设的数量阀值时,
进一步用于对于每个欧式距离组,计算其中数值小于预设距离阀值的欧式距离的个数,取所有欧式距离组中最大的个数值作为所述能量包络序列的个数值;判断所述能量包络序列的个数值是否大于预设的数量阀值,如果大于,则所述能量包络序列对应的音视频片段为广告。
本发明的有益效果在于,通过根据待测音视频的音频的短时能量和美尔倒普系数特征,按相似度查找音视频中的广告片段,能够仅对音频操作便可查找到音视频中广告,进而提高检测速度,应用音频短时能量和美尔倒普系数特征确定相似度,提高检测准确性;进一步通过划分能量包络单元和进行包络形状相似度和语义相似度的比较,查找相似片段,能够更精确比较片段相似度;并能够根据语义相似度,精确确定广告片段起始位置。
附图说明
图1是本发明从音视频中检测广告的方法流程图;
图2是本发明从音视频中检测广告的***结构图。
具体实施方式
下面结合附图,对本发明做进一步的详细描述。
步骤S100,从待检测的音视频中提取音频,从音频中提取帧的短时能量和MFCC(美尔倒谱系数)特征。
步骤S200,根据帧的短时能量和MFCC特征从所述音频中查找出相互间相似度满足预设条件的两组帧,每组内部中的帧在所述音频中位置连续,每组帧在待检测的音视频中对应的音视频片段为广告。
所述步骤S100的具体实施方式如下所述。
短时能量为语音信号的一个短段的能量,为语音信号处理领域常用的特征。
MFCC特征是语音识别和说话人识别领域的常用特征,MFCC特征为利用三角滤波器组对语音信号经傅立叶变换得到的频谱滤波而得,并且对其频域进行美尔(Mel)尺度变换后获得,以更符合人类的听觉特性。
现有技术中有多种对短时能量的计算方法,本发明具体实施方式中每帧的短时能量的计算方法如下式。
STE n = Σ m = n - N + 1 n [ x ( m ) w ( n - m ) ] 2
其中,STNn表示第n帧的短时能量,n为帧在音频中的序号,x(m)为语音信号,w(m)为窗函数,N为一帧的采样数。
为了消除噪声等因素的影响,对短时能量进行平滑处理。一个满足∫θ(x)dx=1,且在无穷远处收敛到0的实函数θ(x)称为平滑函数。
平滑后的能量为:
STEN(x)=STE(x)×θ(x)
θ(x)为平滑函数,该函数满足∫θ(x)d x=1,且在无穷远处收敛到0的实函数。STEN(x)为平滑的短时能量,x为音频信号。
本发明具体实施方式中提取MFCC特征的方法下列。
步骤S111,根据公式Mel(f)=2595lg(1+f/700)将实际频率转换为美尔(Mel)频率,其中音频信号的f为频率(其中f为语音信号的频率)。
步骤S112,根据音频信号|Xn(k)|求每一个三角滤波器的输出:
m ( l ) = Σ k = o ( l ) h ( l ) W l ( k ) | X n ( k ) | ,
其中 W l ( k ) = k - o ( l ) c ( l ) - o ( l ) h ( l ) - k h ( l ) - c ( l ) , o(l)、c(l)、h(l)分别是三角滤波器的下限、中心、上限频率,且c(l)=h(l-1)=o(l+1)。Xn(k)是音频的抽样数据,k是采样点,m(l)表示第l个滤波器的输出,l是抽样顺序号。
步骤S113,对所有的滤波器输出作对数运算,再进一步做离散余弦(DCT)变换,得到MFCC特征:
C mfcc ( i ) = 2 L Σ l = 1 L log m ( l ) cos { ( l - 1 2 ) iπ L } .
其中,L为滤波器数,Cmfcc(i)表示MFCC特征第i个参数
所述步骤S200的具体实施方式如下所述,包括步骤S210至步骤S230。
步骤S210,根据帧的短时能量将所述音频划分为能量包络单元。
根据帧的短时能量,将位于能量曲线上升沿并且能量上升幅度超过预设的幅度值的帧作为能量包络单元的划分点;从所述划分点将音频划分为能量包络单元。
具体实施方式如下。
按如下公式计算帧的Slope函数值。
Slopek=(STENk+1-STENk)/2
k为帧在音频中序号,STEN为帧的平滑处理后的短时能量。
按如下的公式1计算帧的DF函数值,DF对应于帧的能量上升幅度。
DF = Max { ( STEN k + 1 - STNE k ) 2 STEN k 2 , . . . , ( STEN k + m - STNE k ) 2 STEN k 2 }
其中,DF为所述帧的能量上升幅度,k为所述帧在音频中的序号,STEN为帧的平滑处理后的短时能量,m为预设的比较帧数值,例如预设m为10。
能量包络的划分依据为,DF>T并且Slope>0,T为预设的幅度值,通过调整T的预设值可以调整能量包络的划分粒度,根据实验统计经验T取值为1.25时的划分粒度有利于检索广告处理。Slope>0表示该帧处于能量曲线的上升沿,DF>T表示能量突变程度满足能量包络的预设的划分要求。
步骤S220,根据帧的短时能量和能量包络单元的长度从所述能量包络单元中查找出相互间能量包络形状相似度满足预设形状相似度条件的两组位置连续能量包络单元,每组能量包络单元组成能量包络序列。
通过该步骤依据形状的相似程度从音频中查找到相似的能量包络单元序列,进而确定语义相似度判断的对象,由于语义相似度计算更为复杂,因而增加该步骤比直接应用语义相似度判定相似程度更为快速;而且由于增加了形状相似度的判断,确定的两组能量包络单元序列间形似度更高,判断更为准确。
所述步骤S220的具体实施方式如下。
步骤S221,从能量包络单元中查找出满足长度相似度条件的两组位置连续的能量包络单元,每组能量包络单元组成候选能量包络序列,长度相似度条件为每组间相同位置的能量包络单元的长度的差值小于预设长度差值。
能量包络单元的长度为能量包络单元中帧的数量,di表示第i个能量包络单元的长度。在划分后的所有能量包络单元中,查找到第i个能量包络单元和第j个能量包络单元,i<j,如果满足|dj-di|≤T3,T3为预设长度差值,本具体实施方式中为5。从第i个能量包络单元和第j个能量包络单元向后依次判断是否满足|dj+1-di+1|≤T3,|dj+2-di+2|≤T3,直到发现|dj+k-di+k|>T3时停止。从而,第i个至第i+k-1个能量包络单元组成一个候选能量包络序列;第j个至第j+k-1个能量包络单元组成另一个候选能量包络序列。
步骤S222,判断候选能量包络序列的长度是否大于等于预设广告长度阀值,如果是,执行步骤S223。
候选能量包络序列的长度表示为候选能量包络序列中帧的个数,为该候选能量包络序列中所有能量包络单元的长度的加和。
候选能量包络序列的长度为候选能量包络序列中包含的帧的数量,判断候选能量包络序列的长度是否大于等于预设广告长度阀值。根据统计,广告的长度为大于5秒,对应为125帧,所以一个优选的实施方案中广告长度阀值为125。如果有一个候选能量包络序列的长度不满足条件,小于广告长度阀值,则表明所有的候选能量包络序列虽然他们之间在长度上相近似,但是他们不具有广告的时间长度特性,因而将上述的候选能量包络序列都丢弃,重新进行步骤221。如果对于音频中所有帧都进行过步骤S221操作,但没有找到满足条件的候选能量包络序列,则得出结论待检测的视音频中不包含重复出现的广告。
步骤S223,依据所述候选能量包络序列中帧的短时能量判断候选能量包络序列间的能量突变相关度是否大于预设的能量突变相关度阀值,如果是,则所述候选能量包络序列组为所述能量包络形状相似的序列组。
能量突变相关度为能量的突变的相似程度。
对于候选能量包络序列间的能量突变相关度有多种不同的表达方式,对应于不同的表达方式,对应有不同的能量突变相关度阀值。
具体实施方式一
以候选能量包络序列的中所有帧按公式1计算的能量上升幅度,DF,的平均值作为候选能量包络序列的突变度,将上述候选能量包络序列的突变度的差值作为候选能量包络序列间的能量突变相关度。
具体实施方式二
为简化计算,将具体实施方式一中的候选能量包络序列的突变度简化为候选能量包络序列的起始帧和结束帧的能量上升幅度的平均值。
具体实施方式三
在具体实施方式一和具体实施方式二中,线性使用帧的能量上升幅度,作为候选能量包络序列的能量突变相关度,产生二值性的影响。因而本发明提出一个优选实施方式。
按如下公式计算候选能量包络序列中能量包络单元以概率形式表示的能量突变度。
Figure G2009100874283D00121
其中,di代表候选能量包络序列的第i个能量包络单元。
Figure G2009100874283D00122
为第i个能量包络单元的起始帧的能量上升幅度,
Figure G2009100874283D00123
为第i个能量包络单元的结束帧的能量上升幅度。T1为第一阀值,根据实验统计一个优化的取值为2.25;T2为第二阀值,根据实验统计一个优化的取值为4。
一个能量包络单元表示为
Figure G2009100874283D00124
i为该能量包络单元在音频中的序号,di为该能量包络单元的长度,pi为该能量包络单元以概率形式表示的能量突变度。一个由k个连续能量包络单元组成的候选能量包络序列表示为 SS dP i { ( d i , p i ) , ( d i + 1 , p i + 1 ) . . . , ( d i + k - 1 , p i + k - 1 ) } , i为该候选能量包络序列的第1个能量包络单元在音频中的序号。对于通过步骤S221和S222查找到的两个候选能量包络序列分别表示为 SS dP i { ( d i , p i ) , ( d i + 1 , p i + 1 ) . . . , ( d i + k - 1 , p i + k - 1 ) } SS dP j { ( d j , p j ) , ( d j + 1 , p j + 1 ) . . . , ( d j + k - 1 , p j + k - 1 ) } .
P dP i = Σ ( p i , . . . , p i + k - 1 ) 作为
Figure G2009100874283D00129
的边缘概率,将 P dP j = Σ ( p j , . . . , p j + k - 1 ) 作为的边缘概率,
Figure G2009100874283D001212
的联合概率为 P dP ij = Σ ( min ( p i , p j ) ,min ( p i + 1 , p j + 1 ) , . . . , min ( p i + k - 1 , p j + k - 1 ) ) . 两个候选能量包络序列间的能量突变相关度按如下公式计算。
P ij = 2 · P dP ij P dP i + P dP j
当Pij大于阈值T4时,则认为
Figure G2009100874283D001216
Figure G2009100874283D001217
是分别为一个能量包络序列。其中,阈值T4根据大量实验统计经验取值为0.8。T4为能量突变相关度阀值。
步骤S230,根据能量包络序列中帧的MFCC特征判断所述能量包络序列间的语义相似度是否满足预设的语义相似度条件,如果满足,则所述能量包络序列对应的音视频片段为广告。
应用MFCC特征表示语义相似度的方式具有多种。以多个候选能量包络序列对应帧的MFCC特征中参数的差值的平均值作为语义相似度,或者如步骤S223中方法将MFCC特征中参数进行概率转换,将
Figure G2009100874283D00131
对第i个帧的MFCC特征中第一个参数,
Figure G2009100874283D00132
对应为第i帧的MFCC特征中第二个参数,进而应用该概率按步骤S223中方法计算候选能量包络序列的语义相似度。
以下就以候选能量包络序列的帧间的MFCC欧式距离作为能量包络序列间的语义相似度的情况进行详细说明。
候选能量包络序列表示为(ai1,ai2,…,aim)和(bi1,bi2,…,bim),其中ai1,…,aim分别表示第一个候选能量包络序列中的帧,bi1,…,bim分别表示第二个候选能量包络序列中的帧。
具体实施方式一
按如下公式计算候选能量包络序列中第j帧间的MFCC欧式距离。
D j = Σ k = 1 12 ( M a ij ( k ) - M b ij ( k ) ) 2 , j = 1,2 , . . . , m
其中,Dj表示第j帧间的MFCC欧式距离,
Figure G2009100874283D00134
表示帧aij的MFCC,
Figure G2009100874283D00135
表示帧bij的MFCC,k表示MFCC特征中的第k个参数。
计算MFCC欧式距离小于阀值T5的个数,根据统计观察,T5取4.5时可以最优的区分出语音内容上是否相似。如果小于阀值T5的MFCC欧式距离个数大于预设的广告最少帧数,该具体实施方式为125,则认为候选能量包络序列的语义相似度满足语义相似度条件,候选能量包络序列为能量包络序列,能量包络序列对应的音视频片段为广告。
具体实施方式二
在现实中,候选能量包络序列中帧不一定是同另一个候选能量包络序列中相同序列位置的帧对应,对应帧在候选能量包络序列中的顺序号可能存在前后的偏差,因而具体实施方式一中的处理方法存在一定的误差。为了校正上述误差,在具体实施方式二中,计算多组对应帧间的MFCC欧式距离;第一个能量包络序列的第i帧同第二个能量包络序列的第i+e帧对应,e为整数,取值范围为预设的范围;对应一个e的取值,计算一组帧间的MFCC欧式距离。
例如,e的取值为0,1,…,9,10。候选能量包络序列表示为(ai1,ai2,…,aim)和(bi1,bi2,…,bim)。一组帧间的MFCC欧式距离表示为一个m维向量De,De={de1,de2,......,dem}。
d ej = Σ k = 1 12 ( M a i ( j + e ) ( k ) - M b ij ( k ) ) 2 , e ≤ 5 , j = 1,2 , . . . , m Σ k = 1 12 ( M a ij ( k ) - M b i ( j + e - 5 ) ( k ) ) 2 , e > 5 , j = 1,2 , . . . , m 公式2
Figure G2009100874283D00142
表示帧aij的MFCC,
Figure G2009100874283D00143
表示帧bij的MFCC,k表示MFCC特征中的第k个参数。
对于向量De,计算MFCC欧式距离小于阀值T5的个数,根据统计观察,T5取4.5时可以最优的区分出语音内容上是否相似。取个数中的最大值,如果自大值大于预设数量阀值,该具体实施方式中数量阀值为广告最少帧数,为125,则认为候选能量包络序列的语义相似度满足语义相似度条件,候选能量包络序列为能量包络序列,能量包络序列对应的音视频片段为广告。
具体实施方式三
对于具体实施方式二中方法,获得的广告片段的起始和结束位置不够精确。因而在具体实施方式三增加判定广告片段精确位置的步骤,其他过程同具体实施方式二相同。
对于每组能量包络序列开始帧之前的帧,依次判断该帧同其他能量包络序列间的语义相似度是否满足所述语义相似度条件,第一个不满足所述语义相似度条件的帧在音频中的下一个帧为广告的起始位置。同理,对于每组能量包络序列结束帧之后的帧,依次判断该帧同其他能量包络序列间的语义相似度是否满足所述语义相似度条件,第一个不满足所述语义相似度条件的帧在音频中前一个帧为广告的结束位置。
从能量包络序列的起始帧开始向前,按公式2计算e取不同值时,该帧间的语义相似度;如果对于所有e计算的语义相似度都小于阀值T5,则该帧被添加进广告片段,计算该帧的前一帧;如果对应不同e的取值,存在一个语义相似度不小于阀值T5,则该帧为广告片段的边界帧,该帧在因音频中为第n帧,则音频中第n+1帧为广告开始帧。同样方法,查找准确的广告结束帧位置。
找到一对重复广告片段后,从待检测视音频中查找和该对重复广告片段其中之一的一个序列长度相似的包络序列。
本发明一种从音视频中检测广告的***如图2所示包括:
参数提取模块201,用于从待检测的音视频中提取音频,从音频中提取帧的短时能量和美尔倒谱系数特征。
参数提取模块201还用于对帧的短时能量进行平滑处理,以平滑处理后的短时能量作为帧的短时能量。
广告查找模块202,用于根据帧的短时能量和美尔倒谱系数特征从所述音频中查找出相互间相似度满足预设条件的两组帧,每组内部中的帧在所述音频中位置连续,每组帧在待检测的音视频中对应的音视频片段为广告。
广告查找模块202进一步包括:单元划分模块、形状相似查找模块、语义相似查找模块。
单元划分模块,用于根据帧的短时能量将所述音频划分为能量包络单元。
单元划分模块进一步用于根据帧的短时能量,将位于能量曲线上升沿并且能量上升幅度超过预设的幅度值的帧作为能量包络单元的划分点;从所述划分点将音频划分为能量包络单元。
单元划分模块进一步用于在根据帧的短时能量,将位于能量曲线上升沿并且能量上升幅度超过预设的幅度值的帧作为能量包络单元的划分点时,
进一步用于对于音频中每个帧,判断所述帧的短时能量是否小于所述帧的下一帧的短时能量,如果是,则所述帧位于能量曲线上升沿;对于位于能量曲线上升沿的帧,按如下公式计算所述帧的能量上升幅度,
DF = Max { ( STEN k + 1 - STNE k ) 2 STEN k 2 , . . . , ( STEN k + m - STNE k ) 2 STEN k 2 }
其中,DF为所述帧的能量上升幅度,k为所述帧在音频中的序号,STEN为帧的平滑处理后的短时能量,m为预设的比较帧数值;如果DF大于所述预设的幅度值,则所述帧作为能量包络的划分点。
形状相似查找模块,用于根据帧的短时能量和能量包络单元的长度从所述能量包络单元中查找出相互间能量包络形状相似度满足预设形状相似度条件的两组位置连续能量包络单元,每组能量包络单元组成能量包络序列。
形状相似查找模块进一步用于从所述能量包络单元中查找出满足长度相似度条件的两组位置连续的能量包络单元,每组能量包络单元组成候选能量包络序列,所述长度相似度条件为每组间相同位置的能量包络单元的长度的差值小于预设长度差值;依据所述候选能量包络序列中帧的短时能量判断候选能量包络序列间的能量突变相关度是否大于预设的能量突变相关度阀值,如果是,则所述候选能量包络序列为所述能量包络序列。
形状相似查找模块还用于判断所述候选能量包络序列的长度是否大于等于预设广告长度阀值,如果是,则进行所述依据所述候选能量包络序列中帧的短时能量判断候选能量包络序列间的能量突变相关度是否大于预设的能量突变相关度阀值。
形状相似查找模块在依据所述候选能量包络序列中帧的短时能量判断候选能量包络序列间的能量突变相关度是否大于预设的能量突变相关度阀值时,
进一步用于按如下公式计算所述候选能量包络序列中帧的能量上升幅度,
DF = Max { ( STEN k + 1 - STNE k ) 2 STEN k 2 , . . . , ( STEN k + m - STNE k ) 2 STEN k 2 }
其中,DF为所述候选能量包络序列中帧的能量上升幅度,k为所述帧在音频中的序号,STEN为帧的平滑处理后的短时能量,m为预设的比较帧数值;根据所述帧的能量上升幅度计算所述候选能量包络序列间的能量突变度相关度,如果所述候选能量包络序列间的能量突变相关度大于预设的能量突变相关度阀值,则所述候选能量包络序列为所述能量包络序列。
语义相似查找模块,用于根据能量包络序列中帧的美尔倒谱系数特征判断所述能量包络序列间的语义相似度是否满足预设的语义相似度条件,如果满足,则所述能量包络序列对应的音视频片段为广告。
语义相似查找模块,在所述能量包络序列间的语义相似度满足预设的语义相似度条件时,还用于对于每组能量包络序列开始帧之前的帧,依次判断该帧同其他能量包络序列间的语义相似度是否满足所述语义相似度条件,第一个不满足所述语义相似度条件的帧在音频中的下一个帧为广告的起始位置。
语义相似查找模块,在所述能量包络序列间的语义相似度满足预设的语义相似度条件时,还用于对于每组能量包络序列结束帧之后的帧,依次判断该帧同其他能量包络序列间的语义相似度是否满足所述语义相似度条件,第一个不满足所述语义相似度条件的帧在音频中前一个帧为广告的结束位置。
语义相似查找模块进一步用于计算所述能量包络序列间的每对对应帧间的美尔倒谱系数的欧式距离;判断欧式距离小于预设距离阀值的帧的个数是否大于预设的数量阀值,如果是,则所述能量包络序列对应的音视频片段为广告。
语义相似查找模块在计算所述能量包络序列间的每对对应帧间的美尔倒谱系数的欧式距离时,进一步用于将第一个能量包络序列的第i帧同第二个能量包络序列的第i+e帧对应,e为整数,取值范围为预设的范围;对应e的不同取值,计算所述能量包络序列间的每对对应帧间的美尔倒谱系数的欧式距离,对应相同e的取数计算的欧式距离组成一个欧式距离组;
语义相似查找模块在判断欧式距离小于预设距离阀值的帧的个数是否大于预设的数量阀值时,进一步用于对于每个欧式距离组,计算其中数值小于预设距离阀值的欧式距离的个数,取所有欧式距离组中最大的个数值作为所述能量包络序列的个数值;判断所述能量包络序列的个数值是否大于预设的数量阀值,如果大于,则所述能量包络序列对应的音视频片段为广告。
下面通过对一段长度为10分钟的广播电视节目中的广告进行检测作为实例,详细介绍本发明的基于音频重复性的广告检测方法的实施过程。整个过程基本分为四个阶段:音频流的分割和音频特征的提取;划分能量包络单元;具有重复性的能量包络形状相似的匹配对的检测;音频语义内容上相似匹配对的验证,精确定位重复性片段的起始和结束位置。
音频流的分割和音频特征的提取阶段,把此阶段从10分钟的广播电视节目片段中分割音频流,然后对该10分钟的音频流进行特征提取,提取的特征包括:MFCC、短时能量,采用的帧长为40ms,帧移为40ms。
例如该段长度为10分钟的电视节目中有1个广告:新×××。其中新×××的2次出现位置分别为10-25秒,123-138秒。
能量包络划分阶段,利用平滑后的短时能量特征计算包络单元检测函数Slope和DF。能量包络划分点的依据为DF>T并且Slope>0,DF>T表示能量突变程度满足能量包络的划分条件;Slope>0表示能量包络处于上升沿状态。其中,T根据大量的实验统计经验取值为1.25。
计算检测函数Slope和DF的公式为:
第k帧的Slope函数值:
Slopek=(STENk+1-STENk)/2
第k帧的DF函数值:
DF = Max { ( STEN k + 1 - STNE k ) 2 STEN k 2 , . . . , ( STEN k + 10 - STNE k ) 2 STEN k 2 }
其中STEN为平滑后的短时能量。
对10分钟的电视节目划分能量包络,其中在10-25秒处附近的能量包络为(55,1.51),(45,2.51),(51,2.77),(56,3.10),(74,2.63),(40,2.96),(60,3.54),(33,4.12),(22,6.32)在123-138秒处附件的能量包络为(31,4.23),(43,2.45),(55,2.71),(55,3.05),(76,2.55),(40,3.02),(62,3.55),(34,4.30),(41,4.13),其中能量包络(d,DF)中的d表示包络长度,单位为帧。
具有重复性的能量包络形状相似的匹配对的检测阶段,利用能量包络划分得到的能量包络单元,计算两个片段单元的单元长度和单元间的概率匹配函数来检测能量包络形状上相似的包络单元。
当能量包络单元
Figure G2009100874283D00182
满足|dj-di|≤T3,依次向后寻找|dj+1-di+1|≤T3,|dj+2-di+2|≤T3,...,直到|dj+k-di+k|>T3,其中T3根据大量的实验表明取值为5时能达到很好的实验效果。计算di+di+1+…+di+k-1与dj+dj+1+…+dj+k-1,当两者距离最小的那个大于125时,就认为该两包络单元序列在时间跨度距离上是相似的。上述10分钟片段中,(45,2.51),(51,2.77),(56,3.10),(74,2.63),(40,2.96),(60,3.54),(33,4.12)序列和((43,2.45),(55,2.71),(55,3.05),(76,2.55),(40,3.02),(62,3.55),(34,4.30)序列满足广告能量包络长度相似的条件。
对上述满足长度相似性条件的序列对,根据以下公式计算DFP值:
Figure G2009100874283D00191
T1为第一阀值,根据实验统计一个优化的取值为2.25;T2为第二阀值,根据实验统计一个优化的取值为4。
计算DFP值之后的两个能量包络序列为:(45,0.22),(51,0.39),(56,0.35),(74,0.31),(40,0.57),(60,0.90),(33,1)和((43,0.19),(55,0.36),(55,0.31),(76,0.30),(40,0.59),(62,0.95),(34,1)
P dP i = Σ ( p i , . . . , p i + k - 1 ) 作为
Figure G2009100874283D00193
的边缘概率,将 P dP j = Σ ( p j , . . . , p j + k - 1 ) 作为
Figure G2009100874283D00195
的边缘概率,
Figure G2009100874283D00196
Figure G2009100874283D00197
的联合概率为 P dP ij = Σ ( min ( p i , p j ) ,min ( p i + 1 , p j + 1 ) , . . . , min ( p i + k - 1 , p j + k - 1 ) ) . 两个候选能量包络序列间的能量突变相关度按如下公式计算:
P ij = 2 · P dP ij P dP i + P dP j
当Pij大于阈值T4时,则认为这两个序列在能量包络形状上是相似的。其中,阈值T4根据大量实验统计经验取值为0.8。
对于上述两个序列,第一个序列的边缘概率值为:P1=3.74;第二个序列的边缘概率值为:P2=3.7;两者的联合概率为:P12=3.63
两者的能量突变相关度P=0.976,大于0.8。所以认为这两个能量包络序列在能量包络形状上是相似的。
音频语义内容上相似匹配对的验证,精确定位重复性片段的起始和结束位置阶段,利用MFCC特征和欧式距离来验证在包络形状上相似的匹配单元在音频语义内容上是否相似,当匹配对满足语义内容相似时我们就认为该匹配对是重复性片段。
对于上述(255,256,.......,620)和(3079,3080,......,3450)两个在能量包络形状上匹配的片段,计算(251,256,.......,620),(252,256,.......,620),(253,256,.......,620),(254,256,.......,620),(255,256,.......,620)分别与(3074,3080,......,3450),(3075,3080,......,3450),(3076,3080,......,3450),(3077,3080,......,3450),(3078,3080,......,3450),(3079,3080,......,3450)之间两两的MFCC特征的欧式距离,经计算(251,256,.......,620)和(3076,3080,......,3450)的欧式距离小于4.5的个数大于125满足在语义内容相似的条件,因此该两个片段为重复出现的片段。
本领域的技术人员在不脱离权利要求书确定的本发明的精神和范围的条件下,还可以对以上内容进行各种各样的修改。因此本发明的范围并不仅限于以上的说明,而是由权利要求书的范围来确定的。

Claims (22)

1.一种从音视频中检测广告的方法,其特征在于,所述方法包括:
步骤1,从待检测的音视频中提取音频,从音频中提取帧的短时能量和美尔倒谱系数特征;
步骤2,根据帧的短时能量和美尔倒谱系数特征从所述音频中查找出相互间相似度满足预设条件的两组帧,每组内部中的帧在所述音频中位置连续,每组帧在待检测的音视频中对应的音视频片段为广告;
所述步骤2进一步为:
步骤21,根据帧的短时能量将所述音频划分为能量包络单元;
步骤22,根据帧的短时能量和能量包络单元的长度从所述能量包络单元中查找出相互间能量包络形状相似度满足预设形状相似度条件的两组位置连续能量包络单元,每组能量包络单元组成能量包络序列;
步骤23,根据能量包络序列中帧的美尔倒谱系数特征判断所述能量包络序列间的语义相似度是否满足预设的语义相似度条件,如果满足,则所述能量包络序列在待检测的音视频中对应的音视频片段为广告。
2.如权利要求1所述的从音视频中检测广告的方法,其特征在于,
在所述能量包络序列间的语义相似度满足预设的语义相似度条件时,所述步骤23后还包括:
步骤31,对于满足语义相似度条件的两组能量包络序列各自开始帧之前的帧,依次判断对应帧之间的语义相似度是否满足所述语义相似度条件,第一个不满足所述语义相似度条件的帧在音频中的下一个帧为广告的起始位置。
3.如权利要求2所述的从音视频中检测广告的方法,其特征在于,
在所述能量包络序列间的语义相似度满足预设的语义相似度条件时,所述步骤23后还包括:
步骤41,对于满足语义相似度条件的两组能量包络序列各自结束帧之后的帧,依次判断对应帧之间的语义相似度是否满足所述语义相似度条件,第一个不满足所述语义相似度条件的帧在音频中前一个帧为广告的结束位置。
4.如权利要求2所述的从音视频中检测广告的方法,其特征在于,所述步骤1还包括,
步骤51,对帧的短时能量进行平滑处理,以平滑处理后的短时能量作为帧的短时能量。
5.如权利要求4所述的从音视频中检测广告的方法,其特征在于,所述步骤21进一步为,
步骤61,根据帧的短时能量,将位于能量曲线上升沿并且能量上升幅度超过预设的幅度值的帧作为能量包络单元的划分点;
步骤62,从所述划分点将音频划分为能量包络单元。
6.如权利要求4所述的从音视频中检测广告的方法,其特征在于,所述步骤22进一步为,
步骤71,从所述能量包络单元中查找出满足长度相似度条件的两组位置连续的能量包络单元,每组能量包络单元组成候选能量包络序列,所述长度相似度条件为每组间相同位置的能量包络单元的长度的差值小于预设长度差值;
步骤72,依据所述候选能量包络序列中帧的短时能量判断候选能量包络序列间的能量突变相关度是否大于预设的能量突变相关度阀值,如果是,则所述候选能量包络序列为所述能量包络序列。
7.如权利要求4所述的从音视频中检测广告的方法,其特征在于,所述步骤23进一步为,
步骤81,计算所述能量包络序列间的每对对应帧间的美尔倒谱系数的欧式距离;
步骤82,判断欧式距离小于预设距离阀值的帧的个数是否大于预设的数量阀值,如果是,则所述能量包络序列对应的音视频片段为广告。
8.如权利要求5所述的从音视频中检测广告的方法,其特征在于,所述步骤61进一步为,
步骤91,对于音频中每个帧,判断所述帧的短时能量是否小于所述帧的下一帧的短时能量,如果是,则所述帧位于能量曲线上升沿;
步骤92,对于位于能量曲线上升沿的帧,按如下公式计算所述帧的能量上升幅度,
DF = Max { ( STEN k + 1 - STNE k ) 2 STEN k 2 , . . . , ( STEN k + m - STNE k ) 2 STEN k 2 }
其中,DF为所述帧的能量上升幅度,k为所述帧在音频中的序号,STEN为帧的平滑处理后的短时能量,m为预设的比较帧数值;
如果DF大于所述预设的幅度值,则所述帧作为能量包络的划分点。
9.如权利要求6所述的从音视频中检测广告的方法,其特征在于,所述步骤71和所述步骤72之间还包括,
步骤101,判断所述候选能量包络序列的长度是否大于等于预设广告长度阀值,如果是,执行所述步骤72。
10.如权利要求6所述的从音视频中检测广告的方法,其特征在于,所述步骤72进一步为,
步骤111,按如下公式计算所述候选能量包络序列中帧的能量上升幅度,
DF = Max { ( STEN k + 1 - STNE k ) 2 STEN k 2 , . . . , ( STEN k + m - STNE k ) 2 STEN k 2 }
其中,DF为所述候选能量包络序列中帧的能量上升幅度,k为所述帧在音频中的序号,STEN为帧的平滑处理后的短时能量,m为预设的比较帧数值;
步骤112,根据所述帧的能量上升幅度计算所述候选能量包络序列间的能量突变度相关度,如果所述候选能量包络序列间的能量突变相关度大于预设的能量突变相关度阀值,则所述候选能量包络序列为所述能量包络序列。
11.如权利要求7所述的从音视频中检测广告的方法,其特征在于,
所述步骤81进一步为,
步骤121,第一个能量包络序列的第i帧同第二个能量包络序列的第i+e帧对应,e为整数,取值范围为预设的范围;
步骤122,对应e的不同取值,计算所述能量包络序列间的每对对应帧间的美尔倒谱系数的欧式距离,对应相同e的取数计算的欧式距离组成一个欧式距离组;
所述步骤82进一步为,
步骤123,对于每个欧式距离组,计算其中数值小于预设距离阀值的欧式距离的个数,取所有欧式距离组中最大的个数值作为所述能量包络序列的个数值;
步骤124,判断所述能量包络序列的个数值是否大于预设的数量阀值,如果大于,则所述能量包络序列对应的音视频片段为广告。
12.一种从音视频中检测广告的***,其特征在于,所述***包括:
参数提取模块,用于从待检测的音视频中提取音频,从音频中提取帧的短时能量和美尔倒谱系数特征;
广告查找模块,用于根据帧的短时能量和美尔倒谱系数特征从所述音频中查找出相互间相似度满足预设条件的两组帧,每组内部的帧在所述音频中位置连续,每组帧在待检测的音视频中对应的音视频片段为广告;
所述广告查找模块进一步包括:
单元划分模块,用于根据帧的短时能量将所述音频划分为能量包络单元;
形状相似查找模块,用于根据帧的短时能量和能量包络单元的长度从所述能量包络单元中查找出相互间能量包络形状相似度满足预设形状相似度条件的两组位置连续能量包络单元,每组能量包络单元组成能量包络序列;
语义相似查找模块,用于根据能量包络序列中帧的美尔倒谱系数特征判断所述能量包络序列间的语义相似度是否满足预设的语义相似度条件,如果满足,则所述能量包络序列在待检测的音视频中对应的音视频片段为广告。
13.如权利要求12所述的从音视频中检测广告的***,其特征在于,
所述语义相似查找模块,在所述能量包络序列间的语义相似度满足预设的语义相似度条件时,还用于对于每组能量包络序列开始帧之前的帧,依次判断该帧同其他能量包络序列间的语义相似度是否满足所述语义相似度条件,第一个不满足所述语义相似度条件的帧在音频中的下一个帧为广告的起始位置。
14.如权利要求12所述的从音视频中检测广告的***,其特征在于,
所述语义相似查找模块,在所述能量包络序列间的语义相似度满足预设的语义相似度条件时,还用于对于每组能量包络序列结束帧之后的帧,依次判断该帧同其他能量包络序列间的语义相似度是否满足所述语义相似度条件,第一个不满足所述语义相似度条件的帧在音频中前一个帧为广告的结束位置。
15.如权利要求12所述的从音视频中检测广告的***,其特征在于,所述参数提取模块还用于对帧的短时能量进行平滑处理,以平滑处理后的短时能量作为帧的短时能量。
16.如权利要求15所述的从音视频中检测广告的***,其特征在于,所述单元划分模块进一步用于根据帧的短时能量,将位于能量曲线上升沿并且能量上升幅度超过预设的幅度值的帧作为能量包络单元的划分点;从所述划分点将音频划分为能量包络单元。
17.如权利要求15所述的从音视频中检测广告的***,其特征在于,所述形状相似查找模块进一步用于从所述能量包络单元中查找出满足长度相似度条件的两组位置连续的能量包络单元,每组能量包络单元组成候选能量包络序列,所述长度相似度条件为每组间相同位置的能量包络单元的长度的差值小于预设长度差值;依据所述候选能量包络序列中帧的短时能量判断候选能量包络序列间的能量突变相关度是否大于预设的能量突变相关度阀值,如果是,则所述候选能量包络序列为所述能量包络序列。
18.如权利要求15所述的从音视频中检测广告的***,其特征在于,所述语义相似查找模块进一步用于计算所述能量包络序列间的每对对应帧间的美尔倒谱系数的欧式距离;判断欧式距离小于预设距离阀值的帧的个数是否大于预设的数量阀值,如果是,则所述能量包络序列对应的音视频片段为广告。
19.如权利要求16所述的从音视频中检测广告的***,其特征在于,
所述单元划分模块进一步用于在根据帧的短时能量,将位于能量曲线上升沿并且能量上升幅度超过预设的幅度值的帧作为能量包络单元的划分点时,
进一步用于对于音频中每个帧,判断所述帧的短时能量是否小于所述帧的下一帧的短时能量,如果是,则所述帧位于能量曲线上升沿;对于位于能量曲线上升沿的帧,按如下公式计算所述帧的能量上升幅度,
DF = Max { ( STEN k + 1 - STNE k ) 2 STEN k 2 , . . . , ( STEN k + m - STNE k ) 2 STEN k 2 }
其中,DF为所述帧的能量上升幅度,k为所述帧在音频中的序号,STEN为帧的平滑处理后的短时能量,m为预设的比较帧数值;如果DF大于所述预设的幅度值,则所述帧作为能量包络的划分点。
20.如权利要求17所述的从音视频中检测广告的***,其特征在于,所述形状相似查找模块还用于判断所述候选能量包络序列的长度是否大于等于预设广告长度阀值,如果是,则进行所述依据所述候选能量包络序列中帧的短时能量判断候选能量包络序列间的能量突变相关度是否大于预设的能量突变相关度阀值。
21.如权利要求17所述的从音视频中检测广告的***,其特征在于,所述形状相似查找模块在依据所述候选能量包络序列中帧的短时能量判断候选能量包络序列间的能量突变相关度是否大于预设的能量突变相关度阀值时,
进一步用于按如下公式计算所述候选能量包络序列中帧的能量上升幅度,
DF = Max { ( STEN k + 1 - STNE k ) 2 STEN k 2 , . . . , ( STEN k + m - STNE k ) 2 STEN k 2 }
其中,DF为所述候选能量包络序列中帧的能量上升幅度,k为所述帧在音频中的序号,STEN为帧的平滑处理后的短时能量,m为预设的比较帧数值;根据所述帧的能量上升幅度计算所述候选能量包络序列间的能量突变度相关度,如果所述候选能量包络序列间的能量突变相关度大于预设的能量突变相关度阀值,则所述候选能量包络序列为所述能量包络序列。
22.如权利要求18所述的从音视频中检测广告的***,其特征在于,
所述语义相似查找模块在计算所述能量包络序列间的每对对应帧间的美尔倒谱系数的欧式距离时,进一步用于将第一个能量包络序列的第i帧同第二个能量包络序列的第i+e帧对应,e为整数,取值范围为预设的范围;对应e的不同取值,计算所述能量包络序列间的每对对应帧间的美尔倒谱系数的欧式距离,对应相同e的取数计算的欧式距离组成一个欧式距离组;
所述语义相似查找模块在判断欧式距离小于预设距离阀值的帧的个数是否大于预设的数量阀值时,
进一步用于对于每个欧式距离组,计算其中数值小于预设距离阀值的欧式距离的个数,取所有欧式距离组中最大的个数值作为所述能量包络序列的个数值;判断所述能量包络序列的个数值是否大于预设的数量阀值,如果大于,则所述能量包络序列对应的音视频片段为广告。
CN2009100874283A 2009-06-22 2009-06-22 从音视频中检测广告的方法及*** Expired - Fee Related CN101576955B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100874283A CN101576955B (zh) 2009-06-22 2009-06-22 从音视频中检测广告的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100874283A CN101576955B (zh) 2009-06-22 2009-06-22 从音视频中检测广告的方法及***

Publications (2)

Publication Number Publication Date
CN101576955A CN101576955A (zh) 2009-11-11
CN101576955B true CN101576955B (zh) 2011-10-05

Family

ID=41271888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100874283A Expired - Fee Related CN101576955B (zh) 2009-06-22 2009-06-22 从音视频中检测广告的方法及***

Country Status (1)

Country Link
CN (1) CN101576955B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103458300A (zh) * 2013-08-28 2013-12-18 天津三星电子有限公司 电视机虚假广告提示方法及***
CN107452371B (zh) * 2017-05-27 2019-03-05 北京字节跳动网络技术有限公司 一种语音分类模型的构建方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040062520A1 (en) * 2002-09-27 2004-04-01 Koninklijke Philips Electronics N.V. Enhanced commercial detection through fusion of video and audio signatures
CN1589002A (zh) * 2004-08-04 2005-03-02 威盛电子股份有限公司 在视频信号中进行高效能广告检测的方法与相关***
CN101221622A (zh) * 2008-01-30 2008-07-16 中国科学院计算技术研究所 一种广告检测识别方法及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040062520A1 (en) * 2002-09-27 2004-04-01 Koninklijke Philips Electronics N.V. Enhanced commercial detection through fusion of video and audio signatures
CN1589002A (zh) * 2004-08-04 2005-03-02 威盛电子股份有限公司 在视频信号中进行高效能广告检测的方法与相关***
CN101221622A (zh) * 2008-01-30 2008-07-16 中国科学院计算技术研究所 一种广告检测识别方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高扬 王向东 钱跃良 刘群.基于音频重复性的广告检测.《第三届全国信息检索与内容安全学术会议》.2007, *

Also Published As

Publication number Publication date
CN101576955A (zh) 2009-11-11

Similar Documents

Publication Publication Date Title
CN101159834B (zh) 一种重复性视频音频节目片段的检测方法和***
CN102799605B (zh) 一种广告监播方法和***
CN100580693C (zh) 一种广告检测识别方法及***
CN102930055B (zh) 结合内部聚合度和外部离散信息熵的网络新词发现方法
CN106407484B (zh) 一种基于弹幕语义关联的视频标签提取方法
CN103970733B (zh) 一种基于图结构的中文新词识别方法
US8775174B2 (en) Method for indexing multimedia information
CN105336342B (zh) 语音识别结果评价方法及***
CN106611604A (zh) 一种基于深度神经网络的自动语音叠音检测方法
Tranter et al. Speaker diarisation for broadcast news.
CN102073631A (zh) 利用关联规则技术的视频新闻单元划分方法
Johnson et al. Spoken Document Retrieval for TREC-8 at Cambridge University.
CN103605666B (zh) 一种进行广告检测的视频拷贝检测方法
WO2011080763A1 (en) A method and system for preprocessing the region of video containing text
CN101398826A (zh) 自动提取体育节目精彩片断的方法和设备
CN112002328A (zh) 一种字幕生成方法、装置及计算机存储介质、电子设备
CN101576955B (zh) 从音视频中检测广告的方法及***
CN110164417A (zh) 一种语种向量获得、语种识别的方法和相关装置
CN109995450B (zh) 一种基于云技术语音识别与智能鉴别“黑广播”方法
CN113194332B (zh) 基于多策略的新广告发现方法、电子设备和可读存储介质
CN108182420A (zh) 一种基于广告字样检测的广告定位方法
KR102093790B1 (ko) 문자 중계 데이터로부터 이벤트 정보를 추출하는 이벤트 정보 추출 방법 및 그 방법을 수행하는 사용자 단말
CN103077203A (zh) 一种重复性音视频片段的检测方法
US11706505B1 (en) Processing method, terminal device, and medium
CN113782051B (zh) 广播效果分类方法及***、电子设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20111005

CF01 Termination of patent right due to non-payment of annual fee