CN1917588A - 检测新闻主播的影音特征以将电视新闻分段 - Google Patents

检测新闻主播的影音特征以将电视新闻分段 Download PDF

Info

Publication number
CN1917588A
CN1917588A CN 200510091769 CN200510091769A CN1917588A CN 1917588 A CN1917588 A CN 1917588A CN 200510091769 CN200510091769 CN 200510091769 CN 200510091769 A CN200510091769 A CN 200510091769A CN 1917588 A CN1917588 A CN 1917588A
Authority
CN
China
Prior art keywords
image
image frame
news
pixel
scanning line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200510091769
Other languages
English (en)
Other versions
CN100417201C (zh
Inventor
李士弘
叶家宏
施宣辉
郭宗杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MAVs Lab Inc
Original Assignee
MAVs Lab Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MAVs Lab Inc filed Critical MAVs Lab Inc
Priority to CNB200510091769XA priority Critical patent/CN100417201C/zh
Publication of CN1917588A publication Critical patent/CN1917588A/zh
Application granted granted Critical
Publication of CN100417201C publication Critical patent/CN100417201C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明揭露一种图像分段方法,用来根据图像片段的内容剪辑图像片段。该方法包含有:利用第一水平扫描线来扫描该图像画面的像素,判断该像素的颜色是否落于预定颜色范围内;利用多个连续的图像画面中位于该第一水平扫描线上的像素来产生色彩地图;如果色彩地图显示预定数目的连续图像画面中,皆包含稳定的像素区域,并且该像素皆落于该预定的颜色范围,则将目前的图像段落标示为候选的图像段落;以及对该稳定的像素区域执行色谱曲线颜色比较,以检测镜头转换。可以进一步分析该图像片段的声音信号以验证该候选的图像段落。

Description

检测新闻主播的影音特征以将电视新闻分段
技术领域
本发明是有关一种图像分段技术,尤指一种检测电视新闻主播,并将电视新闻节目分段的方法。
背景技术
因为电视上的新闻频道日益增加,所以可以取得的新闻信息也愈来愈多,因此观众愈来愈不容易搜寻并找出想要的新闻节目。一个新闻节目通常包含有若干段不同的新闻,而每一段新闻之间通常没有太多的关联。为了让搜寻以及分类每段新闻变得更加便利,可以利用电视新闻主播的图像来判别每一段新闻何时开始以及何时结束。因此在每一段新闻画面中,电视新闻主播的镜头成为最重要的镜头,电视新闻主播通常在每一段新闻开始时做引言介绍,或是在每一段新闻结束时对新闻内容讲评或整理。因此电视新闻主播的镜头可以有效地传达新闻内容的主要概念,观众也可以根据电视新闻主播的镜头来浏览新闻节目,也就是说可以藉由检测新闻主播来识别每一段新闻。
传统将新闻分段的方法用的是一种机器学习(machine learning)技术,该技术会自动将新闻分类,然而该现有技术的效能会受到某些编辑特效的限制,例如将画面分割之后来显示不同来源的数据。也有其它使用较复杂算法的方法,例如脸部辨识以及语者识别(speaker identification)的方法,因为电视新闻主播是谁以及他在画面中的位置是未知的。以下所列是几种已知的分段方法:头部检测、嘴型检测、口音及音乐的分类或辨识、隐藏式字幕(closed-caption)提取以及图像光学文字辨识***(optical characterrecognition,OCR),以及模型基础方法(model-based method)。然而上述的方法皆仰赖极为复杂的算法。
发明内容
本发明的目的之一在于提供一种扫描新闻节目图像画面的方法,来解决上述的问题,此方法是藉由比对画素颜色与肤色范围来检测电视新闻主播是否出现于图像画面中。
根据本发明的实施例,其是揭露一种图像分段方法,用来根据图像片段的内容剪辑图像片段。该方法包含有:接收包含有多个图像画面的图像信号;利用第一水平扫描线来分析该图像信号的图像画面,其中该第一水平扫描线是选取至少一列像素来作分析;分析图像画面中位于该第一水平扫描线上的像素以决定该像素的颜色是否落于预定颜色范围之内;在该图像画面中指出落于该预定颜色范围之内的相邻像素所含盖的区域;利用多个连续的图像画面中位于该第一水平扫描线上的像素来产生色彩地图;如果色彩地图显示预定数目的连续图像画面中,皆包含稳定的像素区域,并且该像素皆落于该预定的颜色范围,则将目前的图像段落标示为候选的图像段落;对于每一个候选的图像段落,自每N个图像画面中选出一个图像画面,并且针对每个选出的图像画面的稳定区域,产生色谱曲线;执行第一色谱曲线比较,比较每一对连续选出的图像画面的色谱曲线;当该第一色谱曲线比较所得的第一色谱曲线差大于第一临界值时,执行第二色谱曲线比较,比较介于该对连续选出的图像画面之间的每一对连续的图像画面的稳定区域,其中该对连续选出的图像画面的色谱曲线差是大于该第一临界值;以及当该第二色谱曲线比较所得的第二色谱曲线差大于第二临界值时,指示该候选的图像段落中有镜头改变。
根据本发明的另一实施例,其是揭露一种图像分段方法,用来根据图像片段的内容剪辑图像片段。该方法包含有:接收包含有多个图像画面的图像信号;接收与该已接收的图像信号相关联的声音信号;利用第一水平扫描线与第二水平扫描线来分析该图像信号的图像画面,其中该第一水平扫描线与该第二水平扫描线是各选取至少一列像素来作分析;如果图像画面上位于该第一、第二水平扫描线上的像素的颜色是落于预定颜色范围内,则将该像素设定为逻辑值“1”;利用位于该第一及第二水平扫描线上的相对应的像素,执行“或(OR)”逻辑运算,来产生合成的像素数据;利用该合成的像素数据来指出该图像画面中落于该预定颜色范围的相邻像素的区域;利用多个连续的图像画面中的合成的像素数据来产生色彩地图;如果色彩地图显示预定数目的连续图像画面中,皆包含稳定的像素区域,并且该像素皆落于该预定的颜色范围,则将目前的图像段落标示为候选的图像段落;对于每一个候选的图像段落,自每N个图像画面中选出一个图像画面,并且针对每个选出的图像画面的稳定区域,产生色谱曲线;执行第一色谱曲线比较,比较每一对连续选出的图像画面的色谱曲线;当该第一色谱曲线比较所得的第一色谱曲线差大于第一临界值时,执行第二色谱曲线比较,比较介于该对连续选出的图像画面之间的每一对连续的图像画面的稳定区域,其中该对连续选出的图像画面的色谱曲线差是大于该第一临界值;当该第二色谱曲线比较所得的第二色谱曲线差大于第二临界值时,指示该候选的图像段落中有镜头改变;以及分析该声音信号以过滤该候选的图像段落,其中该声音信号的特征是藉由处理该声音信号的多个预定尺寸的声音栏框(audio frame)而取得。
根据本发明的另一实施例,其亦揭露一种图像分段方法,该方法是根据检测电视新闻图像片段中的电视新闻主播来剪辑该电视新闻图像片段。该方法包含有:接收包含有多个新闻图像画面的图像信号;利用第一水平扫描线来分析该图像信号的新闻图像画面,其中该第一水平扫描线是选取至少一列像素来作分析;分析新闻图像画面中位于该第一水平扫描线上的像素以决定该像素的颜色是否落于预定颜色范围之内,以检测该电视新闻主播的肤色;在该新闻图像画面中指出落于该预定颜色范围之内的相邻像素所含盖的区域;利用多个连续的新闻图像画面中位于该第一水平扫描线上的像素来产生色彩地图;如果色彩地图显示预定数目的连续新闻图像画面中,皆包含稳定的像素区域,并且该像素皆落于该预定的颜色范围,则将目前的图像段落标示为候选的图像段落;对于每一个候选的图像段落,自每N个新闻图像画面中选出一个新闻图像画面,并且针对每个选出的新闻图像画面的稳定区域,产生色谱曲线;执行第一色谱曲线比较,比较每一对连续选出的新闻图像画面的色谱曲线;当该第一色谱曲线比较所得的第一色谱曲线差大于第一临界值时,执行第二色谱曲线比较,比较介于该对连续选出的新闻图像画面之间的每一对连续的新闻图像画面的稳定区域,其中该对连续选出的新闻图像画面的色谱曲线差是大于该第一临界值;以及当该第二色谱曲线比较所得的第二色谱曲线差大于第二临界值时,指示该候选的图像段落中有镜头改变。
本发明的优点之一在于,本发明所提出的方法利用简单的算法来检测图像画面中是否出现落于肤色范围的像素,然后再判断落于肤色范围的像素的位置是否对应于电视新闻主播的位置而呈现稳定状态。再者,利用比较色谱曲线的方法,本案可以很快地判断出何时电视新闻主播已经没有继续出现在新闻画面上,而找出新闻段落转换的位置。藉由锁定电视新闻主播常出现的位置,即使图像画面包含有分割画面,检测电视新闻主播的方法仍然相当有效,因为本方法仅锁定电视新闻主播的头部部分出现的位置。总之,本发明提供一种简易的计算方法来将电视新闻节目分段。
附图说明
第1图为电视新闻分段***的方块图。
第2图显示利用第一水平扫描线以及第二水平扫描线来检测图像画面上是否有电视新闻主播的脸部图像。
第3图为本发明检测电视新闻主播脸部图像的流程图。
第4图显示如何从两条扫描线来得到逻辑色彩图,用来检测电视新闻主播。
第5图显示检测镜头切换的示意图,藉由比较两个图像画面的图像带的局部色谱曲线,来检测镜头切换。
[主要元件标号说明]
10***                             12非重迭位移窗口电路
14快速傅立叶转换电路               20声音能量分析电路
22、24声音样本的能量的计算电路     26声音样本的频率中心的计算电路
30图像处理电路                     32镜头检测电路
34脸部肤色检测电路                 36后续处理电路
40新闻图像的候选片段               42背景能阶电路
50比例计算电路                     52、54声音能阶比例计算电路
56频率中心的变异数的计算电路       58无音讯比例计算电路
100、210图像画面                   102第一水平扫描线
104第二水平扫描线                  112、114取样像素颜色
220肤色检测程序                    222、224指针阵列
226“或”逻辑运算                  230色彩地图
232结果阵列                        240色彩区块
245呈现肤色的稳定区域              310、320图像画面组
312、322图像画面                   315、325图像带
具体实施方式
请参阅第1图,第1图为电视新闻分段***的方块图。该***10系藉由检测电视新闻主播而将电视新闻分段,***10包含有图像处理电路30,图像处理电路30会依据电视新闻主播的检测结果,来产生新闻图像的候选片段40。一旦产生新闻图像的候选片段40之后,会进一步分析该候选片段40的声音信息,以确保图像分析的正确性。
图像处理电路30包含有镜头检测电路32、脸部肤色检测电路34以及后续处理电路36。脸部肤色检测电路34用来检测落在预定范围的图像画面上的像素,该预定范围即代表肤色范围。请参阅第2图及第3图,第2图显示利用第一水平扫描线102以及第二水平扫描线104来检测图像画面100上是否有电视新闻主播的脸部图像。第3图则为本发明检测电视新闻主播脸部图像的流程图。
研究显示,摄影师通常***扫描线102或有时候连同第二水平扫描线104来检测具有人类肤色的画素。虽然检测的时候只需要第一水平扫描线102,但是额外利用第二水平扫描线104可以让脸部肤色检测电路34产生更准确的结果。举例来说,水平扫描线可能通过电视新闻主播的眼睛或嘴巴,虽然水平扫描线仍然通过电视新闻主播的脸部,但检测到的颜色却不是肤色,这会导致不准确的检测结果。为了减少这种情况的发生机会,以及为了提供更多能用来检测电视新闻主播脸部位置的数据,因此会用到两条水平扫描线。
不论第一水平扫描线102或是第二水平扫描线104皆会分析图像画面100中至少一列的像素,并分别产生取样像素颜色112以及114。请注意,第一水平扫描线102的位置以及第二水平扫描线104的位置会尽可能落于电视画面三分之一的地方,以增加扫描到电视新闻主播的脸部的可能性。以下将解释第3图中所显示的步骤。
步骤150:开始。
步骤152:将图像画面100的色彩空间(color space)从RGB色彩空间转换至Lab色彩空间。Lab色彩空间较适合用来检测肤色,而且也更为普遍使用。然而,本发明也可以使用其它种类的色彩空间,例如RGB、YCbCr以及IRgBy。
步骤154:判别第一水平扫描线102(或有时连同第二水平扫描线104)是否在该图像画面100上扫描到任何落于肤色范围的像素。这个肤色范围可以依据局部区域或是摄影棚的灯光状况而调整。
步骤156:判别是否有一个够大且连续的肤色范围区域。也就是说,判别是否有一群连续的像素,其个数比一预定值大,而且全数落于肤色范围。如果有一个够大且连续的肤色范围区域,到步骤158,否则则到步骤160。
步骤158:指示将目前的图像片段设定为候选的图像片段。因为之后会对该图像片段做更多的图像以及声音分析,该图像片段可能不会再被设定为候选的图像片段。
步骤160:结束。
请参阅第4图,第4图显示如何从两条扫描线来得到逻辑色彩图(logiccolor map),用来检测电视新闻主播。在新闻播报的期间,电视新闻主播的位置一般而言都很固定,因此可以利用这个事实来判别在连续的图像画面中,是否在大约相同的位置上都包含有具有肤色的像素。本案中所举的例子皆假设图像区段中每秒钟包含有30个图像画面。这个播放速度只是方便于解释本发明所提出的方法,然而不应将此播放速度作为本案的限制。
第一水平扫描线102以及第二水平扫描线104是用来在多个图像画面210中,例如30个连续的图像画面,产生取样像素颜色112以及114。一旦取样像素颜色112以及114产生之后,就会启动肤色检测程序220来将每个像素作分类:如果像素是落在肤色范围,则其代表逻辑值“1”,如果像素非落在肤色范围,则其代表逻辑值“0”,取样像素颜色112以及114的结果则如指针阵列222及224所示。之后对指针阵列222以及224执行“或(OR)”逻辑运算226,来得到结果阵列232。分析完30个连续的图像画面中的每一个之后,结果阵列232则储存于色彩地图230中。色彩区块(color block)240为色彩地图230的一个图标范例,色彩区块240中的30列分别对应至已分析的30个图像画面,其中白色区块代表肤色范围的像素,而黑色则不代表肤色范围的像素。色彩区块240中在区域245附近的像素,也就是由左至右大约从像素210至330之间的肤色像素,其呈现稳定状态时代表电视新闻主播可能是图像画面的主题。为了得到更正确的结果,可以执行更多的分析来验证。
一旦候选的图像区段经过识别之后,镜头检测电路32可以协助识别图像区段何时改变。例如,镜头检测电路32可以藉由分析图像画面的色彩性质来检测一个镜头何时由稳定地呈现电视新闻主播而切换至另一个镜头。请参阅第5图,第5图显示检测镜头切换的示意图,藉由比较两个图像画面312和322的图像带315和325的局部色谱曲线,来检测镜头切换。为了减少运算的复杂度,镜头检测电路32首先检测大规模的镜头切换,一旦发现切换之后,接着锁定较小的范围来检测切换确切的发生区域。
第5图显示两组图像画面组310及320,在本例中,每一组图像画面310或320皆包含30个图像画面,也就是代表一秒钟长度的图像。在每一个图像画面组310以及320中各选出一个图像画面,为了简单起见,通常会选出第30个图像画面来做比较。在连续选出的两个图像画面312和322中选出图像带315及325,其中图像带315及325对应到色彩区块240中区域245的位置,该位置即代表稳定的肤色像素。意即图像带315及325的位置也就是电视新闻主播的头部所出现的位置。要执行第一次色谱曲线比较时,是比较连续选出的两个图像画面312和322中的图像带315及325的色谱曲线,如果第一次色谱曲线比较所得到的色谱曲线差系大于第一临界值,就会在30个***的彩色画面中,选取每一对彩色画面,对其相对应的图像带执行第二次色谱曲线比较,以找出镜头切换发生时确切的图像画面。藉由锁定图像带315以及325所代表的区域,本发明可以正确地处理包含分割画面的图像画面,因为本发明仅会对该图像画面中的一部分利用色谱曲线比较法进行分析。
在脸部肤色检测电路34以及镜头检测电路32产生候选图像片段之后,后续处理电路36选择性地执行额外的步骤。例如可以移除影片时间少于预定长度的片段,例如少于一秒或三秒,因为这些片段很可能没有电视新闻主播的镜头。再者,为了统计上的目的,也可以计算包含有稳定的肤色区域的图像画面的百分比。
在图像处理电路30产生候选区段40之后,可以进行声音分析来提供更多的信息,以确保更精确地检测新闻片段。某些影片镜头会显示很多脸孔,例如群众的画面。如果这种影片数据被采用,代表检测电视新闻主播时产生错误的结果。另一个例子,实时报导或是访问也会包含大且稳定的脸部特写。这些时候如果不执行声音分析的话,这些画面也会被判断为电视新闻主播的画面。
声音数据也可以当作用来决定候选段落的主要信息,而不仅是当作图像数据的辅助信息,如果使用可靠的声音处理技术,例如语音辨识技术,则使用声音数据亦可获得很高的可靠度。
请回头参阅第1图,当产生波形的统计数值之后,声音信号就变得极为有用。基于上述的原因,非重迭位移窗口电路12将声音信号分隔成独立的25亳秒声音区段,当然上述的时间长度可以较长或较短,25亳秒仅是本案的一个例子。随后快速傅立叶转换(fast Fourier transform,FFT)电路14会对声音窗口进行快速傅立叶转换,产生的结果会传递给声音能量分析电路20来分析声音样本的能量。快速傅立叶转换电路14将声音样本转换至频域(frequency domain),然后分析该声音样本的频率响应。声音能量分析电路20包含有电路22、电路24以及电路26,电路22用来计算频率低于13kHz的声音样本的能量,电路24用来计算频率介于8-13kHz的声音样本的能量,而电路26则是用来计算声音样本的频率中心(frequency centroid)。频率中心即为所有频谱的算数平均数,用来指示频率响应的中心点。声音能量分析电路20中的电路22、24或26的输出随后会和图像处理电路30的输出相混合,则可以同时处理图像分析以及声音分析。
合适的背景能阶(background energy level)电路42是用来计算背景噪声的能阶,背景能阶电路42是采用局部能量的最低十个的平均值,然而不一定要取十个,可以取较多或者较少,但是利用这种平均方式可以得到较准确的声音数据的背景噪声能阶。
所有由声音能量分析电路20以及背景能阶电路42计算出的能阶信息接着传递给比例计算电路50,比例计算电路50计算出各种能量比例,用来判定接收到的声音数据的特征。电路52系用来计算背景声音能阶与全部声音能阶之间的比例,电路54系用来计算频率落于8-13kHz之间的声音的平均声音能阶与全部声音能阶之间的比例,电路56系用来计算目前候选区段的频率中心的变异数。电路58系用来计算无音讯比例(silence ratio),无音讯比例系指声音能阶低于背景声音能阶的声音段落的数目与全部声音段落之数目比。比例计算电路50计算完电路52、54、56及58所输出的所有比例之后,接着会将计算后的比例与多个预先确定的范围做比较。如果比例特征没有落在上述范围中之一或更多,对应的图像段落则排除在候选的新闻段落中,其余的段落则从比例计算电路50中输出,视为具有电视新闻主播的镜头。
综上所述,本发明结合图像分析与声音分析来判断一个新闻片段中是否包含有电视新闻主播。首先,执行图像分析来判断图像画面中是否有落于肤色范围的像素,然后再判断落于肤色范围的像素的位置是否对应于电视新闻主播的位置而呈现稳定状态。再者,利用比较色谱曲线的方法,本案可以很快地判断出何时电视新闻主播已经没有继续出现在新闻画面上。然后再执行声音分析来进一步缩限候选片段的数目。
相较于其它分割新闻片段的方法,本发明具有许多优点,例如,即使图像画面包含有两个或更多分割画面,检测电视新闻主播的方法仍然相当有效。本发明可以利用一条水平扫描线来作分析,其运算复杂度较低,但结果较不准确;抑或可以利用两条水平扫描线来作分析,其运算复杂度稍微较高,但可得到较准确的结果。再者,本发明所提出的方法亦适用于同时出现一个或一个以上的电视新闻主播的画面,而且也适用于多角度镜头。使用Lab色彩空间来执行像素量测与比较可以更加确保本案可以有效地检测肤色范围,然而使用Lab色彩空间不是本发明的必要手段。而且临界值也可以根据不同的肤色或是不同的化妆应用而做调整。总之,本发明提供一种简易的计算方法来将电视新闻节目分段。
以上所述仅为本发明的较佳实施例,凡依本发明权利要求范围所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (17)

1.一种图像分段方法,用来根据图像片段的内容剪辑图像片段,该方法包含有:
接收包含有多个图像画面的图像信号;
利用第一水平扫描线来分析该图像信号的图像画面,其中该第一水平扫描线是选取至少一列像素来作分析;
分析图像画面中位于该第一水平扫描线上的像素以决定该像素的颜色是否落于预定颜色范围之内;
在该图像画面中指出落于该预定颜色范围之内的相邻像素所含盖的区域;
利用多个连续的图像画面中位于该第一水平扫描线上的像素来产生色彩地图;
如果色彩地图显示预定数目的连续图像画面中,皆包含稳定的像素区域,并且该像素皆落于该预定的颜色范围,则将目前的图像段落标示为候选的图像段落;
对于每一个候选的图像段落,自每N个图像画面中选出一个图像画面,并且针对每个选出的图像画面的稳定区域,产生色谱曲线;
执行第一色谱曲线比较,比较每一对连续选出的图像画面的色谱曲线;
当该第一色谱曲线比较所得的第一色谱曲线差大于第一临界值时,执行第二色谱曲线比较,比较介于该对连续选出的图像画面之间的每一对连续的图像画面的稳定区域,其中该对连续选出的图像画面的色谱曲线差是大于该第一临界值;以及
当该第二色谱曲线比较所得的第二色谱曲线差大于第二临界值时,指示该候选的图像段落中有镜头改变。
2.根据权利要求1所述的方法,其中该自每N个图像画面中选出一个图像画面是包含选取第N个图像画面。
3.根据权利要求1所述的方法,其中该第一水平扫描线是位于图像画面中自顶端往下大约三分之一画面的地方。
4.根据权利要求1所述的方法,还包含有在分析该图像画面中位于该第一水平扫描线上的像素前,执行RGB色彩至Lab色彩转换,来判断该像素的颜色是否落于该预定颜色范围。
5.根据权利要求1所述的方法,其中该预定数目的连续图像画面是构成三秒钟的图像。
6.根据权利要求1所述的方法,还包含有:
利用第二水平扫描线来分析该图像信号的图像画面,其中该第一、第二水平扫描线是选取相同数目的列来作分析;
如果图像画面上位于该第一、第二水平扫描线上的像素的颜色落于该预定颜色范围内,则将该像素设定为逻辑值“1”;
利用位于该第一及第二水平扫描线上的相对应的像素,执行“或”逻辑运算,来产生合成的像素数据;以及
利用该合成的像素数据来指出该图像画面中落于该预定颜色范围的相邻像素的区域,以及利用该多个连续的图像画面来产生该色彩地图。
7.根据权利要求6所述的方法,其中该第一、第二水平扫描线位于图像画面中自顶端往下大约三分之一画面的地方。
8.根据权利要求1所述的方法,还包含有移除长度小于预定时间的候选的图像段落。
9.根据权利要求1所述的方法,还包含有:
接收与该已接收的图像信号相关联的声音信号;以及
分析该声音信号以过滤该候选的图像段落,其中该声音信号是在预定尺寸的声音栏框中进行处理。
10.根据权利要求9所述的方法,还包含将声音样本转换至频域以分析该声音栏框的频率响应,以及计算该声音栏框的总体声音能阶。
11.根据权利要求10所述的方法,还包含有:
计算该声音栏框的背景声音能阶;
比较该背景声音能阶与该总体声音能阶;以及
如果该背景声音能阶对该总体声音能阶的比例并未落在第一特定范围,则消除该候选的图像段落。
12.根据权利要求11所述的方法,还包含有:
计算声音能阶低于该背景声音能阶的声音栏框数对所有声音栏框数的比例;以及
如果该比例是未落于第二特定范围,则消除该候选的图像段落。
13.根据权利要求10所述的方法,还包含有:
计算频率落于8-13kHz的声音栏框的平均声音能量;
计算频率落于8-13kHz的声音栏框的平均声音能量对总体声音能阶的比例;以及
如果该比例未落于特定的范围,则消除该候选的图像段落。
14.根据权利要求10所述的方法,还包含有:
计算该目前候选图像段落的频率中心的变异数;以及
如果该频率中心的变异数未落于特定的范围,则消除该候选的图像段落。
15.一种图像分段方法,用来根据图像片段的内容剪辑图像片段,该方法包含有:
接收包含有多个图像画面的图像信号;
接收与该已接收的图像信号相关联的声音信号;
利用第一水平扫描线与第二水平扫描线来分析该图像信号的图像画面,其中该第一水平扫描线与该第二水平扫描线是各选取至少一列像素来作分析;
如果图像画面上位于该第一、第二水平扫描线上的像素的颜色是落于预定颜色范围内,则将该像素设定为逻辑值“1”;
利用位于该第一及第二水平扫描线上的相对应的像素,执行“或”逻辑运算,来产生合成的像素数据;
利用该合成的像素数据来指出该图像画面中落于该预定颜色范围的相邻像素的区域;
利用多个连续的图像画面中的合成的像素数据来产生色彩地图;
如果色彩地图显示预定数目的连续图像画面中,皆包含稳定的像素区域,并且该像素皆落于该预定的颜色范围,则将目前的图像段落标示为候选的图像段落;
对于每一个候选的图像段落,自每N个图像画面中选出一个图像画面,并且针对每个选出的图像画面的稳定区域,产生色谱曲线;
执行第一色谱曲线比较,比较每一对连续选出的图像画面的色谱曲线;
当该第一色谱曲线比较所得的第一色谱曲线差大于第一临界值时,执行第二色谱曲线比较,比较介于该对连续选出的图像画面之间的每一对连续的图像画面的稳定区域,其中该对连续选出的图像画面的色谱曲线差是大于该第一临界值;
当该第二色谱曲线比较所得的第二色谱曲线差大于第二临界值时,指示该候选的图像段落中有镜头改变;以及
分析该声音信号以过滤该候选的图像段落,其中该声音信号的特征是藉由处理该声音信号的多个预定尺寸的声音栏框而取得。
16.根据权利要求15所述的方法,其中该第一、第二水平扫描线是位于图像画面中自顶端往下大约三分之一画面的地方。
17.一种图像分段方法,该方法是根据检测电视新闻图像片段中的电视新闻主播来剪辑该电视新闻图像片段,该方法包含有:
接收包含有多个新闻图像画面的图像信号;
利用第一水平扫描线来分析该图像信号的新闻图像画面,其中该第一水平扫描线是选取至少一列像素来作分析;
分析新闻图像画面中位于该第一水平扫描线上的像素以决定该像素的颜色是否落于预定颜色范围之内,以检测该电视新闻主播的肤色;
在该新闻图像画面中指出落于该预定颜色范围之内的相邻像素所含盖的区域;
利用多个连续的新闻图像画面中位于该第一水平扫描线上的像素来产生色彩地图;
如果色彩地图显示预定数目的连续新闻图像画面中,皆包含稳定的像素区域,并且该像素皆落于该预定的颜色范围,则将目前的图像段落标示为候选的图像段落;
对于每一个候选的图像段落,自每N个新闻图像画面中选出一个新闻图像画面,并且针对每个选出的新闻图像画面的稳定区域,产生色谱曲线;
执行第一色谱曲线比较,比较每一对连续选出的新闻图像画面的色谱曲线;
当该第一色谱曲线比较所得的第一色谱曲线差大于第一临界值时,执行第二色谱曲线比较,比较介于该对连续选出的新闻图像画面之间的每一对连续的新闻图像画面的稳定区域,其中该对连续选出的新闻图像画面的色谱曲线差大于该第一临界值;以及
当该第二色谱曲线比较所得的第二色谱曲线差大于第二临界值时,指示该候选的图像段落中有镜头改变。
CNB200510091769XA 2005-08-17 2005-08-17 检测新闻主播的影音特征以将电视新闻分段的方法 Expired - Fee Related CN100417201C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB200510091769XA CN100417201C (zh) 2005-08-17 2005-08-17 检测新闻主播的影音特征以将电视新闻分段的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB200510091769XA CN100417201C (zh) 2005-08-17 2005-08-17 检测新闻主播的影音特征以将电视新闻分段的方法

Publications (2)

Publication Number Publication Date
CN1917588A true CN1917588A (zh) 2007-02-21
CN100417201C CN100417201C (zh) 2008-09-03

Family

ID=37738468

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB200510091769XA Expired - Fee Related CN100417201C (zh) 2005-08-17 2005-08-17 检测新闻主播的影音特征以将电视新闻分段的方法

Country Status (1)

Country Link
CN (1) CN100417201C (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101827224A (zh) * 2010-04-23 2010-09-08 河海大学 一种新闻视频中主播镜头的检测方法
CN104980790A (zh) * 2015-06-30 2015-10-14 北京奇艺世纪科技有限公司 语音字幕的生成和装置、播放方法和装置
CN105760084A (zh) * 2016-01-25 2016-07-13 百度在线网络技术(北京)有限公司 语音输入的控制方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7375731B2 (en) * 2002-11-01 2008-05-20 Mitsubishi Electric Research Laboratories, Inc. Video mining using unsupervised clustering of video content
AU2003302973A1 (en) * 2002-12-13 2004-07-09 Koninklijke Philips Electronics N.V. Improved image segmentation based on block averaging
WO2004075537A1 (en) * 2003-02-21 2004-09-02 Koninklijke Philips Electronics N.V. Shot-cut detection

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101827224A (zh) * 2010-04-23 2010-09-08 河海大学 一种新闻视频中主播镜头的检测方法
CN101827224B (zh) * 2010-04-23 2012-04-11 河海大学 一种新闻视频中主播镜头的检测方法
CN104980790A (zh) * 2015-06-30 2015-10-14 北京奇艺世纪科技有限公司 语音字幕的生成和装置、播放方法和装置
CN104980790B (zh) * 2015-06-30 2018-10-09 北京奇艺世纪科技有限公司 语音字幕的生成方法和装置、播放方法和装置
CN105760084A (zh) * 2016-01-25 2016-07-13 百度在线网络技术(北京)有限公司 语音输入的控制方法和装置

Also Published As

Publication number Publication date
CN100417201C (zh) 2008-09-03

Similar Documents

Publication Publication Date Title
US7305128B2 (en) Anchor person detection for television news segmentation based on audiovisual features
US6101274A (en) Method and apparatus for detecting and interpreting textual captions in digital video signals
CN1155233C (zh) 数字电视图像自动宽高比格式检测方法和装置
RU2494566C2 (ru) Устройство и способ управления отображением
CN110267061B (zh) 一种新闻拆条方法及***
EP1382017B1 (en) Image composition evaluation
US20040170392A1 (en) Automatic detection and segmentation of music videos in an audio/video stream
EP1081960A1 (en) Signal processing method and video/voice processing device
US20080127244A1 (en) Detecting blocks of commercial content in video data
US20040268380A1 (en) Method for detecting short term unusual events in videos
US20070261075A1 (en) Method for detecting a commercial in a video data stream by evaluating descriptor information
KR20050014866A (ko) 메가 화자 식별 (id) 시스템 및 이에 대응하는 방법
KR100763899B1 (ko) 앵커 샷 검출 방법 및 장치
CN106792005B (zh) 一种基于音视频结合的内容检测方法
CN107066488B (zh) 基于影视内容语义分析的影视桥段自动分割方法
Li et al. Identifying photorealistic computer graphics using second-order difference statistics
CN115147641A (zh) 一种基于知识蒸馏和多模态融合的视频分类方法
CN100417201C (zh) 检测新闻主播的影音特征以将电视新闻分段的方法
JP2012190288A (ja) 文字列検知装置、画像処理装置、文字列検知方法、制御プログラムおよび記録媒体
CN101827224B (zh) 一种新闻视频中主播镜头的检测方法
CN1672404A (zh) 用于控制视频***的操作的方法和***
CN107027067B (zh) 获取mv视频资源中字幕信息的方法及***
CN114449362B (zh) 视频封面的选取方法、装置、设备及存储介质
Elliot Multiple views of digital video
CN111813996B (zh) 基于单帧和连续多帧抽样并行的视频搜索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080903

Termination date: 20190817