CN101268505A - 用于对视频进行分类的方法和*** - Google Patents
用于对视频进行分类的方法和*** Download PDFInfo
- Publication number
- CN101268505A CN101268505A CNA2006800348687A CN200680034868A CN101268505A CN 101268505 A CN101268505 A CN 101268505A CN A2006800348687 A CNA2006800348687 A CN A2006800348687A CN 200680034868 A CN200680034868 A CN 200680034868A CN 101268505 A CN101268505 A CN 101268505A
- Authority
- CN
- China
- Prior art keywords
- classification
- task
- video
- important
- sorter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 37
- 230000005236 sound signal Effects 0.000 claims abstract description 20
- 239000000470 constituent Substances 0.000 claims description 15
- 238000002790 cross-validation Methods 0.000 claims description 15
- 238000002156 mixing Methods 0.000 claims description 15
- 239000000203 mixture Substances 0.000 claims description 12
- 238000012360 testing method Methods 0.000 claims description 10
- 239000012634 fragment Substances 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 claims 2
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000000605 extraction Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000013016 learning Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/06—Arrangements for sorting, selecting, merging, or comparing data on individual record carriers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/235—Processing of additional data, e.g. scrambling of additional data or processing content descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/435—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99942—Manipulating data structure, e.g. compression, compaction, compilation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99943—Generating database or data structure, e.g. via user interface
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99944—Object-oriented database structure
- Y10S707/99945—Object-oriented database structure processing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99948—Application of database or data structure, e.g. distributed, multimedia, or image
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Television Signal Processing For Recording (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种利用视频的音频信号和类别的集合对该视频进行分类的方法。将在集合中选定的分类合并为重要类别子集,该重要类别子集对于具体精彩场面任务是至关重要的,集合的剩余分类被合并为其它类别子集。所述重要类别子集和其他类别子集通过训练用音频数据进行训练以形成任务特有的分类器。接着,利用该任务特有的分类器,所述音频信号可被分类为重要音频信号或其他音频信号,以在对应于所述具体的精彩场面任务的视频中识别精彩场面。被分类的音频信号可用于对所述视频进行分段和摘要。
Description
技术领域
本发明总体上涉及对视频片段进行分类,更具体地说,涉及根据音频信号对视频片段进行分类。
背景技术
对有字幕或无字幕的视频内容进行分段是视频检索应用和浏览应用的关键任务。视频可通过标识精彩场面来分段。精彩场面是视频中任何包含关键或重要事件的部分。因为精彩场面记录了视频的精华,所以精彩场面的片段可提供视频的良好摘要。例如在体育活动的视频中,摘要包括得分事件和精彩比赛。
图1示出了一种典型的现有技术的音频分类方法100,参见ZiyouXiong,Regunathan Radhakrishnan,Ajay Divakaran and Thomas S.Huang,″Effective and Efficient Sports Highlights Extraction Using the MinimumDescription Length Criterion in Selecting GMM Structures,″Intl.Conf.onMultimedia and Expo,June 2004,以及Radhakrishnan等人在2004年8月20日提交的美国专利申请10/922,781“Feature Identification of Events inMultimedia”,两者的内容通过引用的方式被并入于此。
音频信号101是输入。从音频信号101的帧102中提取特征111(110)。特征111可以是修正离散余弦变换(MDCT)的形式。
此外如图2所示,特征111被通用多路分类器200分类为标签121。通用多路分类器200具有经训练的音频类别的一般集合210,所述经训练的音频类别例如掌声、欢呼、音乐、正常的言语、以及激动的言语。每个音频类别都由高斯混合模型(GMM)进行建模。GMM的参数根据从训练数据211中提取的特征确定。
通过确定特征111的GMM与每个分类的GMM之间的似然性(likelihood)并比较该似然性(20),对帧102的特征111的GMM进行分类。具有最大似然性的分类被选作特征的帧的标签121。
在通用分类器200中,每个分类被单独训练。每个模型的高斯混合成分的数量m基于最小描述长度(MDL)标准。当训练生成模型时,通常使用MDL标准。用于输入训练数据211的MDL标准可具有以下形式:
MDL(m)=-logp(data|Θ,m)-logp(Θ|m)(1)
其中,m指示具有参数Θ的具体模型的混合成分的编号,而p是似然性或可能性。
等式(1)的第一项是m混合成分模型的训练数据的对数似然性(loglikelihood)。其可被认为是关于该m混合模型的数据的平均代码长度。第二项可被解释为模型参数Θ的平均代码长度。利用这两项,MDL标准将对最可能描述所述训练数据的具体模型的识别与描述所述模型需要的参数数量进行平衡。
在一定数值范围(例如从1到40之间的范围)上搜索k。对于每个k值,利用将数据似然性项最大化的期望最大化(EM)优化处理来确定Θk的值,从而相应地计算MDL得分。具有最小期望得分的k值被选出。利用MDL训练分类210的GMM伴随着以下的隐含假设,即分别为每个音频类别选择优良的产生GMM产生了更好的总体分类效果。
重要度131的判定(130)取决于任务140或应用。例如,重要度与具体摘要任务中被标记为重要的帧所占的百分量相对应。在体育精彩场面(highlighting)任务中,重要类别可以是激动的言语或欢呼。在音乐会精彩场面任务中,重要类别可以是音乐。通过对重要度设定阈值,可对视频内容获得不同的片段和摘要。
通过选择合适的类别集合210和匹配的通用多路分类器200,只有重要度131的判定(130)需要取决于任务140。由此,不同的任务可关联到所述分类器。这样通过单独的分类器简化了工作执行。
发明内容
本发明的实施方式提供了将无字幕视频的音频信号分类为标签的方法。所述标签可随后被用于检测所述视频中的精彩场面,并用于构造仅包括所述精彩场面片段的摘要(summary)视频。
分类器适用高斯混合模型(GMM)以检测代表重要音频类别的音频帧。根据取决于具体任务的单一音频类别或多个音频类别的混合体出现的次数来提取精彩场面。
例如,体育赛事视频的精彩场面任务依赖于评论员激动的言语以及观众的欢呼的出现,而对音乐会精彩场面的提取将依靠音乐的出现。
替代针对所有任务使用单一通用音频分类器,本发明的实施方式使用任务特有的音频分类器。另外,利用训练期间的交叉验证(CV)误差替代现有技术中的最小描述长度(MDL)标准,确定在我们的任务特有的分类器中用于GMM的混合成分的数量。
这将提高分类器的准确度,并降低进行分类所需的时间。
附图说明
图1是现有技术分类方法的框图;
图2是现有技术通用多路分类器的框图;
图3是根据本发明的实施方式的分类方法的框图;
图4是任务特有的二进制分类器的框图;
图5是用于对应的任务的多个任务特有的分类器的框图;
图6A对各种分类器的模型进行比较;
图6B对各种分类器的模型进行比较;
图6C对各种分类器的模型进行比较;
图7A对通用的分类器和任务特有的分类器的混合成分进行比较;
图7B对通用的分类器和任务特有的分类器的混合成分进行比较;以及
图8是根据本发明实施方式的分类器的分类准确度的曲线图。
具体实施方式
图3示出了根据本发明实施方式的用于为具体任务350将视频303的音频信号301分类(400)为标签321的方法。标签321可随后被用以标识视频中的精彩场面。所述精彩场面可被分段(340)以产生仅包括所述精彩场面的视频摘要304。
视频303的音频信号301是输入。从音频信号301的帧302提取特征311(310)。特征311可以具有修正离散余弦变换(MDCT)的形式。应注意的是,还可以对其他音频特征(例如,Mel频率倒谱系数、离散傅立叶变换等)进行分类。
此外如图4所示,通过任务特有的二进制分类器400分配标签321来对特征311进行分类。通过确定特征311的GMM与每个类别的GMM对应的似然性,并对似然性进行比较(420),对帧302的特征311的GMM进行分类。具有最大似然性的类别被选为特征的帧的标签321。
任务特有的分类器400包括经训练的类别的集合401。这些类别可被存储在分类器的存储器内。将被认为对识别精彩场面来说至关重要的类别子集合合并为重要类别子集411。剩余的类别被合并为其他类别子集412。用如下所述的训练数据对重要类别子集和其他类别子集进行联合地训练(jointly trained)。
例如,重要类别子集411包括评论员激动的言语与观众的欢呼的混合体。评论员的激动的言语,是指一种通常由体育解说员或评论员在体育比赛中得分时使用的区别性的大声高音调的言语。欢呼通常是许多噪声的形式。其他类别子集412包括掌声、音乐和正常言语类别。应当理解的是,重要类别子集可以是多个类别的合并,例如,激动的言语和同步的欢呼和掌声。
在任何情况下,为了训练和分类的目的,只有两个类别子集:重要的类别子集和其他的类别子集。虽然各个子集可包括多个分类,但是任务特有的分类器被表征为二进制分类器。作为优点,该二进制分类器通常比多路分类器更准确,而且进行分类所花费的时间更少。
重要度331的判定(330)也取决于具体任务350或应用。例如,重要度与针对具体摘要任务被标记为重要的帧的百分比相对应。对于体育精彩场面任务,重要类别子集包括激动的言语和欢呼分类的混合体。对于音乐会精彩场面任务,重要类别子集将至少包括音乐类别,并可能包括掌声。
图5示出了根据本发明实施方式的二进制音频分类器的一般概念。各个具体任务501-503与对应的任务特有的分类器511-513相关联。与现有技术的主要区别是不用通用的多路音频分类器,本发明***了取决于具体任务的分类器。这允许用户针对视频中不同分类的精彩场面构造优化的小型且有效的分类器。
如图4所示,对于特定类型的精彩场面任务350,本发明为重要类别子集使用一个高斯混合模型(GMM),并为其他类别子集使用一个GMM。利用针对重要类别的训练示例数据来训练重要类别子集。利用来自所有其他分类的训练示例数据来训练其他类别子集。
图4示出了为体育精彩场面而设计的任务特有的二进制分类器400。该分类器使用二进制分类器,其中重要类别包括激动的言语和欢呼的混合体,而其他类别子集对其他所有音频成分进行建模。
构造任务特有的分类器400的动机是本发明可以减小分类问题的计算复杂度,并增加检测重要类别的准确度。
尽管可存在多个分类,但是通过将多个分类合并为两个子集,本发明有效地实现了二进制分类器。与必须在更大的通用音频类别集合中进行分辨的通用多路分类器相比,该二进制分类需要更少的计算。
然而,本发明还考虑到如何训练这种分类器,同时留意这种分类器使用分类的子集。如果本发明遵循现有技术中基于相同的MDL的训练过程,那么我们将极可能对于各种分类学习到相同的混合成分。即,当利用MDL针对任务特有的分类器训练其他类别子集时,有可能学习到的混合成分的数量将非常接近如图2所示的用于掌声、言语和音乐类别的成分的数量之和。这是因为MDL训练过程关注于根据训练数据211生成良好的GMM。
如果其他类别子集中的冗余较小,那么经训练的模型仅仅是该模型代表的所有类别的模型的组合。MDL标准用于帮助为训练数据211发现良好的产生模型,但不对我们最终关心的内容(即,分类效果)进行直接优化。
我们希望选择每个GMM的混合成分的数量和参数,使得当该数量和参数用于分类时具有最低的分类误差。因此,对于本发明的任务特有的分类器,我们使用对分类的估计进行优化的联合训练过程,而不使用MDL。
假设C=2,其中C是在本发明的分类器中类别子集的数量。
在训练数据413的向量x中具有Ntrain个样品。每个样品xi具有从1到C取值的相关类别标签yi。
本发明的分类器400具有以下形式:
其中m=[m1,...,mC]T是每个分类模型的混合成分的数量,Θi是与分类i,i={1,2}相关的参数。这与由等式(1)表示的现有技术的通用分类器200不同。
如果有足够的训练数据413,则从中取出一部分训练数据作为具有Ntest个样品的验证集合并且将它们的相关标签设置为(xi,yi)。对于具体的m,该集合的经验测试误差是
其中当yi=f(xi;m)时δ为1,其他情况下δ为0。
这需要在m的设置范围上进行网格搜索,并且在每次设置时,重复训练GMMs,并检查得到的分类器的测试误差。
如果训练数据不足以设置验证集合,则可使用K折交叉验证(K-foldcross validation),参见Kohavi,R.,″A Study of Cross-Validation andBootstrap for Accuracy Estimation and Model Selection,″Proceedings of the14th International Joint Conference on Artificial Intelligence,StanfordUniversity,1995,其内容以引用的方式并入于此。
K折交叉验证可概括如下。训练数据被分割为K个相等大小的部分。假设
k:{1,...,N}→{1,...,K}
将N个训练样品映射到K个部分中的一个,设fk(xi;m)为在移除了第k部分的训练数据集合上训练的分类器。则误差的交叉验证估计是:
即,对于第k部分,本发明将模型拟合到其他K-1个数据部分,并在预测数据第k部分时确定被拟合的模型的预测误差。对训练数据的所有K个部分的每一部分进行这种操作。接着,我们确定:
这需要在为m的范围上进行搜索。本发明可以通过在较小的范围上搜索m而将训练加速。例如,如图4所示的分类器中,本发明可以针对重要类别411固定m1,并仅在m2上搜索其他类别子集412。我们可利用MDL标准来选择m1,即,为重要类别子集保持GMM。
图6A-图6C象征性地示出了不同的训练过程如何产生不同模型。图6A示出了在2D特征空间中对于3个不同类别利用现有技术的MDL过程而学习到的GMM模型。该MDL标准为每个分类单独挑选混合成分的数量。该MDL标准在每个生成概率模型被单独训练而不知晓其他分类的情况下有利于模型选择。对于该MDL的情况,分类中的所有簇(cluster)都按具有同等重要性来对待。
图6B示出了替代用于训练的MDL利用交叉验证(CV)所得到的期望结果。我们看到CV为每个分类挑选更少的成分。具体地说,CV利用更少的成分对图6A的模型的细节进行摘要。然而,我们看到尽管每个类别丢失了一些细节,但是我们仍然能够对分类进行分辨。
图6C示出了如果我们将分类隔离为重要类别子集和全部其他子集,并有效地构建二进制分类器时发生的情况。我们能够看到可使用更少的混合成分,而仍可分辨重要类别601和其他类别602。
用于模型选择的交叉验证对于区别性的二进制分类器是有利的。例如,当为重要类别子集训练模型时,我们也留意到其他类别,并且反之,当为其他类别子集训练模型时,我们同时也留意到重要类别子集。因为联合训练对竞争分类敏感,所以模型对于在边界区域的簇的建模比在其他区域更仔细。这也使得模型复杂度的降低。
参照图4,已经说明了将包含于分类器400中的类别合并为2组(其组成边界音频分类器)的方法。图4所示的实施方式提供了通过合并激动的言语类别和欢呼类别而获得的类别子集411,以及由其他类别组成的子集412,所述激动的言语类别和欢呼类别从图2所示的通用分类器中选出。这些子集对识别体育节目中的精彩场面是有效的。如果另一实施方式例如提供了音乐类别子集以及其他类别子集(未示出),则能够产生其中音乐场景显示出高似然性的分类器。由此,计算确定出含有包含在音乐节目中的音轨(music track)的场景具有高重要度,这对于识别含有音轨的场景是有效的。此外,还可以通过利用笑声作为训练数据并通过将该似然性与其他类别进行比较从而产生笑声类别,以识别包含在杂耍节目(variety program)中的含有突发笑声的场景。
参照图5,已经描述了通过切换与任务501到任务503相对应的分类器511到分类器513而适当地使用分类器511到分类器513的方法。当根据任务进行切换时,根据待分析的视频303的类型来选择分类器511到分类器513中的最优的一个。例如,在视频303包括体育节目的情况下选出的是根据激动的言语类别和/或欢呼类别来计算重要度的分类器,在音乐节目的情况下选出的是用音轨来计算场景的重要度的分类器,而在杂耍节目的情况下选出的是根据笑声类别来计算重要度的分类器。可以基于从记录在视频303中的节目信息获得的类别以切换的方式来执行选择分类器的任务501到任务503。此外,如果该***将要分析从电视播送中记录的节目,则可以基于从电子节目手册(EPG)获得的类别以切换的方式来执行任务501到任务503。
发明效果
本发明的实施方式提供了利用任务特有的二进制分类器对视频中精彩场面的检测。这些任务特有的二进制分类器被设计用于在少数分类(即,两个类别子集)之间进行区分。这种简化结合基于交叉验证和测试误差的训练,使得可以针对分类模型使用更少的混合成分。更少的混合成分意味着更快和更准确的处理。
图7A示出了针对现有技术的一般类别的成分数量(78),而图7B示出了针对任务特有的类别的成分数量(42)。
图8示出平均检测准确度,纵轴表示的重要类别是横轴表示的其他类别的成分数量的函数。
尽管本发明已通过优选实施方式的实施例进行了描述,但是应当理解的是,可在本发明的精神和范围内对本发明进行其他各种修改和变型。因此,所附的权利要求的目的在于覆盖落入本发明的真实精神和范围内的所有变型例和修改例。
Claims (13)
1.一种对视频进行分类的方法,该方法包括以下步骤:
定义用于对视频的音频信号进行分类的类别的集合;
将所述集合中的选定的类别合并为重要类别子集,该重要类别子集对于具体精彩场面任务是至关重要的;
将所述集合的剩余类别合并为其他类别子集;
利用训练用音频数据对所述重要类别子集和所述其他类别子进行联合地训练以形成任务特有的分类器;并且
利用所述任务特有的分类器将音频信号分类为重要音频信号或其他音频信号以在对应于所述具体的精彩场面任务的视频中识别精彩场面。
2.如权利要求1所述的方法,该方法还包括以下步骤:
根据已分类的音频信号将所述视频分段为重要片段和其他片段;并且
将所述重要片段合并为所述视频的摘要。
3.如权利要求1所述的方法,该方法还包括以下步骤:
将所述音频信号分割为帧;
从每个帧中提取音频特征;
根据所述音频特征将每个帧分类为重要帧或其他帧。
4.如权利要求3所述的方法,其中所述音频特征是修正离散余弦变换。
5.如权利要求1所述的方法,其中所述视频是关于体育活动的,且所述具体精彩场面任务是识别所述视频中的精彩场面,而且所述类别的集合包括激动的言语和欢呼的混合体类别、掌声类别、欢呼类别、正常言语类别以及音乐类别,且所述重要类别子集包括所述激动的言语和欢呼的混合体,而所述其他类别子集包括掌声、欢呼、正常言语以及音乐。
6.如权利要求1所述的方法,该方法还包括以下步骤:
用第一高斯混合模型表示所述重要类别子集;并且
用第二高斯混合模型表示所述其他类别子集。
7.如权利要求1所述的方法,其中所述训练联合地利用K折交叉验证。
8.如权利要求1所述的方法,其中所述训练联合地对分类的估计进行优化。
9.如权利要求1所述的方法,其中分类步骤分配标签,并且该方法还包括以下步骤:
根据所述具体精彩场面任务确定所述标签的重要度。
10.如权利要求6所述的方法,其中所述类别子集的数量C是2,而且所述训练用音频数据的向量x中有Ntrain个样品,每个样品xi具有从1到C取值的相关类别标签yi,所述任务特有的分类器具有以下形式:
其中m=[m1,...,mC]T是每个高斯混合模型的混合成分的数量,Θi是与类别i,i={1,2}相关的参数。
11.如权利要求10所述的方法,其中所述训练用音频数据包括具有Ntest个样品的验证集合,以及相关的标签为(xi,yi),并且对于具体的m,所述验证集合的经验测试误差是:
其中当yi=f(xi;m)时δ为1,其他情况下δ为0。
13.一种用于对视频进行分类的***,该***包括:
存储器,该存储器被构造为存储用于对视频的音频信号进行分类的类别的集合;
用于将所述集合中的选定的类别合并为重要类别子集的装置,所述重要类别子集对于具体精彩场面任务是至关重要的;
用于将所述集合中剩余的类别合并为其他类别子集的装置;
用于利用训练用音频数据对所述重要类别子集和所述其他类别子集进行联合地训练以形成任务特有的分类器的装置;以及
用于利用所述任务特有的分类器将所述音频信号分类为重要音频信号或其他音频信号以在对应于所述具体的精彩场面任务的视频中识别精彩场面的装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/326,818 | 2006-01-06 | ||
US11/326,818 US7558809B2 (en) | 2006-01-06 | 2006-01-06 | Task specific audio classification for identifying video highlights |
PCT/JP2006/326379 WO2007077965A1 (en) | 2006-01-06 | 2006-12-27 | Method and system for classifying a video |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101268505A true CN101268505A (zh) | 2008-09-17 |
CN101268505B CN101268505B (zh) | 2011-08-17 |
Family
ID=38228305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006800348687A Expired - Fee Related CN101268505B (zh) | 2006-01-06 | 2006-12-27 | 用于对视频进行分类的方法和*** |
Country Status (6)
Country | Link |
---|---|
US (1) | US7558809B2 (zh) |
EP (1) | EP1917660B1 (zh) |
JP (1) | JP4870087B2 (zh) |
KR (1) | KR100952804B1 (zh) |
CN (1) | CN101268505B (zh) |
WO (1) | WO2007077965A1 (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101938455A (zh) * | 2009-06-30 | 2011-01-05 | 中兴通讯股份有限公司 | 音频数据传输方法与装置 |
CN105992061A (zh) * | 2015-02-13 | 2016-10-05 | 上海交通大学 | 一种自适应动态的多媒体分级传送播放管理方法 |
CN107277617A (zh) * | 2017-07-26 | 2017-10-20 | 深圳Tcl新技术有限公司 | 预览视频的生成方法、电视机和计算机可读存储介质 |
CN107409193A (zh) * | 2014-12-15 | 2017-11-28 | 索尼公司 | 信息处理方法、影像处理装置和程序 |
CN108307250A (zh) * | 2018-01-23 | 2018-07-20 | 浙江大华技术股份有限公司 | 一种生成视频摘要的方法及装置 |
CN109089127A (zh) * | 2018-07-10 | 2018-12-25 | 武汉斗鱼网络科技有限公司 | 一种视频拼接方法、装置、设备及介质 |
CN109376268A (zh) * | 2018-11-27 | 2019-02-22 | 北京微播视界科技有限公司 | 视频分类方法、装置、电子设备及计算机可读存储介质 |
CN109691124A (zh) * | 2016-06-20 | 2019-04-26 | 皮克索洛特公司 | 用于自动生成视频亮点的方法和*** |
CN109756775A (zh) * | 2018-08-28 | 2019-05-14 | 蒋丽英 | 年代类型吻合度辨识方法 |
CN113096687A (zh) * | 2021-03-30 | 2021-07-09 | 中国建设银行股份有限公司 | 音视频处理方法、装置、计算机设备及存储介质 |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7630950B2 (en) * | 2006-08-18 | 2009-12-08 | International Business Machines Corporation | System and method for learning models from scarce and skewed training data |
US20080215318A1 (en) * | 2007-03-01 | 2008-09-04 | Microsoft Corporation | Event recognition |
CN103475837B (zh) | 2008-05-19 | 2017-06-23 | 日立麦克赛尔株式会社 | 记录再现装置及方法 |
JP5460709B2 (ja) * | 2009-06-04 | 2014-04-02 | パナソニック株式会社 | 音響信号処理装置および方法 |
JP2011013383A (ja) * | 2009-06-30 | 2011-01-20 | Toshiba Corp | オーディオ信号補正装置及びオーディオ信号補正方法 |
KR101615262B1 (ko) | 2009-08-12 | 2016-04-26 | 삼성전자주식회사 | 시멘틱 정보를 이용한 멀티 채널 오디오 인코딩 및 디코딩 방법 및 장치 |
US8532863B2 (en) * | 2009-09-28 | 2013-09-10 | Sri International | Audio based robot control and navigation |
US8432965B2 (en) * | 2010-05-25 | 2013-04-30 | Intellectual Ventures Fund 83 Llc | Efficient method for assembling key video snippets to form a video summary |
US8923607B1 (en) * | 2010-12-08 | 2014-12-30 | Google Inc. | Learning sports highlights using event detection |
ES2900594T3 (es) * | 2012-11-13 | 2022-03-17 | Samsung Electronics Co Ltd | Procedimiento para determinar un modo de codificación |
AU2014262533A1 (en) | 2013-05-10 | 2015-11-26 | Uberfan, Llc | Event-related media management system |
JP2015037212A (ja) * | 2013-08-12 | 2015-02-23 | オリンパスイメージング株式会社 | 情報処理装置、撮影機器及び情報処理方法 |
US10297287B2 (en) | 2013-10-21 | 2019-05-21 | Thuuz, Inc. | Dynamic media recording |
CN104679779B (zh) * | 2013-11-29 | 2019-02-01 | 华为技术有限公司 | 视频分类的方法和装置 |
US10536758B2 (en) | 2014-10-09 | 2020-01-14 | Thuuz, Inc. | Customized generation of highlight show with narrative component |
US10433030B2 (en) * | 2014-10-09 | 2019-10-01 | Thuuz, Inc. | Generating a customized highlight sequence depicting multiple events |
US10419830B2 (en) | 2014-10-09 | 2019-09-17 | Thuuz, Inc. | Generating a customized highlight sequence depicting an event |
US11863848B1 (en) | 2014-10-09 | 2024-01-02 | Stats Llc | User interface for interaction with customized highlight shows |
CN104581380B (zh) * | 2014-12-30 | 2018-08-31 | 联想(北京)有限公司 | 一种信息处理的方法及移动终端 |
US10381022B1 (en) * | 2015-12-23 | 2019-08-13 | Google Llc | Audio classifier |
US11138438B2 (en) | 2018-05-18 | 2021-10-05 | Stats Llc | Video processing for embedded information card localization and content extraction |
US11025985B2 (en) | 2018-06-05 | 2021-06-01 | Stats Llc | Audio processing for detecting occurrences of crowd noise in sporting event television programming |
US11264048B1 (en) | 2018-06-05 | 2022-03-01 | Stats Llc | Audio processing for detecting occurrences of loud sound characterized by brief audio bursts |
US20200037022A1 (en) * | 2018-07-30 | 2020-01-30 | Thuuz, Inc. | Audio processing for extraction of variable length disjoint segments from audiovisual content |
CN109344287A (zh) * | 2018-09-05 | 2019-02-15 | 腾讯科技(深圳)有限公司 | 一种信息推荐方法及相关设备 |
CN109446990B (zh) * | 2018-10-30 | 2020-02-28 | 北京字节跳动网络技术有限公司 | 用于生成信息的方法和装置 |
CN111261174B (zh) * | 2018-11-30 | 2023-02-17 | 杭州海康威视数字技术股份有限公司 | 音频的分类方法、装置、终端及计算机可读存储介质 |
US10909174B1 (en) * | 2019-02-04 | 2021-02-02 | Amazon Technologies, Inc. | State detection of live feed |
CN113826116A (zh) | 2019-05-15 | 2021-12-21 | 北京嘀嘀无限科技发展有限公司 | 用于多类分类的对抗性多二元神经网络 |
KR102554626B1 (ko) * | 2020-01-06 | 2023-07-13 | 한국전자통신연구원 | 점진적 학습을 위한 기계 학습 방법 및 이를 수행하기 위한 컴퓨팅 장치 |
US11206453B2 (en) | 2020-04-14 | 2021-12-21 | International Business Machines Corporation | Cognitive broadcasting of an event |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3475317B2 (ja) * | 1996-12-20 | 2003-12-08 | 日本電信電話株式会社 | 映像分類方法および装置 |
US20020093531A1 (en) * | 2001-01-17 | 2002-07-18 | John Barile | Adaptive display for video conferences |
US7007001B2 (en) * | 2002-06-26 | 2006-02-28 | Microsoft Corporation | Maximizing mutual information between observations and hidden states to minimize classification errors |
US20040167767A1 (en) * | 2003-02-25 | 2004-08-26 | Ziyou Xiong | Method and system for extracting sports highlights from audio signals |
US20050154987A1 (en) * | 2004-01-14 | 2005-07-14 | Isao Otsuka | System and method for recording and reproducing multimedia |
US7302451B2 (en) * | 2004-05-07 | 2007-11-27 | Mitsubishi Electric Research Laboratories, Inc. | Feature identification of events in multimedia |
-
2006
- 2006-01-06 US US11/326,818 patent/US7558809B2/en not_active Expired - Fee Related
- 2006-12-27 JP JP2007542936A patent/JP4870087B2/ja active Active
- 2006-12-27 WO PCT/JP2006/326379 patent/WO2007077965A1/en active Application Filing
- 2006-12-27 CN CN2006800348687A patent/CN101268505B/zh not_active Expired - Fee Related
- 2006-12-27 EP EP06843749.0A patent/EP1917660B1/en not_active Expired - Fee Related
- 2006-12-27 KR KR20087009318A patent/KR100952804B1/ko active IP Right Grant
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101938455A (zh) * | 2009-06-30 | 2011-01-05 | 中兴通讯股份有限公司 | 音频数据传输方法与装置 |
CN107409193A (zh) * | 2014-12-15 | 2017-11-28 | 索尼公司 | 信息处理方法、影像处理装置和程序 |
CN105992061A (zh) * | 2015-02-13 | 2016-10-05 | 上海交通大学 | 一种自适应动态的多媒体分级传送播放管理方法 |
CN105992061B (zh) * | 2015-02-13 | 2018-08-03 | 上海交通大学 | 一种自适应动态的多媒体分级传送播放管理方法 |
US10970554B2 (en) | 2016-06-20 | 2021-04-06 | Pixellot Ltd. | Method and system for automatically producing video highlights |
CN109691124B (zh) * | 2016-06-20 | 2021-07-27 | 皮克索洛特公司 | 用于自动生成视频亮点的方法和*** |
CN109691124A (zh) * | 2016-06-20 | 2019-04-26 | 皮克索洛特公司 | 用于自动生成视频亮点的方法和*** |
CN107277617A (zh) * | 2017-07-26 | 2017-10-20 | 深圳Tcl新技术有限公司 | 预览视频的生成方法、电视机和计算机可读存储介质 |
CN108307250A (zh) * | 2018-01-23 | 2018-07-20 | 浙江大华技术股份有限公司 | 一种生成视频摘要的方法及装置 |
CN109089127A (zh) * | 2018-07-10 | 2018-12-25 | 武汉斗鱼网络科技有限公司 | 一种视频拼接方法、装置、设备及介质 |
CN109089127B (zh) * | 2018-07-10 | 2021-05-28 | 武汉斗鱼网络科技有限公司 | 一种视频拼接方法、装置、设备及介质 |
CN109756775A (zh) * | 2018-08-28 | 2019-05-14 | 蒋丽英 | 年代类型吻合度辨识方法 |
CN109376268A (zh) * | 2018-11-27 | 2019-02-22 | 北京微播视界科技有限公司 | 视频分类方法、装置、电子设备及计算机可读存储介质 |
CN113096687A (zh) * | 2021-03-30 | 2021-07-09 | 中国建设银行股份有限公司 | 音视频处理方法、装置、计算机设备及存储介质 |
CN113096687B (zh) * | 2021-03-30 | 2024-04-26 | 中国建设银行股份有限公司 | 音视频处理方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
EP1917660A4 (en) | 2010-02-17 |
EP1917660B1 (en) | 2015-05-13 |
JP2009522587A (ja) | 2009-06-11 |
KR20080071554A (ko) | 2008-08-04 |
CN101268505B (zh) | 2011-08-17 |
KR100952804B1 (ko) | 2010-04-14 |
US7558809B2 (en) | 2009-07-07 |
US20070162924A1 (en) | 2007-07-12 |
EP1917660A1 (en) | 2008-05-07 |
JP4870087B2 (ja) | 2012-02-08 |
WO2007077965A1 (en) | 2007-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101268505B (zh) | 用于对视频进行分类的方法和*** | |
CN110147726B (zh) | 业务质检方法和装置、存储介质及电子装置 | |
CN110399609B (zh) | 意图识别方法、装置、设备及计算机可读存储介质 | |
CN102682760B (zh) | 重叠语音检测方法和*** | |
CN103299324A (zh) | 使用潜在子标记来学习用于视频注释的标记 | |
CN113766314B (zh) | 视频切分方法、装置、设备、***及存储介质 | |
CN111428028A (zh) | 基于深度学习的信息分类方法及相关设备 | |
CN111126396A (zh) | 图像识别方法、装置、计算机设备以及存储介质 | |
Pikrakis et al. | A speech/music discriminator of radio recordings based on dynamic programming and bayesian networks | |
CN103534755A (zh) | 声音处理装置、声音处理方法、程序及集成电路 | |
CN111462761A (zh) | 声纹数据生成方法、装置、计算机装置及存储介质 | |
CN116049412B (zh) | 文本分类方法、模型训练方法、装置及电子设备 | |
CN102473409B (zh) | 声音空间的基准模型适应装置、集成电路以及av设备 | |
CN111816170A (zh) | 一种音频分类模型的训练和垃圾音频识别方法和装置 | |
CN113988195A (zh) | 一种私域流量线索挖掘方法、装置、车辆、可读介质 | |
CN114328913A (zh) | 一种文本分类方法、装置、计算机设备和存储介质 | |
Kim et al. | Quick audio retrieval using multiple feature vectors | |
US20150310011A1 (en) | Systems and methods for processing textual information to identify and/or name individual digital tracks or groups of digital tracks | |
US20110029108A1 (en) | Music genre classification method and apparatus | |
CN103380457B (zh) | 声音处理装置、方法及集成电路 | |
CN113159203A (zh) | 歌曲标记模型训练、歌曲标记方法、电子设备及存储介质 | |
CN111681670A (zh) | 信息识别方法、装置、电子设备及存储介质 | |
CN110941719A (zh) | 数据分类方法、测试方法、装置及存储介质 | |
CN111540363B (zh) | 关键词模型及解码网络构建方法、检测方法及相关设备 | |
Turkia et al. | Innovative automatic discrimination multimedia documents for indexing using hybrid gmm-SVM method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110817 Termination date: 20201227 |
|
CF01 | Termination of patent right due to non-payment of annual fee |