CN102111601A

CN102111601A - 内容可适性的多媒体处理***与处理方法

Info

Publication number: CN102111601A
Application number: CN2009102636148A
Authority: CN
Inventors: 寇世斌; 倪嗣尧; 蓝元宗; 林仲毅; 陈翊玮
Original assignee: Gorilla Technology Inc
Current assignee: Gorilla Technology Uk Ltd
Priority date: 2009-12-23
Filing date: 2009-12-23
Publication date: 2011-06-29
Anticipated expiration: 2029-12-23
Also published as: CN102111601B

Abstract

本发明提供一种内容可适性的多媒体处理***与处理方法，整合视频分析、音频分析及文字分析等结果进行决策处理，将包含视频、音频及字幕的多媒体内容，在兼顾视频、音频及文字内容的处理方式下，转换为可在不同播放装置上取得较佳观看效果的多媒体内容。通过本***，原始多媒体内容经处理后，在不同的播放装置，如不同显示尺寸的行动装置，或不同显示比例的计算机程序窗口上播放时，仍可将使用者感兴趣的视频内容作最大程度的保留，使画面不因屏幕缩小或比例改变而丧失重要细节，同时突显音频中重要内容，调整字幕的显示位置及显示方式。

Description

内容可适性的多媒体处理***与处理方法

技术领域

本发明关于一种内容可适性的多媒体处理***与处理方法，特别是关于一种可根据内容分析结果，将包含视频、音频及字幕的多媒体内容作一内容编辑、格式转换及多媒体压缩编码，使产生的多媒体内容，在不同播放装置上可取得较佳观看效果的方法。

背景技术

随着科技进步，在行动装置上观看影片或电视的多媒体应用越来越多，由于多媒体来源多具有高分辨率、多声道的特色，而行动装置种类繁多，屏幕显示尺寸及显示比例也不尽相同，如需于行动装置上的屏幕播放，在屏幕播放尺寸、装置播放能力、网络传输频宽及多媒体储存空间的考虑下，多媒体串流或多媒体档案需经过一番转换，以符合行动装置的屏幕尺寸及维持播放的流畅度。

在视频部分，目前传统作法将多媒体的视频内容等比例缩小至符合行动装置屏幕的尺寸。然而由于受限于行动装置的屏幕大小，使用者于行动装置的小屏幕上，常无法取得等同于电视屏幕或计算机屏幕等其它显示装置上的观看效果及体验。例如视频画面上的关键物体，经过与整个画面等比例一起缩放后，将无法于行动装置的屏幕保留该关键物体的细节、无法呈现原来的重要性。

在音频部分，受限于行动装置的音效播放装置，因此原始多媒体的音频内容，也须作适度转换以符合于行动装置上播放。目前传统作法是直接采用降混(downmix)的方式，将多声道音频内容降为立体声或单声道的音频内容。由于行动装置移动性佳的特性，音频容易受到所在环境噪音的干扰，使重要的音频内容，不容易收听清楚。且行动装置因喇叭大小与功率的限制有较差的频率响应，会造成如***音等背景音效明显的失真、或背景音效太大声造成前景音效如对白相对太小声，使用者时常需要调整音量。

而受限于行动装置的屏幕大小，原始的字幕文字内容，若全部显示于画面上，则需与原始画面同比例缩放，此法将导致文字过小及拥挤而不易看清。如采用字幕文字与原始画面不同比例缩放，则又会发生文字过大而遮蔽过多画面或字幕过长而超出画面显示范围的问题。

发明内容

有鉴于现有技术针对多媒体视频、音频与字幕在进行缩放时会损失细节的问题，本发明提出一个***、计算机程序产品及相关方法，整合视频分析、音频分析、文字分析等方法所得结果，利用决策模块分析整合数据，进行视频、音频及字幕文字的内容的自动调整，以产生在不同播放装置上播放时，尤其是行动装置上播放时，仍能取得最佳观赏效果的多媒体内容。

实施例即针对多媒体的视频、音频及字幕文字等内容分别进行视频分析、音频分析及文字分析，分析的结果，根据不同的播放装置设定，经决策判断及处理后，产出适当的多媒体内容。

本发明的流程包含内容分析、决策及内容处理，当含有视频、音频及字幕文字的原始多媒体数据输入本***后，本***先针对多媒体数据进行内容分析，根据内容分析的结果，进行整合及决策判断，经处理后，最后产出适当的多媒体数据。其中原始多媒体数据及产出的多媒体数据可为包含视频、音频及字幕文字的档案或串流。内容分析流程包含视频分析、音频分析、文字分析及人工分析。视频分析、音频分析、文字分析及人工分析的结果，再经由决策流程根据环境参数及事先设定的规则进行判断，以决定多媒体内容的处理方式，例如影像缩放程度、背景声抑制程度或字幕摆放位置。最后内容处理流程则根据决策流程所决定的处理方式，实际处理并整合视频、音频及字幕文字内容，产出最后的结果。

本发明的目的在于能提供一个处理多媒体内容的***、计算机程序产品及相关方法，使多媒体内容在不同的播放装置播放时，例如尺寸较小的行动装置屏幕，或计算机上不同显示比例的窗口，仍能取得较佳的观看效果。原始多媒体内容经由内容分析的方式，将使用者感兴趣的视频内容作最大程度的保留，使画面不因屏幕缩小或比例改变而丧失重要细节，同时突显音频中重要内容，调整字幕的显示位置及显示方式，在兼顾视频、音频及文字内容的处理方式下，产生符合于不同播放装置上观看的多媒体数据。

本发明的应用范围，可为服务器端采用实时或预先处理的方式，将多媒体来源，根据本发明所提出的方法，重新编码为适合不同装置观看的多媒体内容，供使用者以实时串流的方式，或非实时下载多媒体档案的方式，在使用者的播放装置屏幕上观赏多媒体内容。本发明的应用范围，也可为服务器端根据本发明提出的方法，预先产生好描述指令，再交由多媒体处理***产生内容。本发明的适用范围，包含使用者通过行动装置、个人计算机或其它装置，以播放软件或网络浏览器或其它程序，播放本地端或远程多媒体档案的应用。本发明可应用的播放装置，包含行动电话、个人数字助理(PDA)、笔记型计算机、数字视频播放器，但不受限于以上所提及的装置。

附图说明

图1为根据本发明的架构图实施例；

图2为本发明的流程架构图的另一实施例；

图3为本发明关于视频分析子单元的架构图实施例；

图4为本发明关于注意力模型(Attention model)的应用实施例；

图5为本发明关于复位目标(Retarget)的应用实施例；

图6为本发明关于瞳位追踪(Eye/gaze tracking)的应用实施例；

图7为本发明关于音频分析子单元的架构图实施例；

图8为本发明关于语音与音乐侦测模块的应用实施例；

图9为本发明关于文字分析子单元的架构图实施例；

图10为本发明关于字幕文字采用关键词的应用实施例；

图11为本发明关于字幕文字采用断句与快速显示的应用实施例；

图12为本发明关于判断字幕文字显示位置的应用实施例；

图13为本发明关于决策单元的实施例。

【主要组件符号说明】

内容分析单元11 决策单元13

多媒体处理单元15 原始多媒体数据10

视频分析子单元111 音频分析子单元113

文字分析子单元115 人工分析140

环境参数160 处理后多媒体数据18

内容分析单元21 决策单元23

多媒体处理单元25 原始多媒体数据20

内容分析单元21 视频分析子单元211

音频分析子单元213 文字分析子单元215

人工分析240 环境参数260

描述指令集28 处理后多媒体数据29

分析决策子***2 多媒体处理子***3

视频分析子单元32 决策单元34

场景侦测模块321 注意力模型模块323

复位目标模块325 瞳位追踪模块327

原始视频数据30 音频分析结果341

文字分析结果343 人工分析结果345

环境参数347，747，947

影像内容401，403，405 注意力模型模块41

决策单元43 行动装置47

影像内容501，503，505，507

决策单元53 多媒体处理单元55

行动装置57 复位目标模块51

影像内容601，603，605 瞳位追踪模块61

决策单元63 音频分析子单元72

决策单元74 语音与音乐侦测模块721

语者辨识模块723 原始音频数据701

视频分析结果741 文字分析结果743

人工分析结果745 文字分析子单元92

语意标记模块921 字句分段模块923

原始字幕数据901 决策单元94

视频分析结果941 音频分析结果943

人工分析结果945

具体实施方式

请参考图1所示本发明所提供的内容可适性的多媒体处理***的架构图实施例，此实施例主要包含有内容分析单元11、决策单元13与多媒体处理单元15，其中内容分析单元11用以分析多媒体数据的内容，决策单元13能用以决策多媒体内容的处理方式，以及利用多媒体处理单元15对原始多媒体数据10进行内容编辑、格式转换及编码压缩产出适于不同播放装置或是播放环境播放的处理后多媒体数据18。

内容分析单元11接收原始多媒体数据10，再经由内容分析单元11分析后，分析结果传送至决策单元13进一步处理，其中内容分析单元11包含视频分析子单元111、音频分析子单元113及文字分析子单元115，分别用以分析多媒体的视频内容、音频内容及字幕文字内容。决策单元13可接收来自内容分析单元11的分析结果，以及人工分析140的结果，并可接受环境参数160。当决策单元13接收到分析结果后，将根据环境参数160及事先定义好的规则，经过判断，决定多媒体内容的处理方式。多媒体处理单元15根据决策单元13决定好的处理方式，将原始多媒体数据10进行内容编辑、格式转换及编码压缩成适当的内容，产出符合该播放装置观看需求的处理后多媒体数据18。

其中，环境参数160包含播放器相关参数，如显示能力(分辨率)，声音播放能力(声道数：例如单声道、双声道)，以及译码播放能力，同时环境参数160也可包含播放时的环境状况。因此环境参数160可以下列为例：以个人数字助理(PDA)，3.5寸VGA(分辨率640×480)屏幕，以立体声耳机为设备，在吵杂的环境中收看指定的多媒体内容。而人工分析140为以人工方式进行，经由主观判定，选取多媒体内容中属于重要或令人感兴趣的部分。人工分析140所得的数据，以符合决策单元13所需的输入格式，输入决策单元13。

请参考图2所示，本发明所提供的内容可适性的多媒体处理***的流程架构图的另一实施例。此实施例的架构主要包含有内容分析单元21、决策单元23与多媒体处理单元25，其中内容分析单元21用以分析多媒体数据的内容；决策单元23决策多媒体内容的处理方式；并通过多媒体处理单元25对原始多媒体数据20进行内容编辑、格式转换及编码压缩产出适于不同播放装置上播放的多媒体数据。

原始多媒体数据20经由内容分析单元21分析后，分析结果传送至决策单元23进一步处理，其中内容分析单元21还包含视频分析子单元211、音频分析子单元213及文字分析子单元215，分别用以分析多媒体的视频内容、音频内容及字幕文字内容。决策单元23可接收来自内容分析单元21的分析结果，以及人工分析240的结果，并可接受环境参数260。

当决策单元23接收到分析结果后，将根据环境参数260及事先定义好的规则，经过判断，决定多媒体内容的处理方式，不同的环境参数260可产生不同的处理方式。决策单元23决定好的处理方式，则以描述指令集28的方式表示。

一份相同的多媒体数据，可藉由输入不同的环境参数260，产生多份不同的处理方式及描述指令集28，环境参数表示各种不同的播放环境，包括不同的播放装置的硬件配置，故决策单元23是根据对应特定播放环境的环境参数产生一特定的描述指令集。也即，根据播放装置的不同，***可选用不同的描述指令集28传送至多媒体处理单元25处理，多媒体处理单元25根据传入的描述指令集28，将原始多媒体数据20进行内容编辑、格式转换及编码压缩成适当的内容，产出符合该播放装置观看需求的处理后多媒体数据(29)。

在较佳实施例中，内容分析单元21与决策单元23形成一分析决策子***2，多媒体处理单元25自成一多媒体处理子***3。分析决策子***2可根据不同的环境参数260产生不同的描述指令集28。根据选用的播放装置，多媒体处理子***3可挑选适当的描述指令集28将原始多媒体数据20进行内容编辑、格式转换及编码压缩来产生适合的处理后多媒体数据(29)。在一实施例中，多媒体处理子***3可为一非线性编辑***(NLE)，该***可根据描述指令集28，将原始多媒体数据20编修为适合的内容。

其中，描述指令集28记录了包含所对应的多媒体数据、环境参数、各张影像所需处理的区域与特定方式、音频段落所需处理的方式、字幕所需呈现的关键词与出现位置等。描述指令集28的记录方式，可为可扩展标示语言(Extensible Markup Language，XML)形式，以阶层的方式记录各媒体应处理的数据与方法。描述指令集28亦可结合非线性编辑***(NLE)，采用该***所指定的记录格式。

请参考图3所示的本发明关于视频分析子单元的架构图实施例。其中主要显示有视频分析子单元32与决策单元34，其中视频分析子单元32还至少包含有场景侦测(Shot detection)模块321、注意力模型(Attention Model)模块323、复位目标(Retarget)模块325与瞳位追踪(Eyes/gaze tracking)模块327。

场景侦测模块321是用以将视频数据作分段，相同场景的视频内容，经场景侦测模块321分析后，归为相同段落。藉由场景侦测模块321，可分析得到影片中场景切换的时间点，该信息可提供给其它分析方法作为辅助判断。

注意力模型模块323则是用以利用影像中各式特征分布，依据经验法则与人眼视知觉(Visual perception)特性建立出注意力模型，进而挑选出影片中的相对重点，也即找出较易吸引观赏者的部分。

复位目标模块325用以利用影像中能量的分布特性判定出影像中被拍摄物体是属于前景还是是背景，更可进一步排序出像素组合(pixel sets)对影像整体的重要性。

瞳位追踪模块327，用以记录观看者的眼睛与瞳孔的位置轨迹，进而推导出观看者在观赏影片时，影片中何处是观看者视觉注视区域。

多媒体内容的原始视频数据30输入视频分析子单元32后，分别经由场景侦测、注意力模型、复位目标及瞳位追踪等视频分析方法进行视频分析，分析结果将进一步传送至决策单元34，由决策单元34根据环境参数(347)并与音频分析结果(341)、文字分析结果(343)及人工分析结果(345)作整合，决定最后的处理方式。在本实施例中，场景侦测模块321系用以找出视频切换部分，也即场景切换点，以确保在剪辑缩放时，不至于在场景切换时，因不合适的缩放，导致观赏者的不舒适性。注意力模型、复位目标、瞳位追踪等模块及人工分析，皆是利用其特定方式选出视频内容中哪些部分为观赏者较可能注重的区域，而在接续的多媒体处理过程中不可以对其遮蔽、修改甚至是切裁，以避免重新编排影像内容时，将重要部分改变，而影响了观赏的乐趣。

其中关于注意力模型模块、复位目标模块及瞳位追踪模块，请详见以下的实施例说明。本实施例中，视频分析子单元可包含以上所提及的任意其中一个模块，也可包含任意组合的多个模块。本发明中视频分析子单元并不仅限本实施例所提及的模块，也可包含其它可达成本发明目的的视频分析模块。在一实施例中，视频分析子单元还可再包含人脸侦测(Face detection)及移动侦测(Motion detection)等其它视频分析方法。

注意力模型模块：

请参考图4，此图显示本发明关于注意力模型模块的应用实施例。图4的左上图为原始视频影像内容(401)，接着通过注意力模型模块41分析结果，产生右上图的影像内容(403)，其中显示一个以虚线框住的注意力的标的物。图4的左下图为经决策单元43及多媒体处理单元45处理后，所产生的适于行动装置47上播放的影像内容(405)。

在此实施例中，原始影像(401)经注意力模型模块41分析后，挑出影像中较易吸引观赏者的部分(影像403的虚线框住部分)，此分析结果将传送至决策单元43，决策单元43根据环境参数，并整合视频分析、音频分析、文字分析及人工分析的结果后，决定视频内容的处理方式采用注意力模型模块41的分析结果，最后由多媒体处理单元45处理，产生如图4最后行动装置47上的视频内容(405)。

本案应用的注意力模型的方法可参考美国专利第7,260,261号所揭露的加强影像适性的***与方法(System and Methods for Enhanced ImageAdaptation)，本发明相关技术领域的人员可依此参考资料了解适用于本发明视频分析子单元的注意力模型方法。

复位目标模块：

请参考图5所示本发明关于复位目标模块的应用实施例。图5的左上图为原始视频影像内容(501)，图5的右图为复位目标模块分析结果的影像(503)，图5的左下图为经决策单元53及多媒体处理单元55处理后，所产生的适于行动装置57上播放的影像内容(507)。

本实施例中，原始影像(501)经复位目标模块51分析后，找出影像中重要的目标物(505)及背景(503)，此分析结果将传送至决策单元53，决策单元53根据环境参数，并整合视频分析、音频分析、文字分析及人工分析的结果后，决定视频内容的处理方式采用复位目标模块51的分析结果，最后由多媒体处理单元55处理，产生如图5左下图的视频内容(507)。

由本实施例中可以看出(比对图4的影像403)，影像上的目标物505经由***处理后仍维持原始大小，影像上的背景则经过缩小处理以符合行动装置57的屏幕尺寸。目标物和背景间不同比例的缩放关系，使目标物的细节及重要性不因影像缩小而丧失。

上述复位目标的方法可参阅美国专利公开第2007/0025637号所揭露的用于小屏幕显示的复位影像方法(Retargeting Images for Small Display)，藉此前案可了解适用于本发明视频分析子单元的复位目标方法。

瞳位追踪模块：

图6所示为本发明关于瞳位追踪模块的应用实施例。图6的左上图为原始视频影像内容(601)，图6的右图为经瞳位追踪模块61分析的结果(603)，图6的左下图为经决策单元63及多媒体处理单元65处理后，所产生的适于行动装置67上播放的影像内容(605)。

本实施例中，原始影像(601)经瞳位追踪模块61分析后，找出影像中观赏者的视觉注视区域，此分析结果将传送至决策单元63，决策单元63根据环境参数，并整合视频分析、音频分析、文字分析及人工分析的结果后，决定视频内容的处理方式采用瞳位追踪模块61的分析结果，最后由多媒体处理单元65处理，产生如图6左下图的视频内容(605)。

可参考美国专利第7,259,785号所揭露的利用眼睛追踪的数字影像方法与装置(Digital Imaging Method and Apparatus Using Eye-Tracking Control)。本发明技术领域的人员可以经由参考资料了解适用于本发明视频分析子单元的瞳位追踪方法。

请参考图7所示本发明关于音频分析子单元的架构图实施例。

根据图式，架构中主要包括有音频分析子单元72与决策单元74，其中音频分析子单元72包含有语音与音乐侦测模块721，用以将音频中的语音及音乐作分类及分离，并有语者辨识模块723，用以区别音频中不同语者。

多媒体内容的原始音频数据(701)输入音频分析子单元72后，分别经由语音与音乐侦测模块721及语者辨识模块723所提供的音频分析方法进行音频分析，分析结果将进一步传送至决策单元74，由决策单元74根据环境参数(747)并与视频分析结果(741)、文字分析结果(743)及人工分析结果(745)作整合，决定最后的处理方式，而后交由多媒体处理单元对原始音频数据进行音频处理，使得处理后的多媒体内容于播放装置上播放时，在嘈杂的环境下仍能维持较佳欣赏的质量。

其中语音与音乐侦测模块721将原始音频依据各种不同内容特性，如人声、配乐、特效或依据发声的人物，分离判别成各自独立的音频。其分析结果经决策单元74判断后，产生决策结果，例如降低某时段过大的警铃特效音频音量，并提高同时段人声对白音频的音量。语者辨识模块723的分析结果，经决策单元74整合自视频分析结果(741)、文字分析结果(743)、人工分析结果745与环境参数(747)并综合判断后，产生决策结果，例如只单纯呈现出语者的视频画面。

在另一实施例中，决策单元74可整合音频分析结果及视频分析子单元72中的人脸侦测模块(未显示)的分析结果，当侦测出人脸时，可压抑背景音频或增强语音频号，以凸显人声对白音频，反之则无须修改音频数据。

在一实施例中，音频分析子单元72也可包含***音侦测模块，为完整呈现出***过程中所产生的视频及音频特效，决策单元74可依据音频分析子单元72的***音侦测分析结果，决定是否将***音音频视为主要音频数据并维持原始视频画面不予裁切。

有关语音与音乐侦测方法及语者辨识方法可参阅以下文件：

Abdullah I.Al-Shoshan，“Speech and Music Classification and Separation：AReview”，Journal of King Saud University.Engineering Sciences.Volume 19，No1.，2007。

Joseph P.Campbell，JR.，“Speaker Recognition：A Tutorial”，Proceedings ofthe IEEE Volume 85，Issue 9，Sep 1997Page(s)：1437-1462。

本发明相关领域人员可经由上述参考资料了解数种适用于本发明的音频内容分析方法。本实施例中，音频分析子单元72可包含以上所提及的任意其中一个模块，也可包含任意组合的多个模块。本发明中音频分析子单元72并不仅限本实施例所提及的模块，也可包含其它可达成本发明目的的音频分析模块。在一实施例中，音频分析子单元72可包含语音辨识、静音侦测、关键词侦测、***音侦测等其它音频分析方法。

图8显示本发明关于语音与音乐侦测模块的应用实施例。图8的(A)图显示音乐与语音频号未处理前的原始内容，其中语音频号(实线)与音乐讯号(虚线)混在一起，于行动装置上聆听时，容易因行动装置移动性佳的特性，使得音频因背景音乐的干扰，而漏失语音的重要内容。

图8的(B)图与(C)图分别为语音与音乐侦测模块分析结果，经侦测后分别撷取，将语音与音乐的讯号分离。图8的(D)图则为强化后音频结果，分析结果经决策单元判断及多媒体处理单元处理后，放大语音频号及减弱音乐讯号，再将语音频号与音乐讯号合并得到最后的结果。处理完的音频由于加强了语音的讯号，因此可减少于行动装置上欣赏多媒体时所受到的背景音乐干扰。

图9所示为本发明关于文字分析子单元的架构图实施例。实施例中揭露一文字分析子单元92，其中至少包含语意标记(Semantic tagging)模块921与字句分段(Text segmentation)模块923。语意标记模块921用以标记字幕文字的语意，而字句分段模块923用以分析字幕字句间的关系并予以分段。

多媒体内容的原始字幕数据(901)，经由语意标记模块921及字句分段模块923分析后，可得到包含多个关键词及字幕文字分段点的分析结果。该分析结果将传递至决策单元94，由决策单元94根据环境参数(947)，并整合视频分析结果(941)、音频分析结果(943)及人工分析结果(945)，及避免遮蔽视频重要区域、满足音频字幕同步以及依据播放器的显示能力决定字幕大小等定义好的规则，决定字幕文字的显示方式及显示位置。此部分实施例可参考图10至图12的实施例，以更进一步了解本发明所提供的有关文字分析之实施方式。

有关本发明中有关语意标记及字句分段的方法，可参考美国专利第6,311,152号所揭露的中文语意识别***(System for Chinese Tokenization andNamed Entity Recognition)。本发明技术领域相关人员可以经由参考资料了解适用于本发明的语意标记及字句分段方法。本发明中文字分析子单元92并不仅限本实施例所提及的模块，也可包含其它可达成本发明目的的文字分析模块。在一实施例中，文字分析子单元可包含关键词侦测。

请参考图10所示，其中显示本发明关于字幕文字采用文字分析的实施例，字幕文字经由文字分析单元分析后，撷取出字幕文字中数个关键词，以显示关键词的方式呈现字幕文字，其中关键词也可为关键词及关键词组。图10的(A)图为字幕显示原始影像与其字幕，图10的(B)图则为字幕显示改良结果。由图中可知，当显示全部字幕而未采用关键词时，显示的字幕文字过小且拥挤，不容易看清楚。当采用本发明，以显示字幕关键词，取代显示完整字幕时，字幕文字的字体可放大，容易识别，且使用者可轻易的从关键词推敲出完整字幕的原意。

图11所示为本发明关于字幕文字采用文字分析的另一实施例，字幕文字经由文字分析单元分析后，将字幕文字根据语意予以切割，以断句与快速显示的方式呈现。

图11的(A)图为字幕显示原始显示状态，图11的(B)(C)(D)(E)图则为字幕显示改良结果。由图中可知，若字幕文字过长，则会遮蔽过多画面，且文字过小且拥挤，不容易看清楚。本发明则采用文字分析的方式，将原本过长的字幕切为数段，分别于相关联的画面显示。

请参考图12所示，其为本发明关于字幕文字采用文字分析的另一实施例，字幕文字经由文字分析单元分析后，结合视频分析的结果，由决策单元判断字幕文字的显示位置。图12的(A)图为字幕显示原始结果，图12的(B)图则为字幕显示改良结果。

由图12(A)中可知，在行动装置屏幕上仍可清晰易辨的前提下，放大后的字体常常会遮蔽画面上重要的目标物。本实施例则结合视频分析中的场景侦测及人脸侦测方法，根据事先定义好的规则，避开人脸或移动的物体等目标物，将字幕文字的显示位置，从原先固定不变，改为显示在静止物或背景上，如图12(B)，将字幕文字对影像的影响降到最低。

请参考图13所示本发明关于决策单元的实施例。

此实施例中，将内容分析单元的分析结果及环境参数(100)输入决策单元(130)，经过数据整合(步骤S131)后，将依据定义好的规则给予各讯号不同的决策处理。

视频部分将会判定是否符合特殊剪辑的条件(步骤S132)。例如判断是否目标物与背景比例悬殊，或使用者目光焦点仅为整张影像中的一部分。

若不符合特殊剪辑条件(否)，则依据环境参数决定缩放比例(步骤S136)；反之(是)则进行剪辑安排(步骤S135)，例如目标物与背景采用不同比例缩放、移除背景影像的边缘等。

对字幕部分，则根据事先定义好的规则，先予决定字幕文字大小(步骤S133)，再判断字幕显示位置是否与视频的目标物重叠，决定是否重新安排显示位置(步骤S137)。

若不影响目标物(否)，则字幕显示于传统位置(步骤S139)，多数是位于屏幕下方；若影响目标物(是)，则辅助参考视频分析结果，将字幕显示于影像中的特定位置(步骤S138)，例如影像中的背景处。

音频部分，则根据事先定义好的规则，判断是否需进行语音强化(步骤S134)。

若不需要语音强化(否)，则音频部分将不进行任何修正；反之(是)，决策单元(130)将决定语音和音乐缩放倍率，分就语音与音乐部分给予不同的缩放指令(步骤S140)。

上述分别针对视频、字幕与音频的处理程序所产生的结果，经描述指令整合后(步骤S141)，最后结果以描述指令集的方式输出(120)。

综上所述，本发明所提供的内容可适性的多媒体处理***，经由结合视频分析、音频分析及文字分析，针对特定的播放装置处理多媒体内容，使产生的多媒体内容保有原多媒体内容的观赏乐趣，同时仍具有重点不遗失、声音稳定及字幕文字易阅读的特性。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种内容可适性的多媒体处理***，其特征在于，所述***包括：

一内容分析单元，接收多媒体数据，并分析该多媒体数据的内容，该内容分析单元包括：

一视频分析子单元，用以分析该多媒体数据的视频内容；

一文字分析子单元，用以分析该多媒体数据的文字内容；

一音频分析子单元，用以分析该多媒体数据的音频内容；

一决策单元，根据该内容分析单元针对该多媒体数据的分析结果决定一处理方式；以及

一多媒体处理单元，根据该处理方式将原始的多媒体数据内容编辑、格式转换及多媒体压缩编码成适于特定播放环境的多媒体数据；

其中，该内容分析单元传递视频分析结果、音频分析结果与文字分析结果至该决策单元，该决策单元整合视频分析结果、音频分析结果与文字分析结果，决定该处理方式。

2.如权利要求1所述的内容可适性的多媒体处理***，其特征在于，所述决策单元还接收一人工分析的结果，配合该内容分析单元的分析结果决定该处理方式。

3.如权利要求1所述的内容可适性的多媒体处理***，其特征在于，所述决策单元还接收一环境参数，配合该内容分析单元的分析结果，决定该处理方式，其中该环境参数包括一播放装置的显示尺寸及分辨率、一播放装置的声音播放能力与一播放装置的译码播放能力，而该决策单元所决定的该处理方式以一描述指令集呈现。

4.如权利要求3所述的内容可适性的多媒体处理***，其特征在于，所述多媒体处理单元还根据传入的该描述指令集，将原始的多媒体数据内容编辑、格式转换及多媒体压缩编码成适当的内容，产出符合特定播放环境的多媒体数据。

5.如权利要求1所述的内容可适性的多媒体处理***，其特征在于，所述视频分析子单元包括以下模块之一或多个模块的组合：

一场景侦测模块，用以将多媒体数据的视频数据作分段，相同场景的视频内容，经场景侦测模块分析后，归为相同段落；

一注意力模型模块，利用该多媒体数据的影像中各式特征分布，依据一人眼视知觉特性建立出一注意力模型，进而挑选出该多媒体数据中的相对重点；

一复位目标模块，利用该多媒体数据的影像中能量的分布特性判定出该多媒体数据中被拍摄物体是属于前景还是背景；

一瞳位追踪模块，用以记录一观看者的眼睛与瞳孔的位置轨迹，进而推导出观看者在观赏该多媒体数据时的视觉注视区域；以及

一人脸侦测模块，用以侦测视频中的人脸，所得结果将提供该决策单元对该多媒体数据的一种处理方式。

6.如权利要求1所述的内容可适性的多媒体处理***，其特征在于，所述文字分析子单元包括以下模块之一或多个模块的组合：

一语意标记模块，用以标记该多媒体数据中字幕文字的语意；以及

一字句分段模块，用以分析该字幕字句间的关系并予以分段；

其中该多媒体内容的字幕数据经由该语意标记模块及该字句分段模块分析后，得到包含多个关键词及字幕文字分段点的分析结果，并传递至该决策单元，决定该多媒体数据中字幕文字的显示方式及显示位置。

7.如权利要求1所述的内容可适性的多媒体处理***，其特征在于，所述音频分析子单元包括以下模块之一或多个模块的组合：

一语音与音乐侦测模块，用以将该多媒体数据的音频的语音及音乐作分类及分离，其中该语音与音乐侦测模块的分析结果经该决策单元判断后，由该多媒体处理单元将原始的多媒体数据中的语音讯号增强或将音乐讯号减弱；以及

一语者辨识模块，用以区别该音频中不同语者，其中该语者辨识模块的分析结果经该决策单元判断后，该多媒体处理单元将原始的多媒体数据中视频的焦点于不同的语者间切换。

8.一种内容可适性的多媒体处理方法，其特征在于，所述方法包括：

输入该内容分析单元的分析结果及环境参数至该决策单元，藉以依据定义好的规则产生不同的处理方式；

判定该多媒体数据中的视频部分是否符合一特殊剪辑的条件；

若不符合特殊剪辑条件，则依据该环境参数决定缩放比例；

若符合特殊剪辑条件，则进行一剪辑安排；

根据事先定义好的规则，决定该多媒体数据中字幕部分的文字大小；

判断该字幕显示位置是否与该多媒体数据中的视频的目标物重叠，以决定是否重新安排显示位置；

若经判断不影响目标物，则该字幕显示于传统位置；

若经判断影响目标物，则参考该视频分析结果，将该字幕显示于影像中的一特定位置；

藉此，分别针对该多媒体数据中的视频部分、音频部分与字幕部分的处理程序所产生的结果，经一描述指令整合后，以该描述指令集的方式输出。

9.如权利要求8所述的内容可适性的多媒体处理方法，其特征在于，所述多媒体处理方法还包括：

根据事先定义好的规则，判断该多媒体数据中的音频部分是否需进行语音强化；

若不需要语音强化，则该音频部分将不进行任何修正；

若需要语音强化，该决策单元决定语音和音乐缩放倍率，分就语音与音乐部分给予不同的缩放指令。

10.如权利要求8所述的内容可适性的多媒体处理方法，其特征在于，所述剪辑安排包括：

将该多媒体数据的影像中的目标物与背景采用不同比例缩放；以及

移除该多媒体数据的影像中背景影像的边缘。