CN104782121A

CN104782121A - 多区域视频会议编码

Info

Publication number: CN104782121A
Application number: CN201280077137.6A
Authority: CN
Inventors: L.颜; B.王
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2012-12-18
Filing date: 2012-12-18
Publication date: 2015-07-15
Also published as: EP2936802A4; WO2014094216A1; US20140341280A1; EP2936802A1

Abstract

***和方法可提供一种计算装置，其以不同质量等级对视频帧的多个区域进行编码。具体来说，包含发言人面部的一个或多个帧的第一区域可被定位并且以第一质量等级来编码。另一方面，包含背景的第二区域可被定位并且以第二质量等级来编码。可选地，包含附加面部的第三区域可被定位并且以第三质量等级来编码，以及第四区域可被定位并且以第四质量等级来编码。

Description

多区域视频会议编码

背景技术

视频会议应用的通信质量可极大地依靠网络的实时状态。许多当前视频会议***引入复杂算法来平滑通过视频会议应用所生成的内容与处理流播数据的网络能力之间的不匹配比特率等等所引起的(一个或多个)网络扰动。但是，这些算法可对会议***带来复杂度，并且在通信质量受到有限可用带宽显著限制的环境下仍然无法良好地表现。这类环境的示例包括：移动通信网络、乡村通信网络、其组合等。所需的是一种在无需牺牲视频帧中的重要信息的质量的情况下降低视频会议的比特率的方式。

附图说明

通过阅读以下说明书和所附权利要求书并参照以下附图，本领域的技术人员将会清楚地知道本发明的实施例的各种优点，附图包括：

图1示出按照本发明的一实施例的方面的示例视频会议方案；

图2A示出按照本发明的一实施例的方面、具有各种所识别实体和对象的示例视频帧；

图2B示出按照本发明的一实施例的方面、具有各种所识别区域的示例视频帧；

图3A和图3B示出按照本发明的一实施例的方面、具有各种所识别区域的示例视频帧；

图4和图5是按照本发明的一实施例的方面的示例多区域视频会议编码器的框图；

图6是按照本发明的一实施例的方面的示例多区域视频会议的流程图；

图7-9是按照本发明的一实施例的方面的视频会议编码机制的示例流程图；以及

图10和图11是本发明的一实施例的图示。

具体实施方式

本发明的实施例可通过以不同质量等级对视频帧的不同区域进行编码，在无需牺牲视频帧中的重要信息的质量的情况下降低视频会议的比特率。例如，可确定帧的最重要部分是发言人的面部。在这种情况下，实施例可按照比视频帧的其余部分要高的质量来对帧中包括发言人面部的区域进行编码。这个选择性编码可产生较小帧大小，其可安全地降低视频会议流的比特率。

示例视频会议在图1中示出。在这个示例视频会议中，照相装置120可捕获出席者110的编组的视频130。视频130然后可由电话会议装置140来输入和处理。电话会议装置140可以是例如：计算机***，具有所附连和/或集成的照相装置；分立电话会议装置；其组合；等等。在一些实施例中，照相装置120可与电话会议装置140相集成，从而形成电话会议***100。

电话会议装置140可使用编解码器从视频130来生成编码视频信号150，其中编解码器能够是运行于计算装置的装置或计算机程序，其能够对视频进行编码，以供存储、传输、加密、解码以回放或编辑、以上组合等。按照某些实施例，编解码器可设计和/或配置成优于视频的其它区域来强调视频的某些区域。可用编解码器的示例包括但不限于：从British Broadcast System可得到的Dirac；从Forbidden Technologies PLC可得到的Blackbird；从DivX, Inc.可得到的DivX；从Nero AG可得到的Neo Digital；Apple Inc.可得到的ProRes；以及从On2 Technologies可得到的VP8。编解码器的许多使用压缩算法，例如MPEG -1、MPEG-2、MPEG-4 ASP、H.261、H.263、VC-3、WMV7、WMV8、MJPEG、MPEG-4v3和DV。

视频编解码器速率控制策略可使用可变比特率(VBR)和恒定比特率(CBR)速率控制策略。可变比特率(VBR)是使可视视频质量为最大而使比特率为最小的策略。例如，在快速运动画面，可变比特率可使用比它在相似时长的慢速运动画面要多的比特，但仍然实现一致可视质量。对于在可用带宽可固定时的实时和非缓冲视频流播(例如在固定带宽的信道所传递的视频会议中)，可使用恒定比特率(CBR)。CBR可用于诸如视频会议、卫星和有线电视广播、其组合等的应用。

编解码器可实现的质量可受到编解码器使用的压缩格式影响。多个编解码器可实现相同压缩规范。例如，MPEG-1编解码器通常没有实现与实现更现代H.264规范的编解码器相当的质量/大小比率。但是，由相同规范的不同实现所产生的输出的质量/大小比率也可改变。

编码视频150可通过网络传输给第二电话会议装置。网络可以是本地网络(例如内联网)、基本通信网络(例如POTS(简易老式电话***))、高级电信***(例如卫星重放***)、混合网络、因特网等。电话会议装置170可与电话会议装置140相似。但是，在这个示例中，电话会议装置140可需要具有与编解码器兼容的解码器。解码器可以是与计算硬件结合操作的装置或软件，其进行编码器的逆操作，从而撤消编码，使得能够恢复原始信息。在这种情况下，解码器可需要恢复由电话会议装置140所编码的信息。

电话会议装置140和1470中的编码器和解码器可以是硬件编解码器。硬件编解码器可以是一种装置，其充当对信号或数据流的编码器和解码器，其中具有相同或独立电路或算法。在一些文献中，术语“编解码器”与术语“硬件编解码器”等效地使用。与硬件(其使用压缩算法来创建MPEG音频和/或视频)结合运行的装置或程序常常称作编码器，以及回放这类文件的装置或程序常常称作解码器。但是，这常常也可称作编解码器。

解码视频180可从电话会议装置170传递给显示装置190，以呈现解码视频195。显示装置可以是计算机、TV、投影仪、其组合等。

图2A示出按照本发明的一实施例的方面、具有各种所识别实体(210、232、234、236和238)和对象(240)的示例视频帧200。如这个图示所示，前景的肖像210是主要发言人。实体232、234、236和238是附加参与者。对象(240)是(一个或多个)附加项，其在电话会议期间对示范目的会是重要的。

图2B示出按照本发明的一实施例的方面、具有各种区域的视频帧。在这个图示中，覆盖发言人的面积可识别为第一区域212，以及该帧的其余部分(背景)可识别为第二区域222。

图3A和图3B示出具有所识别的各种备选区域的视频帧。图3A中，覆盖发言人的面积可识别为第一区域212，覆盖附加实体/参与者232、234、236和238(图2A)的面积可识别为第三区域330，覆盖(一个或多个)对象240的面积可识别为第四区域342，以及该帧的其余部分(背景)可识别为第二区域222。区域的大小可改变。例如，图3A中，第一区域212包括发言人以及发言人的外露身体的一部分。但是，图3B中，第一区域212仅包括发言人的头部。类似地，图3A中，第三区域330包括附加参与者以及附加参与者的外露身体的一部分。但是，图3B中，第三区域330仅包括附加参与者的头部。

按照各个实施例的一部分，区域辨别可由电话会议装置140来执行。图4是按照本发明的一实施例的方面的多区域视频会议编码器的框图。电话会议装置140可包括一个或多个区域确定模块420，以确定一个或多个帧415中的一个或多个区域。区域确定模块420可包括多个区域确定模块，例如区域确定模块1(421)、区域确定模块2(422)等，一直到区域确定模块n(429)。区域确定模块的每个可配置成识别(一个或多个)帧200(图2A和图2B)中的不同区域(例如区域212、330、342和222；图3A和图3B)。各区域确定模块(421、422、…、429)可从视频415区域数据(分别为431、432、…、439)来生成，其中区域数据(431、432、…、439)可由编码器模块440以不同质量来编码。例如，区域1数据431可由区域1编码器模块441以第一质量来编码，区域2数据431可由区域2编码器模块441以第二质量来编码，一直到区域n数据431可由区域n编码器模块449以又一不同质量来编码。在一些实施例中，有可能的是，一些区域确定模块可处理一个以上区域。还有可能的是，一个以上区域数据(431、432、…、和/或439)可由不同或相同编码器模块(441、442、…、和/或449)以相同或相似质量来编码。编码器模块440的输出可以是编码视频490，其具有按照不同质量的编码的不同区域，以改进编码视频的总比特率，而没有降低帧的重要元素、例如发言人面部的质量。

继续参照图2A、图2B和图4，第一区域212可包括发言人的面部。这个区域212可使用区域1确定模块421来确定。区域1确定模块421可包括面部识别模块，以定位视频帧200中的发言人面部210。面部识别模块可采用与计算硬件或者其它硬件解决方案相结合的计算机应用从视频帧200来识别一人或多人的位置。另外，面部识别模块可识别一人或多人的身份。定位帧中的头部的一种方法是检测面部特征(例如头部的形状)、诸如眼睛、嘴和鼻之类的特征的位置。示例面部识别***包括：在betaface [dof] com可得到的Betaface，以及从Warsaw University(Technology in Warsaw，Poland)可得到的Semantic Vision Technologies。

区域1确定模块421可包括面部跟踪模块，以跟踪发言人面部的位置。使用这个面部跟踪模块，区域1可调整成当发言人在帧中来回移动时跟踪发言人的面部。面部跟踪可使用面部的特征、例如鼻孔、嘴角和眼角以及皱纹，来跟踪移动。这种技术可使用主动外观模型、主成分分析、本征跟踪、可变形表面模型、逐帧跟踪预期面部特征的其它技术、其组合等。可依次应用于视频的帧、从而引起面部跟踪的示例面部跟踪技术包括Neven Vision***(以前的Eyematics，现在由Google, Inc.获得)，其允许实时2D面部跟踪，其中无需个人特定训练。

按照各个实施例的一部分，(一个或多个)区域确定模块420可重新指配第一区域以包括新发言人的面部。这可例如使用对已经所述的面部识别技术的扩展来实现。面部识别机制用来通过检测面部特征(例如头部的形状)、诸如眼睛、嘴和鼻之类的特征的位置，来定位帧中的头部。可将特征与已知实体的数据库进行比较，以识别特定用户。当指示另一用户正发言时，(一个或多个)区域确定模块420可重新指配第一区域，以包括新发言人的面部到另一个所识别用户。指示另一个用户正发言可来自***的用户和/或自动地来自(一个或多个)确定模块420本身。例如，面部识别的一些基于视觉的方式还可具有检测和分析唇和/或舌移动的能力。通过跟踪唇和舌移动，***还可以能够识别哪一个发言人在任何一个时间正说话，并且使区域1中的调整以包括和/或移动到这个潜在的新发言人。

按照本发明的各个实施例的一部分，可采用附加区域确定模块。例如，第三区域确定模块可将覆盖附加实体232、234、236和238的面积识别为第三区域330。这个区域可使用附加区域确定模块422来识别。这个模块可使用与区域2确定模块422相似的技术来识别附加参与者232、234、236和238驻留在(一个或多个)帧中的位置。另外，第四区域确定模块可将覆盖附加对象240等的面积识别为第四区域342。这个区域可使用自动化***(其配置成识别这类对象)来识别，和/或该区域可由用户来识别。例如，用户可在帧的某个区域周围绘制线条，以指示这个面积是第四区域342(图3A和图3B)。备选地，呈现可包括对象、例如白板，其可识别为区域、例如第四区域342。

如先前所述，该帧的其余部分(背景)可识别为第二区域222。为了实现这个方面，可从包含完整帧200的面积中减去其它区域(例如212、330和342)。但是，在一些实施例中，背景可按照其它方式来确定。例如，可采用例如色度(或颜色)键控等技术、采用预定遮蔽形状等，来确定背景。色度键控是一种用于基于色调(色度范围)将两个图像或视频流共同合成(分层)的技术。但是，本技术和本技术的方面可用来从视频的(一个或多个)主体来识别背景。换言之，颜色范围可被识别并且用来创建图像遮蔽。在各个实施例的一部分中，遮蔽可用来限定区域、例如第二(例如背景)区域222。色度键控技术的变化通常称作绿屏和蓝屏。可以均匀和不同的任何颜色的背景执行色度键控，但是更通常使用绿色和蓝色背景，因为它们的色调与大多数人类肤色最明显不同。市场销售的计算机软件、例如Pinnacle Studio和Adobe Premiere使用具有绿屏和/或蓝屏套件的“色度键”功能性。

图5是按照本发明的一实施例的方面的另一个多区域视频会议编码器的框图。具体来说，这个框图示出示例电话会议装置140实施例，其配置成处理总共四个区域(212、222、330和342；图3A和图3B)的视频515。区域确定模块520可采用四个区域确定模块(521、522、523和524)(各配置成在由(一个或多个)编码器模块540来编码之前识别和处理不同区域)来处理视频515。

区域1可以是覆盖主要参与者、例如积极发言人210(图2A)的面积212。区域1确定模块521可配置成识别视频帧515中的区域1面积212，并且生成那个所识别区域的区域1数据531。区域1数据531可由区域1编码器模块541以第一质量等级来编码。

区域2可以是覆盖背景222(图2B)的面积212。区域2确定模块522可配置成识别视频帧515中的区域2面积，并且生成那个所识别区域的区域2数据532。区域2数据532可由区域2编码器模块542以第二质量等级来编码。

区域3可以是覆盖电话会议中的附加实体/参与者的面积330。区域3确定模块523可配置成识别视频帧515中的区域3面积，并且生成那个所识别区域的区域3数据533。区域3数据533可由区域3编码器模块543以第三质量等级来编码。

区域4可以是覆盖感兴趣视频帧515的附加面积、例如(一个或多个)感兴趣对象240、白板、其组合等的面积342。区域4确定模块524可配置成识别视频帧515中的区域4面积，并且生成那个所识别区域的区域4数据534。区域4数据533可由区域4编码器模块544以第四质量等级来编码。

为了降低编码视频的比特率，各种区域数据(531、532、533和534)可使用不同质量等级来编码。质量等级可指示压缩等级。一般来说，压缩等级越低，则输出流的质量越高。较高压缩等级一般产生较低比特率输出，而较低压缩等级一般产生较高比特率输出。在图5的示例中，区域1数据531可按照比区域2数据532、区域3数据533和区域4数据534要高的质量来编码。在各个实施例的一部分中，区域2数据532可按照比区域3数据533和区域4数据534要高的质量来编码。在一些情况下，区域3数据可需要以较高质量来编码，以显示电话会议的重要主体。因此，本领域的技术人员将会知道，可采用不同区域的质量编码的其它组合。另外，可以是区域1编码器模块541、区域2编码器模块542、区域3编码器模块543和/或区域4编码器模块544中的一个或多个可按照相似和/或相同质量等级来编码。在各个实施例的一部分中，区域1编码器模块541、区域2编码器模块542、区域3编码器模块543和/或区域4编码器模块544中的一个或多个可以是配置成以不同质量等级来处理不同区域的相同编码器。

图6是按照本发明的一实施例的方面的示例多区域视频会议编码机制的框图。以虚线所示的框是可选动作。流程图可实现为使用硬件和/或与数字硬件相结合的软件的方法。另外，流程图可实现为非暂时机器可读介质上的一系列一个或多个指令，其在由处理器运行时使计算机实现该流程图。

可在610定位包含发言人面部的一个或多个帧的第一区域。可在帧中定位附加区域。例如：在630，可定位包含附加面部的一个或多个帧的第三区域；一个或多个帧的第四区域可由用户来定位；以及在620，可定位包含背景的一个或多个帧的第二区域。这些面积可使用先前所述技术来定位。

第一区域可采用先前所述面部识别技术来识别。面部跟踪技术可用来调整第一区域，以在发言人在视频帧中来回移动时跟踪发言人的面部。另外，第一区域可周期地重新指配给新发言人的面部。

区域的每个可按照不同质量来编码。例如，第一区域可在650以第一质量来编码，第二区域可在660以第二质量来编码，第三区域可在670以第三质量来编码，以及第四区域可在680以第四质量来编码。

质量等级可相对彼此来设置。例如，第三质量可低于第二质量，第二质量可低于第一质量，和/或第四质量可低于第一质量。根据诸如预期最终输出比特率、各个区域的预期图像质量、其组合等的限制，各种组合是可能的。在一些实施例中，一个或多个质量等级可以是相同的。一般来说，在视频会议应用中，区域1的质量等级将设置成最高，除非帧的另一个面积被认为更为重要。

图7至图9是按照本发明的一实施例的方面的视频会议编码机制的示例流程图。本发明的各个实施例的一部分可以以无价值信息的图像质量为代价来降低视频会议的比特率。面部检测和ROI(感兴趣区域)识别技术可以相结合，使得视频帧的关键信息、例如出席者面部或者用户定义ROI部分可被提取出来并且以高质量等级来编码。由于帧大小可变得较小，所以视频会议的比特率可降低。

在一些实施例中，视频帧中的信息可分类为至少3种类型。各类型可按照其重要性来指配有不同质量值。在许多情况下，包含发言人的面部和用户定义ROI的帧面积可指配成采用最高优先级质量等级来编码。第二等级可指配给其它出席者的面部。最后一个等级可指配给帧的背景。

对于这个示例，分类策略可基于视频会议应用的典型情形。发言人及其动作可以是视频会议的焦点。发言人可采用工具、例如黑板或投影屏幕来帮助呈现。对应地，一些实施例可自动检测发言人的面部以及发言人定义(一个或多个)用户定义ROI的特权。作为听众，其它出席者可能较少贡献于当前视频会议，因此它们可指配给第二级质量。最后，其余面积中的信息可大致为静态的，被看作背景并且指配有最小质量。

示例实施例可包括三个模块：“ROI守护程序”、“预编码”模块和“辨别编码”模块。图7示出“ROI守护程序”模块的流程图。在会议本地侧，“ROI创建事件”可定义为例如鼠标在本地视图上的恒定移动，而“ROI破坏事件”定义为例如在预定义ROI区域中的双击。守护程序可保持所创建ROI，监测并且响应本地视图事件，向用户提供ROI创建和破坏服务。具体来说，在这个示例中，在处理框710，可本地监测(一个或多个)窗口事件。在框720检测到ROI创建事件时，新ROI面积可添加到ROI池。如果在框750检测到ROI破坏事件时，可从ROI池中去除新ROI面积。

图8是“预编码”模块800的流程图，以及图9是“辨别编码”模块900的流程图。预编码模块800可在框810从照相装置接收原始帧。通过使用面部分析技术，可在框820提取出席者面部。通过跟踪嘴唇移动或表情变化的关于发言人是否已经改变的判断可在框830进行。除了由当前发言人进行的初始变化之外，如果发言人发生变化，则可预计发言人可定义了新ROI，并且因此关于ROI是否已经改变的检查可在框840进行。“ROI重新定义”框860可向“ROI守护程序”发送请求，以请求最近的用户定义ROI。在框850，脸部和ROI可按照先前所述的三个质量等级来分类。来自“预编码”模块的分类面部和ROI面积可在框860传递给“辨别编码”模块，其中分类面部和ROI面积可分别采用最高、中等和最低质量来编码。

未编码面部和/或(一个或多个)用户定义面积可在框910来接收。如果面积在框960确定为第1级面积(例如最高优先级质量等级)，则它可在框930以最高质量等级来编码。如果面积在框970确定为分级为第2级面积(例如中等优先级质量等级)，则它可在框940以中等质量等级来编码。否则，它可在框950以低质量等级来编码。这个过程继续进行到在框920确定所有面部和面积已经编码。编码帧然后可在框980封装发送给网络。

这个示例实施例可通过修改H.264编码模块以将不同QP(量化参数)值指配给三种类型的面积来实现。实验结果表明，通过原始H.264所编码的视频输出具有187 Kbps的比特率。但是，修改H.264编码器的视频输出，其中面部的编码质量比背景要大1.4倍并且比特率具有从187 kbps到127 Kbps的降低比特率。结果表示对比特率的32%改进。

图10示出***1000的一实施例。在实施例中，***1000可以是媒体***，但是***1000并不局限于这个上下文。例如，***1000可结合到个人计算机(PC)、膝上型计算机、超膝上型计算机、平板、触摸板、便携计算机、手持计算机、掌上计算机、个人数字助理(PDA)、蜂窝电话、组合蜂窝电话/PDA、电视机、智能装置(例如智能电话、智能平板或者智能电视机)、移动因特网装置(MID)、消息传递装置、数据通信装置等。

在实施例中，***1000包括耦合到显示器1020的平台1002。平台1002可从诸如(一个或多个)内容服务装置1030或者(一个或多个)内容传递装置1040之类的内容装置或者其它类似内容源来接收内容。包括一个或多个导航特征的导航控制器1050可用来与例如平台1002和/或显示器1020进行交互。下面更详细描述这些组件的每个。

在实施例中，平台1002可包括芯片组1005、处理器1010、存储器1012、存储装置1014、图形子***1015、应用1016和/或无线电1018的任何组合。芯片组1005可提供处理器1010、存储器1012、存储装置1014、图形子***1015、应用1016和/或无线电单元1018之间的相互通信。例如，芯片组1005可包括存储适配器(未示出)，其能够提供与存储装置1014的相互通信。

处理器1010可实现为复杂指令集计算机(CISC)或简化指令集计算机(RISC)处理器、x86指令集兼容处理器、多核心或者任何其它微处理器或中央处理器(CPU)。在实施例中，处理器1010可包括(一个或多个)双核处理器、(一个或多个)双核移动处理器等。

存储器1012可实现为易失性存储器装置，非限制性地例如随机存取存储器(RAM)、动态随机存取存储器(DRAM)或静态RAM(SRAM)。

存储装置1014可实现为非易失性存储装置，非限制性地例如磁盘驱动器、光盘驱动器、磁带驱动器、内部存储装置、附连存储装置、闪速存储器、电池备用SDRAM(同步DRAM)和/或网络可访问存储装置。在实施例中，例如，存储装置1014可包括在包括多个硬盘驱动器时增加有价值数字媒体的存储性能增强保护的技术。

图形子***1015可执行诸如静止或视频之类的图像的处理供显示。例如，图形子***1015可以是图形处理单元(GPU)或者视觉处理单元(VPU)。模拟或数字接口可用来在通信上耦合图形子***1015和显示器1020。例如，接口可以是高清晰度多媒体接口、DisplayPort、无线HDMI和/或符合无线HD的技术中的任一个。图形子***1015可集成到处理器1010或芯片组1005中。图形子***1015可能是通信上耦合到芯片组1005的独立卡。

本文所述的图形和/或视频处理技术可通过各种硬件架构来实现。例如，图形和/或视频功能性可集成在芯片组中。备选地，可使用分立图形和/或视频处理器。作为又一个实施例，图形和/或视频功能可通过包括多核处理器的通用处理器来实现。在另一实施例中，功能可在消费电子装置中实现。

无线电单元1018可包括一个或多个无线电单元，其能够使用各种适当的无线通信技术来传送和接收信号。这类技术可涉及跨一个或多个无线网络的通信。示范无线网络包括(但不限于)无线局域网(WLAN)、无线个人区域网络(WPAN)、无线城域网(WMAN)、蜂窝网络和卫星网络。在跨这类网络的通信中，无线电单元1018可按照任何版本的一个或多个适用标准进行操作。

在实施例中，显示器1020可包括任何电视机类型监视器或显示器。显示器1020可包括例如计算机显示屏幕、触摸屏显示器、视频监视器、类似电视机的装置和/或电视机。显示器1020可以是数字和/或模拟的。在实施例中，显示器1020可以是全息显示器。另外，显示器1020可以是可接收视觉投影的透明表面。这类投影可传送各种形式的信息、图像和/或对象。例如，这类投影可以是移动增强现实(MAR)应用的视觉覆盖。在一个或多个软件应用1016的控制下，平台1002可在显示器1020上显示用户界面1022。

在实施例中，(一个或多个)内容服务装置1030可由任何国家、国际和/或独立服务来托管，并且例如因而是平台1002经由因特网可访问的。(一个或多个)内容服务装置1030可耦合到平台1002和/或显示器1020。显示器1002和/或(一个或多个)内容服务装置1030可耦合到网络1060，以便向/从网络1060传递(例如发送和/或接收)媒体信息。(一个或多个)内容传递装置1040还可耦合到平台1002和/或显示器1020。

在实施例中，内容服务装置1030可包括有线电视盒、个人计算机、网络、电话、因特网使能装置或者能够传递数字信息和/或内容的设备以及能够在内容提供商与平台1002和/或显示器1020之间、经由网络1060或者直接地单向或双向传递内容的任何其它类似装置。将会理解，可经由网络1060向/从***1000中的组件的任一个和内容提供商单向和/或双向传递内容。内容的示例可包括任何媒体信息，其中包括例如视频、音乐、医疗和游戏信息等。

(一个或多个)内容服务装置1030接收内容，例如包括媒体信息的有线电视节目、数字信息和/或其它内容。内容提供商的示例可包括任何有线或***或无线电或者因特网内容提供商。所提供的示例并不是意在限制本发明的实施例。

在实施例中，平台1002可从具有一个或多个导航特征的导航控制器1050接收控制信号。例如，控制器1050的导航特征可用来与用户界面1022进行交互。在实施例中，导航控制器1050可以是指针装置，其可以是允许用户将空间(例如连续并且多维的)数据输入计算机中的计算机硬件组件(特别是人性化界面装置)。诸如图形用户界面(GUI)之类的许多***以及电视机和监视器允许用户使用形体姿态来控制并且将数据提供给计算机或电视机。

通过显示器上显示的移动指针、光标、聚焦环或者其它视觉指示符，可在显示器(例如显示器1020)上仿效控制器1050的导航特征的移动。例如，在软件应用1016的控制下，例如位于导航控制器1050上的导航特征可映射到用户界面1022上显示的虚拟导航特征。在实施例中，控制器1050可以不是独立组件，而是集成到平台1002和/或显示器1020中。但是，实施例并不局限于本文所述的元件或者上下文。

在实施例中，驱动程序(未示出)可包括使用户能够例如通过在引导之后触摸按钮(在被启用时)来立即接通和关断平台1002、例如电视机的技术。程序逻辑可允许平台1002在平台“关断”时，将内容流播到媒体适配器或者(一个或多个)其它(一个或多个)内容服务装置1030或者(一个或多个)内容传递装置1040。另外，例如，芯片组1005可包括对5.1环绕声音频和/或高清晰度7.1环绕声音频的硬件和/或软件支持。驱动程序可包括集成图形平台的图形驱动程序。在实施例中，图形驱动程序可包括外设部件互连(PCI)Express图形卡。

在各个实施例中，可集成***700中所示组件的任一个或多个。例如，可集成平台702和(一个或多个)内容服务装置730，或者可集成平台702和(一个或多个)内容传递装置740，或者例如可集成平台702、(一个或多个)内容服务装置730和(一个或多个)内容传递装置740。在各个实施例中，平台702和显示器720可以是集成单元。例如，可集成显示器720和(一个或多个)内容服务装置730，或者可集成显示器720和(一个或多个)内容传递装置740。这些示例并不是要限制本发明。

在各个实施例中，***700实现为无线***、有线***或者两者的组合。当实现为无线***时，***700可包括适合于通过无线共享介质(例如一个或多个天线、发射器、接收器、收发器、放大器、滤波器、控制逻辑等)进行通信的组件和接口。无线共享介质的一个示例包括无线谱的部分，例如RF谱等。当实现为有线***时，***700可包括适合于通过有线通信介质(例如输入/输出(I/O)适配器、将I/O适配器与对应有线通信介质连接的物理连接器、网络接口卡(NIC)、磁盘控制器、视频控制器、音频控制器等)进行通信的组件和接口。有线通信介质的示例可包括电线、电缆、金属引线、印刷电路板（PCB）、底板、交换结构、半导体材料、双绞线、同轴电缆、光纤等。

平台1002可建立一个或多个逻辑或物理信道以传递信息。信息可包括媒体信息和控制信息。媒体信息可表示预计送往用户的内容的任何数据。内容的示例可包括例如来自语音对话的数据、视频会议、流播视频、电子邮件(“email”)消息、语音邮件消息、字母数字符号、图形、图像、视频、文本等。来自语音对话的数据可以是例如话音信息、静寂周期、背景噪声、舒适噪声、信号音等。控制信息可表示预计用于自动化***的命令、指令或控制字的任何数据。例如，控制信息可用于通过***路由媒体信息，或者指示节点以预定方式处理媒体信息。但是，实施例并不局限于图10所示或所述的元件或上下文。

如上所述，***1000可按照变化物理样式或形状因数来实施。图11示出其中可包含***1000的小形状因子装置1100的实施例。在实施例中，例如，装置1100可实现为具有无线能力的移动计算装置。例如，移动计算装置可指具有处理***和移动电源或电力供应、例如一个或多个电池的任何装置。

如上所述，移动计算装置的示例可包括个人计算机(PC)、膝上型计算机、超膝上型计算机、平板、触摸板、便携计算机、手持计算机、掌上计算机、个人数字助理(PDA)、蜂窝电话、组合蜂窝电话/PDA、电视机、智能装置(例如智能电话、智能平板或者智能电视机)、移动因特网装置(MID)、消息传递装置、数据通信装置等。

移动计算装置的示例还可包括设置成供人佩戴的计算机，例如手腕计算机、手指计算机、指环计算机、眼镜计算机、皮带夹计算机、臂章计算机、靴式计算机、服饰计算机和其它可佩戴计算机。在实施例中，例如，移动计算装置可实现为智能电话，其能够运行计算机应用以及进行语音通信和/或数据通信。虽然作为举例可采用实现为智能电话的移动计算装置来描述一些实施例，但是可理解，其它实施例也可使用其它无线移动计算装置来实现。实施例并不局限于这个上下文。

如图11所示，装置1100可包括壳体1102、显示器1104、输入/输出(I/O)装置1106和天线1108。装置1100还可包括导航特征1112。显示器1104可包括用于显示信息、适合于移动计算装置的任何适当显示单元。I/O装置1106可包括用于将信息输入移动计算装置中的任何适当I/O装置。I/O装置1106的示例可包括字母数字键盘、数字键盘、触摸板、输入按键、按钮、开关、摇臂开关、话筒、扬声器、语音识别装置和软件等。信息也可通过话筒输入到装置1100中。这种信息可由语音识别装置来数字化。实施例并不局限于这个上下文。

各个实施例可使用硬件元件、软件元件或者它们两者的组合来实现。硬件元件的示例可包括处理器、微处理器、电路、电路元件(例如晶体管、电阻器、电容器、电感器等)、集成电路、专用集成电路(ASIC)、可编程逻辑装置(PLD)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片组等。软件的示例可包括软件组件、程序、应用、计算机程序、应用程序、***程序、机器程序、操作***软件、中间件、固件、软件模块、例程、子例程、功能、方法、过程、软件接口、应用程序接口(API)、指令集、计算代码、计算机代码、代码段、计算机代码段、字、值、符号或者它们的任何组合。确定实施例是否使用硬件元件和/或软件元件来实现的步骤可按照任何数量的因素而改变，例如预期计算速率、功率级、耐热性、处理周期预算、输入数据速率、输出数据速率、存储器资源、数据总线速度以及其它设计和性能限制。

至少一个实施例的一个或多个方面可通过机器可读介质上存储的、表示处理器中的各种逻辑的代表指令来实现，其在由机器读取时使机器制作执行本文所述技术的逻辑。称作“IP核心”的这类表示可存储在有形机器可读介质上，并且提供给各种客户或制造设施，以便加载到实际制作逻辑或处理器的制造机器中。

在本说明书中，“一”和“一个”等词语将被理解为“至少一个”和“一个或多个”。本公开中提到“一”、“一个”不一定是指同一实施例。

所公开实施例中所述的元件的许多可实现为模块。模块在这里定义为可隔离元件，其执行所定义功能并且具有到其它元件的所定义接口。本公开中所述的模块可通过硬件、硬件和软件的组合、固件或者其组合来实现，其全部是行为上等效的。例如，模块可使用计算机硬件结合通过计算机语言(例如C、C++、Fortran、Java、Basic、Matlab等)所编写的(一个或多个)软件例程或者建模/模拟程序(例如Simulink、Stateflow、GNU Octave或LabWIEW MathScript)来实现。另外，也许有可能使用结合了分立或者可编程模拟、数字和/或量子硬件的物理硬件来实现模块。可编程硬件的示例包括：计算机、微控制器、微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)和复杂可编程逻辑装置(CPLD)。计算机、微控制器和微处理器使用诸如汇编C、C++等的语言来编程。FPGA、ASIC和CPLD常常使用硬件描述语言(HDL)、例如VHSIC硬件描述语言(VHDL)或Verilog来编程，其配置内部硬件模块与可编程装置上的较小功能性之间的连接。最后需要强调，上述技术可组合地用来实现功能模块的结果。

另外，应当理解，突出任何功能性和/或优点的任何附图仅为了举例说明而提供。所公开的架构是充分灵活和可配置的，使得可按照除了所示之外的方式来利用它。例如，任何流程图中所示的步骤可重排序或者仅可选地用于一些实施例中。

此外，本公开的摘要的目的是使美国专利和商标局以及一般的公众、特别是不熟悉专利或法律术语或用语的本领域的科学工作者、工程师和从业者能够由粗略审查迅速确定本申请的技术公开的性质和要素。本公开的摘要不是要以任何方式来限制范围。

本申请人的意思是只有包括明确语言“用于…的部件”或“用于…的步骤”的权利要求才根据35 U.S.C.112第6节来理解。没有明确包括词语“用于…的部件”或“用于…的步骤”的权利要求不根据35 U.S.C. 112第6节来理解。

若无具体说明，可以理解，诸如“处理”、“计算”、“确定”之类的术语指的是计算机或计算***或者类似的电子计算装置的动作和/或过程，其中所述计算机或计算***或者类似的电子计算装置处理表示为计算***的寄存器和/或存储器中的物理(例如电子)量的数据和/或将其变换为类似地表示为计算***的存储器、寄存器或者这种信息存储、传送或显示装置中的物理量的其它数据。实施例并不局限于这个上下文。

术语“耦合”在本文中可用来表示所述的组件之间的直接或间接的任何类型的关系，并且可适用于电、机械、流体、光、电磁、机电或其它连接。另外，术语“第一”、“第二”等在本文中可用来仅便于论述，而没有包含特定时间或年代顺序意义，除非另加说明。

通过以上描述，本领域的技术人员将会理解，本发明的实施例的广义技术可通过多种形式来实现。因此，虽然已经结合本发明的具体实例描述了本发明的实施例，但是，本发明的实施例的真实范围不应当受此限制，因为在研究附图、说明书和以下权利要求书之后，技术人员将会清楚地知道其它修改。

Claims

1. 一种对视频会议进行编码的***，包括：

照相装置，捕获与所述视频会议关联的一个或多个帧；以及

电话会议装置，包括，

一个或多个区域确定模块，在所述一个或多个帧中确定：

包括发言人的面部的第一区域；以及

包括背景的第二区域，以及

一个或多个编码器：

以第一质量对所述第一区域进行编码，以及

以第二质量对所述第二区域进行编码，所述第二质量低于所述第一质量。

2. 如权利要求1所述的***，还包括面部识别模块，以定位发言人的面部。

3. 如权利要求1所述的***，还包括面部跟踪模块，以跟踪发言人面部的位置。

4. 如权利要求1-3中的任一项所述的***，其中：

所述一个或多个区域确定模块还定义包括附加面部的第三区域；以及

所述一个或多个编码器以比所述第一质量要低的第三质量对所述第三区域进行编码。

5. 如权利要求1-3中的任一项所述的***，其中：

所述一个或多个区域确定模块还定义由用户所指定的第四区域；以及

所述一个或多个编码器以比所述第一质量要低的第四质量对所述第四区域进行编码。

6. 一种用于对视频进行编码的设备，包括：

一个或多个区域确定模块，在一个或多个帧中确定：

包括发言人的面部的第一区域；以及

包括背景的第二区域，以及

一个或多个编码器：

以第一质量对所述第一区域进行编码，以及

以比所述第一质量要低的第二质量对所述第二区域进行编码。

7. 如权利要求6所述的设备，还包括面部识别模块，以定位发言人的面部。

8. 如权利要求6所述的设备，还包括面部跟踪模块，以跟踪发言人面部的位置。

9. 如权利要求6-8中的任一项所述的设备，其中：

10. 如权利要求6-8中的任一项所述的设备，其中：

11. 如权利要求6-8中的任一项所述的设备，其中，所述一个或多个区域确定模块重新指配所述第一区域以包括新发言人的面部。

12. 一种对视频进行编码的方法，包括：

定位包含发言人的面部的一个或多个帧的第一区域；

定位包含背景的所述一个或多个帧的第二区域；

以第一质量对所述第一区域进行编码，以及

以第二质量对所述第二区域进行编码。

13. 如权利要求12所述的方法，还包括：

定位包含附加面部的所述一个或多个帧的第三区域；以及

以第三质量对所述第三区域进行编码。

14. 如权利要求12所述的方法，还包括：

定位由用户所定义的所述一个或多个帧的第四区域；以及

以第四质量对所述第四区域进行编码。

15. 如权利要求14所述的方法，其中，所述第四质量低于所述第一质量。

16. 如权利要求13所述的方法，其中，所述第三质量低于所述第二质量。

17. 如权利要求12所述的方法，还包括使用面部识别来定义所述第一区域。

18. 如权利要求12所述的方法，还包括调整所述第一区域，以跟踪发言人的面部。

19. 如权利要求12所述的方法，还包括将所述第一区域重新指配给新发言人的面部。

20. 如权利要求12所述的方法，其中，编码采用MPEG压缩。

21. 如权利要求12-20中的任一项所述的方法，其中，所述第二质量低于所述第一质量。

22. 至少一种非暂时机器可读介质，包括用于对视频进行编码的一个或多个指令，其在由处理器运行时使计算机：

定位包含发言人的面部的一个或多个帧的第一区域；

定位包含背景的所述一个或多个帧的第二区域；

以第一质量对所述第一区域进行编码，以及

以第二质量对所述第二区域进行编码。

23. 如权利要求22所述的介质，其中，所述指令在运行时还使所述计算机：

定位包含附加面部的所述一个或多个帧的第三区域，以及

以第三质量对所述第三区域进行编码。

24. 如权利要求22所述的介质，其中，所述指令在运行时还使所述计算机：

定位由用户所定义的所述一个或多个帧的第四区域；以及

以第四质量对所述第四区域进行编码。

25. 如权利要求24所述的介质，其中，所述第四质量低于所述第一质量。

26. 如权利要求23所述的介质，其中，所述第三质量低于所述第二质量。

27. 如权利要求22所述的介质，其中，所述指令在运行时还使所述计算机使用面部识别来定义所述第一区域。

28. 如权利要求22所述的介质，其中，所述指令在运行时还使所述计算机调整所述第一区域以跟踪发言人的面部。

29. 如权利要求22所述的介质，其中，所述指令在运行时还使所述计算机将所述第一区域重新指配给新发言人的面部。

30. 如权利要求22-29中的任一项所述的介质，其中，所述第二质量低于所述第一质量。