CN104301659A

CN104301659A - 一种多点视频汇聚识别***

Info

Publication number: CN104301659A
Application number: CN201410582448.9A
Authority: CN
Inventors: 任德新; 李志敏
Original assignee: SICHUAN KBHG ENERGY TECHNOLOGY Co Ltd
Current assignee: SICHUAN KBHG ENERGY TECHNOLOGY Co Ltd
Priority date: 2014-10-24
Filing date: 2014-10-24
Publication date: 2015-01-21

Abstract

本发明公开了一种多点视频汇聚识别***，所述多点视频汇聚识别***包括移动终端和视频汇聚服务器，其中，所述视频汇聚服务器包括管理服务器，管理服务器包括视频汇聚单元，视频汇聚单元包括发言方确认模块、汇聚位置确认模块、汇聚比例确认模块以及汇聚模块。根据本发明，可以实现对于视频汇聚***的控制和管理。

Description

一种多点视频汇聚识别***

技术领域

本发明涉及多点视频汇聚技术领域。

背景技术

4G业务给移动终端用户提供了更丰富的网络带宽和优质的服务，随之带来的移动业务也在不断扩大，意味着人们可以享受更加高速的移动网络带宽。通过4G网络，移动终端也可以像计算机一样实现高质量的语音、视频传输以及流媒体播放等诸多的增值业务。随着4G业务运营的到来，网络运营商必然会给用户提供有线和无线等多样化的技术手段。通过业务融合，给用户带来无所不在的视频服务。其中，基于移动终端的多点视频汇聚是最常用、最便捷的方式。

基于移动终端的多点视频汇聚识别***可以在一个通讯信道上承载视频、音频等多媒体的数据，从而实现多点实时通信。即通过移动终端将不同地点人员场景的多媒体数据实时传送至多个客户端，为用户提供了极大的便携性。基于移动终端的多点视频汇聚识别***是一种便携、即时、高效并拥有非常广泛市场的新型通讯***。然而，现有的多点视频汇聚识别***，业务种类少、通信效率低、兼容性一般，越来越不能满足基于4G的视频业务的需求。为了实现4G业务需求，基于移动终端的多点视频汇聚识别***应当至少满足以下的功能需求：

(1)通信功能需求：能够响应和处理客户端的呼叫；可以协商客户端之间音视频编解码的格式；能够实现在不中断会议的情况下，动态添加或者删除通信成员；实现一点对多点、组播、广播等的通信方式。

(2)多点视频会议的执行功能需求：根据会议的配置完成会议的初始化；会议成员可以通过主动或被动方式加入会议。实现视频会议的执行和结束及释放资源，并与其他功能协调实现会议成员的变更等功能。

(3)多点视频会议的控制管理功能需求：在视频会议创建执行的基础上实现对会议及其各成员的管理，包括对某个会议成员的声音或者视频的开启/关闭，会议成员的踢出和添加等；功能设置，使得会议支持某个功能；会议的整体控制，包括会议的声音或者视频的开启/关闭等。

(4)多点视频会议的视频图像控制：能够根据视频会议参与人员以及发言情况对视频会议的视频图像进行控制，从而改善参与视频会议的移动终端用户之间的交互体验。

基于此，急需一种能够满足上述需求的多点视频汇聚识别***。

发明内容

本发明所要解决的技术问题是：如何实现视频汇聚的控制管理。为此，本发明提出一种多点视频汇聚识别***，可充分地解决由于现有技术的限制和缺陷导致的一个或多个问题。

本发明另外的优点、目的和特性，一部分将在下面的说明书中得到阐明，而另一部分对于本领域的普通技术人员通过对下面的说明的考察将是明显的或从本发明的实施中学到。通过在文字的说明书和权利要求书及附图中特别地指出的结构可实现和获得本发明目的和优点。

本发明提供了一种基于多点视频汇聚识别***，所述***包括移动终端和视频汇聚服务器，所述视频汇聚服务器包括管理服务器，用于对多个移动终端的信令进行交互处理，并通过SIP协议栈服务完成终端之间的通信；所述管理服务器包括视频汇聚单元，视频汇聚单元包括发言方确认模块、汇聚位置确认模块、汇聚比例确认模块以及汇聚模块，其中，

发言方确认模块包括面部识别子模块、嘴部识别子模块和发言方识别子模块，其中，面部识别子模块，用于判断从多个移动终端接收到的视频信号中是否有人的面部图像，并且，当判断结果为存在人的面部图像时，识别出视频图像中的人的面部图像的数量以及面部正对的方向；嘴部识别子模块，当面部识别模块判断存在多个人的面部图像时，基于所述面部图像来判断所述面部的嘴型是否发生变化；发言方识别模块，基于面部识别模块和嘴部识别模块的识别结果，从参加视频会议的多个移动终端中识别出发言方。

汇聚位置确认模块，用于根据发言方确认模块的确认结果，将所识别出的发言方的视频图像定位到最终视频图像的预定位置，并且根据发言方确认模块的面部识别子模块所识别出的发言方面部正对的方向，将其他移动终端的视频图像定位到最终视频图像的预定位置。

汇聚比例确认模块，用于根据发言方确认模块的确认结果将所识别出的发言方的视频图像在最终视频图像中的显示比例设置为预定值。

汇聚模块，用于根据发言方确认模块、汇聚位置确认模块、汇聚比例确认模块的确认结果，对移动终端的视频图像进行合并，得到最终视频图像。

所述移动终端包括视频图像采集模块、格式转换模块、分辨率转换模块、编码模块；其中，视频图像采集模块，用于通过摄像机采集视频图像；格式转换模块，用于将通过视频图像采集模块采集的视频图像的格式转换成用于数字视频信号处理的格式；分辨率转换模块，用于将从格式转换模块输出的视频信号的分辨率降低为预先设定的分辨率；编码模块，用于对从分辨率转换模块输出的视频信号进行编码。

优选的，汇聚比例确认模块将识别出的发言方的视频图像在最终视频图像中的显示比例设置为1/4。

优选的，所述汇聚位置确认模块将所识别出的发言方的视频图像定位到最终视频图像的预定位置，具体包括：将识别出的发言方的视频图像定位在最终视频图像的正中央。

优选的，所述汇聚位置确认模块根据发言方确认模块的面部识别子模块所识别出的发言方面部正对的方向，将其他移动终端的视频图像定位到最终视频图像的预定位置，具体包括，当识别出的发言方面部正对的方向为正对屏幕时，则将其他移动终端的视频图像定位到发言方视频图像的周围，当识别出的发言方面部正对的方向为面向左侧时，将其他移动终端的视频图像定位到发言方视频图像的左侧，当识别出的发言方面部正对的方向为面向右侧时，将其他移动终端的视频图像定位到发言方视频图像的右侧。

优选的，所述视频图像采集模块为摄像头。

附图说明

图1为根据本发明实施例的多点视频汇聚识别***的结构示意图。

图2为根据本发明实施例的视频汇聚单元的结构示意图。

图3为根据本发明实施例的移动终端的结构示意图。

具体实施方式

下面参照附图对本发明进行更全面的描述，其中说明本发明的示例性实施例。

如图1所示，所述的多点视频汇聚识别***主要由移动终端和视频汇聚服务器两部分构成。移动终端包括UI界面，并通过SIP协议完成会议服务器的信令传输与通信。移动终端还具备音、视频编解码的功能，能够对来自服务器的媒体流进行处理。

视频汇聚服务器包括管理服务器、位置服务器、代理服务器和注册服务器。视频汇聚***能够获取移动终端用户的信息，首先要确定该用户身份是否合法，即验证该用户是否为***注册用户，同时获取该用户终端位置信息，这样一套功能则需要注册服务器、位置服务器和代理服务器来集中完成，其中注册服务器专门负责终端的注册请求，位置服务器将终端位置与注册通过的SIP标识符绑定到一起，代理服务器则作为一个中间实体，对名字进行解析，并代理某个终端向视频汇聚服务器发出呼叫请求，类似网络中的路由功能。管理服务器是多点视频汇聚识别***中的核心设备，它主要负责对多个终端的信令进行交互处理，并通过SIP协议栈服务完成终端之间的通信关系。

管理服务器包括会议管理单元和视频处理单元。会议管理单元，用于管理已开会议、当前会议和未来会议，包括五个模块：预定会议模块、会议查询模块、会议修改模块、会议删除模块以及与会人员管理模块。

预定会议模块，用于增加一个预订会议，提供该会议的具体信息，内容包括:会议名称、会议拥有者、会议编号、主持人密码、主持人能够发言还是记录、用户密码、用户是能够发言或者旁听、会议开始时间、会议持续时间、会议重新开始时间、最大参与人数、邀请哪些人参加会议等等。

会议查询模块，会议查询模块又包含了三个子模块，分别为：已开会议查询模块、当前会议查询模块和未来会议查询模块，分别用于查询已开会议、当前正在进行的会议以及未来会议，并可显示会议的具体信息，内容包括：会议编号、会议名称、会议开始时间、会议结束时间、最多可参加会议的人数、实际参加会议的人数等等。

会议修改模块，用于修改任何正在进行中的会议和还没有进行中的会议。对于正在进行中的会议，可以修改下列信息：会议结束时间、最多可参加会议的人数。对于还没有开始的会议，可以修改其任何信息，包括：会议名称、会议拥有者、会议编号、主持人密码、主持人能够发言还是记录、用户密码、用户是能够发言或者旁听、会议开始时间、会议持续时间、会议重新开始时间、最大参与人数、邀请哪些人参加会议等等。

会议删除模块，用于删除会议，会议可以是己经开过的会议，也可以是未来的会议，但不能删除正在参加的会议，管理员只能够将会议终结，然后再另行删除。

与会人员管理模块，用于管理正在召开的某个会议的与会人员，包括将与会人员静音、解除静音、将其从会议中踢出、允许新成员加入会议等等。

图2示出了根据本发明的管理服务器的视频汇聚单元的框图。视频汇聚单元包括发言方确认模块、汇聚位置确认模块、汇聚比例确认模块以及汇聚模块。

发言方确认模块包括面部识别子模块、嘴部识别子模块和发言方识别子模块，其中，面部识别子模块，用于判断从多个移动终端接收到的视频信号中是否有人的面部图像，并且，当判断结果为存在人的面部图像时，识别出视频图像中的人的面部图像的数量以及面部正对的方向，也就是说，可以通过面部识别模块来确认参加视频会议的在线用户数量；嘴部识别子模块，当面部识别模块判断存在多个人的面部图像时，基于所述面部图像来判断所述面部的嘴型是否发生变化；发言方识别模块，基于面部识别模块和嘴部识别模块的识别结果，从参加视频会议的多个移动终端中识别出发言方，具体的，当面部识别模块从多个移动终端的视频图像中识别出人的面部图像的数量为1时，将该面部图像所属的移动终端识别为发言方，当面部识别模块从多个移动终端的视频图像中识别出人的面部图像的数量大于1，且嘴部识别子模块识别出所述面部的嘴型发生了变化时，将该面部图像所属的移动终端识别为发言方。

汇聚位置确认模块，用于根据发言方确认模块的确认结果，将所识别出的发言方的视频图像定位到最终视频图像的预定位置，例如将识别出的发言方的视频图像定位在最终视频图像的正中央；并且，根据发言方确认模块的面部识别子模块所识别出的发言方面部正对的方向，将其他移动终端的视频图像定位到最终视频图像的预定位置，例如，当识别出的发言方面部正对的方向为正对屏幕时，则将其他移动终端的视频图像定位到发言方视频图像的周围，当识别出的发言方面部正对的方向为面向左侧时，将其他移动终端的视频图像定位到发言方视频图像的左侧，当识别出的发言方面部正对的方向为面向右侧时，将其他移动终端的视频图像定位到发言方视频图像的右侧。

汇聚比例确认模块，用于根据发言方确认模块的确认结果将所识别出的发言方的视频图像在最终视频图像中的显示比例设置为预定值，例如将识别出的发言方的视频图像在最终视频图像中的显示比例设置为1/4。

图3示出了根据本发明的一个移动终端的框图。该移动终端包括视频图像采集模块、格式转换模块、分辨率转换模块、编码模块。其中，视频图像采集模块，用于通过摄像机采集视频图像；格式转换模块，用于将通过视频图像采集模块采集的视频图像的格式转换成用于数字视频信号处理的格式，例如，通过摄像机接收到的图像为RGB格式的VGA信号，格式转换模块将该RGB格式的VGA信号转换成YCbCr格式的VGA信号；分辨率转换模块，用于将从格式转换模块输出的视频信号的分辨率降低为预先设定的分辨率；编码模块，用于对从分辨率转换模块输出的视频信号进行编码。

以上内容仅为本发明的较佳实施例，对于本领域的普通技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，本说明书内容不应理解为对本发明的限制。

Claims

1.一种多点视频汇聚识别***，所述多点视频汇聚识别***包括移动终端和视频汇聚服务器，所述视频汇聚服务器包括管理服务器，用于对多个移动终端的信令进行交互处理，并通过SIP协议栈服务完成终端之间的通信，其特征在于：所述管理服务器包括视频汇聚单元，视频汇聚单元包括发言方确认模块、汇聚位置确认模块、汇聚比例确认模块以及汇聚模块，其中，

发言方确认模块包括面部识别子模块、嘴部识别子模块和发言方识别子模块，其中，面部识别子模块，用于判断从多个移动终端接收到的视频信号中是否有人的面部图像，并且，当判断结果为存在人的面部图像时，识别出视频图像中的人的面部图像的数量以及面部正对的方向；嘴部识别子模块，当面部识别模块判断存在多个人的面部图像时，基于所述面部图像来判断所述面部的嘴型是否发生变化；发言方识别模块，基于面部识别模块和嘴部识别模块的识别结果，从参加视频会议的多个移动终端中识别出发言方；

汇聚位置确认模块，用于根据发言方确认模块的确认结果，将所识别出的发言方的视频图像定位到最终视频图像的预定位置，并且根据发言方确认模块的面部识别子模块所识别出的发言方面部正对的方向，将其他移动终端的视频图像定位到最终视频图像的预定位置；

汇聚比例确认模块，用于根据发言方确认模块的确认结果将所识别出的发言方的视频图像在最终视频图像中的显示比例设置为预定值；

汇聚模块，用于根据发言方确认模块、汇聚位置确认模块、汇聚比例确认模块的确认结果，对移动终端的视频图像进行合并，得到最终视频图像；

2.根据权利要求1所述的多点视频汇聚识别***，其特征在于，所述汇聚比例确认模块将识别出的发言方的视频图像在最终视频图像中的显示比例设置为1/4。

3.根据权利要求1所述的多点视频汇聚识别***，其特征在于，所述汇聚位置确认模块将所识别出的发言方的视频图像定位到最终视频图像的预定位置，具体包括：将识别出的发言方的视频图像定位在最终视频图像的正中央。

4.根据权利要求1所述的多点视频汇聚识别***，其特征在于，所述汇聚位置确认模块根据发言方确认模块的面部识别子模块所识别出的发言方面部正对的方向，将其他移动终端的视频图像定位到最终视频图像的预定位置，具体包括，当识别出的发言方面部正对的方向为正对屏幕时，则将其他移动终端的视频图像定位到发言方视频图像的周围，当识别出的发言方面部正对的方向为面向左侧时，将其他移动终端的视频图像定位到发言方视频图像的左侧，当识别出的发言方面部正对的方向为面向右侧时，将其他移动终端的视频图像定位到发言方视频图像的右侧。

5.根据权利要求1所述的多点视频汇聚识别***，其特征在于，所述视频图像采集模块为摄像头。