WO2012142793A1

WO2012142793A1 - 一种视频通讯终端及视频通讯方法

Info

Publication number: WO2012142793A1
Application number: PCT/CN2011/076751
Authority: WO
Inventors: 姜韦
Original assignee: 中兴通讯股份有限公司
Priority date: 2011-04-21
Filing date: 2011-07-01
Publication date: 2012-10-26
Also published as: CN102752573B; CN102752573A

Abstract

本发明公开了一种视频通讯终端，包括音频模块、视频模块、调整模块以及控制模块，所述音频模块用于釆集音频信息，并将釆集到的音频信息转换为音频信号后传送至所述控制模块；所述视频模块用于釆集视频信息，并将视频信息转换为视频信号后传送至所述控制模块；所述控制模块用于根据接收到的音频信号和视频信号确定视频模块调整参数，并发送调整参数至所述调整模块；所述调整模块用于根据所述调整参数调整视频模块。本发明的视频通讯终端自动追踪用户的面部。

Description

一种视频通讯终端及视频通讯方法技术领域

本发明涉及通讯领域，尤其涉及一种视频通讯终端及视频通讯方法。背景技术

随着无线通讯技术的发展，无线通讯终端设备俗称无线终端，已经成为人们生活中的必备品。无线终端的基本功能是提供语音通话，近些年来，

3G技术已经也逐步走向成熟，视频通话技术也逐步引入无线终端，视频通话方式正在越来越广泛的被用户所推崇。

现有无线终端的内置摄像头绝大多数固定在无线终端内部，或者仅能小角度转动，当用户进行视频通话时，因为摄像头取景范围有限，所以经常会出现因无线终端位置的变动而使用户的头像脱离摄像头的取景范围，从而导致视频通话的对方无法看到本方用户的视频头像。发明内容

本发明提供了一种视频通讯终端，可自动追踪用户面部。

为解决上述技术问题，本发明釆用了如下的技术方案：

一方面，本发明公开了一种视频通讯终端，包括音频模块、视频模块、调整模块以及控制模块，其中，所述控制模块与所述音频模块、视频模块及调整模块分别相连，所述调整模块与所述视频模块相连；

所述音频模块，用于釆集音频信息，并将釆集到的音频信息转换为音频信号后传送至所述控制模块；

所述视频模块，用于釆集视频信息，并将视频信息转换为视频信号后传送至所述控制模块；所述控制模块，用于根据接收到的音频信号和视频信号确定视频模块调整参数，并发送调整参数至所述调整模块；

所述调整模块，用于根据所述调整参数调整视频模块。

上述视频通讯终端的一个实施例中，所述音频模块包括至少三个音频釆集器；

所述音频釆集器釆集的音频信号的强度与所述音频釆集器和声源之间的距离成反比；

所述音频釆集器设置于所述视频通讯终端的不同位置。

上述视频通讯终端的一个实施例中，所述音频模块还包括分析子模块，用于对预先釆集到的音频信号进行频域分析，获得所述音频信号的特征。

上述视频通讯终端的一个实施例中，所述音频模块还包括过滤子模块，用于根据所述音频信号特征，过滤音频信号中的噪声信号。

上述视频通讯终端的一个实施例中，所述控制模块根据接收到的音频信号和视频信号确定视频模块调整参数，按如下方式进行：

所述控制模块根据至少三个音频釆集器的位置及上述音频釆集器釆集到的强度不同的音频信号，确定声源的位置；

依照将所述声源置于所述视频模块的成像点上的要求，确定所述视频模块需要转动的角度和 /或伸缩距离，并作为视频模块调整参数。

上述视频通讯终端的一个实施例中，所述调整参数包括：

视频模块转动角度、和 /或视频模块伸缩距离。

另一方面，本发明还公开了一种视频通讯方法，包含：

音频模块釆集音频信息，并将釆集到的音频信息转换为音频信号后传送至控制模块；

视频模块釆集视频信息，并将视频信息转换为视频信号后传送至所述控制模块；所述控制模块根据接收到的音频信号和视频信号确定视频模块调整参数，并发送调整参数至所述调整模块；

所述调整模块根据所述调整参数调整视频模块。

上述视频通讯方法的一个实施例中，在所述音频模块将釆集到的音频信息转换为音频信号后传送至控制模块之前，所述方法还包括：

音频模块中分析子模块对预先釆集到的音频信号进行频域分析，获得所述音频信号的特征。

上述视频通讯方法的一个实施例中，在所述获得所述音频信号的特征之后，所述方法还包括：

音频模块中的过滤子模块根据所述音频信号特征，过滤音频信号中的噪声信号。

上述视频通讯方法的一个实施例中，所述控制模块根据接收到的音频信号和视频信号确定视频模块调整参数为：

依照将所述声源置于所述视频模块的成像点上的要求，确定视频模块需要转动的角度和 /或伸缩距离，并作为视频模块调整参数。

和现有技术相比，本发明的有益效果在于：

本发明公开了一种视频通讯终端，包括音频模块、视频模块、调整模块以及控制模块，所述音频模块用于釆集音频信息，并将釆集到的音频信息转换为音频信号后传送至所述控制模块；所述视频模块用于釆集视频信息，并将视频信息转换为视频信号后传送至所述控制模块；所述控制模块用于根据接收到的音频信号和视频信号确定视频模块调整参数，并发送调整参数至所述调整模块；所述调整模块用于根据所述调整参数调整视频模块。本发明的视频通讯终端根据用户的声音确定用户面部的位置，然后调整视频模块自动追踪用户的面部，避免了因为晃动等原因造成的用户面部脱离视频模块的取景范围，可使用户的面部一直位于视频图像中，且清晰成像，给用户带来了更好的使用体验。附图说明

图 1示例性地描述了本发明的视频通讯终端的***结构图；

图 2示例性地描述了本发明的视频通讯终端上的音频釆集器分布图；图 3示例性地描述了本发明的视频通讯终端确定声源位置示意图；图 4示例性地描述了本发明中的调整模块调整视频模块的示意图；图 5示例性地描述了本发明的视频通讯方法的流程图。具体实施方式

本发明公开的一种视频通讯终端，包括音频模块、视频模块、调整模块以及控制模块，其中，所述控制模块与所述音频模块、视频模块及调整模块分别相连，所述调整模块与所述视频模块相连。

下面对照附图并结合具体实施方式对本发明进行进一步详细说明。实施例一：

如图 1 所示，本发明一种实施例的视频通讯终端，包括音频模块、视频模块、调整模块以及控制模块，其中，所述控制模块与所述音频模块、视频模块及调整模块分别相连，所述调整模块与所述视频模块相连。

所述音频模块，用于釆集音频信息，并将釆集到的音频信息转换为音频信号后传送至所述控制模块。

所述视频模块，用于釆集视频信息，并将视频信息转换为视频信号后传送至所述控制模块。

视频模块通常为摄像头。

所述控制模块，用于根据接收到的音频信号和视频信号确定视频模块调整参数，并发送调整参数至所述调整模块。

所述调整模块，用于根据所述调整参数控制视频模块的转动及伸缩。调整模块通常为小型的步进电机，可以带动视频模块上下左右的转动，还可以带动视频模块小范围的前进或后退。

所述音频模块包括至少三个音频釆集器；所述音频釆集器釆集的音频信号的强度与所述音频釆集器与声源之间的距离成反比，即音频釆集器与声源相距越远，釆集到的音频信号强度越小，距离越近，釆集到的音频信号强度越大。

音频釆集器设置于所述视频通讯终端的不同位置。

音频釆集器通常为高灵敏度的麦克风。

一般情况下，三个高灵敏度麦克风已经可以确定视频釆集方向了，增加麦克风的个数，可使确定的视频釆集方向更为准确。三个高灵敏度的麦克风通常呈三角形设置。

音频模块还包括分析子模块，用于对预先釆集到的音频信号进行频域分析，获得所述音频信号的特征。

所述音频模块还包括过滤子模块，用于根据所述音频信号特征，过滤音频信号中的噪声信号。

一般情况下，视频通讯终端并不是一直处于相对安静的环境中的，本实施例的音频釆集器灵敏度较高，吵杂的环境会造成误判，因此，本实施例的视频通讯终端要先在相对安静的环境中，釆集用户的声音信息并进行频域分析，以获得用户的音频信号的特征。

由于每个人说话的声音的基础频率是相对稳定的，获得用户的音频信号特征后，若在相对杂音多的环境中使用时，音频模块中的过滤子模块就可以根据预先釆集到的音频信号的特征，将基础频率之外的噪声信号过滤 , 可提高视频通讯终端判断的准确性。下面以三个音频釆集器按三角方式设置于视频通讯终端上为例，说明控制模块如何根据接收到的音频信号定位视频釆集的方向的。

三个音频釆集器八、 B、 C的位置如图 2所示，这三个音频釆集器同一时刻釆集到同一个声源的音频信息后，转化为音频信号，并将上述三个音频信号发送至控制模块。

由于音频信号的强度和麦克风与声源之间的距离成反比，因此根据音频信号的强度，可以知道每个麦克风与声源之间的距离。

具体多少强度的音频信号强度对应多少的距离，在出厂时可以设定好。如图 3所示，确定声源位置的方法为：

若音频釆集器 A与声源之间的距离为 a, 则以音频釆集器 A为球心，做半径为 a的球面；音频釆集器 B与声源之间的距离为 b,则以音频釆集器 B为球心，做半径为 b的球面；音频釆集器 C与声源之间的距离为 c, 则以音频釆集器 C为球心，做半径为 c的球面；三个球面的交点即为声源的位置。

摄像头釆集的图像有成像区间，成像区间包括平面图像的成像范围，还有纵深方向上的成像清晰距离。

本实施例中，摄像头调整的目的是让用户的全脸清晰成像，并且全脸位于图像的中央，因此，调整摄像头需要调整两方面的参数，一是调整摄像头与声源（人脸）之间的距离，二是将声源（人的嘴）成像在合适的位置，使全脸位于图像的中央。

声源一般指的是用户的嘴，参照人脸，可以发现，嘴位于人的脸部左右对称、从上到下约三分之二的位置。

因此，本实施例中，确定的成像方向包括：在保证成像清晰距离的情况下，将摄像头成像范围左右对称的中心线上、从上到下三分之二的位置设置为成像点。为了将所述声源置于所述视频模块的成像点上时，控制模块需要确定视频模块需要转动的角度和 /或伸缩距离，即视频模块调整参数。

确定视频模块调整参数后，控制模块发送调整参数至调整模块，调整参数中包括：

视频模块转动角度，及视频模块伸缩距离。

如果视频模块不需要转动，或者视频模块不需要伸缩，则对应的参数为零。

如图 4所示，调整模块接收到调整参数后，按照其中的角度转动视频模块，并控制视频模块伸缩适当的距离，使得人脸清晰成像，并且位于图像的中心位置。

根据用户嘴的位置，实时调整视频模块的朝向和距离，可以使本发明的视频通讯终端一直追踪用户的面部，使用户的面部一直处于视频图像的中心位置，而且成像清晰，可以克服因为晃动等原因造成的用户脱离取景范围的弊端，满足用户多方面的需求。

实施例二：

如图 5所示，一种实施例的视频通讯方法，包含以下步骤：

步骤 101 ,音频模块中的分析子模块对预先釆集到的音频信号进行频域分析，获得所述音频信号的特征。

步骤 102, 釆用视频通讯终端通讯时，音频模块釆集用户通话时的音频信息，并转化为音频信号。

步骤 103 , 音频模块的过滤子模块根据音频信号特征，过滤音频信号中的噪声信号，并传送至所述控制模块。

步骤 104,视频模块釆集视频信息，并将视频信息转换为视频信号后传送至所述控制模块。

步骤 105 ,控制模块根据接收到的音频信号和视频信号确定视频模块调整参数，并发送调整参数至所述调整模块；

步骤 106,调整模块根据所述调整参数调整视频模块，使视频模块可以实时跟踪用户脸的朝向。

本发明公开了一种视频通讯终端，包括音频模块、视频模块、调整模块以及控制模块，所述音频模块用于釆集音频信息，并将釆集到的音频信息转换为音频信号后传送至所述控制模块；所述视频模块用于釆集视频信息，并将视频信息转换为视频信号后传送至所述控制模块；所述控制模块用于根据接收到的音频信号和视频信号确定视频模块调整参数，并发送调整参数至所述调整模块；所述调整模块用于根据所述调整参数调整视频模块。本发明的视频通讯终端根据用户的声音确定用户面部的位置，然后调整视频模块自动追踪用户的面部，避免了因为晃动等原因造成的用户面部脱离视频模块的取景范围，可使用户的面部一直位于视频图像中，且清晰成像，给用户带来了更好的使用体验。

以上内容是结合具体的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

权利要求书

1、一种视频通讯终端，其特征在于，包括音频模块、视频模块、调整模块以及控制模块，其中，所述控制模块与所述音频模块、视频模块及调整模块分别相连，所述调整模块与所述视频模块相连；

所述视频模块，用于釆集视频信息，并将视频信息转换为视频信号后传送至所述控制模块；

所述控制模块，用于根据接收到的音频信号和视频信号确定视频模块调整参数，并发送调整参数至所述调整模块；

所述调整模块，用于根据所述调整参数调整视频模块。

2、如权利要求 1所述的视频通讯终端，其特征在于，所述音频模块包括至少三个音频釆集器；

所述音频釆集器设置于所述视频通讯终端的不同位置。

3、如权利要求 2所述的视频通讯终端，其特征在于，所述音频模块还包括分析子模块，用于对预先釆集到的音频信号进行频域分析，获得所述音频信号的特征。

4、如权利要求 3所述的视频通讯终端，其特征在于，所述音频模块还包括过滤子模块，用于根据所述音频信号特征，过滤音频信号中的噪声信号。

5、如权利要求 2至 4任一项所述的视频通讯终端，其特征在于，所述控制模块根据接收到的音频信号和视频信号确定视频模块调整参数，按如下方式进行：所述控制模块根据至少三个音频釆集器的位置及上述音频釆集器釆集到的强度不同的音频信号，确定声源的位置；

6、如权利要求 5所述的视频通讯终端，其特征在于，所述调整参数包括：

视频模块转动角度、和 /或视频模块伸缩距离。

7、一种视频通讯方法，其特征在于，所述方法包含：

视频模块釆集视频信息，并将视频信息转换为视频信号后传送至所述控制模块；

所述控制模块根据接收到的音频信号和视频信号确定视频模块调整参数，并发送调整参数至所述调整模块；

所述调整模块根据所述调整参数调整视频模块。

8、如权利要求 7所述的视频通讯方法，其特征在于，在所述音频模块将釆集到的音频信息转换为音频信号后传送至控制模块之前，所述方法还包括：

9、如权利要求 8所述的视频通讯方法，其特征在于，在所述获得所述音频信号的特征之后，所述方法还包括：

10、如权利要求 7至 9任一项所述的视频通讯方法，其特征在于，所述控制模块根据接收到的音频信号和视频信号确定视频模块调整参数为：所述控制模块根据音频模块的至少三个音频釆集器的位置及所述音频釆集器釆集到的强度不同的音频信号，确定声源的位置；