CN1997161A

CN1997161A - 一种视频终端以及一种音频码流处理方法

Info

Publication number: CN1997161A
Application number: CN 200610064656
Authority: CN
Inventors: 詹五洲
Original assignee: Huawei Technologies Co Ltd
Current assignee: FUGUE ACOUSTICS TECHNOLOGY CO., LTD.
Priority date: 2006-12-30
Filing date: 2006-12-30
Publication date: 2007-07-11
Anticipated expiration: 2026-12-30
Also published as: CN100556151C

Abstract

本发明的实施例公开了一种音频码流处理的方法，该方法为：对视频压缩码流进行解码，获得包含音源的图像，在所述的图像中检测所述音源的位置信息；对音频压缩码流进行解码，获得语音信息；根据所述音源的位置信息对所述语音信息进行处理，使重放的声音方位和所述音源的位置相匹配。这样，接收端不需要依赖于发送端提供的音源位置信息，也可以使音源的位置信息和重放的声音方位信息相匹配。本发明的实施例同时还公开了一种视频终端。

Description

一种视频终端以及一种音频码流处理方法

技术领域

本发明涉及通讯技术，特别是涉及一种视频终端以及一种音频码流处理方法。

背景技术

随着宽带的普及，视频通讯在我们的社会生活中占据着越来越重要的地位，通讯的视频化时代已揭开帷幕。但是，目前电视机的屏幕越来越大，而有的视频通讯***采用投影仪或电视墙显示，导致与会者在画面上移动的位置较大，而目前的多媒体通讯***的声音并没有根据说话人的位置发生改变，即声音没有方位信息，导致视频通讯缺乏真实感。

现有技术公开了一种解决上述问题的方法：在电视机顶部放置一个长条型的装置，在该装置里有多个麦克风，多个扬声器，以及摄像头。对多个麦克风采集的声音信号进行处理之后，可以获得一个语音信号，以及一个相对于长条型装置的说话人方位信息。视频通讯***的发送端将获得的语音信号和说话人方位信息通过网络传送到接收端，接收端根据接收到的方位信息，选择一个或多个扬声器播放，这样在接收端就可以重现说话人的方位信息。

在上述方案中，发送端采集的说话人方位信息是相对于长条型装置的，而不是相对于摄像机镜头的。当转动摄像机镜头时，长条形装置正前方的说话人就在画面的旁边，甚至不在画面之内，而采集的声音方位信息还是正前方的，这样就导致画面中说话人的位置和采集的声音方位信息不匹配。

另外，发送端需要将方位信息通过网络发送给接收端，如果发送端和接收端是不同厂家的设备，就会存在互通的问题，就是说接收端不能正确处理发送端的方位信息。

发明内容

本发明的实施例提供一种视频终端以及一种音频码流处理方法，使得发送端不需要将音源位置信息通过网络发送给接收端，重放的声音也可以和音源的位置实现准确的匹配。

一种音频码流处理方法，其特征在于，所述方法具体包括：

对视频压缩码流进行解码，获得包含音源的图像，在所述的图像中检测所述音源的位置信息；

对视频压缩码流对应的音频压缩码流进行解码，获得语音信息；

根据所述音源的位置信息对所述语音信息进行处理，使重放的声音方位和所述音源的位置相匹配。

一种视频终端，其特征在于，

视频解码模块，用于对接收到的视频压缩码流进行解码，并输出解码后的图像；

音频解码模块，用于对接收到的视频压缩码流对应的音频压缩码流进行解码，并输出解码后的语音信息；

音源位置检测模块，用于接收视频解码模块发送的图像，并提取音源的特征，从而检测到音源的位置信息；

声音方位处理模块，用于接收音频解码模块发送的语音信息和音源位置检测模块发送的音源位置信息，将声音方位和音源的位置相互匹配。

本发明的实施例通过检测图像中音源的位置信息，对重放的声音进行处理，可以使得扬声器中重放的声音的方位和图像中音源的位置相互匹配；同时接收终端不必依赖发送终端提供音源位置信息。

附图说明

图1是本发明实施例的方法流程图；

图2是本发明实施例的一个应用场景；

图3是本发明实施例中唇动检测的流程图；

图4是本发明实施例中视频终端的结构图。

具体实施方式

本发明的实施例提供了一种音频码流处理方法。如图1所示，本方法由如下步骤组成：

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面以一个视频会议作为本发明实施例的一个应用场景来详细说明本发明。但该应用场景并不用来限定本发明。

图2是视频通信***的示意图。在图2中，10是发送端会场，11是接收端会场，12是通信网络，通信网络可以是IP网络、PSTN网络、无线网络等。在会场10中，101是摄像头，102是视频通信终端，103是电视机，104是参会者，105、106是扬声器。终端102中内置有麦克风，也可以是独立的置于外部，通过传输线和终端112相连接。在会场11中，111是摄像头，112是视频通信终端，113是电视机，104a是参会者104的图像，115、116是扬声器。终端112中内置有麦克风，也可以是独立的置于外部，通过传输线和终端102相连接。发送端会场10中的摄像头101捕获图像后，传送到终端102，终端102对图像经过编码等处理之后，通过网络12传输到终端112，终端112对接收到的图像码流进行解码，并将解码之后的图像传输到电视机113上显示。会场10中的麦克风捕获声音信号之后，传递给终端102，终端102进行音频编码，通过网络12将编码后的音频码流传输给终端112，终端112对接收到的音频码流解码之后，传送给扬声器115、116重放。

在图2的11会场中，为了使声音具有临场感，需要使扬声器115、116重放的声音和说话人104a的位置相匹配。

下面我们以在视频会议中，会议中的说话人为音源作为例子对本发明的方法进行说明：

Step1：将发送端传送过来的视频压缩码流进行视频解码，得到发送端的图像，然后检测出图像中说话人的位置信息。

对视频压缩码流进行视频解码，得到的是多帧图像，然后对帧序列中的图像进行检测，得到说话人的位置信息。

其中，检测说话人位置的方法有许多种，例如采用图像识别技术，用说话人的某些特点作为特征检测出图像中说话人的位置，可以用于检测的特征包括人脸、眼睛、嘴唇等，下面我们以说话人的嘴唇作为特征为例子，来说明如何通过检测说话人的唇动位置来确定说话人的位置信息。

请参考图3的唇动检测处理流程。

S11：检测当前帧的唇动位置，如果当前帧有唇动，则执行步骤S12；否则执行步骤S14；

S12：进一步判断是否有多个唇动位置，如果有多个唇动位置，则在多个唇动位置中选择一个唇动位置，或计算多个唇动位置的中心位置并将此中心位置作为唇动位置，执行步骤S13；否则，直接执行步骤S13；

S13：输出唇动位置；

S14：不输出唇动位置。

唇动位置即说话人的嘴唇所在的位置。检测唇动位置可以采用现有技术中的检测方法。一个简单有效的方法是根据嘴唇的颜色，唇色的搜索可以在YIQ或YUV颜色空间进行。例如，在YIQ空间，经过统计及实验效果，得到唇色各分量的最佳阈值分别为Y∈[80，220]，I∈[12，78]，Q∈[7，25]。根据这些阈值可以比较容易的搜索出嘴唇的位置。如果只根据唇色进行搜索，不可避免的会带来一些误判，因而还可以在根据唇色搜索出嘴唇位置后，进一步根据嘴唇周围的肤色来判断。肤色也有一个相对集中的阈值范围，利用这些阈值范围可以判断出嘴唇周边的颜色是否是肤色，如果是则说明嘴唇位置的判断是正确的，否则不正确。此外可以利用的特征还有眼部特征等。

在判断出嘴唇的位置之后还需要判断嘴唇是否处于运动状态，这可以根据前后若干帧图像相同位置的嘴唇的大小以及变化的快慢就可以很容易的做出判断。由于唇动位置具有连续性，因此不需要每帧图像都在图像的整个范围内检测唇动位置，具体方法是如果前一帧已检测出唇动的位置，则检测当前帧的唇动位置可以在前一帧唇动位置的附近检测是否有嘴唇存在，如果没有，则在整个图像范围内搜索唇动位置，如果有，则进一步判断嘴唇是否在运动；如果在运动，则将运动嘴唇的位置作为唇动位置，否则，设置一个预定帧数，在当前帧之后的预定帧数之内都保持唇动位置不变，如果超过预定帧数嘴唇都没有运动，则重新开始在整个图像范围搜索唇动位置。采用该方法可以很大程度上减小计算量，并且可以保证声音方位的连续性。

在视频通信中，特别是在视频会议的应用中，同一个会场可能有多个参会者，此时因为有人打哈欠、小声议论等原因，会检测出多个唇动位置，因此需要从多个唇动位置中选择一个合适的唇动位置。如前所述，如果前一帧有唇动位置，则只在前一帧唇动位置的附近检测唇动位置，因此如果检测到多个唇动位置，也是在整个图像范围内搜索唇动位置才发生的。从多个唇动位置中选择一个唇动位置的策略有多种，例如选择正面的唇动位置，过滤掉侧面的唇动位置；或者选择靠近画面中间的唇动位置，而过滤掉画面边上的唇动位置。在会场中，有时也可能同时存在多个说话人，若采用上述的方法都不能选择合适的唇动位置，此时可以计算这多个说话人唇动位置的中心位置，并将此中心位置作为输出的唇动的位置。

Step2：对发送端发送的音频压缩码流进行解码，获得语音信息；

Step1和Step2中所述的对音频压缩码流和视频压缩码流的解码可以同时进行，也可以分开进行，无先后顺序之分。

Step3：根据说话人的位置信息对接收到的语音信息进行处理，使得说话人的声音方位和其位置相匹配。

根据说话人的位置处理语音信息，可以利用现有技术的方法来实现。下面举例进行说明。对于图2的应用场景，如果重放的是两个扬声器，且两个扬声器分别在电视机左右两边，一个声音处理方案是，通过调整左右声道声音的幅度，来达到声音的水平方位和画面中说话人位置相匹配的目的，也就是使说话人的位置和声音方位相匹配。可用下面的两个公式描述具体的调整方法：

D＝(g1-g2)/(g1+g2)

C＝g1*g1+g2*g2

上述两个式子中C是一个固定值，g1是左声道幅度增益，g2是右声道幅度增益，D是根据唇动位置信息计算出来的说话人水平方向在画面上的相对距离，令唇动位置距离画面中间垂直线的距离为D’(唇动位置在画面左边为正值，右边为负值)，电视画面水平方向的宽度为W，则D按下式计算：

D＝D’/(W/2)

根据音源位置信息处理声音的方法还可以采用HRTF(Head RelatedTransfer Functions，头部相关传输函数)。采用HRTF虚拟出一个声源的技术在现有的技术文献中都已公开，在本发明中不再详述。

在本发明的实施例提供的方法中，通过在声音重放地检测并获得说话人位置信息，使得接收终端不必依赖发送终端提供说话人位置信息；在获得位置信息后，根据此位置信息对重放的语音信息进行处理，从而使得重放的声音和图像中说话人的位置实现准确的匹配。

需要说明的是，本发明提供的音频码流处理方法不仅仅局限于处理从发送端接收的音频码流，同样适用于对存储在本地的视频、音频码流进行处理。

本发明的实施例还提供了一种视频终端。如图4所示，在视频通信终端中有视频解码、音频解码、音源位置检测、声音方位处理等模块。视频压缩码流经视频解码模块解码之后，一方面输出到电视机显示，另外一方面输出到音源位置检测模块。音源位置检测模块接收视频解码模块输出的图像，并对图像进行检测，提取音源的特征，从而得到音源位置信息，并将音源位置信息输出到声音方位处理模块。音频压缩码流经音频解码模块解码之后，输出到声音方位处理模块。声音方位处理模块根据音源位置信息对接收的音频码流进行处理，使得处理后的声音方位和音源的位置相一致，并产生左右两路音频输出，分别输送到左、右扬声器重放。为了具有更好的声音重放效果，视频通信终端可以外接三个或三个以上的扬声器，此时声音方位处理模块相应的输出三路或三路以上的音频流。

视频终端中的音源位置检测模块的目的是对视频解码模块输出的图像进行检测，得到其中音源的位置信息。所以在视频终端中如果音源是说话人时，位置检测可以通过提取说话人的嘴唇特征来实现，也可以通过检测说话人的人脸等特征，只要该模块能检测到视频解码模块输出的图像中的说话人位置即可。

如果以说话人的嘴唇为特征来检测说话人的位置，则音源位置检测模块包括：

第一接收模块，用于接收视频解码模块发送的包含说话人的图像；

特征提取模块，用于提取所述第一接收模块接收的图像中所述说话人的嘴唇特征；

位置检测模块，用于根据所述的特征提取模块提取的所述说话人的嘴唇特征，来确定所述说话人的位置。

其中，检测唇动位置可以采用前面介绍的唇动检测方法。

声音方位处理模块包括：

第二接收模块，用于接收所述音频解码模块发送的语音信息和所述位置检测模块发送的所述说话人的位置信息；

匹配模块，用于根据所述第二接收模块接收的语音信息和所述说话人的位置信息，使重放的声音方位和所述说话人的位置相匹配。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1、一种音频码流处理方法，其特征在于，包括：

2、如权利要求1所述的方法，其特征在于，当所述的音源为说话人时，所述的在所述的图像中检测所述音源的位置信息具体为：

从所述的图像中提取所述说话人的嘴唇特征，根据所述的嘴唇特征检测出唇动的位置，从而确定所述说话人的位置信息。

3、如权利要求2所述的方法，如果在所述的视频压缩码流解码得到的前一帧图像中已检测出唇动的位置，则当前帧在所述前一帧唇动位置的附近检测是否有嘴唇存在。

4、如权利要求2所述的方法，其特征在于，当用至少两个扬声器重放所述语音时，所述的根据所述音源的位置信息对所述语音信息进行处理具体为：

调整所述扬声器左右声道声音的幅度，使声音的水平方位和所述说话人位置相匹配。

5、如权利要求2所述的方法，其特征在于，所述的在所述的图像中检测所述音源的位置信息进一步包括：

当所述的图像中有多个唇动位置时，计算所述多个唇动位置的中心位置，并将此中心位置作为输出的说话人的位置。

6、如权利要求2所述的方法，其特征在于，所述的嘴唇特征包括嘴唇的颜色。

7、如权利要求6所述的方法，其特征在于，在根据嘴唇的颜色确定嘴唇位置后，进一步判断嘴唇周围的颜色是否是皮肤的颜色。

8、如权利要求6或7所述的方法，在检测出嘴唇位置之后，进一步判断嘴唇是否在运动；如果在运动，则将运动嘴唇的位置作为唇动位置，否则，设置一个预定帧数，在当前帧之后的预定帧数之内都保持唇动位置不变，如果超过预定帧数嘴唇都没有运动，则重新开始在整个图像范围内搜索唇动位置。

9、一种视频终端，其特征在于，

10、如权利要求9所述的装置，其特征在于，所述的音源位置检测模块包括：

位置检测模块，用于根据所述的特征提取模块提取的嘴唇特征，来确定所述说话人的位置。

11、如权利要求10所述的装置，其特征在于，所述的声音方位处理模块包括：