CN101690149B

CN101690149B - 用于群组声音远程通信的方法和装置

Info

Publication number: CN101690149B
Application number: CN200780053043.4A
Authority: CN
Inventors: P·桑德格伦; A·埃里克森; T·法尔克
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2007-05-22
Filing date: 2007-05-22
Publication date: 2012-12-12
Anticipated expiration: 2027-05-22
Also published as: US8503655B2; EP2158752A4; EP2158752A1; CN101690149A; EP2158752B1; WO2008143561A1; US20100215164A1

Abstract

提出一种远程电话会议或者其他群组声音远程通信中的音频场景管理的方法，在该远程电话会议中至少第一发射方、第二发射方和接收方参与。该方法包括接收(210)表示第一发射方的声音和第二发射方的声音的信号。该方法还包括分别获取(212)第一和第二发射方的声音活跃性的量度，并基于所获取的声音活跃性的量度选择(214)第一角度和/或第二角度。该方法更进一步包括将接收到的信号处理(216)成处理过的信号，这样以致于来自第一发射方的声音由接收方感觉好像是从第一角度发出的，而来自第二发射方的声音感觉上好像是从相对于接收方的第二角度发出的。最后，输出(218)表示处理过的信号的信号。

Description

用于群组声音远程通信的方法和装置

技术领域

本发明一般涉及用于群组声音远程通信的方法和设备，并具体涉及与感觉到的声音方向关联的这样方法和设备。

背景技术

在当今很多电信***中，提供了不同种类的远程电话会议服务。在远程电话会议会话中，多于两方可以同时参与，并以任何方向交换信息。一般努力是提供尽可能接近于真实世界的会议的通信情景。

在真实世界的会议中，参与者通常围坐在桌子旁，当有人讲话时，其余参与者通常转头朝向发言者以便看着发言者以及使语音到达各自的耳朵的相关性最大化。这使得信噪比最大化。当同时有超过一个人在讲话时，人的听觉***能够利用声音的空间分布并区分来自不同源的的语音，并且如果希望的话将听力集中到某人。这种现象被称为鸡尾酒会效应。

然而，在最常用的远程电话会议***中，单个麦克风捕获在不同位置的不同参与方的语音，并在将信号返回送到参与方之前将信号相加起来，并且通过扬声器或者耳机播放。收听这个信号的人在判断是谁在讲话并且是否几个人同时在讲话上有问题，将很难区分来自不同讲话者的声音。不同声音的来源都表现出具有相同的空间定位，例如扩音器的位置。

在远程电话会议中加入视频使认定谁在讲话变得容易，但是当多人同时讲话时问题仍然存在。现有技术中对此常用的解决方法是三维定位音频，使用户能够以类似于真实会议的方式感知到声音，即听出到声音源的方向和距离。当三维(3D)音频正确地用于远程电话会议中时，通过位于不同位置的所有参与方或者参与者再现虚拟房间。

在虚拟3D音频远程电话会议中定位参与者的直接解决方法是使他们均匀地分散于圆桌周围，就像通常在真实世界中那样。然后为了模拟发言者相对于聆听者的相对位置，各个发言者的语音信号被3D再现。某个参与者的相对位置与其他所有参与者都不同，但是绝对位置将正好与真实世界的会议的情景相同。

将虚拟人定位在圆桌周围在很多方面很好反映了真实会议，除了在虚拟远程电话会议中聆听者通常不能够转头朝向发言者。这将导致紧挨着聆听者的参与者在很远一边被收听到。这种情况不像真实会议，因此感觉不舒服。

显而易见的解决方法当然是使聆听者头部转动影响3D再现，像真实会议一样。然而，这要求必须将头部转动参数发送给远程电话会议再现器。为此，聆听者必须是活动的，无论何时新的参与者开始发言就要转动虚拟头部。集中于转动虚拟头部可能在会议期间将从发言者正在说的内容偷偷移动注意力。另一种解决方法是自动提供真实头部方向的量度，将这样的坐标提供给远程电话会议再现器。然而，这种设备必须结合高级的定位设备。

发明内容

本发明的一般目的是以聆听者更友好的方式提供表现在感觉上空间分离的声音源的群组声音远程通信服务。

上述目的通过根据随附权利要求的方法和装置来实现。一般而言，在第一方面，提出了在群组声音远程通信期间的音频场景管理的方法，在该群组声音远程通信中至少第一发射方、第二发射方和接收方参与。该方法包括接收表示第一发射方的声音和第二发射方的声音的信号，将接收到的信号处理成处理过的信号，这样以致于接收方感觉来自第一发射方的声音好像是从第一角度发出的，而来自第二发射方的语音感觉好像是从第二角度发出的。角度是相对于接收方来定义。第二角度不同于第一角度。该方法还包括分别地获取第一和第二发射方的声音活跃性的量度，并基于所获取的声音活跃性的量度调整第一角度和/或第二角度。最后，输出表示处理过的信号的信号。

在第二方面，音频场景管理器设备包括接收器，用于接收表示至少群组声音远程通信的第一发射方的声音和该群组声音远程通信的第二发射方的声音的信号。音频场景管理器设备还包括连接到该接收器的处理器。该处理器被配置用于将接收的信号处理成处理过的信号，这样以致于接收方感觉来自第一发射方的声音好像是从第一角度发出的，而来自第二发射方的声音感觉好像是从第二角度发出的。该角度相对于接收方来限定。第二角度不同于第一角度。音频场景管理器设备还包括用于分别地获取第一和第二发射方的声音活跃性量度的装置，该装置连接到处理器。该处理器被设置用于基于所获取的声音活跃性量度来调整第一角度和/或第二角度。音频场景管理器设备还包括连接到该处理器用于表示处理过的信号的信号的输出。

在第三方面，电话终端包括根据第二方面的音频场景管理器设备。

在第四方面，群组声音远程通信的网桥包括至少一个根据第二方面的音频场景管理器设备。

在第五方面，电信网络包括至少一个根据第三方面的电话终端和根据第四方面的群组声音远程通信的网桥。

本发明的一个优点在于不用通过接收方采取任何明显行为而实现远程电话会议的声音的更愉悦的感觉。结合详细说明进一步描述其他优点。

附图说明

通过结合附图参考下面的说明，可以更好理解本发明及其进一步的目的和优点，其中：

图1A是利用耳机时声音信号和虚拟空间定位之间的关系的示意图；

图1B是利用立体声扬声器时声音信号和虚拟空间定位之间的关系的示意图；

图2是在虚拟房间中群组声音远程通信的参与者的定位的示意图；

图3A-H是在虚拟房间中对于不同参与者和很多其他参与者在群组声音远程通信的参与者的定位的示意图；

图4A-B是在虚拟房间中群组声音远程通信的参与者的适应性定位的示意图；

图5A-C是在虚拟房间中群组声音远程通信的参与者的其他适应性定位的示意图；

图6是适应性定时的示意图；

图7是根据本发明的方法的实施例的步骤的流程图；

图8A-C是根据本发明的电信网络的实施例的框图；及

图9A-C是当真实房间包括多于一个参与者时在虚拟房间中的群组声音远程通信的参与者的定位的示意图。

具体实施方式

在本发明所公开的内容中，术语“群组声音远程通信”旨在包括位于不同物理位置的多个参与者同时以群组方式相互通信的各种不同行为。换句话说，接收机应当能够接收来自至少两个其他参与者的同时传输。这种“群组声音远程通信”包括例如普通的远程电话会议方法，而且也包括基于例如一键通(push-to-talk)概念的不同解决方式。在下面给出的实施例中，术语“远程电话会议”有时用于例示本发明的原理。然而，所描述的实施例不应当被解释为对任何特殊远程电话会议标准或者术语“远程电话会议”的一般解释的范围的限制。相反，下面的实施例可以应用于一般群组声音远程通信的很多不同***。

本发明的基本概念就是对于群组声音远程通信应用在虚拟房间中控制虚拟人物的定位。通过控制定位和适应性地移动虚拟人物，能够优化声音源之间的空间分离，并且得到的虚拟房间被视为真的会议。

人类具有区别到声音源的特定方向以及在一定程度上还区别到声音源的距离的良好技能。如图1A所示，人类1具有两个耳朵2L和2R。声音源3A发出声波4A，该声波4A通过空气传播到人类1。声音源3A被示为位于人类1的左边，声波4A直接到达左耳2L，而声波为了到达右耳2R必须围绕人类1的头部折射。这种折射以及到达左耳2L的传播时间比到达右耳2R的传播时间更短的事实产生了左耳和右耳各自检测到的感觉上的声音的不同。耳朵内部的反射和折射也有助于使感觉到的声音改变。所有这些不同由人类的大脑根据感觉到声音来自哪个方向来解释。来源于其他位置的声音，例如来源于在人类1的前面的声音源3B或者在人类1的右边的声音源3C，以声波4B和4C传播并由人类1产生位置信息。

通常可能也有几种到声音源的距离的感觉。周围的反射和折射也将有助于声音的一般感觉，并且可以例如根据人类1周围的小或者大的空间来解释。与周围环境的相互作用和声波的传播将典型地引入包括延迟和频率相关衰减的声波的改变。因此人类1即使不利用他的眼睛也可以具有某些空间信息。

如果声波的改变是已知的，可以将实际到达人类的耳朵2L和2R的声音合成并例如通过一对耳机5L和5R将其提供给耳朵。这通常被称为HRTF滤波(头部相关传输函数)。以这种方式，给佩戴耳机5L、5R的个人的印象是某个声音来源于某个位置。这是三维定位音频的基本概念。可以以这种方式通过修改不同声音源好像它们来源于虚拟房间中的不同位置来产生虚拟房间。

数学上，可以将修改看作滤波声音信号来分别得到左边和右边信号。

x_L(t)＝h_L(t，p)*s(t)

x_R(t)＝h_R(t，p)*s(t)

其中x_L(t)和x_R(t)分别是到左耳和右耳的声音信号，s(t)是原始声音，h_L(t，p)和h_R(t，p)分别是左和右滤波器，取决于在虚拟房间中的声音源位置p。位置p可以表示为例如极坐标，即

其中

可以定义关于声音接收方即图1A中的人的前面方向10的角度。滤波器通常对于声音中的不同频率具有不同的响应，例如频率相关衰减，还有由于传播时间引入的延迟。如果对反射过程也建模，则涉及不同延迟和通常情况下的延迟分布。

虚拟房间中具有多于一个声音源导致各个信号的叠加。因此对应于图1A中情况的虚拟房间可以表示为：

x_L(t)＝h_L(t，p_A)*s_A(t)+h_L(t，p_B)*s_B(t)+h_L(t，p_C)*s_C(t)

x_R(t)＝h_R(t，p_A)*s_A(t)+h_R(t，p_B)*s_B(t)+h_R(t，p_C)*s_C(t)

能够通过利用耳机来提供的虚拟房间原则上可以充满人周围的全部空间，即甚至聆听者后面。然而，在大多数情况下，虚拟群组声音远程通信中虚拟房间局限于聆听者前面的空间，如双箭头6所示。

也可能通过利用两个或者多个扬声器7R和7L实现三维定位音频，如图1B所示。然而，在这种情况下，在扬声器和人类1之间有真实声波8L、8R传播。来自一个扬声器的声音因此都能够到达耳朵2R、2L，这意味着感觉到的声音被再次“滤波”。然而，如果使用的滤波器结合真实房间所提供的滤波作用引起所需要的右和左信号，这种情况下也能够实现虚拟房间。如果使用了所谓的串话干扰消除，可以实现相同的声音将到达耳朵就好像戴耳机情况下那样。数学公式变成：

x_{L} (t) = h_{L}^{R} (t, p_{L}) * h_{L} (t, p) * s (t) + h_{L}^{R} (t, p_{R}) * h_{R} (t, p) * s (t)

x_{R} (t) = h_{R}^{R} (t, p_{L}) * h_{L} (t, p) * s (t) + h_{R}^{R} (t, p_{R}) * h_{R} (t, p) * s (t)

其中h_L ^R和h_R ^R表示对应于真实房间和串话干扰消除的滤波器函数，p_L和p_R各自表示左和右扬声器的位置。提供处理过的信号这样以致于来自声音源的声音感觉好像从关于接收方前面方向的特定角度发出的过程因此包括根据取决于至少特定角度的左滤波器滤波的声音源而创建左信号和根据取决于至少特定角度的右滤波器滤波的声音源而创建右信号。如果在虚拟房间中不同位置上出现多于一个声音，则左和右信号根据取决于各自角度的左和右滤波器滤波的各自声音源被组成。然后滤波器的实际配置取决于是否使用耳机或者扬声器。

如果串话干扰消除不可用，然而，实际限制是将到扬声器的角度设置最大角度9，在该角度内声音源定位在虚拟房间中。这种情况下，简单的立体声摇摄全景而是被应用：

x_L(t)＝a_L*s(t)

x_R(t)＝a_R*s(t)

其中a_R和a_L是常数且a_R+a_L＝1。

这些概念容易扩展到其他提供声音的空间感觉的音频***。非排除的示例是例如5.1环绕音频***。在这种情况下，基于发射方提供的以及由适当的滤波器所滤波的信号提供至少两个信号，该适当的滤波器取决于这样的角度，从该角度发射方被置于虚拟房间中。在5.1环绕音频***中，提供总共六个信号以便对于接收方产生完全的空间感觉。

使用的实际滤波器取决于特定应用，其细节对于实现本发明的技术效果并不重要。因为这种滤波器结构在现有技术中同样是可用的，因此在本发明公开的内容中不再进一步讨论。

本发明的一个基本概念是将群组声音远程通信的参与者定位到相对于聆听者的不同角度。换句话说，从多个发射方接收到的信号被处理成处理过的信号，例如根据上述思想，这样来自每个发射方的声音感觉好像是从相对于接收方前面方向的不同角度发出的。这样的虚拟房间如图2所示。多个发射方20定位在相对于接收方15，以及尤其相对于接收方15的前面方向10的不同角度上。优选地，最大角度α_max把左边最远和右边最远的发射方限制到对接收方听起来不舒服的角度。

现在发射方位于比将参与者均匀地放置在圆桌周围的方法相互更接近的位置，但是发射方仍然有可能由于人类听觉***的空间分离能力而分开很远。尽管所有的参与者将以这种方式听到场景，聆听者的相对放置能够被维持，例如参与者x在虚拟房间中将总是定位到参与者y的左边。因为即使左边最远处和右边最远处的讲话者对聆听者听起来还算愉悦，也不需要转动头部。

如果在虚拟房间中从聆听者到群组声音远程通信中不同参与者的距离改变很大，这将导致来自不同参与者的发言在3D音频再现期间不同地被衰减。来自实际上靠近于聆听者的人的发言将比很远地方的人的衰减少很多。因此，在特殊实施例中，所有发射方20被放置在与接收方15相同距离D的弧形上。因为将发射方放置在与接收方相同距离上，距离衰减对于所有发射方将是相同的。

然而，在可替换实施例中，不同参与者可以定位在虚拟房间中不同距离上。

当发起远程电话会议时，一个用户在另一个用户之后通常呼叫电话会议网桥或者正在被呼叫。因为本地或者中心定位控制器通常之前不知道最终参与的用户数量，将虚拟用户定位在虚拟房间中不是显而易见的。一般的期望是达到某种对称的虚拟场景。当两个用户连接时远程电话会议开始，并且在一个实施例中第一个参与者的虚拟房间如图3A中所示那样被建立。参与者P1是这个虚拟房间中的接收方15，从发射方20(在这种情况下是参与者P2)接收声音信号。在这里所述发射方20定位在接收方的前面，即在相对于接收方15的前面方向10角度为0。

在图3B中，示出了用于其他参与者的对应虚拟房间。在此，参与者P2是接收方15，参与者P1是发射方20。在此还有，利用了正面配置。两个第一用户因此在两个虚拟房间中直接彼此相对被定位，即图3A和3B中的定位的原理在本发明实施例中是相同的。然而，这不是必需的，并且在每个虚拟房间中参与方的定位可以完全相互独立进行。

当第三个参与者被连接时，应当根据本发明将其定位，以使其与已经存在的参与者空间分离。在这种情况下，会话能够表示远程电话会议。参与者P1的虚拟房间在图3C中示出。参与者P3在此构成第二发射方20，并将其定位使其与之前存在的发射方空间分离。在本实施例中，参与者P1被定位在相对于接收方15的前面方向10的逆时针方向α度的位置上。

用于参与者P2的虚拟房间在图3D中示出。为了维持不同参与者之间相同的循环次序，参与者P3在此定位于参与者P1右边，在本实施例中定位在相对于接收方15的前面方向10的顺时针方向α度上。因此在保持用户相对放置的虚拟房间中参与者P3都定位在参与者P1的左边。然而，如上所述，不同参与者的不同虚拟房间之间的这种关系并不是达到本发明技术效果所必须的，但是可以认为是优选实施例。然而，还为了参与者P3作为接收方创建虚拟房间，在此并未示出。

现在，假设一个更加新的参与者P4被连接，然后在一个实施例中，新参与者在两个虚拟房间中显而易见的位置是与参与者P3相同的绝对角度α，只不过是在另一边。这在图3E和3F中示出。虚拟场景对于参与者P1和P2因此再次变成对称。

然后可以以相似的方式加入更多的参与者。假设四个参与者P5-P8以类似方式被连接，获取用于参与者P1和P2的虚拟房间，如图3G和3H所示。如图所示，虚拟房间是对称的，并且参与者的相对放置对于参与者P1和P2是相同的，例如参与者P4定位于参与者P6和P8之间。

发射方20在虚拟房间中所处位置的最大角度α_max优选地小于90度，因为本发明的一个目的是减少从大角度接收的声音量。优选地，来自发射方20的接收信号被处理成处理过的信号，这样来自所有发射方20的声音感觉好像从120度的角度扇形中发出的。在另一个优选实施例中，角度扇形集中于前面方向10。换句话说，所有发射方应当放置在任何方向中60度的最大角度α_max中。甚至更优选地，角度扇形不大于90度，在实施例中集中于前面方向10，那么最大角度α_max设为45度。

对于只有少数参与者的远程电话会议，有可能利用非常小的最大角度α_max。然而，当参与者数量增加时，均匀地散布的每个参与者之间的角度间隔在允许的角度扇形之内变得越来越小。在某些情况下，达到了很小的角度间隔感觉比大的绝对角度不方便得多的极限。在本发明的一个实施例中，声音信号的处理因此依赖于远程电话会议的参与者总数量。在其内允许发射方的角度扇形因此可以依赖于参与者数量。典型地，允许的角度扇形对于更多数量的参与者而增加。

转到图3C和3D，仍然存在的问题是虚拟场景对于参与者P1和P2不是对称的。然而，用于参与者P3的虚拟房间可以立即成为对称的，因为已经知道存在两个其它参与者，并且参与者P1和P2应当定位在参与者P3前面相反侧上。如果更多的参与者要被连接，那么用于参与者P1和P2的非对称音频场景不会导致任何问题，因为可以将他们放置在导致对称场景的位置上。然而，如果没有更多参与者被连接，则在较长时间会议中这将会使人烦恼。

对此的解决方法可以如下。如果在一定时间之后没有更多参与者被连接，就假设在合理的时间之内没有用户要连接。然后已存在的虚拟参与者可以在虚拟房间中缓慢移动直到获取对称场景。如果只不过参与者P3加入，图4A和4B示出了用于参与者P1和P2的这种适应性虚拟房间。通过简单的将房间围绕接收方15旋转来最容易地实现到对称配置的这样适应性。可能的是，如果远程电话会议包括太多参与者，可以期望调整不同发射方之间的角度距离。调整最大使用的角度也是所关心的，例如如果相邻发射方之间的角度距离很小的话。

在这里注意到在优选实施例中，为了不导致会议环境的任何突然的变化，这种发射方角度位置的适应性是利用相对低的速度逐渐地执行的。如上所述，如果没有关于是否期望更多参与者的可用的信息，也宁愿在进行任何改变之前等待超时期限。还宁愿以相互顺序不变的这种方式进行任何到发射方角度的适应性。在两个其他参与者之间出现的新参与方也应当在角度自适应之后定位在该相同的两个其他参与方之间。换句话说，在优选实施例中，远程电话会议的所有发射方的角度的相互顺序在角度调整期间被保持。

即使人类听觉***擅长于区分声音源，仍然在两个声音源被放置多么近上有限制。因为在上面提到的配置中发言者相互位置比他们在围绕圆桌定位的位置更接近，也意味着如果只考虑发言者的空间分离这个方法只能够处理很少的参与者。对此的一种解决方案可以是当参与者的数量少于某个数值时限制到发言者的相对角度。然而，这制约了参与者数量。

根据本发明，另一种解决方案可以消除在相同角度距离上定位参与者的请求。通过获取对于不同发射方的声音活跃性的量度，与相邻或者最接近的相邻发射方的角度间隔可以取决于所获取的声音活跃性的量度来调整。优选地，将最活跃的发射方适应性地与相邻发射方分开，而不太活跃的发射方可以相互移动到更接近的位置。换句话说，给予说话最多的参与者更多的空间。在很多参与者参加的会议期间，通常很多人只是倾听，这意味着把他们空间隔离开并没有任何收益。然而，因为群组声音远程通信再现器之前并不知道哪些人将是最活跃的，间隔算法必须是适应性的。可以动态地再现该场景，并相对于哪些参与者讲话最多来改变。

考虑图3G。在此，群组声音远程通信中存在7个发射方P2-P8并且作为初始配置，他们在从-α_max到α_max的可用角度扇形中均匀散布。当实际群组声音远程通信开始时，参与者P7、P3和P4是大部分时间都在讲话的人，即具有最高声音活跃性的发射方。基于这个声音活跃性的知识在调整角度之后，情况而是像图5A。将参与者P7、P4和P3从他们最接近的邻居分离，并且而是将参与者P5、P2和P6移动到更接近。如图所示，参与者P7和P3之间的角度距离增加，导致倾听者可以更容易地将他们分离，而参与者P5、P2和P6挤在一起。这并不影响倾听者的感觉，因为他们或多或少是不活跃的。参与者P3现在也更接近活跃者P4，但是角度距离仍然很大，这样就不会有什么问题。如之前所述的其他自适应方法那样，为了避免混乱，虚拟人物的自动移动优选地应当显示于倾听者GUI(图形用户界面)中。结果是，讲话最多的参与者因此被分离，而安静的参与者挤在一起。

如果现在会议改变其特征，以及参与者P7和P4变得或多或少的安静，而参与者P3继续发言。之前安静的参与者P6现在也变成最活跃的。在角度位置的新自适应性之后，可以得到如图5B所示的情况。

如何将可用角度扇形分给不同参与者的实际规则可以以不同方式来配置，并且优选地适合于不同应用。在一个实施例中，将最小角度扇形给予每个参与者，可能也取决于参与者总数。可用角度扇形的其余部分然后在特定时间段期间按参与者声音活跃性的比例分配给不同参与方。

在另一个实施例中，将每个声音活跃性量度与门限值比较，并且声音活跃性量度超过门限值的参与者被归类为活跃的。将其余参与者归类为不活跃的。向每个活跃的参与者分配特定的活跃方角度扇形，而不活跃的参与者必须共享剩余的角度扇形。所述活跃方角度扇形还可以取决于在活跃的和不活跃的参与者之间的比例。

仍然在另一个实施例中，不向每个参与者分配一定角度，而是调整与最接近的邻居的最小角度间隔。这意味着两个活跃参与者之间的角度间隔与上面的实施例相比稍微减少。

还有另一个实施例是用公式表示每个参与者周围的声音密度量度，并且利用算法来最小化这种声音密度量度的最大值。声音密度量度应当用作声音活跃性量度与到每一侧最接近的相邻方的距离总和之间的比值。以这种方式，尽可能均匀地将声音量散布在整个可用角度扇形中。

任何本领域技术人员意识到，还有很多其他可能的变形和修改以基于声音活跃性量度调整角度。

有不同的方法用于确定要再现的实际位置。一种直接方法是保持每个虚拟房间的间隔描述和每个房间中进行任何自适应。这是典型的方法，其中在每个参与方本地执行再现。对于集中式配置，下面将详细说明，集中地对所有参与者进行任何调整或者角度选择可能很方便。在这种情况下，具有“通用”虚拟房间可能很方便，其中所有参与者沿着圆形散布，即好像他们围绕圆桌而坐。参与者之间的角度间隔然后可以围绕圆桌来调整，例如取决于讲话活跃度。为了实现单独的虚拟房间，圆桌配置转换为例如圆弧，在中心具有期望的接收者。当最初定位新的参与者时，这种通用虚拟房间也是有用的。

另一个问题是何时给予非常活跃的参与者相对于前面方向的高角度的角度位置。听到很多从高入射角度到达的语音有可能感觉到不舒服。根据本发明的一个实施例，角度位置的调整包括减少相对于发射方的前面方向的角度，该发射方具有最高的所获取的声音活跃性量度。

如果初始配置如图3G所示，发射方P7是远的最活跃的，会议场景可能感觉不舒服。通过考虑声音活跃性量度来调整角度位置，能够获取如图5C的场景。即使参与者P2-6和P8因此相互定位更近，整个会议场景可以得到改善，因为近距离定位的参与方是相对不活跃的。

另一个问题是如果每一侧的参与者都在会话那么倾听者应该做什么。倾听者有可能非常频繁地转动头部或者仅仅直视前方，导致“远离旁边”发言者的位置。根据上述原则通过减少角度，这种效果将降低。如果还不仅仅具有最高声音活跃性的参与方以这种方式调整，参与方都移动更加靠拢，因此减少了可利用的角度扇形。

在当前优选实施例中，为了减少对于活跃参与者的绝对角度，还为了增加活跃参与者到最接近邻居的角度间隔而执行角度调整。寻找合适折衷的算法可以以很多不同方式来设计。一种方式是创建每个过程的计分点，并且应用最小化算法来减少计分点的总数量。

如果后来有更多用户想连接，这不是一个大问题，因为仍然有很多可用位置来初始放置新的参与者。然后通过利用调整原则，例如根据上述思想，那么可以接连地获取最优定位。

然而，调整场景太快或者太频繁假设不再有新的用户将被连接，可能导致参与者的混淆。如果没有任何反馈给予参与者终端的任何GUI这就尤其有关。然后场景可能以快速的方式改变多次，并且参与者就很难跟随虚拟人物如何被移动。因此，调整开始之前的时间周期应当设置得足够大，这样场景不会在新的参与者被连接之后或者声音活跃性改变发生之后太快调整。

图6示出了根据本发明在作为调整目标的虚拟房间中的位置参数的调整程序的实施例的时间图。在时间t0，***中发生了声音活跃性的改变，这根据调整原则需要将位置参数从PAR0值调整为PAR1值。如果声音活跃性改变是临时的，任何调整可能是不必要的。因此期望任何调整在改变发生时不立即开始。如图6所示，由曲线101所示，在改变开始之后直到时间Δt没有执行明显调整。然而，如果改变持续，就期望调整，并且将位置参数平滑调整到PAR1值。转变应当是足够缓慢的以不干扰群组声音远程通信，但是应当足够快以响应群组声音远程通信的通信模式中的趋势变化。换句话说，最大斜率S应当足够小以使接收方不会注意到任何恼人的影响。然而，进行全部变化的时间t1不应当与初始时间t0间隔太远。

类似于图6所示的时间特性可以通过在真实声音活跃性量度上应用时间滤波器并利用来自时间滤波器的输出作为声音活跃性量度来实现。在一个实施例中，滤波器包括延迟，提供调整开始的延迟。调整开始的时间延迟还可以通过不同种类的平均过程来提供。在一个实施例中，真实声音活跃性量度在时间滑动窗内的平均给出了调整开始的延迟。换句话说，使用在与当前时间有关的时间段上采取的平均。时间滑动窗的宽度还确定调整的陡度。这种平均过程还可以与其他延迟结合。

在可替换的实施例中，可以应用包括时间滤波器的不同种类的过程。

在其他可替换的实施例中，调整的时间特性可以直接结合到调整程序中。例如，设置值可以基于当前声音活跃性或者延迟的声音活跃性，并且能够使用将参数改变成具有特定时间常量的该设置值的程序。

根据本发明方法的实施例的流程图显示于图7。音频场景管理的方法开始于步骤200。音频场景管理包括至少第一发射方、第二发射方和接收方。在步骤210，接收表示第一发射方的声音和第二发射方的声音的信号。在步骤212，获取第一和第二发射方的声音活跃性的量度。在步骤214，基于获取的声音活跃性的量度选择第一角度和第二角度中的至少一个。接收的信号在步骤216处理成处理过的信号，这样来自第一发射方的声音感觉上好像是从相对于接收方前面方向的第一角度发出的，而来自第二发射方的声音感觉上好像是从相对于接收方前面方向的第二角度发出的。换句话说，处理过的信号给出的印象是各个声音是从不同的空间位置发出来的。为了空间区分第一和第二发射方，第二角度不同于第一角度。最后，在步骤218，可能根据调整的角度输出代表处理过的信号的信号。该过程结束于步骤299。第一和第二角度可以以不同方式选择。一种方法是首先将角度设置为标准值，然后根据声音活跃性来调整角度。另一种方法是依赖于声音活跃性直接选择角度。

图8A示出了包括根据本发明的音频场景管理器设备50的实施例的电信网络90的实施例。在这个实施例中，电信网络90包括会议网桥30，其包括在电信网络90的节点91中。多个电话终端40，显示的是4个，通过连接45连接到会议网桥30。在这个实施例中，会议网桥30包括连接到连接45的音频场景管理器设备50。

音频场景管理器设备50包括接收器51。接收器51被设置用于从群组声音远程通信的不同发射方接收表示声音的信号，即从电话终端40输入的信号31。接收器51连接到处理器52。处理器被设置用于产生处理过的信号，其对于接收方产生来自不同发射方的信号31的空间分离的感觉。换句话说，处理器52被设置用于将接收的信号31处理成处理过的信号，这样来自一个电话终端40，即来自一个发射方的声音感觉上好像从相对于具有另一个电话终端的接收方的第一角度发出，而来自另一个电话终端40，即另一个发射方的声音感觉上好像从相对于接收方的第二角度发出。第二角度不同于第一角度。

音频场景管理器设备50还包括用于获取输入信号31，即来自不同电话终端40的声音活跃性的量度的装置53。用于获取声音活跃性的量度的装置53连接到处理器，用于传送这些量度作为处理基础。用于获取声音活跃性的量度的装置53在本实施例中还连接到接收器51的输出来访问关于接收到的信号31的信息。然而，在可替换的实施例中，这种信息可以以其他方式获取，例如通过处理器52或者到接收器51的输入。用于传输这些数据的与不同电话终端40的数据通信是可行的。处理器52被设置用于调整至少一个角度，来自不同发射方的声音基于获取的声音活跃性的量度好像从该角度发出，正如从用于获取声音活跃性的量度的装置53接收。音频场景管理器设备50还包括用于代表由处理器52产生的处理过的信号的信号32的输出54，因此连接到处理器52。从输出54，信号32由连接45分布到不同电话终端40以向任何接收方表示空间分离的声音。用于获取语音活跃性的量度的装置53可以在某些实施例中正如上面进一步描述的那样包括时间滤波器56。

在本实施例中，会议网桥30的音频场景管理器设备50中的处理器52负责为群组声音远程通信的不同参与者提供音频场景。因为接收/发射方的情况对于每个参与者是不同的，发送给不同电话终端40的信号32彼此不同。换句话说，进行单独再现，但是在中心单元，即会议网桥30。为了达到空间感觉，本实施例中所有电话终端40被设置用于接收至少两个音频信号流，例如通过一对耳机。如果本实施例中电话终端40配置有例如5.1环绕音频设备，需要六个并行音频流。

现在在很多电信***中，将实际信息流编码成数字形式。在这种***中，音频场景管理器设备50典型地必须解码表示来自不同参与者的声音的数字信号。然后解码的信号由音频场景管理器设备50来处理，以便实现对于不同参与者的不同音频信号。然后在将音频信号发送到接收方之前，音频信号通常再次编码成数字格式。在解码的信号上也有利地执行声音活跃性的检测。然而，还有也在编码的比特流中检查活跃性级别的技术。

因为音频场景管理取决于接收机端上的音频设备的实际组，在本实施例中会议网桥30必须具有不同终端设备的知识。这种信息可以例如通过提供从电话终端40到音频场景管理器设备50的控制信号33来提供。优选地，这种控制信令发生于群组声音远程通信会话的开始以及每次新的参与者被连接时。

图8B表示包括根据本发明的音频场景管理器设备50的实施例的电信网络90的另一个实施例。这个电信网络90而是以分布方式运行，其中音频场景的本地再现在每个参与方处被处理。组合器35从不同参与者接收输入的声音信号并将这些信号转发给每个参与方，优选地除了从每个参与方接收的声音信号以外。换句话说，五个参与方中的每一个接收来自其他参与方中的每一个的单独的声音信号。这意味着在具有n个参与者的群组声音远程通信中，将n-1个声音信号从组合器35传送到每个终端40。

在每个电话终端40中，具有音频场景管理器设备50。为了提高附图的可读性，仅仅对于其中一个终端示出了音频场景管理器设备50的细节。音频场景管理器设备50基本上以与之前的实施例相同的方式设置。然而，在本实施例中，处理器52只必须执行本地音频场景的再现。在本实施例中输出54被配置为适合于音频设备的类型，图8B中未显示，通过它将声音呈现给用户。在这个方面，不需要关于设备需求的控制信令。

在图8B的实施例的优选变形中，不同参与者的不同音频场景以这样一种方式调整，即保存围绕虚拟会议桌的相同相互顺序。因此某个参与者总是具有相同的最接近相邻参与者，并且对于所有本地音频场景都出现在邻居的同一侧。对于这样的情况，关于参与者内部顺序的信息必须提供给不同的本地音频场景管理器设备50，例如通过控制信号34。关于内部顺序的确定可以由会议网桥30来进行，例如取决于参与者连接到群组声音远程通信会话的顺序。

分离的声音流的数量随着参与者数量而增加。对于非常大数量的参与者，为每个参与者保存分离的声音信号资源是不切实际的。对于很多方参与的情况的一种可能的解决方案是只提供来自最活跃参与方的声音信号。在群组声音远程通信中，通常只有少数同时发言者。如果来自安静参与方的声音在传输给其他参与者时省略，基本上没有任何区别。当活跃性改变时，可以选择其他信号来转发。通过对于发射方具有例如四个可用流，大部分群组声音远程通信情况都可能适用，而不会丢失任何重要信息。然而，通过改变转发的声音信号，接收者必须也接收一些控制信令来识别活跃发言者，这样音频场景的本地再现可以保持仅仅缓慢自适应性。这种信息也可以包括在控制信号34中。

还是在图8A的实施例中，可以应用只处理来自最活跃的参与者的声音的限制，因为这可以减少信号处理的整体复杂性。

在图8A和8B所示的实施例中，所有参与方基本上具有相同的设备或者具有至少与会议网桥的相同类型关系。然而，在通常情况下不同参与者可以以不同方式配置。图8C示出了电信网络90的实施例，其中群组声音远程通信的参与者具有不同终端用户设备和与会议网桥30不同的关系。第一用户具有电话设备40A，其只有传统单声道外形，在此显示为传统电话听筒45，由此可能没有参与者的空间分离。传送来自其它参与者的组合信号36。会议网桥30中的音频场景管理器设备50在此关于电话设备40A用作组合器35。而且，来自不同其他参与者的不同声音流都组合到单个声音信号中，将其提供给电话设备40A。

第二电话设备40B配置有一对耳机46，但没有本地音频场景管理器设备。这个情况类似于图8A中所示的每个参与方的情况。第三电话设备40C也配置有一对耳机46。然而，电话设备40C还配置有本地音频场景管理器设备50。这个情况在此类似于图8B中所示的每个参与方的情况。最后，第四电话设备40D利用一对立体声扬声器47。在这个特殊实施例中，电话设备40D另外配置有本地音频场景自适应再现器41。本地音频场景自适应再现器41接收信号32，其被适应用在一对耳机中，并将这些信号自适应为自适应的信号，其而是适合于通过立体声扬声器47来呈现。在这种情况下，音频场景管理被划分成两个部分，一部分在中心会议网桥30中以及另一部分在电话设备40D中。

在可替换的实施例中，其中电话设备40D不包括任何本地音频场景自适应再现器41，适应于立体声扬声器47的信号32可以直接从会议网桥30的音频场景管理设备50来提供。

到目前为止，群组声音远程通信的所有参与者已经由群组声音远程通信再现器看作独立的个体并已经向其分配了虚拟房间中的单独空间位置。这是处理具有他们自己的捕获设备，例如电话听筒或者头戴式耳机的参与者的明显方式。然而，在远程电话会议不是太常见的情况下，几个人可以位于相同房间，他们共享同一个音频捕获设备。

处理虚拟群组声音远程通信中的这种情况的最简单方式是将每个房间看作之前所述情况中处理的单独个体，即每个房间得到虚拟房间中的空间位置。参与群组声音远程通信的第一房间和在两个其他房间中的参与者的虚拟场景被再现以反映房间分离。这示意性地显示于图9A，具有第一房间16作为接收方15，第二和第三房间19作为两个发射方20。在这种情况下，房间1中的参与者将很容易区分房间2中的发言者和房间3中的发言者，但是同一房间中的所有发言者被视为位于相同位置上。

然而，在某些情况下，有可能实现关于在同一个房间内的空间分布的信息。例如，通过利用不同种类声音源分离技术，在很多情况下可以识别位于相同房间中的不同发言者。通过分离在每个单独发言者发起的声音，可以将他们定位于虚拟房间中的不同空间位置。优选地这个定位围绕着普通房间位置来执行。这将导致如图9B所示的房间1中的参与者的场景。换句话说，如果来自至少一个发射方的声音信号包括来自多个空间分离的声音源，可以实现虚拟空间中的分离。优选地，将接收到的信号处理成处理过的信号是这样的这样以致于多个声音源感觉好像从相对于接收方的有限角度扇形之内发出的。然后有限角度扇形包括来自相同发射方的单独声音源。甚至更优选地，以取决于多个声音源的实际空间的空间分布信息的角度来定位多个声音源。以这种方式，不同发言者在一个房间中的内部顺序可以保留。

如图9B所示，房间2中的三个参与者现在围绕房间2的空间位置而定位，房间3中的两个参与者围绕房间3的空间位置而定位。这使房间1中的参与者能够分离群组声音远程通信中的所有参与者，而不仅仅是房间。

类似解决方案可以应用于当参与者是如之前所述的单个参与者并且参与者的群组具有通用属性的场景，例如他们属于相同公司。在这种情况下，每个小组可以看作如上所述处理的每个房间，即每个群组得到空间位置，并且该群组的成员围绕该位置设置。

如上所述，多个声音源的实空间的空间分布信息可以通过源分离技术来实现。因此上述所有场景是不考虑一个或多个音频捕获设备而描述的。然而，多个声音源的实空间的空间分布信息也可以通过利用实空间中的立体声语音捕获而获取。特殊情况是使用立体声麦克风的时候，因为可以利用在捕获的立体声信号中已经存在的空间信息。如果假设三个房间使用立体声麦克风来捕获语音，那么房间可以通过模拟虚拟扬声器18来得到空间位置，如图9C所示。

然后将各自立体声信号的每个声道看作将要通过虚拟扬声器播放的点声源，例如来自房间2的左信号将通过房间2的左虚拟扬声器播放，以及右信号将通过右虚拟扬声器播放。通过这样做，各个房间中的所有人显示为位于各个房间的两个虚拟扬声器之间，这意味着房间1中的倾听者会感觉其他房间的人位于不同空间位置。

这种解决方案的一种扩展是为了检测各个房间存在多少人，而结合群组声音远程通信再现器中或者在捕获侧上的源识别。包括很多人的房间的虚拟扬声器可以在他们之间例如设置比具有较少人的房间的虚拟扬声器的更大的角度距离。这导致具有很多参与者的房间中的人比具有较少参与者的房间中的人在更大的区域中散布，并且每个人之间的分离得到更平均的分布。

之前所述的个人的分组也可以用于具有立体声麦克风的个人。群组中所有成员的立体声信号可以在将各自总计的声道再现以通过虚拟扬声器播放之前相加在一起。这将导致群组中的所有成员结合成来源于同一房间，并且各个群组的所有成员将具有各自两个虚拟扬声器之间的空间位置。

之前所述的自适应分离方法当然也可以应用于房间(或群组)定位方法。当多个房间加入会议时，为了为新的房间留出空间，虚拟扬声器之间的距离可以被压挤。还有，包括活跃发言者的房间可以分开很远，而包括从不说话的参与者的房间可以挤在一起。而且，如果使用了源分离/检测，为了最大化空间分离，可以将房间中安静的参与者挤在一起，将活跃参与者散布开。也可以使头部能够转动，由群组声音远程通信再现器自动进行也由用户手动进行。

本发明具有很多优点。其中一些在下面说明。在距虚拟倾听者的相同距离上将虚拟参与者定位在弧线上导致所有虚拟参与者的相同距离衰减。通过限制虚拟个人的最大允许角度导致左边远处和右边远处的人不会听起来不舒服，也不需要转动虚拟头部。自动地适应性将虚拟头部转向活跃发言者导致不需要倾听者的任何努力活跃发言者就成为更接近于虚拟倾听者的前面，相反倾听者保持专心于会谈。

关于虚拟个人的语音活跃性而适应性改变虚拟个人的位置导致活跃发言者分离很远，提高了他们的空间分离。还可以导致更多人能够被包括在群组声音远程通信中而不会失去活跃发言者之间的空间分离。

通过两个虚拟扬声器播放立体声捕获信号的左和右声道自动导致捕获房间中的人定位于两个虚拟扬声器之间的不同空间位置上。

尽管单独地描述了不同类型的场景，但是他们都可以被组合并连接到相同的会议网桥。例如，各个用户可以包括在具有包括多人的房间的群组声音远程通信中，以及个人的群组也可以加入。

将上述实施例理解为本发明的少数示意性实例。本领域技术人员将理解为可以对实施例进行各种修改、组合和变化而不脱离本发明的范围。尤其，不同实施例中的不同部分解决方案可以结合到其他配置中，只要技术上可行。然而，本发明的范围由随附的权利要求来限定。

Claims

1.一种在群组声音远程通信中的音频场景管理的方法，所述群组声音远程通信包括至少第一发射方、第二发射方和接收方，所述方法包括以下步骤：

接收表示所述第一发射方的声音和所述第二发射方的声音的信号；

分别获取所述第一和第二发射方的声音活跃性的量度；

基于所述获取的声音活跃性的量度选择第一角度和第二角度中的至少一个；

将所述接收到的信号处理成处理过的信号，这样以致于来自所述第一发射方的声音感觉与从相对于所述接收方的所述第一角度发出的一样，并且来自所述第二发射方的声音感觉与从相对于所述接收方的所述第二角度发出的一样，所述第二角度不同于所述第一角度；以及

输出表示所述处理过的信号的信号。

2.根据权利要求1所述的方法，其中所述处理步骤包括将所述接收到的信号处理成处理过的信号，这样以致于来自所有发射方的声音感觉与从相对于所述接收方的角度扇形内发出的一样；所述角度扇形取决于所述群组声音远程通信中参与方的总数量。

3.根据权利要求1或2中任一权利要求所述的方法，其中所述处理步骤包括将所述接收到的信号处理成处理过的信号，这样以致于来自所有发射方的声音感觉与从相对于所述接收方的120度的角度扇形内发出的一样。

4.根据权利要求1或2所述的方法，其中所述处理步骤包括将所述接收到的信号处理成处理过的信号，这样以致于来自所有发射方的声音感觉与从相对于所述接收方的90度的角度扇形内发出的一样。

5.根据权利要求1或2所述的方法，其中所述选择步骤包括：依靠所述获取的声音活跃性的量度来调整从一个发射方到最接近相邻发射方的角度间隔。

6.根据权利要求5所述的方法，其中所述角度间隔被调整为对于与声音活跃性的高量度相关联的发射方比与声音活跃性的低量度相关联的发射方更大。

7.根据权利要求1或2所述的方法，其中所述选择步骤包括对于具有最高所述获取的声音活跃性量度的发射方减少相对于所述接收方的前面方向的角度。

8.根据权利要求1或2所述的方法，其中所述群组声音远程通信的所有发射方的角度的相互顺序在选择所述角度期间被保持。

9.根据权利要求1或2所述的方法，其中来自至少一个发射方的所述声音信号包括来自在空间上分离的多个源的声音；由此所述处理步骤包括将所述接收到的信号处理成处理过的信号，这样以致于所述多个源感觉与从有限的角度扇形内发出的一样；所述有限的角度扇形包括来自所述至少一个发射方的单独声音源。

10.根据权利要求9所述的方法，其中所述多个源的所述源被定位在取决于所述多个源的实空间的空间分布信息的角度中。

11.根据权利要求10所述的方法，其中所述多个源的实空间的所述空间分布信息通过源分离技术来获得。

12.根据权利要求10所述的方法，其中所述多个源的实空间的所述空间分布信息通过利用所述实空间中的立体声语音捕获来获得。

13.根据权利要求1或2所述的方法，其中所述获取语音活跃性的量度的步骤包括真实的语音活跃性的时间滤波。

14.根据权利要求13所述的方法，其中所述时间滤波包括延迟。

15.根据权利要求13或14所述的方法，其中所述时间滤波包括取平均。

16.根据权利要求1或2所述的方法，其中所述处理步骤包括至少以下步骤：

基于来自所述第一发射方并由取决于所述第一角度的第一滤波器滤波的所述接收到的信号，以及来自所述第二发射方并由取决于所述第二角度的第二滤波器滤波的所述接收到的信号来创建第一信号；以及

基于来自所述第一发射方并由取决于所述第一角度的第三滤波器滤波的所述接收到的信号，以及来自所述第二发射方并由取决于所述第二角度的第四滤波器滤波的所述接收到的信号来创建第二信号。

17.根据权利要求16所述的方法，其中所述第一和第二信号分别是一对耳机的左和右信号。

18.根据权利要求16所述的方法，其中所述第一和第二信号分别是一对立体声扬声器的左和右信号。

19.根据权利要求16所述的方法，其中所述第一和第二信号是环绕音频***的信号。

20.根据权利要求16所述的方法，包括另一步骤：将所述第一和第二信号编码成表示音频信号的数字信号。

21.音频场景管理器设备，包括：

接收器，接收表示群组声音远程通信的至少第一发射方的声音和所述群组声音远程通信的第二发射方的声音的信号；

用于分别获取所述第一和第二发射方的声音活跃性量度的装置，该装置连接到所述处理器；

连接到所述接收器的处理器，所述处理器被设置用于将所述接收到的信号处理成处理过的信号，这样以致于来自所述第一发射方的声音感觉与从相对于所述接收方的第一角度发出的一样，并且来自所述第二发射方的声音感觉与从相对于所述接收方的第二角度发出的一样，所述第二角度不同于所述第一角度；以及

由此所述处理器被设置用于基于所述获取的声音活跃性的量度选择所述第一角度和所述第二角度中的至少一个；以及

用于表示所述处理过的信号的信号的输出单元，其连接到所述处理器。

22.根据权利要求21所述的音频场景管理器设备，其中所述处理器进一步被设置用于将所述接收到的信号处理成处理过的信号，这样以致于来自所有发射方的声音感觉与从相对于所述接收方的角度扇形内发出的一样；所述角度扇形取决于所述群组声音远程通信中参与方的总数量。

23.根据权利要求21或22所述的音频场景管理器设备，其中所述处理器进一步被设置用于依赖所述获取的声音活跃性的量度来调整从一个发射方到最接近相邻发射方的角度间隔。

24.根据权利要求21到23中任一权利要求所述的音频场景管理器设备，其中所述处理器进一步被设置用于对于具有最高所述获取的声音活跃性量度的发射方减少相对于所述接收方的前面方向的角度。

25.根据权利要求21到24中任一权利要求所述的音频场景管理器设备，其中所述接收器被设置用于接收来自至少一个发射方的声音信号，所述声音信号包括来自在空间上分离的多个源的声音；由此所述处理器进一步被设置用于将所述接收到的信号处理成处理过的信号这样以致于所述多个源感觉与从有限的角度扇形内发出的一样；所述有限的角度扇形包括来自所述至少一个发射方的单独声音源。

26.根据权利要求21到25中任一权利要求所述的音频场景管理器设备，其中所述用于获取语音活跃性的量度的装置包括时间滤波器。

27.根据权利要求21到26中任一权利要求所述的音频场景管理器设备，其中所述处理器被设置用于基于来自所述第一发射方并由取决于所述第一角度的第一滤波器滤波的所述接收到的信号和基于来自所述第二发射方并由取决于所述第二角度的第二滤波器滤波的所述接收到的信号来创建第一信号，以及基于来自所述第一发射方并由取决于所述第一角度的第三滤波器滤波的所述接收到的信号和来自所述第二发射方并由取决于所述第二角度的第四滤波器滤波的所述接收到的信号来创建第二信号。

28.根据权利要求27所述的音频场景管理器设备，其中所述第一和第二信号分别是一对耳机的左和右信号。

29.根据权利要求27所述的音频场景管理器设备，其中所述第一和第二信号分别是一对立体声扬声器的左和右信号。

30.根据权利要求27所述的音频场景管理器设备，其中所述第一和第二信号是环绕音频***的信号。

31.根据权利要求27到30中任一权利要求所述的音频场景管理器设备，其中所述处理器进一步被设置用于将所述第一和第二信号编码成表示音频信号的数字信号。

32.电话终端，包括根据权利要求21到31中任一权利要求所述的音频场景管理器设备。

33.群组声音远程通信的网桥，包括至少一个根据权利要求21到31中任一权利要求所述的音频场景管理器设备。

34.电信网络，包括根据权利要求32所述的电话终端和根据权利要求33所述的群组声音远程通信网桥中的至少一个。