CN103220491B

CN103220491B - 用于操作会议的方法以及用于会议的装置

Info

Publication number: CN103220491B
Application number: CN201310018445.8A
Authority: CN
Inventors: T.明奇
Original assignee: Apple Computer Inc
Current assignee: Apple Inc; Harman International Industries Inc
Priority date: 2012-01-18
Filing date: 2013-01-18
Publication date: 2016-08-10
Anticipated expiration: 2033-01-18
Also published as: EP2618564A1; US20130182064A1; US9049339B2; CN103220491A

Abstract

用于会议***的装置和操作会议***的方法，其中该装置被配置来接收第一音频信号和与第一参与者相关的第一识别符，该装置被配置来接收第二音频信号和与第二参与者相关的第二识别符，该装置具有滤波器，其被配置成滤波接收到的第一音频信号和接收到的第二音频信号并向多个电声变换器输出经滤波的信号，该装置具有连接至滤波器的控制单元，其中控制单元被配置来基于第一识别符控制一个或多个第一滤波器系数并基于第二识别符控制一个或多个第二滤波器系数，其中第一滤波器系数与第二滤波器系数不同，从而引起第一参与者与第二参与者在虚拟声学空间中声学分离。该装置优选地包括根据头部位置的追踪改变第一滤波器系数和第二滤波器系数的头部追踪器功能。

Description

用于操作会议***的方法以及用于会议***的装置

技术领域

本发明涉及一种用于操作会议***的方法以及一种用于会议***的装置。

背景技术

从2008年7月德国德累斯顿工业大学的Kompetenzzentrum furVideokonferenzdienste，“Empfehlungen zur Vor-bereitung einer Vldeokonferenz”[对准备视频会议的建议]已知视频会议装置。用于IP传输的ITU-T标准(电信标准化部)H.323除了其它之外尤其定义了视频会议***的音频和视频标准。在视频会议***中执行的音频标准是：G.711、G.722、G.722.1附件C(Polycom Siren14)、G.723.1、G.728以及G.729。作为视频标准，执行H.261、H.263、H.263+、H.263++以及H.264。

所使用的视频会议终端被分成四个主要***分类：个人***、办公***、集团***以及房间***。桌面或个人***是用于PC和笔记本电脑的视频会议***。这些基于软件的解决方案是通过USB摄像机和头戴式耳机(双耳式耳机/麦克风单元)来使用。此外，还可以通过集成在PC中的视频卡来连接摄像机。

桌面***被设计成用于个人用户。与所有其它分类相比，除了成本低以外，这些***提供以下优点：用户在视频会议过程中有全权访问他的数据以及安装在他的PC上的程序。紧凑型***表现出完全集成的视频通信解决方案；通常，操作这些紧凑型***的仅有的附加要求是一个监测器和适当的网络连接(ISDN和/或LAN)。会议***和摄像机组成一个封闭单元。

房间***是带有一个模块化设计的视频通信解决方案。可适配的设备属性使得针对几乎每个应用程序的灵活的***配置成为可能。摄像机、房间麦克风以及大的监控器允许这些***集成为更大的会议房间，并且这些***自然地还允许各种***设备（例如像文本摄像机）的集成。房间***使中等规模至大群体的人参与视频会议成为可能。

从SAE Vienna2005的Philipp Diesenreiter的“Convolution:Faltung in derStudlopraxis”[卷积：在演播室中使用]已知卷积在声学中的使用。特殊DSP(DSP即数字信号处理器)和家用计算机的逐渐增长的计算能力允许在录音棚中使用卷积。当一个人用短(宽带)脉冲刺激房间时，一个人听到回音，所述回音是这个房间的特性并且由于所述房间的几何结构和尺寸、其基础结构、其内部以及其它特定特性而加重或抑制所述脉冲的特定频率分量。如果现在记录所述回音，那么一个人因此获得这个房间的冲激响应。所述冲激响应含有所述(线性的)房间的全特性。在卷积技术中，现在利用这个冲激响应，以便通过卷积的数学过程将任何其它所需要的声学信号与所述冲激响应相结合。例如，用于离散的(数字化的)周期信号的离散的、快速卷积(FFT即快速傅里叶变换)被用于生成所述房间的声学特性。作为确定特定房间的冲激响应的一个替代方案，也可以通过建模如射线追踪和源像模型来获得所述冲激响应。

当房间由平坦表面限制时，借助源像方法通过构建镜像声源可以计算出所反射的声音分量。借助建模，有可能更改所述声源的位置并且因此生成一个新的冲激响应。借助所述冲激响应，使用相关的滤波器减弱用于再现的信号。当出现声音事件时，空间印象是一个人从房间本身接收的听觉感知。所述空间印象增加声学信息，所述声学信息直接来自具有关于环境、关于房间的大小和特性的重要信息的声源。所述空间印象由以下多个分量组成：对所述房间的宽度和深度，也就是说对所述房间的大小的感知；对延长每个声音事件并且使所述声音事件与下一个声音事件融合的活跃度的感知；以及对空间的感知。数字滤波器是数字信号处理中最重要的工具之一。使用卷积实现了滤波器的一个实施。这种类型的滤波器称为FIR滤波器(有限冲激响应)。

从''Image method for efficiently simulating small-room acoustics(用于高效地模拟小室声学的图像法)",J.B.Allen和D.A.Berkley,J.Acoust.Soc.Am.65(4),Apr.1979已知使用数字滤波器。在理论上和实际上都使用用于在数字计算机上模拟位于小长方形室中的两点之间的冲激响应的图像技术。

发明内容

本发明的目标是改进一种用于操作会议***的方法。

这个目标通过具有独立权利要求1的特征的一种用于操作会议***的方法来达到。在本说明书中含有有利的改善。

因此，提供一种用于操作会议***的方法。第一参与者的第一声音通过第一麦克风被转换成第一音频信号。第二参与者的第二声音通过第二麦克风被转换成第二音频信号。

在所述方法中，当所述第一参与者产生所述第一声音时，例如，所述第一参与者对着所述第一麦克风讲话，生成与所述第一参与者相关的第一识别符。

在所述方法中，当所述第二参与者例如通过讲话产生所述第二声音时，生成与所述第二参与者相关的第二识别符。更具体来说，所述第一参与者与所述第二参与者处于不同的位置处，并且通过如因特网连接或电话连接的连接而彼此联系。

在所述方法中，所述第一音频信号和所述第二音频信号以及所述第一识别符和所述第二识别符被传输到另一个参与者的装置，例如通过电话连接或通过因特网连接。

在所述方法中，所传输的第一音频信号和第二音频信号由所述装置的滤波器滤波。所述滤波器的一个输出信号(经滤波的信号)被任选地放大。所述输出信号是立体声信号或多通道例如四通道信号。所述装置可连接至多个电声变换器以重放经滤波的信号。电声变换器是例如扬声器、头戴式耳机或听筒。

所述滤波器的一个或多个第一滤波器系数与所述第一识别符相关并且所述滤波器的一个或多个第二滤波器系数与所述第二识别符相关。第一滤波器系数与第二滤波器系数是不同的，从而引起所述第一参与者与所述第二参与者在虚拟声学空间中的声学分离。

所述第一参与者与所述第二参与者在虚拟声学空间中的分离的结果是：能够显著改进口头话语在电话会议或视频会议过程中的可理解性和关联性，如在实施方案中根据附图所解释。

本发明具有另外的目标：改进一种用于会议***的装置。

这个目标通过具有独立权利要求2的特征的装置来达到。有利的完善是从属权利要求的主题并且包含在本说明书中。

因此，提供一种用于会议***，更具体来说用于电话会议***或视频电话会议***的装置。所述装置被配置来例如经由电话连接或因特网连接接收第一音频信号和第二音频信号以及与第一参与者相关的第一识别符和与第二参与者相关的第二识别符。

所述装置可连接至多个电声变换器。例如，所述装置具有用于连接第一电声变换器的第一端口和用于连接第二电声变换器的第二端口。所述装置具有滤波器，所述滤波器被配置来将接收到的第一音频信号和接收到的第二音频信号滤波并且输出经滤波的信号。经滤波的信号被所述电声变换器任选地放大以用于重放。所述滤波器优选地是数字滤波器，例如FIR滤波器。

所述装置具有连接至所述滤波器的控制单元。所述控制单元优选地具有计算单元，例如像处理器或微控制器。所述控制单元被配置来基于所接收到的所述第一参与者的第一识别符来控制一个或多个第一滤波器系数并且基于所接收到的所述第二参与者的第二识别符来控制一个或多个第二滤波器系数。所述第一滤波器系数与第二滤波器系数是不同的，从而引起所述第一参与者与所述第二参与者在虚拟声学空间中的声学分离。

下文描述的实施方案涉及用于操作会议***的所述装置和所述方法二者。

所接收到的第一音频信号和所接收到的第二音频信号在所述虚拟声学空间中分离。这也可以被称为立体化。在这种情况下，存在几种分离的可能性。例如，所述第一音频信号能够由至少一个第一电声变换器专门地再现，而同时所述第二音频信号由至少一个第二电声变换器专门地再现。在这种情况下，所述第一扬声器的布置与所述第二扬声器的布置的距离在所述虚拟声学空间中的第一音频信号的第一位置与第二音频信号的第二位置之间进一步形成距离。

在另一个实施方案中，超过两个音频信号通过彼此相距一定距离布置的至少两个电声变换器输出。所述音频信号由两个电声变换器通过滤波以不用的音量来再现，即在所述虚拟声学空间中靠左或靠右。另外，通过所述滤波可能在中间再现音频信号，即两个电声变换器以相同的音量重放。在所述虚拟声学空间中在远离左侧与原理右侧之间的一些中间位置中的这种分离也称为平移。

在另一个实施方案中，所述第一音频信号和所述第二音频信号通过滤波被布置在所述虚拟声学空间中不同的空间深度中。所述虚拟声学空间优选地是虚拟声室，而所述滤波考虑到所述虚拟声室的虚拟墙壁的反射。出于这个目的，在以不同的滤波器系数将所述第一音频信号与所述第二音频信号滤波中使用卷积。例如，FIR滤波器(有限冲激响应滤波器)，有时也称为横向滤波器被用于所述卷积。每个音频信号的位置能够根据需要借助所述滤波参数，尤其是通过卷积被放置在所述虚拟声室中。优选地，多个第一滤波器系数被加载到滤波器的第一滤波器块中以用于将所述第一位置滤波，并且多个第二滤波器系数被加载到滤波器的第二滤波器块中以用于将所述第二位置滤波。在这种情况下，所述虚拟声室中的定位是听者在声觉上定位相应的音频信号的源位置。

根据优选的实施方案，所述第一滤波器系数与针对虚拟声室中的第一位置的所述滤波器的第一冲激响应相关。所述第二滤波器系数与针对虚拟声室中的第二位置的所述滤波器的第二冲激响应相关。所述第一冲激响应和所述第二冲激响应优选地应用于相同的声室，其中所述第一冲激响应与所述声室中的作为第一参与者的第一声源的虚拟定位的第一位置相关，并且所述第二冲激响应与所述声室中的作为第二参与者的第二声源的虚拟定位的第二位置相关。

根据另一个实施方案，所述装置被配置来查明头部位置的改变。这能够被称为头部追踪。所述装置被配置来基于所查明的头部位置的改变来改变一个或多个第一滤波器系数和/或一个或多个第二滤波器系数。优选地，所述装置被配置来改变所述一个或多个第一滤波器系数和/或所述一个或多个第二滤波器系数，从而使所述第一参与者的第一位置和所述第二参与者的第二位置在虚拟声学空间中移位与所述头部位置的改变相同的角度。所述移位使得所述第一参与者和所述第二参与者的虚拟声源的定位独立于所述头部位置的改变而保持不变。

在特别有利的实施方案中，所述装置具有用于连接摄像机的另一个端口。例如，另一个参与者的视频通过所述摄像机被记录并且视情况被传输至其他参与者。所述装置被配置来检测所述另一个参与者的头部在位置上的改变，特别是查明转动的角度。

在另一个实施方案中，所述装置具有用于连接显示器的另一个端口。所述显示器被实施为例如屏或为触摸屏，其中所述触摸屏允许进行输入。所述装置优选地被配置来接收所述第一参与者的第一视觉数据(例如，视频)和所述第二参与者的视觉数据(例如，照片或屏幕呈现)。

所述装置优选地被配置来在所述显示器中在第一对象中输出所述第一参与者的第一视觉数据并且在第二对象中输出所述第二参与者的第二视觉数据。所述对象是例如二维画面或3D对象。

优选地，所述装置被配置来基于所述第一参与者和所述第二参与者在所述虚拟声学空间中的声学分离来布置所述第一物体和所述第二物体在所述显示器中的位置。在有利的样式中，所述虚拟声学空间中的位置与所述对象的位置彼此相对应。举例来说，如果从左侧听到所述第一参与者并且从右侧听到所述第二参与者，那么所述第一对象被显示在所述第二对象的左侧。

以上描述的实施方案单独地和组合起来都是尤其有利的。所有实施方案可以彼此结合。在根据附图对示例性实施方案的描述中解释一些可能的组合。然而，其中介绍的实施方案的组合的这些可能性不是详尽的。

下文通过示例性实施方案并且参照附图对本发明进行详细解释。

附图说明

附图显示：

图1视频会议***的示例性实施方案；

图2虚拟声室的示意性图示；以及

图3显示器的示意性图示。

具体实施方式

图1示出用于实施多点视频会议的多个部件。这些部件形成视频会议***；以下解释单独的部件。H.323是来自国际电信联盟(ITU)的标准，并且描述关于通过面向数据包的网络的语音、数据以及视频通信的所有协议和标准。所述标准定义四个主要群组：终端210、220、230，网关，关守以及多点控制单元。出于较简单表示的目的，图1示出三个终端210、220、230和功能块200中的一个多点控制单元。

术语“终端”被用于描述所有商业视频会议设备，如桌面***、紧凑型***以及房间***。在根据图1的示例性实施方案中，显示器215、225、235、摄像机216、226、236以及麦克风217、227、237连接至各自的终端210、220、230。第一参与者A通过第一终端210进行通信。第二参与者B通过第二终端220进行通信。第三参与者C通过第三终端230进行通信。所述终端210、220、230通过连接201、202、203，例如有限连接或无线电连接而连接至所述多点控制单元。

所述多点控制单元是用于群组会议的星形分布器。所述多点控制单元是管理和控制一个或多个多点会议的硬件和/或软件解决方案。在根据图1的示例性实施方案中，除了所述多点控制单元之外，所述功能块200还具有关守。所述关守是用于路由选择呼叫信令、解析电话号码和IP地址以及转化所述号码和地址的硬件和/或软件解决方案。

图1中未显示网关，所述网关实施IP网络(H.323)与电话网络(H.320)之间在双向上的连接以进行视频会议，其中所述网关执行ISDN到IP及IP到ISDN的协议转换。

在图1中，在地理上分离的四个参与者A、B、C和Z彼此进行视频会议。所有参与者A、B、C和Z处于视频会议的不同的位置处。在这个情况下，所有装置必须在功能块200(多点控制单元/关守)处登入。

例如，第一参与者A正在使用紧凑型***。这个视频会议***具有模块化结构，也就是说，所述模块化结构由编码解码器和分离的摄像机216组成。TV监控器215例如能够被用于视频和音频再现。第二参与者B正在使用桌面***。这个软件客户端可以在工作站通过LAN连接与USB摄像机226、监控器225和头戴式耳机一起使用。房间***可供用于第三参与者C。所述模块化房间***连接至摄像机236、麦克风237、屏幕235以及扬声器。

来自所有参与***的视频和音频数据在功能块200的多点控制单元中被处理。一个新的视频数据流由多个传入的视频数据流生成并且被发送回所有参与者A、B、C、Z。在图1中，所述视频会议的呈现以例如持续存在模式发生。在这个模式中，所有会议参与者A、B、C、Z同时彼此看见并且能够全部彼此听到。所述功能块200接收所有参与者A、B、C、Z的视频图像并且根据终端的显示能力将单独地译码的视频流传输回所述终端。传入的音频流Au_A、Au_B、Au_C在功能块200中被处理，所述参与者A、B、C的音频流Au_A、Au_B、Au_C在功能块200中被混合。另外，所述功能块200查明参与者A、B、C中哪一个正在讲话，并且适用的参与者A、B、C的识别符ID_A、ID_B、ID_C与所述音频流一起被功能块200的多点控制单元传输。

当以语音交换模式进行视频会议时，只有正在讲话的参与者A、B、C被所有其他会议参与者A、B、C、Z看见。功能块200的多点控制单元例如以全屏显示方式将正在讲话的参与者（在图1所示的情况中是参与者A）的视频传输返回至所有会议参与者A、B、C、Z。由所述多点控制单元接收到的音频流Au_A、Au_B、Au_C首先彼此混合或彼此之间交换，并且然后被传输返回至所有参与者A、B、C、Z。

在根据图1的示例性实施方案中，所示的情况是另一个参与者Z正在接收来自第一参与者A的第一音频信号Au_A、来自第二参与者Ｂ的第二音频信号Au_B，以及来自第三参与者C的第三音频信号Au_C。所述音频信号Au_A、Au_B和Au_C在功能块200中被混合。另外，当所述第一参与者A讲话时，第一识别符ID_A通过连接102被传输至另一个参与者Z的装置100；当所述第二参与者B讲话时，第二识别符ID_B通过连接102被传输至另一个参与者Z的装置100；并且当所述第三参与者C讲话时，第三识别符ID_C通过连接102被传输至另一个参与者Z的装置100。

所述另一个参与者Z的装置100被设计来连接多个电声变换器110、120、130、140。优选地，至少两个电声变换器中的多个是可连接的。总体上，可以使用2个至N个扬声器。在图1中，第一扬声器110、第二扬声器120、第三扬声器130以及第四扬声器140被连接。所述第一扬声器110和所述第二扬声器120被放置在所述另一个参与者Z的前面。相比之下，所述第三扬声器130和所述第四扬声器140被放置在例如所述另一个参与者Z的后面。这种性质的四个扬声器布置在例如机动车辆中是可能的。另外，所述另一个参与者Z的装置100被设计来连接摄像机160、连接麦克风170以及连接显示器150。

所述另一个参与者Z的装置100具有用于将所接收到的第一音频信号Au_A和所接收到的第二音频信号Au_B滤波的滤波器105。另外，所述装置100具有连接至所述滤波器105的控制单元106，以便控制所述滤波器105的多个(意味着一个或多个)第一滤波器系数F_A和多个第二滤波器系数F_B以及多个第三滤波器系数F_C。所述控制单元106被配置来基于所接收到的第一参与者A的第一识别符ID_A来控制一个或多个第一滤波器系数F_A，基于所接收到的第二参与者B的第二识别符ID_B来控制一个或多个第二滤波器系数F_B，以及基于所接收到的第三参与者C的第三识别符ID_C来控制一个或多个第三滤波器系数F_B。

在此背景下，图1所示的会议***实行一种方法，其中所述第一参与者A的第一声音借助所述第一麦克风217被转变成第一音频信号Au_A。同样，所述第二参与者B的第二声音借助第二麦克风227被转变成第二音频信号Au_B。同样的情况类似地适用于所述第三参与者C。另外，当所述第一参与者A产生第一声音，例如当A讲话时等，功能块200生成与所述第一参与者A相关的第一识别符ID_A。此外，当所述第二参与者B产生第二声音时，生成与所述第二参与者B相关的第二识别符ID_B。此外，当所述第三参与者Ｃ产生第三声音时，生成与所述第三参与者C相关的第三识别符ID_C。

音频信号Au_A、Au_B、Au_C和识别符ID_A、ID_B、ID_C被传输给另一个参与者Z。立体化技术被用于为所述另一个参与者Z输出在虚拟声室中的不同位置处的音频信号Au_A、Au_B、Au_C。图1中的四个扬声器110、120、130、140重放从所述滤波器105输出的经滤波的信号。图1所示的扬声器110、120、130、140是例如有源扬声器110、120、130、140。或者，可以为每个扬声器110、120、130、140提供另外的功率放大器。

滤波器105的第一滤波器系数F_A的量与第一识别符ID_A相关。滤波器105的第二滤波器系数F_B的量与第二识别符ID_B相关。滤波器105的第三滤波器系数F_C的量与第三识别符ID_C相关。第一滤波器系数F_A、第二滤波器系数F_B以及第三滤波器系数F_C是不同的，以便第一参与者A、第二参与者B以及第三参与者C在虚拟声学空间中的声学分离。如在图2的实施方案中示意性地示出，所述虚拟声学空间是虚拟声室1。以这种方式，每个参与者A、B、C被放在所述虚拟声室1中，其中另一个参与者Z通过滤波听到其他参与者A、B、C。

在图2的实施方案中，借助声室模拟，例如借助源图像方法或射线追踪建立声室模型。在图2的实施方案中，为头戴式耳机121实施所述声室模型，所述头戴式耳机具有用于左耳的第一电声变换器110和用于右耳的第二电声变换器120。这也被称为双耳技术。参与者A、B、C实际上被作为声源放在所述声室模型中；取决于参与者的数量，参与者能够在声觉上被放在适当地靠近或远离彼此处。借助室模拟并且使用HRTF(与头部有关的传输函数)来计算出直接声音和所述虚拟声室1的墙壁、天花板以及地板对声源的反射，以便产生冲激响应，所述冲激响应借助所述滤波器105产生声觉印象，仿佛另一个参与者Z将会正好坐在这个模拟的室中并且恰好在所述虚拟声室1中放有虚拟声源的这些点处(例如，左前方、后中心处、右前方等)听到参与者A、B、C。

对虚拟声室1中的不同布局的不同的冲激响应现在被用于滤波器105中以便将所接收到的音频信号Au_A、Au_B、Au_C滤波。这是通过FIR滤波、快速卷积或分段的快速卷积等完成的。作为替代方案，在立体声平移中在滤波时发生位移，其中，例如通过不同的音量级将第一参与者A布置在立体声全景中极左侧并且将第二参与者B布置在立体声全景中极右侧。相比之下，如果会议中包括相对大量的参与者，则具有回声的如图2所示的虚拟声室1更适用于在声觉上分离虚拟声室1中的多个参与者A、B、C。

如果会议***检测到所述第一参与者A正在讲话，则使用第一滤波器系数F_A，并且在图2的示例性实施方案中，听众Z(意味着另一个参与者Z)从左前侧(从第一方向d_A)听到第一参与者A。在这里参与者A、B、C被示意性地图示了作为虚拟声室1中的虚拟声学源。当第二参与者B讲话时，使用第二滤波器系数F_B，并且听众Z从中央(从第二方向d_B)听到第二参与者B。当第三参与者C讲话时，听众Z从第三方向d_C听到第三参与者C。在这里，第一方向d_A与第二方向d_B彼此分离角度。在这里，第二方向d_B与第三方向d_C彼此分离角度。如果第一参与者A和第二参与者B同时讲话，那么语音的混合不会被分离，并且根据最后一个识别符被放置，或被给予一个新的位置，例如在所述虚拟声室1中的中间位置。

图2中所示的双耳技术得到显著改进：所述双耳技术与头部追踪器相结合。在这里，协同使用另一个参与者Z的显示于图1中的摄像机160，用于记录另一个参与者Z的视频图像和用于执行头部追踪器功能的面部追踪算法二者。使用面部追踪检测到头部的位置，特别是另一个参与者Z的头部转动的水平角度。在图2的示例性实施方案中，另一个参与者Z的头部在角度α范围内水平地转动。在根据图2的示例性实施方案中，所检测到的头部的转动角度被用于控制所述滤波器105，以便基于所检测到的头部的转动角度来改变参与者A、B、C在虚拟声室1中的声源。

当查明了头部的转动角度α时，滤波器105优选地受到控制，以便即使当听众Z转头时，参与者A、B、C在所述虚拟声室1中的声源保持在固定的位置处。在根据图2的示例性实施方案中，如果听众Z将头转动角度α，则方向d_A、d_B和d_C在相反方向上同样地被移位角度α至方向d_A'、d_B'、d_C'。使用头部追踪实现显著改进了声学真实性的优点。另外，头部追踪能够被用于查明另一个参与者Z的演讲方向并且用于向其他参与者A、B、C传输带有识别符的适当的方向信息。

图1和图2中的示例性实施方案使得能够在声学上为例如在机动车辆的后座中的乘客Z处理电话会议，以便当有多个参与者A、B、C时促进改进区分。图1和图2中的示例性实施方案实现改进了听众Z对参与者A、B、C中谁正在讲话的识别的优点。在这里，通过根据受控的滤波来从所传输的单耳音频信号产生经滤波的信号。以这种方式，讲话者在声学上被分离并且被分布在所述虚拟声学空间/声室1中，以便听众Z能够清晰地分辨出讲话者。因此，即使当参与者A、B、C的语音听起来相似时，或当听众Z不是非常熟悉参与者A、B、C时，听众Z也不再难以只通过参与者A、B、C的语音将他们分别开来。借助识别符ID_A、ID_B、ID_C，讲话的参与者A、B、C在声学上被会议***认出，这被用于图1和图2中的示例性实施方案中的声学分离。

图3示出一个实施方案，其中可适用的参与者A、B、C的视觉数据的虚拟放置以根据所述虚拟声学空间/声室1中的放置的一种方式发生。所述视觉数据显示于连接的显示器150中。控制单元106被配置来接收第一参与者A的第一视觉数据(例如，视频)和第二参与者B的第二视觉数据(例如，视频)。

图3中展示借助显示器150，所述第一参与者A的第一视觉数据显示于第一对象151中，并且所述第二参与者B的第二视觉数据显示于第二对象152中。另外，所述第三参与者C的视觉数据显示于第三对象153中。

如图2所示，这个实施例中的对象被放置在屏幕区域159内，以与参与者A、B、C在虚拟声室1中的放置一致。因此，所述第一对象151和所述第二对象152的位置也基于所述第一参与者A和所述第二参与者B在虚拟声室1中的声学分离被布置在显示器150中。在根据图2的示例性实施方案中，第二参与者B正在讲话，所以第二参与者B的第二视觉数据被显示在第二对象152中，其中第二对象152被移位至前景中。相比之下，第一对象151和第三对象153在背景中。如果识别符现在改变以便第一参与者A的第一识别符IDA被接收，那么对象151、152、153例如沿枢轴方向SW或在三维上被移位，这样使得第一参与者A的第一视觉数据借助第一对象151被显示于前景中。以这种方式，另外实现以下优点：听众Z的虚拟印象符合双耳声学印象，并且使易于理解讨论进程成为可能。

本发明并不限于图1至图3所示的实施方案。例如，提供另外的在所述虚拟声室1中前后分层布置的较大数量的参与者是可能的。使用较高数量的电声变换器，例如八个扬声器也是有可能的。所述装置100的功能能够尤其有利地用于机动车辆的音频***中。

引用字符列表

1 虚拟声室

100 装置

102,201,202,203 连接

105 滤波器

106 控制单元

110,120,130,140 电声变换器、扬声器

150,215,225,235 显示器

151,152,153 对象

159 显示区域

160,216,226,236 摄像机

170,217,227,237 麦克风

200 功能块

210,220,230 终端

A,B,C,Z 参与者

Au_A,Au_B,Au_C 音频信号

ID_A,ID_B,ID_C 识别符

F_A,F_B,F_C 滤波器系数

SW 枢轴方向

d_A,d_A’,d_B,d_B’,d_C,d_C’ 方向

α, 角度

Claims

1.用于操作会议***的方法，

-其中第一参与者(A)的第一声音通过第一麦克风(217)转换成第一音频信号(Au_A)，

-其中第二参与者(B)的第二声音通过第二麦克风(227)转换成第二音频信号(Au_B)，

-其中当所述第一参与者(A)产生所述第一声音时，生成与所述第一参与者(A)相关的第一识别符(ID_A)，

-其中当所述第二参与者(B)产生所述第二声音时，生成与所述第二参与者(B)相关的第二识别符(ID_B)，

-其中所述第一音频信号(Au_A)和所述第二音频信号(Au_B)以及所述第一识别符(ID_A)和所述第二识别符(ID_B)被传输到另一个参与者(Z)的装置(100)，

-其中所传输的所述第一音频信号(Au_A)和所述第二音频信号(Au_B)由所述装置(100)的滤波器(105)滤波，

-其中所述滤波器(105)的一个或多个第一滤波器系数(F_A)与所述第一识别符(ID_A)相关并且所述滤波器(105)的一个或多个第二滤波器系数(F_B)与所述第二识别符(ID_B)相关，

-其中所述第一滤波器系数(F_A)与所述第二滤波器系数(F_B)是彼此不同的，

-其中，利用彼此不同的所述第一滤波器系数(F_A)与所述第二滤波器系数(F_B)引起所述第一参与者(A)与所述第二参与者(B)在虚拟声学空间(1)中的声学分离，

-其中，查明所述另一个参与者(Z)的头部位置的改变(α)，以及

-基于所述头部位置的所查明的改变(α)来改变所述一个或多个第一滤波器系数(F_A)和/或所述一个或多个第二滤波器系数(F_B)。

2.根据权利要求1所述的方法，

-其中所述第一参与者(A)通过第一终端(210)进行通信，

-其中所述第二参与者(B)通过第二终端(220)进行通信，

-其中所述第一参与者(A)与所述第二参与者(B)在会议的不同位置处，

-其中所述第一终端(210)和所述第二终端(220)通过面向数据包的网络的连接(201、202)被连接至功能块(200)。

3.根据权利要求2所述的方法，

-其中所述第一终端(210)和所述第二终端(220)以及所述另一个参与者(Z)的所述装置(100)在所述功能块(200)处登入，

-其中所述功能块(200)具有关守，所述关守用于路由选择呼叫信令、解析电话号码和IP地址，以及转化所述号码和地址。

4.根据权利要求2或3所述的方法，

-其中，所述功能块(200)通过面向数据包的网络的连接(201，202)从所述第一终端(210)和所述第二终端(220)中的至少一个接收一个或多个视频图像，以及

-其中，响应于接收到所述一个或多个视频图像，所述功能块(200)根据所述第一终端(210)和所述第二终端(220)中的每一个的相应的显示能力来传输单独地译码的一个或多个视频流，其中将所述一个或多个视频流从所述功能块(200)传输到所述第一终端(210)和第二终端(220)中的至少一个。

5.用于会议***的装置(100)，

-其中所述装置(100)被配置来接收第一音频信号(Au_A)和与第一参与者(A)相关的第一识别符(ID_A)，

-其中所述装置(100)被配置来接收第二音频信号(Au_B)和与第二参与者(B)相关的第二识别符(ID_B)，

-所述装置(100)具有滤波器(105)，所述滤波器被配置来将所接收到的第一音频信号(Au_A)和所接收到的第二音频信号(Au_B)滤波并且向多个电声变换器(110、120、130、140)输出经滤波的信号，

-所述装置(100)具有连接至所述滤波器(105)的控制单元(106)，

-其中所述控制单元(106)被配置来基于所述第一识别符(ID_A)来控制一个或多个第一滤波器系数(F_A)并且基于所述第二识别符(ID_B)来控制一个或多个第二滤波器系数(F_B)，

-其中，利用彼此不同的所述第一滤波器系数(F_A)与所述第二滤波器系数(F_B)引起所述第一参与者(A)与所述第二参与者(B)在虚拟声学空间(1)中的声学分离，以及

-其中，所述装置(100)还被配置来查明另一个参与者(Z)的头部位置的改变(α)，并且基于所述头部位置的所查明的改变(α)来改变所述一个或多个第一滤波器系数(F_A)和/或所述一个或多个第二滤波器系数(F_B)。

6.根据权利要求5所述的装置(100)，

-其中所述一个或多个第一滤波器系数(F_A)与针对所述虚拟声学空间(1)中的第一位置的所述滤波器(105)的第一冲激响应相关，以及

-其中所述一个或多个第二滤波器系数(F_B)与针对所述虚拟声学空间(1)中的第二位置的所述滤波器(105)的第二冲激响应相关。

7.根据权利要求5或6所述的装置(100)，

-其中所述装置(100)被配置来基于另一个参与者(Z)的所述头部位置的改变(α)来查明另一个参与者(Z)的演讲方向，以及向所述第一参与者(A)和所述第二参与者(B)传输带有识别符的适当的方向信息。

8.根据权利要求7所述的装置(100)，

-其中所述装置(100)被配置来改变所述一个或多个第一滤波器系数(F_A)和/或所述一个或多个第二滤波器系数(F_B)，从而使所述第一参与者(A)的第一位置(d_A)和所述第二参与者(B)的第二位置(d_B)在所述虚拟声学空间中移位与所述头部位置的所述改变(α)相同的角度(α)，

使得所述第一参与者(A)和所述第二参与者(B)的虚拟声源的位置独立于所述头部位置的所述改变(α)而保持不变。

9.根据权利要求8所述的装置(100)，

-其中所述装置(100)被配置来连接摄像机(160)，

-其中所述装置(100)被配置来基于所述摄像机(160)的图像数据查明所述头部位置的所述改变(α)。

10.根据权利要求5或6所述的装置(100)，

-其中所述装置(100)被配置来连接显示器(150)，

-其中所述装置(100)被配置来接收所述第一参与者(A)的第一视觉数据和所述第二参与者(B)的第二视觉数据，

-其中所述装置(100)被配置来在所述显示器(150)中在第一对象(151)中输出所述第一参与者(A)的所述第一视觉数据并且在第二对象(152)中输出所述第二参与者(B)的所述第二视觉数据，以及

-其中所述装置(100)被配置来基于所述第一参与者(A)和所述第二参与者(B)在所述虚拟声学空间(1)中的所述声学分离在所述显示器(150)中布置所述第一对象(151)的位置和所述第二对象(152)的位置。