CN103220491B - 用于操作会议***的方法以及用于会议***的装置 - Google Patents

用于操作会议***的方法以及用于会议***的装置 Download PDF

Info

Publication number
CN103220491B
CN103220491B CN201310018445.8A CN201310018445A CN103220491B CN 103220491 B CN103220491 B CN 103220491B CN 201310018445 A CN201310018445 A CN 201310018445A CN 103220491 B CN103220491 B CN 103220491B
Authority
CN
China
Prior art keywords
participant
filter coefficient
identifier
audio signal
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310018445.8A
Other languages
English (en)
Other versions
CN103220491A (zh
Inventor
T.明奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Apple Inc
Harman International Industries Inc
Original Assignee
Apple Computer Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Apple Computer Inc filed Critical Apple Computer Inc
Publication of CN103220491A publication Critical patent/CN103220491A/zh
Application granted granted Critical
Publication of CN103220491B publication Critical patent/CN103220491B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/152Multipoint control units therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/50Aspects of automatic or semi-automatic exchanges related to audio conference
    • H04M2203/5072Multiple active speakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Abstract

用于会议***的装置和操作会议***的方法,其中该装置被配置来接收第一音频信号和与第一参与者相关的第一识别符,该装置被配置来接收第二音频信号和与第二参与者相关的第二识别符,该装置具有滤波器,其被配置成滤波接收到的第一音频信号和接收到的第二音频信号并向多个电声变换器输出经滤波的信号,该装置具有连接至滤波器的控制单元,其中控制单元被配置来基于第一识别符控制一个或多个第一滤波器系数并基于第二识别符控制一个或多个第二滤波器系数,其中第一滤波器系数与第二滤波器系数不同,从而引起第一参与者与第二参与者在虚拟声学空间中声学分离。该装置优选地包括根据头部位置的追踪改变第一滤波器系数和第二滤波器系数的头部追踪器功能。

Description

用于操作会议***的方法以及用于会议***的装置
技术领域
本发明涉及一种用于操作会议***的方法以及一种用于会议***的装置。
背景技术
从2008年7月德国德累斯顿工业大学的Kompetenzzentrum furVideokonferenzdienste,“Empfehlungen zur Vor-bereitung einer Vldeokonferenz”[对准备视频会议的建议]已知视频会议装置。用于IP传输的ITU-T标准(电信标准化部)H.323除了其它之外尤其定义了视频会议***的音频和视频标准。在视频会议***中执行的音频标准是:G.711、G.722、G.722.1附件C(Polycom Siren14)、G.723.1、G.728以及G.729。作为视频标准,执行H.261、H.263、H.263+、H.263++以及H.264。
所使用的视频会议终端被分成四个主要***分类:个人***、办公***、集团***以及房间***。桌面或个人***是用于PC和笔记本电脑的视频会议***。这些基于软件的解决方案是通过USB摄像机和头戴式耳机(双耳式耳机/麦克风单元)来使用。此外,还可以通过集成在PC中的视频卡来连接摄像机。
桌面***被设计成用于个人用户。与所有其它分类相比,除了成本低以外,这些***提供以下优点:用户在视频会议过程中有全权访问他的数据以及安装在他的PC上的程序。紧凑型***表现出完全集成的视频通信解决方案;通常,操作这些紧凑型***的仅有的附加要求是一个监测器和适当的网络连接(ISDN和/或LAN)。会议***和摄像机组成一个封闭单元。
房间***是带有一个模块化设计的视频通信解决方案。可适配的设备属性使得针对几乎每个应用程序的灵活的***配置成为可能。摄像机、房间麦克风以及大的监控器允许这些***集成为更大的会议房间,并且这些***自然地还允许各种***设备(例如像文本摄像机)的集成。房间***使中等规模至大群体的人参与视频会议成为可能。
从SAE Vienna2005的Philipp Diesenreiter的“Convolution:Faltung in derStudlopraxis”[卷积:在演播室中使用]已知卷积在声学中的使用。特殊DSP(DSP即数字信号处理器)和家用计算机的逐渐增长的计算能力允许在录音棚中使用卷积。当一个人用短(宽带)脉冲刺激房间时,一个人听到回音,所述回音是这个房间的特性并且由于所述房间的几何结构和尺寸、其基础结构、其内部以及其它特定特性而加重或抑制所述脉冲的特定频率分量。如果现在记录所述回音,那么一个人因此获得这个房间的冲激响应。所述冲激响应含有所述(线性的)房间的全特性。在卷积技术中,现在利用这个冲激响应,以便通过卷积的数学过程将任何其它所需要的声学信号与所述冲激响应相结合。例如,用于离散的(数字化的)周期信号的离散的、快速卷积(FFT即快速傅里叶变换)被用于生成所述房间的声学特性。作为确定特定房间的冲激响应的一个替代方案,也可以通过建模如射线追踪和源像模型来获得所述冲激响应。
当房间由平坦表面限制时,借助源像方法通过构建镜像声源可以计算出所反射的声音分量。借助建模,有可能更改所述声源的位置并且因此生成一个新的冲激响应。借助所述冲激响应,使用相关的滤波器减弱用于再现的信号。当出现声音事件时,空间印象是一个人从房间本身接收的听觉感知。所述空间印象增加声学信息,所述声学信息直接来自具有关于环境、关于房间的大小和特性的重要信息的声源。所述空间印象由以下多个分量组成:对所述房间的宽度和深度,也就是说对所述房间的大小的感知;对延长每个声音事件并且使所述声音事件与下一个声音事件融合的活跃度的感知;以及对空间的感知。数字滤波器是数字信号处理中最重要的工具之一。使用卷积实现了滤波器的一个实施。这种类型的滤波器称为FIR滤波器(有限冲激响应)。
从''Image method for efficiently simulating small-room acoustics(用于高效地模拟小室声学的图像法)",J.B.Allen和D.A.Berkley,J.Acoust.Soc.Am.65(4),Apr.1979已知使用数字滤波器。在理论上和实际上都使用用于在数字计算机上模拟位于小长方形室中的两点之间的冲激响应的图像技术。
发明内容
本发明的目标是改进一种用于操作会议***的方法。
这个目标通过具有独立权利要求1的特征的一种用于操作会议***的方法来达到。在本说明书中含有有利的改善。
因此,提供一种用于操作会议***的方法。第一参与者的第一声音通过第一麦克风被转换成第一音频信号。第二参与者的第二声音通过第二麦克风被转换成第二音频信号。
在所述方法中,当所述第一参与者产生所述第一声音时,例如,所述第一参与者对着所述第一麦克风讲话,生成与所述第一参与者相关的第一识别符。
在所述方法中,当所述第二参与者例如通过讲话产生所述第二声音时,生成与所述第二参与者相关的第二识别符。更具体来说,所述第一参与者与所述第二参与者处于不同的位置处,并且通过如因特网连接或电话连接的连接而彼此联系。
在所述方法中,所述第一音频信号和所述第二音频信号以及所述第一识别符和所述第二识别符被传输到另一个参与者的装置,例如通过电话连接或通过因特网连接。
在所述方法中,所传输的第一音频信号和第二音频信号由所述装置的滤波器滤波。所述滤波器的一个输出信号(经滤波的信号)被任选地放大。所述输出信号是立体声信号或多通道例如四通道信号。所述装置可连接至多个电声变换器以重放经滤波的信号。电声变换器是例如扬声器、头戴式耳机或听筒。
所述滤波器的一个或多个第一滤波器系数与所述第一识别符相关并且所述滤波器的一个或多个第二滤波器系数与所述第二识别符相关。第一滤波器系数与第二滤波器系数是不同的,从而引起所述第一参与者与所述第二参与者在虚拟声学空间中的声学分离。
所述第一参与者与所述第二参与者在虚拟声学空间中的分离的结果是:能够显著改进口头话语在电话会议或视频会议过程中的可理解性和关联性,如在实施方案中根据附图所解释。
本发明具有另外的目标:改进一种用于会议***的装置。
这个目标通过具有独立权利要求2的特征的装置来达到。有利的完善是从属权利要求的主题并且包含在本说明书中。
因此,提供一种用于会议***,更具体来说用于电话会议***或视频电话会议***的装置。所述装置被配置来例如经由电话连接或因特网连接接收第一音频信号和第二音频信号以及与第一参与者相关的第一识别符和与第二参与者相关的第二识别符。
所述装置可连接至多个电声变换器。例如,所述装置具有用于连接第一电声变换器的第一端口和用于连接第二电声变换器的第二端口。所述装置具有滤波器,所述滤波器被配置来将接收到的第一音频信号和接收到的第二音频信号滤波并且输出经滤波的信号。经滤波的信号被所述电声变换器任选地放大以用于重放。所述滤波器优选地是数字滤波器,例如FIR滤波器。
所述装置具有连接至所述滤波器的控制单元。所述控制单元优选地具有计算单元,例如像处理器或微控制器。所述控制单元被配置来基于所接收到的所述第一参与者的第一识别符来控制一个或多个第一滤波器系数并且基于所接收到的所述第二参与者的第二识别符来控制一个或多个第二滤波器系数。所述第一滤波器系数与第二滤波器系数是不同的,从而引起所述第一参与者与所述第二参与者在虚拟声学空间中的声学分离。
下文描述的实施方案涉及用于操作会议***的所述装置和所述方法二者。
所接收到的第一音频信号和所接收到的第二音频信号在所述虚拟声学空间中分离。这也可以被称为立体化。在这种情况下,存在几种分离的可能性。例如,所述第一音频信号能够由至少一个第一电声变换器专门地再现,而同时所述第二音频信号由至少一个第二电声变换器专门地再现。在这种情况下,所述第一扬声器的布置与所述第二扬声器的布置的距离在所述虚拟声学空间中的第一音频信号的第一位置与第二音频信号的第二位置之间进一步形成距离。
在另一个实施方案中,超过两个音频信号通过彼此相距一定距离布置的至少两个电声变换器输出。所述音频信号由两个电声变换器通过滤波以不用的音量来再现,即在所述虚拟声学空间中靠左或靠右。另外,通过所述滤波可能在中间再现音频信号,即两个电声变换器以相同的音量重放。在所述虚拟声学空间中在远离左侧与原理右侧之间的一些中间位置中的这种分离也称为平移。
在另一个实施方案中,所述第一音频信号和所述第二音频信号通过滤波被布置在所述虚拟声学空间中不同的空间深度中。所述虚拟声学空间优选地是虚拟声室,而所述滤波考虑到所述虚拟声室的虚拟墙壁的反射。出于这个目的,在以不同的滤波器系数将所述第一音频信号与所述第二音频信号滤波中使用卷积。例如,FIR滤波器(有限冲激响应滤波器),有时也称为横向滤波器被用于所述卷积。每个音频信号的位置能够根据需要借助所述滤波参数,尤其是通过卷积被放置在所述虚拟声室中。优选地,多个第一滤波器系数被加载到滤波器的第一滤波器块中以用于将所述第一位置滤波,并且多个第二滤波器系数被加载到滤波器的第二滤波器块中以用于将所述第二位置滤波。在这种情况下,所述虚拟声室中的定位是听者在声觉上定位相应的音频信号的源位置。
根据优选的实施方案,所述第一滤波器系数与针对虚拟声室中的第一位置的所述滤波器的第一冲激响应相关。所述第二滤波器系数与针对虚拟声室中的第二位置的所述滤波器的第二冲激响应相关。所述第一冲激响应和所述第二冲激响应优选地应用于相同的声室,其中所述第一冲激响应与所述声室中的作为第一参与者的第一声源的虚拟定位的第一位置相关,并且所述第二冲激响应与所述声室中的作为第二参与者的第二声源的虚拟定位的第二位置相关。
根据另一个实施方案,所述装置被配置来查明头部位置的改变。这能够被称为头部追踪。所述装置被配置来基于所查明的头部位置的改变来改变一个或多个第一滤波器系数和/或一个或多个第二滤波器系数。优选地,所述装置被配置来改变所述一个或多个第一滤波器系数和/或所述一个或多个第二滤波器系数,从而使所述第一参与者的第一位置和所述第二参与者的第二位置在虚拟声学空间中移位与所述头部位置的改变相同的角度。所述移位使得所述第一参与者和所述第二参与者的虚拟声源的定位独立于所述头部位置的改变而保持不变。
在特别有利的实施方案中,所述装置具有用于连接摄像机的另一个端口。例如,另一个参与者的视频通过所述摄像机被记录并且视情况被传输至其他参与者。所述装置被配置来检测所述另一个参与者的头部在位置上的改变,特别是查明转动的角度。
在另一个实施方案中,所述装置具有用于连接显示器的另一个端口。所述显示器被实施为例如屏或为触摸屏,其中所述触摸屏允许进行输入。所述装置优选地被配置来接收所述第一参与者的第一视觉数据(例如,视频)和所述第二参与者的视觉数据(例如,照片或屏幕呈现)。
所述装置优选地被配置来在所述显示器中在第一对象中输出所述第一参与者的第一视觉数据并且在第二对象中输出所述第二参与者的第二视觉数据。所述对象是例如二维画面或3D对象。
优选地,所述装置被配置来基于所述第一参与者和所述第二参与者在所述虚拟声学空间中的声学分离来布置所述第一物体和所述第二物体在所述显示器中的位置。在有利的样式中,所述虚拟声学空间中的位置与所述对象的位置彼此相对应。举例来说,如果从左侧听到所述第一参与者并且从右侧听到所述第二参与者,那么所述第一对象被显示在所述第二对象的左侧。
以上描述的实施方案单独地和组合起来都是尤其有利的。所有实施方案可以彼此结合。在根据附图对示例性实施方案的描述中解释一些可能的组合。然而,其中介绍的实施方案的组合的这些可能性不是详尽的。
下文通过示例性实施方案并且参照附图对本发明进行详细解释。
附图说明
附图显示:
图1视频会议***的示例性实施方案;
图2虚拟声室的示意性图示;以及
图3显示器的示意性图示。
具体实施方式
图1示出用于实施多点视频会议的多个部件。这些部件形成视频会议***;以下解释单独的部件。H.323是来自国际电信联盟(ITU)的标准,并且描述关于通过面向数据包的网络的语音、数据以及视频通信的所有协议和标准。所述标准定义四个主要群组:终端210、220、230,网关,关守以及多点控制单元。出于较简单表示的目的,图1示出三个终端210、220、230和功能块200中的一个多点控制单元。
术语“终端”被用于描述所有商业视频会议设备,如桌面***、紧凑型***以及房间***。在根据图1的示例性实施方案中,显示器215、225、235、摄像机216、226、236以及麦克风217、227、237连接至各自的终端210、220、230。第一参与者A通过第一终端210进行通信。第二参与者B通过第二终端220进行通信。第三参与者C通过第三终端230进行通信。所述终端210、220、230通过连接201、202、203,例如有限连接或无线电连接而连接至所述多点控制单元。
所述多点控制单元是用于群组会议的星形分布器。所述多点控制单元是管理和控制一个或多个多点会议的硬件和/或软件解决方案。在根据图1的示例性实施方案中,除了所述多点控制单元之外,所述功能块200还具有关守。所述关守是用于路由选择呼叫信令、解析电话号码和IP地址以及转化所述号码和地址的硬件和/或软件解决方案。
图1中未显示网关,所述网关实施IP网络(H.323)与电话网络(H.320)之间在双向上的连接以进行视频会议,其中所述网关执行ISDN到IP及IP到ISDN的协议转换。
在图1中,在地理上分离的四个参与者A、B、C和Z彼此进行视频会议。所有参与者A、B、C和Z处于视频会议的不同的位置处。在这个情况下,所有装置必须在功能块200(多点控制单元/关守)处登入。
例如,第一参与者A正在使用紧凑型***。这个视频会议***具有模块化结构,也就是说,所述模块化结构由编码解码器和分离的摄像机216组成。TV监控器215例如能够被用于视频和音频再现。第二参与者B正在使用桌面***。这个软件客户端可以在工作站通过LAN连接与USB摄像机226、监控器225和头戴式耳机一起使用。房间***可供用于第三参与者C。所述模块化房间***连接至摄像机236、麦克风237、屏幕235以及扬声器。
来自所有参与***的视频和音频数据在功能块200的多点控制单元中被处理。一个新的视频数据流由多个传入的视频数据流生成并且被发送回所有参与者A、B、C、Z。在图1中,所述视频会议的呈现以例如持续存在模式发生。在这个模式中,所有会议参与者A、B、C、Z同时彼此看见并且能够全部彼此听到。所述功能块200接收所有参与者A、B、C、Z的视频图像并且根据终端的显示能力将单独地译码的视频流传输回所述终端。传入的音频流AuA、AuB、AuC在功能块200中被处理,所述参与者A、B、C的音频流AuA、AuB、AuC在功能块200中被混合。另外,所述功能块200查明参与者A、B、C中哪一个正在讲话,并且适用的参与者A、B、C的识别符IDA、IDB、IDC与所述音频流一起被功能块200的多点控制单元传输。
当以语音交换模式进行视频会议时,只有正在讲话的参与者A、B、C被所有其他会议参与者A、B、C、Z看见。功能块200的多点控制单元例如以全屏显示方式将正在讲话的参与者(在图1所示的情况中是参与者A)的视频传输返回至所有会议参与者A、B、C、Z。由所述多点控制单元接收到的音频流AuA、AuB、AuC首先彼此混合或彼此之间交换,并且然后被传输返回至所有参与者A、B、C、Z。
在根据图1的示例性实施方案中,所示的情况是另一个参与者Z正在接收来自第一参与者A的第一音频信号AuA、来自第二参与者B的第二音频信号AuB,以及来自第三参与者C的第三音频信号AuC。所述音频信号AuA、AuB和AuC在功能块200中被混合。另外,当所述第一参与者A讲话时,第一识别符IDA通过连接102被传输至另一个参与者Z的装置100;当所述第二参与者B讲话时,第二识别符IDB通过连接102被传输至另一个参与者Z的装置100;并且当所述第三参与者C讲话时,第三识别符IDC通过连接102被传输至另一个参与者Z的装置100。
所述另一个参与者Z的装置100被设计来连接多个电声变换器110、120、130、140。优选地,至少两个电声变换器中的多个是可连接的。总体上,可以使用2个至N个扬声器。在图1中,第一扬声器110、第二扬声器120、第三扬声器130以及第四扬声器140被连接。所述第一扬声器110和所述第二扬声器120被放置在所述另一个参与者Z的前面。相比之下,所述第三扬声器130和所述第四扬声器140被放置在例如所述另一个参与者Z的后面。这种性质的四个扬声器布置在例如机动车辆中是可能的。另外,所述另一个参与者Z的装置100被设计来连接摄像机160、连接麦克风170以及连接显示器150。
所述另一个参与者Z的装置100具有用于将所接收到的第一音频信号AuA和所接收到的第二音频信号AuB滤波的滤波器105。另外,所述装置100具有连接至所述滤波器105的控制单元106,以便控制所述滤波器105的多个(意味着一个或多个)第一滤波器系数FA和多个第二滤波器系数FB以及多个第三滤波器系数FC。所述控制单元106被配置来基于所接收到的第一参与者A的第一识别符IDA来控制一个或多个第一滤波器系数FA,基于所接收到的第二参与者B的第二识别符IDB来控制一个或多个第二滤波器系数FB,以及基于所接收到的第三参与者C的第三识别符IDC来控制一个或多个第三滤波器系数FB
在此背景下,图1所示的会议***实行一种方法,其中所述第一参与者A的第一声音借助所述第一麦克风217被转变成第一音频信号AuA。同样,所述第二参与者B的第二声音借助第二麦克风227被转变成第二音频信号AuB。同样的情况类似地适用于所述第三参与者C。另外,当所述第一参与者A产生第一声音,例如当A讲话时等,功能块200生成与所述第一参与者A相关的第一识别符IDA。此外,当所述第二参与者B产生第二声音时,生成与所述第二参与者B相关的第二识别符IDB。此外,当所述第三参与者C产生第三声音时,生成与所述第三参与者C相关的第三识别符IDC
音频信号AuA、AuB、AuC和识别符IDA、IDB、IDC被传输给另一个参与者Z。立体化技术被用于为所述另一个参与者Z输出在虚拟声室中的不同位置处的音频信号AuA、AuB、AuC。图1中的四个扬声器110、120、130、140重放从所述滤波器105输出的经滤波的信号。图1所示的扬声器110、120、130、140是例如有源扬声器110、120、130、140。或者,可以为每个扬声器110、120、130、140提供另外的功率放大器。
滤波器105的第一滤波器系数FA的量与第一识别符IDA相关。滤波器105的第二滤波器系数FB的量与第二识别符IDB相关。滤波器105的第三滤波器系数FC的量与第三识别符IDC相关。第一滤波器系数FA、第二滤波器系数FB以及第三滤波器系数FC是不同的,以便第一参与者A、第二参与者B以及第三参与者C在虚拟声学空间中的声学分离。如在图2的实施方案中示意性地示出,所述虚拟声学空间是虚拟声室1。以这种方式,每个参与者A、B、C被放在所述虚拟声室1中,其中另一个参与者Z通过滤波听到其他参与者A、B、C。
在图2的实施方案中,借助声室模拟,例如借助源图像方法或射线追踪建立声室模型。在图2的实施方案中,为头戴式耳机121实施所述声室模型,所述头戴式耳机具有用于左耳的第一电声变换器110和用于右耳的第二电声变换器120。这也被称为双耳技术。参与者A、B、C实际上被作为声源放在所述声室模型中;取决于参与者的数量,参与者能够在声觉上被放在适当地靠近或远离彼此处。借助室模拟并且使用HRTF(与头部有关的传输函数)来计算出直接声音和所述虚拟声室1的墙壁、天花板以及地板对声源的反射,以便产生冲激响应,所述冲激响应借助所述滤波器105产生声觉印象,仿佛另一个参与者Z将会正好坐在这个模拟的室中并且恰好在所述虚拟声室1中放有虚拟声源的这些点处(例如,左前方、后中心处、右前方等)听到参与者A、B、C。
对虚拟声室1中的不同布局的不同的冲激响应现在被用于滤波器105中以便将所接收到的音频信号AuA、AuB、AuC滤波。这是通过FIR滤波、快速卷积或分段的快速卷积等完成的。作为替代方案,在立体声平移中在滤波时发生位移,其中,例如通过不同的音量级将第一参与者A布置在立体声全景中极左侧并且将第二参与者B布置在立体声全景中极右侧。相比之下,如果会议中包括相对大量的参与者,则具有回声的如图2所示的虚拟声室1更适用于在声觉上分离虚拟声室1中的多个参与者A、B、C。
如果会议***检测到所述第一参与者A正在讲话,则使用第一滤波器系数FA,并且在图2的示例性实施方案中,听众Z(意味着另一个参与者Z)从左前侧(从第一方向dA)听到第一参与者A。在这里参与者A、B、C被示意性地图示了作为虚拟声室1中的虚拟声学源。当第二参与者B讲话时,使用第二滤波器系数FB,并且听众Z从中央(从第二方向dB)听到第二参与者B。当第三参与者C讲话时,听众Z从第三方向dC听到第三参与者C。在这里,第一方向dA与第二方向dB彼此分离角度。在这里,第二方向dB与第三方向dC彼此分离角度。如果第一参与者A和第二参与者B同时讲话,那么语音的混合不会被分离,并且根据最后一个识别符被放置,或被给予一个新的位置,例如在所述虚拟声室1中的中间位置。
图2中所示的双耳技术得到显著改进:所述双耳技术与头部追踪器相结合。在这里,协同使用另一个参与者Z的显示于图1中的摄像机160,用于记录另一个参与者Z的视频图像和用于执行头部追踪器功能的面部追踪算法二者。使用面部追踪检测到头部的位置,特别是另一个参与者Z的头部转动的水平角度。在图2的示例性实施方案中,另一个参与者Z的头部在角度α范围内水平地转动。在根据图2的示例性实施方案中,所检测到的头部的转动角度被用于控制所述滤波器105,以便基于所检测到的头部的转动角度来改变参与者A、B、C在虚拟声室1中的声源。
当查明了头部的转动角度α时,滤波器105优选地受到控制,以便即使当听众Z转头时,参与者A、B、C在所述虚拟声室1中的声源保持在固定的位置处。在根据图2的示例性实施方案中,如果听众Z将头转动角度α,则方向dA、dB和dC在相反方向上同样地被移位角度α至方向dA'、dB'、dC'。使用头部追踪实现显著改进了声学真实性的优点。另外,头部追踪能够被用于查明另一个参与者Z的演讲方向并且用于向其他参与者A、B、C传输带有识别符的适当的方向信息。
图1和图2中的示例性实施方案使得能够在声学上为例如在机动车辆的后座中的乘客Z处理电话会议,以便当有多个参与者A、B、C时促进改进区分。图1和图2中的示例性实施方案实现改进了听众Z对参与者A、B、C中谁正在讲话的识别的优点。在这里,通过根据受控的滤波来从所传输的单耳音频信号产生经滤波的信号。以这种方式,讲话者在声学上被分离并且被分布在所述虚拟声学空间/声室1中,以便听众Z能够清晰地分辨出讲话者。因此,即使当参与者A、B、C的语音听起来相似时,或当听众Z不是非常熟悉参与者A、B、C时,听众Z也不再难以只通过参与者A、B、C的语音将他们分别开来。借助识别符IDA、IDB、IDC,讲话的参与者A、B、C在声学上被会议***认出,这被用于图1和图2中的示例性实施方案中的声学分离。
图3示出一个实施方案,其中可适用的参与者A、B、C的视觉数据的虚拟放置以根据所述虚拟声学空间/声室1中的放置的一种方式发生。所述视觉数据显示于连接的显示器150中。控制单元106被配置来接收第一参与者A的第一视觉数据(例如,视频)和第二参与者B的第二视觉数据(例如,视频)。
图3中展示借助显示器150,所述第一参与者A的第一视觉数据显示于第一对象151中,并且所述第二参与者B的第二视觉数据显示于第二对象152中。另外,所述第三参与者C的视觉数据显示于第三对象153中。
如图2所示,这个实施例中的对象被放置在屏幕区域159内,以与参与者A、B、C在虚拟声室1中的放置一致。因此,所述第一对象151和所述第二对象152的位置也基于所述第一参与者A和所述第二参与者B在虚拟声室1中的声学分离被布置在显示器150中。在根据图2的示例性实施方案中,第二参与者B正在讲话,所以第二参与者B的第二视觉数据被显示在第二对象152中,其中第二对象152被移位至前景中。相比之下,第一对象151和第三对象153在背景中。如果识别符现在改变以便第一参与者A的第一识别符IDA被接收,那么对象151、152、153例如沿枢轴方向SW或在三维上被移位,这样使得第一参与者A的第一视觉数据借助第一对象151被显示于前景中。以这种方式,另外实现以下优点:听众Z的虚拟印象符合双耳声学印象,并且使易于理解讨论进程成为可能。
本发明并不限于图1至图3所示的实施方案。例如,提供另外的在所述虚拟声室1中前后分层布置的较大数量的参与者是可能的。使用较高数量的电声变换器,例如八个扬声器也是有可能的。所述装置100的功能能够尤其有利地用于机动车辆的音频***中。
引用字符列表
1 虚拟声室
100 装置
102,201,202,203 连接
105 滤波器
106 控制单元
110,120,130,140 电声变换器、扬声器
150,215,225,235 显示器
151,152,153 对象
159 显示区域
160,216,226,236 摄像机
170,217,227,237 麦克风
200 功能块
210,220,230 终端
A,B,C,Z 参与者
AuA,AuB,AuC 音频信号
IDA,IDB,IDC 识别符
FA,FB,FC 滤波器系数
SW 枢轴方向
dA,dA’,dB,dB’,dC,dC’ 方向
α, 角度

Claims (10)

1.用于操作会议***的方法,
-其中第一参与者(A)的第一声音通过第一麦克风(217)转换成第一音频信号(AuA),
-其中第二参与者(B)的第二声音通过第二麦克风(227)转换成第二音频信号(AuB),
-其中当所述第一参与者(A)产生所述第一声音时,生成与所述第一参与者(A)相关的第一识别符(IDA),
-其中当所述第二参与者(B)产生所述第二声音时,生成与所述第二参与者(B)相关的第二识别符(IDB),
-其中所述第一音频信号(AuA)和所述第二音频信号(AuB)以及所述第一识别符(IDA)和所述第二识别符(IDB)被传输到另一个参与者(Z)的装置(100),
-其中所传输的所述第一音频信号(AuA)和所述第二音频信号(AuB)由所述装置(100)的滤波器(105)滤波,
-其中所述滤波器(105)的一个或多个第一滤波器系数(FA)与所述第一识别符(IDA)相关并且所述滤波器(105)的一个或多个第二滤波器系数(FB)与所述第二识别符(IDB)相关,
-其中所述第一滤波器系数(FA)与所述第二滤波器系数(FB)是彼此不同的,
-其中,利用彼此不同的所述第一滤波器系数(FA)与所述第二滤波器系数(FB)引起所述第一参与者(A)与所述第二参与者(B)在虚拟声学空间(1)中的声学分离,
-其中,查明所述另一个参与者(Z)的头部位置的改变(α),以及
-基于所述头部位置的所查明的改变(α)来改变所述一个或多个第一滤波器系数(FA)和/或所述一个或多个第二滤波器系数(FB)。
2.根据权利要求1所述的方法,
-其中所述第一参与者(A)通过第一终端(210)进行通信,
-其中所述第二参与者(B)通过第二终端(220)进行通信,
-其中所述第一参与者(A)与所述第二参与者(B)在会议的不同位置处,
-其中所述第一终端(210)和所述第二终端(220)通过面向数据包的网络的连接(201、202)被连接至功能块(200)。
3.根据权利要求2所述的方法,
-其中所述第一终端(210)和所述第二终端(220)以及所述另一个参与者(Z)的所述装置(100)在所述功能块(200)处登入,
-其中所述功能块(200)具有关守,所述关守用于路由选择呼叫信令、解析电话号码和IP地址,以及转化所述号码和地址。
4.根据权利要求2或3所述的方法,
-其中,所述功能块(200)通过面向数据包的网络的连接(201,202)从所述第一终端(210)和所述第二终端(220)中的至少一个接收一个或多个视频图像,以及
-其中,响应于接收到所述一个或多个视频图像,所述功能块(200)根据所述第一终端(210)和所述第二终端(220)中的每一个的相应的显示能力来传输单独地译码的一个或多个视频流,其中将所述一个或多个视频流从所述功能块(200)传输到所述第一终端(210)和第二终端(220)中的至少一个。
5.用于会议***的装置(100),
-其中所述装置(100)被配置来接收第一音频信号(AuA)和与第一参与者(A)相关的第一识别符(IDA),
-其中所述装置(100)被配置来接收第二音频信号(AuB)和与第二参与者(B)相关的第二识别符(IDB),
-所述装置(100)具有滤波器(105),所述滤波器被配置来将所接收到的第一音频信号(AuA)和所接收到的第二音频信号(AuB)滤波并且向多个电声变换器(110、120、130、140)输出经滤波的信号,
-所述装置(100)具有连接至所述滤波器(105)的控制单元(106),
-其中所述控制单元(106)被配置来基于所述第一识别符(IDA)来控制一个或多个第一滤波器系数(FA)并且基于所述第二识别符(IDB)来控制一个或多个第二滤波器系数(FB),
-其中所述第一滤波器系数(FA)与所述第二滤波器系数(FB)是彼此不同的,
-其中,利用彼此不同的所述第一滤波器系数(FA)与所述第二滤波器系数(FB)引起所述第一参与者(A)与所述第二参与者(B)在虚拟声学空间(1)中的声学分离,以及
-其中,所述装置(100)还被配置来查明另一个参与者(Z)的头部位置的改变(α),并且基于所述头部位置的所查明的改变(α)来改变所述一个或多个第一滤波器系数(FA)和/或所述一个或多个第二滤波器系数(FB)。
6.根据权利要求5所述的装置(100),
-其中所述一个或多个第一滤波器系数(FA)与针对所述虚拟声学空间(1)中的第一位置的所述滤波器(105)的第一冲激响应相关,以及
-其中所述一个或多个第二滤波器系数(FB)与针对所述虚拟声学空间(1)中的第二位置的所述滤波器(105)的第二冲激响应相关。
7.根据权利要求5或6所述的装置(100),
-其中所述装置(100)被配置来基于另一个参与者(Z)的所述头部位置的改变(α)来查明另一个参与者(Z)的演讲方向,以及向所述第一参与者(A)和所述第二参与者(B)传输带有识别符的适当的方向信息。
8.根据权利要求7所述的装置(100),
-其中所述装置(100)被配置来改变所述一个或多个第一滤波器系数(FA)和/或所述一个或多个第二滤波器系数(FB),从而使所述第一参与者(A)的第一位置(dA)和所述第二参与者(B)的第二位置(dB)在所述虚拟声学空间中移位与所述头部位置的所述改变(α)相同的角度(α),
使得所述第一参与者(A)和所述第二参与者(B)的虚拟声源的位置独立于所述头部位置的所述改变(α)而保持不变。
9.根据权利要求8所述的装置(100),
-其中所述装置(100)被配置来连接摄像机(160),
-其中所述装置(100)被配置来基于所述摄像机(160)的图像数据查明所述头部位置的所述改变(α)。
10.根据权利要求5或6所述的装置(100),
-其中所述装置(100)被配置来连接显示器(150),
-其中所述装置(100)被配置来接收所述第一参与者(A)的第一视觉数据和所述第二参与者(B)的第二视觉数据,
-其中所述装置(100)被配置来在所述显示器(150)中在第一对象(151)中输出所述第一参与者(A)的所述第一视觉数据并且在第二对象(152)中输出所述第二参与者(B)的所述第二视觉数据,以及
-其中所述装置(100)被配置来基于所述第一参与者(A)和所述第二参与者(B)在所述虚拟声学空间(1)中的所述声学分离在所述显示器(150)中布置所述第一对象(151)的位置和所述第二对象(152)的位置。
CN201310018445.8A 2012-01-18 2013-01-18 用于操作会议***的方法以及用于会议***的装置 Active CN103220491B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP12000341.3A EP2618564A1 (en) 2012-01-18 2012-01-18 Method for operating a conference system and device for a conference system
EP12000341.3 2012-01-18

Publications (2)

Publication Number Publication Date
CN103220491A CN103220491A (zh) 2013-07-24
CN103220491B true CN103220491B (zh) 2016-08-10

Family

ID=45507417

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310018445.8A Active CN103220491B (zh) 2012-01-18 2013-01-18 用于操作会议***的方法以及用于会议***的装置

Country Status (3)

Country Link
US (1) US9049339B2 (zh)
EP (1) EP2618564A1 (zh)
CN (1) CN103220491B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103491397B (zh) * 2013-09-25 2017-04-26 歌尔股份有限公司 一种实现自适应环绕声的方法和***
EP3254456B1 (en) * 2015-02-03 2020-12-30 Dolby Laboratories Licensing Corporation Optimized virtual scene layout for spatial meeting playback
US9530426B1 (en) * 2015-06-24 2016-12-27 Microsoft Technology Licensing, Llc Filtering sounds for conferencing applications
US9769563B2 (en) * 2015-07-22 2017-09-19 Harman International Industries, Incorporated Audio enhancement via opportunistic use of microphones
US10585480B1 (en) 2016-05-10 2020-03-10 Apple Inc. Electronic device with an input device having a haptic engine
US10649529B1 (en) 2016-06-28 2020-05-12 Apple Inc. Modification of user-perceived feedback of an input device using acoustic or haptic output
CN107978312A (zh) * 2016-10-24 2018-05-01 阿里巴巴集团控股有限公司 一种语音识别的方法、装置及***
US10747301B2 (en) * 2017-03-28 2020-08-18 Magic Leap, Inc. Augmented reality system with spatialized audio tied to user manipulated virtual object
CN107333093B (zh) * 2017-05-24 2019-11-08 苏州科达科技股份有限公司 一种声音处理方法、装置、终端及计算机可读存储介质
US10491643B2 (en) 2017-06-13 2019-11-26 Apple Inc. Intelligent augmented audio conference calling using headphones
JP6686977B2 (ja) * 2017-06-23 2020-04-22 カシオ計算機株式会社 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム
CN107465518A (zh) * 2017-08-16 2017-12-12 北京大生在线科技有限公司 一种基于网络的多人同时语音聊天方法及***
US10768747B2 (en) 2017-08-31 2020-09-08 Apple Inc. Haptic realignment cues for touch-input displays
US11054932B2 (en) 2017-09-06 2021-07-06 Apple Inc. Electronic device having a touch sensor, force sensor, and haptic actuator in an integrated module
US10768738B1 (en) 2017-09-27 2020-09-08 Apple Inc. Electronic device having a haptic actuator with magnetic augmentation
EP3506563A1 (en) * 2017-12-29 2019-07-03 Unify Patente GmbH & Co. KG Method, system, and server for reducing noise in a workspace
CN110494792B (zh) 2018-03-07 2021-07-09 奇跃公司 ***设备的视觉跟踪
US10942571B2 (en) 2018-06-29 2021-03-09 Apple Inc. Laptop computing device with discrete haptic regions
US10936071B2 (en) 2018-08-30 2021-03-02 Apple Inc. Wearable electronic device with haptic rotatable input
US10966007B1 (en) * 2018-09-25 2021-03-30 Apple Inc. Haptic output system
US10491857B1 (en) * 2018-11-07 2019-11-26 Nanning Fugui Precision Industrial Co., Ltd. Asymmetric video conferencing system and method
US11024135B1 (en) 2020-06-17 2021-06-01 Apple Inc. Portable electronic device having a haptic button assembly
US11750745B2 (en) 2020-11-18 2023-09-05 Kelly Properties, Llc Processing and distribution of audio signals in a multi-party conferencing environment

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5335011A (en) * 1993-01-12 1994-08-02 Bell Communications Research, Inc. Sound localization system for teleconferencing using self-steering microphone arrays
CN101690149A (zh) * 2007-05-22 2010-03-31 艾利森电话股份有限公司 用于群组声音远程通信的方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7012630B2 (en) * 1996-02-08 2006-03-14 Verizon Services Corp. Spatial sound conference system and apparatus
US7075922B2 (en) * 2001-04-30 2006-07-11 Level 3 Communications, Inc. Screening inbound calls in a packet-based communications network
GB0123493D0 (en) * 2001-09-28 2001-11-21 Adaptive Audio Ltd Sound reproduction systems

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5335011A (en) * 1993-01-12 1994-08-02 Bell Communications Research, Inc. Sound localization system for teleconferencing using self-steering microphone arrays
CN101690149A (zh) * 2007-05-22 2010-03-31 艾利森电话股份有限公司 用于群组声音远程通信的方法和装置

Also Published As

Publication number Publication date
EP2618564A1 (en) 2013-07-24
US20130182064A1 (en) 2013-07-18
US9049339B2 (en) 2015-06-02
CN103220491A (zh) 2013-07-24

Similar Documents

Publication Publication Date Title
CN103220491B (zh) 用于操作会议***的方法以及用于会议***的装置
EP2158752B1 (en) Methods and arrangements for group sound telecommunication
US8073125B2 (en) Spatial audio conferencing
US7012630B2 (en) Spatial sound conference system and apparatus
US5991385A (en) Enhanced audio teleconferencing with sound field effect
TWI264934B (en) Stereo microphone processing for teleconferencing
US20180359294A1 (en) Intelligent augmented audio conference calling using headphones
US20050280701A1 (en) Method and system for associating positional audio to positional video
JP2002511714A (ja) 通信会議システム
US7720212B1 (en) Spatial audio conferencing system
Hyder et al. Placing the participants of a spatial audio conference call
WO2011153907A1 (zh) 一种播放远端与会人员音频的方法、装置及远程视频会议***
KR20090077934A (ko) 통신 애플리케이션의 사운드 이벤트의 획득, 송신, 및 재생을 위한 프로세스 및 장치
JP2006279492A (ja) 電話会議システム
JP5097169B2 (ja) 電話会議装置とそれを用いた電話会議システム
JP2006339869A (ja) 映像信号と音響信号の統合装置
JP2023155921A (ja) 情報処理装置、情報処理端末、情報処理方法、およびプログラム
JP6972858B2 (ja) 音響処理装置、プログラム及び方法
JP2004274147A (ja) 音場定位型多地点通話システム
US20100272249A1 (en) Spatial Presentation of Audio at a Telecommunications Terminal
Kang et al. Realistic audio teleconferencing using binaural and auralization techniques
JPH08125760A (ja) 情報処理装置
Härmä Ambient human-to-human communication
CN117373476A (zh) 实时通信中生成具有统一混响的空间音频的***和方法
CN118413624A (zh) 一种基于虚拟现实的音频会议***及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160202

Address after: American California

Applicant after: APPLE Inc.

Address before: American Connecticut

Applicant before: HARMAN INTERNATIONAL INDUSTRIES, Inc.

Effective date of registration: 20160202

Address after: American Connecticut

Applicant after: HARMAN INTERNATIONAL INDUSTRIES, Inc.

Address before: Carlsbad

Applicant before: HARMAN BECKER AUTOMOTIVE SYSTEMS GmbH

C14 Grant of patent or utility model
GR01 Patent grant