CN118202641A - 用于房间智能的会议***及方法 - Google Patents
用于房间智能的会议***及方法 Download PDFInfo
- Publication number
- CN118202641A CN118202641A CN202280071419.9A CN202280071419A CN118202641A CN 118202641 A CN118202641 A CN 118202641A CN 202280071419 A CN202280071419 A CN 202280071419A CN 118202641 A CN118202641 A CN 118202641A
- Authority
- CN
- China
- Prior art keywords
- camera
- coordinate system
- microphone array
- audiovisual device
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000009434 installation Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 35
- 230000008569 process Effects 0.000 description 32
- 238000006243 chemical reaction Methods 0.000 description 21
- 238000003491 array Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 4
- 230000004931 aggregating effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 241001310793 Podium Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000011960 computer-aided design Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/04—Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/695—Control of camera direction for changing a field of view, e.g. pan, tilt or based on tracking of objects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/027—Spatial or constructional arrangements of microphones, e.g. in dummy heads
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开经配置以产生真实讲话者坐标供用于对环境中的讲话者及对象的摄像机跟踪以及其它房间智能使用情形的会议***及方法。所述会议***的初始配置及持续使用可通过检测环境中的对象及讲话者的位置并将所述位置转换到共同坐标***中来改进。可减少安装者、集成者及用户的时间及精力的量,从而使得对所述会议***的安装及使用的满意度提高。
Description
相关申请案交叉参考
本申请案主张于2021年9月21日提出申请的美国临时专利申请案第63/261,459号的权益,所述美国临时专利申请案以其全文引用的方式完全并入本文中。
技术领域
本申请大体上涉及会议***及方法,所述会议***及方法经配置以产生真实讲话者坐标供用于对环境中的讲话者及对象进行摄像机跟踪以及其它房间智能使用情形。
背景技术
例如会议室、董事会会议室、视频会议设置等会议环境可涉及使用用于从音频源捕获声音的麦克风(包含麦克风阵列)以及用于从远程位置(也称为远端)呈现音频的扬声器。举例来说,会议室中的人可正在与远程位置处的人进行电话会议。通常,来自会议室的语音及声音可由麦克风捕获并传输到远程位置,同时来自远程位置的语音及声音可被接收并在会议室中的扬声器上播放。可使用多个麦克风以便最优地捕获会议室中的语音及声音。
此类会议环境还可包含例如摄像机等一或多个图像捕获装置,所述一或多个图像捕获装置可用于捕获及提供环境中的人及对象的图像及视频以传输到远程位置进行观看。然而,如果例如环境中的摄像机经配置以仅展示整个房间或如果摄像机被固定为仅展示房间的特定预配置部分,那么远程位置处的观看者可难以看到特定讲话者。举例来说,讲话者可包含环境中正在说话或发出其它声音的人。
另外,可存在其中需要多个摄像机及/或多个麦克风以实现充分的视频及音频覆盖的环境,以及其中摄像机与麦克风的相对位置未知或未预先定义的环境。在此类环境中,可难以准确地将摄像机角度与讲话者位置相关联。尽管专业安装者或集成者可基于来自麦克风阵列的位置信息而手动地配置摄像机的区带或预设,但这通常是耗时、费力且不灵活的过程。举例来说,如果在***的初始设置之后房间中的座位布置发生改变,那么预先配置的摄像机区带可无法充分地覆盖参与者,且此类区带在其被设置之后可难以修改,及/或可仅由专业安装者或集成者修改。
发明内容
本公开的技术旨在通过提供***及方法解决上述问题,所述***及方法经设计以(除其它外):(1)使用麦克风阵列确定第一坐标***中的摄像机位置,使用麦克风阵列将摄像机位置转换成第二坐标***中的麦克风阵列位置,且将第二坐标***中的麦克风阵列位置传输到摄像机;(2)将麦克风阵列在第一坐标***中的波瓣位置转换成第二坐标***中的波瓣位置,且将第二坐标***中的波瓣位置传输到摄像机;(3)将由麦克风阵列在第一坐标***中检测到的讲话者位置转换成第二坐标***中的讲话者位置,且将第二坐标***中的讲话者位置传输到摄像机;(4)将来自相应坐标***中的多个麦克风阵列的麦克风阵列位置、波瓣位置及讲话者位置聚合并转换到另一坐标***中,且将另一坐标***中的麦克风阵列位置、波瓣位置及讲话者位置传输到摄像机;以及(5)基于在经转换坐标***中的波瓣位置及/或讲话者位置而产生摄像机预设或调整摄像机。
在实施例中,一种方法可包含:使用麦克风阵列且基于来自或靠近摄像机的声学触发而检测第一坐标***中的摄像机位置;使用麦克风阵列且基于摄像机位置而将第一坐标***中的摄像机位置转换成第二坐标***中的麦克风阵列位置;以及将第二坐标***中的麦克风阵列位置从麦克风阵列传输到摄像机。
在另一实施例中,一种方法可包含:利用摄像机接收在相对于摄像机的坐标***中的一或多个麦克风波瓣位置;利用所述摄像机接收麦克风波瓣活动信息,所述麦克风波瓣活动信息指示与所述一或多个麦克风波瓣位置相关联的一或多个麦克风波瓣中的哪一者是活动的;使用摄像机且基于一或多个麦克风波瓣位置而在相对于摄像机的坐标***中自动产生一或多个摄像机预设;使用所述摄像机且基于所述一或多个摄像机预设及所述麦克风波瓣活动信息而确定所述一或多个摄像机预设中的活动预设;以及基于所确定的活动预置而控制摄像机。
在另一实施例中,一种方法可包含:在摄像机处接收在相对于摄像机的坐标***中的一或多个麦克风波瓣位置;使用所述摄像机且基于所述一或多个麦克风波瓣位置而自动确定对与所述摄像机相关联的至少一个参数的调整;以及基于所确定的调整而控制摄像机。
在另一实施例中,一种***可包含:麦克风阵列,其经配置以基于来自或靠近摄像机的声学触发而检测第一坐标***中的摄像机位置;将第一坐标***中的摄像机位置转换成第二坐标***中的麦克风阵列位置;及将第二坐标***中的麦克风阵列位置传输到摄像机。所述***还可包含所述摄像机经配置以:接收第二坐标***中的麦克风阵列位置;基于所述麦克风阵列位置而在所述第二坐标***中自动产生一或多个摄像机预设;及基于一或多个摄像机预设中的一者而调整摄像机的参数。
在另一实施例中,一种方法可包含:使用麦克风阵列将麦克风阵列在第一坐标***中的波瓣位置转换成麦克风阵列在第二坐标***中的波瓣位置;及将麦克风阵列在第二坐标***中的波瓣位置从麦克风阵列传输到摄像机,以致使摄像机调整与摄像机相关联的至少一个参数。
在另一实施例中,一种方法可包含:使用麦克风阵列且基于与讲话者相关的音频而确定第一坐标***中的讲话者位置;使用麦克风阵列且基于第一坐标***中的讲话者位置而将所述讲话者位置转换成第二坐标***中的讲话者位置;及将第二坐标***中的讲话者位置从麦克风阵列传输到摄像机以致使摄像机调整与摄像机相关联的至少一个参数。
在另一实施例中,一种***可包含第一视听装置及与所述第一视听装置不在同一位置处的第二视听装置。所述第一视听装置可经配置以:确定第二视听装置在相对于第一视听装置的第一坐标***中的位置;及将第二视听装置在第一坐标***中的位置转换成第一视听装置在相对于第二视听装置的第二坐标***中的位置。
在另一实施例中,一种方法可包含:使用第一视听装置且基于所接收音频而确定第一坐标***中的第二视听装置位置;基于第二视听装置位置而将第一坐标***中的第二视听装置位置转换成第二坐标***中的第一视听装置位置;及将第二坐标***中的第一装置位置从第一视听装置传输到第二视听装置。
在另一实施例中,一种方法可包含:使用多个摄像机中的每一者来检测多个摄像机的相应坐标***中的麦克风位置;将多个摄像机的相应坐标***中的麦克风位置转换成共同坐标***中的麦克风位置;及基于共同坐标***中的麦克风位置而控制多个摄像机中的一或多个摄像机的参数。
依据以下详细说明及附图,将明了且更全面地理解这些及其它实施例以及各种排列及方面,以下详细说明及附图陈述指示其中可采用本发明的原理的各种方式的说明性实施例。
附图说明
图1是根据一些实施例的包含会议***的物理环境的示范性描绘,所述会议***可用于检测环境中的对象及讲话者的位置并将所述位置转换到坐标***中。
图2是根据一些实施例的可与图1的会议***一起使用的***的框图。
图3是根据一些实施例的麦克风阵列的框图,所述麦克风阵列经配置以用于自动化检测音频活动并将环境中的对象及讲话者的位置转换到坐标***中,且所述麦克风阵列可与图1及2的***一起使用。
图4是图解说明根据一些实施例的操作的流程图,所述操作用于使用图2及3的***来确定第一坐标***中的摄像机位置并将所述摄像机位置转换成第二坐标***中的麦克风阵列位置且将麦克风波瓣位置转换到第二坐标***。
图5是图解说明根据一些实施例的操作的流程图,所述操作用于使用图2及3的***来确定由第一坐标***中的麦克风阵列检测到的讲话者位置并将所述讲话者位置转换成第二坐标***中的讲话者位置。
图6是图解说明根据一些实施例的操作的流程图,所述操作用于使用图2及3的***基于坐标***中的麦克风阵列位置及波瓣位置使用摄像机来产生摄像机预设。
图7是图解说明根据一些实施例的操作的流程图,所述操作用于使用图2及3的***基于经转换坐标***中的麦克风阵列位置及讲话者位置使用摄像机来产生摄像机预设。
图8是图解说明根据一些实施例的操作的流程图,所述操作用于使用图2及3的***基于经转换坐标***中的麦克风阵列位置及讲话者位置而确定摄像机调整。
图9是根据一些实施例的包含会议***的物理环境的示范性描绘,所述会议***包含多个麦克风阵列及摄像机,其中所述***可用于检测环境中的对象及讲话者的位置且将所述位置转换到坐标***中。
图10是根据一些实施例的可与图9的会议***一起使用的具有多个麦克风阵列的***的框图。
图11是图解说明根据一些实施例的操作的流程图,所述操作用于将来自相应坐标***中的多个麦克风阵列的摄像机位置、波瓣位置及讲话者位置聚合并转换到可与图10的***一起使用的坐标***中。
图12是根据一些实施例的可与图9的会议***一起使用的具有多个摄像机的***的框图。
图13是图解说明根据一些实施例的操作的流程图,所述操作用于选择要利用的摄像机且用于调整可与图12的***一起使用的选定摄像机。
图14是图解说明根据一些实施例的操作的流程图,所述操作用于确定第一坐标***中的麦克风阵列位置并将所述麦克风阵列位置转换成第二坐标***中的摄像机位置。
具体实施方式
本文中所描述的***及方法可通过检测环境中的对象及讲话者的位置并将所述位置转换到共同坐标***中而改进会议***的配置及使用。举例来说,麦克风阵列可在相对于麦克风阵列的坐标***中检测摄像机的位置且将所述位置转换成摄像机更容易使用的坐标***(例如,相对于摄像机的坐标***)中的麦克风阵列的位置。作为另一实例,麦克风阵列可在相对于麦克风阵列的坐标***中检测环境中的讲话者的位置。麦克风阵列还可将在相对于麦克风阵列的坐标***中的讲话者位置转换成在相对于摄像机的坐标***中的讲话者位置。作为另一实例,麦克风阵列可将所述麦克风阵列在相对于麦克风阵列的坐标***中的波瓣位置转换成在相对于摄像机的坐标***中的波瓣位置。
以此方式,摄像机可接收在所述摄像机可理解且有用的坐标***中的麦克风阵列、讲话者及/或麦克风阵列波瓣的位置。本文中所描述的***及方法对于与会议***一起使用可尤其有用,在所述会议***中,摄像机及麦克风阵列的位置最初相对于彼此是未知的,例如其中摄像机与麦克风阵列不在同一位置处。
举例来说,摄像机可利用麦克风阵列、讲话者及/或麦克风阵列波瓣的位置作为用于产生可基于讲话者及/或麦克风波瓣位置的摄像机预设的基础。摄像机还可利用麦克风阵列、讲话者及/或麦克风阵列波瓣的位置来对由摄像机捕获的图像及视频进行移动、缩放、摇摄、取景或以其它方式调整。如此,本文中所描述的***及方法在会议***的配置期间可为有帮助的,以便减少通常由安装者或集成者执行的手动测量,例如摄像机与麦克风阵列之间的距离及位置的测量。举例来说,本文中所描述的***及方法还可在会议***的使用期间有助于使得摄像机能够更准确地捕获活动讲话者的图像。因此,可减少安装者、集成者及用户的时间及精力的量,从而使得对会议***的安装及使用的满意度提高。
图1是其中可使用本文中所公开的***及方法的物理环境100的示范性描绘。特定来说,图1展示包含会议***的各种换能器及装置以及其它对象的示范性会议室的透视图。应理解,尽管图1图解说明一种可能的环境,但本文中所公开的***及方法可用于任何适用的环境中,包含但不限于办公室、聚会室、剧院、竞技场、音乐场所等。
图1中所展示的环境100中的***可包含各种组件,例如扬声器102、麦克风阵列104、桌面麦克风106、显示器108、计算装置110及摄像机112。环境100还可包含一或多个人120及/或其它对象(例如,乐器、电话、平板计算机、计算机、HVAC设备等)。在实施例中,所述组件中的一或多者可包含数字信号处理器、无线接收器、无线收发器等。应理解,图1中所展示的组件仅为示范性的,且环境100中的各种组件的任何数量、类型及放置均为可考虑的及可能的。
换能器(例如,麦克风及扬声器)的类型及其在特定环境中的放置可取决于音频源的位置、听众、物理空间需求、美学、房间布局、舞台布局及/或其它考虑因素。举例来说,麦克风可放置在音频源附近的桌子或讲台上(例如麦克风106),或者附接到音频源(例如,表演者)。麦克风也可安装在头顶上或墙壁上以例如使用麦克风阵列104捕获来自更大区域(例如整个房间)的声音。类似地,扬声器102可放置在墙壁或天花板上以便向环境100中的听众发出声音,例如来自会议远端的声音、预先录制的音频、流式传输音频等。麦克风及扬声器可符合各种大小、外观尺寸、安装选项及布线选项以适合特定环境的需要。
通常,环境100的会议室可用于其中本地参与者相互交流及/或与远程参与者进行交流的会议。如此,麦克风阵列104及/或桌面麦克风106可检测及捕获来自环境100内的音频源的声音。举例来说,音频源可为一或多个人类讲话者120。在常见的情况中,人类讲话者可坐在桌子旁的椅子上,但音频源的其它配置及位置为可考虑的及可能的。
摄像机112可捕获***所在的环境100的静态图像及/或视频。在一些实施例中,摄像机112可为独立摄像机,且在其它实施例中,摄像机112可为电子装置(例如,智能电话、平板计算机等)的组件。摄像机112可为能够物理地移动及缩放以捕获所要图像及视频的摇摄-倾斜-缩放(PTZ)摄像机,或可为能够数字地将图像及视频裁剪及缩放成一或多个所要部分的虚拟PTZ摄像机。举例来说,显示器108可为电视或计算机监视器,且可展示其它图像及/或视频,例如会议的远程参与者或者其它图像或视频内容。在实施例中,显示器108可包含麦克风及/或扬声器。
图2展示可与图1的环境100中所展示的会议***一起使用的***200的框图。在实施例中,***200可包含麦克风阵列204(例如,图1的麦克风阵列104),所述麦克风阵列可检测环境100中的对象及讲话者的位置且将所述位置转换到可由摄像机控制器206所控制的摄像机212(例如,图1的摄像机112)容易使用的共同坐标***中。举例来说,摄像机控制器206可向摄像机212提供适当的信号以致使摄像机212移动及/或缩放。摄像机控制器206还可经配置以产生摄像机预设,如下文参考图6到7更详细地描述。在一些实施例中,摄像机控制器206与摄像机212可集成在一起。***200的组件可与***200的其它组件进行有线及/或无线通信。在实施例中,举例来说,将环境100中的对象及讲话者的位置转换到共同坐标***中可由摄像机控制器206、摄像机212、计算装置(例如,计算装置110)、远程计算装置(例如,基于云的装置)及/或任何其它适合的装置来执行。
麦克风阵列204可检测并捕获来自环境内的音频源的声音。举例来说,在下文关于图4的过程400更详细描述的实施例中,麦克风阵列204可检测与摄像机212相关联的声音且在相对于麦克风阵列204的坐标***(例如,其中麦克风阵列204是所述坐标***的原点)中确定摄像机212的位置。麦克风阵列204可将摄像机212的位置转换成麦克风阵列204在相对于摄像机212的坐标***(例如,其中摄像机212是所述坐标***的原点)中的位置。麦克风阵列204在相对于摄像机212的坐标***中的位置可从麦克风阵列204被传输到摄像机控制器206及/或摄像机212。举例来说,麦克风阵列204可经由适合的应用程序编程接口(API)与摄像机控制器206及/或摄像机212进行通信。
在实施例中,摄像机212在坐标***中的位置可由麦克风阵列204从另一源(例如从本地定位***、会议***配置及设计软件及/或摄像机212)接收。在此类实施例中,摄像机212在其被接收的坐标***中的位置可被转换成麦克风阵列204在相对于摄像机212的坐标***中的位置。
麦克风阵列204可能够形成具有波瓣的一或多个拾音模式,所述波瓣可***纵以感测环境内特定位置中的音频。麦克风阵列204可将麦克风阵列204的波瓣位置从相对于麦克风阵列204的坐标***转换到相对于摄像机212的坐标***中。麦克风阵列204在相对于摄像机212的坐标***中的波瓣位置也可从麦克风阵列204被传输到摄像机控制器206及/或摄像机212。
作为另一实例,在下文关于图5中所展示的过程500更详细描述的实施例中,麦克风阵列204可检测与环境中的讲话者(或其它所要音频源)相关联的声音且在相对于麦克风阵列204的坐标***中确定讲话者的位置。麦克风阵列204可将讲话者(例如,讲话者120)的位置从相对于麦克风阵列204的坐标***转换成讲话者在相对于摄像机212的坐标***中的位置。讲话者在相对于摄像机212的坐标***中的位置可从麦克风阵列204被传输到摄像机控制器206及/或摄像机212。
在实施例中,麦克风阵列204与摄像机控制器206可经由适合的应用程序编程接口(API)进行通信,包含使得摄像机控制器206能够向麦克风阵列204查询麦克风阵列204的位置、使得麦克风阵列204能够向摄像机控制器206传输信号及/或使得摄像机控制器206能够向麦克风阵列204传输信号。摄像机控制器206可利用麦克风阵列204、波瓣及/或讲话者在相对于摄像机212的坐标***中的位置,以便例如产生优化的摄像机预设以允许对讲话者进行更准确的缩放、摇摄及/或取景。
***200的组件中的一些或所有组件可使用可由例如图1中具有处理器及存储器的计算装置110等一或多个计算机(例如,个人计算机(PC)、膝上型计算机、平板计算机、移动装置、智能装置、瘦客户端等)执行的软件来实施,及/或通过硬件(例如,离散逻辑电路、专用集成电路(ASIC)、可编程门阵列(PGA)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、微处理器等)来实施。举例来说,***200的一些或所有组件可使用离散电路装置及/或使用执行存储在存储器(未展示)中的程序代码的一或多个处理器(例如,音频处理器及/或数字信号处理器)来实施,所述程序代码经配置以执行本文中所描述的一或多个过程或操作,例如图4到8中所展示的方法。因此,在实施例中,***200可包含一或多个处理器、存储器装置、计算装置及/或图2中未展示的其它硬件组件。
应理解,图2中所展示的组件仅为示范性的,且***200的各种组件的任何数量、类型及放置均为可考虑的及可能的。举例来说,可存在多个麦克风阵列204、多个摄像机控制器206及/或多个摄像机212。
图3展示麦克风阵列300(例如图2的麦克风阵列204)的框图,所述麦克风阵列可用于图2的***200中以用于检测来自环境中的音频源的声音,且将环境中的对象及讲话者的位置转换到摄像机容易使用的共同坐标***中。举例来说,麦克风阵列300可包含任何数量的麦克风元件302a、b、c、…、zz,且能够形成具有波瓣的一或多个拾音模式,使得可检测及捕获来自音频源的声音。麦克风阵列300中的麦克风元件302a、b、c、…、zz中的每一者可检测声音并将声音转换成模拟音频信号。麦克风阵列300还可包含与麦克风元件302a、b、c、…、zz进行有线或无线通信的音频活动***350、与音频活动***350进行有线或无线通信的转换单元360以及与麦克风元件302a、b、c、…、zz及音频活动***350进行有线或无线通信的波束成形器370。
在一些实施例中,麦克风元件302a、b、c、…、zz可各自为具有全向拾音模式的MEMS(微电子机械***)麦克风。在其它实施例中,麦克风元件302a、b、c、…、zz可具有其它拾音模式及/或可为驻极体电容式麦克风、动圈式麦克风、带式麦克风、压电麦克风及/或其它类型的麦克风。在实施例中,麦克风元件302a、b、c、…、zz可呈一维或多维排列。
麦克风阵列300中的其它组件(例如模/数转换器、处理器及/或其它组件(未展示))可处理模拟音频信号且最终产生一或多个数字音频输出信号。数字音频输出信号可符合用于传输音频的适合标准及/或传输协议。在实施例中,麦克风阵列300中的麦克风元件中的每一者可检测声音并将声音转换成数字音频信号。
可产生与拾音模式中的每一者对应的一或多个数字音频输出信号390a、b、…、z。拾音模式可由一或多个波瓣(例如,主波瓣、旁波瓣及后波瓣)及/或一或多个零波瓣组成。可由麦克风阵列300形成的拾音模式可取决于与麦克风元件一起使用的波束成形器(例如波束成形器370)的类型。举例来说,延迟与求和波束成形器可基于其滤波器结构及麦克风元件的布局几何形状而形成频率相依的拾音模式。作为另一实例,差分波束成形器可形成心形、亚心形、超级心形、超心形或双向拾音模式。
音频活动***350可基于来自麦克风元件302a、b、c、…、zz的音频信号而确定环境中的音频活动的位置。在实施例中,音频活动***350可利用转向响应功率相位变换(SRP-PHAT)算法、广义互相关相位变换(GCC-PHAT)算法、基于到达时间(TOA)的算法、基于到达时间差(TDOA)的算法或另一适合的声音源定位算法。所检测到的音频活动可包含音频源,例如人类讲话者或者来自或靠近摄像机(例如,摄像机212)的声学触发。音频活动的位置可由相对于麦克风阵列300的位置的一组三维坐标来指示,例如笛卡尔(Cartesian)坐标(即,x、y、z)或球坐标(即,径向距离/量值r、仰角θ(theta)、方位角)。应注意,根据需要,可将笛卡尔坐标容易地转换成球坐标,且反之亦然。在实施例中,音频活动***350可包含在麦克风阵列300中、可包含在另一组件中或可为独立组件。
转换单元360可从音频活动***350接收音频活动的位置,且将音频活动的位置从相对于麦克风阵列300的坐标***转换到另一坐标***。举例来说,音频活动的位置可由转换单元360转换成在相对于摄像机(例如,摄像机212)的坐标***中的音频活动的位置。在实施例中,摄像机在相对于麦克风阵列300的坐标***中的位置(如从来自或靠近摄像机的所检测声学触发确定)可由转换单元360转换成麦克风阵列300在相对于摄像机的坐标***中的位置。
转换单元360还可经配置以将麦克风阵列300在相对于麦克风阵列300的坐标***中的波瓣位置转换到另一坐标***。转换单元360可将已被转换到另一坐标***的音频活动及/或波瓣的位置传输到例如摄像机控制器206及/或摄像机212。
图4展示使麦克风阵列(例如,麦克风阵列300)确定第一坐标***(例如,相对于麦克风阵列)中的摄像机位置并将所述摄像机位置转换成第二坐标***(例如,相对于摄像机)中的麦克风阵列位置的过程400。过程400还可包含麦克风阵列将麦克风波瓣位置转换到第二坐标***。过程400可导致将第二坐标***中的麦克风阵列位置及/或麦克风波瓣位置从麦克风阵列300传输到摄像机212或另一组件。举例来说,摄像机212可利用在相对于摄像机212的坐标***中的麦克风阵列位置及/或麦克风波瓣位置来产生摄像机预设及/或用于调整与摄像机212相关联的参数(例如,放大由波瓣覆盖的位置),例如下文关于图6的过程600更详细地描述。作为另一实例,在相对于摄像机212的坐标***中的麦克风阵列位置及/或麦克风波瓣位置可用于辅助房间智能使用情形,例如房间绘图应用,例如产生房间的计算机辅助设计表示。在实施例中,过程400可用于确定房间内的对象及装置的位置。
在步骤402处,可在麦克风阵列300处接收来自或靠近摄像机212的声学触发(例如通过麦克风元件302a、b、c、…、zz进行检测)。来自或靠近摄像机212的声学触发可包含打算用于确定摄像机212的位置的一或多个声音。举例来说,当期望麦克风阵列300确定摄像机212的位置时,可在摄像机212前面发出声音,例如手指弹响。作为另一实例,当期望麦克风阵列300自动确定摄像机212的位置时,摄像机212可经配置以发出识别声音,例如已知的音调序列。在实施例中,当期望确定摄像机212的位置时,用户(例如,安装者或集成者)可将麦克风阵列300放置到特定模式中。当放置于此模式中时,麦克风阵列300将期望下一检测到的声音应为来自或靠近摄像机212的声学触发,以便确定摄像机212的位置。
在步骤404处,音频活动***350可根据在步骤402处接收到的来自或靠近摄像机212的声学触发而确定摄像机212的位置。在实施例中,音频活动***350可对来自或靠近摄像机212的所接收声学触发执行音频定位算法以确定摄像机212的位置。在步骤404处确定的摄像机212的位置可在相对于麦克风阵列300的坐标***中。音频活动***350可将摄像机212的位置传输到转换单元360。
在步骤406处,转换单元360可将摄像机212在相对于麦克风阵列300的坐标***中的位置转换成麦克风阵列300在相对于摄像机212的坐标***中的位置。在步骤408处,转换单元360可向摄像机212传输麦克风阵列300在相对于摄像机212的坐标***中的位置。
在实施例中,麦克风阵列300的波瓣位置还可由转换单元360转换到相对于摄像机212的坐标***中。麦克风阵列300的波瓣的经转换位置可被传输到摄像机212。在步骤410处,在一些实施例中,可确定麦克风阵列300及麦克风元件302a、b、c、…、zz的旋转,以便将麦克风阵列300的波瓣位置转换到相对于摄像机212的坐标***中。
在步骤412处,转换单元360可将麦克风阵列300在相对于麦克风阵列300的坐标***中的波瓣位置转换成麦克风阵列300在相对于摄像机212的坐标***中的波瓣位置。在一些实施例中,麦克风阵列300的波瓣位置到相对于摄像机212的坐标***中的转换可基于在步骤410处确定的麦克风阵列300的旋转。在此类实施例中,当在步骤412处执行转换时,可考虑麦克风阵列300的旋转来校正波瓣的位置。在其它实施例中,麦克风阵列300的波瓣位置到相对于摄像机212的坐标***中的转换可不基于麦克风阵列300的旋转。
在一些实施例中,麦克风阵列300的当前活动的波瓣的位置可被转换到相对于摄像机212的坐标***,而在其它实施例中,麦克风阵列300的所有波瓣位置可被转换到相对于摄像机212的坐标***。在步骤414处,转换单元360可将在步骤412处产生的麦克风阵列300的波瓣位置传输到摄像机212,所述波瓣位置在相对于摄像机212的坐标***中。
图14展示使摄像机(例如,摄像机212)确定第一坐标***(例如,相对于摄像机)中的麦克风阵列位置并将所述麦克风阵列位置转换成第二坐标***(例如,相对于麦克风阵列)中的摄像机位置的过程1400。过程1400可导致将第二坐标***中的摄像机位置从摄像机212传输到麦克风阵列300或另一组件。举例来说,麦克风阵列300可利用摄像机位置来改进可能已使用上文所描述的过程400确定的摄像机212的位置的准确度。
在步骤1402处,可引导摄像机212指向麦克风阵列300,例如朝向麦克风阵列300的中心。举例来说,用户、安装者、集成者等可在步骤1402处例如经由摄像机控制器206而引导摄像机212指向麦克风阵列300。在步骤1404处,摄像机212可将麦克风阵列300的位置设定为相对于摄像机212的坐标***的原点。
在步骤1406处,可由摄像机212将麦克风阵列300在相对于摄像机212的坐标***(即,所述摄像机是相对于摄像机212的坐标***的原点)中的位置转换成摄像机212在相对于麦克风阵列300的坐标***中的位置。在步骤1408处,摄像机212可向麦克风阵列300传输摄像机212在相对于麦克风阵列300的坐标***中的位置。
基于在步骤1408处接收到的摄像机212在相对于麦克风阵列300的坐标***中的位置,麦克风阵列300可能够更精确地将讲话者在相对于麦克风阵列300的坐标***中的位置转换成讲话者在相对于摄像机212的坐标***中的位置(例如在下文所描述的过程500中的步骤506处)。由于麦克风阵列300知晓相对于摄像机212的坐标***的原点(即,麦克风阵列300本身的位置)以及摄像机212在相对于麦克风阵列300的坐标***中的位置,因此通过使用过程1400可将讲话者坐标的此转换改进为更精确的。
图5展示使麦克风阵列(例如,麦克风阵列300)确定第一坐标***(例如,相对于麦克风阵列)中的讲话者位置并将所述讲话者位置转换成第二坐标***(例如,相对于摄像机)中的讲话者位置的过程500。过程500可导致将经转换讲话者位置从麦克风阵列300传输到摄像机212或另一组件。举例来说,摄像机212可利用在相对于摄像机212的坐标***中的经转换讲话者位置来产生摄像机预设,例如下文关于图7的过程700更详细地描述。作为另一实例,摄像机212可利用在相对于摄像机212的坐标***中的经转换讲话者位置来调整与摄像机212相关联的参数(例如,放大环境中的活动讲话者),例如下文关于图8的过程800更详细地描述。
在实施例中,可使用过程500确定环境中的其它所要音频源及对象的位置。举例来说,会议室中的人、桌子、椅子及电子设备的位置可基于与此类对象相关联的音频来绘图。举例来说,可分析环境中的对象的位置以确定房间的使用及占用信息。
在步骤502处,可在麦克风阵列300处接收与环境中的讲话者(或其它所要声音)相关联的音频(例如通过麦克风元件302a、b、c、…、zz进行检测)。在步骤504处,音频活动***350可基于在步骤502处接收的与讲话者相关联的音频而确定讲话者的位置。在实施例中,音频活动***350可对与讲话者相关联的所接收音频执行音频定位算法以确定讲话者的位置。在步骤504处确定的讲话者的位置可在相对于麦克风阵列300的坐标***中。音频活动***350可将讲话者的位置传输到转换单元360。
在步骤506处,转换单元360可将讲话者在相对于麦克风阵列300的坐标***中的位置转换成讲话者在相对于摄像机212的坐标***中的位置。在实施例中,当在步骤506处执行所述转换时,可考虑麦克风阵列300的旋转来校正讲话者的位置。在步骤508处,转换单元360可向摄像机212传输讲话者在相对于摄像机212的坐标***中的位置。
图6展示使摄像机(例如,摄像机212)基于在相对于摄像机的坐标***中的麦克风阵列位置及/或波瓣位置而产生摄像机预设的过程600。在实施例中,麦克风阵列300可已将麦克风阵列300及麦克风阵列300的波瓣的位置从相对于麦克风阵列300的坐标***转换到相对于摄像机212的坐标***。
摄像机预设可对应于摄像机212的特定视图,例如特定位置的视图及/或将捕获摄像机212所处环境的一部分的缩放设定。在实施例中,摄像机预设可包括针对由摄像机212捕获的图像及/或视频的角度、倾斜、缩放及/或取景的设定。举例来说,由过程600产生的摄像机预设可经设定以捕获麦克风阵列300的波瓣的位置中的一或多者的图像及/或视频,这是因为这些位置可为讲话者及其它期望的音频源在环境中被预期定位的位置。
在步骤602处,可在摄像机212处(例如从麦克风阵列300)接收麦克风阵列300在相对于摄像机212的坐标***中的位置。在步骤604处,摄像机212可从麦克风阵列300接收麦克风阵列300的波瓣位置及与麦克风阵列300的波瓣相关的活动信息。波瓣活动信息可指示麦克风阵列300的波瓣中的哪一波瓣是活动的(例如,具有音频活动),且可指示波瓣是否被闸控(例如,被抑制)。
在步骤606处,摄像机212可基于在步骤602及604处接收到的麦克风阵列300的位置及麦克风阵列300的波瓣位置而产生一或多个摄像机预设。举例来说,所述摄像机预设可包含PTZ摄像机的摇摄、倾斜及缩放参数的值,及/或由虚拟PTZ摄像机捕获的图像及视频的裁剪及缩放的值。在步骤608处,摄像机212可基于在步骤404处接收到的波瓣活动信息而确定利用哪一摄像机预设来捕获图像及视频。特定来说,波瓣活动信息可指示哪一波瓣是活动的,这可包含其中已检测到讲话者及其它期望的音频源的波瓣。举例来说,摄像机212可使用针对活动波瓣(如从波瓣活动信息中导出)的摄像机预设,且因此在所述位置处捕获所要音频源的图像及/或视频。
图7展示使摄像机(例如,摄像机212)基于在相对于摄像机的坐标***中的麦克风阵列位置及讲话者位置而产生摄像机预设的过程700。除了或代替利用波瓣的位置,举例来说,在一些情景中使摄像机还获得及利用讲话者的位置来个别地取景及/或获得讲话者的特写可为有益的。在实施例中,麦克风阵列300可已将麦克风阵列300及讲话者的位置从相对于麦克风阵列300的坐标***转换到相对于摄像机212的坐标***。摄像机预设可对应于摄像机212的特定视图,例如特定位置的视图及/或将捕获摄像机212所处环境的一部分的缩放设定。举例来说,通过过程700产生的摄像机预设可经设定以捕获已由麦克风阵列300检测到的讲话者及其它期望的音频源的位置中的一或多者的图像及/或视频。
在步骤702处,可在摄像机212处(例如从麦克风阵列300)接收麦克风阵列300在相对于摄像机212的坐标***中的位置。在步骤704处,可在摄像机212处从麦克风阵列300接收讲话者在相对于摄像机212的坐标***中的位置。在步骤706处,摄像机212可基于由麦克风阵列300检测到的麦克风阵列300的位置及讲话者的位置而产生一或多个摄像机预设。摄像机212可继续使用摄像机预设来捕获活动讲话者的图像及视频。在其中环境中存在多个摄像机的实施例中,可由摄像机212基于由在步骤704处接收到的讲话者位置表示的最近讲话者的位置而捕获最近讲话者的位置的图像及视频。
图8展示使摄像机(例如,摄像机212)基于在相对于摄像机的坐标***中的麦克风阵列位置及讲话者位置而确定对与摄像机相关联的参数的调整的过程800。在实施例中,举例来说,可基于讲话者的位置而调整摄像机的参数以更改由摄像机捕获的图像及/或视频,从而个别地取景及/或获得讲话者的特写。在实施例中,麦克风阵列300可已将麦克风阵列300及讲话者的位置从相对于麦克风阵列300的坐标***转换到相对于摄像机212的坐标***。举例来说,对与摄像机相关联的参数的调整可包括对图像及/或视频的角度、倾斜、缩放或取景的调整。
在步骤802处,可在摄像机212处(例如从麦克风阵列300)接收麦克风阵列300在相对于摄像机212的坐标***中的位置。在步骤804处,可在摄像机212处从麦克风阵列300接收讲话者在相对于摄像机212的坐标***中的位置。在步骤806处,摄像机212可基于由麦克风阵列300检测到的麦克风阵列300的位置及讲话者的位置而产生对与摄像机相关联的参数的一或多个调整。摄像机212可继续控制及调整摄像机的参数以更改由摄像机212捕获的图像及/或视频。举例来说,可控制摄像机212来裁剪及缩放由摄像机212捕获的图像及/或视频以获得讲话者的特写。
图9是其中可使用本文中所公开的***及方法的物理环境900的示范性描绘。特定来说,图9展示包含会议***的各种换能器及装置以及其它对象的示范性会议室的透视图。应注意,尽管图9图解说明一种可能的环境,但应理解,本文中所公开的***及方法可用于任何适用的环境中,包含但不限于办公室、聚会室、剧院、竞技场、音乐场所等。环境900可包含扬声器902、多个麦克风阵列904、桌面麦克风906、显示器908、计算装置910及多个摄像机912。环境900还可包含一或多个人920及/或其它对象(例如,乐器、电话、平板计算机、计算机、HVAC装置等)。在实施例中,组件中的一或多者可包含数字信号处理器、无线接收器、无线收发器等。
应理解,图9中所展示的组件仅为示范性的,且环境900中的各种组件的任何数量、类型及放置均为可考虑的及可能的。环境900可类似于如上文所描述的图1的环境100,除了存在多个麦克风阵列904及多个摄像机912之外。为了简单起见,此处不再重复对环境900中所展示的其它组件的功能的描述。
图9中所展示的环境900可包含位于天花板上的麦克风阵列904及位于墙壁上的两个麦克风阵列904。多个麦克风阵列904的使用可改进对来自环境900中的音频源的声音的感测及捕获。环境900还可包含位于前方的摄像机912及位于墙壁上的两个摄像机912。多个摄像机912的使用可使得能够捕获环境900的更多且不同类型的图像及/或视频。举例来说,位于前方的摄像机912可用于捕获环境900的较宽广视图,且位于墙壁上的摄像机912可用于捕获环境中的讲话者的特写。
图10展示可与图9的环境900中所展示的会议***一起使用的***1000的框图。在实施例中,***1000可包含多个麦克风阵列1004a、…、z(例如,图9的麦克风阵列904)以及聚合器单元1005,所述多个麦克风阵列可检测环境900中的对象及讲话者的位置,所述聚合器单元可接收所述位置并将所述位置转换到可由摄像机控制器1006所控制的摄像机1012(例如,图9的摄像机912)容易使用的共同坐标***中。聚合器单元1005可向摄像机控制器1006及/或摄像机1012提供所述经转换位置。在实施例中,麦克风阵列1004a、…、z中的一者可充当聚合器单元。举例来说,摄像机控制器1006可向摄像机1012提供适当的信号以致使摄像机1012移动及/或缩放。在一些实施例中,摄像机控制器1006与摄像机1012可集成在一起。***1000的组件可与***1000的其它组件进行有线及/或无线通信。
每一麦克风阵列1004a、…、z可检测并捕获来自环境内的音频源的声音。举例来说,每一麦克风阵列1004a、…、z可检测与摄像机1012相关联的声音且确定摄像机1012在相对于所述麦克风阵列本身的坐标***(例如,其中每一麦克风阵列1004a、…、z是其相应坐标***的原点)中的位置。每一麦克风阵列1004a、…z可将在其相应坐标***中的摄像机1012的位置传输到聚合器单元1005。每一麦克风阵列1004a、…z还可将在其相应坐标***中的其波瓣的位置传输到聚合器单元1005。
作为另一实例,每一麦克风阵列1004a、…、z可检测与环境中的讲话者(或其它所要音频源)相关联的声音且在其相应坐标***中确定讲话者的位置。每一麦克风阵列1004a、…、z可将在其相应坐标***中的讲话者的位置传输到聚合器单元1005。
因此,聚合器单元1005可从每一麦克风阵列1004a、…、z接收:(1)摄像机1012的位置,(2)每一麦克风阵列1004a、…z的波瓣位置,及/或(3)讲话者的位置。由聚合器单元1005接收的位置可在每一麦克风阵列1004a、…z的相应坐标***中。聚合器单元1005可将来自每一麦克风阵列1004a、…z(在相应坐标***中)的摄像机1012的位置转换成每一麦克风阵列1004a、…z在相对于摄像机1012的坐标***中的位置。聚合器单元1005还可将波瓣及讲话者的位置转换到相对于摄像机1012的坐标***中。聚合器单元1005可例如响应于经由适合的应用程序编程接口(API)的查询而将经转换位置传输到摄像机控制器1006及/或摄像机1012。摄像机控制器1006可利用麦克风阵列1004a、…、z、波瓣及/或讲话者在相对于摄像机1012的坐标***中的位置,以便例如产生优化的摄像机预设以允许对讲话者进行更准确的缩放、摇摄及/或取景。
图11展示用于将来自相应坐标***中的多个麦克风阵列的摄像机、波瓣位置及讲话者位置聚合并转换到共同坐标***中的过程1100。在实施例中,过程1100可由聚合器单元(例如,聚合器单元1005)执行,所述聚合器单元从多个麦克风阵列收集摄像机位置、波瓣位置及讲话者位置。在其它实施例中,过程800可由麦克风阵列中的一者执行以从其它麦克风阵列收集摄像机位置、波瓣位置及讲话者位置。
由每一麦克风阵列检测到的(1)摄像机、(2)每一麦克风阵列的波瓣以及(3)讲话者的位置可在相对于每一相应麦克风阵列的坐标***中。过程1100可将所述位置从相应麦克风阵列的坐标***转换到共同坐标***(例如相对于摄像机的坐标***)中。在步骤1102处,举例来说,可从麦克风阵列中的每一者接收摄像机、波瓣及/或讲话者的位置,以及指示麦克风阵列的哪些波瓣是活动的波瓣活动信息。
在步骤1104处,可将摄像机、波瓣及/或讲话者的位置从相对于每一相应麦克风阵列的坐标***转换到相对于摄像机的坐标***中。特定来说,可将摄像机在相对于每一相应麦克风阵列的坐标***中的位置转换成每一麦克风阵列相对于摄像机的位置。可将波瓣及讲话者的位置从相对于每一相应麦克风阵列的坐标***转换到相对于摄像机的坐标***中。在步骤1106处,可将麦克风阵列、波瓣及讲话者在相对于摄像机212的坐标***中的位置传输到摄像机212。在步骤1106处,还可将波瓣活动信息传输到摄像机212。
图12展示可与图9的环境900中所展示的会议***一起使用的***1200的框图。***1200可包含麦克风阵列1204(例如,图9的麦克风阵列904),所述麦克风阵列可检测环境900中的对象及讲话者的位置并将所述位置转换到可由一或多个摄像机1212a、…z(例如,图9的摄像机912)容易使用的共同坐标***中。摄像机1212a、…、z可捕获环境900的图像及/或视频。
摄像机控制器1206可接收麦克风阵列1204、麦克风阵列1204的波瓣及讲话者的位置,其中所述位置已由麦克风阵列1204转换到共同坐标***中。摄像机控制器1206可选择摄像机1212a、…、z中的哪一者来用于捕获特定位置(例如,活动讲话者所在的位置)的图像及/或视频。摄像机控制器1206对要利用的摄像机1212a、…、z的选择可基于麦克风阵列1204、麦克风阵列1204的波瓣及讲话者的所接收位置中的一或多者。举例来说,摄像机控制器1206还可向摄像机1212a、…、z提供适当的信号以致使摄像机1212a、…、z移动及/或缩放。***1200的组件可与***1200的其它组件进行有线及/或无线通信。
图13展示使摄像机控制器(例如,摄像机控制器1206)选择摄像机(例如,摄像机1212a、…、z)且基于共同坐标***中的麦克风阵列位置、波瓣位置及/或讲话者位置而确定对与所述摄像机相关联的参数的调整的过程1300。摄像机控制器1206还可利用来自麦克风阵列1204的波瓣活动信息。举例来说,对与摄像机相关联的参数的调整可包含对图像及/或视频的角度、倾斜、缩放或取景的调整。
在步骤1302处,摄像机控制器1206可接收已由麦克风阵列1204检测到的麦克风阵列1204的位置、麦克风阵列1204的波瓣位置及/或讲话者的位置中的一或多者。在步骤1302处,还可由摄像机控制器1206接收波瓣活动信息。在步骤1302处接收到的位置可在可由所有摄像机1212a、…、z使用的共同坐标***中。举例来说,共同坐标***可相对于摄像机1212a、…、z中的一者(例如,房间前方的摄像机),或可相对于房间的特定部分(例如,房间的角落)。
在步骤1304处,摄像机控制器1206可基于在步骤1302处接收到的位置及/或波瓣活动信息而选择摄像机1212a、…、z中的一者进行利用。举例来说,所选择的摄像机1212a、…、z可为最接近活动讲话者的摄像机1212a、…、z、已在活动讲话者上放大的摄像机1212a、…、z或者可最好地用于捕获活动讲话者的面部的摄像机1212a、…、z。在步骤1306处,摄像机控制器1206可基于在步骤1302处接收到的位置及/或波瓣活动信息而产生对在步骤1304处选择的摄像机的一或多个调整。摄像机控制器1206可继续控制及调整选定摄像机1212a、…z的参数以更改由摄像机1212a、…z捕获的图像及/或视频。
在实施例中,摄像机1212a、…、z中的一或多者可检测麦克风阵列1204且确定麦克风阵列1204在相对于摄像机1212a、…、z中的每一者的坐标***中的位置。举例来说,摄像机1212a、…、z可利用图像辨识技术、人工智能技术及/或视觉指示器或标记来检测麦克风阵列1204的位置。基于麦克风阵列1204在每一相应摄像机坐标***中的位置,可例如通过将麦克风阵列1204在每一相应摄像机坐标***中的位置转换成麦克风阵列1204在所有摄像机1212a、…、z已知的共同坐标***中的位置而确定麦克风阵列1204的位置。可基于共同坐标***中的麦克风阵列1204的位置而调整及控制摄像机1212a、…、z中的一或多者的参数以捕获所要图像及/或视频。
本文中的说明根据本发明的原理描述、图解说明且例示本发明的一或多个特定实施例。提供此说明并非将本发明限制于本文中所描述的实施例,而是以以下的方式解释且教示本发明的原理:使得所属领域的技术人员能够理解这些原理且在所述理解的情况下能够应用其以不仅实践本文中所描述的实施例,而且实践根据这些原理可想到的其它实施例。本发明的范围打算涵盖可照字面地或者在等效内容的原则下归属于所附权利要求书的范围内的所有此类实施例。
应注意,在说明及图式中,相似或基本上类似的元件可用相同参考编号来标示。然而,有时可用不同数字来标示这些元件,例如在其中此类标示促进更清晰说明的情形中。另外,本文中所陈述的图式未必按比例绘制,且在一些实例中比例可能已被放大以更清晰地描绘特定特征。此类标示及图式实践未必暗指基础实质目的。如上文所述,本说明书打算被视为整体且根据如本文中所教示的本发明的原理来解释且被所属领域的技术人员理解。
图中的任何过程描述或框应理解为表示模块、分段或代码部分,其包含用于实施过程中的特定逻辑功能或步骤的一或多个可执行指令,且替代实施方案包含于本发明的实施例的范围内,其中功能可不以来自所展示或所论述次序的次序执行,取决于所涉及的功能性,包含基本上同时执行或以相反次序执行,如所属领域的技术人员将理解。
本发明打算阐释如何塑造及使用根据本技术的各种实施例而非限制其真实、预期及清楚的范围及精神。前述说明并非打算为穷尽性的或限制于所揭示的精确形式。修改及变化鉴于以上教示而为可能的。挑选并描述实施例以提供对所描述的技术的原理及其实际应用的最佳图解说明,且使得所属领域的技术人员能够在各种实施例中且以如适于所考虑的特定用途的各种修改利用本技术。当根据清楚地、合法地且公正地授予的宽度解释时,如同可在本专利申请案及其全部等效内容的申请期间修订,所有此类修改及变化均在如由所附权利要求书所确定的实施例的范围内。
Claims (20)
1.一种方法,其包括:
使用第一视听装置且基于所接收音频而确定第二视听装置在第一坐标***中的位置;
将所述第二视听装置在所述第一坐标***中的所述位置转换成所述第一视听装置在第二坐标***中的位置;及
从所述第一视听装置向所述第二视听装置传输所述第一视听装置在所述第二坐标***中的所述位置。
2.根据权利要求1所述的方法,其中所述所接收音频包括来自或靠近所述第二视听装置的所述位置的声学触发。
3.根据权利要求1所述的方法,其中确定所述第二视听装置的所述位置包括使用音频定位算法来确定所述所接收音频的位置。
4.根据权利要求1所述的方法,其中将所述第一视听装置在所述第二坐标***中的所述位置从所述第一视听装置传输到所述第二视听装置致使所述第二视听装置调整至少一个参数。
5.根据权利要求1所述的方法:
其中所述第一坐标***包括相对于所述第一视听装置的坐标***;且
其中所述第二坐标***包括相对于所述第二视听装置的坐标***。
6.根据权利要求1所述的方法,其中所述第一视听装置包括麦克风阵列且所述第二视听装置包括摄像机。
7.根据权利要求6所述的方法,其进一步包括:
使用所述麦克风阵列将所述麦克风阵列在所述第一坐标***中的波瓣位置转换成所述麦克风阵列在所述第二坐标***中的波瓣位置;及
将所述麦克风阵列在所述第二坐标***中的所述波瓣位置从所述麦克风阵列传输到所述摄像机。
8.根据权利要求7所述的方法,其进一步包括基于所述麦克风阵列在所述第二坐标***中的所述波瓣位置而在所述第二坐标***中自动产生所述摄像机的一或多个预设。
9.根据权利要求6所述的方法,其进一步包括:
使用所述麦克风阵列且基于与讲话者相关联的音频而确定所述讲话者在所述第一坐标***中的位置;
使用所述麦克风阵列且基于所述讲话者在所述第一坐标***中的所述位置而将所述讲话者的所述位置转换成所述讲话者在所述第二坐标***中的位置;及
将所述讲话者在所述第二坐标***中的所述位置从所述麦克风阵列传输到所述摄像机。
10.根据权利要求6所述的方法,其进一步包括:
控制所述摄像机以指向所述麦克风阵列;及
基于:(1)所述第一视听装置在所述第二坐标***中的所述位置及(2)来自所述摄像机的图像而设定所述第二坐标***的原点。
11.一种***,其包括:
第一视听装置;及
第二视听装置,其与所述第一视听装置不在同一位置处;
其中所述第一视听装置经配置以:
确定所述第二视听装置在相对于所述第一视听装置的第一坐标***中的位置;及
将所述第二视听装置在所述第一坐标***中的所述位置转换成所述第一视听装置在相对于所述第二视听装置的第二坐标***中的位置。
12.根据权利要求11所述的***,其中所述第一视听装置经配置以基于来自或靠近所述第二视听装置的音频的定位而确定所述第二视听装置在所述第一坐标***中的所述位置。
13.根据权利要求11所述的***,其中所述第一视听装置进一步经配置以将所述第一视听装置在所述第二坐标***中的所述位置传输到所述第二视听装置以致使所述第二视听装置调整至少一个参数。
14.根据权利要求11所述的***,其中所述第一视听装置包括麦克风阵列且所述第二视听装置包括摄像机。
15.根据权利要求14所述的***,其中所述第一视听装置进一步经配置以:
将所述麦克风阵列在所述第一坐标***中的波瓣位置转换成所述麦克风阵列在所述第二坐标***中的波瓣位置;及
将所述麦克风阵列在所述第二坐标***中的所述波瓣位置从所述麦克风阵列传输到所述摄像机。
16.根据权利要求15所述的***,其中所述第二视听装置经配置以基于所述麦克风阵列在所述第二坐标***中的所述波瓣位置而在所述第二坐标***中产生所述摄像机的一或多个预设。
17.根据权利要求14所述的***,其中所述第一视听装置进一步经配置以:
基于与讲话者相关联的音频而确定所述讲话者在所述第一坐标***中的位置;
基于所述讲话者在所述第一坐标***中的所述位置而将所述讲话者的所述位置转换成所述讲话者在所述第二坐标***中的位置;及
将所述讲话者在所述第二坐标***中的所述位置从所述麦克风阵列传输到所述摄像机。
18.根据权利要求14所述的***,其中所述第二视听装置经配置以:
控制所述摄像机以指向所述麦克风阵列;及
基于:(1)所述第一视听装置在所述第二坐标***中的所述位置及(2)来自所述摄像机的图像而设定所述第二坐标***的原点。
19.一种***,其包括:
麦克风阵列,其经配置以:
基于来自或靠近摄像机的声学触发而检测所述摄像机在第一坐标***中的位置;
将所述摄像机在所述第一坐标***中的所述位置转换成所述麦克风阵列在第二坐标***中的位置;及
向所述摄像机传输所述麦克风阵列在所述第二坐标***中的所述位置;以及
所述摄像机,其经配置以:
接收所述麦克风阵列在所述第二坐标***中的所述位置;
基于所述麦克风阵列的所述位置而在所述第二坐标***中自动产生一或多个摄像机预设;及
基于所述一或多个摄像机预设中的一者而调整所述摄像机的参数。
20.根据权利要求19所述的***,其中所述摄像机进一步经配置以:
被控制以使所述摄像机指向所述麦克风阵列;及
基于:(1)所述麦克风阵列在所述第二坐标***中的所述位置及(2)来自所述摄像机的图像而设定所述第二坐标***的原点。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202163261459P | 2021-09-21 | 2021-09-21 | |
US63/261,459 | 2021-09-21 | ||
PCT/US2022/076815 WO2023049773A1 (en) | 2021-09-21 | 2022-09-21 | Conferencing systems and methods for room intelligence |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118202641A true CN118202641A (zh) | 2024-06-14 |
Family
ID=83899811
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202280071419.9A Pending CN118202641A (zh) | 2021-09-21 | 2022-09-21 | 用于房间智能的会议***及方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230086490A1 (zh) |
EP (1) | EP4406219A1 (zh) |
CN (1) | CN118202641A (zh) |
WO (1) | WO2023049773A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20240071356A1 (en) * | 2022-08-29 | 2024-02-29 | Zoom Video Communications, Inc. | Acoustic fence |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9769424B2 (en) * | 2013-10-24 | 2017-09-19 | Telefonaktiebolaget Lm Ericsson (Publ) | Arrangements and method thereof for video retargeting for video conferencing |
US9674453B1 (en) * | 2016-10-26 | 2017-06-06 | Cisco Technology, Inc. | Using local talker position to pan sound relative to video frames at a remote location |
TW202044236A (zh) * | 2019-03-21 | 2020-12-01 | 美商舒爾獲得控股公司 | 具有抑制功能的波束形成麥克風瓣之自動對焦、區域內自動對焦、及自動配置 |
CN113099160B (zh) * | 2021-03-29 | 2023-04-07 | 苏州科达科技股份有限公司 | 基于麦克风阵列的视频会议方法、***、设备及存储介质 |
-
2022
- 2022-09-21 EP EP22793066.6A patent/EP4406219A1/en active Pending
- 2022-09-21 WO PCT/US2022/076815 patent/WO2023049773A1/en active Application Filing
- 2022-09-21 US US17/934,148 patent/US20230086490A1/en active Pending
- 2022-09-21 CN CN202280071419.9A patent/CN118202641A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
EP4406219A1 (en) | 2024-07-31 |
WO2023049773A1 (en) | 2023-03-30 |
US20230086490A1 (en) | 2023-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10972835B2 (en) | Conference system with a microphone array system and a method of speech acquisition in a conference system | |
US11765498B2 (en) | Microphone array system | |
CN109218651B (zh) | 视频会议中的最佳视图选择方法 | |
US9578413B2 (en) | Audio processing system and audio processing method | |
TWI644572B (zh) | 匣偏置型麥克風 | |
EP2953348B1 (en) | Determination, display, and adjustment of best sound source placement region relative to microphone | |
US6535610B1 (en) | Directional microphone utilizing spaced apart omni-directional microphones | |
US9008320B2 (en) | Apparatus, system, and method of image processing, and recording medium storing image processing control program | |
JP2016146547A (ja) | 収音システム及び収音方法 | |
EP2724338A2 (en) | Signal-enhancing beamforming in an augmented reality environment | |
CN109155884A (zh) | 用全向麦克风进行立体声分离和定向抑制 | |
US20230086490A1 (en) | Conferencing systems and methods for room intelligence | |
US8064618B2 (en) | Direction detection apparatus, direction detection method and direction detection program, and direction control apparatus, direction control method, and direction control program | |
JP4198915B2 (ja) | 空間的音波ステアリングシステム | |
US11706562B2 (en) | Transducer steering and configuration systems and methods using a local positioning system | |
US20240007592A1 (en) | Conferencing systems and methods for talker tracking and camera positioning | |
US20240064406A1 (en) | System and method for camera motion stabilization using audio localization | |
US12028178B2 (en) | Conferencing session facilitation systems and methods using virtual assistant systems and artificial intelligence algorithms | |
WO2022186958A9 (en) | Systems and methods for noise field mapping using beamforming microphone array | |
JPWO2007122729A1 (ja) | 通信システム、通信装置及び音源方向特定装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |