CN104012074A - 用于数据处理***的智能音频和视频捕捉*** - Google Patents

用于数据处理***的智能音频和视频捕捉*** Download PDF

Info

Publication number
CN104012074A
CN104012074A CN201280061091.9A CN201280061091A CN104012074A CN 104012074 A CN104012074 A CN 104012074A CN 201280061091 A CN201280061091 A CN 201280061091A CN 104012074 A CN104012074 A CN 104012074A
Authority
CN
China
Prior art keywords
video
equipment
camera
doa
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280061091.9A
Other languages
English (en)
Other versions
CN104012074B (zh
Inventor
周炯
唐·考克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN104012074A publication Critical patent/CN104012074A/zh
Application granted granted Critical
Publication of CN104012074B publication Critical patent/CN104012074B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/296Synchronisation thereof; Control thereof
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/20Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/239Image signal generators using stereoscopic image cameras using two 2D image sensors having a relative position equal to or related to the interocular distance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/243Image signal generators using stereoscopic image cameras using three or more 2D image sensors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/142Constructional details of the terminal equipment, e.g. arrangements of the camera and the display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/142Constructional details of the terminal equipment, e.g. arrangements of the camera and the display
    • H04N2007/145Handheld terminals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Studio Devices (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

计算***包括用于检测计算***的位置信息(包括位置和方向)的方向检测设备、耦合到所述定位检测设备的多传感器***,所述多传感器***用于捕捉环境输入数据,所述传感器***包括至少音频捕捉***和三维(3D)图像捕捉***的其中之一,并且所述环境输入数据至少包括音频或图像中的其中之一、和至少一个耦合至所述定向检测设备和所述多传感器***的信号处理部件,其中所述处理器用于基于所述位置信息修改所述捕捉的环境输入数据。

Description

用于数据处理***的智能音频和视频捕捉***
相关申请案交叉申请
本发明要求2011年12月12日由周炯等人递交的发明名称为“用于数据处理***的智能音频和视频捕捉***(Smart Audio and Video CaptureSystems for Data Processing Systems)”的第13/323157号美国专利申请案的在先申请优先权,该在先申请的内容以引入的方式并入本文本中,如全文再现一般。
技术领域
本发明涉及通信网络,尤其涉及用于数据处理***的智能音频和视频捕捉***。
背景技术
不同的制造商向消费者市场提供了不同的平板电脑,例如自2010年发行的产品。平板电脑,也称为个人平板电脑(例如苹果公司的iPad),是相比其他类型计算设备在文档、邮件、网上冲浪、社会活动和个人娱乐方面提供若干优势的便携设备。一般而言,平板电脑具有录音***,使得该平板电脑能够录音,例如使能语音通信或媒体应用。该录音***中由麦克风转换的数字数据用于进行识别、编码和传输等多种目的。由于声音环境包括噪音。为了获取清晰的声音,增强或者从噪音中分离出麦克风中记录的目标声音。一些平板电脑还具有三维(3D)视频摄像头功能,其可以用于实施与其它平板电脑或设备用户的3D视频会议。
发明内容
在一项实施例中,本发明包括计算***,所述计算***包括用于检测计算***的位置信息(包括位置和方向)的定位检测设备、耦合到所述定位检测设备的多传感器***,所述多传感器***用于捕捉环境输入数据,所述传感器***至少包括音频捕捉***和三维(3D)图像捕捉***的其中之一,并且所述环境输入数据至少包括音频或图像中的其中之一、和至少一个耦合至所述方向检测设备和所述多传感器***的信号处理部件,其中所述处理器用于基于所述位置信息修改所述捕捉的环境输入数据。
在另一项实施例中,本发明包括录音***,所述录音***包括耦合到一个或多个麦克风的到达方向(DOA)估计部件,用于使用接收的定位信息估计检测的声音信号的DOA;耦合到所述DOA估计部件的降噪部件,用于使用所述DOA估计降低所述检测的声音信号中的噪声;以及耦合到所述降噪部件和所述DOA估计部件的去混响部件,用于使用所述DOA估计去除检测的声音信号中的混响效果。
在另一项实施例中,本发明包括三维(3D)视频捕捉***,所述3D视频捕捉***包括耦合到至少两个摄像头的摄像头配置设备,用于基于检测的所述3D视频捕捉***的方向信息布置所述摄像头中的至少一些摄像头,以正确地捕捉3D视频和3D图像的其中之一;以及耦合到所述摄像头配置设备的方向检测设备,用于检测所述方向信息。
在又一项实施例中,本发明包括实施在便携设备上的录音方法,所述方法包括检测所述便携设备的方向、基于所述检测的方向调整麦克风阵列设备、使用所述调整的麦克风阵列设备记录声音信号以及基于所述检测的方向估计所述声音信号的到达方向(DOA)。
在又一项实施例中,本发明包括实施在便携设备上的三维(3D)视频捕捉方法,所述方法包括检测所述便携设备的方向、基于所述检测的方向配置多个摄像头以及使用所述配置的摄像头捕捉视频或图像。
结合附图和权利要求书,可从以下的详细描述中更清楚地理解这些和其他特征。
附图说明
为了更完整地理解本发明,现在参考以下结合附图和详细描述进行的简要描述,其中相同参考标号表示相同部分。
图1是平板电脑设计的示意图。
图2是录音***的示意图。
图3是信号处理部件的示意图。
图4是改进的平板电脑设计的实施例的示意图。
图5是改进的录音***的实施例的示意图。
图6是改进的信号处理部件的实施例的示意图。
图7是改进的3D视频捕捉***的实施例的示意图。
图8是改进的录音方法的实施例的流程图。
图9是改进的3D视频捕捉方法的实施例的流程图。
图10是通用计算机***的实施例的示意图。
具体实施方式
最初应理解,尽管下文提供一个或多个实施例的说明性实施方案,但可使用任意数目的当前已知或现有的技术来实施所公开的***和/或方法。本发明决不应限于下文所说明的所述说明性实施方案、图式和技术,包含本文所说明并描述的示范性设计和实施方案,而是可以在所附权利要求书的范围以及其均等物的完整范围内修改。
新兴和未来的平板电脑可包括高级麦克风阵列,这些高级麦克风阵列可能集成到平板电脑中以提供更好的录音质量,例如,具有更高的信噪比(SNR)。高级麦克风整列设备可用于替代当前使用的检测目标声音的全向(单向)麦克风。麦克风阵列可以更适应声音传入的方向,因此可以具有更好的噪声消除属性。一种实施麦克风阵列的方法可以是基于声音源的方向和麦克风间的距离使用由阵列中的麦克风接收的声音信号的相位差来强调目标声音,从而抑制噪声。这可以通过不同的算法实现。
例如,为了增强接收的声音信号,可以使用可实施多重信号分类(MUSIC)算法的相干信号子空间过程。该算法可要求预估信号方向,其中信号方向的估计错误可显著影响该过程的最终估计。电话会议***、人机界面和助听器等一些应用可能需要足够准确地估计声音信号的DOA。这些应用可能涉及闭室中的声音源的DOA估计。因此,来自不同方向的大量混响的存在可显著降低DOA估计算法的性能。这样,在一个充满混响的房间中,就可能需要一个更加可靠的预估计DOA来定位说话人。此外,由于与目标声音相比噪声源可能具有不同的方向,因此更加精确估计的DOA可以加强噪音消除。
另一个可能需要注意的重要场景是估计或识别平板电脑的3D视频摄像头***的用户的脸部位置。例如,当用户与另一使用平板电脑的用户参与3D视频会议时,用户可能没有以指定的正确位置持有平板电脑或3D视频摄像头***可能不知道平板电脑的方向。当没有以正确的位置持有平板电脑时,当前3D视频摄像头使市场中的平板电脑不一定能够捕捉正确的3D视频或图像。可能需要使用位置感知***和摄像头配置***,该摄像头配置***使用位置或方向信息来自适应地配置***的3D摄像头,以捕捉正确的3D视频/图像。
本文所揭示的是使用平板电脑允许改进的录音和3D视频/图像捕捉的***和方法。这些***可用于检测和获取平板电脑的方向或位置信息并且使用这些信息提高平板电脑中的录音子***和/或3D视频捕捉子***的性能。本文使用的术语位置信息和方向信息可互换以指示平板电脑的方向和/或倾斜(例如,单位为度),例如平板电脑的水平对齐方式等指定位置。这些***可包括方向检测设备、麦克风调整设备、摄像头配置设备、录音子***、3D视频捕捉或其组合。方向检测设备可用于生成平板电脑的位置/方向信息,该信息可由麦克风调整设备和/或摄像头配置设备使用。麦克风调整设备可使用该信息调整麦克风中的传感角度并使该角度与目标声音的方向对齐。位置/方向信息还可用于在录音子***中实施信号处理方案。视频配置设备可使用该信息重新布置摄像头用于捕捉视频/图像。该信息还可用于在3D视频捕捉子***中实施相应过程,以获取正确的3D视频或图像。
图1示出了平板电脑101的平板电脑设计100的实施例。平板电脑101可以是以平板电脑外壳的一侧上的平面屏幕为特征的任意便携计算设备。显示屏可用于观看,且还可以是用于打字的触摸屏。平板电脑101可能不要求连接用于基础操作的单独的接口设备,对于台式电脑情况可能并非如此。平板电脑101可以是不可折叠或不要求机械操作的固定设备,例如笔记本。与其它类型的计算设备(例如,笔记本)相比,平板电脑101可提供更少的特性/功能并且具有较低的定价和成本。平板电脑101还可更轻且更加便携。平板电脑101与智能手机等其它通信设备的不同可能在于平板电脑101可能尺寸更大、提供更多的计算功能和功能、和/或不必配备蜂窝接口。平板电脑101可能具有与至少一些当前的可用平板电脑(市场中还称之为pad)类似的特性,例如苹果iPad、惠普(HP)平板电脑、三星Galaxy平板电脑、联想IdeaPad、戴尔Latitude平板电脑以及其它平板电脑或pad。
平板电脑设计100相对其宽度或长度以及平板电脑101的一侧上的平面显示屏(例如,触摸屏)而言可能具有相对较小的厚度。平板电脑101的顶部和底部边缘可能比平板电脑101的其余(侧)边缘更宽。因此,长度或顶部和底部边缘可对应于平板电脑101的长度,且侧边缘的长度可对应于平板电脑101的宽度。显示屏可包括平板电脑101的整个表面的实质区域。平板电脑设计100还可包括例如,位于围绕屏幕的平板电脑101的一边上的麦克风102以及例如,通常位于平板电脑101的另一边上的一个或两个摄像头104,如图1(a)所示。麦克风102可以是全向麦克风或麦克风阵列设备,其是平板电脑101的录音***的一部分,用于接收用户的声音并使能声音通信、录音、通信或其组合。摄像头104可以是平板电脑101的视频捕捉***的一部分,用于拍摄图像或视频以及使能视频会议或呼叫,或者两者。摄像头104可以是3D摄像头,且视频捕捉***可以是捕捉3D图像或视频的3D视频捕捉***。3D摄像头是能够捕捉“RGB”信息和3G信息的单个设备。在一些实施例中,需要至少两个摄像头104来(同时)从不同角度捕捉相同图像的两个帧。随后可根据3D处理方案处理这两个帧以呈现类似3D的图像。相同的概念可用于3D视频捕捉。
通常,可根据平板电脑101的指定方向优化录音***。例如,可以针对平板电脑101的垂直位置优化录音***,如图1(a)所示。在该位置,麦克风102可以位于平板电脑101的底部边缘(例如,围绕底部边缘的中心)。因此,录音***正确地处理由麦克风102检测到的目标声音或用户的语音,以去除任何噪声。除了噪声以外,麦克风102可例如围绕用户或目标声音的其它源接收用户的语音或任意目标声音。随后录音***可在计算噪音的时候假设平板电脑101以正确的方向(垂直位置)持有或放置并且麦克风102相应地位于(底部边缘的)合适的位置。然而,当(例如,如图1(b)所示180度)改变或旋转平板电脑101的位置/方向时,麦克风102可能不再位于正确的位置(例如,相对声音目标),因此录音***(假设平板电脑101的垂直位置)可能无法正确地处理检测的声音/语音以及伴随噪声。因此,可能无法优化录音***的输出。例如,在语音呼叫场景,通信的用户语音可仍然包括大量噪声或另一侧的接受者可能听不清楚。
类似地,可根据平板电脑101的选择的方向(例如,图1(a)的垂直位置)优化3D视频捕捉***,其中两个摄像头104可能位于平板电脑101的顶部边缘(例如,围绕顶部边缘的中心)。在此场景下,可由3D视频捕捉***正确地处理摄像头104捕捉的视频或图像以正确地生成类似3D的场景。当摄像头104捕捉(例如,用户面部或任意目标场景)图像/视频帧时,3D视频捕捉***可通过考虑(位于顶部边缘的)摄像头104的相应位置来处理捕捉的帧,假设以正确的方向(垂直位置)持有或放置平板电脑101。然而,当(例如,如图1(b)所示180度)改变或旋转平板电脑101的位置/方向时,摄像头104可能不再位于正确的位置(例如,相对目标图像/视频),因此3D录像***(假设平板电脑101的垂直位置)可能无法正确地处理捕捉的视频/图像。因此,可能无法优化3D视频捕捉***的输出。例如,在视频会议场景中,另一侧的观看者可能看不清楚通信用户的3D视频。
图2示出了录音***200的实施例,基于平板电脑设计100,该录音***可用于平板电脑101中。录音***200可包括麦克风201、耦合到麦克风201的信号处理设备202和用于进一步信号处理的耦合到信号处理设备202的至少一个额外的处理部件203。录音***200的部件可以如图2所示进行布置,并且可以使用硬件、软件或使用二者结合来实施。麦克风201可对应于麦克风102。信号处理设备202可用于从麦克风201接收检测的声音/音频作为输入、处理该声音/音频(例如,用以消除或抑制噪声)并将处理的(清晰的)声音作为输出发送到额外的处理部件203。信号处理设备202的过程可包括但不限于降噪和去混响。额外的处理部件203可用于接收清晰的声音作为输入,进一步处理清晰的声音(例如,实施声音识别、编码和/或传输),并且相应地提供数字声音数据作为输出。
图3示出了信号处理部件300的实施例,基于平板电脑设计100,该信号处理部件可用于平板电脑101中。该信号处理部件300可对应于录音***200的信号处理部件202。该信号处理部件300可包括降噪块301和耦合到降噪块301的去混响块302。信号处理部件300的部件可以如图3所示进行布置,并且可以使用硬件、软件或二者结合来实施。降噪块301可用于接收可能具有噪声和/或混响效果的收集的声音(例如,来自麦克风201)信号、处理该声音信号以降低或消除噪声并随后将处理的信号转发到去混响块302。去混响块302可用于接收来自降噪块301的处理的信号、进一步处理声音信号以消除或降低声音中的任意混响效果并随后转发清晰的声音作为输出。
图4示出了平板电脑401的改进的平板电脑设计400的实施例。平板电脑401可以是以平板电脑外壳的一侧上的平面屏幕为特征的任意便携计算设备。平板电脑401的部件的配置可与平板电脑101的相应部件类似,包括可能是触摸屏的屏幕。平板电脑401还可包括例如位于屏幕周围的平板电脑401的一个边缘上的麦克风402。麦克风402可以是麦克风阵列设备,其可包括以阵列配置布置的多个麦克风。平板电脑401还可包括至少两个摄像头404,其可以是用于捕捉3D视频/图像的3D摄像头。摄像头404可位于平板电脑401的一个或不同边缘上。例如,平板电脑401可包括大约四个摄像头404,其中每个摄像头位于平板电脑401的四个边缘的一个边缘上。将摄像头404沿平板电脑401的不同的边缘分布可以允许当捕捉视频/图像时考虑平板电脑400的不同的位置/方向,从而根据位置/方向有更好的3D视频/图像处理。平板电脑401的部件可以如图4(a)所示进行布置,其可以对应于一个可能的位置(例如,右上位置)用于持有和操作平板电脑401。
图4(b)、(c)和(d)分别示出了持有或操作平板电脑401的其它可能方向,与图(4)的方向呈90度、180度和270度角。在不同的方向,麦克风402和摄像头404的位置来自固定的目标,例如用户的面部可能不同。如果相对于平板电脑的指定的正确方向而言,使用假设目标的确定方向的典型的声音/视频处理方案,那么针对平板电脑的不同方向的固定目标处理声音/视频的结果可能导致处理错误(降低的声音/视频质量)。
相反,为了允许在不同的方向持有和操作平板电脑401,平板电脑401可包括改进的录音和/或3D视频捕捉***(未示出)。当录音和/或捕捉3D视频时,改进的录音/3D视频捕捉***可以基于平板电脑401的位置/方向信息在平板电脑401的任意方向或位置(倾斜)适当地处理声音/视频。平板电脑401可包括用于检测位置信息的方向检测设备(未示出)。录音***可以使用位置信息以估计信号的DOA并且相应地处理由麦克风402录制的声音。例如,可以考虑基于位置信息的选择阵列中的一些麦克风检测的声音。类似地,3D视频捕捉***可以使用位置信息以过滤和处理摄像头404捕捉的视频/图像。例如,可以考虑基于位置信息选择的一些摄像头404捕捉的视频/图像。
方向检测设备可用于生成方向信息、位置数据和/或角度数据,其可由麦克风调整设备(未示出)和/或视频配置设备(未示出)使用。麦克风调整设备可用于基于方向信息选择麦克风或控制麦克风中的传感器用于阵列中的声音处理考虑,并且可能是录音***的一部分。视频配置设备可以用于基于方向信息为视频处理考虑选择或布置摄像头404(例如,指导摄像头中的传感器),并且可能是3D视频捕捉***的一部分。
例如,当相对于水平平面旋转平板电脑时,方向检测设备中的位置检测器可以检测平板电脑401的相对位置或对地面的倾斜并且相应地生成位置信息数据。位置信息数据可以在麦克风调整设备中使用。例如,麦克风调整设备可以(例如,相对于用户的面部或嘴部)相应地控制麦克风阵列的最大传感角度,和/或可将该信息传递给信号处理设备(未示出)以在麦克风阵列收集的声音信号上指导信号处理过程。信号处理设备可以是录音***的一部分。信号处理过程可以包括降噪、去混响、语音增强和/或其它声音增强过程。位置信息数据还可以用于3D视频配置设备/***中以指导和配置至少一对摄像头404用于捕捉3D视频和图像。
图5示出了改进的录音***500的实施例,基于平板电脑设计400,该录音***可用于平板电脑401中。录音***500可包括至少两个麦克风501、耦合到麦克风501的信号处理设备502以及至少一个用于进一步信号处理的耦合到信号处理设备502的额外的处理部件503。此外,录音***500可包括耦合到信号处理设备502的麦克风调整设备505、耦合到麦克风调整设备505的方向检测设备504。录音***500的部件可以如图5所示进行布置,并且可以使用硬件、软件或使用二者来实施这些部件。
麦克风501可以是两个独立的全向麦克风、两个独立的麦克风阵列或两个麦克风阵列中的两个麦克风(传感器)。在其它实施例中,录音***500可包括两个以上独立的麦克风501,例如位于平板电脑的一个或多个边缘上。发往信号处理设备502的输入可包括来自各个麦克风501的收集的声音信号以及来自麦克风调整设备505的位置信息数据。方向检测设备504可包括加速计和/或方向/旋转检测设备,用于提供方向/旋转信息。根据水平平面等平板电脑的指定位置或方向,可以检测方向/旋转信息。此外或作为替代,方向检测设备504可包括面部/嘴部识别设备,其可以用来估计平板电脑相对于用户的位置/方向信息。
来自方向检测设备504的位置信息数据可以被发送到麦克风调整设备505,该麦克风调整设备505可以用于控制麦克风501(或麦克风阵列)的最大传感角度。可以控制麦克风501使得用户的嘴部在最大传感角度内对齐,因此更好地进行传入声音信号方向的对齐检测并且远离噪声源。此外或作为替代,麦克风调整设备505可以向信号处理设备502发送位置信息数据。信号处理设备502可以使用位置信息数据实施降噪/去混响过程以获取清晰的声音。此外,信号处理设备502可以实施声音的DOA估计,如下文进一步论述。随后可以将清晰的声音发送到额外的处理部件503,其可用于进行信号识别、编码和/或传输。
图6示出了改进的信号处理部件600的实施例,基于平板电脑设计400,该信号处理部件可用于平板电脑401中。该信号处理部件600可对应于录音***500的信号处理设备502。信号处理部件600可包括降噪块601、耦合到降噪块601的去混响块602以及耦合到降噪块601和去混响块602的DOA估计块603。信号处理部件600的部件可以如图6所示进行布置,并且可以使用硬件、软件或使用二者来实施这些部件。
DOA估计块603可用于从每个麦克风(例如,麦克风501)接收可能带有噪声的收集的声音并且基于(例如,来自方向检测设备504和/或麦克风调整设备505)接收的位置信息实施DOA。DOA估计块603可以使用位置信息数据以估计传入声音信号的DOA。可以使用DOA估计算法,例如MUSIC算法实现DOA估计。DOA估计块603的输出(DOA估计信息)可以作为输入分别发送到降噪块601和去混响块602以基于DOA信息实现改进的降噪和去混响。来自每个麦克风的收集的信号还可以发送到降噪块601,在降噪块601中可以使用DOA信息进行降噪过程。降噪块601可以将处理的信号转发到去混响块602,去混响块602可以使用DOA信息进一步处理声音信号以消除或降低声音中的任意混响效果,并且随后转发清晰的声音作为输出。
图7示出了3D视频捕捉***700的实施例,基于平板电脑设计400,该视频捕捉***可用于平板电脑401中。3D视频捕捉***700可包括方向检测设备701、耦合到方向检测设备701的摄像头配置设备702以及耦合到摄像头配置设备702的多个摄像头703至706。摄像头703至706可能是,例如对应于摄像头404的3D摄像头。方向检测设备704可用于提供方向/旋转信息,例如类似方向检测设备504。例如,方向检测设备704可包括加速计、其它方向/旋转检测设备、脸部/嘴部识别设备,或其组合,其可用来估计平板电脑相对于用户的位置/方向信息。
方向检测设备701可以向摄像头配置设备702发送估计的位置信息数据,其可以用于(例如,根据位置信息)从摄像头703至706选择正确的或合适的摄像头对。在用户坐在摄像头前面的假设下选择摄像头,这可能是平板电脑用户的典型场景或最一般的情况。例如,如果平板电脑相对于用户的脸部旋转约90度(图4(d)所示),选择的正确的摄像头对可能是位于顶部或底部边缘上(在图4(a)的初始(垂直)位置)的摄像头。
图8示出了录音方法800的实施例的流程图,其可以在平板电脑401中实施。例如,可使用录音***500实施录音方法800。方法800可开始于方框810,在方框810,可以检测平板电脑的位置。方向检测设备504可以检测位置/方向。在方框820,可以基于位置信息调整平板电脑的麦克风。例如,麦克风调整设备505可以控制麦克风501(或麦克风阵列)的最大传感角度。在方框830,可以(例如,由至少两个麦克风501)记录声音信号。在方框840,可以基于位置信息估计信号的DOA。例如,DOA估计块603可以基于位置信息实施算法以获取DOA。在方框850,可以基于DOA估计降低信号中的噪声。降噪块601可以使用DOA估计以降低或消除信号中的噪声。在方框860,可以基于DOA估计消除信号中的混响效果。例如,去混响块602可以使用DOA估计以去除信号中的混响效果。在方框870,可以传输清晰的声音。清晰的声音可以通过去除检测的声音信号中的噪声、混响效果和/或其它错误的结果产生。方法800随后可以结束。
图9示出了3D视频捕捉方法900的实施例,其可以在平板电脑401中实施。例如,3D视频捕捉方法900可使用3D视频捕捉***700实施。方法900可开始于方框910,在方框910可以检测平板电脑的位置。方向检测设备701可以检测位置/方向。在方框920,可以基于位置信息配置多个摄像头。例如,摄像头配置设备702可以根据位置信息从摄像头703至706选择合适的摄像头对。在方框930,(例如,选择的摄像头)可以捕捉视频/图像。在方框940,可以使用3D视频/图像处理方案处理捕捉的视频/图像。在方框950,可以传输3D视频/图像。方法900随后可以结束。
在一些实施例中,上述部件可在任何通用电脑***或智能设备部件上实施,其具有足够的处理能力、存储资源和吞吐能力来处理其上的必要工作量。图10示出了一种典型的通用电脑***1000,其适用于实施本文所揭示的部件的一项或多项实施例。电脑***1000包括处理器1002(可称为中央处理器单元或CPU),其与包括辅助存储器1004、只读存储器(ROM)1006、随机存取存储器(RAM)1008的存储装置,输入/输出(I/O)1010和网络连接装置1012进行通信。处理器1002可作为一个或多个CPU芯片实施,或者可以是一个或多个专用集成电路(ASIC)的一部分。
辅助存储器1004通常由一个或多个磁盘驱动器或磁带驱动器组成,用于数据的非易失性存储,且如果RAM1008的大小不足以保存所有工作数据,那么所述辅助存储器还用作溢流数据存储设备。辅助存储器1004可以用于存储程序,当选择执行这些程序时,所述程序将加载到RAM1008中。ROM1006用于存储在程序执行期间读取的指令以及可能读取的数据。ROM1006为非易失性存储设备,其存储容量相对于辅助存储器1004的较大存储容量而言通常较小。RAM1008用于存储易失性数据,并且可能用于存储指令。ROM1006和RAM1008两者的存取速度通常比辅助存储器1004的存取速度快。
本发明公开至少一项实施例,且所属领域的普通技术人员对所述实施例和/或所述实施例的特征作出的变化、组合和/或修改均在本发明公开的范围内。因组合、合并和/或省略所述实施例的特征而得到的替代性实施例也在本发明的范围内。应当理解的是,本发明已明确阐明了数值范围或限制,此类明确的范围或限制应包括涵盖在上述范围或限制(如从大约1至大约10的范围包括2、3、4等;大于0.10的范围包括0.11、0.12、0.13等)内的类似数量级的迭代范围或限制。例如,每当公开具有下限Rl和上限Ru的数值范围时,具体是公开落入所述范围内的任何数字。具体而言,特别公开所述范围内的以下数字:R=R1+k*(Ru–R1),其中k为从1%到100%范围内以1%递增的变量,即,k为1%、2%、3%、4%、7%、...、70%、71%、72%、...、97%、96%、97%、98%、99%或100%。此外,还特此公开了,上文定义的两个R值所定义的任何数值范围。相对于权利要求的某一要素,术语“可选择”的使用表示该要素可以是“需要的”,或者也可以是“不需要的”,二者均在所述权利要求的范围内。使用如“包括”、“包含”和“具有”等较广术语应被理解为提供对如“由...组成”、“基本上由...组成”以及“大体上由...组成”等较窄术语的支持。因此,保护范围不受上文所述的限制,而是由所附权利要求书定义,所述范围包含所附权利要求书的标的物的所有等效物。每项和每条权利要求作为进一步公开的内容并入说明书中,且权利要求书是本发明的实施例。所述揭示内容中的参考的论述并不是承认其为现有技术,尤其是具有在本申请案的在先申请优先权日期之后的公开日期的任何参考。本发明中所引用的所有专利、专利申请案和公开案的揭示内容特此以引用的方式并入本文本中,其提供补充本发明的示例性、程序性或其他细节。
虽然本发明中已提供若干实施例,但应理解,在不脱离本发明的精神或范围的情况下,本发明所公开的***和方法可以以许多其他特定形式来体现。本发明的实例应被视为说明性而非限制性的,且本发明并不限于本文本所给出的细节。例如,各种元件或部件可以在另一***中组合或合并,或者某些特征可以省略或不实施。
此外,在不脱离本发明的范围的情况下,各种实施例中描述和说明为离散或单独的技术、***、子***和方法可以与其他***、模块、技术或方法进行组合或合并。展示或论述为彼此耦接或直接耦接或通信的其他项也可以采用电方式、机械方式或其他方式通过某一接口、装置或中间部件间接地耦接或通信。其他变化、替代和改变的示例可以由本领域的技术人员在不脱离本文精神和所公开的范围的情况下确定。

Claims (27)

1.一种计算***,其特征在于,包括:
方向检测设备,用于检测包括计算***的位置和方向的位置信息;
耦合到所述方向检测设备的多传感器***,其中所述多传感器***用于捕捉环境输入数据,所述多传感器***包括音频捕捉***和三维(3D)图像捕捉***中的至少一个,并且环境输入数据包括音频和图像中的至少一个。
至少一个耦合到所述方向检测设备的信号处理部件,其中所述处理器用于基于所述位置信息修改所述捕捉的环境输入数据。
2.根据权利要求1所述的计算***,其特征在于,所述音频捕捉***用于检测声音信号以及所述的至少一个信号处理部件用于基于所述计算***的所述位置信息修改所述声音信号。
3.根据权利要求1所述的计算***,其特征在于,所述3D图像捕捉***用于捕捉图像以及所述的至少一个信号处理部件用于基于所述位置信息修改所述图像。
4.根据权利要求1所述的计算***,其特征在于,所述音频捕捉***包括:
至少两个用于检测声音信号的麦克风,其中所述至少一个信号处理部件耦合到所述麦克风并且用于降低所述检测的声音信号中的噪声。
5.根据权利要求4所述的计算***,其特征在于,所述两个麦克风是两个单向麦克风。
6.根据权利要求4所述的计算***,其特征在于,所述两个麦克风对应于至少一个麦克风阵列设备。
7.根据权利要求4所述的计算***,其特征在于,所述检测的声音信号由所述至少一个信号处理部件进一步处理以实施声音识别、编码和传输中的至少一种。
8.根据权利要求4所述的计算***,其特征在于,所述音频捕捉***进一步包括:
耦合到所述至少一个信号处理部件的麦克风调整设备,用于根据所述位置信息控制所述麦克风的最大传感角度。
9.根据权利要求1所述的计算***,其特征在于,所述方向检测设备包括加速计和方向/旋转检测设备中的至少一个,所述方向/旋转检测设备用于提供方向/旋转信息。
10.根据权利要求1所述的计算***,其特征在于,所述3D图像捕捉***包括:
至少两个摄像头,每个用于捕捉图像;以及
耦合到所述摄像头的摄像头配置设备,用于布置或选择所述摄像头以正确地捕捉3D图像。
11.根据权利要求10所述的计算***,其特征在于,所述摄像头是接近所述计算***的不同边缘的摄像头。
12.根据权利要求1所述的计算机***,其特征在于,所述音频捕捉***和所述3D图像捕捉***是平板电脑***的一部分,用于使能视频会议、语音呼叫、人机界面和助听器中的至少一个。
13.根据权利要求1所述的计算***,其特征在于,所述位置信息用于获取基本上没有噪声和基本上没有混响效果的基本上清晰的声音数据以及相对于用户而言位于所述平板电脑的多个方向的任意一个方向的3D图像。
14.录音***,其特征在于,包括:
耦合到一个或多个麦克风的到达方向(DOA)估计部件,用于使用接收的方向信息估计检测的声音信号的DOA;
耦合到所述DOA估计部件的降噪部件,用于使用所述DOA估计降低所述检测的声音信号中的噪声;以及
耦合到所述降噪部件和所述DOA估计部件的去混响部件,用于使用所述DOA估计去除所述检测的声音信号中的混响效果。
15.根据权利要求14所述的录音***,其特征在于,所述方向信息是由耦合到所述DOA估计部件的方向检测设备提供的。
16.根据权利要求14所述的录音***,其特征在于,所述DOA估计部件基于多重信号分类(MUSIC)算法和所述方向信息估计所述检测的声音信号的DOA。
17.一种三维(3D)视频捕捉***,其特征在于,包括:
耦合到至少两个摄像头的摄像头配置设备,用于基于所述3D视频捕捉***的检测的方向信息布置所述摄像头中的至少一些摄像头以正确地捕捉3D视频和3D图像中的一个;以及
耦合到所述摄像头配置设备的方向检测设备,用于检测所述方向信息。
18.根据权利要求17所述的3D视频捕捉***,其特征在于,所述方向信息是由耦合到所述摄像头配置设备的方向检测设备提供的。
19.根据权利要求17所述的3D视频捕捉***,其特征在于,用于捕捉所述3D视频或图像的所述选择的摄像头包括两个接***板电脑设备的相反边缘的摄像头。
20.根据权利要求17所述的视频捕捉***,其特征在于,所述两个摄像头中的至少一个摄像头包括3D摄像头。
21.一种在便携设备上实施的录音方法,其特征在于,包括:
检测所述便携设备的方向;
基于所述检测的方向调整麦克风阵列设备;
使用所述调整的麦克风阵列设备记录声音信号;以及
基于所述检测的方向估计所述声音信号的到达方向(DOA)。
22.根据权利要求21所述的在所述便携设备上实施的所述录音方法,其特征在于,进一步包括:
基于所述DOA估计降低所述声音信号中的噪声;
基于所述DOA估计消除所述声音信号中的去混响效果;以及
传输所得的清晰的声音信号。
23.权利要求22所述的在所述便携设备上实施的所述录音方法进一步包括在为编码、语音识别和声音增强的至少一个传输之前处理所述清晰的声音。
24.权利要求21所述的在所述便携设备上实施的所述录音方法,其特征在于,相对于所述便携设备的用户的所述面部或嘴部,通过控制所述麦克风阵列设备的最大传感角度调整所述麦克风阵列设备。
25.一种在便携设备上实施的三维(3D)视频捕捉方法,其特征在于,包括:
检测所述便携设备的方向;
基于所述检测的方向配置多个摄像头;以及
使用所述配置的摄像头捕捉视频或图像。
26.根据权利要求25所述的3D视频捕捉方法,其特征在于,进一步包括:
使用3D视频或图像处理方案处理所述捕捉的视频或图像;以及
传输所述3D视频或图像。
27.根据权利要求25所述的3D视频捕捉方法,其特征在于,通过选择所述摄像头的子集方式配置所述摄像头用于根据所述便携设备的所述检测的方向捕捉所述视频或图像以获取正确的3D视频或图像。
CN201280061091.9A 2011-12-12 2012-12-12 用于数据处理***的智能音频和视频捕捉*** Active CN104012074B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/323,157 US9246543B2 (en) 2011-12-12 2011-12-12 Smart audio and video capture systems for data processing systems
US13/323,157 2011-12-12
PCT/CN2012/086425 WO2013086979A1 (en) 2011-12-12 2012-12-12 Smart audio and video capture systems for data processing systems

Publications (2)

Publication Number Publication Date
CN104012074A true CN104012074A (zh) 2014-08-27
CN104012074B CN104012074B (zh) 2017-07-21

Family

ID=48571625

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280061091.9A Active CN104012074B (zh) 2011-12-12 2012-12-12 用于数据处理***的智能音频和视频捕捉***

Country Status (4)

Country Link
US (2) US9246543B2 (zh)
EP (2) EP2781083A4 (zh)
CN (1) CN104012074B (zh)
WO (1) WO2013086979A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104967717A (zh) * 2015-05-26 2015-10-07 努比亚技术有限公司 终端语音交互模式下的降噪方法及装置
CN105812969A (zh) * 2014-12-31 2016-07-27 展讯通信(上海)有限公司 一种拾取声音信号的方法、***及装置
WO2016183791A1 (zh) * 2015-05-19 2016-11-24 华为技术有限公司 一种语音信号处理方法及装置
CN106303357A (zh) * 2016-08-30 2017-01-04 福州瑞芯微电子股份有限公司 一种远场语音增强的视频通话方法与***
CN106328156A (zh) * 2016-08-22 2017-01-11 华南理工大学 一种音视频信息融合的麦克风阵列语音增强***及方法
CN106898348A (zh) * 2016-12-29 2017-06-27 北京第九实验室科技有限公司 一种出声设备的去混响控制方法和装置
CN107430857A (zh) * 2015-04-07 2017-12-01 索尼公司 信息处理设备、信息处理方法和程序
CN107852440A (zh) * 2015-08-21 2018-03-27 三星电子株式会社 用于由电子设备处理声音的方法及其电子设备
CN108353150A (zh) * 2015-12-01 2018-07-31 高通股份有限公司 用于产生视频数据的电子装置
CN111883186A (zh) * 2020-07-10 2020-11-03 上海明略人工智能(集团)有限公司 录音设备、语音采集方法及装置、存储介质及电子设备
TWI799165B (zh) * 2022-03-04 2023-04-11 圓展科技股份有限公司 拍攝發聲目標的系統及方法

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102389147B1 (ko) 2007-09-24 2022-04-21 애플 인크. 전자 장치 내의 내장형 인증 시스템들
US8600120B2 (en) 2008-01-03 2013-12-03 Apple Inc. Personal computing device control using face detection and recognition
US9002322B2 (en) 2011-09-29 2015-04-07 Apple Inc. Authentication with secondary approver
US9223404B1 (en) * 2012-01-27 2015-12-29 Amazon Technologies, Inc. Separating foreground and background objects in captured images
US20130271579A1 (en) * 2012-04-14 2013-10-17 Younian Wang Mobile Stereo Device: Stereo Imaging, Measurement and 3D Scene Reconstruction with Mobile Devices such as Tablet Computers and Smart Phones
US9445174B2 (en) * 2012-06-14 2016-09-13 Nokia Technologies Oy Audio capture apparatus
WO2014053875A1 (en) 2012-10-01 2014-04-10 Nokia Corporation An apparatus and method for reproducing recorded audio with correct spatial directionality
US9426573B2 (en) * 2013-01-29 2016-08-23 2236008 Ontario Inc. Sound field encoder
US9646592B2 (en) * 2013-02-28 2017-05-09 Nokia Technologies Oy Audio signal analysis
EP2819430A1 (en) * 2013-06-27 2014-12-31 Speech Processing Solutions GmbH Handheld mobile recording device with microphone characteristic selection means
US9898642B2 (en) 2013-09-09 2018-02-20 Apple Inc. Device, method, and graphical user interface for manipulating user interfaces based on fingerprint sensor inputs
US9565416B1 (en) 2013-09-30 2017-02-07 Google Inc. Depth-assisted focus in multi-camera systems
US9544574B2 (en) * 2013-12-06 2017-01-10 Google Inc. Selecting camera pairs for stereoscopic imaging
JP6148163B2 (ja) * 2013-11-29 2017-06-14 本田技研工業株式会社 会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラム
US9483763B2 (en) 2014-05-29 2016-11-01 Apple Inc. User interface for payments
US11959749B2 (en) * 2014-06-20 2024-04-16 Profound Positioning Inc. Mobile mapping system
US9710724B2 (en) 2014-09-05 2017-07-18 Intel Corporation Multi-camera device
US9940637B2 (en) 2015-06-05 2018-04-10 Apple Inc. User interface for loyalty accounts and private label accounts
US20160358133A1 (en) 2015-06-05 2016-12-08 Apple Inc. User interface for loyalty accounts and private label accounts for a wearable device
KR101910383B1 (ko) * 2015-08-05 2018-10-22 엘지전자 주식회사 차량 운전 보조 장치 및 이를 구비한 차량
FR3046014A1 (fr) * 2015-12-21 2017-06-23 Orange Procede de gestion de ressources sur un terminal
DK179186B1 (en) 2016-05-19 2018-01-15 Apple Inc REMOTE AUTHORIZATION TO CONTINUE WITH AN ACTION
CN109313759B (zh) 2016-06-11 2022-04-26 苹果公司 用于交易的用户界面
US10621581B2 (en) 2016-06-11 2020-04-14 Apple Inc. User interface for transactions
DK201670622A1 (en) 2016-06-12 2018-02-12 Apple Inc User interfaces for transactions
US20180068313A1 (en) 2016-09-06 2018-03-08 Apple Inc. User interfaces for stored-value accounts
US10496808B2 (en) 2016-10-25 2019-12-03 Apple Inc. User interface for managing access to credentials for use in an operation
CN108089152B (zh) * 2016-11-23 2020-07-03 杭州海康威视数字技术股份有限公司 一种设备控制方法、装置及***
US10362270B2 (en) 2016-12-12 2019-07-23 Dolby Laboratories Licensing Corporation Multimodal spatial registration of devices for congruent multimedia communications
WO2018140253A1 (en) * 2017-01-24 2018-08-02 Commscope Technologies Llc Alignment apparatus using a mobile terminal and methods of operating the same
CN108696712A (zh) * 2017-03-03 2018-10-23 展讯通信(上海)有限公司 基于ims的3d视频通话方法、装置及终端
KR102185854B1 (ko) 2017-09-09 2020-12-02 애플 인크. 생체측정 인증의 구현
KR102389678B1 (ko) 2017-09-09 2022-04-21 애플 인크. 생체측정 인증의 구현
US10462370B2 (en) 2017-10-03 2019-10-29 Google Llc Video stabilization
CN110069123B (zh) * 2018-01-22 2022-02-18 腾讯科技(深圳)有限公司 一种校验信息点采集合法性的方法和装置
US11022511B2 (en) 2018-04-18 2021-06-01 Aron Kain Sensor commonality platform using multi-discipline adaptable sensors for customizable applications
US10171738B1 (en) 2018-05-04 2019-01-01 Google Llc Stabilizing video to reduce camera and face movement
US11170085B2 (en) 2018-06-03 2021-11-09 Apple Inc. Implementation of biometric authentication
US10860096B2 (en) 2018-09-28 2020-12-08 Apple Inc. Device control using gaze information
US11100349B2 (en) 2018-09-28 2021-08-24 Apple Inc. Audio assisted enrollment
US11328352B2 (en) 2019-03-24 2022-05-10 Apple Inc. User interfaces for managing an account
WO2021061112A1 (en) 2019-09-25 2021-04-01 Google Llc Gain control for face authentication
CN113544692A (zh) 2019-10-10 2021-10-22 谷歌有限责任公司 用于面部认证的摄像头同步和图像标记
CN111551921A (zh) * 2020-05-19 2020-08-18 北京中电慧声科技有限公司 一种声像联动的声源定向***及方法
US11816194B2 (en) 2020-06-21 2023-11-14 Apple Inc. User interfaces for managing secure operations
US11190689B1 (en) 2020-07-29 2021-11-30 Google Llc Multi-camera video stabilization
EP4047939A1 (en) 2021-02-19 2022-08-24 Nokia Technologies Oy Audio capture in presence of noise
US20240077868A1 (en) * 2022-09-07 2024-03-07 Schweitzer Engineering Laboratories, Inc. Configurable multi-sensor input

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1720764A (zh) * 2002-12-06 2006-01-11 皇家飞利浦电子股份有限公司 个性化的环绕声头戴耳机***
US20070237339A1 (en) * 2006-04-11 2007-10-11 Alon Konchitsky Environmental noise reduction and cancellation for a voice over internet packets (VOIP) communication device
CN101300897A (zh) * 2005-11-01 2008-11-05 皇家飞利浦电子股份有限公司 包括声音跟踪装置的助听器
CN101674410A (zh) * 2008-09-12 2010-03-17 Lg电子株式会社 在移动终端上调整图像的显示方向
CN101852846A (zh) * 2009-03-30 2010-10-06 索尼公司 信号处理设备、信号处理方法和程序
CN101872469A (zh) * 2009-04-21 2010-10-27 索尼公司 电子设备、显示控制方法和程序
CN101924979A (zh) * 2009-06-02 2010-12-22 奥迪康有限公司 提供增强定位提示的助听装置及其使用和方法
CN102047318A (zh) * 2008-05-30 2011-05-04 佳能株式会社 图像显示设备及其控制方法和计算机程序
CN102104767A (zh) * 2009-10-16 2011-06-22 苹果公司 具有透视失真校正的脸部姿势改进

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7015954B1 (en) * 1999-08-09 2006-03-21 Fuji Xerox Co., Ltd. Automatic video system using multiple cameras
US7688306B2 (en) * 2000-10-02 2010-03-30 Apple Inc. Methods and apparatuses for operating a portable device based on an accelerometer
JP4061473B2 (ja) * 2002-04-26 2008-03-19 日本電気株式会社 折り畳み型携帯電話機
JP4266148B2 (ja) 2003-09-30 2009-05-20 株式会社東芝 電子機器
US7817805B1 (en) 2005-01-12 2010-10-19 Motion Computing, Inc. System and method for steering the directional response of a microphone to a moving acoustic source
TWI294585B (en) 2005-10-28 2008-03-11 Quanta Comp Inc Audio system of a tablet personal computer and the speaker orientating method thereof
US7565288B2 (en) * 2005-12-22 2009-07-21 Microsoft Corporation Spatial noise suppression for a microphone array
JP4643698B2 (ja) 2008-09-16 2011-03-02 レノボ・シンガポール・プライベート・リミテッド マイクロフォンを備えるタブレット・コンピュータおよび制御方法
US8401178B2 (en) 2008-09-30 2013-03-19 Apple Inc. Multiple microphone switching and configuration
US8570423B2 (en) * 2009-01-28 2013-10-29 Hewlett-Packard Development Company, L.P. Systems for performing visual collaboration between remotely situated participants
JP5407848B2 (ja) 2009-12-25 2014-02-05 富士通株式会社 マイクロホンの指向性制御装置
WO2011086419A1 (en) * 2010-01-12 2011-07-21 Nokia Corporation Collaborative location/orientation estimation
US8941706B2 (en) * 2010-04-07 2015-01-27 Apple Inc. Image processing for a dual camera mobile device
US20110298887A1 (en) * 2010-06-02 2011-12-08 Maglaque Chad L Apparatus Using an Accelerometer to Capture Photographic Images
KR101685980B1 (ko) * 2010-07-30 2016-12-13 엘지전자 주식회사 이동 단말기 및 그 제어방법
US9274744B2 (en) * 2010-09-10 2016-03-01 Amazon Technologies, Inc. Relative position-inclusive device interfaces
US10726861B2 (en) * 2010-11-15 2020-07-28 Microsoft Technology Licensing, Llc Semi-private communication in open environments
US8937646B1 (en) * 2011-10-05 2015-01-20 Amazon Technologies, Inc. Stereo imaging using disparate imaging devices

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1720764A (zh) * 2002-12-06 2006-01-11 皇家飞利浦电子股份有限公司 个性化的环绕声头戴耳机***
CN101300897A (zh) * 2005-11-01 2008-11-05 皇家飞利浦电子股份有限公司 包括声音跟踪装置的助听器
US20070237339A1 (en) * 2006-04-11 2007-10-11 Alon Konchitsky Environmental noise reduction and cancellation for a voice over internet packets (VOIP) communication device
CN102047318A (zh) * 2008-05-30 2011-05-04 佳能株式会社 图像显示设备及其控制方法和计算机程序
CN101674410A (zh) * 2008-09-12 2010-03-17 Lg电子株式会社 在移动终端上调整图像的显示方向
CN101852846A (zh) * 2009-03-30 2010-10-06 索尼公司 信号处理设备、信号处理方法和程序
CN101872469A (zh) * 2009-04-21 2010-10-27 索尼公司 电子设备、显示控制方法和程序
CN101924979A (zh) * 2009-06-02 2010-12-22 奥迪康有限公司 提供增强定位提示的助听装置及其使用和方法
CN102104767A (zh) * 2009-10-16 2011-06-22 苹果公司 具有透视失真校正的脸部姿势改进

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105812969A (zh) * 2014-12-31 2016-07-27 展讯通信(上海)有限公司 一种拾取声音信号的方法、***及装置
CN107430857B (zh) * 2015-04-07 2021-08-06 索尼公司 信息处理设备、信息处理方法和程序
CN107430857A (zh) * 2015-04-07 2017-12-01 索尼公司 信息处理设备、信息处理方法和程序
WO2016183791A1 (zh) * 2015-05-19 2016-11-24 华为技术有限公司 一种语音信号处理方法及装置
CN107534725A (zh) * 2015-05-19 2018-01-02 华为技术有限公司 一种语音信号处理方法及装置
CN107534725B (zh) * 2015-05-19 2020-06-16 华为技术有限公司 一种语音信号处理方法及装置
CN104967717B (zh) * 2015-05-26 2016-09-28 努比亚技术有限公司 终端语音交互模式下的降噪方法及装置
CN104967717A (zh) * 2015-05-26 2015-10-07 努比亚技术有限公司 终端语音交互模式下的降噪方法及装置
CN107852440A (zh) * 2015-08-21 2018-03-27 三星电子株式会社 用于由电子设备处理声音的方法及其电子设备
CN108353150A (zh) * 2015-12-01 2018-07-31 高通股份有限公司 用于产生视频数据的电子装置
CN106328156B (zh) * 2016-08-22 2020-02-18 华南理工大学 一种音视频信息融合的麦克风阵列语音增强***及方法
CN106328156A (zh) * 2016-08-22 2017-01-11 华南理工大学 一种音视频信息融合的麦克风阵列语音增强***及方法
CN106303357A (zh) * 2016-08-30 2017-01-04 福州瑞芯微电子股份有限公司 一种远场语音增强的视频通话方法与***
CN106303357B (zh) * 2016-08-30 2019-11-08 福州瑞芯微电子股份有限公司 一种远场语音增强的视频通话方法与***
CN106898348B (zh) * 2016-12-29 2020-02-07 北京小鸟听听科技有限公司 一种出声设备的去混响控制方法和装置
US10410651B2 (en) 2016-12-29 2019-09-10 Beijing Xiaoniao Tingting Technology Co., LTD. De-reverberation control method and device of sound producing equipment
CN106898348A (zh) * 2016-12-29 2017-06-27 北京第九实验室科技有限公司 一种出声设备的去混响控制方法和装置
CN111883186A (zh) * 2020-07-10 2020-11-03 上海明略人工智能(集团)有限公司 录音设备、语音采集方法及装置、存储介质及电子设备
TWI799165B (zh) * 2022-03-04 2023-04-11 圓展科技股份有限公司 拍攝發聲目標的系統及方法

Also Published As

Publication number Publication date
US9246543B2 (en) 2016-01-26
CN104012074B (zh) 2017-07-21
EP2781083A4 (en) 2015-06-10
EP2781083A1 (en) 2014-09-24
US20130147923A1 (en) 2013-06-13
EP3376763A1 (en) 2018-09-19
WO2013086979A1 (en) 2013-06-20
US20160100156A1 (en) 2016-04-07

Similar Documents

Publication Publication Date Title
CN104012074A (zh) 用于数据处理***的智能音频和视频捕捉***
US11375329B2 (en) Systems and methods for equalizing audio for playback on an electronic device
CN107534725B (zh) 一种语音信号处理方法及装置
EP2753061B1 (en) Method for obtaining image data and electronic device for processing method thereof
US9007524B2 (en) Techniques and apparatus for audio isolation in video processing
CN104053088A (zh) 一种麦克风阵列调整方法、麦克风阵列及电子设备
US10424314B2 (en) Techniques for spatial filtering of speech
CN110970057A (zh) 一种声音处理方法、装置与设备
US11496830B2 (en) Methods and systems for recording mixed audio signal and reproducing directional audio
US11277688B2 (en) Apparatus, method and computer program for audio module use in an electronic device
CN105554386A (zh) 一种移动终端及其控制摄像头拍摄的方法
CN107079219A (zh) 面向用户体验的音频信号处理
CN108781310B (zh) 选择要增强的视频的音频流的方法、装置、设备、介质
CN113608167B (zh) 声源定位方法、装置及设备
JP6711118B2 (ja) 画像管理システム、プログラム及び情報端末
US10296801B2 (en) Systems and methods for providing a continuous check scanner utilizing a tablet computer and camera
AU2014321133A1 (en) Multi-channel microphone mapping
WO2017215158A1 (zh) 通信终端声音处理控制方法、装置及通信终端
JP6191333B2 (ja) 情報処理装置、通信システムおよびプログラム
JP6645129B2 (ja) 通信装置、制御方法及び制御プログラム
CN117044233A (zh) 情境感知声景控制
CN117636928A (zh) 一种拾音装置及相关音频增强方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant