CN109506568A - 一种基于图像识别和语音识别的声源定位方法及装置 - Google Patents

一种基于图像识别和语音识别的声源定位方法及装置 Download PDF

Info

Publication number
CN109506568A
CN109506568A CN201811641541.7A CN201811641541A CN109506568A CN 109506568 A CN109506568 A CN 109506568A CN 201811641541 A CN201811641541 A CN 201811641541A CN 109506568 A CN109506568 A CN 109506568A
Authority
CN
China
Prior art keywords
sound source
coordinate position
speech recognition
coordinate
target sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811641541.7A
Other languages
English (en)
Other versions
CN109506568B (zh
Inventor
雷玉雄
雷雄国
刘寒英
黄海艳
程栋梁
曾勋
陈庆安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AI Speech Ltd
Original Assignee
AI Speech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AI Speech Ltd filed Critical AI Speech Ltd
Priority to CN201811641541.7A priority Critical patent/CN109506568B/zh
Publication of CN109506568A publication Critical patent/CN109506568A/zh
Application granted granted Critical
Publication of CN109506568B publication Critical patent/CN109506568B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01BMEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
    • G01B11/00Measuring arrangements characterised by the use of optical techniques
    • G01B11/002Measuring arrangements characterised by the use of optical techniques for measuring two or more coordinates
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S11/00Systems for determining distance or velocity not using reflection or reradiation
    • G01S11/14Systems for determining distance or velocity not using reflection or reradiation using ultrasonic, sonic, or infrasonic waves
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Stereophonic System (AREA)

Abstract

本发明公开一种基于图像识别和语音识别的声源定位方法,包括,实时捕捉图像信息,进行图像识别,并根据图像识别结果确定第一坐标位置;实时采集声源信息,进行语音识别,并根据语音识别结果确定第二坐标位置;根据第一坐标位置和第二坐标位置确定目标声源位置。本发明还公开了一种基于图像识别和语音识别的声源定位装置,根据本发明公开的方法和装置可以通过图像识别技术和麦克风阵列实现对声源的方向位置的精确定位,并且还可以通过图像识别技术和麦克风阵列对声源的方向位置的距离测量,这样可以达到更加精准的定位效果,实用性较高。

Description

一种基于图像识别和语音识别的声源定位方法及装置
技术领域
本发明涉及语音识别和图像识别的技术领域,特别是一种基于图像识别和语音识别的声源定位方法及装置。
背景技术
随着科技发展,智能设备越来越普及,其中,声源定位对于一些智能设备来说是尤为重要的,目前市面上单纯依靠麦克风阵对声源进行定位,这样往往会导致结果不准确,而且对麦克风阵列的算法、布局、测试角度的精度都是有非常高的要求,基本上不能实现对定位的精度要求,即不能达到精准定位。这就会导致通过单纯的麦克风阵列来进行声源方向的定位,不能进行实际应用,或者应用效果非常差,这会影响语音交互设备的交互效果和用户体验。
发明内容
为了解决上述问题,发明人构思通过参考仿生原理(它是一门生物科学与技术科学交叉的边缘科学,其任务是将生物***的优异能力及产生的功能应用到技术发展中,以更好地解决技术问题),应用图像识别技术结合语音识别技术,来实现对声源方向的精准定位,这样就可以解决了纯依靠麦克风阵不能对声源的精准定位的问题。
根据本发明的第一个方面,提供了一种基于图像识别和语音识别的声源定位方法,包括如下步骤
实时捕捉图像信息,进行图像识别,并根据图像识别结果确定第一坐标位置;
实时采集声源信息,进行语音识别,并根据语音识别结果确定第二坐标位置;
根据第一坐标位置和第二坐标位置确定目标声源位置。
根据本发明的第二个方面,提供了一种通过基于图像识别和语音识别的声源定位装置,包括:
图像采集模块,用于实时捕捉图像信息;
音频采集模块,用于实时采集声源信息;
图像识别模块,用于进行图像识别,并根据图像识别结果确定第一坐标位置;
语音识别模块,用于进行语音识别,并根据语音识别结果确定第二坐标位置;
声源定位模块,用于根据第一坐标位置和第二坐标位置确定目标声源位置。
本发明提供的装置和方法,通过图像识别来获取第一坐标位置,通过语音识别来获取第二坐标位置,基于两种识别得到的坐标位置来确定目标声源位置,既考虑图像特征,又辅助以语音特征,通过图像识别技术和语音识别技术实现了对声源的方向位置的精确定位,这样可以达到更加精准的定位效果,实用性较高。
附图说明
图1为本发明一实施方式的基于图像识别和语音识别的声源定位方法流程图;
图2为本发明又一实施方式的基于图像识别和语音识别的声源定位的装置原理框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
在本发明中,“模块”、“装置”、“***”等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地***、分布式***中另一元件交互的,和/或在因特网的网络通过信号与其它***交互的数据的信号通过本地和/或远程过程来进行通信。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明实施例的基于图像识别和语音识别的声源定位方法可以应用于任何配置了语音功能和图像识别功能的终端设备,例如,智能手机、平板电脑、智能家居等终端设备,本发明对此不作限制,从而能够使得用户在使用这些终端设备的过程中获得更及时准确的响应。
下面结合附图对本发明作进一步详细的说明。
图1示意性地显示了根据本发明的一种实施方式的基于图像识别和语音识别的声源定位方法流程图。如图1所示,本实施例包括如下步骤:
步骤S101:实时捕捉图像信息,进行图像识别,并根据图像识别结果确定第一坐标位置。具体实现为:通过具有摄像功能的装置实时捕捉图像信息,对捕捉的图像信息根据人脸识别技术进行人像识别,在确定为人像时,再进行张嘴识别,在确定为识别结果为张嘴时,获取发出张嘴动作的人像坐标,获取的方式可以由远程测距技术实现,即测量具有摄像功能的装置到发出声音的人的坐标,并将其确定为第一坐标位置。具体实现为:首先摄像头校准后会获取摄像头自身的基准坐标,在使用前,摄像头周围(靠近摄像头的任意位置)会设置有一个超声雷达和陀螺仪,超声雷达和陀螺仪均能够与摄像头中的图像识别模块进行通信,通过超声雷达可以测算人和摄像头之间的距离,通过陀螺仪可以测算人和摄像头之间的角度,结合目标图像角度和距离通过图像识别技术中的相应现有算法就可以计算出人的坐标位置(即第一坐标位置),并将其坐标进行存储。
步骤S102:实时采集声源信息,进行语音识别,并根据语音识别结果确定第二坐标位置。通过麦克风阵列或其它具有采集音频功能的装置实时采集用户发出的声源信息,对实时采集的声源信息进行最大声强的语音识别,关于声音强度的识别可以参照现有技术实现,在识别出最大声强时,获取最大声强发出者的音源坐标,将其确定为第二坐标位置。具体实现为:首先计算最大声强的角度,由于MIC(麦克风)是按照规则的安装在球形上,因此每个MIC会有一个固定的角度和基准坐标位置,当球形上的MIC获取到人声后,通过算法去对比哪些MIC获取到的声压是最强的(可以参照现有技术来实现对声压的对比判断),将最接收到强声压MIC的坐标位置以及指向角度上报并保存。根据MIC记录的声源指向角度,设备上的雷达自动旋转到MIC指向的声源位置,通过雷达去获取声源的距离。结合MIC获取的角度信息和雷达获取的距离信息,通过现有的常用算法(还可以采用思必驰公司自己的语音算法)即可计算出声源的语音坐标位置(即第二坐标位置。由于实际应用中,此位置可能会存在几个,因此会将得到的第二坐标位置和第一坐标位置去对比,确定哪个更接近第一坐标位置,哪个就是真正的声源位置,即将最接近第一坐标位置的确定为最接近声源的位置。
步骤S103:根据第一坐标位置和第二坐标位置确定目标声源位置。其中,目标声源位置包括目标声源坐标方位。首先将由步骤S101获取的第一坐标位置和步骤S102获取的第二坐标位置进行比对,在第一坐标位置和第二坐标位置的误差不大于预设阈值时(此位置可能会存在几个,因此会将得到的第二坐标位置和第一坐标位置去对比,确定哪个更接近第一坐标位置,哪个就是真正的声源位置),该预设的阈值可以根据测量经验进行设定,则根据第一坐标位置进行定向声源信息采集,再根据定向采集的声源信息进行语音识别,确定目标声源坐标方位,从而确定为最终的位置信息。示例性地,预设阈值为一个较小的值,将麦克风采集到第二坐标位置和图像采集到的第一坐标位置进行比对,如果声强较大的方向位置和张嘴图像的坐标位置相接近,即第一坐标位置和第二坐标位置的差值为一个较小的值,例如与预设阈值相比,小于预设阈值,则用图像采集到的第一坐标位置替代麦克风采集到的第二坐标位置。由于第一坐标位置为图像位置,定义的为精确位置,第二坐标位置为语音采集位置,定义为模糊位置,通过将第一坐标位置替代第二坐标位置,由此,麦克风就可以得到声源的精准位置,即目标声源坐标方位。
在优选实施方式中,目标声源位置还包括目标声源距离,通过第一坐标位置和第二坐标位置确定目标声源位置还实现为根据定向采集的声源信息进行语音识别,确定目标声源距离。从而通过图像识别技术来辅助麦克风阵列实现对声源的方向位置的距离测量。
通过上述方法,即可得到精准的目标声源位置,之后就可以开启麦克风的定向识别,该定向识别为根据图像识别算法,当图像上的识别确认(非图像上识别对象所发出的声音被自动滤除)成功后,则实时旋转跟踪音源目标,实时上报目标音源距离、坐标方位。
优选地,麦克风还可以实现为自动过滤掉非特定坐标的声源,实现对目标声源位置的定位,实时跟踪音源。根据图像识别算法,图像上的识别确认成功后,会实时旋转摄像头和球形麦克分的位置去跟踪音源目标的,只是上报被识别确认目标的音源,通过图像识别算法和语音算法对其它对象所发出的声音被自动滤除。图像识别算法和语音算法可以参照现有技术实现。
在又一优选实施方式中,还可以根据声纹识别技术对采集到的音源进行声纹识别,并将识别出的声纹信息进行存储,之后,就可以通过对声源的声纹识别来快速捕捉到同一个人发出的声源,即只要被存储的声纹再次发出声音,就可以快速捕捉到正确的声源位置信息。示例性地,对于已经存储记录的声纹,如果该声纹的发出者又再次发声的话,可以直接通过声纹比对,快速完成对目标声源的定位,直接忽略其它噪声,减少了大量的噪声消除运算,加快了定位速度。
根据本实施例的方法可以实现结合图像识别技术和语音识别技术实现对声源的方向位置的精确定位,并且还可以通过图像识别技术和语音识别技术实现对声源的方向位置的距离测量,这样可以达到更加精准的定位效果,实用性较高。
图2示意性地显示了根据本发明一实施方式的基于图像识别和语音识别的声源定位装置原理框图。如图2所示,
该基于图像识别和语音识别的声源定位装置包括图像采集模块201、音频采集模块203、图像识别模块202、语音识别模块204和声源定位模块205。
图像采集模块201用于实时捕捉图像信息,示例性地实现为可360°旋转的摄像头。
音频采集模块203用于实时采集声源信息,示例性地实现为球形麦克风阵列,可以采集任何方向的声源信息。
图像识别模块202用于采用人像识别技术对获取的图像信息进行图像识别,通过人像识别和张嘴动作识别确定第一坐标位置。
语音识别模块204用于对获取的音频信息进行语音识别,可以参照现有的语音识别技术实现,通过语音识别确定最大声强,基于最大声强的识别确定第二坐标位置。
声源定位模块205用于根据第一坐标位置和第二坐标位置确定目标声源位置。其中,目标声源位置包括目标声源坐标方位和目标声源距离。声源定位模块205包括声源位置追踪单元2051和定位采集单元2052。声源位置追踪单元2051用于将第一坐标位置和第二坐标位置进行比对,在第一坐标位置和第二坐标位置的误差不大于预设阈值时,将第一坐标位置作为实时目标声源坐标,实现方式可以参照上述的方法部分。定位采集单元2052用于根据实时目标声源位置启动音频采集模块进行定向声源采集,并根据定向采集的声源信息进行语音识别,确定目标声源坐标方位和目标声源距离,实现的方式可以参照上述的方法部分。
根据本实施例的装置可以实现通过图像识别技术和语音识别技术实现对声源的方向位置的精确定位,并且还可以通过图像识别技术和语音识别技术实现对声源的方向位置的距离测量,这样可以达到更加精准的定位效果,实用性较高。
在优选实施例中,该装置还可以包括声纹识别模块,用于对音频采集模块203采集的目标声源位置的音频信息进行声纹识别,并将对目标声源的声纹识别结果存储,即存储识别出的目标声源的声纹信息,这样确定了目标声源位置后,音频采集模块203再次采集到音频信息后,就会首先通过声纹识别模块203进行识别,以快速确定目标声源再次发声的位置,即在确定出的目标声源再次发出声音时,就可以快速捕捉到声源位置,实现对识别出的目标声源的实时跟踪和快速二次声源捕捉。具体实现为:该模块通过MIC获取到语音信号后,音频解码芯片对此语音信号进行编码,编码后传输到DSP芯片,DSP芯片对该语音信号转化为命令信号去控制对应的接口(例如控制电机马达,使电机马达旋转,控制球形上安装的MIC精确指向声源位置)。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.基于图像识别和语音识别的声源定位方法,其特征在于,包括
实时捕捉图像信息,进行图像识别,并根据图像识别结果确定第一坐标位置;
实时采集声源信息,进行语音识别,并根据语音识别结果确定第二坐标位置;
根据第一坐标位置和第二坐标位置确定目标声源位置。
2.根据权利要求1所述的方法,其特征在于,所述目标声源位置包括目标声源坐标方位,所述根据第一坐标位置和第二坐标位置确定目标声源位置包括
将第一坐标位置和第二坐标位置进行比对,在第一坐标位置和第二坐标位置的误差不大于预设阈值时,根据第一坐标位置进行定向声源信息采集;
根据定向采集的声源信息进行语音识别,确定目标声源坐标方位。
3.根据权利要求2所述的方法,其特征在于,所述目标声源位置还包括目标声源距离,所述根据第一坐标位置和第二坐标位置确定目标声源位置还包括
根据定向采集的声源信息进行语音识别,确定目标声源距离。
4.根据权利要求3所述的方法,其中,所述实时采集声源信息,进行语音识别,并根据语音识别结果确定第二坐标位置包括
对实时采集的声源信息进行最大声强的语音识别,在识别出最大声强时,获取最大声强的音源坐标,将其确定为第二坐标位置。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述实时捕捉图像信息,进行图像识别,并根据图像识别结果确定第一坐标位置包括对捕捉的图像信息进行人像识别,在确定为人像时,进行张嘴识别,在确定为张嘴时,获取张嘴人像的坐标,将其确定为第一坐标位置。
6.基于图像识别和语音识别的声源定位装置,其特征在于,包括
图像采集模块,用于实时捕捉图像信息;
音频采集模块,用于实时采集声源信息;
图像识别模块,用于进行图像识别,并根据图像识别结果确定第一坐标位置;
语音识别模块,用于进行语音识别,并根据语音识别结果确定第二坐标位置;
声源定位模块,用于根据第一坐标位置和第二坐标位置确定目标声源位置。
7.根据权利要求6所述的装置,其特征在于,所述图像采集模块为可360°旋转的摄像头。
8.根据权利要求6或7所述的装置,其特征在于,音频采集模块为球形麦克风阵列。
9.根据权利要求8所述的装置,其特征在于,所述目标声源位置包括目标声源坐标方位和目标声源距离,所述声源定位模块包括
声源位置追踪单元,用于将第一坐标位置和第二坐标位置进行比对,在第一坐标位置和第二坐标位置的误差不大于预设阈值时,将第一坐标位置作为实时目标声源坐标;
定位采集单元,用于根据实时目标声源位置启动音频采集模块进行定向声源采集,并根据定向采集的声源信息进行语音识别,确定目标声源坐标方位和目标声源距离。
10.根据权利要求9所述的装置,其特征在于,所述图像识别模块通过人像识别和张嘴动作识别确定第一坐标位置,所述语音识别模块通过最大声强识别确定第二坐标位置。
CN201811641541.7A 2018-12-29 2018-12-29 一种基于图像识别和语音识别的声源定位方法及装置 Active CN109506568B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811641541.7A CN109506568B (zh) 2018-12-29 2018-12-29 一种基于图像识别和语音识别的声源定位方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811641541.7A CN109506568B (zh) 2018-12-29 2018-12-29 一种基于图像识别和语音识别的声源定位方法及装置

Publications (2)

Publication Number Publication Date
CN109506568A true CN109506568A (zh) 2019-03-22
CN109506568B CN109506568B (zh) 2021-06-18

Family

ID=65757050

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811641541.7A Active CN109506568B (zh) 2018-12-29 2018-12-29 一种基于图像识别和语音识别的声源定位方法及装置

Country Status (1)

Country Link
CN (1) CN109506568B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109991575A (zh) * 2019-04-04 2019-07-09 上海市金山区青少年活动中心 定位***、定位方法及身份识别方法
CN110335607A (zh) * 2019-08-19 2019-10-15 北京安云世纪科技有限公司 一种语音指令的执行方法、装置及电子设备
CN110398727A (zh) * 2019-07-31 2019-11-01 深圳市康冠商用科技有限公司 一种设备控制方法和设备控制***
CN110933254A (zh) * 2019-12-11 2020-03-27 杭州叙简科技股份有限公司 一种基于图像分析的声音过滤***及其声音过滤方法
CN111476126A (zh) * 2020-03-27 2020-07-31 海信集团有限公司 一种室内定位方法、***及智能设备
CN111722186A (zh) * 2020-06-30 2020-09-29 中国平安人寿保险股份有限公司 基于声源定位的拍摄方法、装置、电子设备及存储介质
CN112488932A (zh) * 2020-11-20 2021-03-12 中国直升机设计研究所 一种模型旋翼声源定位现场标定及图像畸变修正方法
CN112562671A (zh) * 2020-12-10 2021-03-26 上海雷盎云智能技术有限公司 一种服务机器人的语音控制方法和装置
CN112578338A (zh) * 2019-09-27 2021-03-30 阿里巴巴集团控股有限公司 声源定位方法、装置、设备及存储介质
WO2021078116A1 (zh) * 2019-10-21 2021-04-29 维沃移动通信有限公司 视频处理方法及电子设备
CN112859000A (zh) * 2020-12-31 2021-05-28 华为技术有限公司 一种声源定位方法以及装置
CN112945136A (zh) * 2021-01-29 2021-06-11 中煤科工集团重庆研究院有限公司 用于边坡风险监测的监测点位遴选方法及***
CN113242505A (zh) * 2021-05-18 2021-08-10 苏州朗捷通智能科技有限公司 一种音频控制***及其控制方法
CN113537217A (zh) * 2021-07-22 2021-10-22 中国科学院半导体研究所 基于超声波与图像融合的报靶方法及装置
CN113709378A (zh) * 2021-09-08 2021-11-26 联想(北京)有限公司 一种处理方法、装置、摄像设备及电子***
CN115862682A (zh) * 2023-01-03 2023-03-28 杭州觅睿科技股份有限公司 声音检测方法及相关设备
CN113910217B (zh) * 2020-09-21 2023-12-01 复旦大学 一种听视觉协同的人形机器人头部定向方法

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101068308A (zh) * 2007-05-10 2007-11-07 华为技术有限公司 一种控制图像采集装置进行目标定位的***及方法
US20110054909A1 (en) * 2008-05-08 2011-03-03 Koninklijke Philips Electronics N.V. Localizing the position of a source of a voice signal
CN102624978A (zh) * 2012-02-29 2012-08-01 广东步步高电子工业有限公司 可旋转多摄像头手机及基于声源识别定位的三维摄像实现方法
CN102879763A (zh) * 2012-09-11 2013-01-16 上海交通大学 采用图像识别与声强扫描的噪声源快速定位***及方法
CN102879080A (zh) * 2012-09-11 2013-01-16 上海交通大学 基于图像识别定位和声学传感器阵列测量的声场分析方法
CN102980647A (zh) * 2012-11-26 2013-03-20 北京神州普惠科技股份有限公司 一种噪声源识别定位测试方法
CN104748764A (zh) * 2015-04-01 2015-07-01 清华大学 一种声场可视化***中声像平面的空间角度标定方法
CN105116994A (zh) * 2015-07-07 2015-12-02 百度在线网络技术(北京)有限公司 基于人工智能的智能机器人追踪方法和追踪装置
CN105957521A (zh) * 2016-02-29 2016-09-21 青岛克路德机器人有限公司 一种用于机器人的语音和图像复合交互执行方法及***
CN106024003A (zh) * 2016-05-10 2016-10-12 北京地平线信息技术有限公司 结合图像的语音定位和增强***及方法
CN106653041A (zh) * 2017-01-17 2017-05-10 北京地平线信息技术有限公司 音频信号处理设备、方法和电子设备
CN106679651A (zh) * 2017-02-08 2017-05-17 北京地平线信息技术有限公司 声源定位方法、装置和电子设备
CN108089153A (zh) * 2016-11-23 2018-05-29 杭州海康威视数字技术股份有限公司 一种声源定位方法、装置及***
CN108089152A (zh) * 2016-11-23 2018-05-29 杭州海康威视数字技术股份有限公司 一种设备控制方法、装置及***
CN108597263A (zh) * 2018-04-26 2018-09-28 广州国铭职业技能培训有限公司 一种具有部门专业知识培训功能的机器人
CN108957392A (zh) * 2018-04-16 2018-12-07 深圳市沃特沃德股份有限公司 声源方向估计方法和装置
CN109089087A (zh) * 2018-10-18 2018-12-25 广州市盛光微电子有限公司 多通道影音联动装置

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101068308A (zh) * 2007-05-10 2007-11-07 华为技术有限公司 一种控制图像采集装置进行目标定位的***及方法
US20110054909A1 (en) * 2008-05-08 2011-03-03 Koninklijke Philips Electronics N.V. Localizing the position of a source of a voice signal
CN102624978A (zh) * 2012-02-29 2012-08-01 广东步步高电子工业有限公司 可旋转多摄像头手机及基于声源识别定位的三维摄像实现方法
CN102879763A (zh) * 2012-09-11 2013-01-16 上海交通大学 采用图像识别与声强扫描的噪声源快速定位***及方法
CN102879080A (zh) * 2012-09-11 2013-01-16 上海交通大学 基于图像识别定位和声学传感器阵列测量的声场分析方法
CN102980647A (zh) * 2012-11-26 2013-03-20 北京神州普惠科技股份有限公司 一种噪声源识别定位测试方法
CN104748764A (zh) * 2015-04-01 2015-07-01 清华大学 一种声场可视化***中声像平面的空间角度标定方法
CN105116994A (zh) * 2015-07-07 2015-12-02 百度在线网络技术(北京)有限公司 基于人工智能的智能机器人追踪方法和追踪装置
CN105957521A (zh) * 2016-02-29 2016-09-21 青岛克路德机器人有限公司 一种用于机器人的语音和图像复合交互执行方法及***
CN106024003A (zh) * 2016-05-10 2016-10-12 北京地平线信息技术有限公司 结合图像的语音定位和增强***及方法
CN108089153A (zh) * 2016-11-23 2018-05-29 杭州海康威视数字技术股份有限公司 一种声源定位方法、装置及***
CN108089152A (zh) * 2016-11-23 2018-05-29 杭州海康威视数字技术股份有限公司 一种设备控制方法、装置及***
CN106653041A (zh) * 2017-01-17 2017-05-10 北京地平线信息技术有限公司 音频信号处理设备、方法和电子设备
CN106679651A (zh) * 2017-02-08 2017-05-17 北京地平线信息技术有限公司 声源定位方法、装置和电子设备
CN108957392A (zh) * 2018-04-16 2018-12-07 深圳市沃特沃德股份有限公司 声源方向估计方法和装置
CN108597263A (zh) * 2018-04-26 2018-09-28 广州国铭职业技能培训有限公司 一种具有部门专业知识培训功能的机器人
CN109089087A (zh) * 2018-10-18 2018-12-25 广州市盛光微电子有限公司 多通道影音联动装置

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109991575A (zh) * 2019-04-04 2019-07-09 上海市金山区青少年活动中心 定位***、定位方法及身份识别方法
CN110398727A (zh) * 2019-07-31 2019-11-01 深圳市康冠商用科技有限公司 一种设备控制方法和设备控制***
CN110335607A (zh) * 2019-08-19 2019-10-15 北京安云世纪科技有限公司 一种语音指令的执行方法、装置及电子设备
CN112578338B (zh) * 2019-09-27 2024-05-14 阿里巴巴集团控股有限公司 声源定位方法、装置、设备及存储介质
CN112578338A (zh) * 2019-09-27 2021-03-30 阿里巴巴集团控股有限公司 声源定位方法、装置、设备及存储介质
WO2021078116A1 (zh) * 2019-10-21 2021-04-29 维沃移动通信有限公司 视频处理方法及电子设备
CN110933254B (zh) * 2019-12-11 2021-09-07 杭州叙简科技股份有限公司 一种基于图像分析的声音过滤***及其声音过滤方法
CN110933254A (zh) * 2019-12-11 2020-03-27 杭州叙简科技股份有限公司 一种基于图像分析的声音过滤***及其声音过滤方法
CN111476126A (zh) * 2020-03-27 2020-07-31 海信集团有限公司 一种室内定位方法、***及智能设备
CN111476126B (zh) * 2020-03-27 2024-02-23 海信集团有限公司 一种室内定位方法、***及智能设备
CN111722186A (zh) * 2020-06-30 2020-09-29 中国平安人寿保险股份有限公司 基于声源定位的拍摄方法、装置、电子设备及存储介质
CN111722186B (zh) * 2020-06-30 2024-04-05 中国平安人寿保险股份有限公司 基于声源定位的拍摄方法、装置、电子设备及存储介质
CN113910217B (zh) * 2020-09-21 2023-12-01 复旦大学 一种听视觉协同的人形机器人头部定向方法
CN112488932B (zh) * 2020-11-20 2023-06-06 中国直升机设计研究所 一种模型旋翼声源定位现场标定及图像畸变修正方法
CN112488932A (zh) * 2020-11-20 2021-03-12 中国直升机设计研究所 一种模型旋翼声源定位现场标定及图像畸变修正方法
CN112562671A (zh) * 2020-12-10 2021-03-26 上海雷盎云智能技术有限公司 一种服务机器人的语音控制方法和装置
WO2022142853A1 (zh) * 2020-12-31 2022-07-07 华为技术有限公司 一种声源定位方法以及装置
CN112859000B (zh) * 2020-12-31 2023-09-12 华为技术有限公司 一种声源定位方法以及装置
CN112859000A (zh) * 2020-12-31 2021-05-28 华为技术有限公司 一种声源定位方法以及装置
CN112945136A (zh) * 2021-01-29 2021-06-11 中煤科工集团重庆研究院有限公司 用于边坡风险监测的监测点位遴选方法及***
CN113242505A (zh) * 2021-05-18 2021-08-10 苏州朗捷通智能科技有限公司 一种音频控制***及其控制方法
CN113537217A (zh) * 2021-07-22 2021-10-22 中国科学院半导体研究所 基于超声波与图像融合的报靶方法及装置
CN113537217B (zh) * 2021-07-22 2023-11-14 中国科学院半导体研究所 基于超声波与图像融合的报靶方法及装置
CN113709378A (zh) * 2021-09-08 2021-11-26 联想(北京)有限公司 一种处理方法、装置、摄像设备及电子***
CN115862682A (zh) * 2023-01-03 2023-03-28 杭州觅睿科技股份有限公司 声音检测方法及相关设备

Also Published As

Publication number Publication date
CN109506568B (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN109506568A (zh) 一种基于图像识别和语音识别的声源定位方法及装置
US20220159403A1 (en) System and method for assisting selective hearing
US11398235B2 (en) Methods, apparatuses, systems, devices, and computer-readable storage media for processing speech signals based on horizontal and pitch angles and distance of a sound source relative to a microphone array
US9171548B2 (en) Methods and systems for speaker identity verification
CN107799126B (zh) 基于有监督机器学习的语音端点检测方法及装置
CN102903362B (zh) 集成的本地和基于云的语音识别
CN104246878B (zh) 音频用户交互辨识和上下文精炼
CN110741433A (zh) 使用多个计算设备的对讲式通信
CN109683135A (zh) 一种声源定位方法及装置、目标抓拍***
US20240087587A1 (en) Wearable system speech processing
WO2019080639A1 (zh) 一种对象识别方法、计算机设备及计算机可读存储介质
US10582117B1 (en) Automatic camera control in a video conference system
Nakadai et al. Improvement of recognition of simultaneous speech signals using av integration and scattering theory for humanoid robots
JP2022529783A (ja) 発話認識エンジンのための入力の識別
Minotto et al. Multimodal multi-channel on-line speaker diarization using sensor fusion through SVM
KR20200129934A (ko) 오디오-비주얼 데이터에 기반한 화자 분리 방법 및 장치
CN113099031B (zh) 声音录制方法及相关设备
US20230164509A1 (en) System and method for headphone equalization and room adjustment for binaural playback in augmented reality
WO2021120190A1 (zh) 数据处理方法、装置、电子设备和存储介质
CN115426582B (zh) 一种耳机音频处理方法及装置
CN111090412B (zh) 一种音量调节方法、装置及音频设备
Yang et al. Sight-to-sound human-machine interface for guiding and navigating visually impaired people
Chen et al. Sound localization by self-supervised time delay estimation
Yang et al. Soundr: Head position and orientation prediction using a microphone array
Cabañas-Molero et al. Multimodal speaker diarization for meetings using volume-evaluated SRP-PHAT and video analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant before: AI SPEECH Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant