CN111489753A - 抗噪声的声源定位方法、装置和计算机设备 - Google Patents

抗噪声的声源定位方法、装置和计算机设备 Download PDF

Info

Publication number
CN111489753A
CN111489753A CN202010583990.1A CN202010583990A CN111489753A CN 111489753 A CN111489753 A CN 111489753A CN 202010583990 A CN202010583990 A CN 202010583990A CN 111489753 A CN111489753 A CN 111489753A
Authority
CN
China
Prior art keywords
sound source
frame
specified number
calculating
audio data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010583990.1A
Other languages
English (en)
Other versions
CN111489753B (zh
Inventor
陈俊彬
太荣鹏
温平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Youjie Zhixin Technology Co ltd
Original Assignee
Shenzhen Youjie Zhixin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Youjie Zhixin Technology Co ltd filed Critical Shenzhen Youjie Zhixin Technology Co ltd
Priority to CN202010583990.1A priority Critical patent/CN111489753B/zh
Publication of CN111489753A publication Critical patent/CN111489753A/zh
Application granted granted Critical
Publication of CN111489753B publication Critical patent/CN111489753B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

本申请涉及抗噪声的声源定位方法,用于具有唤醒功能的智能设备,方法包括:判断当前音频数据是否可触发唤醒;若是,则根据当前音频数据对应的频域信号,估测指定数量的声源方向;对指定数量的声源方向,分别进行波束成形,得到指定数量的输出结果;根据指定数量的输出结果,计算峰度值;将峰度值最大的指定声源方向,作为声源定位的方向,其中,所述指定声源方向为所述指定数量的声源方向中的其中一个。通过对当前音频数据的各频域信号进行波束成形,并结合波束成形的峰度值计算精准确定声源定位方向,提高唤醒过程中声源定位的精准性。

Description

抗噪声的声源定位方法、装置和计算机设备
技术领域
本申请涉及到智能设备领域,特别是涉及到抗噪声的声源定位方法、装置和计算机设备。
背景技术
大多数带唤醒词的智能语音设备,降噪过程依赖于对唤醒语音的声源定位,如果唤醒的时候定位发生错误,则会导致后续的降噪性能大大降低甚至出现反效果,导致损伤语音、放大噪声。现有带唤醒功能的智能音箱,声源定位受噪声影响,降低定位的准确性,在唤醒的同时出现播放噪声时,唤醒之后指示的唤醒方向朝向噪声,而不是朝向携带唤醒词的人声方向。尤其在空调、电扇等家电的远场拾音模块,其旁边天然有一个较强的噪声源,很容易使唤醒之后的声源定位结果指向噪声源,严重影响声源定位的准确性。
发明内容
本申请的主要目的为提供抗噪声的声源定位方法,旨在解决现有带唤醒功能的智能设备在存在噪声影响时定位补准确的技术问题。
本申请提供了抗噪声的声源定位方法,用于具有唤醒功能的智能设备,方法包括:
判断当前音频数据是否可触发唤醒;
若是,则根据所述当前音频数据对应的频域信号,估测指定数量的声源方向;
对所述指定数量的声源方向,分别进行波束成形,得到所述指定数量的输出结果;
根据所述指定数量的输出结果,计算峰度值;
将所述峰度值最大的指定声源方向,作为声源定位的方向,其中,所述指定声源方向为所述指定数量的声源方向中的其中一个。
优选地,所述根据所述当前音频数据对应的频域信号,估测指定数量的声源方向的步骤,包括:
按照预设角度范围,在当前空间内均匀选取N个方向向量dn,n=1,2,...,N;
计算所述当前音频数据的指定帧对应的频域信号,分别在所述N个方向向量dn上计算帧响应值,n=1,2,...,N,所述指定帧为所述当前音频数据的所有帧数据中的任一帧;
根据帧响应值平滑后得到所述当前音频数据分别在所述N个方向向量dn上的N个响应值,n=1,2,...,N;
将所述N个响应值按照各自对应的空间位置,平铺得到角度谱angular spectrum;
在所述角度谱angular spectrum中搜索所有的响应值峰值点;
在所有所述响应值峰值点中,按照响应值由大至小选取所述指定数量的响应值峰值点;
通过所述指定数量的响应值峰值点所在角度对应的方向向量,形成所述指定数量的声源方向的方向向量集合
Figure 934750DEST_PATH_IMAGE001
Figure 569999DEST_PATH_IMAGE002
,A为所述指定数量。
优选地,所述智能设备上设置多个麦克风组成的麦克风阵列,所述计算所述当前音频数据的指定帧对应的频域信号,分别在所述N个方向向量dn上计算帧响应值,
Figure 818578DEST_PATH_IMAGE004
的步骤,包括:
根据
Figure 682629DEST_PATH_IMAGE005
,计算所述当前音频数据对应的指定帧的频域信号,从所述方向向量dn所在方向到达第i个麦克风和到达第j个麦克风的到达时间差
Figure 965843DEST_PATH_IMAGE006
,其中,ri和rj分别表示第i个麦克风和第j个麦克风的直角坐标向量,c为声速,
Figure 522726DEST_PATH_IMAGE007
表示向量的2-范数;
判断所述当前空间的顶面和底面是否通过吸音材料围成,其中,所述顶面为所述当前空间位于直角坐标系Z轴的正方向的端面,所述底面为所述当前空间位于直角坐标系Z轴的负方向的端面,所述直角坐标系的原点为所述麦克风阵列的圆心,以平行于地平面的平面为直角坐标系的X轴和Y轴所在平面;
若是,则设定
Figure DEST_PATH_IMAGE008
,并通过
Figure 478175DEST_PATH_IMAGE009
,计算所述第i个麦克风和所述第j个麦克风,接收所述指定帧对应的频域信号在所述方向向量dn所在方向的可控响应信噪比,其中,
Figure 411496DEST_PATH_IMAGE010
是第
Figure 283637DEST_PATH_IMAGE011
个麦克风到第
Figure 260689DEST_PATH_IMAGE012
个麦克风的距离,
Figure 483860DEST_PATH_IMAGE013
是第一类零阶贝塞尔函数,
Figure 689713DEST_PATH_IMAGE014
,real(·)表示取实部,
Figure 681940DEST_PATH_IMAGE015
Figure 846205DEST_PATH_IMAGE016
表示求共轭,
Figure 304475DEST_PATH_IMAGE017
,Fs为采样频率,ε为任意正实数;
通过
Figure 48440DEST_PATH_IMAGE018
,计算所述指定帧在所述N个方向向量dn的可控响应信噪比, 作为所述帧响应值,其中,n=1,2,...,N,
Figure 160752DEST_PATH_IMAGE019
表示所述当前音频数据对应的所述指定帧为第
Figure 230340DEST_PATH_IMAGE019
帧频域信号。
优选地,所述判断所述当前空间的顶面和底面是否通过吸音材料围成的步骤之后,包括:
若所述当前空间的顶面和底面不是吸音材料围成,则设定
Figure 677370DEST_PATH_IMAGE020
,并通过
Figure 225026DEST_PATH_IMAGE021
,计算所述第i个麦克风和所述第j个麦克风,接收所述指定帧对应的频域信号在所述方向向量dn所在方向的可控响应信噪比,其中,
Figure 191845DEST_PATH_IMAGE022
是第i个麦克风到第j个麦克风的距离,
Figure 432334DEST_PATH_IMAGE023
,real(·)表示取实部,
Figure 602546DEST_PATH_IMAGE024
Figure 219472DEST_PATH_IMAGE016
表示求共轭,
Figure 40798DEST_PATH_IMAGE025
,Fs为采样频率,ε为任意正实数;
通过
Figure 452188DEST_PATH_IMAGE026
,计算所述指定帧在所述N个方向向量dn的可控响应信噪比, 作为所述帧响应值,其中,n=1,2,...,N,
Figure 358964DEST_PATH_IMAGE027
表示所述当前音频数据对应的所述指定帧为第
Figure 497690DEST_PATH_IMAGE027
帧频域信号。
优选地,所述智能设备上设置多个麦克风组成的麦克风阵列,所述计算所述当前音频数据的指定帧对应的频域信号,分别在所述N个方向向量dn上计算帧响应值,n=1,2,...,N的步骤,包括:
根据
Figure 439101DEST_PATH_IMAGE028
,计算所述当前音频数据的指定帧对应的频域信号,从所述方向向量dn所在方向到达第i个麦克风和到达第j个麦克风的到达时间差
Figure 286971DEST_PATH_IMAGE029
,其中,ri和rj分别表示第i个麦克风和第j个麦克风的直角坐标向量,c为声速,
Figure 681044DEST_PATH_IMAGE030
表示向量的2-范数;
根据
Figure 121996DEST_PATH_IMAGE031
,计算第i个麦克风和第j个麦克风,接收所述当前音频数据的指定帧对应的频域信号在dn方向的基于相位变换加权的可控响应功率,其中,
Figure 652334DEST_PATH_IMAGE032
表示共轭,
Figure 405527DEST_PATH_IMAGE033
,Fs是采样频率;
根据
Figure 552474DEST_PATH_IMAGE034
,计算所述指定帧在所述N个方向向量dn的基于相位变换加权的互相关函数值基于相位变换加权的可控响应功率, 作为所述帧响应值,其中,n=1,2,...,N,
Figure 49315DEST_PATH_IMAGE035
表示所述当前音频数据对应的所述指定帧为第
Figure 949006DEST_PATH_IMAGE035
帧频域信号。
优选地,所述对所述指定数量的声源方向,分别进行波束成形,得到所述指定数量的输出结果的步骤,包括:
根据所述方向向量集合
Figure 607521DEST_PATH_IMAGE036
,利用
Figure 976185DEST_PATH_IMAGE037
做波束成形,得到所述指定数量的方向上的波束输出
Figure 11137DEST_PATH_IMAGE038
Figure 532380DEST_PATH_IMAGE039
,其中,
Figure 627375DEST_PATH_IMAGE040
为空域滤波系数,
Figure 483335DEST_PATH_IMAGE041
Figure 321978DEST_PATH_IMAGE040
的共轭转置,
Figure 930683DEST_PATH_IMAGE042
Figure 196579DEST_PATH_IMAGE043
为与第a个方向向量
Figure 539836DEST_PATH_IMAGE044
对应的导向向量,
Figure 182170DEST_PATH_IMAGE045
为散射噪声场的互相关矩阵,
Figure 927272DEST_PATH_IMAGE046
,其中,若所述当前空间的顶面和底面是吸音材料围成
Figure 846293DEST_PATH_IMAGE047
,若所述当前空间的顶面和底面不是吸音材料围成
Figure 676846DEST_PATH_IMAGE048
Figure 857291DEST_PATH_IMAGE049
表示第i个麦克风到第j个麦克风的距离。
优选地,所述根据所述指定数量的输出结果,计算峰度值的步骤,包括:
将所述指定数量的方向上的波束输出
Figure 191321DEST_PATH_IMAGE050
,通过逆快速傅里叶变换,得到所述指定数量的时域信号
Figure 48287DEST_PATH_IMAGE051
将所述指定数量的时域信号
Figure 366136DEST_PATH_IMAGE051
,拼接形成所述指定数量的方向上的输出信号
Figure 84693DEST_PATH_IMAGE052
根据所述指定数量的方向上的输出信号
Figure 538809DEST_PATH_IMAGE052
,通过公式
Figure 317409DEST_PATH_IMAGE053
计算各方向上的所述峰度值,其中,
Figure 873286DEST_PATH_IMAGE054
本申请还提供了一种抗噪声的声源定位装置,集成于具有唤醒功能的智能设备,装置包括:
判断模块,用于判断当前音频数据是否可触发唤醒;
估测模块,用于若可触发唤醒,则根据所述当前音频数据对应的频域信号,估测指定数量的声源方向;
波束成形模块,用于对所述指定数量的声源方向,分别进行波束成形,得到所述指定数量的输出结果;
计算模块,用于根据所述指定数量的输出结果,计算峰度值;
作为模块,用于将所述峰度值最大的指定声源方向,作为声源定位的方向,其中,所述指定声源方向为所述指定数量的声源方向中的其中一个。
本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
本申请通过对当前音频数据的各频域信号进行波束成形,避免了噪声源的干扰,并结合波束成形的峰度值计算精准确定声源定位方向,即便智能设备旁边存在噪声源,也不会影响智能设备的声源定位,依然正确地指向发出当前音频数据的人声所处方位,提高唤醒过程中声源定位的精准性。
附图说明
图1 是本申请一实施例的抗噪声的声源定位方法流程示意图;
图2是本申请一实施例的angular spectrum中的峰值分布状态示意图;
图3是本申请一实施例的抗噪声的声源定位装置结构示意图;
图4是本申请一实施例的计算机设备内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例的抗噪声的声源定位方法,用于具有唤醒功能的智能设备,方法包括:
S1:判断当前音频数据是否可触发唤醒。
本申请的当前音频数据为缓存于数据通道对应的缓存器中的音频数据,具有唤醒功能的智能设备内设置麦克风阵列,不同麦克风对应不同的数据通道。通过识别当前音频数据是否具有预设的唤醒词,判断是否可触发唤醒,具有预设的唤醒词,则可触发唤醒,反之则不能唤醒。
本申请通过时域信号,输入到唤醒***,识别是否具有预设唤醒词,并在存在预设唤醒词,可进行唤醒后,通过对缓存于缓存器的时域信号,在声源定位阶段,通过估测指定数量的声源方向,然后利用峰值确定声源所在的声源定位方向。举例地,输入时域信号xm(t),m=1,2,...,M,t=1,2,...,T,M是麦克风阵列中麦克风的个数,T是一帧时域信号的长度。把xm(t)放入缓存器y中,y={y1;y2;...;ym}。其中,ym={ym(1),ym(2),...,ym(L)},ym(1)={ym(1,1),ym(1,2),...,ym(1,T)},缓存器内的元素赋初值为0。L是缓存器中存放的时域信号的帧数。每次新输入一帧时域信号xm(t),则赋值过程:ym(1,t)=ym(2,t),ym(2,t)=ym(3,t),...,ym(L-1,t)=ym(L,t),ym(L,t)=xm(t),以实现时域信号的接续更新和缓存。将时域信号xm(t)输入到唤醒***中,判断是否具有预设的唤醒词,若唤醒***被触发,则进入声源定位阶段。
S2:若可触发唤醒,则根据所述当前音频数据对应的频域信号,估测指定数量的声源方向。
噪声利用频域信号
Figure 395534DEST_PATH_IMAGE055
做若干个声源方向的初步测定。对缓存器内缓存的时域信号y重新分帧加窗,帧长为T`,则帧数为L`,通过快速傅里叶变换(FFT)得到频域信号
Figure 704156DEST_PATH_IMAGE056
,K是FFT点数,
Figure 653657DEST_PATH_IMAGE057
S3:对所述指定数量的声源方向,分别进行波束成形,得到所述指定数量的输出结果。
本申请在触发唤醒之后,为避免噪声源的影响精准的声源定位,通过多路波束成形,提高声源定位的精准性。本申请的波束成形的方式优选以SDBF(SuperDirectiveBeamforming,超指向型波束成形),根据A个方向向量
Figure 664208DEST_PATH_IMAGE058
,利用
Figure 255726DEST_PATH_IMAGE059
做波束成形,以进一步提高声源定位的精准性。
S4:根据所述指定数量的输出结果,计算峰度值。
本申请通过对A个选定的方向上,分别计算波束的峰度值,以通过峰度值的大小确定声源定位的方向。
S5:将所述峰度值最大的指定声源方向,作为声源定位的方向,其中,所述指定声源方向为所述指定数量的声源方向中的其中一个。
本申请通过对A个方向上所有的峰度值求平均,找出峰度值最大对应的方向,并将该方向作为声源定位的方向。根据每个方向的各帧数据的峰度值求平均得到A个方向上所有的峰度值。本申请通过对当前音频数据的各频域信号进行波束成形,避免了噪声源的干扰,并结合波束成形的峰度值计算精准确定声源定位方向,即便智能设备旁边存在噪声源,也不会影响智能设备的声源定位,依然正确地指向发出当前音频数据的人声所处方位,提高唤醒过程中声源定位的精准性。
进一步地,所述根据所述当前音频数据对应的频域信号,估测指定数量的声源方向的步骤S2,包括:
S21:按照预设角度范围,在当前空间内均匀选取N个方向向量dn,n=1,2,...,N;
S22:计算所述当前音频数据的指定帧对应的频域信号,分别在所述N个方向向量dn上计算帧响应值,n=1,2,...,N,其中,所述指定帧为所述当前音频数据的所有帧数据中的任一帧;
S23:根据帧响应值平滑后得到所述当前音频数据分别在所述N个方向向量dn上的N个响应值,n=1,2,...,N;
S24:将所述N个响应值按照各自对应的空间位置,平铺得到角度谱angularspectrum;
S25:在所述角度谱angularspectrum中搜索所有的响应值峰值点;
S26:在所有所述响应值峰值点中,按照响应值由大至小选取所述指定数量的响应值峰值点;
S27:通过所述指定数量的响应值峰值点所在角度对应的方向向量,形成所述指定数量的声源方向的方向向量集合
Figure 418854DEST_PATH_IMAGE060
Figure 539257DEST_PATH_IMAGE061
,A为所述指定数量。
本申请通过按照预设的角度范围,在当前空间中均匀选取N个方向向量dn,n=1,2,...,N,方向向量就是一个单位球上面均匀选择的经纬点,单位球的原点和这些经纬点的连线组成的向量就是方向向量。本申请通过特定的计算方式求取各方向向量上对当前音频数据的指定帧的帧响应值,然后通过平滑帧响应值形成当前音频数据在各方向向量的响应值,上述平滑过程可理解为求平均值的过程。然后将获得的N个响应值按照各自对应的空间位置,平铺得到角度谱angular spectrum,上述各空间位置由固定的俯仰角Φ和方位角θ决定,第n个响应值所在的空间位置为方向向量dn的终点。然后通过3×3邻域或5×5邻域等搜索所有的响应值峰值点,或者以聚类的方法搜索所有的响应值峰值点,比如聚类得到的类中心即为响应值峰值点。本实施例以3×3邻域搜索的方式进行详细说明,上述3×3邻域包括9宫格的选定框,当选定框的中心格对应的响应值均大于其他格对应的响应值,则认为筛选到了响应值峰值点,此时中心格对应的点成为响应值峰值点,响应值峰值点不单单与数值的大小相关,还与具体的位置相关。从N个方向向量dn中筛选响应值排前的A个响应值峰值点所对应的方向向量集合dpeak,作为指定数量为A个的声源方向,
Figure 53415DEST_PATH_IMAGE062
。通过所述指定数量的响应值峰值点所在角度对应的方向向量,形成所述指定数量的声源方向的方向向量集合dpeak,响应值峰值点所在的角度(θ、φ),有其对应的方向向量,角度转为方向向量的方法为:方向向量d=(x,y,z),其中,x=cosφcosθ,y=cosφsinθ,z=sinφ。上述特定的计算方式包括但不限于计算基于相位变换加权的可控响应功率,以及计算可控响应信噪比等,在可控响应信噪比的计算过程中,优选最小方差无失真响应加权。本申请通过将
Figure 930847DEST_PATH_IMAGE063
帧频域信号的响应值结果进行平滑,比如通过求平均的方式进行平滑,并搜索A个响应值峰值点,得到L`帧频域信号对应的方向向量集合dpeak。在空间坐标系下,每个方向向量dn都可以分解为俯仰角φ和方位角θ,将(θ,φ,响应值)三者的对应表,在二维平面上平铺、并可视化,可以得到角度谱angular spectrum。如图2所示,在angular spectrum 中找出5个响应值峰值点的示意图,图中5个“*”标注位置为响应值峰值点:横坐标为(-180°,180°)的方位角、纵坐标为(-90°,90°)俯仰角,角度分辨率为1°,角度谱angular spectrum上灰度的深浅表示每个位置上对应的响应值的大小,越深则值越小。
进一步地,所述智能设备上设置多个麦克风组成的麦克风阵列,所述计算所述当前音频数据的指定帧对应的频域信号,分别在所述N个方向向量dn上计算帧响应值,n=1,2,...,N的步骤S22,包括:
S221:根据
Figure 948482DEST_PATH_IMAGE064
,计算所述当前音频数据对应的指定帧的频域信号,从所述方向向量dn所在方向到达第i个麦克风和到达第j个麦克风的到达时间差
Figure 505365DEST_PATH_IMAGE065
,其中,ri和rj分别表示第i个麦克风和第j个麦克风的直角坐标向量,c为声速,
Figure 241240DEST_PATH_IMAGE066
表示向量的2-范数;
S222:判断所述当前空间的顶面和底面是否通过吸音材料围成,其中,所述顶面为所述当前空间位于直角坐标系Z轴的正方向的端面,所述底面为所述当前空间位于直角坐标系Z轴的负方向的端面,所述直角坐标系的原点为所述麦克风阵列的圆心,以平行于地平面的平面为直角坐标系的X轴和Y轴所在平面;
S223:若是,则设定
Figure 174561DEST_PATH_IMAGE067
,并通过
Figure 295970DEST_PATH_IMAGE068
,计算所述第i个麦克风和所述第j个麦克风,接收所述指定帧对应的频域信号在所述方向向量dn所在方向的可控响应信噪比,其中,
Figure 23754DEST_PATH_IMAGE069
是第i个麦克风到第j个麦克风的距离,
Figure 246925DEST_PATH_IMAGE070
是第一类零阶贝塞尔函数,
Figure 718358DEST_PATH_IMAGE071
,real(·)表示取实部,
Figure 461317DEST_PATH_IMAGE072
Figure 360003DEST_PATH_IMAGE073
表示求共轭,
Figure 804891DEST_PATH_IMAGE074
,Fs为采样频率,ε为任意正实数;
S224:通过
Figure 814435DEST_PATH_IMAGE075
,计算所述指定帧在所述N个方向向量dn的可控响应信噪比, 作为所述帧响应值,其中,n=1,2,...,N,
Figure 192327DEST_PATH_IMAGE076
表示所述当前音频数据对应的所述指定帧为第
Figure 245602DEST_PATH_IMAGE076
帧频域信号。
本申请优先选择通过计算可控响应信噪比的方式,作为帧响应值,通过对L`帧的帧响应值进行平滑(比如求平均)得到N个方向上的响应值,并通过N个方向上的响应值,得到角度谱,然后通过搜索的方式确定响应值峰值点。上述计算可控响应信噪比的方式,得到的峰值更尖锐,更适合于多声源定位。上述正实数的ε用来防止除零,上述直角坐标向量为坐标原点指向麦克风所在坐标点的向量。本申请中需要通过识别当前空间的顶面和地面是否存在吸音材料,来选择合适的散射噪声公式,比如天花板和地板为直角坐标系内当前空间的两个对称的端面,若均噪声为吸音材料材质,则对音频信号的散射效果有较大影响。比如通过识别应用场景,确定空间内是否需要吸音材料,也可通过回声测试等方式,估测是否存在吸音材料,比如根据空间大小判断发射音频和接收音频的差异量,是否小于预测标准衰减,若是,则判定存在吸音材料,则调用本实施例的散射噪声公式,否则调用下一实施例的散射噪声公式。不存在吸音材料时,计算可控响应信噪比的方式,除散射噪声公式不同之外,其他过程均类似,不赘述。
进一步地,判断所述当前空间的顶面和底面是否通过吸音材料围成的步骤S222之后,包括:
S225:若所述当前空间的顶面和底面不是吸音材料围成,则设定
Figure 443365DEST_PATH_IMAGE077
,并通过
Figure 991021DEST_PATH_IMAGE078
,计算所述第i个麦克风和所述第j个麦克风,接收所述指定帧对应的频域信号在所述方向向量dn所在方向的可控响应信噪比,其中,
Figure 223420DEST_PATH_IMAGE079
是第i个麦克风到第j个麦克风的距离,
Figure 969569DEST_PATH_IMAGE080
,real(·)表示取实部,
Figure 654628DEST_PATH_IMAGE081
Figure 5975DEST_PATH_IMAGE082
表示求共轭,
Figure 92880DEST_PATH_IMAGE083
,Fs为采样频率,ε为任意正实数;
S226:通过
Figure 504270DEST_PATH_IMAGE084
,计算所述指定帧在所述N个方向向量dn的可控响应信噪比, 作为所述帧响应值,其中,n=1,2,...,N,
Figure 660313DEST_PATH_IMAGE085
表示所述当前音频数据对应的所述指定帧为第
Figure 549772DEST_PATH_IMAGE085
帧频域信号。
进一步地,所述智能设备上设置多个麦克风组成的麦克风阵列,所述计算所述当前音频数据的指定帧对应的频域信号,分别在所述N个方向向量dn上计算帧响应值,n=1,2,...,N的步骤S22,包括:
S2201:根据
Figure 491183DEST_PATH_IMAGE086
,计算所述当前音频数据的指定帧对应的频域信号,从所述方向向量dn所在方向到达第i个麦克风和到达第j个麦克风的到达时间差
Figure 73474DEST_PATH_IMAGE087
,其中,ri和rj分别表示第i个麦克风和第j个麦克风的直角坐标向量,c为声速,
Figure 218279DEST_PATH_IMAGE088
表示向量的2-范数;
S2202:根据
Figure 911428DEST_PATH_IMAGE089
,计算第i个麦克风和第j个麦克风,接收所述当前音频数据的指定帧对应的频域信号在所述方向向量dn所在方向的基于相位变换加权的可控响应功率,其中,
Figure 707346DEST_PATH_IMAGE090
表示共轭,
Figure 460539DEST_PATH_IMAGE091
,Fs是采样频率;
S2203:根据
Figure 591174DEST_PATH_IMAGE092
,计算所述指定帧在所述N个方向向量dn的基于相位变换加权的可控响应功率, 作为所述帧响应值,其中,n=1,2,...,N,
Figure 88015DEST_PATH_IMAGE093
表示所述当前音频数据的指定帧为第
Figure 738439DEST_PATH_IMAGE093
帧频域信号。
本申请通过计算基于相位变换加权的可控响应功率的方式,作为帧响应值,进而分别平滑得到N个方向上的响应值,并通过N个方向上的响应值,得到角度谱,并搜索出响应值峰值点。本实施例的计算方式相比于计算可控响应信噪比的方式,计算量小,声源定位响应快,且对智能设备的计算能力要求低,方便更广泛地应用于大多数的智能设备上。
进一步地,所述对所述指定数量的声源方向,分别进行波束成形,得到所述指定数量的输出结果的步骤S3,包括:
S31:根据所述方向向量集合
Figure 928112DEST_PATH_IMAGE094
,利用
Figure 296776DEST_PATH_IMAGE095
做波束成形,得到所述指定数量的方向上的波束输出
Figure 79531DEST_PATH_IMAGE096
Figure 584462DEST_PATH_IMAGE097
,其中,
Figure 945036DEST_PATH_IMAGE098
为空域滤波系数,
Figure 800997DEST_PATH_IMAGE099
Figure 374060DEST_PATH_IMAGE098
的共轭转置,
Figure 248344DEST_PATH_IMAGE100
Figure 779820DEST_PATH_IMAGE101
为与第a个方向向量
Figure 857497DEST_PATH_IMAGE102
对应的导向向量,
Figure 499831DEST_PATH_IMAGE103
为散射噪声场的互相关矩阵,
Figure 730087DEST_PATH_IMAGE104
,其中,若所述当前空间的顶面和底面是吸音材料围成
Figure 166884DEST_PATH_IMAGE105
,若所述当前空间的顶面和底面不是吸音材料围成
Figure 731858DEST_PATH_IMAGE106
Figure 381145DEST_PATH_IMAGE107
表示第i个麦克风到第j个麦克风的距离。
本申请优选通过超指向型波束成形,求得每个方向的波束,以提高指向声源定位方向的准确性。通过上述计算过程得到
Figure 230021DEST_PATH_IMAGE108
帧、A个方向波束成形之后的输出信号,利用逆快速傅里叶变换(IFFT),令其回到时域,得到
Figure 837720DEST_PATH_IMAGE109
,以方便计算峰度值。其他实施例也可采用MVDR(Minimum Variance Distortionless Response)、DMA(differentialmicrophone array)、GSC(Generalized Side-lobe Canceller)等等来代替。
进一步地,所述根据所述指定数量的输出结果,计算峰度值的步骤S4,包括:
S41:将所述指定数量的方向上的波束输出
Figure 624410DEST_PATH_IMAGE110
,通过逆快速傅里叶变换,得到所述指定数量的时域信号
Figure 90770DEST_PATH_IMAGE111
S42:将所述指定数量的时域信号
Figure 279306DEST_PATH_IMAGE111
,拼接形成所述指定数量的方向上的输出信号
Figure 57906DEST_PATH_IMAGE112
S43:根据所述指定数量的方向上的输出信号
Figure 597472DEST_PATH_IMAGE112
,通过公式
Figure 103409DEST_PATH_IMAGE113
计算各方向上的所述峰度值,其中,
Figure 412030DEST_PATH_IMAGE114
本申请在计算峰度值的过程中,利用求峰度值的方法对非高斯性进行度量,其他实施例可以用求负熵(Negentropy)的方法来代替。通过对每个方向的
Figure 95952DEST_PATH_IMAGE115
个峰度值进行求平均,即
Figure 607967DEST_PATH_IMAGE116
。在
Figure 668327DEST_PATH_IMAGE117
中找出最大值所对应方向,作为最终的声源定位方向:
Figure 831455DEST_PATH_IMAGE118
。本申请在声源定位算法的基础上,增加了波束成形以及峰度值计算的过程,以峰度值最大的方向作为最终的声源定位方向,降低了噪声对声源定位的影响,大大增加了声源定位的抗干扰性能,解决了带唤醒词的智能设备在唤醒时的声源定位受噪声影响而降低声源定位的准确性的问题。
参照图3,本申请一实施例的抗噪声的声源定位装置,集成于具有唤醒功能的智能设备,装置包括:
判断模块1,用于判断当前音频数据是否可触发唤醒。
本申请的当前音频数据为缓存于数据通道对应的缓存器中的音频数据,具有唤醒功能的智能设备内设置麦克风阵列,不同麦克风对应不同的数据通道。通过识别当前音频数据是否具有预设的唤醒词,判断是否可触发唤醒,具有预设的唤醒词,则可触发唤醒,反之则不能唤醒。
本申请通过时域信号,输入到唤醒***,识别是否具有预设唤醒词,并在存在预设唤醒词,可进行唤醒后,通过对缓存于缓存器的时域信号,在声源定位阶段,通过估测指定数量的声源方向,然后利用峰值确定声源所在的声源定位方向。举例地,输入时域信号xm(t),m=1,2,...,M,t=1,2,...,T,M是麦克风阵列中麦克风的个数,T是一帧时域信号的长度。把xm(t)放入缓存器y中,y={y1;y2;...;ym}。其中,ym={ym(1),ym(2),...,ym(L)},ym(1)={ym(1,1),ym(1,2),...,ym(1,T)},缓存器内的元素赋初值为0。L是缓存器中存放的时域信号的帧数。每次新输入一帧时域信号xm(t),则赋值过程:ym(1,t)=ym(2,t),ym(2,t)=ym(3,t),...,ym(L-1,t)=ym(L,t),ym(L,t)=xm(t),以实现时域信号的接续更新和缓存。将时域信号xm(t)输入到唤醒***中,判断是否具有预设的唤醒词,若唤醒***被触发,则进入声源定位阶段。
估测模块2,用于若可触发唤醒,则根据所述当前音频数据对应的频域信号,估测指定数量的声源方向。
噪声利用频域信号
Figure 935547DEST_PATH_IMAGE119
做若干个声源方向的初步测定。对缓存器内缓存的时域信号y重新分帧加窗,帧长为T`,则帧数为L`,通过快速傅里叶变换(FFT)得到频域信号
Figure 715284DEST_PATH_IMAGE120
,K是FFT点数,
Figure 313755DEST_PATH_IMAGE121
波束成形模块3,用于对所述指定数量的声源方向,分别进行波束成形,得到所述指定数量的输出结果。
本申请在触发唤醒之后,为避免噪声源的影响精准的声源定位,通过多路波束成形,提高声源定位的精准性。本申请的波束成形的方式优选以SDBF(Super DirectiveBeamforming,超指向型波束成形),根据A个方向向量
Figure 331390DEST_PATH_IMAGE122
,利用
Figure 636076DEST_PATH_IMAGE123
做波束成形,以进一步提高声源定位的精准性。
计算模块4,用于根据所述指定数量的输出结果,计算峰度值。
本申请通过对A个选定的方向上,分别计算波束的峰度值,以通过峰度值的大小确定声源定位的方向。
作为模块5,用于将所述峰度值最大的指定声源方向,作为声源定位的方向,其中,所述指定声源方向为所述指定数量的声源方向中的其中一个。
本申请通过对A个方向上所有的峰度值求平均,找出峰度值最大对应的方向,并将该方向作为声源定位的方向。根据每个方向的各帧数据的峰度值求平均得到A个方向上所有的峰度值。本申请通过对当前音频数据的各频域信号进行波束成形,避免了噪声源的干扰,并结合波束成形的峰度值计算精准确定声源定位方向,即便智能设备旁边存在噪声源,也不会影响智能设备的声源定位,依然正确地指向发出当前音频数据的人声所处方位,提高唤醒过程中声源定位的精准性。
进一步地,估测模块2,包括:
第一选取单元,用于按照预设角度范围,在当前空间内均匀选取N个方向向量dn,n=1,2,...,N;
计算单元,用于计算所述当前音频数据的指定帧对应的频域信号,分别在所述N个方向向量dn上计算帧响应值,n=1,2,...,N,其中,所述指定帧为所述当前音频数据的所有帧数据中的任一帧;
第一平滑单元,用于根据帧响应值平滑后得到所述当前音频数据分别在所述N个方向向量dn上的N个响应值,n=1,2,...,N;
平铺单元,用于将所述N个响应值按照各自对应的空间位置,平铺得到角度谱angularspectrum;
搜索单元,用于在所述角度谱angular spectrum中搜索所有的响应值峰值点;
第二选取单元,用于在所有所述响应值峰值点中,按照响应值由大至小选取所述指定数量的响应值峰值点;
作为单元,用于通过所述指定数量的响应值峰值点所在角度对应的方向向量,形成所述指定数量的声源方向的方向向量集合
Figure 371951DEST_PATH_IMAGE124
Figure 774113DEST_PATH_IMAGE125
,A为所述指定数量。
本申请通过按照预设的角度范围,在当前空间中均匀选取N个方向向量dn,n=1,2,...,N,方向向量就是一个单位球上面均匀选择的经纬点,单位球的原点和这些经纬点的连线组成的向量就是方向向量。本申请通过特定的计算方式求取各方向向量上对当前音频数据的指定帧的帧响应值,然后通过平滑帧响应值形成当前音频数据在各方向向量的响应值,上述平滑过程可理解为求平均值的过程。然后将获得的N个响应值按照各自对应的空间位置,平铺得到角度谱angular spectrum,上述各空间位置由固定的俯仰角Φ和方位角θ决定,第n个响应值所在的空间位置为方向向量dn的终点。然后通过3×3邻域或5×5邻域等搜索所有的响应值峰值点,或者以聚类的方法搜索所有的响应值峰值点,比如聚类得到的类中心即为响应值峰值点。本实施例以3×3邻域搜索的方式进行详细说明,上述3×3邻域包括9宫格的选定框,当选定框的中心格对应的响应值均大于其他格对应的响应值,则认为筛选到了响应值峰值点,此时中心格对应的点成为响应值峰值点,响应值峰值点不单单与数值的大小相关,还与具体的位置相关。从N个方向向量dn中筛选响应值排前的A个响应值峰值点所对应的方向向量集合dpeak,作为指定数量为A个的声源方向,
Figure 911833DEST_PATH_IMAGE126
。通过所述指定数量的响应值峰值点所在角度对应的方向向量,形成所述指定数量的声源方向的方向向量集合dpeak,响应值峰值点所在的角度(θ、φ),有其对应的方向向量,角度转为方向向量的方法为:方向向量d=(x,y,z),其中,x=cosφcosθ,y=cosφsinθ,z=sinφ。上述特定的计算方式包括但不限于计算基于相位变换加权的可控响应功率,以及计算可控响应信噪比等,在可控响应信噪比的计算过程中,优选最小方差无失真响应加权。本申请通过将L`帧频域信号的响应值结果进行平滑,比如通过求平均的方式进行平滑,并搜索A个响应值峰值点,得到L`帧频域信号对应的方向向量集合dpeak。在空间坐标系下,每个方向向量dn都可以分解为俯仰角φ和方位角θ,将(θ,φ,响应值)三者的对应表,在二维平面上平铺、并可视化,可以得到角度谱angular spectrum。如图2所示,在angular spectrum 中找出5个响应值峰值点的示意图,图中5个“*”标注位置为响应值峰值点:横坐标为(-180°,180°)的方位角、纵坐标为(-90°,90°)俯仰角,角度分辨率为1°,角度谱angular spectrum上灰度的深浅表示每个位置上对应的响应值的大小,越深则值越小。
进一步地,所述智能设备上设置多个麦克风组成的麦克风阵列,计算单元,包括:
第一计算子单元,用于根据
Figure 888886DEST_PATH_IMAGE127
,计算所述当前音频数据对应的指定帧的频域信号,从所述方向向量dn所在方向到达第i个麦克风和到达第j个麦克风的到达时间差
Figure 112057DEST_PATH_IMAGE128
,其中,ri和rj分别表示第i个麦克风和第j个麦克风的直角坐标向量,c为声速,
Figure 583489DEST_PATH_IMAGE129
表示向量的2-范数;
判断子单元,用于判断所述当前空间的顶面和底面是否通过吸音材料围成,其中,所述顶面为所述当前空间位于直角坐标系Z轴的正方向的端面,所述底面为所述当前空间位于直角坐标系Z轴的负方向的端面,所述直角坐标系的原点为所述麦克风阵列的圆心,以平行于地平面的平面为直角坐标系的X轴和Y轴所在平面;
第一设定子单元,用于若通过吸音材料围成,则设定
Figure 575716DEST_PATH_IMAGE130
,并通过
Figure 959555DEST_PATH_IMAGE131
,计算所述第i个麦克风和所述第j个麦克风,接收所述指定帧对应的频域信号在所述方向向量dn所在方向的可控响应信噪比,其中,
Figure 935601DEST_PATH_IMAGE132
是第i个麦克风到第j个麦克风的距离,
Figure 945146DEST_PATH_IMAGE133
是第一类零阶贝塞尔函数,
Figure 791879DEST_PATH_IMAGE134
,real(·)表示取实部,
Figure 861466DEST_PATH_IMAGE135
Figure 308497DEST_PATH_IMAGE136
表示求共轭,
Figure 121732DEST_PATH_IMAGE137
,Fs为采样频率,ε为任意正实数;
第二计算子单元,用于通过
Figure 88551DEST_PATH_IMAGE138
,计算所述指定帧在所述N个方向向量dn的可控响应信噪比, 作为所述帧响应值,其中,n=1,2,...,N,
Figure 329039DEST_PATH_IMAGE139
表示所述当前音频数据对应的所述指定帧为第
Figure 14099DEST_PATH_IMAGE139
帧频域信号。
本申请优先选择通过计算可控响应信噪比的方式,作为帧响应值,通过对l`帧的响应值进行平滑(比如求平均)得到N个方向上的响应值,并通过N个方向上的响应值,得到角度谱,然后通过搜索的方式确定响应值峰值点。上述计算可控响应信噪比的方式,得到的峰值更尖锐,更适合于多声源定位。上述正实数的ε用来防止除零,上述直角坐标向量为坐标原点指向麦克风所在坐标点的向量。本申请中需要通过识别当前空间的顶面和地面是否存在吸音材料,来选择合适的散射噪声公式,比如天花板和地板为直角坐标系内当前空间的两个对称的端面,若均为吸音材料材质,则对音频信号的散射效果有较大影响。比如通过识别应用场景,确定空间内是否需要吸音材料,也可通过回声测试等方式,估测是否存在吸音材料,比如根据空间大小判断发射音频和接收音频的差异量,是否小于预测标准衰减,若是,则判定存在吸音材料,则调用本实施例的散射噪声公式,否则调用下一实施例的散射噪声公式。不存在吸音材料时,计算可控响应信噪比的方式,除散射噪声公式不同之外,其他过程均类似,不赘述。
进一步地,计算单元,包括:
第二设定子单元,用于若所述当前空间的顶面和底面不是吸音材料围成,则设定
Figure 113248DEST_PATH_IMAGE140
,并通过
Figure DEST_PATH_IMAGE141
,计算所述第i个麦克风和所述第j个麦克风,接收所述指定帧对应的频域信号在所述方向向量dn所在方向的可控响应信噪比,其中,
Figure DEST_PATH_IMAGE142
是第i个麦克风到第j个麦克风的距离,
Figure DEST_PATH_IMAGE143
,real(·)表示取实部,
Figure DEST_PATH_IMAGE144
Figure DEST_PATH_IMAGE145
表示求共轭,
Figure DEST_PATH_IMAGE146
,Fs为采样频率,ε为任意正实数;
第三计算子单元,用于通过
Figure DEST_PATH_IMAGE147
,计算所述指定帧在所述N个方向向量dn的可控响应信噪比, 作为所述帧响应值,其中,n=1,2,...,N,
Figure DEST_PATH_IMAGE148
表示所述当前音频数据对应的所述指定帧为第
Figure 216465DEST_PATH_IMAGE148
帧频域信号。
进一步地,所述智能设备上设置多个麦克风组成的麦克风阵列,计算单元,包括:
第四计算子单元,用于根据
Figure DEST_PATH_IMAGE149
,计算所述当前音频数据的指定帧对应的频域信号,从所述方向向量dn所在方向到达第i个麦克风和到达第j个麦克风的到达时间差
Figure DEST_PATH_IMAGE150
,其中,ri和rj分别表示第i个麦克风和第j个麦克风的直角坐标向量,c为声速,
Figure DEST_PATH_IMAGE151
表示向量的2-范数;
第五计算子单元,用于根据
Figure DEST_PATH_IMAGE152
,计算第i个麦克风和第j个麦克风,接收所述当前音频数据的指定帧对应的频域信号在所述方向向量dn所在方向的基于相位变换加权的可控响应功率,其中,
Figure DEST_PATH_IMAGE153
表示共轭,
Figure DEST_PATH_IMAGE154
,Fs是采样频率;
第六计算子单元,用于根据
Figure DEST_PATH_IMAGE155
,计算所述指定帧在所述N个方向向量dn的基于相位变换加权的可控响应功率, 作为所述帧响应值,其中,n=1,2,...,N,
Figure DEST_PATH_IMAGE156
表示所述当前音频数据的指定帧为第
Figure 375657DEST_PATH_IMAGE156
帧频域信号。
本申请通过计算基于相位变换加权的可控响应功率的方式,作为帧响应值,进而分别平滑得到N个方向上的响应值,并通过N个方向上的响应值,得到角度谱,并搜索出A个响应值峰值点,作为A个方向的终点。本实施例的计算方式相比于计算可控响应信噪比的方式,计算量小,声源定位响应快,且对智能设备的计算能力要求低,方便更广泛地应用于大多数的智能设备上。
进一步地,波束成形模块3,包括:
得到单元,用于根据所述方向向量集合
Figure DEST_PATH_IMAGE157
,利用
Figure DEST_PATH_IMAGE158
做波束成形,得到所述指定数量的方向上的波束输出
Figure DEST_PATH_IMAGE159
Figure DEST_PATH_IMAGE160
,其中,
Figure DEST_PATH_IMAGE161
为空域滤波系数,
Figure DEST_PATH_IMAGE162
Figure 610329DEST_PATH_IMAGE161
的共轭转置,
Figure DEST_PATH_IMAGE163
Figure DEST_PATH_IMAGE164
为与第
Figure DEST_PATH_IMAGE165
个方向向量
Figure DEST_PATH_IMAGE166
对应的导向向量,
Figure DEST_PATH_IMAGE167
为散射噪声场的互相关矩阵,
Figure DEST_PATH_IMAGE168
,其中,若所述当前空间的顶面和底面是吸音材料围成
Figure DEST_PATH_IMAGE169
,若所述当前空间的顶面和底面不是吸音材料围成
Figure DEST_PATH_IMAGE170
Figure DEST_PATH_IMAGE171
表示第i个麦克风到第j个麦克风的距离。
本申请优选通过超指向型波束成形,求得每个方向的波束,以提高指向声源定位方向的准确性。通过上述计算过程得到
Figure DEST_PATH_IMAGE172
帧、A个方向波束成形之后的输出信号,利用逆快速傅里叶变换(IFFT),令其回到时域,得到
Figure DEST_PATH_IMAGE173
,以方便计算峰度值。其他实施例也可采用MVDR(Minimum Variance Distortionless Response)、DMA(differentialmicrophone array)、GSC(Generalized Side-lobe Canceller)等等来代替。
进一步地,计算模块4,包括:
变换单元,用于将所述指定数量的方向上的波束输出
Figure DEST_PATH_IMAGE174
,通过逆快速傅里叶变换,得到所述指定数量的时域信号
Figure DEST_PATH_IMAGE175
第二拼接单元,用于将所述指定数量的时域信号
Figure 670427DEST_PATH_IMAGE175
,拼接形成所述指定数量的方向上的输出信号
Figure DEST_PATH_IMAGE176
计算单元,用于根据所述指定数量的方向上的输出信号
Figure 64368DEST_PATH_IMAGE176
,通过公式
Figure DEST_PATH_IMAGE177
计算各方向上的所述峰度值,其中,
Figure DEST_PATH_IMAGE178
本申请在计算峰度值的过程中,利用求峰度值的方法对非高斯性进行度量,其他实施例可以用求负熵(Negentropy)的方法来代替。通过对每个方向的
Figure DEST_PATH_IMAGE179
个峰度值进行求平均,即
Figure DEST_PATH_IMAGE180
。在
Figure DEST_PATH_IMAGE181
中找出最大值所对应方向,作为最终的声源定位方向:
Figure DEST_PATH_IMAGE182
。本申请在声源定位算法的基础上,增加了波束成形以及峰度值计算的过程,以峰度值最大的方向作为最终的声源定位方向,降低了噪声对声源定位的影响,大大增加了声源定位的抗干扰性能,解决了带唤醒词的智能设备在唤醒时的声源定位受噪声影响而降低声源定位的准确性的问题。
参照图4,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图4所示。该计算机设备包括通过***总线连接的处理器、显示屏、输入装置、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储抗噪声的声源定位过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现抗噪声的声源定位方法。
上述处理器执行上述抗噪声的声源定位方法,用于具有唤醒功能的智能设备,方法包括:判断当前音频数据是否可触发唤醒;若是,则根据所述当前音频数据对应的频域信号,估测指定数量的声源方向;对所述指定数量的声源方向,分别进行波束成形,得到所述指定数量的输出结果;根据所述指定数量的输出结果,计算峰度值;将所述峰度值最大的指定声源方向,作为声源定位的方向,其中,所述指定声源方向为所述指定数量的声源方向中的其中一个。
上述计算机设备,通过对当前音频数据的各频域信号进行波束成形,避免了噪声源的干扰,并结合波束成形的峰度值计算精准确定声源定位方向,即便智能设备旁边存在噪声源,也不会影响智能设备的声源定位,依然正确地指向发出当前音频数据的人声所处方位,提高唤醒过程中声源定位的精准性。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现抗噪声的声源定位方法,用于具有唤醒功能的智能设备,方法包括:判断当前音频数据是否可触发唤醒;若是,则根据所述当前音频数据对应的频域信号,估测指定数量的声源方向;对所述指定数量的声源方向,分别进行波束成形,得到所述指定数量的输出结果;根据所述指定数量的输出结果,计算峰度值;将所述峰度值最大的指定声源方向,作为声源定位的方向,其中,所述指定声源方向为所述指定数量的声源方向中的其中一个。
上述计算机可读存储介质,通过对当前音频数据的各频域信号进行波束成形,避免了噪声源的干扰,并结合波束成形的峰度值计算精准确定声源定位方向,即便智能设备旁边存在噪声源,也不会影响智能设备的声源定位,依然正确地指向发出当前音频数据的人声所处方位,提高唤醒过程中声源定位的精准性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种抗噪声的声源定位方法,其特征在于,用于具有唤醒功能的智能设备,方法包括:
判断当前音频数据是否可触发唤醒;
若是,则根据所述当前音频数据对应的频域信号,估测指定数量的声源方向;
对所述指定数量的声源方向,分别进行波束成形,得到所述指定数量的输出结果;
根据所述指定数量的输出结果,计算峰度值;
将所述峰度值最大的指定声源方向,作为声源定位的方向,其中,所述指定声源方向为所述指定数量的声源方向中的其中一个。
2.根据权利要求1所述的抗噪声的声源定位方法,其特征在于,所述根据所述当前音频数据对应的频域信号,估测指定数量的声源方向的步骤,包括:
按照预设角度范围,在当前空间内均匀选取N个方向向量dn,n=1,2,...,N;
计算所述当前音频数据的指定帧对应的频域信号,分别在所述N个方向向量dn上计算帧响应值,n=1,2,...,N,其中,所述指定帧为所述当前音频数据的所有帧数据中的任一帧;
根据帧响应值平滑后得到所述当前音频数据分别在所述N个方向向量dn上的N个响应值,n=1,2,...,N;
将所述N个响应值按照各自对应的空间位置,平铺得到角度谱angularspectrum;
在所述角度谱angularspectrum中搜索所有的响应值峰值点;
在所有所述响应值峰值点中,按照响应值由大至小选取所述指定数量的响应值峰值点;
通过所述指定数量的响应值峰值点所在角度对应的方向向量,形成所述指定数量的声源方向的方向向量集合
Figure 32711DEST_PATH_IMAGE002
Figure 294059DEST_PATH_IMAGE004
,A为所述指定数量。
3.根据权利要求2所述的抗噪声的声源定位方法,其特征在于,所述智能设备上设置多个麦克风组成的麦克风阵列,所述计算所述当前音频数据的指定帧对应的频域信号,分别在所述N个方向向量dn上计算帧响应值,n=1,2,...,N的步骤,包括:
根据
Figure 542638DEST_PATH_IMAGE006
,计算所述当前音频数据对应的指定帧的频域信号,从所述方向向量dn所在方向到达第i个麦克风和到达第j个麦克风的到达时间差
Figure 531323DEST_PATH_IMAGE008
,其中,ri和rj分别表示第i个麦克风和第j个麦克风的直角坐标向量,c为声速,
Figure 158744DEST_PATH_IMAGE010
表示向量的2-范数;
判断所述当前空间的顶面和底面是否通过吸音材料围成,其中,所述顶面为所述当前空间位于直角坐标系Z轴的正方向的端面,所述底面为所述当前空间位于直角坐标系Z轴的负方向的端面,所述直角坐标系的原点为所述麦克风阵列的圆心,以平行于地平面的平面为直角坐标系的X轴和Y轴所在平面;
若是,则设定
Figure 450048DEST_PATH_IMAGE012
,并通过
Figure 846308DEST_PATH_IMAGE014
,计算所述第i个麦克风和所述第j个麦克风,接收所述指定帧对应的频域信号在所述方向向量dn所在方向的可控响应信噪比,其中,
Figure 514050DEST_PATH_IMAGE016
是第i个麦克风到第j个麦克风的距离,
Figure 776404DEST_PATH_IMAGE018
是第一类零阶贝塞尔函数,
Figure 504189DEST_PATH_IMAGE020
,real(·)表示取实部,
Figure 602726DEST_PATH_IMAGE022
Figure 808579DEST_PATH_IMAGE024
表示求共轭,
Figure 925440DEST_PATH_IMAGE026
,Fs为采样频率,ε为任意正实数;
通过
Figure 902754DEST_PATH_IMAGE028
,计算所述指定帧在所述N个方向向量dn的可控响应信噪比, 作为所述帧响应值,其中,n=1,2,...,N,
Figure 878800DEST_PATH_IMAGE030
表示所述当前音频数据对应的所述指定帧为第
Figure 747399DEST_PATH_IMAGE030
帧频域信号。
4.根据权利要求3所述的抗噪声的声源定位方法,其特征在于,所述判断所述当前空间的顶面和底面是否通过吸音材料围成的步骤之后,包括:
若所述当前空间的顶面和底面不是吸音材料围成,则设定
Figure 938340DEST_PATH_IMAGE032
,并通过
Figure 742348DEST_PATH_IMAGE034
,计算所述第i个麦克风和所述第j个麦克风,接收所述指定帧对应的频域信号在所述方向向量dn所在方向的可控响应信噪比,其中,
Figure 736849DEST_PATH_IMAGE036
是第i个麦克风到第j个麦克风的距离,
Figure 612401DEST_PATH_IMAGE037
,real(·)表示取实部,
Figure 375958DEST_PATH_IMAGE039
Figure 695075DEST_PATH_IMAGE041
表示求共轭,
Figure 239189DEST_PATH_IMAGE043
,Fs为采样频率,ε为任意正实数;
通过
Figure 590536DEST_PATH_IMAGE045
,计算所述指定帧在所述N个方向向量dn的可控响应信噪比, 作为所述帧响应值,其中,n=1,2,...,N,
Figure 287227DEST_PATH_IMAGE047
表示所述当前音频数据对应的所述指定帧为第
Figure 698617DEST_PATH_IMAGE047
帧频域信号。
5.根据权利要求4所述的抗噪声的声源定位方法,其特征在于,所述对所述指定数量的声源方向,分别进行波束成形,得到所述指定数量的输出结果的步骤,包括:
根据所述方向向量集合
Figure 730027DEST_PATH_IMAGE049
,利用
Figure 619486DEST_PATH_IMAGE051
做波束成形,得到所述指定数量的方向上的波束输出
Figure 436263DEST_PATH_IMAGE053
Figure 18554DEST_PATH_IMAGE055
,其中,
Figure 537260DEST_PATH_IMAGE057
为空域滤波系数,
Figure DEST_PATH_IMAGE059
Figure DEST_PATH_IMAGE061
的共轭转置,
Figure 309038DEST_PATH_IMAGE063
Figure 964010DEST_PATH_IMAGE065
为与第a个方向向量
Figure 795831DEST_PATH_IMAGE067
对应的导向向量,
Figure DEST_PATH_IMAGE069
为散射噪声场的互相关矩阵,
Figure DEST_PATH_IMAGE071
,其中,若所述当前空间的顶面和底面是吸音材料围成
Figure DEST_PATH_IMAGE073
,若所述当前空间的顶面和底面不是吸音材料围成
Figure DEST_PATH_IMAGE075
Figure DEST_PATH_IMAGE077
表示第i个麦克风到第j个麦克风的距离。
6.根据权利要求2所述的抗噪声的声源定位方法,其特征在于,所述智能设备上设置多个麦克风组成的麦克风阵列,所述计算所述当前音频数据的指定帧对应的频域信号,分别在所述N个方向向量dn上计算帧响应值,n=1,2,...,N的步骤,包括:
根据
Figure DEST_PATH_IMAGE079
,计算所述当前音频数据的指定帧对应的频域信号,从所述方向向量dn所在方向到达第i个麦克风和到达第j个麦克风的到达时间差
Figure DEST_PATH_IMAGE081
,其中,ri和rj分别表示第i个麦克风和第j个麦克风的直角坐标向量,c为声速,
Figure DEST_PATH_IMAGE083
表示向量的2-范数;
根据
Figure DEST_PATH_IMAGE085
,计算第i个麦克风和第j个麦克风,接收所述当前音频数据的指定帧对应的频域信号在所述方向向量dn所在方向的基于相位变换加权的可控响应功率,其中,
Figure DEST_PATH_IMAGE087
表示共轭,
Figure DEST_PATH_IMAGE089
,Fs是采样频率;
根据
Figure DEST_PATH_IMAGE091
,计算所述指定帧在所述N个方向向量dn的基于相位变换加权的互相关函数值基于相位变换加权的可控响应功率, 作为所述帧响应值,其中,n=1,2,...,N,
Figure DEST_PATH_IMAGE093
表示所述当前音频数据对应的所述指定帧为第
Figure 975402DEST_PATH_IMAGE093
帧频域信号。
7.根据权利要求6所述的抗噪声的声源定位方法,其特征在于,所述根据所述指定数量的输出结果,计算峰度值的步骤,包括:
将所述指定数量的方向上的波束输出
Figure DEST_PATH_IMAGE095
,通过逆快速傅里叶变换,得到所述指定数量的时域信号
Figure DEST_PATH_IMAGE097
将所述指定数量的时域信号
Figure 534559DEST_PATH_IMAGE097
,拼接形成所述指定数量的方向上的输出信号
Figure DEST_PATH_IMAGE099
根据所述指定数量的方向上的输出信号
Figure 857088DEST_PATH_IMAGE099
,通过公式
Figure DEST_PATH_IMAGE101
计算各方向上的所述峰度值,其中,
Figure DEST_PATH_IMAGE103
8.一种抗噪声的声源定位装置,其特征在于,集成于具有唤醒功能的智能设备,装置包括:
判断模块,用于判断当前音频数据是否可触发唤醒;
估测模块,用于若可触发唤醒,则根据所述当前音频数据对应的频域信号,估测指定数量的声源方向;
波束成形模块,用于对所述指定数量的声源方向,分别进行波束成形,得到所述指定数量的输出结果;
计算模块,用于根据所述指定数量的输出结果,计算峰度值;
作为模块,用于将所述峰度值最大的指定声源方向,作为声源定位的方向,其中,所述指定声源方向为所述指定数量的声源方向中的其中一个。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202010583990.1A 2020-06-24 2020-06-24 抗噪声的声源定位方法、装置和计算机设备 Active CN111489753B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010583990.1A CN111489753B (zh) 2020-06-24 2020-06-24 抗噪声的声源定位方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010583990.1A CN111489753B (zh) 2020-06-24 2020-06-24 抗噪声的声源定位方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN111489753A true CN111489753A (zh) 2020-08-04
CN111489753B CN111489753B (zh) 2020-11-03

Family

ID=71810543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010583990.1A Active CN111489753B (zh) 2020-06-24 2020-06-24 抗噪声的声源定位方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN111489753B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111929645A (zh) * 2020-09-23 2020-11-13 深圳市友杰智新科技有限公司 特定人声的声源定位方法、装置和计算机设备
CN113314135A (zh) * 2021-05-25 2021-08-27 北京小米移动软件有限公司 声音信号识别方法及装置
CN113419216A (zh) * 2021-06-21 2021-09-21 南京信息工程大学 一种适用于混响环境的多声源定位方法
CN114136434A (zh) * 2021-11-12 2022-03-04 国网湖南省电力有限公司 一种变电站站界噪声抗干扰估算方法和***
CN114678021A (zh) * 2022-03-23 2022-06-28 小米汽车科技有限公司 音频信号的处理方法、装置、存储介质及车辆
CN115620727A (zh) * 2022-11-14 2023-01-17 北京探境科技有限公司 音频处理方法、装置、存储介质及智能眼镜

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105283775A (zh) * 2013-04-12 2016-01-27 株式会社日立制作所 移动机器人以及音源位置推定***
CN106863320A (zh) * 2017-01-18 2017-06-20 北京光年无限科技有限公司 一种用于智能机器人的语音交互数据获取方法及装置
WO2018222610A1 (en) * 2017-05-29 2018-12-06 Staton Techiya, Llc Method and device to determine sound source direction and speech quality enhancement using small microphone arrays
CN109346100A (zh) * 2018-10-25 2019-02-15 烟台市奥境数字科技有限公司 一种数字媒体交互式教学***的网络传输方法
US10304475B1 (en) * 2017-08-14 2019-05-28 Amazon Technologies, Inc. Trigger word based beam selection
CN110261816A (zh) * 2019-07-10 2019-09-20 苏州思必驰信息科技有限公司 语音波达方向估计方法及装置
CN110534126A (zh) * 2019-09-07 2019-12-03 广州智伴人工智能科技有限公司 一种基于固定波束形成的声源定位和语音增强方法及***
CN110794368A (zh) * 2019-10-28 2020-02-14 星络智能科技有限公司 一种声源定位方法、装置、智能音箱及存储介质
CN111048106A (zh) * 2020-03-12 2020-04-21 深圳市友杰智新科技有限公司 基于双麦克风的拾音方法、装置和计算机设备
CN111060872A (zh) * 2020-03-17 2020-04-24 深圳市友杰智新科技有限公司 基于麦克风阵列的声源定位方法、装置和计算机设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105283775A (zh) * 2013-04-12 2016-01-27 株式会社日立制作所 移动机器人以及音源位置推定***
CN106863320A (zh) * 2017-01-18 2017-06-20 北京光年无限科技有限公司 一种用于智能机器人的语音交互数据获取方法及装置
WO2018222610A1 (en) * 2017-05-29 2018-12-06 Staton Techiya, Llc Method and device to determine sound source direction and speech quality enhancement using small microphone arrays
US10304475B1 (en) * 2017-08-14 2019-05-28 Amazon Technologies, Inc. Trigger word based beam selection
CN109346100A (zh) * 2018-10-25 2019-02-15 烟台市奥境数字科技有限公司 一种数字媒体交互式教学***的网络传输方法
CN110261816A (zh) * 2019-07-10 2019-09-20 苏州思必驰信息科技有限公司 语音波达方向估计方法及装置
CN110534126A (zh) * 2019-09-07 2019-12-03 广州智伴人工智能科技有限公司 一种基于固定波束形成的声源定位和语音增强方法及***
CN110794368A (zh) * 2019-10-28 2020-02-14 星络智能科技有限公司 一种声源定位方法、装置、智能音箱及存储介质
CN111048106A (zh) * 2020-03-12 2020-04-21 深圳市友杰智新科技有限公司 基于双麦克风的拾音方法、装置和计算机设备
CN111060872A (zh) * 2020-03-17 2020-04-24 深圳市友杰智新科技有限公司 基于麦克风阵列的声源定位方法、装置和计算机设备

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111929645A (zh) * 2020-09-23 2020-11-13 深圳市友杰智新科技有限公司 特定人声的声源定位方法、装置和计算机设备
CN113314135A (zh) * 2021-05-25 2021-08-27 北京小米移动软件有限公司 声音信号识别方法及装置
CN113314135B (zh) * 2021-05-25 2024-04-26 北京小米移动软件有限公司 声音信号识别方法及装置
CN113419216A (zh) * 2021-06-21 2021-09-21 南京信息工程大学 一种适用于混响环境的多声源定位方法
CN113419216B (zh) * 2021-06-21 2023-10-31 南京信息工程大学 一种适用于混响环境的多声源定位方法
CN114136434A (zh) * 2021-11-12 2022-03-04 国网湖南省电力有限公司 一种变电站站界噪声抗干扰估算方法和***
CN114136434B (zh) * 2021-11-12 2023-09-12 国网湖南省电力有限公司 一种变电站站界噪声抗干扰估算方法和***
CN114678021A (zh) * 2022-03-23 2022-06-28 小米汽车科技有限公司 音频信号的处理方法、装置、存储介质及车辆
CN114678021B (zh) * 2022-03-23 2023-03-10 小米汽车科技有限公司 音频信号的处理方法、装置、存储介质及车辆
CN115620727A (zh) * 2022-11-14 2023-01-17 北京探境科技有限公司 音频处理方法、装置、存储介质及智能眼镜

Also Published As

Publication number Publication date
CN111489753B (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
CN111489753B (zh) 抗噪声的声源定位方法、装置和计算机设备
CN110491403B (zh) 音频信号的处理方法、装置、介质和音频交互设备
CN104220896B (zh) 用于估计到达方向的***、方法和设备
Khaykin et al. Acoustic analysis by spherical microphone array processing of room impulse responses
RU2570359C2 (ru) Прием звука посредством выделения геометрической информации из оценок направления его поступления
RU2555188C2 (ru) Устройство, система (варианты), способ получения информации о направлении и компьютерный программный продукт
RU2642353C2 (ru) Устройство и способ для обеспечения информированной оценки вероятности и присутствия многоканальной речи
US9042573B2 (en) Processing signals
CN103181190A (zh) 用于远场多源追踪和分离的***、方法、设备和计算机可读媒体
Jensen et al. Nonlinear least squares methods for joint DOA and pitch estimation
JP5123595B2 (ja) 近傍場音源分離プログラム、及びこのプログラムを記録したコンピュータ読取可能な記録媒体、並びに近傍場音源分離方法
MXPA05002370A (es) Un sistema y un metodo para formacion de haz usando una disposicion ordenada de microfonos.
Huang et al. A flexible high directivity beamformer with spherical microphone arrays
Bush et al. Broadband implementation of coprime linear microphone arrays for direction of arrival estimation
JP2014098568A (ja) 音源位置推定装置、音源位置推定方法および音源位置推定プログラム
WO2020079957A1 (ja) 音声信号処理装置、雑音抑圧方法
Zhang et al. Deep learning-based direction-of-arrival estimation for multiple speech sources using a small scale array
WO2022105571A1 (zh) 语音增强方法、装置、设备及计算机可读存储介质
Cho et al. Sound source localization for robot auditory systems
Cho et al. Adaptive near-field beamforming techniques for sound source imaging
Canclini et al. A methodology for the robust estimation of the radiation pattern of acoustic sources
JP2023550434A (ja) 改良型音響源測位法
Rathsam et al. Analysis of absorption in situ with a spherical microphone array
Bouchard et al. Beamforming with microphone arrays for directional sources
JP3862685B2 (ja) 音源方向推定装置、信号の時間遅延推定装置及びコンピュータプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant