CN114830686A - 声源的改进定位 - Google Patents

声源的改进定位 Download PDF

Info

Publication number
CN114830686A
CN114830686A CN202080084830.0A CN202080084830A CN114830686A CN 114830686 A CN114830686 A CN 114830686A CN 202080084830 A CN202080084830 A CN 202080084830A CN 114830686 A CN114830686 A CN 114830686A
Authority
CN
China
Prior art keywords
vector
time
wall
microphone
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080084830.0A
Other languages
English (en)
Inventor
J.丹尼尔
S.基提克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
Orange SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orange SA filed Critical Orange SA
Publication of CN114830686A publication Critical patent/CN114830686A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/802Systems for determining direction or deviation from predetermined direction
    • G01S3/8027By vectorial composition of signals received by plural, differently-oriented transducers
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/28Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves by co-ordinating position lines of different shape, e.g. hyperbolic, circular, elliptical or radial
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/326Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • General Health & Medical Sciences (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明涉及处理由至少一个麦克风(例如立体混响类型的麦克风)获取的声音信号,以定位包括至少一个墙壁的空间中的至少一个声源。将时间‑频率变换应用于所获取的信号,并且根据所获取的信号,在频域中表达具有实部和虚部的复数速度矢量V(f),其中速度矢量表征以下之间的合成:*在所述源与所述麦克风之间的直接第一声学路径,该路径由第一矢量U0表示,以及*由从墙壁上的反射产生并由第二矢量U1表示的至少一个第二声学路径,第二路径在所述麦克风处具有相对于直接路径的第一延迟TAU1。根据延迟TAU1、第一矢量U0和第二矢量U1,确定直接路径的方向(DoA)、从源到麦克风的距离d0、和从源到所述墙壁的距离z0中的至少一个参数。

Description

声源的改进定位
技术领域
本发明涉及声源定位领域,特别是用于通过紧凑型麦克风***(例如,能够以下文中的“环绕声(ambiophonic)”表示或“立体混响(ambisonic)”拾取声音的麦克风)估计声学方向或“DOA”(到达方向)。
背景技术
可能的应用是例如通道的形成或“波束成形”,其然后经历音频源的空间分离,以便特别地改进语音识别(例如,用于通过语音交互的虚拟助理)。这种处理也可以用于3D音频编解码(预先分析声音场景以单独编解码主信号),或者甚至允许可能以视听方式(用于艺术、无线电、电影等目的)对沉浸式声音内容进行空间编辑。它还允许监测电话会议中的讲话者或检测声音事件(具有或不具有相关联的视频)。
在涉及立体混响类型编码(或等效物)的现有技术中,大多数方法基于由频率分析产生的空间分量(通常由通过短期傅里叶变换或“STFT”的处理产生的时间-频率表示,或由一组滤波器产生的窄带时间信号的表示)。
根据下文附录中给出的等式Eq.1,以矢量形式收集阶数为1的立体混响信号。这里呈现Eq.1的编码约定是为了方便,但没有限制,因为也可以实现与其他约定的转换。因此,当场与来自由单位矢量U1描述的方向(因此源的方向DOA)并携带发射信号s1(t)的单个平面波相当时,可以根据Eq.2(附录)写入。
在实践中,在频域中逐帧(frame,以法语表示:“trame”)分析信号,这给出了表达式Eq.3(附录),并且对于单个波的情况,以Eq.4的形式给出,并且通过扩展,对于N个波,以Eq.5的形式给出。
一类方法依赖于对速度矢量V(f)或强度矢量I(f)的分析(第一个是第二个的替代版本,由全向参考分量的功率归一化),如Eq.6和Eq.7中所表达的。
利用复频率样本的方法基本上使定位估计基于包含在这种矢量的实部中的信息(与波传播的特性和有效强度相关联,因为它与相位场梯度直接相关联)。
另一方面,虚部(与能量梯度相关联的电抗部分)被认为是稳态声学现象的特性。
实际上可见的是,在单个平面波的框架内,速度矢量可以被总结为V=U1。
已知的方法(称为“DirAC”)对被滤波成子带的时间样本进行操作(在这种情况下,它们是实的并且强度矢量也是实的),或者对复频率样本进行操作(在这种情况下,矢量强度的实部仅被用作指定原点方向(或更精确地,与其相反))。此外,与矢量的范数和声场的能量之间的比相关联的所谓的“扩散”系数的计算使得可以决定所考虑的频率处的可用信息是方向分量(由此矢量方向确定位置)还是“环境”(由扩散混响和/或未区分的次级声源的混合产生的场)的特性。
在下文中表示为“VVM”的另一种方法基于速度矢量及其实部的角方向的统计,其由与实部和虚部之间的比及其范数相关联的某些因子加权。通过收集所有频率样本上和一定数量的时间帧上的值来建立球面制图(2D直方图,例如等距柱状图)。因此,估计基本上基于最大概率并且经受一定的延迟。
另一类所谓的“协方差”方法(有时作为第一种方法的扩展呈现)涉及通过频率子带计算空间分量的协方差矩阵(有时也称为功率谱密度矩阵或“PSD”)。这里再次,有时完全忽略虚部。应注意,当空间分量为立体混响类型时,此矩阵的第一行(或第一列)等效于强度矢量。这些方法中的许多方法涉及有时昂贵的“子空间”方法和算法,特别是当它们在大量频率子带上工作时,以及当它们利用更高的空间分辨率时。
这些“基于矢量”或“基于矩阵”的方法试图一方面从环境分量辨别与可定位声源或路径相关联的“方向”分量,另一方面辨别与环境分量相关联的“方向”分量。
在观察到的这种方法的限制中,即使在单个同时活动的声源的情况下,这些限制也受到直接声音(其指示声源的方向)与反射的干扰的阻碍。例如,超过房间效应的一定程度的存在,它们不能足够经常地给出合理的估计和/或估计太经常有偏差。当包括捕获和声定位设备(例如,立体混响麦克风)的对象被放置在例如桌子上或墙壁附近(和/或如果在声源附近是这种情况)时,这样的反射表面倾向于引起***的角度偏差。
实际上,定位通常被直接声音和与相同声源相关联的反射的***干扰所偏差。当它基于速度矢量时,主要考虑速度矢量的实部,而虚部通常被忽略(或至少未充分使用)。被认为是打扰的声反射不包括在估计问题中。因此,它们仍然是被忽略的组件,而不是建模的,而不考虑特定的引起干扰结构。
因此,对于上述类型的应用,通常仅以角度项来估计声学定位。此外,似乎没有有效的方法提出对距单个捕获点的距离的评估(对于重合或更一般地“紧凑型”麦克风***被认为是唯一的,即,包含在与距声源的距离相比尺寸小的体积中,对于立体混响麦克风通常约为十厘米)。
然而,一些应用上下文除了其方向(以及因此XYZ中的3D定位)之外还需要附加信息,即距源的距离。这些是例如:
-在3D中捕获的真实环境中的虚拟导航(因为源的角度和强度的适当修改取决于该对象与麦克风之间的相对XYZ平移),
-源的定位以识别讲话人(特别是对于连接的讲话者或类似者),
-家庭或工业环境中的监测、警报设备,
或其他。
发明内容
本发明改善了这种情况。
提出了一种用于处理由至少一个麦克风获取的声音信号的方法,以用于在包括至少一个墙壁的空间中定位至少一个声源,其中:
-将时间-频率变换应用于所获取的信号,
-根据所获取的信号,在频域中表达速度矢量V(f),其是具有实部和虚部的复数,其中速度矢量表征以下之间的合成:
*直接在所述源与所述麦克风之间的第一声学路径,所述第一声学路径由第一矢量U0表示,以及
*由墙壁上的反射产生并由第二矢量U1表示的至少一个第二声学路径,
第二路径在所述麦克风处具有相对于直接路径的第一延迟TAU1,
-根据延迟TAU1、第一矢量U0和第二矢量U1,从以下中确定至少一个参数:
*直接路径的方向(DoA),
*从所述源到所述麦克风的距离d0,
*从所述源到所述墙壁的距离z0。
因此,提出了对直接波和至少一个间接波(由反射产生)之间的干扰进行建模,并利用该模型在整个速度矢量上(在其虚部以及实部上)的表现。
在实施例中,声音信号由立体混响型麦克风获取,并且频域中的速度矢量V(f)由阶数1立体混响分量以以下类型的形式表示:
V(f)=1/W(f)[X(f),Y(f),Z(f)]T
这里考虑的阶数是1,这使得可以在三维参考空间中表达速度矢量的分量,但是特别是具有更高的立体混响阶数的其他实施例也是可能的。
在一个实施例中,直接路径的方向可以由第一矢量U0根据在频域中表达的速度矢量V(f)的实部的一组频率上的平均值来确定(在本说明书末尾呈现的附录中的Eq.24)。
因此,即使速度矢量在频域中的表达也已经使得可以给出矢量U0。
然而,在更先进的实施例中:
-将从频率到时间的逆变换应用于所述速度矢量,以在时域V(t)中表达所述速度矢量,
-在所述直接路径的持续时间之后,寻找作为时间的函数的所述速度矢量的表达式中的至少最大值V(t)max,以及
-由此导出与给出所述最大值V(t)max的时间对应的所述第一延迟TAU1。
在该实施例中:
-通过以下类型的关系,根据所述第一矢量U0和根据所述最大值V(t)max来估计所述第二矢量U1:
U1=U0-2(U0.V(t)max)V(t)max/||V(t)max||2
然后:
-可以确定所述第一矢量U0和所述第二矢量U1相对于所述墙壁(图1)的各自的角度PHI0和PHI1,使得:
PHI0=arcsin(U0.nR)和PHI1=arcsin(U1.hR),其中nR是单位矢量并且垂直于墙壁,以及
-所述源与所述麦克风之间的距离d0根据所述第一延迟TAU1通过以下类型的关系来确定:
d0=(TAU1xC)/((cosPHI0/cosPHI1)-1),其中C是声速。
此外,从所述源到所述墙壁的距离z0可以通过以下类型的关系来确定:
z0=d0(sinPHI0-sinPHI1)/2
因此,这里在存在单个墙壁的情况下,可以确定与源的定位相关的所有参数(例如,来自图1),尽管该模型可以推广到若干墙壁的存在。
因此,在空间包括多个墙壁的实施例中:
-将从频率到时间的逆变换应用于所述速度矢量,以在时域V(t)中以一系列峰值的形式表示它(Eq.39,图2),
-在所述一系列峰值中,识别与所述多个墙壁中的墙壁上的反射相关联的峰值,每个所识别的峰值具有时间横坐标,所述时间横坐标是由对应墙壁n上的反射产生的声学路径相对于所述直接路径的第一延迟TAUn的函数,
-根据每个第一延迟TAUn、第一矢量U0和表示由墙壁n上的反射产生的声学路径的每个第二矢量Un,从以下中确定至少一个参数:
*所述直接路径的方向(DoA),
*从所述源到所述麦克风的距离d0,以及
*从所述源到所述墙壁n的至少距离zn。
例如,如在图5B中可以观察到的,逆变换之后的速度矢量的表达(频率对时间)呈现一系列峰值,这也在图2中示出以用于教导目的,其中对于直接路径和由墙壁上的至少一次反射产生的路径之间的上述延迟(TAU1、2TAU1等;TAU2、2TAU2等)的多个值,以及对于这些延迟的组合(TAU1+TAU2、2TAU1+TAU2、TAU1+2TAU2等),达到最大值。
然后可以利用这些峰值来特别地识别至少与墙壁n上的反射相关联的峰值,并且其因此具有与该墙壁n相关联的延迟TAUn的多个时间横坐标(x1,x2,x3等)。
由于不同延迟的组合可能使简单延迟(TAU1、TAU2、TAU3等)的识别和相关联的墙壁的存在复杂化,因此可以预选最小正时间横坐标处的峰值的第一部分,以便在该部分中识别每个与墙壁上的反射相关联的峰值(因此没有可能在第一峰值之后出现的不同延迟的组合TAU1+TAU2、2TAU1+TAU2、TAU1+2TAU2等)。
在一个实施例中,所获取的信号以连续的样本帧的形式递送:
-对于每个帧,估计所述帧中存在声音起始的分数是可能的,以及
-可以选择具有高于阈值的得分的帧以用于确定所述至少一个参数。
实际上,在寻找墙壁的第一即时反射的方法中,可能优选的是寻找房间墙壁对声音起始(即,声音发射的开始,以法语表示为“attaque sonore”)的即时反应。
在一个实施例中,由麦克风获取的信号是一系列样本的形式,可以对所述样本应用加权窗口(以法语表示:“fenêtre de pondération”),所述加权窗口具有随时间减少的指数变化(图5A)。
此外,可能地,该窗口可以放置在声音起始的最开始处(或者甚至刚好在开始开始之前)。这避免了多次反射的不适。
这种加权窗口的应用允许从利用时域中的速度矢量的表达式导出的参数U0、d0等的较小偏差估计。实际上,在反射的累积幅度大于直接声音的累积幅度的某些情况下,上述参数的估计可能是有偏差的。当在速度矢量的时间表达中的负时间横坐标(图5B顶部的曲线)处观察到峰值时,可以检测到这些情况。上述类型的加权窗口的应用使得可以将这些峰值带回到正横坐标,如图5B底部的曲线所示,并且给出较少偏差的估计。
在一个实施例中,还可以根据(Eq.49)类型的表达式,将各自与频带f相关联的加权q(f)迭代地应用到频域中的速度矢量V(f):
q(f)=exp(-|Im(V(f)).m|/(||Im(V(f))||),
其中,Im(V(f))是所述速度矢量复数的虚部,并且m是垂直于由矢量U0和墙壁的法线(z,图1)(通常是稍后详细评论的图1的z轴)限定的平面的单位矢量。
这样的实施例使得可以选择最可利用的频带来确定上述参数。
本发明还涉及一种用于处理声音信号的设备,包括用于实现根据前述权利要求中的一项所述的方法的处理电路。
作为说明,图4示意性地示出了这样的处理电路,其然后可以包括:
-输入接口IN,用于接收由麦克风获取的信号SIG(其可以包括若干压电垫以组成这些信号,例如在立体混响上下文下),
-处理器PROC,其与工作存储器MEM协作以处理这些信号,特别是建立速度矢量的表达式,以便从其中提取期望的参数d0、U0等,其值可以由输出接口OUT递送。
这样的设备可以采取用于在3D环境中定位声源的模块的形式,该模块连接到麦克风(声音天线类型或其他类型)。相反,它可以是基于增强现实中的虚拟空间(包括一个或多个墙壁)中的源的给定位置的声音渲染引擎。
本发明还涉及一种包括指令的计算机程序,当这些指令由处理电路的处理器执行时,这些指令用于实现上述方法。
图3A和3B示出了这种程序的算法的流程图示例。
在另一方面,提供了一种其上记录有这样的程序的非暂时性计算机可读记录介质。
附图说明
当阅读下面的详细描述并分析附图时,其他特性、细节和优点将显现,其中:
图1通过图示的方式示出了根据一个实施例的定位声源时涉及的各种参数。
图2通过图示的方式示出了在速度矢量的逆频率到时间变换(“IDFT”)之后由速度矢量的时间表达所展现的各种连续峰值。
图3A示出了用于确定相关参数U0、d0等的算法处理的开始步骤,
以及图3B示出了图3A的处理步骤的继续。
图4示意性地示出了根据实施例的在本发明的含义内的设备。
图5A示出了根据一个实施例的所获取的信号的样本的随时间指数地减小的加权窗口。
图5B比较了速度矢量的IDFT之后的时间表达:
-没有通过加权窗口预先处理样本(顶部曲线),
-并且具有窗口处理(底部曲线)。
具体实施方式
可以以本身已知的方式计算速度矢量。然而,可以推荐一些特定设置以改善获得的最终结果。
通常,首先一般通过针对一系列时间帧b(t)(通常是重叠的(例如,具有相加/叠加))的短期傅里叶变换(或STFT)来获得立体混响信号的频谱B(f)。此处,立体混响分量的阶数对于四个分量可为m=1(然而,在不失一般性的情况下,该计算能够适应于更高阶数)。
然后,对于每个时间帧,然后针对所有频率样本将速度矢量计算为方向分量X(f)、Y(f)和Z(f)与全向分量W(f)的比(附录中的Eq.6)。可以考虑还通过加权和引入时间平滑或合并的实施例,如下所述。
利用这样的比(X(f)/W(f)、Y(f)/W(f)、Z(f)/W(f)),如果音频信号的频谱组成激励大量有用频率(例如在宽频带上),则基本上去除源信号的特性以突出声学通道的特性。
在先前呈现的应用中,可以考虑具有稳定特性(在位置和辐射中,至少在几个连续帧上)的声源在稳定的声学环境(反射,可能衍射墙壁和对象等,并且因此负责通常称为“房间效应”的情况,即使可能在“房间”之外)中发射信号s(t)的情况。这些信号由立体混响型麦克风接收。立体混响信号b(t)由信号s(t)的不同版本沿其直接和间接路径的组合空间编码产生,即所谓的“声学通道效应”。这导致信号与空间脉冲响应h(t)的卷积,空间脉冲响应h(t)的每个通道(或维度)与立体混响分量相关联,如附录的Eq.8中所表达的。
该脉冲响应被称为“空间房间脉冲响应”SRIR,并且通常表示为一系列时间峰值:
-位于时间t=TAU0(传播时间)的第一峰值,对应于直接声音,
-在t=TAU1处的第二峰值,对应于第一反射,
等等。
因此,应当可以在这些峰值中读取这些波前起源的方向,其中在等式Eq.9-1中给出的矢量un的表达式作为第一近似。在实践中,空间脉冲响应是未知数据,但是这里暴露了如何通过基于立体混响信号b(t)计算的速度矢量间接返回到其一些特性。
为了强调这一点,首先在选定的观察时间间隔内描述脉冲响应h(t)、发射信号s(t)和立体混响信号b(t)(Eq.9-2)之间的联系。确切地说,该表达式假设不存在任何测量噪声以及不存在其信号将在所考虑的时间间隔内被直接或间接捕获的其他声源。因此,在该时间间隔内捕获所有直接和间接源信号。
示出了通过在整个时间间隔上执行傅里叶变换,所得到的速度矢量是空间脉冲响应的唯一特性。这种所谓的LT变换(因为它比STFT“更长期”)根据等式Eq.10将b(t)、s(t)和h(t)转换为B(f)、S(f)和H(f)。该时间支持可以对应于在若干连续信号帧上延伸的时间窗口。
根据频域中的卷积的表达式,然后导出用等式Eq.11计算的速度矢量的卷积表达式。该表达式Eq.11成为声学通道(换句话说,房间效应)的特性,并且不再是发送信号的特性,只要后者在所考虑的时间段内对于每个频率f具有非零能量(在实践中,可检测)。
在实践中并且如已经提到的,常见的方式是每帧执行时频分析,其中每个短期傅里叶变换被应用于时间窗口化(以法语表示:
Figure BDA0003681019010000091
),该时间窗口化不先验地验证观察到的信号完全并且仅由等式Eq.9的卷积乘积产生。这意味着,严格地说,速度矢量不能以仅表征声学通道的形式书写(如Eq.11的右侧部分)。然而,这里在本说明书的上下文中尽可能地近似(稍后详述的Eq.20),同时利用下面呈现的短期分析的优点。
在稍后的阶段,搜索一系列能量峰值,其一方面表征从源发射并由麦克风接收的信号的直接路径,然后是一个或多个墙壁上的第一反射,只要这些反射是可识别的。然后可以集中于什么是空间脉冲响应的开始的特性,即首先是第一时间峰值,我们从该第一时间峰值导出直接声音的方向,并且可能是随后的时间峰值,我们从中导出第一反射的特性。
为此,检查直接声音和至少一个反射之间的干扰对复数速度矢量的表达式的影响,以便估计用于定义声源的位置的相关参数。
对于脉冲响应的开始,引入与N个镜面反射(n=1,...,N)组合的直接路径(n=0)的简化模型,如Eq.12所示,其中gn、TAUn和un分别是到达麦克风***的索引为n的波(第n次反射)的衰减、延迟和原点方向。在下文中,为了简化而不限制一般性,考虑与直接声音相关的延迟和衰减,这相当于针对n=0设置等式Eq.13的项。
对应的频率表达式在等式Eq.14中给出,其中对于直接声音的gamma0=1的特定情况。当然,变量gamman(无论n大于0)是频率f的函数。
如果忽略后面的部分,则立体混响场的频率表达式如下,由表达式Eq.16给出。
然后,根据具有非零ε(EPSILON)项的正则化版本,短期速度矢量由等式Eq.17或甚至由等式Eq.18表示,以便在W(几乎)为零时避免(准)无限值。
短期分析使得可以随时间并且根据源信号的动态演变观察频率足迹(footprint)(下面表示为“FDVV”),其是空间脉冲响应内的波前的子混合(submix)的特性。根据Eq.19在时域和频域中对给定观察的特性子混合(“子混合”smx)建模。
在下文描述的方法中,人们努力通过Eq.20中表达的近似(其通常不是精确相等的,除非在特殊情况下)来将频率足迹FDVV表征为由隐式子混合模型Hsmx产生。
特别是在信号起始时间,隐式模型hsmx(t)至少在相对波前方向和延迟方面似乎类似于hearly(t)空间脉冲响应的开始。由于相对增益gn隐式参数受到信号的时间窗口化和动态特性的影响,因此它们不一定看起来符合脉冲响应的那些参数。这里主要关注直接波(其提供DOA)和一个或几个早期反射,基本上考虑观察是其特性的情况。
特别是为了说明的目的,下文描述了仅考虑具有频域中的估计的单个反射的处理的示例。这里处理简单干扰的情况(基本上在直接声音和第一反射之间),并且示出了如何通过不仅查看速度矢量的实部而且查看速度矢量的虚部来突出显示特定的空间-频率结构,来确定所寻找的参数。实际上,根据Eq.21描述立体混响场,并且根据Eq.22从其导出速度矢量。从该表达式得出,当频率行进所考虑的音频频谱时,实部和虚部行进3D空间中的平行段(分别为仿射和线性),如Eq.23所示。仿射段(实部)在包含分别指向直接波和间接波的单位矢量U0和U1的线上,并且两个段与这两个矢量的中间平面正交(并且因此矢量的虚部本身总是如此,因为它在线性段上)。此外,假设波之间的相移的均匀分布(因此是频率的代表性扫描),根据统计的计算,速度矢量的实部的平均值等于矢量U0,如Eq.24所示,并且最大概率是由波的相应振幅加权的U0和U1的平均值,如Eq.25所示。因此,基于最大概率的DOA检测受到***角度偏差的污染,从而给出直接声音与其方向之间的中间方向。等式Eq.23示出了该空间扫描是以等于两个波之间的延迟TAU1的倒数的频率周期性来完成的。因此,当可以观察到这种空间-频率结构时,可以从观察中提取方向U0和U1以及延迟TAU1。下面给出了用于在时域中估计这些参数的另一实施例(结合图2的描述)。
通过具有关于反射表面相对于麦克风的参考系的方位的先验,然后可以从U0、U1、TAU1的估计导出源相对于麦克风的绝对距离d信息,并且可能地导出两者的高度。实际上,如图1所示,通过记录从源S0到麦克风M的距离d0和其镜像S1相对于反射表面R的距离d1,表面R与由矢量U0和U1形成的平面正交。这三个点(M、S0、S1)在与表面R正交的同一平面中。然后需要定义要确定的参数,以定义反射平面的方位(或倾斜度)。在地板或天花板的反射的情况下(因此检测到,因为U1指向地板或天花板),可以利用以下假设:这是水平的并且平行于立体混响麦克风的框架的平面X-Y。然后,距离d0和d1通过关系式26相联系,该关系式还直接给出了从麦克风M到轴(S0,S1)的距离,PHI0和PHI1是矢量U0和U1的各自仰角。
还获得反射声音相对于直接声音的延迟TAU1的估计,这允许访问距离之间的另一关系Eq.27,因为它们的差利用因子c(其是声速)转换声学路径延迟。
通过将d1表示为d0的函数,该最后的量成为唯一未知的量,其可以根据Eq.28估计。还获得从源到反射平面的距离,即根据Eq.29的其相对于地面的高度或纬度z0,以及Eq.30中的麦克风的高度或纬度。
在图1中在地板上的反射的示例中示出了各种参数U0、U1、PHI0、PHI1、d1、d0等。当然,对于天花板上的反射,可以导出类似的参数。以相同的方式,可以针对其相对于麦克风的参考系的方位是已知的任何其他反射表面R上的反射导出类似的参数,该方位由法线nR(与表面R正交的单位矢量)表征。重新定义相对于反射表面R的角度PHI0和PHI1就足够了,通常为PHI0=arcsin(U0.nR)和PHI1=arcsin(U1.hR)。因此,可以通过与每种反射情况相关联的矢量U1来确定这些障碍物的各自位置,以用于在用于通过声学检测进行定位估计的增强现实或机器人技术中的应用。
在反射表面的方位nR不是先验已知的情况下,如果通过在不同时间的观察已经估计了与至少两个源位置相关联的波前参数,则可以完全估计它,对于该至少两个源位置,通过该相同的反射平面检测到反射。因此,存在第一组参数(U0、U1、TAU1)和至少第二组参数(U0′、U1′、TAU1′)。由于U0和U1定义了与平面R正交的平面,因此它们的矢量积定义了该平面R的轴,并且这同样适用于从U0′和U′1获取的矢量积。
这些相应的矢量积(非共线)一起限定平面R的方位。
然而,仅限于两个干扰波(直接声和反射波)的该模型是可能难以区分分区上的不同的第一反射。此外,当引入额外的反射时,速度矢量的空间-频率行为很快变得更复杂。实际上,实数部分和虚数部分的路线然后组合,并且以非平凡的方式,沿着若干轴:
-在用于直接波和两个反射的平行平面中,
-或通常在整个空间中。
当要考虑若干反射表面时,这些复杂的空间-频率分布使得确定模型参数太繁琐。
该问题的解决方案是操作在时间上更具选择性(即,具有更短的时间窗口)的时频分析,以具有在振幅起始(瞬态、信号上升)期间看到更简单的声学混合出现的机会,即,减少干扰相关帧中存在的混合中的直接声音的反射的数量。然而,在一些情况下,与连续反射相关联的延迟可能彼此太靠近而不能将其干扰中的第一反射的影响与直接声音隔离。
然后在下文中提出了一种处理,其允许容易地分离多个干扰的影响并表征它们。第一步包括借助于如Eq.31中所呈现的傅里叶逆变换来转换时域中的速度矢量(或“TDVV”,“时域速度矢量”)的足迹(以法语表示:“l’empreinte”)。这具有压缩与某些轴相关联的频率循环的效果的效果,并且这些频率循环的效果在速度矢量的复杂漂移中表现出来,在更少的数据中表现出来,并且因此更容易分析。实际上,这种转换导致一系列峰值以规则的时间间隔出现,其中最重要的峰值是容易检测和提取的(参见例如图5B)。
一个显著的特性是,通过构造(由于傅里叶逆变换),在t=0处的矢量等于频域中的速度矢量的平均值(如果我们仅考虑半频谱正频率,则为其实部的平均值)。这样的观察与主DoA U0的估计相关。
从针对两个干扰波(直接声音和一个反射)的速度矢量的频率模型开始,由于Eq.32中的泰勒展开,分母可以有用地重新公式化。利用Eq.32中给出的关于x和gammal的条件,获得速度矢量的表达式Eq.33,并且在反射具有比直接声音小的振幅的条件下(g1<g0=1,这通常是声音起始的开始的情况),该表达式的傅里叶逆变换收敛并且如等式Eq.34中所表达的那样公式化,其中在t=0处识别第一峰值,其给出U0(直接声音的方向),然后是反射与直接声音的干扰的一系列峰值特性。
这些峰值被放置在延迟TAU1的多倍时间t=kTAU1(非零整数k>0)处,并且在范数上具有指数减小的振幅(根据增益g1)。它们都与和差U0-U1共线的方向相关联,因此与这两个矢量之间的中间平面正交,并且与交替方向(符号)相关联。将速度矢量转换到时域的优点是节省并且几乎立即呈现所寻找的参数(图2)。
因此,除了主DoA U0之外,还可以确定:
-TAU1延迟,可能针对若干不同的墙壁,
-然后,与U0-U1共线的矢量,其被归一化为单位矢量n,其可以与例如等式Eq.41用于:
-将U1导出为相对于与U0的中间平面与U0对称的矢量,以及
-可选地,衰减参数g1(这可能通过时频分析参数来修改,特别是通过分析窗口的形状以及通过其相对于观察到的声学事件的时间放置来修改。因此,该参数的估计在本文提及的应用上下文中具有较小的实用性)。
以下时间峰值的观察使得可以检查它们是否基本上符合相同的系列(多个延迟TAU1、多个延迟TAU2等)并且因此符合相同干扰的特性,否则需要例如确定多个反射的存在。
在下文中,突出显示了具有“有利条件”的情况,其中在N次反射的情况下,应用泰勒展开以给出根据Eq.35的速度矢量,条件是等式Eq.35中的N个伽马的总和保持低于1。可以使用等式Eq.36的多项式定律来重写转化初始表达式中的分母的泰勒级数,这使得可以将速度矢量V模型的表达式重新组织为若干级数的总和,其中“交叉级数”由Eq.37的项SC表示。
在条件Eq.38下,对于任何频率f,借助于傅里叶逆变换导出以下时间系列Eq.39,其中系列具有组合延迟SARC。识别t=0处的第一峰值,其给出U0(直接声音的方向),然后对于每个反射,识别该反射与直接声音的干扰的一系列峰值特性。例如,在图2中,这些峰值被放置在连续的正时间横坐标TAU、2TAU、3TAU等处,这些横坐标是墙壁上的反射与直接路径之间的延迟TAU的倍数。
然后出现若干墙壁上的若干反射与直接声音之间的干扰的特性系列(对于较大的时间横坐标),其延迟是其不同延迟的其他组合(具有正整数因子)。
实际上,图2示出了在两个反射干扰直接声音的简化情况下的这种系列。每个标记(分别为圆形、叉形、菱形)通过其纵坐标指示矢量U0、U1、U2(分别为直接声音、第一反射和第二反射的特性)对作为时间横坐标的函数的时间足迹TDVV的贡献。因此可以看出,直接声音的接收的特征在于在时间零处和振幅为1的第一峰值,由圆形示出。第一反射(延迟TAU1)与直接路径的干扰导致TAU1、2xTAU1、3xTAU1等中的第一系列峰值,其在本文中通过一端处的叉形和另一端处的圆形(上-下)来标记。第二反射(TAU2延迟)与直接路径的干扰导致TAU2、2xTAU2、3xTAU2等中的第二系列峰值,其在本文中通过一端处的菱形和另一端处的圆形标记。然后是“交叉级数”的元素,即反射之间的干扰(第一延迟:TAU1+TAU2,然后2TAU1+TAU2,然后TAU1+2TAU2等)。为了简洁起见,在本文中不解释其表达式可得到但在一般情况下写得很长的这些交叉级数,特别是因为不需要利用它们来估计本文呈现的处理中的相关参数。
在下文中描述通过参数的顺序估计对时间足迹的分析。
根据计算的时间系列对模型的参数的估计以类似于先前描述的单个反射的情况的方式完成。首先,在最一般的情况下(不包括稍后处理的特定情况),对应于当延迟不“重叠”时的有利情况:上述系列然后不显示任何时间重合,即,任何可识别的峰值仅属于它们中的一个。因此,通过从t=0增加延迟来记录时间峰值,检测到的具有延迟TAUnew的任何新峰值可以归于已经识别的系列,或者定义新系列的开始。实际上,考虑到已经识别的反射的一组延迟特性,如果存在根据Eq.40给出TAUnew的正整数k或部分为零,则检测到第一种情况,否则第二种情况适用,并且通过引入与可以以在单个反射的情况下描述的方式估计的方向相关联的新延迟TAUN+1来增加所识别的反射的组。
在实践中,可能不需要寻找解释许多时间峰值。对观察到的第一峰值进行限制,特别是因为它们由于比随后的峰值更大的振幅(或幅度(绝对值))而最容易检测到。因此,延迟具有公共倍数但秩高(或非低)Ki的情况;可以通过上述处理将Kj分析为振幅的函数。
只要隐式增益模块gn(n>0)的和小于1(Eq.38),傅里叶逆变换(Eq.31)就给出在正时间上发展的单向时间足迹。
另一方面,如果隐式增益模块的和gn(n>0)大于1,则傅里叶逆变换给出“双向”TDVV时间足迹,其中系列通常朝向正时间和负时间发展(图5B的顶部曲线用于说明)。例如,当直接波的振幅小于由一个或多个分区上的反射产生的波的振幅之和时,可能遇到一个或多个反射增益将大于1的这种情况。在这种“不利的情况”下,在时间零处的主峰不再严格地对应于矢量u0,而是对应于矢量u0与指示反射方向的矢量的或多或少显著比例的混合。这导致定位偏差(“估计DOA”的定位偏差)。另一症状是主峰具有通常不同于1的范数,并且更通常低于1。根据该问题的相对重要性,可以评估U0矢量提供合理(弱偏差)DOA估计的程度,从而提供关于估计的置信因子,并且使得可以优先选择对一些帧进行的估计。当估计偏差的风险证明过大时,可以选择最小暴露于该问题的帧,如下文参考图3(由图3A和3B组成)所述。
因此,可以通过时间子帧的频率分析继续观察给定房间的第一峰值。信号起始被定位(能量上升、瞬态等)的帧是使得可以观察到仅涉及最早波前的声学混合的那些帧:直接声音和一个或多个反射(使得上述“伽马(gamma)之和”根据Eq.38保持低于1)。
关于包含信号的起始的帧,可以(可能动态地)调整用于频率分析的时间窗口,例如通过给予它不对称和全局减小的形状,使得窗口的“凸起”对信号上升(起始,瞬态)赋予更大的权重,因此对直接声音赋予逐步地更小的权重(例如,但不是强制性的,以近似指数的方式)。因此,相对于较早的波前,较晚的波前的振幅被人为地减小,并且接近收敛条件,由此泰勒级数确保单向时间发展。
在下文中呈现了减少指数型时间加窗的示例,以应用于分析的信号,以便将所得时间足迹的分析带回到有利的情况,而不会对波的到达方向的估计产生实质性偏差。设置操作,为了方便起见,从指定为时间0的时间t0开始有效,并且优选地对应于在静默之前的信号起始的时刻,如等式Eq.42中所示,其中ALPHA>0,并且通过重新积分涉及s(t)和h(t)的卷积形式,找到等式Eq.43的形式。
等式Eq.44然后启用该选择被证明是合理的指数的性质,以便获得Eq.45中给出的形式,这相当于建立等式Eq.46。
因此,如果脉冲响应通过添加到直接声音的一组镜面反射建模,则获得Eq.47。
因此,如果伽马的总和大于或等于1(具有“双向级数”的可能性),则它总是可以确定衰减因子ALPHA,使得因此“适配”的增益的总和(Eq.48)变得低于1。
然后观察到时间足迹本质上是单向的,这由仅在应用减少指数窗口之后的正时间内的峰值证明(图5B的较小部分)。还观察到,在实践中,观察到的信号的能量以指数非常快地减小,所述信号的截断对估计的数值影响在相对短的截断时间之后变得相当可忽略不计。换句话说,在较短期内获得涵盖整个激励器信号及其混响两者的长期分析的优点。实际上,观察到的“TDVV”符合干扰模型,而没有由于信号的动态引起的误差。因此,这是通过这样的窗口进行加权所具有的双重属性,其理想地使得可以获得可利用的时间足迹。
在实践中,不预先知道反射的振幅,确定衰减ALPHA是合适的,优选地寻找足够低以确保时间足迹的单向性的值与不太低以避免减少检测和估计间接波的机会的值之间的折衷。例如,该值可以根据衰减因子aEXP通过持续时间tEXP来确定,该持续时间tEXP物理上表示观察到的现象(通常为5ms),使得ALPHA=-(log aEXP)/tEXP
可以实现迭代过程(例如,通过二分法)来调整衰减值。根据阈值衰减值,当所获得的时间足迹被检测为双向的而因此具有偏差矢量U0的先验时,以更强的衰减重复分析,否则至少采用U0的估计,并且如果随后的峰值几乎不可辨别(因为它们随着衰减而减小),则以两个先前的峰值之间的中间衰减重复分析,如果需要的话,依此类推,直到可以估计矢量U1。
然而,具有指数减少窗口的方法可能对干扰敏感,特别是在窗口化开始时,其中,在窗口化开始时干扰被显著放大。除了噪声之外的干扰可以简单地是在窗口化开始时源本身的混响,如果它在前不久被激活的话。然后可以引入去噪处理以减少这种干扰。
通常可以提供不同形状和/或尺寸的时间窗口,或者甚至窗口之间的重叠与叠加,以便最大化获得“有利的足迹”的机会。
选择通常大于该分析窗口的初始DFT尺寸。
当然,我们将自己置于处理以给定采样频率采样的以连续的采样块(或“帧”)形式的数字音频信号的上下文中。
还可以可选地针对预处理提供对起始、瞬变等的检测,然后提供时间-频率去噪,例如通过定义掩模(时间-频率滤波器,可能是二进制滤波器),以便避免将来自其他环境和/或扩散场源的元素引入干扰足迹。计算掩模的脉冲响应(逆变换的结果)以控制掩模对峰值分析的影响是合适的。它可以替代地被集成到被认为需要被存储的帧的足迹的频率加权中,以便随后计算对应于类似干扰混合的先验频率足迹的加权平均值(通常在信号起始上,通过检查相关源尚未移动,这可以通过延迟的估计来猜测)。
因此,然后进行提取和观察峰值,例如根据范数|V(t)|:最大峰值,然后是下一个峰值,给出TAU1(通常)等。
然后通过检测(根据{tau_n}和V(sum(k_n.tau_n)))来进行时间足迹的诊断:
-由于在太短的时间支持上选择FFT,是否存在时间重新循环(一种循环“混叠(aliasing)”),
-是否存在渐进的单向系列,或者相反地存在双向系列,
或者甚至是否存在没有显著衰减的系列(当增益的总和sum(gn)保持接近1时)或甚至逆行(retrograde)系列(当至少一个隐式增益g_n>1时)的特定情况。
然后可以:
-分配“好帧”或“好足迹”的分数(允许可靠的估计,先验而没有DOA的偏差,因为它是单向的),并将其记忆,
-执行估计(u_n),以及
-如果需要,通过选择适当的时间窗口来调整上游分析。
上面已经描述了时间足迹的分析,但是可以如下更简单地执行频率分析。
在数学上容易地示出,在时间零处的峰值通过构造等于速度矢量在其整个频谱上的平均值(通过埃尔米特对称性抵消实部),或者甚至等于其实部(如果仅考虑正频率)。可以估计,如果仅对直接声音感兴趣,则计算FDVV的逆变换以具有DOA的估计是无用的。然而,TDVV的时间检查使得可以检测该DOA是否可靠(朝向正的和增加的时间的发展标准)。
当混合物仍然不是非常复杂时,在源信号的起始期间更合理地观察到这种有利的情况。通常,对这些时刻进行估计就足够了。
此外,在实践中,VV的频率和时间足迹并不总是用干扰波的混合的理想模型可识别的。可能的是,由于发送功率的缺乏,可能考虑到来自所捕获声场的其他分量的竞争(SNR或SIR不足),源信号不能充分地或不总是在关键时刻激发显著范围的频率。这可以与或多或少的扩散背景声音(其他声源)或麦克风噪声相联系。
然后可以执行这些处理操作中的至少一个或组合地执行这些处理操作中的若干个:
-根据高级算法选择具有起始检测的时频样本,
-可能经由强度矢量在若干帧上平滑速度矢量(例如通过相关帧的|W(f)|2和可以是动态因子的遗忘因子加权的V(f)的平均值),
-对起始帧的选择执行由|W(f)|2加权的V(f)的平均(如果提取的延迟相同),以完成频率足迹并合并时间足迹。
为了简化计算,还可以建议仅针对在信息方面被检测为更一致的帧来执行TDVV或甚至FDVV的上游的计算:例如,如果情况是通过简单处理可检测到的起始帧,则在这种情况下,将分析窗口定位在信号的上升处甚至是有利的。
为了适当地估计非整数延迟(时间系列中的分数延迟及其倍数),可以考虑通过样本间插值和/或本地频率分析(通过在时间上窄的附近隔离峰值)进行峰值估计,并基于相位响应微调延迟。
可以根据系列的特性延迟的当前估计来执行时间峰值的先前选择。
因此,可以总结在如图3A和3B所示的示例性可能实施例中实现的步骤。在步骤S1处,计算立体混响信号的傅里叶变换(从时间到频率),所述傅里叶变换可呈一连续“帧”(连续样本的块)的形式。对于每个变换帧k(步骤S2),可以将动态掩模应用于信噪比低于阈值的频带中的一些(一些频带确实可以是高噪声的,例如通过麦克风或其他固有的噪声,使得在该频带中捕获的信号的利用受到损害)。特别地,在步骤S3处优先对“全向”分量W执行每个频带的搜索噪声,并且在步骤S4处掩模(即,设置为零)由噪声(超过阈值,例如SNR<0dB)改变的频带。
然后,在步骤S5,例如通过等式Eq.6(或甚至以Eq.11、Eq.18或Eq.20的形式)在频域中计算速度矢量V(f)。
在示例性实施例中,应用如下所述计算的权重q(f)以赋予频带f或多或少的重要性。这样的实施例使得可以在其演变是重要的频带中表达速度矢量V(f)。为此,根据U0和V(f)迭代地计算最佳权重。因此,返回到图3A的算法处理,在步骤S6,将各种权重q(f)设置为1。在步骤S7,应用对每个频带的V(f)应用的加权q(f),使得Vbar(f)=q(f)V(f)。在步骤S8,针对每个帧k确定U0,使得:
U0(k)=E(Re(Vbar(f))),其中E(x)在这里作为示例是x的期望值,因此其类似于估计的速度矢量Vbar(f)的实部的所有频率上的平均值。
当然,U0(k)的第一估计是粗略的。通过基于矢量V(f)的虚部使用等式Eq.49计算关于U0(k)的先前确定的权重来迭代地细化,并且其中矢量m是单位矢量,垂直于由矢量U0定义的平面并且垂直于墙壁(例如,图1的方向z)。在步骤S9,也根据U0迭代地估计矢量m,然后在步骤S10中通过Eq.49计算权重。在步骤S7应用所找到的权重,并且细化U0的估计,直到在测试S11的输出处收敛。在这个阶段,已经为不同的帧估计了U0(k)。
U1可以通过上述Eq.41类型的关系从其导出。在这里描述的变型中,U1由Eq.50至Eq.52确定,其先前已经在步骤S12将逆变换IDFT(从频率到时间)应用于在步骤S7找到的矢量Vbar(f),以获得速度矢量的时间表示V(t)。如上面参考图2所见,这样的实施例使得可以在不同反射表面的情况下识别各种延迟TAU1、TAU2等。识别第一延迟TAU1,因为它是在直接路径的接收时刻之后的时间中的V(t)的第一峰值。因此,在等式Eq.51中,tmax(k)是使针对帧k计算的V(t)k的模数最大化的时刻。
在测试S13中,对于每个帧验证V(t=0)的模数远大于针对t>0的V(t)的模数。在步骤S14,丢弃不满足该条件的帧。然后在步骤S15(通过从V(t)k中去除模块,如在Eq.51中与对应于延迟TAU1的那些模块进行比较)确定不同的延迟TAU1,然后TAU2等。考虑到时间t和tmax(k)首先以样本索引表示(将时间零作为零索引的参考),延迟TAUm由在每次迭代m中找到的分量tmax除以根据Eq.52的采样频率fs给出。然后,还可以利用等式Eq.50来计算矢量U1、U2等。
还可以确定其他参数,特别是在步骤S16由等式Eq.28给出的d0(然后通过在测试S17中检查与诸如d0min=0和d0max=5m的常规房间数据的一致性,否则,帧包括错误并且可以在步骤S14处被拒绝)。
步骤S18可以包括进一步选择表示具有第一反射的声音起始的“良好”帧。用于选择此类帧的准则D(k)可借助于示例由等式Eq.53说明,其中C(f)i (k)指定在由帧k的第一变换(时间到频率)产生的时间-频率样本(t,f)处在立体混响通道i上检测到的幅度(绝对值中的振幅)。ε指定非零正值,以避免在没有信号的情况下分母中的零。F指定所使用的频率子带的总数。
因此,在步骤S22,可以在所有帧D(k)的标准中仅选择其标准D(k)不小于在步骤S21中找到的最大值Dmax的90%的帧,所述标准D(k)是从Eq.53计算的。
因此,在步骤S18,计算所有帧的值D(k),然后在步骤S19,处理传递不同帧的U0(k)、d0(k)、D(k)。在步骤S20,收集值D(k)以在步骤S21识别最高值,并且在步骤S22消除值D(k)小于0.9Dmax的帧。
最后,在步骤S23,所选择的矢量U0在这里优选地是各个所选择的帧的矢量U0中的中值(而不是平均值)矢量。所选择的距离d0也是各种所选帧的距离d0中的中值。
当然,本发明不限于上面通过示例描述的实施例;它扩展到其他变型。
上面已经描述了对阶数1的立体混响信号(FOA)的处理的应用。对于空间分辨率方面的富集,阶数可以更高。
实际上,上文已描述阶数1立体混响表示,但可提供更高阶。在这种情况下,速度矢量计算通过分量W(f)上的更高阶的方向分量的比被增加,并且矢量Un隐式地通过同样多的维度被增加。增加维度(超过3)并且因此增加空间分辨率使得可以更好地将矢量U0、U1、...、Un彼此区分开,并且在时间足迹中更容易地检测与(U0-Un)成比例的峰值V(k*TAUn),即使当矢量U0和Un在角度上接近时(这在掠射反射(grazing reflection)的情况下发生(例如,当源远离和/或接近地面时))。因此,这使得可以更精细地估计所寻找的参数U0、U1、d0等。
更一般地,可以用频域中“重合”类型的空间声学表示的分量之间的比来代替速度矢量,并且可以在所述空间表示的坐标系特性中工作。
为了克服例如具有若干源的情况,可以更一般地与人工智能方法(包括神经网络)相关联地利用TDVV的计算。设想的一些训练策略(例如,在来自模型或加窗SRIR的足迹上,并且不一定来自原始信号)可以允许网络学习利用连续帧来改善与给定房间情况相比的检测和估计。
附录
Figure BDA0003681019010000211
Figure BDA0003681019010000212
Figure BDA0003681019010000213
Figure BDA0003681019010000214
Figure BDA0003681019010000215
Figure BDA0003681019010000216
Figure BDA0003681019010000217
Figure BDA0003681019010000218
Figure BDA0003681019010000219
Figure BDA00036810190100002110
Figure BDA00036810190100002111
Figure BDA00036810190100002112
Figure BDA0003681019010000221
Eq.13 g0=1;τ0=0
Figure BDA0003681019010000222
Eq.15 γ0=1
Figure BDA0003681019010000223
Figure BDA0003681019010000224
Figure BDA0003681019010000225
Figure BDA0003681019010000226
Figure BDA0003681019010000227
Figure BDA0003681019010000228
Figure BDA0003681019010000229
Figure BDA00036810190100002210
Figure BDA00036810190100002211
Figure BDA0003681019010000231
Eq.27 d1-d0=τ1c
Figure BDA0003681019010000232
Figure BDA0003681019010000233
Figure BDA0003681019010000234
Figure BDA0003681019010000235
Figure BDA0003681019010000236
Figure BDA0003681019010000237
Figure BDA0003681019010000238
Figure BDA0003681019010000239
Figure BDA00036810190100002310
Figure BDA00036810190100002311
Figure BDA00036810190100002312
Figure BDA00036810190100002313
Figure BDA00036810190100002314
Figure BDA00036810190100002315
Figure BDA00036810190100002316
Figure BDA00036810190100002317
Eq.44 e-αt=e-α(t-τ).e-ατ
Figure BDA00036810190100002318
Figure BDA0003681019010000241
Figure BDA0003681019010000242
Figure BDA0003681019010000243
Figure BDA0003681019010000244
Figure BDA0003681019010000245
Eq.51 tmax(k)=argmaxt>0||V(t)k||
Figure BDA0003681019010000246
Figure BDA0003681019010000247

Claims (15)

1.用于处理由至少一个麦克风获取的声音信号的方法,以用于在包括至少一个墙壁的空间中定位至少一个声源,其中:
-将时间-频率变换应用于所获取的信号,
-根据所获取的信号,在频域中表达速度矢量V(f),其是具有实部和虚部的复数,其中所述速度矢量表征以下之间的合成:
*直接在所述源与所述麦克风之间的第一声学路径,所述第一声学路径由第一矢量U0表示,以及
*由所述墙壁上的反射产生并由第二矢量U1表示的至少一个第二声学路径,
第二路径在所述麦克风处具有相对于直接路径的第一延迟TAU1,
-根据延迟TAU1、第一矢量U0和第二矢量U1,从以下中确定至少一个参数:
*所述直接路径的方向(DoA),
*从所述源到所述麦克风的距离d0,
*从所述源到所述墙壁的距离z0。
2.根据权利要求1所述的方法,其中所述声音信号由立体混响型麦克风获取,并且在频域中的速度矢量V(f)由阶数1的立体混响分量以以下类型的形式表示:
V(f)=1/W(f)[X(f),Y(f),Z(f)]T
3.根据前述权利要求中任一项所述的方法,其中,所述直接路径的方向由所述第一矢量U0根据在频域中表达的所述速度矢量V(f)的实部的一组频率上的平均值来确定(Eq.24)。
4.根据前述权利要求中任一项所述的方法,其中:
-将从频率到时间的逆变换应用于所述速度矢量,以在时域V(t)中表达所述速度矢量,
-在所述直接路径的持续时间之后,寻找作为时间的函数的所述速度矢量的表达式中的至少最大值V(t)max,以及
-由此导出与给出所述最大值V(t)max的时间对应的所述第一延迟TAU1。
5.根据权利要求4所述的方法,其中:
-通过以下类型的关系,根据所述第一矢量U0和根据所述最大值V(t)max来估计所述第二矢量U1:
U1=U0-2(U0.V(t)max)V(t)max/||V(t)max||2
6.根据权利要求5所述的方法,其中:
-确定所述第一矢量U0和所述第二矢量U1相对于所述墙壁的各自的角度PHI0和PHI1,使得:
PHI0=arcsin(U0.nR)和PHI1=arcsin(U1.nR),其中nR是单位矢量并且垂直于所述墙壁,以及
-所述源与所述麦克风之间的距离d0根据所述第一延迟TAU1通过以下类型的关系来确定:
d0=(TAU1xC)/((cosPHI0/cosPHI1)-1),其中C是声速。
7.根据权利要求6所述的方法,其中,从所述源到所述墙壁的距离z0通过以下类型的关系来确定:
z0=d0(sinPHI0-sinPHI1)/2
8.根据前述权利要求中任一项所述的方法,其中,所述空间包括多个墙壁,并且:
-将从频率到时间的逆变换应用于所述速度矢量,以在时域V(t)中以一系列峰值的形式表示它(Eq.39,图2),
-在所述一系列峰值中,识别与所述多个墙壁中的墙壁上的反射相关联的峰值,每个所识别的峰值具有时间横坐标,所述时间横坐标是由对应墙壁n上的反射产生的声学路径相对于所述直接路径的第一延迟TAUn的函数,
-根据每个第一延迟TAUn、第一矢量U0和表示由墙壁n上的反射产生的声学路径的每个第二矢量Un,从以下中确定至少一个参数:
*所述直接路径的方向(DoA),
*从所述源到所述麦克风的距离d0,以及
*从所述源到所述墙壁n的至少距离zn。
9.根据权利要求8所述的方法,其中,与墙壁n上的反射相关联的峰值具有时间横坐标,所述时间横坐标是与该墙壁n相关联的延迟TAUn的倍数。
10.根据权利要求8和9中的一项所述的方法,其中,预先选择在最小正时间横坐标处的峰值的第一部分,以便在所述部分中识别每个与墙壁上的反射相关联的峰值。
11.根据前述权利要求中一项所述的方法,其中,所获取的信号以连续的样本帧的形式递送,并且其中:
-对于每个帧,估计(S18)所述帧中存在声音开始的分数(Eq.53),以及
-选择(S22)具有高于阈值的得分的帧以用于确定所述至少一个参数。
12.根据前述权利要求中一项所述的方法,其中,由所述麦克风获取的信号是一系列样本的形式,加权窗口被应用于具有随时间减少的指数变化的所述样本(图5A)。
13.根据前述权利要求中一项所述的方法,其中,根据(Eq.49)类型的表达式,将各自与频带f相关联的加权q(f)迭代地应用(S7,S8,S9,S10,S11)到频域中的速度矢量V(f):
q(f)=exp(-|Im(V(f)).m|/(||Im(V(f))||),
其中,Im(V(f))是所述速度矢量复数的虚部,并且m是垂直于由矢量U0和墙壁的法线(z,图1)限定的平面的单位矢量。
14.用于处理声音信号的设备,包括用于实现根据前述权利要求中一项所述的方法的处理电路。
15.计算机程序,包括指令,当所述指令由处理电路的处理器执行时,用于实现根据权利要求1至13中的一项所述的方法。
CN202080084830.0A 2019-10-18 2020-10-05 声源的改进定位 Pending CN114830686A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FRFR1911723 2019-10-18
FR1911723A FR3102325A1 (fr) 2019-10-18 2019-10-18 Localisation perfectionnée d’une source acoustique
PCT/FR2020/051742 WO2021074502A1 (fr) 2019-10-18 2020-10-05 Localisation perfectionnee d'une source acoustique

Publications (1)

Publication Number Publication Date
CN114830686A true CN114830686A (zh) 2022-07-29

Family

ID=69903262

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080084830.0A Pending CN114830686A (zh) 2019-10-18 2020-10-05 声源的改进定位

Country Status (5)

Country Link
US (1) US12025720B2 (zh)
EP (1) EP4046390A1 (zh)
CN (1) CN114830686A (zh)
FR (1) FR3102325A1 (zh)
WO (1) WO2021074502A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3102325A1 (fr) * 2019-10-18 2021-04-23 Orange Localisation perfectionnée d’une source acoustique
FR3132960A1 (fr) 2022-02-18 2023-08-25 Orange Localisation d’une source acoustique en mouvement
FR3143932A1 (fr) * 2022-12-15 2024-06-21 Orange Obtention d’une réponse impulsionnelle d’une salle

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107102296A (zh) * 2017-04-27 2017-08-29 大连理工大学 一种基于分布式麦克风阵列的声源定位***
CN107271963A (zh) * 2017-06-22 2017-10-20 广东美的制冷设备有限公司 声源定位的方法和装置及空调器
CN108828525A (zh) * 2018-06-25 2018-11-16 大连大学 混响房间内分布式麦克风阵列多声源定位***
CN110082725A (zh) * 2019-03-12 2019-08-02 西安电子科技大学 基于麦克风阵列的声源定位时延估计方法、声源定位***

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110317522A1 (en) * 2010-06-28 2011-12-29 Microsoft Corporation Sound source localization based on reflections and room estimation
FR3102325A1 (fr) * 2019-10-18 2021-04-23 Orange Localisation perfectionnée d’une source acoustique
FR3116348A1 (fr) * 2020-11-19 2022-05-20 Orange Localisation perfectionnée d’une source acoustique
FR3132960A1 (fr) * 2022-02-18 2023-08-25 Orange Localisation d’une source acoustique en mouvement

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107102296A (zh) * 2017-04-27 2017-08-29 大连理工大学 一种基于分布式麦克风阵列的声源定位***
CN107271963A (zh) * 2017-06-22 2017-10-20 广东美的制冷设备有限公司 声源定位的方法和装置及空调器
CN108828525A (zh) * 2018-06-25 2018-11-16 大连大学 混响房间内分布式麦克风阵列多声源定位***
CN110082725A (zh) * 2019-03-12 2019-08-02 西安电子科技大学 基于麦克风阵列的声源定位时延估计方法、声源定位***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
PAULO FELISBERTO ET AL: ""Experimental Results of Underwater Cooperative Source Localization Using a Single Acoustic Vector Sensor"", SENSORS, vol. 13, no. 7, 12 July 2013 (2013-07-12), pages 8856 - 8878, XP055701417, DOI: 10.3390/s130708856 *

Also Published As

Publication number Publication date
WO2021074502A1 (fr) 2021-04-22
US12025720B2 (en) 2024-07-02
EP4046390A1 (fr) 2022-08-24
FR3102325A1 (fr) 2021-04-23
US20230026881A1 (en) 2023-01-26

Similar Documents

Publication Publication Date Title
US20240233719A1 (en) Audio recognition method, method, apparatus for positioning target audio, and device
RU2555188C2 (ru) Устройство, система (варианты), способ получения информации о направлении и компьютерный программный продукт
TWI530201B (zh) 經由自抵達方向估值提取幾何資訊之聲音擷取技術
RU2596592C2 (ru) Пространственный аудио процессор и способ обеспечения пространственных параметров на основе акустического входного сигнала
CN114830686A (zh) 声源的改进定位
KR101591220B1 (ko) 공간적 전력 밀도에 기초하여 마이크 위치 결정을 위한 장치 및 방법
US9361907B2 (en) Sound signal processing apparatus, sound signal processing method, and program
RU2640742C1 (ru) Извлечение реверберирующего звука с использованием микрофонных массивов
EP3210391B1 (en) Reverberation estimator
EP0594098A1 (en) Method for the location of a speaker and the acquisition of a voice message, and related system
CN113113034A (zh) 用于平面麦克风阵列的多源跟踪和语音活动检测
US11930331B2 (en) Method, apparatus and device for processing sound signals
US10393571B2 (en) Estimation of reverberant energy component from active audio source
US20240012093A1 (en) Improved location of an acoustic source
US11170139B1 (en) Real-time acoustical ray tracing
Lovedee-Turner et al. Three-dimensional reflector localisation and room geometry estimation using a spherical microphone array
US20230116052A1 (en) Array geometry agnostic multi-channel personalized speech enhancement
US10375501B2 (en) Method and device for quickly determining location-dependent pulse responses in signal transmission from or into a spatial volume
CN114927141B (zh) 异常水声信号的检测方法及***
Nakano et al. Automatic estimation of position and orientation of an acoustic source by a microphone array network
Pertilä Acoustic source localization in a room environment and at moderate distances
Firoozabadi et al. Combination of nested microphone array and subband processing for multiple simultaneous speaker localization
Pessentheiner et al. Localization and characterization of multiple harmonic sources
US11835625B2 (en) Acoustic-environment mismatch and proximity detection with a novel set of acoustic relative features and adaptive filtering
US11997474B2 (en) Spatial audio array processing system and method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination