CN102257401A

CN102257401A - 使用粒子滤波估计声源地点

Info

Publication number: CN102257401A
Application number: CN200980150679XA
Authority: CN
Inventors: W.P.李; B.E.萨劳克; L.C.A.范斯图文伯格; C.P.詹塞
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV; MediaTek Inc
Priority date: 2008-12-16
Filing date: 2009-12-11
Publication date: 2011-11-23
Anticipated expiration: 2029-12-11
Also published as: JP5608678B2; EP2380033B1; KR20110102466A; US20110232989A1; US8403105B2; WO2010070556A3; JP2012512413A; CN102257401B; RU2011129602A; EP2380033A2; WO2010070556A2; RU2511672C2; KR101659712B1

Abstract

通过粒子滤波估计声源地点，其中粒子的集合表示对于包括声源地点的状态变量的概率密度函数。该方法包括响应于从声源到至少两个声音记录位置的估计的声学传递函数之间的相关性，确定粒子的权重。具体地可以确定性地从该相关性确定权重更新函数，因此该相关性可以被用作对于粒子滤波的测量函数的伪似然函数。可以从朝向声源的音频波束形成确定声学传递函数。音频权重可以与视频权重相组合以产生多模式粒子滤波方法。

Description

使用粒子滤波估计声源地点

技术领域

本发明涉及使用粒子滤波对声源地点（location）的估计，具体地但不排外地涉及针对多模式（modal）视听通信应用估计声源地点。

背景技术

对声源地点的位置检测对许多服务和应用是重要的。例如，在视听电话会议应用中，可以通过例如经由使用估计的说话者位置来操纵波束的波束形成（beamforming）技术增强语音信号来检测说话者的位置而实现改进的性能。作为另一例子，例如可以通过拉近估计的说话者位置来增强视频。

因而已经开发了用于估计声源地点的***和算法。具体地，已经提出使用粒子滤波技术来估计和跟踪声源位置。粒子滤波设法估计反映对于连续时刻的***当前状态的状态变量的值。例如，粒子滤波可以设法估计表示声源位置的状态变量的值。但是，不是仅考虑单个值或估计，粒子滤波考虑在每个时刻的状态变量的概率密度。粒子滤波是基于顺序方法的，在该顺序方法中，基于先前（采样）时刻的状态变量值来确定对于给定（采样）时刻的状态变量值。由于在某时刻的状态变量由其概率密度函数表示（因此反映在对状态变量值的了解/估计中的不确定性），这原则上涉及根据先前时刻的概率密度函数来确定该时刻的概率密度函数。

但是，在许多情况下，这在分析上是不实际的、不可行的甚至是不可能的。例如，对于具有非高斯噪声的非线性***，基于先前时刻的概率密度函数计算在给定时刻的概率密度函数是不可行的。粒子滤波通过由其中每个粒子表示状态变量的可能值的粒子集合表示概率密度函数而解决了该问题。然后通过基于已知的状态变量更新函数而计算先前时刻的每个粒子的更新的状态变量值来确定给定时刻的概率密度函数。该粒子的更新还可以根据适当的噪声概况添加噪声。

此外，每个粒子具有相关联的权重，该权重表示粒子的似然度量。基于***的测量在从一个时刻到下一时刻的更新中修改粒子的权重。因此，假设可以从状态变量值（例如通过测量函数）估计或计算测量值。该关系具体地可以包括根据已知的（或假设的）噪声概况的噪声贡献。从而，可以将粒子的权重修改为该更新的函数。具体地，如果进行的实际测量具有从更新的状态变量值得到的（如使用测量函数估计的）相对高的概率，则粒子的权重相对先前权重增加。相反，如果进行的实际测量具有从更新的状态变量值得到的相对低的概率，则粒子的权重相对于先前权重减小。

因此，作为从一个时刻到下一时刻的粒子更新的部分，粒子的权重被修改以反映给定的粒子有多大可能导致新的测量。因此，持续地更新权重以反映各个粒子对应于导致测量值的实际状态值的可能性。

因此，在粒子滤波中，每个粒子可以被认为是状态变量的概率密度函数的离散采样。

权重通常将朝向状态变量的概率密度函数收敛。但是，粒子滤波方法可能经常导致权重退化（degenerating），使得大量权重结束时具有很小的值，而其他的具有大的值。换句话说，粒子滤波可能导致信息集中在相对低比例的粒子中。为了解决此问题，可以进行重采样，其中产生提供采样粒子的更平均的分布的新采样。该方法对应于重要性采样方法，并将导致更多粒子集中在概率密度函数具有相对高的值的区域并且更少粒子处于其中概率密度函数具有较低值的区域中。

作为具体例子，可以通过计算每粒子的平均权重然后产生每个粒子被分配了该权重的新粒子集合来进行重采样。但是，该新粒子集合将被分布为反映各粒子的先前权重。作为具体例子，每个粒子可以被分割成具有（近似）相同的状态变量值的多个粒子，新采样的数量被给出为粒子的权重除以平均权重。这还将导致大量粒子被从该粒子集合中删除（并被对于具有以上平均权重的粒子的复制粒子所替换）。

因此，在任意给定的时刻处，状态变量的概率密度函数由粒子表示，并具体地由粒子的分布（即其状态变量值的重要性采样）及其权重的组合表示。

然后可以通过每个值被粒子权重加权的粒子值的和来确定状态变量值的单个估计。因此，从离散采样的概率密度函数（每个采样对应于一个粒子）的积分（加权和）来估计状态变量。

关于粒子滤波的更多信息可以例如在M.Sanjeev Arulampalam等人的“A Tutorial on Particle Filters for Online Nonlinear/Non-Gaussian Bayesian Tracking”，IEEE Transactions On Signal Processing，vol.50，no.2，2002年2月中找到。

但是，粒子滤波的问题是，粒子的权重的充分准确的更新对于获得充分可靠的结果是至关重要的。确实，对于声源地点，例子权重和分布的自适应高度取决于适当的测量以及准确地反映状态变量与真实声源位置之间的关系的测量函数。但是，当前应用得最多的测量技术和函数趋向于导致次最优结果。

因此，使用粒子滤波的改进的声源地点估计将是有利的，特别是允许增加的灵活性、降低的复杂性、增加的准确性和/或改进的性能的方法将是有利的。

发明内容

因而，本发明设法优选地单独或以任意组合减轻、缓和或消除上述缺点中的一个或多个。

根据本发明的一个方面，提供了一种通过粒子滤波估计声源的声源地点的方法，该方法包括：重复产生对于某时刻的粒子集合的步骤，该粒子集合表示对于包括声源地点的状态变量在该时刻的概率密度函数；该步骤包括对于该粒子集合的每个粒子：响应于粒子先前时刻的状态值而产生粒子在所述时刻的状态值，以及响应于粒子先前时刻的权重以及在所述时刻的测量而产生粒子在所述时刻的权重；以及响应于该粒子集合在第一时刻的状态值的组合而产生包括对于该第一时刻的声源地点估计的状态变量估计，来自所述粒子集合中的每个粒子的贡献取决于该粒子的权重；其中产生粒子在所述时刻的权重的步骤包括：响应于对于第一时刻的从声源到至少两个声音记录位置的估计的声学传递函数之间的相关性，确定该权重。

本发明可以提供对声源地点的改进估计，并具体地可以允许用于估计声源地点的有效和/或准确的粒子滤波方法。此外，可以使用实用的并且低复杂性的方法。具体地，可以实现用于估计声学数据或测量并将其合并到基于粒子滤波的声源地点估计的低复杂性和/或低资源需求的方法。

状态变量具体地可以包括表示声源地点的一个或多个变量（比如坐标集合）。在一些实施例中状态变量可以包括不表示声源地点的其他变量。因此状态变量可以包括多个单独的变量或参数。状态值可以包括多个单独的参数或变量值。例如，状态值可以是例如标量值或复值的向量。

声学传递函数具体地可以由其脉冲响应来表示。

根据本发明的可选特征，产生权重的步骤包括：响应于对于与粒子的状态值对应的延迟的相关性的值，确定粒子的权重。

这可以提供基于粒子滤波的对声源地点的改进的和/或便利的估计。具体地，本发明可以允许对于粒子滤波的改进的权重更新。相关性具体地可以提供测量对粒子概率的影响的高度有利的反映。此外，本发明人已经认识到，对于与由状态值表示的位置对应的延迟的相关性的值可以提供对于声源的实际位置的概率与由该状态值表示的位置的概率相匹配的可靠指示。

根据本发明的可选特征，权重具有与所述相关性值的确定性关系。

这可以提供基于粒子滤波的对声源地点的改进的和/或便利的估计。具体地，本发明可以允许对于粒子滤波的改进的权重更新。相关性具体地可以提供测量对粒子概率的影响的高度有利的反映。此外，本发明人已经认识到，对于与由状态值表示的位置对应的延迟的相关性的值可以提供对于声源的实际位置的概率与由该状态值表示的位置的概率相匹配的可靠指示。具体地，本发明人已经认识到，与用于权重更新的测量函数相关联的不确定性和/或噪声可以由相关性对于不同延迟的变化来表示。因此，该噪声和/或不确定性可以由相关性来表示，而不考虑其他噪声或随机贡献。

根据本发明的可选特征，所述确定性关系是非线性的。

该特征可以提供改进的声源地点估计，并且具体地可以导致由相关性对测量过程中的噪声和不确定性的改进表示。具体地，该方法可以允许由相关性对针对测量函数的概率密度函数的更接近的表示。

根据本发明的可选特征，产生权重的步骤包括：响应于粒子先前时刻的权重，使用该相关性作为对于与该粒子在所述时刻的权重有关的权重更新函数的伪似然函数的指示。

根据本发明的可选特征，声源位置由二维平面中的二维位置表示。

本发明可以提供在二维中的有效和/或准确的声源地点，这具体地可以适合于包括例如组合的音频和视觉应用的诸如电话会议的许多应用。

根据本发明的可选特征，该方法还包括：从覆盖了包括所述声源的环境的摄像机接收至少一个图像；以及其中所述二维位置是所述至少一个图像中的位置。

本发明可以提供声源地点估计以及诸如视频应用的图像应用的特别准确的集成。具体地，本发明可以提供音频和视觉处理的特别有利的组合，并且可以允许例如声源在捕获的图像中的改进的定位。

摄像机可以被定位为捕获还由在第一和第二声音记录位置处的声音记录元件覆盖的区域。例如，摄像机可以置于在各声音记录位置处的两个麦克风之间。

根据本发明的可选特征，产生权重的步骤包括：响应于对于粒子的图像域测量，产生第一权重贡献，以及响应于所述相关性，产生第二权重贡献，以及将权重产生为第一权重和第二权重的组合。

本发明可以提供用于基于多模式粒子滤波方法确定声源的地点的特别有利的方法。

根据本发明的可选特征，该方法还包括：响应于所述相关性，产生对于第一权重贡献的置信度指示；以及响应于该置信度指示，相对于第二权重贡献，调整第一权重贡献在所述组合中的贡献。

本发明可以提供基于多模式粒子滤波方法的对声源的地点的改进估计，并且具体地可以提供来自音频域和来自视频/视觉域的贡献的改进的集成。

根据本发明的可选特征，进行朝向声源位置的音频波束形成以及响应于该音频波束形成估计传递函数的步骤。

这可以提供估计适当的声学传递函数的特别合适的方式，并可以允许改进性能和/或降低复杂性。

根据本发明的可选特征，产生权重的步骤包括：响应于对于第一时刻的从声源到所述至少两个声音记录位置之一的估计的声学传递函数以及从声源到另一声音记录位置的估计的声学传递函数之间的第二相关性，确定权重；另一声音记录位置相对于所述至少两个声音记录位置之间的线而偏移。

该特征可以允许改进的声源地点估计，并且在许多实施例中可以允许改进的二维声源地点。

根据本发明的可选特征，产生权重的步骤包括：接收来自至少两个声音记录位置的第一位置处的声音记录元件的第一信号；接收来自至少两个声音记录位置的第二位置处的声音记录元件的第二信号；以及响应于第一信号和第二信号估计声学传递函数。

该特征可以允许改进的声源地点估计。

根据本发明的可选特征，产生权重的步骤包括：在第一自适应滤波器中滤波第一信号以产生第一经滤波信号；在第二自适应滤波器中滤波第二信号以产生第二经滤波信号；对第一和第二经滤波信号求和以产生组合的定向信号；以及设置第一自适应滤波器和第二自适应滤波器的系数以产生组合的定向信号，使得对于该组合的定向信号的声源分量的功率估计被最大化；以及响应于第一自适应滤波器和第二自适应滤波器的系数，估计声学传递函数。

该特征可以提供改进的声源地点估计，并且具体地可以提供对适当的相关性函数的特别有利的确定。该方法具体地可以允许对用于确定粒子的权重更新的适当的相关性函数的低复杂性且仍准确的确定。

根据本发明的可选特征，产生权重的步骤包括：在第三自适应滤波器中滤波组合的定向信号以产生第三经滤波信号，第三自适应滤波器的传递函数对应于第一自适应滤波器的延迟被充分补偿的复共轭传递函数；确定第一信号和第三经滤波信号之间的差信号；以及适配第一自适应滤波器的传递函数以减小差信号。

该特征可以允许改进的声源地点估计，并且具体地可以提供对适当的相关性函数的特别有利的确定。该方法具体地可以允许对用于确定粒子的权重更新的适当的相关性函数的低复杂性且仍准确的确定。

根据本发明的一个方面，提供了一种通过粒子滤波估计声源的声源地点的装置，该装置包括：用于重复产生对于某时刻的粒子集合的步骤的部件，该粒子集合表示对于包括声源地点的状态变量在该时刻的概率密度函数；该步骤包括对于该粒子集合的每个粒子：响应于粒子先前时刻的状态值而产生粒子在所述时刻的状态值，以及响应于粒子先前时刻的权重以及在所述时刻的测量而产生粒子在所述时刻的权重；以及用于响应于该粒子集合在第一时刻的状态值的组合而产生包括对于该第一时刻的声源地点估计的状态变量估计的部件；其中产生粒子在所述时刻的权重的步骤包括：响应于对于第一时刻的从声源到至少两个声音记录位置的估计的声学传递函数之间的相关性，确定该权重。

本发明的这些和其他方面、特征和优点将从下文所述的实施例变得明显并参考这些实施例阐述。

附图说明

参考附图将仅通过例子描述本发明的实施例，附图中

图1是根据本发明的一些实施例的电话会议***的例子的图示；

图2是由图1所示的电话会议***捕获的图像的例子的图示；

图3是根据本发明的一些实施例的电话会议装置的例子的图示；

图4是根据本发明的一些实施例的声源估计的方法的例子的图示；

图5是根据本发明的一些实施例的确定声源估计中的权重的方法的例子的图示；

图6是根据本发明的一些实施例的用于声源估计的权重更新函数的例子的图示；

图7是根据本发明的一些实施例的用于声源估计的权重更新函数的例子的图示；

图8是根据本发明的一些实施例的确定声源估计中的权重的方法的例子的图示；以及

图9是根据本发明的一些实施例的电话会议装置的例子的图示。

具体实施方式

以下描述关注可应用于对还接收视频输入的电话会议***的声源地点估计的本发明的实施例。但是，将认识到，本发明不限于此应用，而是可以应用于许多其他应用和***。

以下描述将具体关注诸如图1所示的电话会议***。图1图示其中参与电话会议会话的单个用户101被电话会议装置103使用用于捕获音频的一对声音记录元件（以麦克风105、107的形式）和用于捕获视频的摄像机109捕获的情景。该电话会议装置103耦接到通信***（未示出）由此允许用户参与与远程用户的电话会议会话。该电话会议应用具体地可以是视频电话会议应用。

在该***中，该电话会议装置103因此产生包括来自麦克风105、107和摄像机109捕获的信号的音频和视频的视听信号。然后可以经由通信***（未示出）将该视听信号传送到远程用户。

在该例子中，麦克风105、107位于彼此相对靠近的声音记录位置。在许多实施例中，距离可以有利地小于到声源（本例子中是说话者101）的距离的十分之一和/或可以小于51cm。这在许多情景下可以允许由麦克风捕获的音频被认为是来自于可以有助于和/或改进以下描述的处理的平面声波。具体地，其可以有助于和/或改进声源估计。

在该例子中，摄像机109位于两个麦克风105、107之间，并具体地基本位于麦克风105、107之间的中间处并基本在由两个声音记录位置所限定的轴上。

在该***中，电话会议装置103被安排为估计声源地点，其在此具体例子中是说话者101的地点。因此，电话会议装置103将设法检测和跟踪源自该说话者的声音的地点。此外，在该例子中，在二维平面内检测声源的地点，即进行二维而不是三维声源地点估计。在该例子中，二维平面是可以被认为对应于由摄像机109所拍摄的图像限定的平面的平面。

图2图示可以由摄像机109捕获的图像的例子。该图像例如可以是视频信号的单个图像/帧。由说话者101构成的声源在该图像中的位置在此情况下可以被定义为图像位置（x,y），其中x表示水平图像位置并且y表示垂直位置。

图1的电话会议装置103设法确定声源/说话者101在该图像中的地点（即坐标（x,y））。然后估计的声源地点可以用于优化电话会议装置103的操作，并且可以具体地用于操纵音频波束形成或者对声源（例如说话者101）进行拉近（zoom in）。

将认识到，在其他实施例中，可以根据所描述的原理和方法估计其他声源地点。还将认识到，所描述的方法可以用于使用其他参考构架来确定声源地点，特别是可以使用其他二维或三维参考坐标***。例如，在其他例子中可以确定真实的空间二维或三维位置。

电话会议装置103具体地使用粒子滤波方法用于持续地估计和跟踪说话者101在该图像中的位置。图3更详细地图示电话会议装置103的元件。具体地，电话会议装置103包括粒子滤波处理器301，其被安排为执行粒子滤波算法。粒子滤波处理器301耦接到位置估计处理器303，该位置估计处理器303被安排为基于从粒子滤波处理器301接收的粒子数据来产生说话者位置的估计。

该电话会议装置103还包括音频处理器305，其从两个麦克风105、107接收信号并耦接到粒子滤波处理器301。该电话会议装置103还包括视频处理器307，其从摄像机109接收信号并耦接到粒子滤波处理器301。该粒子滤波处理器301进行的粒子滤波是基于麦克风105、107进行的音频测量，并且可选地基于摄像机109进行的视频测量。

图4图示确定声源地点的粒子滤波的方法的例子。该方法具体地由电话会议装置103实现并用于估计说话者101的图像位置。

该方法开始于步骤401，其中算法被初始化。具体地，产生对于状态变量的粒子集合。该状态变量表示***的基本（正确的）状态，并在该具体例子中表示（consist in）说话者的（正确的）图像位置（例如（x,y）坐标）。但是，不是维持和跟踪对于该状态变量（位置）的单个估计值，而是粒子滤波方法维持表示对该状态变量的概率分布函数的离散表示的数量N的粒子。每个粒子具有表示由该粒子代表的状态变量的值的状态值（在该具体情况下，该状态值对应于在图像中的具***置）。此外，该粒子具有相关的权重，该相关的权重指示单独的粒子将对基于所有粒子确定单个估计状态值所做的贡献。具体地，通过所有粒子的状态值的加权和确定该状态值（在该具体例子中是在图像中的位置）。该概率密度函数由粒子的分布（这是由于重新采样可能向具有高概率的区域集中）与每个粒子的各自权重一起表示。

在步骤401，粒子滤波处理器301通过选取（draw）一组N个粒子表示初始粒子来开始粒子滤波。根据适当的分布选取粒子。例如，在一些实施例中，可以基于与关于该状态变量的实际概率分布函数没有信息可用对应的均匀分布来选取初始粒子。在其他实施例中，可以使用估计的或预期的分布。例如，在该具体例子中，说话者101很可能将位于朝向图像的中央，因此可以根据具有朝向图像的中央的较高概率的分布来选取粒子。因此，可以产生粒子位置在图像中的分散，其中朝向屏幕的中央具有增加的集中度或密度。在该具体例子中，为每个粒子给出相同的初始标定权重（将认识到，在其他实施例中，非均匀分布可以部分地或完全由变化的权重表示）。

因此，在步骤401中，粒子滤波处理器301继续产生表示对于包括声源地点的（或在该具体例子中由声源地点组成的）状态变量的概率密度函数的初始粒子集合。

该粒子滤波处理器301然后继续通过基于先前（采样）时刻的值计算对于随后的（采样）时刻的粒子值和权重来反复开发各粒子。具体地，假设状态变量更新函数（至少近似地）已知为：

Figure 200980150679X100002DEST_PATH_IMAGE001

。

其中X表示状态变量，T表示当前（采样）时刻，T-1表示先前（采样）时刻并且n_u表示噪声。在该具体例子中，可以假设说话者不移动，因此状态变量更新函数可以简单地被认为是：

。

其中n具有表示噪声的适当分布（例如对应于说话者101移动的不确定性）。该噪声具体地可以是非高斯的（例如其可以表示用户将朝向图像的中央移动的增大的概率）。

因此，在步骤401后跟随着步骤403，其中依据先前时刻的状态值确定每个粒子的每个状态值。具体地，粒子滤波处理器301可以将以上等式应用于所有粒子以生成当前时刻T的更新的粒子集合。

在步骤403后跟随着步骤405，其中对于在更新的粒子集合中产生的每个粒子来更新权重。根据先前时刻粒子的权重加上反映说话者的位置的测量来产生粒子的权重。具体地，粒子的权重取决于测量可能得自于其中状态变量具有粒子的状态值的***的可能性。因此粒子的更新的权重可以被确定为：

。

其中n_m表示噪声以及与测量相关联的不确定性。将认识到，在不同的实施例和应用中，可以使用不同的测量函数g。但是，在许多情境下，通过测量可能源自状态变量的概率来简单地缩放（scale）先前时刻的权重是合适的：

。

其中U_T表示在时刻T的测量。

在图1的***中，粒子的更新的权重被计算为：

Figure 200980150679X100002DEST_PATH_IMAGE005

。

其中q_t可以提供概率性值的合理假设。稍后将详细描述该方法。

在将权重应用于各个粒子之后，可以进行权重的归一化。

在此例子中步骤405后跟随着步骤407，其中计算单个估计的状态值。因此，基于表示状态变量的概率密度函数的离散采样的粒子，计算单个估计的状态变量值。因此，粒子的状态值被组合以产生单个估计，其中每个粒子的贡献取决于粒子的权重。

具体地，由估计处理器303将说话者101的单个图像位置产生为通过粒子的权重加权的粒子的图像位置的加权和。因此，通过图像位置的概率密度函数的离散积分（和）确定平均估计位置。然后该声源地点估计可以用于优化电话会议装置的处理。

在粒子滤波中，粒子分布在许多情况下可能趋向于简并（degenerate），使得某些粒子具有非常高的权重值，而其他的降低到非常小的权重值。因此粒子的分布将经常趋向以下分布：其中许多粒子提供状态变量的基本概率分布函数的相对少的信息。

从而，粒子滤波处理器301使用的滤波算法包括重采样粒子使得粒子的分布（和权重）被修改以提供重要的粒子的更高的集中度而不改变概率分布函数的基本表示的手段。

因此，步骤407后跟随着步骤409，其中确定是否需要重采样。如果不需要，则该方法前进到步骤413，其中***继续选择下一采样。然后该方法返回到步骤403并对下一采样时刻继续重复该粒子滤波步骤。如果需要重采样，则该方法前进到步骤415，其中在该方法前进到步骤413和403以对下一采样时刻重复滤波之前进行重采样。

将认识到，可以在不背离本发明的情况下使用用于确定需要重采样的任何适当的标准。例如，如果权重的方差超过给定阈值则可以进行粒子的重采样。

还将认识到，用于重采样的不同方法对本领域技术人员将是已知的，并且可以在不背离本发明的情况下使用任何适当的方法。

例如，在一些实施例中，可以从由粒子表示的概率分布函数来创建累积的概率分布函数。然后可以通过使用该累积概率分布函数以从均匀分布转换到反映该累积概率分布函数并因此反映概率分布函数的分布来选取适当数量N的粒子。然后可以对每个得到的粒子给出相同的权重，使得就在重采样之后的粒子集合通过粒子的分布而不是其权重来表示状态变量的概率分布函数。

作为另一例子，重采样可以移除在给定阈值以下的所有粒子，并可以将具有较高权重的粒子划分成反映权重的多个粒子。例如，具有高权重的粒子可以被划分成具有相同（或非常相似）状态值并且权重等于先前权重除以M的M个粒子。

在该方法中，响应于从声源到由两个麦克风105、107表示的至少两个声音记录位置的估计的声学传递函数之间的对于第一时刻的相关性而确定在某时刻粒子的权重。

具体地，图5更详细地图示步骤405。步骤405开始于步骤501，其中确定从说话者101到第一麦克风105的记录位置的第一声学传递函数。

在该例子中，根据第一麦克风105测量的音频信号来估计声学传递函数，具体地，基于由第一麦克风105捕获的来自说话者101的语音信号来估计声学传递函数。该传递函数具体地由声学路径的脉冲响应来表示。

将认识到，可以使用估计当前声学传递函数的任何适当的方法。例如，在一些实施例中，说话者101可以另外地向位于说话者嘴边的（例如安装在耳机上的）麦克风说话，并且可以通过比较在此麦克风处记录的音频信号与由第一麦克风105记录的音频信号来估计声学传递函数。

步骤501后跟随着步骤503，其中确定从说话者到第二麦克风107的记录位置的第二声学传递函数。可以使用与针对第一声学传递函数相同的方法。

因而两个传递函数表示从说话者101到两个麦克风105、107的声学路径中的相对变化。具体地，每个传递函数可以包含反映相对延迟的信息，因此可以包含反映从说话者101到麦克风105、107每个的路径长度的信息。因此声学传递函数取决于说话者101的地点。

步骤503后跟随着步骤505，其中确定两个声学传递函数之间的相关性。具体地，相关性函数可以被确定为：

Figure 200980150679X100002DEST_PATH_IMAGE007

。

因此，该相关性函数指示该传递函数对于给定的相对延迟偏移多好地匹配。给定延迟偏移可以对应于从两个麦克风105、107到说话者101的路径之间的路径长度偏移。在不存在任何噪声、反射、估计误差、量化误差等时，该相关性函数将对应于单个Dirac脉冲。但是，在实际情况下，噪声源、反射、估计不准确性、干扰、量化等导致基本上是扩散的实际相关性函数。因此，本发明的发明人已经认识到对于给定延迟的相关性值可以被感知为对从两个麦克风105、107到（主要）声源的路径之间的路径差对应于该相对延迟差的可能性的指示。本发明人还认识到，对于粒子滤波更新的权重更新可以基于该感知的（伪）似然函数。

因此，在图1的***中，声学传递函数之间的相关性被用于更新权重，并具体地可以用于产生可以被认为表示概率性值的值。因此，在该***中，响应于在两个记录位置（即两个麦克风105、107）处的捕获的信号而产生的声学传递函数可以被用作用于更新权重的测量，具体地，该相关性函数可以直接或间接被用作权重更新函数的伪似然函数，其中该权重更新函数将在给定时刻粒子的权重与先前时刻该粒子的权重相联系。

具体地，对于图像中的给定位置（x, y），可以使用简单的几何学来容易地确定来自两个麦克风105、107的路径长度之间的相应的相对延迟偏移（假设说话者处于给定距离）。将认识到，如果两个麦克风105、107之间的距离相对于到声源的距离来说非常小，则到达麦克风的声波可以被感知为基本是平面声波，并且可以忽略取决于到说话者101的距离的相对延迟的变化。换句话说，在许多实施例中，可以忽略到说话者的距离，并且对于给定的图像位置可以直接确定延迟。因此，对于给定的变量值，即对于给定的图像位置（x, y），可以计算相应的延迟。然后可以获得对于此延迟的（归一化的）相关性值。然后可以通过该相关性值的绝对值例如直接缩放粒子的先前权重，以产生新的更新的权重。因此，该更新将反映声学传递函数之间的测量的相关性与对应于该图像位置的延迟相匹配的可能性。

在图5的具体例子中，步骤505后跟随着步骤507，其中从该相关性确定权重测量函数。具体地，在一些实施例中，与（可选地为归一化的）相关性函数对应的先前权重的缩放可以直接被用作测量函数。

但是，在其他实施例中，确定性的（即非随机的）函数可以被应用于相关性函数。例如，非线性运算可以应用于相关性函数。非线性函数可以具体地增加相关性函数中的变化，并且适当的非线性函数可以包括例如：

Figure 200980150679X100002DEST_PATH_IMAGE009

。

其中K通常可以被选择为2、3、或4。

已经发现这样的非线性关系提供在许多实施例中提供对于适当的测量概率函数的更准确近似的测量函数，因此已经发现其提供改进的运算和声源地点估计。

图6图示对于作为显示位置的函数的权重更新函数的缩放值的例子。在该具体例子中，该缩放值对应于与该图像位置对应的延迟的相关性值。

图7图示对于作为与图6的例子对应的但是在应用了非线性运算之后的显示位置的函数的权重更新函数的缩放值的例子。

步骤507后跟随着步骤509，其中确定粒子的权重值。具体地，根据以下确定粒子的新权重：

。

其中q_t是对与粒子的图像位置（x, y）对应的延迟确定的测量函数的缩放。

在先前描述的例子中，使用根据两个麦克风105、107的单个相关性。此外，假设麦克风105、107的轴与图像的X轴对准，因而相应的传递函数之间的相对延迟（近似地）与y位置无关。因此，如图6和7中所例示，对于不同的y位置，相应的缩放因子是恒定的，因为相关性函数与x轴对准并且对于y轴是恒定的。换句话说，相关性函数以及因此权重更新函数是一维的。

但是，在其他实施例中，可以包括第三麦克风，其可以位于第一和第二麦克风105、107的轴之外（即不与它们共线）。例如，第三麦克风可以位于摄像机的顶部。在此情况下，可以对于第三麦克风和例如第一麦克风105确定第二相关性函数。然后可以从这两个相关性函数确定性地确定权重更新函数。具体地，对于给定图像位置，可以确定第一和第二麦克风105、107之间的相应延迟，并且然后可以计算根据第一相关性函数确定的该延迟对应的相关性值。其次，对于该给定的图像位置，可以确定第一和第三麦克风之间的相应延迟，并且可以计算根据第二相关性确定的该延迟对应的相关性值。然后可以通过将这两个值相组合（例如简单地通过将其相乘）来确定对于表示此位置的粒子的缩放因子。

在之前的例子中，专门基于（由相关性表示的）音频测量更新权重。但是，在其他实施例中，当更新权重函数时，也考虑从摄像机输入的视频。

图8示出对于这样的例子的步骤405的例子。在该例子中，权重更新包括首先进行图5的步骤501-509以便确定音频权重，如前所述。

但是，在此例子中，步骤509后跟随着步骤801，其中基于摄像机提供的图像计算视频权重。因此，在步骤801，产生第二权重贡献，其反映粒子的给定图像位置可能导致被摄像机捕获的图像的可能性。因此，响应于图像域测量而确定视频权重。

步骤801后跟随着步骤803，其中音频权重和视频权重被组合成该粒子的单个权重。

将认识到，可以并行地进行音频权重和视频权重的确定。

在该例子中，组合包括两个权重贡献的相对加权。具体地，该加权可以反映对于基于相关性值产生的音频权重的置信度指示。例如，相关性越类似于Dirac脉冲，可以认为置信度越高（因为诸如干扰、噪声和反射的不确定或未知的效果的影响很可能较不重要）。作为另一例子，（例如由给定阈值定义的）脉冲响应的持续时间可以被用作置信度指示，或者可以使用相关性的方差。在该例子中，对于增加的置信度值，音频权重贡献的加权将增加。

在一些实施例中，还可以对于视频权重确定置信度值，并且两个权重贡献的加权可以取决于置信度指示的相对权重。

在一些情境下，较低的界限（bound）可以应用于权重之一或其两者。例如，可以基于两个权重贡献的乘法来计算权重的组合，并且向权重引入例如偏移可以确保即使权重贡献之一是0，得到的权重也可以高于0。作为具体例子，组合的权重可以被计算为

Figure 200980150679X100002DEST_PATH_IMAGE011

。

将认识到，可以使用任何适当的方法来估计声学传递函数。

将认识到，可以使用用于基于图像域测量确定权重的任何适当的方法。例如在Katja Nummiaro, Esther Koller-Meier和Luc van Gool的“An Adaptive Color-Based Particle Filter”, Tech. Rep., Katholieke Universiteit Leuven and Swiss Federal Institute of Technology, 2002年9月中描述了适当的方法。

在该方法中，像斑（patch）被变换成另一表示以便通过提取重要信息而降低要处理的信息量和/或增加可靠性。这样的表示的例子是颜色直方图。在该颜色直方图空间中，每个像斑由单个点表示（直方图是从原点到该点的向量）。该空间允许通过计算颜色直方图空间中的相应点之间的距离而基于其颜色描述量化地比较期望的像斑（例如要跟踪的对象）与任何其他像斑。存在可以使用的许多距离量度，包括简单欧几里德距离（Euclidian distance）。已知为Bhattacharyya距离的另一距离量度特别方便，因为其归一化的输出可以用于计算粒子滤波的标准的分布的权重。

在许多实施例中，可以将声学传递函数估计为声学波束形成的一部分。具体地，声学波束形成方法可以用于朝向说话者101（被假定为是环境中的主要声源）引导音频束。然后各个麦克风信号的相对滤波或加权可以被用作对于声学传递函数的估计。

将认识到，可以使用任何适当的波束形成算法。在该具体例子中，通过由图9的波束形成器图示的波束形成方法确定声学传递函数。

图9的波束形成单元900接收两个输入信号u₁、u₂，并处理它们以产生音频波束形成。传统上，输入信号u₁、u₂从全方向的麦克风105、107接收，但是也可以由（至少）两个定向声音传感器提供。

在波束形成单元900中，第一输入信号u₁被馈送至第一自适应滤波器901，其产生第一经滤波信号。第二输入信号u₂被馈送至第二自适应滤波器903，其产生第二经滤波信号。然后在求和单元905中对该第一和第二经滤波信号求和以产生组合的定向信号。该组合的定向信号对应于从具有定向灵敏性的声音传感器接收的音频信号。具体地，通过修改第一和第二自适应滤波器901、903的滤波器系数，可以在期望的方向上引导音频束的方向。

滤波器系数被更新使得对于组合的定向信号的期望声源分量的功率（power）估计被最大化。在该例子中，当来自期望的声源（说话者101）的信号是主要的并因此该期望的声音分量被假定为组合的定向信号的主要源分量时，更新滤波器系数。从而，滤波器系数被更新，使得对于整个组合的定向信号的功率测量被最大化。例如可以通过对组合的定向信号的样本乘方（或取其绝对值）并用适当的低通滤波器滤波该结果而获得适当的功率测量。

此外利用自适应滤波器901、903的传递函数的求和的能量在预定频率处被维持恒定的限制来进行滤波器系数的适配。

在该具体例子中，不直接适配滤波器系数901、903。而是，波束形成单元900还包括：第三自适应滤波器907，用于滤波组合的定向信号以产生第三经滤波信号；以及第四自适应滤波器909，用于滤波组合的定向信号以产生第四经滤波信号。

第三经滤波信号被馈送至第一减法单元911，其产生第三滤波后信号和(被延迟913延迟的)第一输入信号u₁之间的第一差信号。第四经滤波信号被馈送至第二减法单元915，其产生第四经滤波信号和（被延迟917延迟的）第二输入信号u₂之间的第二差信号。

在该***中，在存在来自期望的声源的主要信号时适配自适应滤波器907、909的滤波器系数，使得差信号x1、x2减小，具体地被最小化。用于这样做的适当的算法是公知的归一化最小均方算法。周期性地、例如每N个样本的数据块之后，时间倒转（reversed）的滤波器系数907被复制到滤波器901，并且时间倒转的滤波器系数909被复制到滤波器903。这样做，在存在来自期望的声源的主要信号时输出信号z的功率被波束形成单元900最大化。

在频率域中，第三自适应滤波器907的传递函数对应于第一自适应滤波器901的传递函数的复共轭，并且第四自适应滤波器909的传递函数对应于第二自适应滤波器903的传递函数的复共轭。

更详细地，可以参考使用作为连续时间信号的傅里叶变换的频率域量的信号模型来描述波束形成单元900的操作。假设每个麦克风信号包含来自期望的源分量的信号分量、回响信号分量以及噪声。

根据该模型，麦克风信号的向量

（其中上标t表示转置）由以下给出

Figure 200980150679X100002DEST_PATH_IMAGE013

。

其中s(.)是期望的源信号，h(.)是从该源到麦克风的、包括直接声音路径以及可能包括一些早期反射的声学脉冲响应的向量，d(.)是回响，n(.)是在每个麦克风上具有相等的方差的不相关的噪声。假设期望的信号、回响和噪声相互不相关，输入的互功率谱密度由以下给出

。

其中

Figure 200980150679X100002DEST_PATH_IMAGE015

,

和

Figure 200980150679X100002DEST_PATH_IMAGE017

分别是源信号、回响和噪声的方差，I(.)是单位矩阵，上标h表示复共轭转置，*表示复共轭。

回响被建模为扩散（球形同向的）声场。尽管这是简化的理论模型，但是其已被证明是在许多应用中有价值的模型，并对于提供对在波束形成单元900中使用的算法的运算和性能的了解方面是有用的。

对于全方向麦克风，回响的相干矩阵由以下给出

。

其中d是各麦克风之间的距离，c是声速。

使用所述的信号模型，波束形成单元900的组合的定向输出信号z由对麦克风信号的滤波和求和运算给出：

在时间域中，第一和第二自适应滤波器901、903的滤波器系数具体地分别是第三和第四自适应滤波器907、909的滤波器系数的时间倒转的副本。因此，在频率域中，第一和第二自适应滤波器901、903的滤波器系数分别是第三和第四自适应滤波器907、909的滤波器系数的复共轭版本。通常，将引入延迟以便确保信号处理的因果性，因而第三和第四自适应滤波器907、909在此例子中相位被补偿以将该延迟纳入考虑。而且，在产生差信号之前，输入信号u₁、u₂在延迟913、917中被延迟。延迟913、917的延迟τ通常被设置为等于自适应滤波器901、903、907、909的长度。

可以示出，图9的自适应波束形成单元900在可以数学上表示为

的滤波器传递函数的求和的功率等于所有频率的整体（unity）的限制下将组合的定向输出信号z的功率最大化。因此，通过设置滤波器系数以最小化差信号x₁、x₂，组合的定向输出信号z的功率被最大化，由此提供朝向主要音频信号的音频束的适配。

使用该信号模型并应用该限制，组合的定向输出信号z由以下给出：

对于仅期望的源（即在不存在回响和噪声时），最优的系数由以下给出：

。

其中

是任意的全通过项。

该表示示出最优的滤波器系数等于期望的源到每个麦克风的共轭的传递函数，（不考虑共同的未知幅度和相位因素）。由于实际滤波器的有限的滤波器长度，波束形成单元将在实践中仅估计时间域脉冲响应的第一部分（通常是包括直接场并可能包括某些早期反射的部分）。

从而，滤波器系数提供了对声学传递函数的高度有利的估计，并且在该具体例子中，第一声学传递函数因而被确定为具有与第一自适应滤波器901的滤波器系数对应的脉冲响应，第二声学传递函数因而被确定为具有与第二自适应滤波器903的滤波器系数对应的脉冲响应。因此，相关性函数有利地被确定为第一自适应滤波器901和第二自适应滤波器903的滤波器系数之间的相关性。

将认识到，上面的描述出于清楚的原因参照不同功能单元和处理器描述了本发明的实施例。然而，将明显的是，可以在不背离本发明的情况下使用不同功能单元或处理器之间的任何适当的功能分布。例如，被示出由单独的处理器或控制器执行的功能可以由相同的处理器或控制器执行。因此，对于特定功能单元的引用应当仅仅视作对于用于提供所描述的功能的适当部件的引用，而不是表示严格的逻辑或物理结构或组织。

本发明可以以任何适当的形式实现，包括硬件、软件、固件或者这些的任意组合。可选地，本发明可以至少部分地实现为运行在一个或多个数据处理器和/或数字信号处理器上的计算机软件。本发明的实施例的元件和组件可以在物理上、功能上和逻辑上以任何适当的方式实现。事实上，所述功能可以在单个单元中、在多个单元中或者作为其他功能单元的一部分而实现。同样地，本发明可以在单个单元中实现，或者可以在物理上和功能上分布在不同单元和处理器之间。

尽管已经结合一些实施例描述了本发明，但是本发明并不预期限于本文阐述的特定形式。相反地，本发明的范围仅由所附权利要求书限定。此外，虽然特征可能看起来结合特定实施例而被描述，但是本领域技术人员将认识到，依照本发明可以组合所描述的实施例的各种特征。在权利要求书中，措词包括/包含并没有排除其他元件或步骤的存在。

此外，尽管单独地被列出，但是多个部件、元件或方法步骤可以由例如单个单元或处理器实现。此外，尽管单独的特征可以包含于不同的权利要求中，但是这些特征可以有利地加以组合，并且包含于不同的权利要求中并不意味着特征的组合不可行和/或不是有利的。此外，特征包含于一种权利要求类别中并不意味着限于该类别，而是表示该特征同样可适当地应用于其他权利要求类别。此外，权利要求中特征的顺序并不意味着特征必须工作于的任何特定顺序，并且特别地，方法权利要求中各步骤的顺序并不意味着这些步骤必须按照该顺序来执行。相反地，这些步骤可以以任何适当的顺序执行。此外，单数引用并没有排除复数。因此，对于“一”、“一个”、“第一”、“第二”等等的引用并没有排除复数。权利要求中的附图标记仅仅作为澄清的示例而被提供，不应当以任何方式被视为限制了权利要求的范围。

Claims

1. 一种通过粒子滤波估计声源的声源地点的方法，该方法包括：

重复产生对于某时刻的粒子集合的步骤，该粒子集合表示对于包括声源地点的状态变量在该时刻的概率密度函数；该步骤包括对于该粒子集合的每个粒子：

响应于粒子先前时刻的状态值而产生（403）粒子在所述时刻的状态值，以及

响应于粒子先前时刻的权重以及在所述时刻的测量而产生（405）粒子在所述时刻的权重；

以及响应于该粒子集合在第一时刻的状态值的组合而产生（407）包括对于该第一时刻的声源地点估计的状态变量估计，所述粒子集合中的每个粒子的贡献取决于该粒子的权重；其中

产生（405）粒子在所述时刻的权重的步骤包括：响应于对于第一时刻的从声源到至少两个声音记录位置的估计的声学传递函数之间的相关性，确定该权重。

2. 如权利要求1的方法，其中产生权重的步骤（405）包括：

响应于对于与粒子的状态值对应的延迟的相关性的值，确定粒子的权重。

3. 如权利要求2的方法，其中权重具有与所述相关性值的确定性关系。

4. 如权利要求3的方法，其中所述确定性关系是非线性的。

5. 如权利要求1的方法，其中产生权重的步骤（405）包括：响应于粒子先前时刻的权重，使用该相关性作为对于与该粒子在所述时刻的权重有关的权重更新函数的伪似然函数的指示。

6. 如权利要求1的方法，其中声源位置由二维平面中的二维位置表示。

7. 如权利要求6的方法，还包括：

从覆盖了包括所述声源的环境的摄像机接收至少一个图像；以及

其中所述二维位置是所述至少一个图像中的位置。

8. 如权利要求7的方法，其中产生权重的步骤（405）包括：响应于对于粒子的图像域测量，产生第一权重贡献，以及响应于所述相关性，产生第二权重贡献，以及将权重产生为第一权重和第二权重的组合。

9. 如权利要求8的方法，还包括：

响应于所述相关性，产生对于第一权重贡献的置信度指示；以及

响应于该置信度指示，相对于第二权重贡献，调整第一权重贡献在组合中的贡献。

10. 如权利要求1的方法，还包括进行朝向声源位置的音频波束形成以及响应于该音频波束形成估计传递函数的步骤。

11. 如权利要求1的方法，其中产生权重的步骤（405）包括：响应于对于第一时刻的从声源到所述至少两个声音记录位置之一的估计的声学传递函数与从声源到另一声音记录位置的估计的声学传递函数之间的第二相关性，确定权重；所述另一声音记录位置相对于所述至少两个声音记录位置之间的线而偏移。

12. 如权利要求1的方法，其中产生权重的步骤（405）包括：接收来自至少两个声音记录位置的第一位置处的声音记录元件的第一信号；

接收来自至少两个声音记录位置的第二位置处的声音记录元件的第二信号；以及

响应于第一信号和第二信号估计声学传递函数。

13. 如权利要求1的方法，其中产生权重的步骤（405）包括：

在第一自适应滤波器（901）中滤波第一信号以产生第一经滤波信号；

在第二自适应滤波器（903）中滤波第二信号以产生第二经滤波信号；

对第一和第二经滤波信号求和以产生组合的定向信号；以及

设置第一自适应滤波器（901）和第二自适应滤波器（903）的系数以产生组合的定向信号，使得对于该组合的定向信号的声源分量的功率估计被最大化；以及

响应于第一自适应滤波器（901）和第二自适应滤波器（903）的系数，估计声学传递函数。

14. 如权利要求13的方法，其中产生权重的步骤（405）包括：

在第三自适应滤波器（907）中滤波组合的定向信号以产生第三经滤波信号，第三自适应滤波器（907）的传递函数对应于第一自适应滤波器（901）的延迟基本被补偿的复共轭传递函数；

确定第一信号和第三经滤波信号之间的差信号；以及

适配第一自适应滤波器（901）的传递函数以减小差信号。

15. 一种通过粒子滤波估计声源的声源地点的装置，该装置包括：

用于重复产生对于某时刻的粒子集合的步骤的部件（301），该粒子集合表示对于包括声源地点的状态变量在该时刻的概率密度函数；该步骤包括对于该粒子集合的每个粒子：

以及用于响应于该粒子集合在第一时刻的状态值的组合而产生包括对于该第一时刻的声源地点估计的状态变量估计的部件（303）；其中

产生粒子在所述时刻的权重的步骤（405）包括：响应于对于第一时刻的从声源到至少两个声音记录位置的估计的声学传递函数之间的相关性，确定该权重。