CN104166837B

CN104166837B - 采用最相关的兴趣点的各组的选择的视觉语音识别方法

Info

Publication number: CN104166837B
Application number: CN201410203307.1A
Authority: CN
Inventors: E·贝海姆; H·萨比
Original assignee: Parrot Motor Co Ltd
Current assignee: Parrot SA
Priority date: 2013-05-15
Filing date: 2014-05-14
Publication date: 2018-12-04
Anticipated expiration: 2034-05-14
Also published as: CN104166837A; FR3005777A1; US20140343944A1; FR3005777B1; EP2804129A1

Abstract

本发明涉及采用最相关的兴趣点的各组的选择的视觉语音识别方法。该方法包括下列步骤：a)形成n个兴趣点的微结构的起始集合，每一微结构由n阶元组来定义，其中n≥1；b)对于每一元组，基于所述兴趣点的局部梯度和/或移动描述符来确定相关联的结构化视觉特性；以及c)迭代地搜索并选择最具区别性的元组。步骤c)通过以下步骤来操作：c1)将多核学习MKL类型的算法应用于所述元组集合；c2)提取产生最高相关性分数的元组子集；c3)将附加的元组聚集到这些元组，以获得更高阶元组的新集合；c4)确定与每一所聚集的元组相关联的结构化视觉特性；c5)选择最具区别性的元组的新子集；以及c6)重复步骤c1)到c5)直至最大阶N。

Description

采用最相关的兴趣点的各组的选择的视觉语音识别方法

技术领域

本发明涉及视觉语音-活动识别或VSR(视觉话音识别)，这是一种也称为“读唇”的技术，其在于通过分析由讲话者的嘴部区域的一连串图像形成的视频序列来操作所讲语言的自动识别。

背景技术

所研究的区域(此后称为“嘴部区域”)包括唇部及其紧邻区域，并且可能扩展至覆盖脸部的更广区域，包括例如下巴和脸颊。

这一技术的可能应用(这当然是非限制性的)是在非常嘈杂的环境中(如在机动车的旅客车厢中)使用的“免提”电话***的语音识别。

链接到周围噪声的这种困难在这一应用中尤其具有限制性，这是由于话筒(置于仪表板处或在旅客车厢顶的上部角落中)与讲话者之间的巨大距离(其远离程度受驾驶位置的约束)，这造成拾取了相对高的噪声水平并且因此造成了难以提取嵌入在噪声中的有用信号。此外，机动车的典型的非常嘈杂的环境具有因变于驾驶条件(碾在不平或铺鹅卵石的路面上、运行车载收音机，等等)而不可预期地演化的特性，这非常复杂而不能由隔音算法基于对话筒所拾取的信号的分析考虑进去。

因此，存在着对使得可能在其中声学装置的识别由于过度降级的信号/噪声比而不再能正确地实现的情境中以高度的确定性来识别例如讲话者所说出的电话号码的数字的***的需求。此外，已经观察到，诸如/b/、/v/、/n/或/m/等声音在音频域中通常易于误解，而在视觉域中则没有模糊性，从而声学识别装置与视觉识别装置的关联可以自然地提供其中常规纯音频***缺少鲁棒性的嘈杂环境中的性能的显著改进。

然而，迄今为止所提出的自动读唇***的性能仍然不足，主要困难在于提取与区别讲话者所说的不同单词或单词部分的真正相关的视觉特性。此外，各讲话者之间唇部的外观和移动中所存在的固有可变性使得现有***的性能很差。

另外，迄今所提出的视觉语音-活动识别***实现了需要非常重要的软件和硬件装置的人工智能的技术，几乎不能在具有非常严格的成本约束的非常广泛地分布的产品的框架内构想，而不管它们是合并到车辆的***还是合并了电话通信的所有信号处理组件和功能的可移动盒形式的附件。

因此，仍然存在着对具有其实现既鲁棒又节省计算资源的视觉语音识别算法的真实需求，尤其是在能够“在进行中”(几乎实时地)执行这一语音识别的情况下。

Ju等人的文章“Speaker Dependent Visual Speech Recognition by Symboland Rear Value Assignment(通过符号和后赋值的讲话者无关的视觉语音识别)”，RobotIntelligence Technology and Applications2012Advances in Intelligent Systemsand Computing(智能***和计算中的机器人智能技术和应用2012进步)，施普林格，第1015-1022页，2013年1月，第1015-1022页，描述了这样的通过对视频序列的VSR分析来进行自动语音识别的算法，但在它没有将局部视觉语音特性与各兴趣点之间的空间关系进行组合的程度上，其效率仍然具体地受限的。

这些算法的其他方面在以下文献中开发：

–Navneet等人的“Human Detection Using Oriented Histograms of Flow andAppearance(使用流和外观的有向直方图进行人类检测)”，Proceedings of the EuropeanConference on Computer Vision(计算机视觉欧洲会议录)，施普林格，第428-441页，2006年5月；

–Sivic等人的“Video Google:A Text Retrieval Approach to ObjectMatching in Videos(视频Google：视频中的对象匹配的文本检索方法)”，Proceedings ofthe 8th IEEE International Conference on Computer Vision(第8届计算机视觉IEEE国际会议录)，第1470-1477页，2003年10月；

–Zheng等人的“Effective and efficient Object-based Image RetrievalUsing Visual Phrases(使用视觉短语的有效且高效的基于对象的图像检索)”，Proceedings of the 14th Annual ACM International Conference on Multimedia(ACM多媒体国际会议14周年会议录)，第77-80页，2006年1月；

–Zavesky的“LipActs:Efficient Representations for Visual Speakers(LipActs：视觉讲话者高效表示)”，2011IEEE International Conference on Multimediaand Expo(2011IEEE多媒体和博览会国际会议)，第1-4页；2011年7月；

–Yao等人的“Grouplet:A structured image Representation for RecognisingHuman and Object Interactions(Grouplet：用于识别人类和对象交互的结构化图像表示)”，2010IEEE Conference on Computer Vision and Pattern Recognition(2010IEEE计算机视觉和模式识别会议)，第9-16页，2010年6月；

–Zhang等人的“Generating Descriptive Visual Words and Visual Phrasesfor Large-Scale Image Applications(生成用于大规模图像应用的描述性视觉字和视觉短语)”，IEEE图像处理会议录，卷20，第9号，第2664-2667页，2011年9月；

–Zheng等人的“Visual Synset:Towards a Higher-Level Visualrepresentation(Visual Synset：为了更高级的视觉表示)”，2008IEEE Conference onComputer Vision and Pattern Recognition(2008IEEE计算机视觉和模式识别会议)，第9-16页，2008年6月。

发明内容

本发明的目标是向现有的视觉语音识别技术提供多个处理改进和简化，从而使得既改进整体性能(具体地是具有改进的鲁棒性和讲话者之间的较少的可变性)又降低计算复杂度成为可能，以使得该识别兼容广泛分布的设备中存在的装置。

根据第一方面，本发明提出了一种结构化视觉特性的新概念。

它们是与描述在讲话者的嘴部的图像上选择的点的邻近区域的方式有关的特性，此后称为“兴趣点”(一种也被称为“地标”或“参考点”的概念)。这些结构化特性(在科学界也称为特征)一般由大小很大的特性向量或“特征向量”(它们处理起来很复杂)来描述。本发明提出了对这些向量应用变换，使得既简化其表达又高效地编码视觉语言所引起的可变性成为可能，从而允许更简单但同样高效的分析，而没有关键信息丢失并保存讲话的时间一致性。

根据第二方面，作为前一方面的补充，本发明提出了基于结构特性的组合的特定策略的新学习过程。内容是形成被编组成“元组”的各组一个或多个兴趣点，其中元组可以是单元组(1阶元组)、对元组(2阶元组)、三元组(3阶元组)，等等。该学习将包括在所有可能的1到N(N一般限于N＝3或N＝4)阶元组中提取最相关元组的选择并对这一经缩减的元组子集执行视觉语音识别。

为了构造元组，本发明提出实现聚集的原理，具体地经由多核学习MKL由支持向量机(SVM)的性能的最大化来引导，从单元组(隔离的兴趣点)开始到相关联的其他单元组，以形成将随后从属于最相关元组的第一选择的对，来组合元组及其相关联的特性。

该聚集是通过单元组与这些所选择的对的关联以形成三元组来继续的，这将也从属于一选择，并以此类推。在新创建的每一组较高阶元组处，应用选择准则以在它们之间只保持在视觉语音识别的意义内最高效的元组，即具体地，在视频序列的各连续图像中具有最显著变形的那些元组(从以下假设开始：移动得最多的元组将对于视觉语音识别而言最具区别性)。

更确切地，根据上述第一方面，本发明提出了一种方法，包括以下步骤：

a)对于每一图像的每一兴趣点，计算：

·局部梯度描述符，它是有向梯度的分布的估计的函数，以及

·局部移动描述符，它是各连续图像之间的有向光流的估计的函数，

所述描述符是在所考虑的兴趣点的邻近区域中的各连续图像之间计算的；

b)形成n个兴趣点的微结构，每一个都由一n阶元组来定义，其中n≥1；

c)对于步骤b)的每一元组，确定编码了局部变形以及底层兴趣点之间的空间关系的结构化视觉特性的向量，这一向量是基于该元组的兴趣点的所述局部梯度和移动描述符来形成的；

d)对于每一元组，通过应用适于选择形成码本的码字的有限集中的单个码字的分类算法，将在步骤c)处确定的向量映射到对应的码字；

e)对于视频序列的各连续图像，为每一元组生成在步骤d)处确定的码字的有序时间序列；

f)对于每一元组，通过测量与来自另一讲话者的码字的另一时间序列的相似性，分析在步骤e)处生成的码字的时间序列。

步骤f)的相似性的测量有利地通过串核(String Kernel)类型的函数来实现，适于：

f1)识别所生成的时间序列中以及其他时间序列中分别存在的预定大小的匹配的码字子序列，其中容忍预定大小的潜在不协调性，以及

f2)计算码字的所述子序列的出现率，

以对于每一元组，将码字的时间序列映射到固定长度的串核表示。

局部梯度描述符优选地是有向梯度HOG类型的直方图描述符，并且局部移动描述符是光流HOF类型的直方图的描述符。

步骤d)的分类算法可以是k均值算法类型的无监督分类算法。

上述方法可尤其应用来：

g)使用步骤f)的相似性的测量结果来用于支持向量机SVM类型的监督分类算法的学习。

根据上述第二方面，本发明提出了一种方法，包括以下步骤：

a)形成n个兴趣点的微结构的起始集合，每一个都由一n阶元组来定义，其中1≤n≤N；

b)对于步骤a)的每一元组，基于该元组的兴趣点的局部梯度和/或移动描述符来确定相关联的结构化视觉特性；

c)通过以下步骤来迭代地搜索并选择最具区别性的元组：

c1)将适于考虑元组及其相关联的结构化特性的组合的算法应用于该元组集合并为该组合的每一元组确定对应的相关性分数；

c2)从在步骤c1)处考虑的该元组集合中，提取产生最高相关性分数的元组的子集；

c3)将附加的1阶元组聚集到在步骤c2)处提取的子集的元组，以获得更高阶元组的新集合；

c4)确定与在步骤c3)处形成的每一所聚集的元组相关联的结构化视觉特性；

c5)在所述较高阶的新集合中，选择最具区别性的元组的新子集；以及

c6)重复步骤c1)到c5)直至最大阶N；以及

d)基于在步骤c)选择的元组来执行视觉语言识别算法。

有利地，步骤c1)的算法是多核学习MKL类型的算法，步骤c1)的组合是元组与针对每一元组的最优权重的线性组合，最优权重是通过MKL算法计算得到元组在该组合中的贡献，并且在步骤c2)处提取的元组的子集是具有最高权重的元组的子集。

在上述方法的第一实施例中：

–步骤c3)到c5)实现了一种算法，适于：

·在一连串图像上评估所考虑的元组的兴趣点的速度，以及

·计算步骤c3)的附加元组与步骤2)处提取的子集的元组之间的距离；以及

–在步骤c5)处提取的最具区别性的元组的子集是满足方差最大化准则VMC的元组的子集。

在这一方法的第二(替换)实施例中：

–步骤c3)到c5)实现多核学习MKL类型的算法，适于：

·形成元组的线性组合，以及

·对于每一元组，计算其在该组合中的贡献的最优权重；以及

–在步骤c5)处提取的最具区别性的元组的子集是具有最高权重的元组的子集。

附图说明

现在将参考附图描述本发明设备的示例性实施例，在所有附图中，相同的附图标记指示相同或功能上相似的元素。

图1中的(a)和(b)示出了讲话者的嘴部的两个连续图像，示出了各兴趣点的位置的变化以及这些点的三元组从一个图像到下一图像的变形。

图2示出了旨在用于视觉词汇表的初步构建的处理链的主要步骤。

图3图示了通过应用分类算法的码字解码，对应的码本是出于在二维空间中的解释的需求而在此表示的。

图4示意性地示出实现本发明的第一方面的教导的视觉语言分析的不同步骤。

图5示出了根据本发明的第一方面，通过根据本发明的技术确定结构化特性进行元组解码的方式。

图6示出了通过对易于服从相似性的测量的视觉字符的时间序列的视觉语言的解码(尤其是出于学习和识别的目的)而产生的结果。

图7是描述操作元组与最相关结构的选择的组合的处理链的主要步骤的流程图，其中本发明的实现根据后者的第二方面。

图8示出了根据本发明的第二方面的用于构造并选择阶数递增的元组的聚集过程。

图9是示出作为不同的元组选择策略和码本大小的函数的本发明的性能的图表。

图10示出根据本发明的第二方面的在聚集过程之后选择的结构化特性的元组阶数的分布。

具体实施方式

在图1中，示出了从视频序列中取得的讲话者的嘴部的两个连续图像，在该视频序列期间后者讲出待识别的单词，例如讲话者所说的电话号码的数字

以本质上已知的方式，嘴部的移动的分析是通过检测并跟踪特定数量(在该示例中是十二个)的兴趣点10来操作的。

本发明的方法的概括体系结构

对这些兴趣点的跟踪实现了外观和移动分量。对于所跟踪的每一点，这两个分量也以本质上已知的方式在所考虑的点的邻近区域中通过(一方面)有向梯度的空间直方图(或HOG)以及(另一方面)有向光流HOF的空间直方图被表征。

对于这些HOG和HOF直方图的更详细描述，分别参考下文来作出：

[1]N.Dalal和B.Triggs，“Histograms of Oriented Gradients for HumanDetection(用于人类检测的有向梯度的直方图)”，Computer Vision and PatternRecognition(计算机视觉和模式识别)，2005.CVPR2005.IEEE Computer SocietyConference on IEEE(IEEE计算机社会会议)，2005，卷1，第886-893页。

[2]N.Dalal，B.Triggs以及C.Schmid，“Human Detection Using OrientedHistograms of Flow and Appearance(使用流和外观的有向直方图的人类检测)”，Computer Vision(计算机视觉)-ECCV2006，第428-441页，2006。

HOG描述符的选择来自以下事实：图像中对象的局部外观和形状可由最显著轮廓的方向的分布来描述。该实现可以通过将图像划分成诸很小的相邻区域或单元并通过对于每一单元编译该单元内部的各像素的轮廓的定向或梯度的方向的直方图，来变得简单。直方图的组合随后形成HOG描述符。

以本质上已知的方式，HOF描述符以类似的方式基于两个连续图像之间的光流的估计来形成。

在发言的视频序列的时刻t，每一所跟踪的兴趣点P_t,i因而将通过经由将对于点i所提取的归一化HOG和HOF直方图串接而获得的视觉特性向量f_t,i来描述。

在特性上，根据本发明的第一方面，视频序列的每一视觉特性向量将遭受变换，以简化其表达同时高效地编码视觉语言所引起的可变性，以获得非常有限的视觉词汇表的“单词”或码字的有序序列，从而描述这一视频序列。随后，基于这些码字序列，例如通过串核类型的函数以简单的方式测量彼此之间的序列相似性将是可能的。

根据第二特性方面，本发明提出了不(或不仅)跟踪隔离的兴趣点，而是跟踪一个或若干个这些点的组合，从而形成称为“元组”的微结构，例如如图1所示的三元组12(3阶元组)，其变形将被分析并被跟踪以允许语音识别。

这一方法具有组合(兴趣点的那些)局部视觉特性和所考虑的元组的各点之间的空间关系(即，兴趣点的…四元组、三元组对所形成的图的变形)两者的优点。

构造这些元组以及选择最具区别性的各个元组以用于视觉语音分析的方式将在下文相关于图7和8描述。

视觉词汇表的初步构造

图2示出了旨在用于基于针对不同讲话者所拾取的视频序列的学习数据库，对视觉词汇表进行初步构造的处理链的主要步骤。

第一步骤包括，对于视频序列的所有图像且对于所跟踪的每一兴趣点，通过计算HOG和HOF直方图并串接(如上所示)来提取局部梯度和移动描述符(框14)。

兴趣点随后被编组成元组(框16)，并且随后根据所考虑的元组的每一兴趣点的局部描述符，确定结构化特性以具体地描述每一元组。

对于学习数据库的所有视频序列重复这些操作，并且应用分类算法(框20)，例如k均值类型的无监督分类算法，从而允许定义视觉字的词汇表，这将在此后按它们的常用名“码字”来称呼，以与在不同科学出版物中使用的术语相一致并避免任何歧义。这些视觉字一起形成称为“码本”的词汇表，其由K个码字形成。

图3示意性地示出了这样的码本CB，它被分成有限数量的群集CLR，每一CLR由定义每一群集的中心的码字CW来表征；各个叉与受最接近群集的索引影响的不同特性向量d_s,t相对应，并且因此与表征该群集的码字相对应。

根据本发明的第一方面的分析视觉语言的技术

对于给定元组，并且对于视频序列的所有图像，该算法进行提取该元组的每一兴趣点的局部HOG和HOF描述符，并确定该元组的结构化特性的向量d_t,s(框22)向量。令该元组的阶数为n(例如，对于兴趣点的三元组而言，n＝3)，元组s的描述向量通过串接局部标识符的n个向量来形成，即d_t,s＝[f_t,i]_i∈s(对于兴趣点的三元组，该描述向量因而是三个向量f_t,j的串接)。

重要的是注意到，通过构造，每一特性向量d_t,s也编码了局部视觉特性(即，兴趣点中的每一个的视觉特性)以及脸部的各点之间的空间关系(因此，该元组所特有的那些点的空间关系)。

后续步骤是解码步骤(框24)，该步骤将相关于图5更详细地描述。

本质上，对于该组元组中的元组s，考虑在位置索引s处从学习视频序列的不同帧中提取的所有结构化特性向量的并集D_s。为了将单个码字与特性向量d_t,s相关联，该算法将D_s分成k个分区或群集(在数据分区(或数据群集)的意义上，该技术是作为数据分析的统计方法的技术)。

它尤其可用于k均值算法类型的无监督分类算法的目的，这包括在数据空间中搜索将相邻点(在欧几里得距离的意义上)聚集在同一类中的分区，使得每一数据属于具有最近均值的群集。这一分析技术的细节尤其可在以下文献中找到：

[3]S.P.Lloyd的“Least squares quantization in PCM(PCM中的最小均方量化)”，IEEE Transactions on Information Theory(IEEE信息理论会议录)，28(2):129–137，1982。

向量d_t,s随后受最近群集的索引的影响，如上述图3中示意性地示出的，它示意性地示出了被分成有限数量的群集CLR的码本CB，每一CLR由码字CW来表征。解码包括使每一特性向量d_t,s受最近群集CLR的索引的影响，并且因而受表征该群集的码字CW的影响。

步骤24的解码的结果(应用于视频序列的所有图像)产生描述该视频序列的码字的有序序列，表示为X_s。

随后，基于这些码字序列，以简单的方式执行彼此之间的序列相似性的测量将是可能的(框26)，例如通过串核类型的函数，如此后将关于图6解释的。

将这一技术对所有学习视频序列(框28)的应用可被用来实现监督学习，例如通过支持向量机SVM类型的监督分类算法。

对于SVM算法的更详细的描述，可参考以下文献：

[4]H.Drucker，C.J.C.Burges，L.Kaufman，A.Smola以及V.Vapnik的“SupportVector Regression Machines(支持向量回归机)”，Advances in Neural InformationProcessing Systems9(神经信息处理***进步9)，第155–161页，MIT出版社，1997。

图5更确切地示出了根据本发明的第一方面，通过根据本发明的技术为每一元组确定结构化特性进行解码步骤24的方式。

这一视觉语言解码操作是对于视频序列的每一图像并对于每一图像的每一元组相继执行的。图5示出了针对图像的两个元组(三元组和二元组)执行的这样的解码，但这一解码当然是针对所有元组阶数来操作的，以获得针对每一个元组的对应码字序列X_s。

每一元组的每一兴趣点的局部描述符f_t,i被如上所示地计算(基于HOG和HOG直方图)，并随后被串接以给出每一元组的描述符d_t，以产生结构化视觉特性的对应向量。因而获得了描述元组s的词法及其在视频序列的连续图像中的变形的大型向量序列d_t,s。

每一元组随后由元组解码器来处理，从而允许将所考虑的图像的该大型向量d_t,s映射到属于码本CB的码字的有限集的单个对应的码字。

结果是与相关于该相同序列的视觉特性向量的序列d₀…d₃…相类似的码字的时间序列a₀…a₃…。这些简化时间序列a₀…a₃…是简单的整数序列，该序列的每一元素简单地是标识码本中的码字的该群集的索引a。例如，对于10个码字的码本，索引a可以由0和9之间的简单数字来表示，并且对于256个码字的码本，由简单的字节来表示。

后续步骤将包括对元组应用多核学习MKL类型的算法，包括建立若干元组与对每一个的贡献的相应权重β的线性组合。对于这些MKL算法的更详细的描述，可具体参考以下文献：

[5]A.Zien和C.S.Hong，“Multiclass Multiple Kernel Learning(多类多核学习)”，Proceedings of the24th International Conference on Machine Learning(第24届机器学习国际会议会议录)，ACM，2007，第1191-1198页。

更具体地，图6示出了使用通过刚刚陈述的视觉语言解码获得的视觉特性的时间序列来测量序列之间的相似性，尤其是用于学习和识别的目的。

根据本发明的一特性方面，提出了适应并采用串核类型的函数的机制来测量这些视觉语言序列之间的相似性并编码持续发言所内在的动态性。

对于这些串核函数的更彻底研究，可具体参考以下文献：

[6]C.Leslie，E.Eskin以及W.S.Noble，“The Spectrum Kernel:A String Kernelfor SVM Protein Classification(频谱核：SVM蛋白分类的串核)”，Proceedings of thePacific Symposium on Biocomputing(生物计算太平洋座谈会会议录)，夏威夷，美国，2002，卷7，第566-575页，以及

[7]S.V.N.Vishwanathan以及A.J.Smola，“Fast Kernels for String and TreeMatching(用于串和树匹配的快速核)”，Kernel Methods in Computational Biology(计算生物学中的核方法)，第113-130页，2004。

对于该图像中所跟踪的元组集合中的每一元组s，视频图像的序列的解码，如在图5中所描述的那样来操作，产生码字的时间序列X_s。

原理包括构造允许不比较表示视觉频率的码字的比率而是比较长度为g的公共子序列的比率(搜索相同码本的g个相邻码字)的映射函数，以便不失去该系列的空间信息。该持续发言的时间一致性因而可被保持。将容忍子序列中的大小为m的潜在不协调性。

例如，在图6的示例中，可以观察到码字的序列X_s和X'_s之间的g＝4个相邻字符的子序列，其具有m＝1个字符的不协调性。

该算法确定码字的两个序列X_s和X'_s所共有的子序列的出现率，给定计入长度为g的彼此最大有m个不同字符的所有序列的集合的一组测量。对于每一元组，码字的时间序列随后可被映射到串核的固定长度的表示，这一映射函数因而允许解决视觉语言的可变大小的序列的分类的问题。

根据本发明的第二方面的构造和选择元组的技术

图7是根据本发明的第二方面的描述操作元组与最相关结构的选择的组合的处理链的主要步骤的流程图。

第一步骤包括提取每一点的局部描述符，并确定元组的结构化特性(框30，类似于针对图4描述的框22)。

后续步骤，根据本发明的第二方面的本发明的特性，包括基于单元组并通过渐进聚集来构造元组(框32)。将看到，取决于i)聚集的共同原理以及ii)几何准则或多核学习MKL过程，这一聚集可根据两个不同的可能策略来执行。

为了表征由于不同的发音和不同种类的视觉发言所造成的唇部的移动的可变性，提出了通过观察唇部周围的脸部诸兴趣点的速度的统计数据来执行选择。这一选择方法通过最小阶(即，在元组集合中，是单元组)开始，并遵循递增“贪婪方法”(贪婪算法)以通过将附加元组聚集到当前元组选择的各元组并通过操作基于相关性分数计算的新选择(框34)，例如通过方差最大化准则VMC，如将在下文尤其是关于图8描述的，来形成更高阶的新元组。

随后迭代地选择最相关元组(框36)。一旦达到最大阶(例如，4阶，它被认为是元组大小的上限)，将认为它足以使用因此选择的元组，而非所有可能的元组，来用于视觉语言的识别的任何操作(框38)。

图8示出了刚提到的聚集过程，处于其中单元组被添加到已被选择的二元组以形成三元组集合并在这些三元组中选择已形成的元组的集合(单元组、二元组以及三元组)中的最相关元组等的阶段。

在基于几何策略的元组聚集的情况下，最相关元组的选择有利地通过VMC(方差最大化准则)策略来作出，包括通过选择产生S⁽ⁿ⁾的元组与S⁽¹⁾的元组之间的最佳影响的S⁽ⁿ⁺¹⁾的元组(这一选择例如通过应用Kuhn-Mundres算法(或“Hungarian算法”)来执行)，来计算视频序列的不同图像上的i)链接到选择S⁽ⁿ⁾的各元组的兴趣点与ii)集合S⁽¹⁾的单元组的兴趣点之间的距离(如Hausdorff距离)。对于递增的n值(实际上，n＝1…4)，重复这一选择过程，并且在该过程的结束，只有具有最高方差的元组被保留来用于执行视觉语言识别。

作为变体，元组聚集可以不再基于几何学而由多核学习MKL类型的算法来进行辅助，其中若干元组与对每一个的贡献的权重β的线性组合(可参考上述文献[5]来得到这些MKL算法的更多细节)。学习通过基本单元组的线性组合来开始，该算法随后选择具有所获得的最高MKL权重的单元组。对于递增的n值，重复这一过程，使用在前一次迭代选择的核(因此使用元组)并执行这些核与关联于S⁽ⁿ⁾的元组的基本核的线性组合。同样，只有具有所获得的最高MKL权重的元组被保留。在该过程的最后步骤，所获得的核的线性组合与不同阶数的区别性元组的集合相对应。

通过根据本发明的方法所获得的性能

图9示出因变于不同的元组选择策略和码本大小的本发明的性能：

–对于根据实现应用于元组的线性组合的多核学习MKL类型的算法的策略的元组选择(“MKL选择”)；

–对于根据基于方差最大化准则VMC的几何策略的元组选择(“VMC选择”)；

–对于随机选择的30个元组的选择(“随机选择”)；

–只使用1阶元组(“S⁽¹⁾”)的情况，即只基于兴趣点，而不将兴趣点组合成二元组、三元组或者三元组，等等；

–包括十二个兴趣点的单个结构的情况，即单个12阶元组(“S⁽¹²⁾”)，这对应于将兴趣点一起认作单个集合的全局分析。

结果作为码本的大小的函数来给出，并且可以看到，对于256个码字的码本达到了最优性能并且这些结果显著高于元组的任意选择，高于纯兴趣点分析，或高于与所有兴趣点的描述符的简单串接相对应的单个核。

最后，图10示出了作为它们的阶数n的函数、在最相关元组的选择过程的结束时元组S⁽ⁿ⁾的分布。可以看到，这一分布强烈地以阶数n＝2和3为中心，在该所示示例中，这一分布与已经获得由MKL加权所施加的最佳权重β的二十个选择的元组相对应。这明确地示出了最具区别性的结构化特性与S⁽²⁾和S⁽³⁾的元组相对应，即与兴趣点的二元组和三元组相对应。

Claims

1.一种用于通过分析视频序列的视觉语音活动、通过跟踪在讲话者的嘴部区域上选择的一组预定兴趣点的局部变型来进行自动语言识别的方法，所述视频序列包括所述讲话者的嘴部区域的连续图像，

所述方法的特征在于，所述方法包括以下步骤：

a)形成n个兴趣点的微结构的起始集合，每一个微结构都由一n阶元组来定义，其中1≤n≤N；

b)对于步骤a)的每一元组，基于所述元组的兴趣点的局部梯度和/或移动描述符来确定相关联的结构化视觉特性；

c)通过以下步骤来迭代地搜索并选择最具区别性的元组：

c1)将适于考虑元组及其相关联的结构化特性的组合的算法应用于所述元组集合并为所述组合的每一元组确定对应的相关性分数；

c2)从在步骤c1)处考虑的所述元组集合中，提取产生最高相关性分数的元组的子集；

c3)将附加的1阶元组聚集到在步骤c2)处提取的所述子集的元组，以获得更高阶元组的新集合；

c5)在所述更高阶元组的新集合中，选择最具区别性的元组的新子集；以及

c6)重复步骤c1)到c5)直至最大阶N；以及

d)基于在步骤c)选择的元组来执行视觉语言识别算法。

2.如权利要求1所述的方法，其特征在于：

–步骤c1)的算法是多核学习MKL类型的算法；

–步骤c1)的组合是元组与针对每一元组的最优权重的线性组合，其中所述最优权重是通过所述MKL算法计算得到的其在所述组合中的贡献；以及

–在步骤c2)处提取的元组的所述子集是具有最高权重的元组的子集。

3.如权利要求1所述的方法，其特征在于：

–步骤c3)到c5)实现了一种算法，适于：

·在连续图像上评估所考虑的元组的兴趣点的速度，以及

4.如权利要求1所述的方法，其特征在于：

–步骤c3)到c5)实现多核学习MKL类型的算法，适于：

·形成元组的线性组合，以及

·对于每一元组，计算其在所述组合中的贡献的最优权重；以及

在步骤c5)处提取的最具区别性的元组的子集是具有最高权重的元组的子集。