CN102023703A

CN102023703A - 组合唇读与语音识别的多模式界面***

Info

Publication number: CN102023703A
Application number: CN2009102468867A
Authority: CN
Inventors: 金大熙; 金大镇; 李珍; 申钟柱; 李振硕
Original assignee: Hyundai Motor Co; Kia Motors Corp
Current assignee: Hyundai Motor Co; Kia Corp
Priority date: 2009-09-22
Filing date: 2009-12-03
Publication date: 2011-04-20
Anticipated expiration: 2029-12-03
Also published as: US20110071830A1; KR20110032244A; CN102023703B; KR101092820B1; US8442820B2

Abstract

本发明提供了一种组合唇读与语音识别的多模式界面***，可仅通过语音和嘴唇运动发布导航操作指令，因此使得驾驶员在导航操作过程中向前看，并且减少在行驶过程中与导航操作相关的车辆事故。根据本发明的组合唇读与语音识别的多模式界面***包括：音频语音输入单元；语音识别单元；语音识别指令和估计概率输出单元；嘴唇视频图像输入单元；唇读单元；唇读识别指令输出单元；和语音识别与唇读识别结果组合单元，其输出语音识别指令。

Description

组合唇读与语音识别的多模式界面***

技术领域

本发明总体涉及一种组合唇读与语音识别的多模式界面***。更具体地，在优选实施例中，本发明涉及一种组合唇读与语音识别的多模式界面***，其能够主要通过且优选地仅通过语音和嘴唇运动适当地发布导航操作指令，因此，优选地使得驾驶员在导航操作过程中向前看，并且适当地减少在行驶过程中与导航操作相关的车辆事故。

背景技术

目前，随着汽车技术的发展和日常生活中车辆使用的增加，对安全的关注与需求也已经在增加。并且，随着电子技术的发展，各种类型的装置常规地安装于车辆上，例如，但并不限于，音频设备、电话以及导航***。

常规地，导航***优选地通过经由触摸屏输入指令来进行操作。虽然使用触摸屏可以使输入错误最小化，但是使用者必须同时使用他/她的手和眼睛，这使得在行驶过程中操作导航***变得困难，并且还分散使用者的注意力，因此增加了事故的风险。作为这种方式的替换，已经使用了使用语音识别的指令输入方法。然而，这种方法对音频噪声敏感，因此在噪声环境下可能发生识别故障。

基于嘴唇图像数据使用唇读的语音识别技术的研究仍处于算法研究的初始阶段。为了实现实时操作的唇读***，必须稳定地检测使用者的嘴唇，适当地找到嘴唇的特征点，并且适当地迅速跟踪它们。因此，一系列步骤，包括但不限于面部检测、嘴唇检测、嘴唇跟踪、特征定义、数据归一化、语音片段检测、识别等，优选地一起工作。然而，目前，还不存在对所有步骤的一致性研究。

常规地，已经提出了基于主动外观模型(AAM)或主动形状模型(ASM)的嘴唇拟合算法。其性能对初始位置敏感，并且不能鲁棒地跟踪嘴唇在说话中的快速运动，从而使得在视频跟踪时难以获得稳定的特征值。虽然为了在视频获得嘴唇特征的变化作为特征值之后识别该特征值，需要用于一致性地检测语音片段并将其分割为帧的自动语音检测算法，但对该算法尚无研究。此外，虽然已经对使用隐马尔可夫模型(HMM)或神经网络的识别器算法开展了研究，但是这些算法需要一定量的用于学习的学习数据，并且进一步需要大量的数据进行学习，以实现精细的识别器。已知，学习现有的基于音频的说话者无关(speaker-independent)的语音识别器需要每个单词来自多于2000人的学习数据。因此，当旨在实现说话者无关的唇读识别器时，不容易确保HM 学习所需的足够的学习数据。而且，因为HMM学习涉及复杂的数学计算过程，所以需要许多***资源和时间，因此使得难以在例如导航***的低规格***中执行在线学习。

目前，唇读***的独立识别率为40％至60％，其远低于语音识别器的独立识别率。这是因为从嘴唇图像可识别的发音的基本单位(视位)的数目(13)比基于音频的语音识别中的发音的基本单位(音位)的数目(44)少70％，从而显著地降低了区别口型看似相似的单词的能力。因此，实际应用服务***难以单独通过唇读实现指令识别***。

在此背景技术部分中公开的以上信息仅用于增强对本发明的背景技术的理解，因此其可能包含不构成在本国对于本领域技术人员而言已公知的现有技术的信息。

发明内容

本发明在优选方面提供了一种组合唇读与语音识别的多模式界面***，其实现了通过摄像机从面部图像有效地检测嘴唇的唇读***，适当地跟踪嘴唇运动，并且基于嘴唇的特征值适当地识别语音指令，随后适当地组合唇读***与基于音频的语音识别***，使得使用摄像机图像的唇读能够在语音识别器由于噪声而无法工作的环境中适当地接收指令。

在一些优选实施例中，本发明优选地提供了一种组合唇读与语音识别的多模式界面***，其基于适合的情景适当地配置作为交互***的导航***的应用服务屏幕，并且限制将要识别的指令，使得可根据各服务屏幕状态仅识别必要的指令，由此提高单个指令的识别率。

在另外的优选实施例中，本发明提供了一种组合唇读与语音识别的多模式界面***，其适当地应用能够实时在线学习的识别器算法，以便当驾驶者长时间使用该***时，使识别器适当地适应驾驶者的语音特征，由此逐渐提高识别率。

优选地，根据本发明的优选实施例的组合唇读与语音识别的多模式界面***包括，但可不仅限于，音频语音输入单元、语音识别单元、语音识别指令和估计概率输出单元、嘴唇视频图像输入单元、唇读单元、唇读识别指令输出单元、以及语音识别与唇读识别结果组合单元，其中音频语音输入单元适当地获得通过音频输入传感器输入的声音信号或者通过有线或无线连接从外部传送的输入音频信号；语音识别单元从输入音频信号适当地识别语音并且计算估计的识别准确度；语音识别指令和估计概率输出单元适当地输出与语音识别单元识别的语音相应的指令和估计的识别概率值；嘴唇视频图像输入单元适当地获得通过图像输入传感器输入的输入图像或者通过有线或无线连接从外部传送的输入图像；唇读单元通过处理输入图像适当地识别说话者的唇读指令；唇读识别指令输出单元适当地输出由唇读单元识别的唇读指令；如果估计的概率高于阈值，则语音识别与唇读识别结果组合单元适当地输出语音识别指令，如果估计的概率低于阈值，则其适当地输出唇读指令。

根据本发明的一些优选实施例，唇读单元可优选地包括，但可不仅限于，嘴唇检测器、嘴唇模型生成器、嘴唇***、语音片段检测器、***模式确定器、唇读识别学习单元、指令识别单元以及嘴唇特征数据库，其中嘴唇检测器使用来自嘴唇视频图像输入单元的输入图像适当地检测嘴唇特征；嘴唇模型生成器使用主动外观模型(AAM)嘴唇模型适当地生成形状模型和外观模型；嘴唇***使用由嘴唇模型生成器生成的形状模型和Lucas-Kanade(LK)算法，适当地跟踪作为在嘴唇检测后AAM拟合的结果而获得的嘴唇特征点；语音片段检测器将预定周期的帧数据适当地输入到神经网络识别器中，以便基于作为对连续的输入图像进行嘴唇跟踪的结果而获得的一系列嘴唇模型参数，确定片段是语音片段还是静音片段；***模式确定器适当地确定***是处于嘴唇特征数据的标签已知的学习模式，还是处于嘴唇特征数据的标签未知的识别模式；如果***处于学习模式，则唇读识别学习单元使用特征数据和输入标签适当地学习K最近邻(K-NN)学习器；如果***处于识别模式，则指令识别单元通过习得的K-NN识别器适当地找到与特征数据最相似的学习模式，并且输出作为特征值的结果指令；嘴唇特征数据库适当地存储离线或在线习得的每个指令的模式。

根据本发明另外的优选实施例，组合唇读与语音识别的多模式界面***还可包括，但可不仅限于，唇读特征检测单元、语音识别单词估计概率确定单元、嘴唇特征检测确定单元和实时唇读学习单元，其中唇读特征检测单元从来自语音片段检测器的输入图像适当地检测唇读特征；如果由语音识别模块识别的指令的估计概率高于阈值，则语音识别单词估计概率确定单元确定使用唇读特征检测单元检测的嘴唇图像作为嘴唇特征的学习标签执行学习；嘴唇特征检测确定单元适当地确定是否正确地检测到图像特征数据；实时唇读学习单元通过使用从基于的语音识别模块提供的指令作为标签，对从唇读特征检测单元提供的嘴唇特征值适当地执行k-NN学习，来更新嘴唇特征数据库，由此实现说话者自适应实时学习***。

优选地，组合唇读与语音识别的多模式界面***还可包括交互服务单元，其根据服务情景以有限的方式适当地识别必要的指令，由此实现能够实时学习的在线学习识别算法。

根据本发明的一些优选实施例，交互服务单元可优选地包括服务情景数据库，其优选地预先定义可对各屏幕适当输入的一序列指令，并且在执行唇读或语音识别时提供可对各服务屏幕或者在各阶段适当输入的该序列指令；服务屏幕；屏幕转换单元，其根据在服务情景数据库中定义的功能，响应于输入指令执行屏幕转换，并且向服务屏幕提供当前服务状态的信息；识别目标单词序列设置单元，其适当地设置在根据服务情景数据库发生状态改变的情况下各服务状态或屏幕所需要的一序列单词。

在本发明的其它进一步的实施例中，多模式界面***通过参照由识别目标单词序列设置单元设置的识别目标单词序列适当地组合唇读与语音识别，来执行抗噪语音识别；服务执行单元，其响应于输入指令适当地执行屏幕转换、语音引导、信息注册和其它注册的应用服务；以及识别结果确定单元，其适当地确定语音识别或者唇读识别是否失败，以决定是否对输入音频和视频信号执行服务，从而限制在实际服务中要识别的单词的数目，由此显著提高识别率。

应该理解的是，这里使用的术语“车辆”或“车辆的”或其它类似术语包括通常的机动车辆，例如包括运动型多用途车(SUV)、公共汽车、卡车、各种商用车在内的客运车辆，包括各种艇和船只在内的水运工具，以及航空器等，并且包括混合动力车、电动车、插电式混合动力电动车、氢动力车和其它替代燃料车(例如，从石油以外的资源所得到的燃料)。

如文中所提到的，混合动力车是具有两种或更多种动力源的车辆，例如既有汽油动力又有电动力的车辆。

本发明的上述特征和优点，从附图和以下具体实施方式中将是显而易见的或者在其中被更加详细地阐明，其中附图并入且形成此说明书的一部分，并与具体实施方式共同用于通过举例的方式说明本发明的原理。

附图说明

现在将参照附图所示出的某些示例性实施例详细说明本发明的上述及其它特征，这些实施方式在下文中仅以例示的方式给出，因此不对本发明构成限制，并且其中：

图1是示出根据本发明的示例性实施例的组合唇读与语音识别的多模式界面***的框图；

图2是示出图1中的唇读模块的详细框图；

图3是示出作为交互服务***实施的根据本发明的优选实施例的组合唇读与语音识别的多模式界面***的详细框图；并且

图4是示出说话者自适应实时唇读学习***的详细框图。

应该理解的是，附图不一定成比例，而是示出了说明本发明的基本原理的各种优选特征的某种程度的简化表示。这里所公开的、包括例如具体尺寸、方向、位置和形状的本发明的具体设计特征，将由具体期望的应用和使用环境部分地确定。

具体实施方式

在第一方面，本发明的特征在于一种组合唇读与语音识别的多模式界面***，包括音频语音输入单元、语音识别单元、语音识别指令和估计概率输出单元、嘴唇视频图像输入单元、唇读单元、唇读识别指令输出单元、语音识别与唇读识别结果组合单元，该单元输出语音识别指令。

在一个实施例中，音频语音输入单元获得通过音频输入传感器输入的声音信号或者通过有线或无线连接从外部传送的输入音频信号。

在另一实施例中，语音识别单元从输入音频信号识别语音并且计算估计的识别准确度。

在又一实施例中，语音识别指令和估计概率输出单元输出与语音识别单元识别的语音相应的指令和估计的识别概率值。

在再一实施例中，嘴唇视频图像输入单元获得通过图像输入传感器输入的输入图像或者通过有线或无线连接从外部传送的输入图像。

在另一实施例中，唇读单元通过处理输入图像识别说话者的唇读指令。

在又一实施例中，唇读识别指令输出单元输出由唇读单元识别的唇读指令。

在再一实施例中，如果估计的概率高于阈值，则语音识别与唇读识别结果组合单元输出语音识别指令，如果估计的概率低于阈值，则输出唇读指令。

本发明的优点和特征以及实现这些优点和特征的方法通过参考以下示例性实施例的详细说明和附图将更容易理解。然而，本发明可以多种不同的形式实现，并且不应解释为局限于本文给出的实施例。相反，这些实施例的给出使得本公开将是详尽和完整的，并且将充分地将本发明的构思传达给本领域技术人员，而且本发明将仅通过所附权利要求进行限定。

以下，将参照用以示出根据本发明的优选实施例的、组合唇读与语音识别的多模式界面***的框图，说明本发明的示例性实施例。根据本发明的一些优选实施例，应当理解各框图可通过计算机程序指令适当地实现。优选地，这些计算机程序指令可以适当地提供给通用计算机、专用计算机、或者其它可编程数据处理装置的处理器以产生一种机器，使得通过计算机或其它可编程数据处理装置的处理器适当地执行的指令产生实现流程图框中指定的功能的装置。

根据本发明的一些优选实施例，这些计算机程序指令还可存储在计算机可用或计算机可读的存储器中，这样的存储器可适当地指引计算机或其它可编程数据处理装置以特定的方式工作，使得存储在计算机可用或计算机可读的存储器中的指令产生制造的产品，优选地包括适当地实现流程图框中指定的功能的指令装置。

根据一些优选实施例，计算机程序指令还可适当地载入到计算机或其它可编程数据处理装置上，使得在计算机或其它可编程装置上执行一系列操作步骤，以产生计算机实现的过程，使得在计算机或其它可编程装置上适当地执行的指令优选地提供用以实现流程图框中指定的功能的步骤。

优选地，流程图示例中的每个方框可代表代码的模块、分段或部分，其适当地包括用于实现指定的逻辑功能的一个或多个可执行指令。根据本发明另外的示例性实施例，在方框中注释的功能可优选地不按顺序执行。例如，取决于所涉及的功能性，连续示出的两个方框可优选地基本上同时执行，或者有时方框可以相反的顺序执行。

在一些优选实施例中，如其中所使用的，术语“模块”包括但不局限于执行一定任务的软件或硬件组件，诸如现场可编程门阵列(FPGA)或者专用集成电路(ASIC)。优选地，模块可被优选地配置为驻留在可寻址存储介质上并且优选地配置为在一个或多个处理器上执行。因此，在另外的优选实施例中，示例性模块可优选地包括，但可不仅限于组件，诸如，软件组件，面向对象的软件组件，类组件和任务组件，进程，函数，属性，过程，子程序，程序代码段，驱动程序，固件，微码，电路，数据，数据库，数据结构，表，数组和变量。优选地，在组件和模块中提供的功能可适当地组合到更少的组件和模块中或者进一步分割到附加的组件和模块中。

下面将参照附图详细说明本发明的示例性实施例。

在一些优选实施例中，本发明提出了一种组合唇读与语音识别的多模式界面***，其实现了一种从通过摄像机获得的面部图像有效地检测嘴唇，适当地跟踪嘴唇运动，并且基于嘴唇的特征值适当地识别语音指令的唇读***，然后适当地组合唇读***与基于音频的语音识别***。因此，因为本发明不受音频噪声的影响，所以本发明适当地允许使用摄像机图像的唇读技术在某一环境中通过接收指令而提供服务，在该环境中由于在室内收听广播时或者在车窗落下而驾驶车辆时所产生的噪声，语音识别器不能工作。

在另外的优选实施例中，在根据本发明的导航***中，使用嘴唇图像的唇读***从输入图像适当地检测驾驶者的面部，从检测到的面部区域适当地检测相对于嘴唇候选区的嘴唇的位置，然后使用嘴唇形状模型相对于检测到的嘴唇适当地确定用于跟踪的嘴唇特征点的精确位置。因此，提出了一系列过程，其中通过图像匹配算法适当地跟踪图像特征点，从特征的时间变化的数据适当地检测语音片断，并且识别器基于按单词排序的一系列嘴唇特征值识别指令。

根据本发明的另外的优选实施例，为了弥补唇读技术的识别性能较低的问题，本发明作为一个示例性实施例提出了一种方法，在减少要识别的单词的数量导致更好的识别，而当同时识别所有注册在识别器中的指令时准确度降低的情况下，通过基于情景配置作为交互***的导航***的应用服务屏幕，然后适当地限制指令，使得可根据服务的屏幕状态仅识别必需的指令，能够适当地提高单个指令的识别率。

另外，在使用嘴唇特征的语音识别的一些实例中，通常特征是因人而异的，因此识别器需要适当大量的学习数据。因此，本发明提出了一种自适应学习***，其应用能够实时在线学习的识别器，以便如果驾驶者长时间使用此***，则使识别器适当地适应驾驶者的语音特征，由此逐渐提高识别率。在一些示例性实施例中，在学习数据采集受到限制的情况下，说话者无关的识别器的识别率较低。根据一些优选实施例，导航***包括说话者自适应实时唇读学习算法，该算法在服务的实际操作中并没有很多使用者，因而作为固定驾驶者的少数几个经常的使用者频繁使用一些特定指令的情况下，通过实时地学习并向识别器添加数据而实时地学习当前说话者的唇读特征数据，从而能够随着使用者使用该***而逐渐提高识别率。

根据如本文所述的本发明的优选实施例，语音识别和唇读技术是一种机器与人之间的基本交互技术，例如基本人机交互(HCI)技术，其可广泛地用于诸如但不限于电视、空调等的电子产品，机械人控制，以及车辆。

根据一些示例性实施例，并且如图1中所示，图1是示出组合唇读与语音识别的多模式界面***的框图。

在一些优选实施例中，组合唇读与语音识别的多模式界面***100包括音频语音输入单元110，语音识别模块120，语音识别指令和估计概率输出单元130，嘴唇视频图像输入单元140，唇读模块150，唇读识别指令输出单元160，语音识别与唇读识别结果组合单元170，最终识别指令输出单元180。优选地，语音识别与唇读识别结果组合单元170包括语音识别结果确定单元171，唇读语音识别结果确定单元172，组合识别指令(语音)输出单元173，和组合识别指令(唇读)输出单元174。

优选地，音频语音输入单元110可适当地获得通过音频输入传感器输入的声音信号或者通过有线或无线连接从外部传送的输入音频信号。例如，在一些优选实施例中，例如在通过音频输入传感器获得输入音频信号的情况下，可通过将经由给定的扩音器输入的声信号转换为电信号而适当地获得输入声音信号。因此，可通过用于将获得的电信号转换为数字信号的模/数转换器和用于处理通过模/数转换器获得的语音信号的数字信号处理器(DSP)适当地获得预定的输入声音信号。在另外的优选实施例中，输入声音可适当地存储在存储介质中或者以有线或无线的方式传送，由此获得预定的输入声音信号。

在另外的优选实施例中，语音识别模块120是商用的语音识别模块，其能够适当地设置用于孤立单词识别的识别单词，具有说话者无关的识别功能，并且能够输出具有关于注册的识别单词和相应的单词的以百分率(％)表示的估计的识别准确度的识别结果。

优选地，语音识别指令和估计概率输出单元130输出孤立指令和由语音识别器识别的相应的输入语音信号为识别的单词的概率值。

在另外的优选实施例中，嘴唇视频图像输入单元140可适当地获得通过图像输入传感器输入的输入图像或者通过有线或无线连接从外部传送的输入图像。例如，在一些优选实施例中，在通过图像输入传感器获得输入图像的情况下，可通过将通过给定的透镜入射的目标的图像信号转换为电信号而适当地获得输入图像。例如，在一些优选实施例中，图像输入传感器可包括电荷耦合装置(CCD)，CMOS，和其它商用的图像采集装置。另外，可通过用于将由图像输入传感器获得的电信号转换为数字信号的模/数转换器和用于处理由模/数转换器转换为图像信号的数字信号的数字信号处理器(DSP)适当地获得预定的输入图像。在另外的优选实施例中，输入图像可适当地存储在存储介质中或者以有线或无线的方式传送，由此获得预定的输入图像。优选地，嘴唇视频图像输入单元140可适当地将获得的输入图像转换为单通道图像。例如，在一些示例性实施例中，输入图像可被改变为灰度。替代性地，在其它的示例性实施例中，如果输入图像是“RGB”通道的多通道图像，则输入图像可被适当地改变为单通道值。因此，输入图像的亮度分布可通过将输入图像转换为单通道的强度值而容易地表示。

优选地，唇读模块150通过处理输入图像数据而识别来自说话者的语音指令。

优选地，唇读识别指令输出单元160输出由唇读模块150识别的指令。

根据本发明的另外的优选实施例，语音识别与唇读识别结果组合单元170以这样的方式适当地组合基于音频的语音识别结果与基于图像的唇读结果，以便适当地执行各个模式特征数据的组合或者组合由各个***识别的结果。优选地，在一些优选实施例中，本发明的目的是通过自由地使用现有的独立的语音识别器将结果与唇读组合。优选地，语音识别结果确定单元171和172接收独立的音频语音输入单元110的语音识别指令和估计概率输出单元130的结果，确定单词识别的可靠性的概率是高于还是低于适当的特定的阈值，并且输出确定结果。优选地，可以根据***调整和调节阈值，并且可以证实试验结果典型地示出关于50％的可靠性的最高组合识别率。优选地，当从语音识别结果确定单元171和172的结果确定可靠性的概率高于阈值时，组合识别指令输出单元173和174向最终识别指令输出单元180输出语音识别器的识别结果指令，否则，输出唇读识别结果指令作为识别结果。

如本文所述，可如下面的实例中所述扩展这样的组合语音识别与唇读结果的方法。在一定的示例性实施例中，如果语音识别结果确定单元171和172的语音识别的可靠性适当地低于阈值并且唇读模块没有检测到任何指令，则适当地不产生输出，以便防止语音识别器由于噪声而发生故障。如本文所述，当识别模块中只有一个适当地检测到特定的单词而其它识别器没有检测到任何单词时，可以通过限定各自的操作而适当地修改组合算法。

根据一定的示例性实施例，并且如图2中所示，图2是详细示出图1中的唇读模块150的框图。

优选地，唇读模块150包括嘴唇检测器210，用于检测和跟踪的嘴唇模型生成器220，嘴唇***230，语音片段检测器240，***模式确定器250，唇读识别学习单元260，指令识别单元270和嘴唇特征数据库280。

根据一些示例性实施例，如果来自嘴唇视频图像输入单元140的输入图像是彩色图像，则嘴唇检测器210适当地将输入图像转换为黑/白图像。对使用彩色图像的嘴唇检测算法已有研究，然而，已经发现该算法可受照明影响并且在夜间在红外图像中可能不能正确工作。因此，在上述示例性实施例中，将关于仅使用黑/白图像检测并跟踪嘴唇的情况给出说明。因此，可以在白天和夜间以鲁棒的方式检测并跟踪嘴唇。根据一些示例性实施例，在嘴唇检测步骤中，首先通过自适应增强(Adaboost)算法基于局部二进制模式(LBP)检测面部，并且关于嘴唇在面部的大致位置以同样的方式适当地检测嘴唇。因此，在另外的相关实施例中，适当地允许检测器使用规一化面部和嘴唇图像学习。优选地，Adaboost方法不能确定用于唇读的嘴唇特征点的精确位置。因此，本发明的目的在于使用主动外观模型(AAM)嘴唇模型产生形状和外观模型，并使用该模型适当地获得精确的嘴唇特征点。

根据另外的优选实施例，嘴唇模型生成器220在学习图像上关于嘴唇图像适当地指出通过手而手工获得的特征点的位置，收集这样的数据以通过主成分分析(PCA)适当地生成形状模型和外观模型，并且在AAM拟合和嘴唇特征跟踪中使用这些模型。

优选地，嘴唇***230使用由嘴唇模型生成器220生成的形状模型和Lucas-kanade(LK)算法，跟踪作为在嘴唇检测后AAM拟合的结果而获得的嘴唇特征点。优选地，使用作为特征值的形状参数，将对于各输入图像的嘴唇跟踪结果适当地提供给唇读模块150。

在又一个实施例中，语音片段检测器240将预定周期的帧数据适当地输入到神经网络识别器中，以便基于作为对连续的输入图像进行嘴唇跟踪的结果而适当地获得的一系列嘴唇模型参数，确定片段是语音片段还是静音片段。因此，作为确定结果，如果语音片段延续然后改变为静音片段，则适当地提取并输出语音片段的特征数据。

根据一些优选实施例，***模式确定器250适当地确定***是处于嘴唇特征数据的标签已知的学习模式，还是处于嘴唇特征数据的标签未知的识别模式。优选地，在学习模式中，使唇读识别学习单元260使用特征数据和输入标签学习K最近邻(K-NN)学习器。优选地，与HMM不同，可以通过少量的学习数据实现有效的学习，并且识别器因为其结构简单可通过实时学习而逐渐更新。优选地，在其中输入特征值没有标签的识别模式中，指令识别单元270通过在唇读识别学习单元260中习得的K-NN识别器找到与特征数据最相似的适当的学习模式，并将作为特征值的结果指令适当地输出至唇读识别指令输出单元160。

优选地，嘴唇特征数据库280存储离线或在线习得的每个指令的模式。

以下将更详细地说明根据优选的示例性实施例的唇读模块150的操作。

根据本发明的一些优选实施例，嘴唇检测器210通过使用LBP图像转换和Adaboost算法在白天和夜间以鲁棒的方式提供关于单色图像(mono image)的嘴唇的大致位置，使用整体嘴唇模型适当地确定嘴唇的整***置，使用唇角模型适当地检测嘴唇的角落，使用AAM嘴唇模型通过将嘴唇的角落位置设定为初始位置而适当地执行精确拟合，并且适当地提供特征点的坐标作为嘴唇***230的初始位置值。

在一些示例性实施例中，嘴唇***230使用基于LK的图像配准算法和嘴唇形状模型，通过将各个AAM嘴唇探测结果设定为初始特征点，而跟踪随后的输入图像上的特征点周围的m×m个像素区域。另外，虽然可优选地调整像素的数目，但是从下一帧适当地检测到并且关于每个特征点11×11个像素区域地匹配最相似的区域，并且将匹配结果适当地输入至形状模型，以便得到形状模型参数并将其提供给语音片段检测器240。

优选地，语音片段检测器240适当地接收作为一系列时间流(temporal stream)的嘴唇的形状模型参数，通过神经网络识别器适当地确定每一帧的预定片段是否为语音，当语音片段在持续预定的时间之后变化为非语音片段时适当地提取语音片段的特征数据，并将数据适当地提供给唇读识别学习单元260。

根据本发明的另外的优选实施例，唇读识别学习单元260适当地使用按单词和标签信息分组的准备好的嘴唇特征数据离线地学习K-NN唇读识别器，并且作为结果优选地向唇读模块150提供初始识别器。

优选地，指令识别单元270基于唇读识别学习单元260的结果，关于新的输入数据，通过k-NN识别算法适当地识别单词，并且适当地向唇读模块150返回结果指令。

根据本发明的一些优选实施例，并且如图3中所示，图3是适当地实现组合唇读与语音识别的多模式界面***的详细框图。

优选地，交互服务***300包括服务情景数据库310，服务屏幕320，屏幕转换单元330，识别目标单词序列设置单元340，服务执行单元350，多模式界面***100和识别结果确定单元360。

在另外的优选实施例中，交互服务***300通过交互***或者情景库***适当地限制在实际服务中要识别的单词的数目，以便弥补唇读***200的识别率降低的基本问题，从而达到识别率的显著改善。

根据本发明的一些示例性实施例，服务情景数据库310可优选地假定配有导航服务。优选地，服务的屏幕可以适当地设计为必要的服务屏幕，例如启动屏幕、主菜单屏幕、定位屏幕、路径选择屏幕、实际道路引导屏幕等。优选地，服务情景数据库310预先定义可对各屏幕输入的一序列指令，并且在执行唇读或语音识别时适当地提供可对各服务屏幕或者在各阶段输入的该序列指令。

优选地，服务屏幕320表示各个服务屏幕，诸如但不限于，初始屏幕，主菜单屏幕等。

优选地，屏幕转换单元330根据在服务情景数据库310中定义的功能，响应于输入指令执行屏幕转换，并且向服务屏幕320提供当前服务状态的信息。

在另外的优选实施例中，识别目标单词序列设置单元340适当地设置在根据服务情景数据库310发生状态改变的情况下，各服务状态或屏幕所需要的一序列单词。

优选地，服务执行单元350响应于输入指令适当地执行屏幕转换、语音引导、信息注册和其它注册的应用服务。

在另外的优选实施例中，多模式界面***100通过参照由识别目标单词序列设置单元340设置的识别目标单词序列组合唇读与语音识别，而适当地执行抗噪语音识别。

优选地，识别结果确定单元360适当地确定语音识别或者唇读识别是否失败，以决定是否对输入音频和视频信号执行服务。根据一些优选实施例，这是通过使用其本身的指令识别的估计可靠性来确定的。在另外的优选实施例中，如果识别成功，则服务执行单元350适当地执行相应于指令的服务，否则，在服务等待模式中等待指令输入。

根据本发明的一些优选实施例并且如图4中所示，图4是示出说话者自适应实时唇读学习***的详细框图。

在一些优选实施例中，说话者自适应实时唇读学习***400适当地包括唇读特征检测单元410、语音识别单词估计概率确定单元420，嘴唇特征检测确定单元430，和实时唇读学习单元440。在一些优选实施例中，要求实时学习的原因在于，尽管唇读适当地要求大量的学习数据以学习具有大的个人特征数据偏差的说话者无关的识别器，然而收集学习数据并不容易，因此实时唇读学习单元440需要学习k-NN识别器，以便在实际情况下适应于个体的服务使用者。

在本发明的一些优选实施例中，唇读特征检测单元410从来自唇读模块150的语音片段检测器240的输入图像适当地检测唇读特征。

根据本发明的一些优选实施例，语音识别单词估计概率确定单元420适当地评价由语音识别模块120识别的指令的可靠性，以确定该指令是否可以用作由唇读特征检测单元410检测到的嘴唇图像特征的学习标签。优选地，如果由语音识别模块120识别的指令的可靠性的估计值高于特定的阈值，则执行学习，否则，不执行学习。

优选地，嘴唇特征检测确定单元430适当地确定是否正确地检测到图像特征数据，从而为即使语音识别模块120已适当地识别指令也没有检测到图像特征数据的情况作准备。

优选地，在一些实施例中，实时唇读学习单元440通过使用从语音识别模块120提供的指令作为标签，以与离线同样的方式，对在实际服务***中从唇读特征检测单元410提供的嘴唇特征值适当地执行k-NN学习，来更新图2中的嘴唇特征数据库280。优选地，在服务期间对于每个输入，这样的一系列学习持续，以学习基于在无噪声环境下的语音识别模块120的高识别性能的唇读模块150，从而即使在噪声环境下语音识别模块120不能再工作，也使唇读模块150能够适当地识别指令并继续服务。

本发明优选地提供了一种对于在现有语音识别方法中观察到的识别率降低的问题的解决方案。因此，本发明优选地允许使用者在噪声持续存在的环境中，诸如行驶的车辆的内部，取代基于音频的语音识别器而适当地操作导航的基本指令。本发明进一步提供了在驾驶过程中通过经由触摸屏操作导航***而不分散使用者注意力的方法和***，因此防止了事故的风险。另外，本发明提供了一种使用语音识别器操作诸如总是产生噪声的音频设备的装置的方法。

优选地，本发明并不局限于特定的服务，而是可应用于几乎所有目前应用语音识别器的服务，例如但不限于，车辆、机械手、家用电器等。因此，这克服了适当地应用在暴露于日常噪声的实际环境中可能不能正确工作的现有的语音识别器的难题。

根据本发明的优选实施例，组合唇读与语音识别的多模式界面***实现了一种从通过摄像机获得的面部图像适当地检测嘴唇，跟踪嘴唇运动，并且基于嘴唇的特征值适当地识别语音指令的唇读***，然后适当地组合唇读***与基于音频的语音识别***，由此提供了一种多模式语音识别***。优选地，因为组合唇读与语音识别的多模式界面***适当地不受音频噪声的影响，所以组合唇读与语音识别的多模式界面***优选地允许使用摄像机图像的唇读技术在一定的环境中通过接收指令而提供服务，在该环境中由于在室内收听广播时或者在车窗落下而驾驶车辆时所产生的噪声，语音识别器无法工作。

在另一优选实施例中，组合唇读与语音识别的多模式界面***可基于情景适当地配置作为交互***的导航***的应用服务屏幕，并且适当地限制要识别的指令，使得可根据各服务屏幕状态适当地仅识别必要的指令，由此提高单个指令的识别率。

在本发明的另外的优选实施例中，组合唇读与语音识别的多模式界面***应用能够实时在线学习的识别器算法，以便如果驾驶者长时间使用该***，则使识别器适当地适应驾驶者的语音特征，由此逐渐提高识别率。

本发明的以上实施例是示例性的而非限制性的。各种替代方案和等同方案都是可能的。本发明不受本文所述实施例的限制。本发明也不局限于任何特定形式的半导体装置。鉴于本公开，其它的增加、减少或改型都是显而易见的，并且意在属于所附权利要求的范围。

附图中各元件的标记

100：组合唇读与语音识别的多模式界面***

110：音频语音输入单元

120：语音识别模块

130：语音识别指令和估计概率输出单元

140：嘴唇视频图像输入单元

150：唇读模块

160：唇读识别指令输出单元

170：语音识别与唇读识别结果组合单元

171：语音识别结果确定单元

172：唇读识别结果确定单元

173：组合识别指令(语音)输出单元

174：组合识别指令(唇读)输出单元

180：最终识别指令输出单元

210：嘴唇检测器

220：嘴唇模型生成器

230：嘴唇***

240：语音片段检测器

250：***模式确定器

260：唇读识别学习单元

270：指令识别单元

280：嘴唇特征数据库

300：交互服务***

310：服务情景数据库

320：服务屏幕

330：屏幕转换单元

350：服务执行单元

360：识别结果确定单元

400：说话者自适应实时唇读学习***

410：唇读特征检测单元

420：语音识别单词估计概率确定单元

430：嘴唇特征检测确定单元

440：实时唇读学习单元

Claims

1.一种组合唇读与语音识别的多模式界面***，包括：

音频语音输入单元，其获得通过音频输入传感器输入的声音信号或者通过有线或无线连接从外部传送的输入音频信号；

语音识别单元，其从输入音频信号识别语音并且计算估计的识别准确度；

语音识别指令和估计概率输出单元，其输出与语音识别单元识别的语音相对应的指令和估计的识别概率值；

嘴唇视频图像输入单元，其获得通过图像输入传感器输入的输入图像或者通过有线或无线连接从外部传送的输入图像；

唇读单元，其通过处理输入图像识别说话者的唇读指令；

唇读识别指令输出单元，其输出由唇读单元识别的唇读指令；以及

语音识别与唇读识别结果组合单元，如果估计的概率高于阈值，则其输出语音识别指令，如果估计的概率低于阈值，则其输出唇读指令。

2.如权利要求1所述的***，其中唇读单元包括：

嘴唇检测器，其使用来自嘴唇视频图像输入单元的输入图像检测嘴唇特征；

嘴唇模型生成器，其使用主动外观模型(AAM)嘴唇模型生成形状模型和外观模型；

嘴唇***，其使用由嘴唇模型生成器生成的形状模型和Lucas-Kanade(LK)算法，跟踪作为在嘴唇检测后AAM拟合的结果而获得的嘴唇特征点；

语音片段检测器，其将预定周期的帧数据输入到神经网络识别器中，以便基于作为对连续的输入图像进行嘴唇跟踪的结果而获得的一系列嘴唇模型参数，确定片段是语音片段还是静音片段；

***模式确定器，其确定***是处于嘴唇特征数据的标签已知的学习模式，还是处于嘴唇特征数据的标签未知的识别模式；

唇读识别学习单元，如果***处于学习模式，则其使用特征数据和输入标签学习K最近邻域(K-NN)学习器；

指令识别单元，如果***处于识别模式，则其通过习得的K-NN识别器找到与特征数据最相似的学习模式，并且输出作为特征值的结果指令；以及

嘴唇特征数据库，其存储离线或在线习得的每个指令的模式。

3.如权利要求2所述的***，还包括：

唇读特征检测单元，其从来自语音片段检测器的输入图像检测唇读特征；

语音识别单词估计概率确定单元，如果由语音识别模块识别的指令的估计概率高于阈值，则确定使用由唇读特征检测单元检测的嘴唇图像作为嘴唇特征的学习标签执行学习；

嘴唇特征检测确定单元，其确定是否正确地检测到图像特征数据；以及

实时唇读学习单元，其通过使用从基于的语音识别模块提供的指令作为标签，对从唇读特征检测单元提供的嘴唇特征值执行k-NN学习，来更新嘴唇特征数据库，由此实现说话者自适应实时学习***。

4.如权利要求1所述的***，还包括交互服务单元，其根据服务情景以有限的方式识别必要的指令，由此实现能够实时学习的在线学习识别算法。

5.如权利要求4所述的***，其中交互服务单元包括：

服务情景数据库，其预先定义可对各屏幕输入的一序列指令，并且在执行唇读或者语音识别时提供可对各服务屏幕或者在各阶段输入的该序列指令；

服务屏幕；

屏幕转换单元，其根据在服务情景数据库中定义的功能响应于输入指令执行屏幕转换，并且向服务屏幕提供当前服务状态的信息；

识别目标单词序列设置单元，其设置在基于服务情景数据库发生状态改变的情况下，各服务状态或者屏幕所要求的一序列单词；

如权利要求1所述的多模式界面***，其通过参照由识别目标单词序列设置单元设置的识别目标单词序列组合唇读与语音识别，来执行抗噪语音识别；

服务执行单元，其响应于输入指令执行屏幕转换、语音引导、信息注册和其它注册的应用服务；以及

识别结果确定单元，其确定语音识别或者唇读识别是否失败，以决定是否对输入音频和视频信号执行服务，从而限制在实际服务中要识别的单词的数目，由此显著提高识别率。

6.一种组合唇读与语音识别的多模式界面***，包括：

音频语音输入单元；

语音识别单元；

语音识别指令和估计概率输出单元；

嘴唇视频图像输入单元；

唇读单元；

唇读识别指令输出单元；以及

语音识别与唇读识别结果组合单元，其输出语音识别指令。

7.如权利要求6所述的组合唇读与语音识别的多模式界面***，其中音频语音输入单元获得通过音频输入传感器输入的声音信号或者通过有线或无线连接从外部传送的输入音频信号。

8.如权利要求6所述的组合唇读与语音识别的多模式界面***，其中语音识别单元从输入音频信号识别语音并且计算估计的识别准确度。

9.如权利要求6所述的组合唇读与语音识别的多模式界面***，其中语音识别指令和估计概率输出单元输出与语音识别单元识别的语音相对应的指令和估计的识别概率值。

10.如权利要求6所述的组合唇读与语音识别的多模式界面***，其中嘴唇视频图像输入单元获得通过图像输入传感器输入的输入图像或者通过有线或无线连接从外部传送的输入图像。

11.如权利要求6所述的组合唇读与语音识别的多模式界面***，其中唇读单元通过处理输入图像识别说话者的唇读指令。

12.如权利要求6所述的组合唇读与语音识别的多模式界面***，其中唇读识别指令输出单元输出由唇读单元识别的唇读指令。

13.如权利要求6所述的组合唇读与语音识别的多模式界面***，其中如果估计的概率高于阈值，则语音识别与唇读识别结果组合单元输出语音识别指令。

14.如权利要求6所述的组合唇读与语音识别的多模式界面***，其中如果估计的概率低于阈值，则语音识别与唇读识别结果组合单元输出唇读指令。