CN102023703A - 组合唇读与语音识别的多模式界面*** - Google Patents

组合唇读与语音识别的多模式界面*** Download PDF

Info

Publication number
CN102023703A
CN102023703A CN2009102468867A CN200910246886A CN102023703A CN 102023703 A CN102023703 A CN 102023703A CN 2009102468867 A CN2009102468867 A CN 2009102468867A CN 200910246886 A CN200910246886 A CN 200910246886A CN 102023703 A CN102023703 A CN 102023703A
Authority
CN
China
Prior art keywords
labiomaney
unit
instruction
lip
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2009102468867A
Other languages
English (en)
Other versions
CN102023703B (zh
Inventor
金大熙
金大镇
李珍
申钟柱
李振硕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hyundai Motor Co
Kia Corp
Original Assignee
Hyundai Motor Co
Kia Motors Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hyundai Motor Co, Kia Motors Corp filed Critical Hyundai Motor Co
Publication of CN102023703A publication Critical patent/CN102023703A/zh
Application granted granted Critical
Publication of CN102023703B publication Critical patent/CN102023703B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3602Input other than that of destination using image analysis, e.g. detection of road signs, lanes, buildings, real preceding vehicles using a camera
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Automation & Control Theory (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种组合唇读与语音识别的多模式界面***,可仅通过语音和嘴唇运动发布导航操作指令,因此使得驾驶员在导航操作过程中向前看,并且减少在行驶过程中与导航操作相关的车辆事故。根据本发明的组合唇读与语音识别的多模式界面***包括:音频语音输入单元;语音识别单元;语音识别指令和估计概率输出单元;嘴唇视频图像输入单元;唇读单元;唇读识别指令输出单元;和语音识别与唇读识别结果组合单元,其输出语音识别指令。

Description

组合唇读与语音识别的多模式界面***
技术领域
本发明总体涉及一种组合唇读与语音识别的多模式界面***。更具体地,在优选实施例中,本发明涉及一种组合唇读与语音识别的多模式界面***,其能够主要通过且优选地仅通过语音和嘴唇运动适当地发布导航操作指令,因此,优选地使得驾驶员在导航操作过程中向前看,并且适当地减少在行驶过程中与导航操作相关的车辆事故。
背景技术
目前,随着汽车技术的发展和日常生活中车辆使用的增加,对安全的关注与需求也已经在增加。并且,随着电子技术的发展,各种类型的装置常规地安装于车辆上,例如,但并不限于,音频设备、电话以及导航***。
常规地,导航***优选地通过经由触摸屏输入指令来进行操作。虽然使用触摸屏可以使输入错误最小化,但是使用者必须同时使用他/她的手和眼睛,这使得在行驶过程中操作导航***变得困难,并且还分散使用者的注意力,因此增加了事故的风险。作为这种方式的替换,已经使用了使用语音识别的指令输入方法。然而,这种方法对音频噪声敏感,因此在噪声环境下可能发生识别故障。
基于嘴唇图像数据使用唇读的语音识别技术的研究仍处于算法研究的初始阶段。为了实现实时操作的唇读***,必须稳定地检测使用者的嘴唇,适当地找到嘴唇的特征点,并且适当地迅速跟踪它们。因此,一系列步骤,包括但不限于面部检测、嘴唇检测、嘴唇跟踪、特征定义、数据归一化、语音片段检测、识别等,优选地一起工作。然而,目前,还不存在对所有步骤的一致性研究。
常规地,已经提出了基于主动外观模型(AAM)或主动形状模型(ASM)的嘴唇拟合算法。其性能对初始位置敏感,并且不能鲁棒地跟踪嘴唇在说话中的快速运动,从而使得在视频跟踪时难以获得稳定的特征值。虽然为了在视频获得嘴唇特征的变化作为特征值之后识别该特征值,需要用于一致性地检测语音片段并将其分割为帧的自动语音检测算法,但对该算法尚无研究。此外,虽然已经对使用隐马尔可夫模型(HMM)或神经网络的识别器算法开展了研究,但是这些算法需要一定量的用于学习的学习数据,并且进一步需要大量的数据进行学习,以实现精细的识别器。已知,学习现有的基于音频的说话者无关(speaker-independent)的语音识别器需要每个单词来自多于2000人的学习数据。因此,当旨在实现说话者无关的唇读识别器时,不容易确保HM  学习所需的足够的学习数据。而且,因为HMM学习涉及复杂的数学计算过程,所以需要许多***资源和时间,因此使得难以在例如导航***的低规格***中执行在线学习。
目前,唇读***的独立识别率为40%至60%,其远低于语音识别器的独立识别率。这是因为从嘴唇图像可识别的发音的基本单位(视位)的数目(13)比基于音频的语音识别中的发音的基本单位(音位)的数目(44)少70%,从而显著地降低了区别口型看似相似的单词的能力。因此,实际应用服务***难以单独通过唇读实现指令识别***。
在此背景技术部分中公开的以上信息仅用于增强对本发明的背景技术的理解,因此其可能包含不构成在本国对于本领域技术人员而言已公知的现有技术的信息。
发明内容
本发明在优选方面提供了一种组合唇读与语音识别的多模式界面***,其实现了通过摄像机从面部图像有效地检测嘴唇的唇读***,适当地跟踪嘴唇运动,并且基于嘴唇的特征值适当地识别语音指令,随后适当地组合唇读***与基于音频的语音识别***,使得使用摄像机图像的唇读能够在语音识别器由于噪声而无法工作的环境中适当地接收指令。
在一些优选实施例中,本发明优选地提供了一种组合唇读与语音识别的多模式界面***,其基于适合的情景适当地配置作为交互***的导航***的应用服务屏幕,并且限制将要识别的指令,使得可根据各服务屏幕状态仅识别必要的指令,由此提高单个指令的识别率。
在另外的优选实施例中,本发明提供了一种组合唇读与语音识别的多模式界面***,其适当地应用能够实时在线学习的识别器算法,以便当驾驶者长时间使用该***时,使识别器适当地适应驾驶者的语音特征,由此逐渐提高识别率。
优选地,根据本发明的优选实施例的组合唇读与语音识别的多模式界面***包括,但可不仅限于,音频语音输入单元、语音识别单元、语音识别指令和估计概率输出单元、嘴唇视频图像输入单元、唇读单元、唇读识别指令输出单元、以及语音识别与唇读识别结果组合单元,其中音频语音输入单元适当地获得通过音频输入传感器输入的声音信号或者通过有线或无线连接从外部传送的输入音频信号;语音识别单元从输入音频信号适当地识别语音并且计算估计的识别准确度;语音识别指令和估计概率输出单元适当地输出与语音识别单元识别的语音相应的指令和估计的识别概率值;嘴唇视频图像输入单元适当地获得通过图像输入传感器输入的输入图像或者通过有线或无线连接从外部传送的输入图像;唇读单元通过处理输入图像适当地识别说话者的唇读指令;唇读识别指令输出单元适当地输出由唇读单元识别的唇读指令;如果估计的概率高于阈值,则语音识别与唇读识别结果组合单元适当地输出语音识别指令,如果估计的概率低于阈值,则其适当地输出唇读指令。
根据本发明的一些优选实施例,唇读单元可优选地包括,但可不仅限于,嘴唇检测器、嘴唇模型生成器、嘴唇***、语音片段检测器、***模式确定器、唇读识别学习单元、指令识别单元以及嘴唇特征数据库,其中嘴唇检测器使用来自嘴唇视频图像输入单元的输入图像适当地检测嘴唇特征;嘴唇模型生成器使用主动外观模型(AAM)嘴唇模型适当地生成形状模型和外观模型;嘴唇***使用由嘴唇模型生成器生成的形状模型和Lucas-Kanade(LK)算法,适当地跟踪作为在嘴唇检测后AAM拟合的结果而获得的嘴唇特征点;语音片段检测器将预定周期的帧数据适当地输入到神经网络识别器中,以便基于作为对连续的输入图像进行嘴唇跟踪的结果而获得的一系列嘴唇模型参数,确定片段是语音片段还是静音片段;***模式确定器适当地确定***是处于嘴唇特征数据的标签已知的学习模式,还是处于嘴唇特征数据的标签未知的识别模式;如果***处于学习模式,则唇读识别学习单元使用特征数据和输入标签适当地学习K最近邻(K-NN)学习器;如果***处于识别模式,则指令识别单元通过习得的K-NN识别器适当地找到与特征数据最相似的学习模式,并且输出作为特征值的结果指令;嘴唇特征数据库适当地存储离线或在线习得的每个指令的模式。
根据本发明另外的优选实施例,组合唇读与语音识别的多模式界面***还可包括,但可不仅限于,唇读特征检测单元、语音识别单词估计概率确定单元、嘴唇特征检测确定单元和实时唇读学习单元,其中唇读特征检测单元从来自语音片段检测器的输入图像适当地检测唇读特征;如果由语音识别模块识别的指令的估计概率高于阈值,则语音识别单词估计概率确定单元确定使用唇读特征检测单元检测的嘴唇图像作为嘴唇特征的学习标签执行学习;嘴唇特征检测确定单元适当地确定是否正确地检测到图像特征数据;实时唇读学习单元通过使用从基于的语音识别模块提供的指令作为标签,对从唇读特征检测单元提供的嘴唇特征值适当地执行k-NN学习,来更新嘴唇特征数据库,由此实现说话者自适应实时学习***。
优选地,组合唇读与语音识别的多模式界面***还可包括交互服务单元,其根据服务情景以有限的方式适当地识别必要的指令,由此实现能够实时学习的在线学习识别算法。
根据本发明的一些优选实施例,交互服务单元可优选地包括服务情景数据库,其优选地预先定义可对各屏幕适当输入的一序列指令,并且在执行唇读或语音识别时提供可对各服务屏幕或者在各阶段适当输入的该序列指令;服务屏幕;屏幕转换单元,其根据在服务情景数据库中定义的功能,响应于输入指令执行屏幕转换,并且向服务屏幕提供当前服务状态的信息;识别目标单词序列设置单元,其适当地设置在根据服务情景数据库发生状态改变的情况下各服务状态或屏幕所需要的一序列单词。
在本发明的其它进一步的实施例中,多模式界面***通过参照由识别目标单词序列设置单元设置的识别目标单词序列适当地组合唇读与语音识别,来执行抗噪语音识别;服务执行单元,其响应于输入指令适当地执行屏幕转换、语音引导、信息注册和其它注册的应用服务;以及识别结果确定单元,其适当地确定语音识别或者唇读识别是否失败,以决定是否对输入音频和视频信号执行服务,从而限制在实际服务中要识别的单词的数目,由此显著提高识别率。
应该理解的是,这里使用的术语“车辆”或“车辆的”或其它类似术语包括通常的机动车辆,例如包括运动型多用途车(SUV)、公共汽车、卡车、各种商用车在内的客运车辆,包括各种艇和船只在内的水运工具,以及航空器等,并且包括混合动力车、电动车、插电式混合动力电动车、氢动力车和其它替代燃料车(例如,从石油以外的资源所得到的燃料)。
如文中所提到的,混合动力车是具有两种或更多种动力源的车辆,例如既有汽油动力又有电动力的车辆。
本发明的上述特征和优点,从附图和以下具体实施方式中将是显而易见的或者在其中被更加详细地阐明,其中附图并入且形成此说明书的一部分,并与具体实施方式共同用于通过举例的方式说明本发明的原理。
附图说明
现在将参照附图所示出的某些示例性实施例详细说明本发明的上述及其它特征,这些实施方式在下文中仅以例示的方式给出,因此不对本发明构成限制,并且其中:
图1是示出根据本发明的示例性实施例的组合唇读与语音识别的多模式界面***的框图;
图2是示出图1中的唇读模块的详细框图;
图3是示出作为交互服务***实施的根据本发明的优选实施例的组合唇读与语音识别的多模式界面***的详细框图;并且
图4是示出说话者自适应实时唇读学习***的详细框图。
应该理解的是,附图不一定成比例,而是示出了说明本发明的基本原理的各种优选特征的某种程度的简化表示。这里所公开的、包括例如具体尺寸、方向、位置和形状的本发明的具体设计特征,将由具体期望的应用和使用环境部分地确定。
具体实施方式
在第一方面,本发明的特征在于一种组合唇读与语音识别的多模式界面***,包括音频语音输入单元、语音识别单元、语音识别指令和估计概率输出单元、嘴唇视频图像输入单元、唇读单元、唇读识别指令输出单元、语音识别与唇读识别结果组合单元,该单元输出语音识别指令。
在一个实施例中,音频语音输入单元获得通过音频输入传感器输入的声音信号或者通过有线或无线连接从外部传送的输入音频信号。
在另一实施例中,语音识别单元从输入音频信号识别语音并且计算估计的识别准确度。
在又一实施例中,语音识别指令和估计概率输出单元输出与语音识别单元识别的语音相应的指令和估计的识别概率值。
在再一实施例中,嘴唇视频图像输入单元获得通过图像输入传感器输入的输入图像或者通过有线或无线连接从外部传送的输入图像。
在另一实施例中,唇读单元通过处理输入图像识别说话者的唇读指令。
在又一实施例中,唇读识别指令输出单元输出由唇读单元识别的唇读指令。
在再一实施例中,如果估计的概率高于阈值,则语音识别与唇读识别结果组合单元输出语音识别指令,如果估计的概率低于阈值,则输出唇读指令。
本发明的优点和特征以及实现这些优点和特征的方法通过参考以下示例性实施例的详细说明和附图将更容易理解。然而,本发明可以多种不同的形式实现,并且不应解释为局限于本文给出的实施例。相反,这些实施例的给出使得本公开将是详尽和完整的,并且将充分地将本发明的构思传达给本领域技术人员,而且本发明将仅通过所附权利要求进行限定。
以下,将参照用以示出根据本发明的优选实施例的、组合唇读与语音识别的多模式界面***的框图,说明本发明的示例性实施例。根据本发明的一些优选实施例,应当理解各框图可通过计算机程序指令适当地实现。优选地,这些计算机程序指令可以适当地提供给通用计算机、专用计算机、或者其它可编程数据处理装置的处理器以产生一种机器,使得通过计算机或其它可编程数据处理装置的处理器适当地执行的指令产生实现流程图框中指定的功能的装置。
根据本发明的一些优选实施例,这些计算机程序指令还可存储在计算机可用或计算机可读的存储器中,这样的存储器可适当地指引计算机或其它可编程数据处理装置以特定的方式工作,使得存储在计算机可用或计算机可读的存储器中的指令产生制造的产品,优选地包括适当地实现流程图框中指定的功能的指令装置。
根据一些优选实施例,计算机程序指令还可适当地载入到计算机或其它可编程数据处理装置上,使得在计算机或其它可编程装置上执行一系列操作步骤,以产生计算机实现的过程,使得在计算机或其它可编程装置上适当地执行的指令优选地提供用以实现流程图框中指定的功能的步骤。
优选地,流程图示例中的每个方框可代表代码的模块、分段或部分,其适当地包括用于实现指定的逻辑功能的一个或多个可执行指令。根据本发明另外的示例性实施例,在方框中注释的功能可优选地不按顺序执行。例如,取决于所涉及的功能性,连续示出的两个方框可优选地基本上同时执行,或者有时方框可以相反的顺序执行。
在一些优选实施例中,如其中所使用的,术语“模块”包括但不局限于执行一定任务的软件或硬件组件,诸如现场可编程门阵列(FPGA)或者专用集成电路(ASIC)。优选地,模块可被优选地配置为驻留在可寻址存储介质上并且优选地配置为在一个或多个处理器上执行。因此,在另外的优选实施例中,示例性模块可优选地包括,但可不仅限于组件,诸如,软件组件,面向对象的软件组件,类组件和任务组件,进程,函数,属性,过程,子程序,程序代码段,驱动程序,固件,微码,电路,数据,数据库,数据结构,表,数组和变量。优选地,在组件和模块中提供的功能可适当地组合到更少的组件和模块中或者进一步分割到附加的组件和模块中。
下面将参照附图详细说明本发明的示例性实施例。
在一些优选实施例中,本发明提出了一种组合唇读与语音识别的多模式界面***,其实现了一种从通过摄像机获得的面部图像有效地检测嘴唇,适当地跟踪嘴唇运动,并且基于嘴唇的特征值适当地识别语音指令的唇读***,然后适当地组合唇读***与基于音频的语音识别***。因此,因为本发明不受音频噪声的影响,所以本发明适当地允许使用摄像机图像的唇读技术在某一环境中通过接收指令而提供服务,在该环境中由于在室内收听广播时或者在车窗落下而驾驶车辆时所产生的噪声,语音识别器不能工作。
在另外的优选实施例中,在根据本发明的导航***中,使用嘴唇图像的唇读***从输入图像适当地检测驾驶者的面部,从检测到的面部区域适当地检测相对于嘴唇候选区的嘴唇的位置,然后使用嘴唇形状模型相对于检测到的嘴唇适当地确定用于跟踪的嘴唇特征点的精确位置。因此,提出了一系列过程,其中通过图像匹配算法适当地跟踪图像特征点,从特征的时间变化的数据适当地检测语音片断,并且识别器基于按单词排序的一系列嘴唇特征值识别指令。
根据本发明的另外的优选实施例,为了弥补唇读技术的识别性能较低的问题,本发明作为一个示例性实施例提出了一种方法,在减少要识别的单词的数量导致更好的识别,而当同时识别所有注册在识别器中的指令时准确度降低的情况下,通过基于情景配置作为交互***的导航***的应用服务屏幕,然后适当地限制指令,使得可根据服务的屏幕状态仅识别必需的指令,能够适当地提高单个指令的识别率。
另外,在使用嘴唇特征的语音识别的一些实例中,通常特征是因人而异的,因此识别器需要适当大量的学习数据。因此,本发明提出了一种自适应学习***,其应用能够实时在线学习的识别器,以便如果驾驶者长时间使用此***,则使识别器适当地适应驾驶者的语音特征,由此逐渐提高识别率。在一些示例性实施例中,在学习数据采集受到限制的情况下,说话者无关的识别器的识别率较低。根据一些优选实施例,导航***包括说话者自适应实时唇读学习算法,该算法在服务的实际操作中并没有很多使用者,因而作为固定驾驶者的少数几个经常的使用者频繁使用一些特定指令的情况下,通过实时地学习并向识别器添加数据而实时地学习当前说话者的唇读特征数据,从而能够随着使用者使用该***而逐渐提高识别率。
根据如本文所述的本发明的优选实施例,语音识别和唇读技术是一种机器与人之间的基本交互技术,例如基本人机交互(HCI)技术,其可广泛地用于诸如但不限于电视、空调等的电子产品,机械人控制,以及车辆。
根据一些示例性实施例,并且如图1中所示,图1是示出组合唇读与语音识别的多模式界面***的框图。
在一些优选实施例中,组合唇读与语音识别的多模式界面***100包括音频语音输入单元110,语音识别模块120,语音识别指令和估计概率输出单元130,嘴唇视频图像输入单元140,唇读模块150,唇读识别指令输出单元160,语音识别与唇读识别结果组合单元170,最终识别指令输出单元180。优选地,语音识别与唇读识别结果组合单元170包括语音识别结果确定单元171,唇读语音识别结果确定单元172,组合识别指令(语音)输出单元173,和组合识别指令(唇读)输出单元174。
优选地,音频语音输入单元110可适当地获得通过音频输入传感器输入的声音信号或者通过有线或无线连接从外部传送的输入音频信号。例如,在一些优选实施例中,例如在通过音频输入传感器获得输入音频信号的情况下,可通过将经由给定的扩音器输入的声信号转换为电信号而适当地获得输入声音信号。因此,可通过用于将获得的电信号转换为数字信号的模/数转换器和用于处理通过模/数转换器获得的语音信号的数字信号处理器(DSP)适当地获得预定的输入声音信号。在另外的优选实施例中,输入声音可适当地存储在存储介质中或者以有线或无线的方式传送,由此获得预定的输入声音信号。
在另外的优选实施例中,语音识别模块120是商用的语音识别模块,其能够适当地设置用于孤立单词识别的识别单词,具有说话者无关的识别功能,并且能够输出具有关于注册的识别单词和相应的单词的以百分率(%)表示的估计的识别准确度的识别结果。
优选地,语音识别指令和估计概率输出单元130输出孤立指令和由语音识别器识别的相应的输入语音信号为识别的单词的概率值。
在另外的优选实施例中,嘴唇视频图像输入单元140可适当地获得通过图像输入传感器输入的输入图像或者通过有线或无线连接从外部传送的输入图像。例如,在一些优选实施例中,在通过图像输入传感器获得输入图像的情况下,可通过将通过给定的透镜入射的目标的图像信号转换为电信号而适当地获得输入图像。例如,在一些优选实施例中,图像输入传感器可包括电荷耦合装置(CCD),CMOS,和其它商用的图像采集装置。另外,可通过用于将由图像输入传感器获得的电信号转换为数字信号的模/数转换器和用于处理由模/数转换器转换为图像信号的数字信号的数字信号处理器(DSP)适当地获得预定的输入图像。在另外的优选实施例中,输入图像可适当地存储在存储介质中或者以有线或无线的方式传送,由此获得预定的输入图像。优选地,嘴唇视频图像输入单元140可适当地将获得的输入图像转换为单通道图像。例如,在一些示例性实施例中,输入图像可被改变为灰度。替代性地,在其它的示例性实施例中,如果输入图像是“RGB”通道的多通道图像,则输入图像可被适当地改变为单通道值。因此,输入图像的亮度分布可通过将输入图像转换为单通道的强度值而容易地表示。
优选地,唇读模块150通过处理输入图像数据而识别来自说话者的语音指令。
优选地,唇读识别指令输出单元160输出由唇读模块150识别的指令。
根据本发明的另外的优选实施例,语音识别与唇读识别结果组合单元170以这样的方式适当地组合基于音频的语音识别结果与基于图像的唇读结果,以便适当地执行各个模式特征数据的组合或者组合由各个***识别的结果。优选地,在一些优选实施例中,本发明的目的是通过自由地使用现有的独立的语音识别器将结果与唇读组合。优选地,语音识别结果确定单元171和172接收独立的音频语音输入单元110的语音识别指令和估计概率输出单元130的结果,确定单词识别的可靠性的概率是高于还是低于适当的特定的阈值,并且输出确定结果。优选地,可以根据***调整和调节阈值,并且可以证实试验结果典型地示出关于50%的可靠性的最高组合识别率。优选地,当从语音识别结果确定单元171和172的结果确定可靠性的概率高于阈值时,组合识别指令输出单元173和174向最终识别指令输出单元180输出语音识别器的识别结果指令,否则,输出唇读识别结果指令作为识别结果。
如本文所述,可如下面的实例中所述扩展这样的组合语音识别与唇读结果的方法。在一定的示例性实施例中,如果语音识别结果确定单元171和172的语音识别的可靠性适当地低于阈值并且唇读模块没有检测到任何指令,则适当地不产生输出,以便防止语音识别器由于噪声而发生故障。如本文所述,当识别模块中只有一个适当地检测到特定的单词而其它识别器没有检测到任何单词时,可以通过限定各自的操作而适当地修改组合算法。
根据一定的示例性实施例,并且如图2中所示,图2是详细示出图1中的唇读模块150的框图。
优选地,唇读模块150包括嘴唇检测器210,用于检测和跟踪的嘴唇模型生成器220,嘴唇***230,语音片段检测器240,***模式确定器250,唇读识别学习单元260,指令识别单元270和嘴唇特征数据库280。
根据一些示例性实施例,如果来自嘴唇视频图像输入单元140的输入图像是彩色图像,则嘴唇检测器210适当地将输入图像转换为黑/白图像。对使用彩色图像的嘴唇检测算法已有研究,然而,已经发现该算法可受照明影响并且在夜间在红外图像中可能不能正确工作。因此,在上述示例性实施例中,将关于仅使用黑/白图像检测并跟踪嘴唇的情况给出说明。因此,可以在白天和夜间以鲁棒的方式检测并跟踪嘴唇。根据一些示例性实施例,在嘴唇检测步骤中,首先通过自适应增强(Adaboost)算法基于局部二进制模式(LBP)检测面部,并且关于嘴唇在面部的大致位置以同样的方式适当地检测嘴唇。因此,在另外的相关实施例中,适当地允许检测器使用规一化面部和嘴唇图像学习。优选地,Adaboost方法不能确定用于唇读的嘴唇特征点的精确位置。因此,本发明的目的在于使用主动外观模型(AAM)嘴唇模型产生形状和外观模型,并使用该模型适当地获得精确的嘴唇特征点。
根据另外的优选实施例,嘴唇模型生成器220在学习图像上关于嘴唇图像适当地指出通过手而手工获得的特征点的位置,收集这样的数据以通过主成分分析(PCA)适当地生成形状模型和外观模型,并且在AAM拟合和嘴唇特征跟踪中使用这些模型。
优选地,嘴唇***230使用由嘴唇模型生成器220生成的形状模型和Lucas-kanade(LK)算法,跟踪作为在嘴唇检测后AAM拟合的结果而获得的嘴唇特征点。优选地,使用作为特征值的形状参数,将对于各输入图像的嘴唇跟踪结果适当地提供给唇读模块150。
在又一个实施例中,语音片段检测器240将预定周期的帧数据适当地输入到神经网络识别器中,以便基于作为对连续的输入图像进行嘴唇跟踪的结果而适当地获得的一系列嘴唇模型参数,确定片段是语音片段还是静音片段。因此,作为确定结果,如果语音片段延续然后改变为静音片段,则适当地提取并输出语音片段的特征数据。
根据一些优选实施例,***模式确定器250适当地确定***是处于嘴唇特征数据的标签已知的学习模式,还是处于嘴唇特征数据的标签未知的识别模式。优选地,在学习模式中,使唇读识别学习单元260使用特征数据和输入标签学习K最近邻(K-NN)学习器。优选地,与HMM不同,可以通过少量的学习数据实现有效的学习,并且识别器因为其结构简单可通过实时学习而逐渐更新。优选地,在其中输入特征值没有标签的识别模式中,指令识别单元270通过在唇读识别学习单元260中习得的K-NN识别器找到与特征数据最相似的适当的学习模式,并将作为特征值的结果指令适当地输出至唇读识别指令输出单元160。
优选地,嘴唇特征数据库280存储离线或在线习得的每个指令的模式。
以下将更详细地说明根据优选的示例性实施例的唇读模块150的操作。
根据本发明的一些优选实施例,嘴唇检测器210通过使用LBP图像转换和Adaboost算法在白天和夜间以鲁棒的方式提供关于单色图像(mono image)的嘴唇的大致位置,使用整体嘴唇模型适当地确定嘴唇的整***置,使用唇角模型适当地检测嘴唇的角落,使用AAM嘴唇模型通过将嘴唇的角落位置设定为初始位置而适当地执行精确拟合,并且适当地提供特征点的坐标作为嘴唇***230的初始位置值。
在一些示例性实施例中,嘴唇***230使用基于LK的图像配准算法和嘴唇形状模型,通过将各个AAM嘴唇探测结果设定为初始特征点,而跟踪随后的输入图像上的特征点周围的m×m个像素区域。另外,虽然可优选地调整像素的数目,但是从下一帧适当地检测到并且关于每个特征点11×11个像素区域地匹配最相似的区域,并且将匹配结果适当地输入至形状模型,以便得到形状模型参数并将其提供给语音片段检测器240。
优选地,语音片段检测器240适当地接收作为一系列时间流(temporal stream)的嘴唇的形状模型参数,通过神经网络识别器适当地确定每一帧的预定片段是否为语音,当语音片段在持续预定的时间之后变化为非语音片段时适当地提取语音片段的特征数据,并将数据适当地提供给唇读识别学习单元260。
根据本发明的另外的优选实施例,唇读识别学习单元260适当地使用按单词和标签信息分组的准备好的嘴唇特征数据离线地学习K-NN唇读识别器,并且作为结果优选地向唇读模块150提供初始识别器。
优选地,指令识别单元270基于唇读识别学习单元260的结果,关于新的输入数据,通过k-NN识别算法适当地识别单词,并且适当地向唇读模块150返回结果指令。
根据本发明的一些优选实施例,并且如图3中所示,图3是适当地实现组合唇读与语音识别的多模式界面***的详细框图。
优选地,交互服务***300包括服务情景数据库310,服务屏幕320,屏幕转换单元330,识别目标单词序列设置单元340,服务执行单元350,多模式界面***100和识别结果确定单元360。
在另外的优选实施例中,交互服务***300通过交互***或者情景库***适当地限制在实际服务中要识别的单词的数目,以便弥补唇读***200的识别率降低的基本问题,从而达到识别率的显著改善。
根据本发明的一些示例性实施例,服务情景数据库310可优选地假定配有导航服务。优选地,服务的屏幕可以适当地设计为必要的服务屏幕,例如启动屏幕、主菜单屏幕、定位屏幕、路径选择屏幕、实际道路引导屏幕等。优选地,服务情景数据库310预先定义可对各屏幕输入的一序列指令,并且在执行唇读或语音识别时适当地提供可对各服务屏幕或者在各阶段输入的该序列指令。
优选地,服务屏幕320表示各个服务屏幕,诸如但不限于,初始屏幕,主菜单屏幕等。
优选地,屏幕转换单元330根据在服务情景数据库310中定义的功能,响应于输入指令执行屏幕转换,并且向服务屏幕320提供当前服务状态的信息。
在另外的优选实施例中,识别目标单词序列设置单元340适当地设置在根据服务情景数据库310发生状态改变的情况下,各服务状态或屏幕所需要的一序列单词。
优选地,服务执行单元350响应于输入指令适当地执行屏幕转换、语音引导、信息注册和其它注册的应用服务。
在另外的优选实施例中,多模式界面***100通过参照由识别目标单词序列设置单元340设置的识别目标单词序列组合唇读与语音识别,而适当地执行抗噪语音识别。
优选地,识别结果确定单元360适当地确定语音识别或者唇读识别是否失败,以决定是否对输入音频和视频信号执行服务。根据一些优选实施例,这是通过使用其本身的指令识别的估计可靠性来确定的。在另外的优选实施例中,如果识别成功,则服务执行单元350适当地执行相应于指令的服务,否则,在服务等待模式中等待指令输入。
根据本发明的一些优选实施例并且如图4中所示,图4是示出说话者自适应实时唇读学习***的详细框图。
在一些优选实施例中,说话者自适应实时唇读学习***400适当地包括唇读特征检测单元410、语音识别单词估计概率确定单元420,嘴唇特征检测确定单元430,和实时唇读学习单元440。在一些优选实施例中,要求实时学习的原因在于,尽管唇读适当地要求大量的学习数据以学习具有大的个人特征数据偏差的说话者无关的识别器,然而收集学习数据并不容易,因此实时唇读学习单元440需要学习k-NN识别器,以便在实际情况下适应于个体的服务使用者。
在本发明的一些优选实施例中,唇读特征检测单元410从来自唇读模块150的语音片段检测器240的输入图像适当地检测唇读特征。
根据本发明的一些优选实施例,语音识别单词估计概率确定单元420适当地评价由语音识别模块120识别的指令的可靠性,以确定该指令是否可以用作由唇读特征检测单元410检测到的嘴唇图像特征的学习标签。优选地,如果由语音识别模块120识别的指令的可靠性的估计值高于特定的阈值,则执行学习,否则,不执行学习。
优选地,嘴唇特征检测确定单元430适当地确定是否正确地检测到图像特征数据,从而为即使语音识别模块120已适当地识别指令也没有检测到图像特征数据的情况作准备。
优选地,在一些实施例中,实时唇读学习单元440通过使用从语音识别模块120提供的指令作为标签,以与离线同样的方式,对在实际服务***中从唇读特征检测单元410提供的嘴唇特征值适当地执行k-NN学习,来更新图2中的嘴唇特征数据库280。优选地,在服务期间对于每个输入,这样的一系列学习持续,以学习基于在无噪声环境下的语音识别模块120的高识别性能的唇读模块150,从而即使在噪声环境下语音识别模块120不能再工作,也使唇读模块150能够适当地识别指令并继续服务。
本发明优选地提供了一种对于在现有语音识别方法中观察到的识别率降低的问题的解决方案。因此,本发明优选地允许使用者在噪声持续存在的环境中,诸如行驶的车辆的内部,取代基于音频的语音识别器而适当地操作导航的基本指令。本发明进一步提供了在驾驶过程中通过经由触摸屏操作导航***而不分散使用者注意力的方法和***,因此防止了事故的风险。另外,本发明提供了一种使用语音识别器操作诸如总是产生噪声的音频设备的装置的方法。
优选地,本发明并不局限于特定的服务,而是可应用于几乎所有目前应用语音识别器的服务,例如但不限于,车辆、机械手、家用电器等。因此,这克服了适当地应用在暴露于日常噪声的实际环境中可能不能正确工作的现有的语音识别器的难题。
根据本发明的优选实施例,组合唇读与语音识别的多模式界面***实现了一种从通过摄像机获得的面部图像适当地检测嘴唇,跟踪嘴唇运动,并且基于嘴唇的特征值适当地识别语音指令的唇读***,然后适当地组合唇读***与基于音频的语音识别***,由此提供了一种多模式语音识别***。优选地,因为组合唇读与语音识别的多模式界面***适当地不受音频噪声的影响,所以组合唇读与语音识别的多模式界面***优选地允许使用摄像机图像的唇读技术在一定的环境中通过接收指令而提供服务,在该环境中由于在室内收听广播时或者在车窗落下而驾驶车辆时所产生的噪声,语音识别器无法工作。
在另一优选实施例中,组合唇读与语音识别的多模式界面***可基于情景适当地配置作为交互***的导航***的应用服务屏幕,并且适当地限制要识别的指令,使得可根据各服务屏幕状态适当地仅识别必要的指令,由此提高单个指令的识别率。
在本发明的另外的优选实施例中,组合唇读与语音识别的多模式界面***应用能够实时在线学习的识别器算法,以便如果驾驶者长时间使用该***,则使识别器适当地适应驾驶者的语音特征,由此逐渐提高识别率。
本发明的以上实施例是示例性的而非限制性的。各种替代方案和等同方案都是可能的。本发明不受本文所述实施例的限制。本发明也不局限于任何特定形式的半导体装置。鉴于本公开,其它的增加、减少或改型都是显而易见的,并且意在属于所附权利要求的范围。
附图中各元件的标记
100:组合唇读与语音识别的多模式界面***
110:音频语音输入单元
120:语音识别模块
130:语音识别指令和估计概率输出单元
140:嘴唇视频图像输入单元
150:唇读模块
160:唇读识别指令输出单元
170:语音识别与唇读识别结果组合单元
171:语音识别结果确定单元
172:唇读识别结果确定单元
173:组合识别指令(语音)输出单元
174:组合识别指令(唇读)输出单元
180:最终识别指令输出单元
210:嘴唇检测器
220:嘴唇模型生成器
230:嘴唇***
240:语音片段检测器
250:***模式确定器
260:唇读识别学习单元
270:指令识别单元
280:嘴唇特征数据库
300:交互服务***
310:服务情景数据库
320:服务屏幕
330:屏幕转换单元
350:服务执行单元
360:识别结果确定单元
400:说话者自适应实时唇读学习***
410:唇读特征检测单元
420:语音识别单词估计概率确定单元
430:嘴唇特征检测确定单元
440:实时唇读学习单元

Claims (14)

1.一种组合唇读与语音识别的多模式界面***,包括:
音频语音输入单元,其获得通过音频输入传感器输入的声音信号或者通过有线或无线连接从外部传送的输入音频信号;
语音识别单元,其从输入音频信号识别语音并且计算估计的识别准确度;
语音识别指令和估计概率输出单元,其输出与语音识别单元识别的语音相对应的指令和估计的识别概率值;
嘴唇视频图像输入单元,其获得通过图像输入传感器输入的输入图像或者通过有线或无线连接从外部传送的输入图像;
唇读单元,其通过处理输入图像识别说话者的唇读指令;
唇读识别指令输出单元,其输出由唇读单元识别的唇读指令;以及
语音识别与唇读识别结果组合单元,如果估计的概率高于阈值,则其输出语音识别指令,如果估计的概率低于阈值,则其输出唇读指令。
2.如权利要求1所述的***,其中唇读单元包括:
嘴唇检测器,其使用来自嘴唇视频图像输入单元的输入图像检测嘴唇特征;
嘴唇模型生成器,其使用主动外观模型(AAM)嘴唇模型生成形状模型和外观模型;
嘴唇***,其使用由嘴唇模型生成器生成的形状模型和Lucas-Kanade(LK)算法,跟踪作为在嘴唇检测后AAM拟合的结果而获得的嘴唇特征点;
语音片段检测器,其将预定周期的帧数据输入到神经网络识别器中,以便基于作为对连续的输入图像进行嘴唇跟踪的结果而获得的一系列嘴唇模型参数,确定片段是语音片段还是静音片段;
***模式确定器,其确定***是处于嘴唇特征数据的标签已知的学习模式,还是处于嘴唇特征数据的标签未知的识别模式;
唇读识别学习单元,如果***处于学习模式,则其使用特征数据和输入标签学习K最近邻域(K-NN)学习器;
指令识别单元,如果***处于识别模式,则其通过习得的K-NN识别器找到与特征数据最相似的学习模式,并且输出作为特征值的结果指令;以及
嘴唇特征数据库,其存储离线或在线习得的每个指令的模式。
3.如权利要求2所述的***,还包括:
唇读特征检测单元,其从来自语音片段检测器的输入图像检测唇读特征;
语音识别单词估计概率确定单元,如果由语音识别模块识别的指令的估计概率高于阈值,则确定使用由唇读特征检测单元检测的嘴唇图像作为嘴唇特征的学习标签执行学习;
嘴唇特征检测确定单元,其确定是否正确地检测到图像特征数据;以及
实时唇读学习单元,其通过使用从基于的语音识别模块提供的指令作为标签,对从唇读特征检测单元提供的嘴唇特征值执行k-NN学习,来更新嘴唇特征数据库,由此实现说话者自适应实时学习***。
4.如权利要求1所述的***,还包括交互服务单元,其根据服务情景以有限的方式识别必要的指令,由此实现能够实时学习的在线学习识别算法。
5.如权利要求4所述的***,其中交互服务单元包括:
服务情景数据库,其预先定义可对各屏幕输入的一序列指令,并且在执行唇读或者语音识别时提供可对各服务屏幕或者在各阶段输入的该序列指令;
服务屏幕;
屏幕转换单元,其根据在服务情景数据库中定义的功能响应于输入指令执行屏幕转换,并且向服务屏幕提供当前服务状态的信息;
识别目标单词序列设置单元,其设置在基于服务情景数据库发生状态改变的情况下,各服务状态或者屏幕所要求的一序列单词;
如权利要求1所述的多模式界面***,其通过参照由识别目标单词序列设置单元设置的识别目标单词序列组合唇读与语音识别,来执行抗噪语音识别;
服务执行单元,其响应于输入指令执行屏幕转换、语音引导、信息注册和其它注册的应用服务;以及
识别结果确定单元,其确定语音识别或者唇读识别是否失败,以决定是否对输入音频和视频信号执行服务,从而限制在实际服务中要识别的单词的数目,由此显著提高识别率。
6.一种组合唇读与语音识别的多模式界面***,包括:
音频语音输入单元;
语音识别单元;
语音识别指令和估计概率输出单元;
嘴唇视频图像输入单元;
唇读单元;
唇读识别指令输出单元;以及
语音识别与唇读识别结果组合单元,其输出语音识别指令。
7.如权利要求6所述的组合唇读与语音识别的多模式界面***,其中音频语音输入单元获得通过音频输入传感器输入的声音信号或者通过有线或无线连接从外部传送的输入音频信号。
8.如权利要求6所述的组合唇读与语音识别的多模式界面***,其中语音识别单元从输入音频信号识别语音并且计算估计的识别准确度。
9.如权利要求6所述的组合唇读与语音识别的多模式界面***,其中语音识别指令和估计概率输出单元输出与语音识别单元识别的语音相对应的指令和估计的识别概率值。
10.如权利要求6所述的组合唇读与语音识别的多模式界面***,其中嘴唇视频图像输入单元获得通过图像输入传感器输入的输入图像或者通过有线或无线连接从外部传送的输入图像。
11.如权利要求6所述的组合唇读与语音识别的多模式界面***,其中唇读单元通过处理输入图像识别说话者的唇读指令。
12.如权利要求6所述的组合唇读与语音识别的多模式界面***,其中唇读识别指令输出单元输出由唇读单元识别的唇读指令。
13.如权利要求6所述的组合唇读与语音识别的多模式界面***,其中如果估计的概率高于阈值,则语音识别与唇读识别结果组合单元输出语音识别指令。
14.如权利要求6所述的组合唇读与语音识别的多模式界面***,其中如果估计的概率低于阈值,则语音识别与唇读识别结果组合单元输出唇读指令。
CN200910246886.7A 2009-09-22 2009-12-03 组合唇读与语音识别的多模式界面*** Active CN102023703B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020090089637A KR101092820B1 (ko) 2009-09-22 2009-09-22 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템
KR10-2009-0089637 2009-09-22

Publications (2)

Publication Number Publication Date
CN102023703A true CN102023703A (zh) 2011-04-20
CN102023703B CN102023703B (zh) 2015-03-11

Family

ID=43757401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910246886.7A Active CN102023703B (zh) 2009-09-22 2009-12-03 组合唇读与语音识别的多模式界面***

Country Status (3)

Country Link
US (1) US8442820B2 (zh)
KR (1) KR101092820B1 (zh)
CN (1) CN102023703B (zh)

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102270308A (zh) * 2011-07-21 2011-12-07 武汉大学 一种基于五官相关aam模型的面部特征定位方法
CN102298443A (zh) * 2011-06-24 2011-12-28 华南理工大学 结合视频通道的智能家居语音控制***及其控制方法
CN102324035A (zh) * 2011-08-19 2012-01-18 广东好帮手电子科技股份有限公司 口型辅助语音识别术在车载导航中应用的方法及***
CN103177238A (zh) * 2011-12-26 2013-06-26 宇龙计算机通信科技(深圳)有限公司 终端和用户识别方法
CN103366506A (zh) * 2013-06-27 2013-10-23 北京理工大学 一种驾驶员行车途中接打手机行为的自动监控装置及方法
CN103428623A (zh) * 2012-05-14 2013-12-04 通用汽车有限责任公司 活动顶篷式交通工具中的声音参数之间的切换
CN103869962A (zh) * 2012-12-18 2014-06-18 联想(北京)有限公司 一种数据处理方法、装置及电子设备
CN103905873A (zh) * 2014-04-08 2014-07-02 天津思博科科技发展有限公司 一种基于口型识别技术的电视遥控器
CN104166837A (zh) * 2013-05-15 2014-11-26 鹦鹉股份有限公司 采用最相关的兴趣点的各组的选择的视觉语音识别方法
CN104409075A (zh) * 2014-11-28 2015-03-11 深圳创维-Rgb电子有限公司 语音识别方法和***
CN104679471A (zh) * 2013-12-03 2015-06-03 联想(新加坡)私人有限公司 用于检测可听输入中的中止的装置、设备及方法
CN104808794A (zh) * 2015-04-24 2015-07-29 北京旷视科技有限公司 一种唇语输入方法和***
WO2015154419A1 (zh) * 2014-09-03 2015-10-15 中兴通讯股份有限公司 一种人机交互装置及方法
WO2015158082A1 (zh) * 2014-04-17 2015-10-22 中兴通讯股份有限公司 一种基于唇读的终端操作方法及装置
CN105450970A (zh) * 2014-06-16 2016-03-30 联想(北京)有限公司 一种信息处理方法及电子设备
CN105632497A (zh) * 2016-01-06 2016-06-01 昆山龙腾光电有限公司 一种语音输出方法、语音输出***
WO2016150001A1 (zh) * 2015-03-24 2016-09-29 中兴通讯股份有限公司 语音识别的方法、装置及计算机存储介质
CN106203235A (zh) * 2015-04-30 2016-12-07 腾讯科技(深圳)有限公司 活体鉴别方法和装置
CN106875941A (zh) * 2017-04-01 2017-06-20 彭楚奥 一种服务机器人的语音语义识别方法
CN107004405A (zh) * 2014-12-18 2017-08-01 三菱电机株式会社 语音识别装置和语音识别方法
CN107025439A (zh) * 2017-03-22 2017-08-08 天津大学 基于深度数据的唇部区域特征提取和规范化方法
CN108227903A (zh) * 2016-12-21 2018-06-29 深圳市掌网科技股份有限公司 一种虚拟现实语言交互***与方法
CN108227904A (zh) * 2016-12-21 2018-06-29 深圳市掌网科技股份有限公司 一种虚拟现实语言交互***与方法
CN109448711A (zh) * 2018-10-23 2019-03-08 珠海格力电器股份有限公司 一种语音识别的方法、装置及计算机存储介质
CN109558788A (zh) * 2018-10-08 2019-04-02 清华大学 静默语音输入辨识方法、计算装置和计算机可读介质
CN109872714A (zh) * 2019-01-25 2019-06-11 广州富港万嘉智能科技有限公司 一种提高语音识别准确性的方法、电子设备及存储介质
WO2019196196A1 (zh) * 2018-04-12 2019-10-17 科大讯飞股份有限公司 一种耳语音恢复方法、装置、设备及可读存储介质
CN110765868A (zh) * 2019-09-18 2020-02-07 平安科技(深圳)有限公司 唇读模型的生成方法、装置、设备及存储介质
CN110837758A (zh) * 2018-08-17 2020-02-25 杭州海康威视数字技术股份有限公司 一种关键词输入方法、装置及电子设备
CN110998678A (zh) * 2017-06-12 2020-04-10 可口可乐公司 低成本控制倾倒
CN111033611A (zh) * 2017-03-23 2020-04-17 乔伊森安全***收购有限责任公司 使嘴部图像与输入指令关联的***和方法
CN111201786A (zh) * 2018-01-17 2020-05-26 Jvc建伍株式会社 显示控制装置、通信装置、显示控制方法及程序
WO2020125038A1 (zh) * 2018-12-17 2020-06-25 南京人工智能高等研究院有限公司 语音控制方法及装置
CN111951629A (zh) * 2019-05-16 2020-11-17 上海流利说信息技术有限公司 一种发音纠正***、方法、介质和计算设备
CN112041924A (zh) * 2018-05-18 2020-12-04 渊慧科技有限公司 通过音素预测进行视觉语音识别
CN113002461A (zh) * 2021-03-26 2021-06-22 芜湖汽车前瞻技术研究院有限公司 Ar-hud***的虚像位置调整方法、装置及存储介质
WO2021196802A1 (zh) * 2020-03-31 2021-10-07 科大讯飞股份有限公司 多模态语音识别模型训练方法、装置、设备及存储介质
CN114141245A (zh) * 2017-03-14 2022-03-04 谷歌有限责任公司 基于唇部检测的查询端点化
CN114708642A (zh) * 2022-05-24 2022-07-05 成都锦城学院 商务英语仿真实训装置、***、方法及存储介质
WO2023006033A1 (zh) * 2021-07-29 2023-02-02 华为技术有限公司 语音交互方法、电子设备及介质

Families Citing this family (106)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011209787A (ja) * 2010-03-29 2011-10-20 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
JP2013072974A (ja) * 2011-09-27 2013-04-22 Toshiba Corp 音声認識装置、方法及びプログラム
BR112014015844A8 (pt) * 2011-12-26 2017-07-04 Intel Corp determinação das entradas de áudio e visuais de ocupantes baseada em veículo
US8863042B2 (en) * 2012-01-24 2014-10-14 Charles J. Kulas Handheld device with touch controls that reconfigure in response to the way a user operates the device
US20130212501A1 (en) * 2012-02-10 2013-08-15 Glen J. Anderson Perceptual computing with conversational agent
US8925058B1 (en) * 2012-03-29 2014-12-30 Emc Corporation Authentication involving authentication operations which cross reference authentication factors
US9094509B2 (en) 2012-06-28 2015-07-28 International Business Machines Corporation Privacy generation
KR101992676B1 (ko) * 2012-07-26 2019-06-25 삼성전자주식회사 영상 인식을 이용하여 음성 인식을 하는 방법 및 장치
JP5902632B2 (ja) * 2013-01-07 2016-04-13 日立マクセル株式会社 携帯端末装置及び情報処理システム
US9094576B1 (en) 2013-03-12 2015-07-28 Amazon Technologies, Inc. Rendered audiovisual communication
DE102013007964B4 (de) * 2013-05-10 2022-08-18 Audi Ag Kraftfahrzeug-Eingabevorrichtung mit Zeichenerkennung
US11199906B1 (en) 2013-09-04 2021-12-14 Amazon Technologies, Inc. Global user input management
WO2015076828A1 (en) * 2013-11-22 2015-05-28 Intel Corporation Apparatus and method for voice based user enrollment with video assistance
US9915545B2 (en) 2014-01-14 2018-03-13 Toyota Motor Engineering & Manufacturing North America, Inc. Smart necklace with stereo vision and onboard processing
US10024679B2 (en) 2014-01-14 2018-07-17 Toyota Motor Engineering & Manufacturing North America, Inc. Smart necklace with stereo vision and onboard processing
US10360907B2 (en) 2014-01-14 2019-07-23 Toyota Motor Engineering & Manufacturing North America, Inc. Smart necklace with stereo vision and onboard processing
US10248856B2 (en) 2014-01-14 2019-04-02 Toyota Motor Engineering & Manufacturing North America, Inc. Smart necklace with stereo vision and onboard processing
US9629774B2 (en) 2014-01-14 2017-04-25 Toyota Motor Engineering & Manufacturing North America, Inc. Smart necklace with stereo vision and onboard processing
US9578307B2 (en) 2014-01-14 2017-02-21 Toyota Motor Engineering & Manufacturing North America, Inc. Smart necklace with stereo vision and onboard processing
US20150279364A1 (en) * 2014-03-29 2015-10-01 Ajay Krishnan Mouth-Phoneme Model for Computerized Lip Reading
CN105096935B (zh) * 2014-05-06 2019-08-09 阿里巴巴集团控股有限公司 一种语音输入方法、装置和***
WO2015187631A1 (en) * 2014-06-02 2015-12-10 Tethis, Inc. Modified biopolymers and methods of producing and using the same
JP6276132B2 (ja) * 2014-07-30 2018-02-07 株式会社東芝 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム
US10024667B2 (en) 2014-08-01 2018-07-17 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable earpiece for providing social and environmental awareness
CN105468950B (zh) * 2014-09-03 2020-06-30 阿里巴巴集团控股有限公司 身份认证方法、装置、终端及服务器
US9922236B2 (en) 2014-09-17 2018-03-20 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable eyeglasses for providing social and environmental awareness
US10024678B2 (en) 2014-09-17 2018-07-17 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable clip for providing social and environmental awareness
US9626001B2 (en) * 2014-11-13 2017-04-18 International Business Machines Corporation Speech recognition candidate selection based on non-acoustic input
US9881610B2 (en) 2014-11-13 2018-01-30 International Business Machines Corporation Speech recognition system adaptation based on non-acoustic attributes and face selection based on mouth motion using pixel intensities
US9741342B2 (en) 2014-11-26 2017-08-22 Panasonic Intellectual Property Corporation Of America Method and apparatus for recognizing speech by lip reading
US9576460B2 (en) 2015-01-21 2017-02-21 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable smart device for hazard detection and warning based on image and audio data
US10490102B2 (en) 2015-02-10 2019-11-26 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for braille assistance
US9586318B2 (en) 2015-02-27 2017-03-07 Toyota Motor Engineering & Manufacturing North America, Inc. Modular robot with smart device
US9811752B2 (en) 2015-03-10 2017-11-07 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable smart device and method for redundant object identification
US9677901B2 (en) 2015-03-10 2017-06-13 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for providing navigation instructions at optimal times
US9972216B2 (en) 2015-03-20 2018-05-15 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for storing and playback of information for blind users
FR3034215B1 (fr) 2015-03-27 2018-06-15 Valeo Comfort And Driving Assistance Procede de commande, dispositif de commande, systeme et vehicule automobile comprenant un tel dispositif de commande
US10395555B2 (en) * 2015-03-30 2019-08-27 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for providing optimal braille output based on spoken and sign language
US9898039B2 (en) 2015-08-03 2018-02-20 Toyota Motor Engineering & Manufacturing North America, Inc. Modular smart necklace
CN106599764A (zh) * 2015-10-20 2017-04-26 深圳市商汤科技有限公司 基于唇形特征的活体判断方法及设备
CN106651340B (zh) * 2015-11-02 2021-06-29 创新先进技术有限公司 结算方法及装置
US9959872B2 (en) 2015-12-14 2018-05-01 International Business Machines Corporation Multimodal speech recognition for real-time video audio-based display indicia application
US10024680B2 (en) 2016-03-11 2018-07-17 Toyota Motor Engineering & Manufacturing North America, Inc. Step based guidance system
EP3460791A4 (en) * 2016-05-16 2019-05-22 Sony Corporation INFORMATION PROCESSING DEVICE
CN107404381A (zh) * 2016-05-19 2017-11-28 阿里巴巴集团控股有限公司 一种身份认证方法和装置
US9958275B2 (en) 2016-05-31 2018-05-01 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for wearable smart device communications
US10561519B2 (en) 2016-07-20 2020-02-18 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable computing device having a curved back to reduce pressure on vertebrae
US10607258B2 (en) * 2016-08-02 2020-03-31 International Business Machines Corporation System, method, and recording medium for fixed-wing aircraft advertisement using locally sampled word listening
US10559312B2 (en) * 2016-08-25 2020-02-11 International Business Machines Corporation User authentication using audiovisual synchrony detection
US10432851B2 (en) 2016-10-28 2019-10-01 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable computing device for detecting photography
JP2018074366A (ja) * 2016-10-28 2018-05-10 京セラ株式会社 電子機器、制御方法およびプログラム
US10012505B2 (en) 2016-11-11 2018-07-03 Toyota Motor Engineering & Manufacturing North America, Inc. Wearable system for providing walking directions
US10521669B2 (en) 2016-11-14 2019-12-31 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for providing guidance or feedback to a user
US10172760B2 (en) 2017-01-19 2019-01-08 Jennifer Hendrix Responsive route guidance and identification system
US11189281B2 (en) * 2017-03-17 2021-11-30 Samsung Electronics Co., Ltd. Method and system for automatically managing operations of electronic device
CN108664842B (zh) * 2017-03-27 2020-12-18 Tcl科技集团股份有限公司 一种唇动识别模型的构建方法及***
CN107239139B (zh) * 2017-05-18 2018-03-16 刘国华 基于正视的人机交互方法与***
US10522147B2 (en) 2017-12-21 2019-12-31 Motorola Solutions, Inc. Device and method for generating text representative of lip movement
KR102550932B1 (ko) 2017-12-29 2023-07-04 삼성전자주식회사 음성 인식 모델의 개인화 방법 및 장치
WO2019161229A1 (en) 2018-02-15 2019-08-22 DMAI, Inc. System and method for reconstructing unoccupied 3d space
WO2019161196A2 (en) * 2018-02-15 2019-08-22 DMAI, Inc. System and method for disambiguating a source of sound based on detected lip movement
US11468885B2 (en) * 2018-02-15 2022-10-11 DMAI, Inc. System and method for conversational agent via adaptive caching of dialogue tree
EP3752957A4 (en) * 2018-02-15 2021-11-17 DMAI, Inc. SYSTEM AND PROCEDURE FOR SPEECH UNDERSTANDING VIA INTEGRATED AUDIO AND VIDEO-BASED VOICE RECOGNITION
CN108596107A (zh) 2018-04-26 2018-09-28 京东方科技集团股份有限公司 基于ar设备的唇语识别方法及其装置、ar设备
KR102114368B1 (ko) * 2018-05-23 2020-05-22 카페24 주식회사 사용자 영상을 기반으로 하는 정보 입력 장치, 방법, 시스템 및 컴퓨터 판독 가능한 저장 매체
KR20200000155A (ko) 2018-06-22 2020-01-02 현대자동차주식회사 대화 시스템 및 이를 이용한 차량
CN110767228B (zh) * 2018-07-25 2022-06-03 杭州海康威视数字技术股份有限公司 一种声音获取方法、装置、设备及***
KR102168802B1 (ko) * 2018-09-20 2020-10-22 한국전자통신연구원 상호 작용 장치 및 방법
KR20200056754A (ko) * 2018-11-15 2020-05-25 삼성전자주식회사 개인화 립 리딩 모델 생성 방법 및 장치
TWI682325B (zh) * 2018-11-20 2020-01-11 新唐科技股份有限公司 辨識系統及辨識方法
CN111259711A (zh) * 2018-12-03 2020-06-09 北京嘀嘀无限科技发展有限公司 一种识别唇动的方法和***
KR20200073733A (ko) * 2018-12-14 2020-06-24 삼성전자주식회사 전자 장치의 기능 실행 방법 및 이를 사용하는 전자 장치
WO2020147925A1 (de) * 2019-01-15 2020-07-23 Siemens Aktiengesellschaft System zum visualisieren einer geräuschquelle in einer umgebung eines nutzers sowie verfahren
CN110427809B (zh) * 2019-06-21 2023-07-25 平安科技(深圳)有限公司 基于深度学习的唇语识别方法、装置、电子设备及介质
US11257493B2 (en) 2019-07-11 2022-02-22 Soundhound, Inc. Vision-assisted speech processing
US11348581B2 (en) 2019-07-12 2022-05-31 Qualcomm Incorporated Multi-modal user interface
CN111684459A (zh) * 2019-07-18 2020-09-18 深圳海付移通科技有限公司 一种身份验证方法、终端设备、存储介质
CN111684444A (zh) * 2019-07-18 2020-09-18 深圳海付移通科技有限公司 一种身份验证方法、终端设备、存储介质
JP6977004B2 (ja) 2019-08-23 2021-12-08 サウンドハウンド,インコーポレイテッド 車載装置、発声を処理する方法およびプログラム
CN110750152B (zh) * 2019-09-11 2023-08-29 云知声智能科技股份有限公司 一种基于唇部动作的人机交互方法和***
CN110865705B (zh) * 2019-10-24 2023-09-19 中国人民解放军军事科学院国防科技创新研究院 多模态融合的通讯方法、装置、头戴设备及存储介质
US11244696B2 (en) 2019-11-06 2022-02-08 Microsoft Technology Licensing, Llc Audio-visual speech enhancement
KR102479400B1 (ko) * 2019-11-06 2022-12-21 한국과학기술원 영상을 활용한 딥러닝 모델 기반의 실시간 립리딩 인터페이스 시스템
US11375275B2 (en) 2019-11-19 2022-06-28 Charter Communications Operating, Llc Method and system for using lip sequences to control operations of a device
CN113112997A (zh) * 2019-12-25 2021-07-13 华为技术有限公司 数据采集的方法及装置
CN111539270A (zh) * 2020-04-10 2020-08-14 贵州合谷信息科技有限公司 一种用于语音输入法的高识别率微表情识别方法
CN111554279A (zh) * 2020-04-27 2020-08-18 天津大学 一种基于Kinect的多模态人机交互***
CN111739534B (zh) * 2020-06-04 2022-12-27 广东小天才科技有限公司 一种辅助语音识别的处理方法、装置、电子设备及存储介质
DE102020118967A1 (de) 2020-07-17 2022-01-20 Clinomic GmbH Verfahren zum automatischen lippenlesen mittels einer funktionskomponente und zum bereitstellen der funktionskomponente
CN111967334B (zh) * 2020-07-20 2023-04-07 中国人民解放军军事科学院国防科技创新研究院 一种人体意图识别方法、***以及存储介质
CN111986674B (zh) * 2020-08-13 2021-04-09 广州仿真机器人有限公司 基于三级特征采集的智能语音识别方法
CN111933174A (zh) * 2020-08-16 2020-11-13 云知声智能科技股份有限公司 语音处理方法、装置、设备和***
CN112672021B (zh) * 2020-12-25 2022-05-17 维沃移动通信有限公司 语言识别方法、装置及电子设备
CN112817575B (zh) * 2021-01-19 2024-02-20 中科方寸知微(南京)科技有限公司 基于唇语识别的汇编语言编辑器及识别方法
US11996114B2 (en) 2021-05-15 2024-05-28 Apple Inc. End-to-end time-domain multitask learning for ML-based speech enhancement
KR102437760B1 (ko) 2021-05-27 2022-08-29 이충열 컴퓨팅 장치에 의한 음향의 처리 방법, 영상 및 음향의 처리 방법 및 이를 이용한 시스템들
CN113450824B (zh) * 2021-06-28 2022-08-16 武汉理工大学 一种基于多尺度视频特征融合的语音唇读方法及***
CN113611287B (zh) * 2021-06-29 2023-09-12 深圳大学 一种基于机器学习的发音纠错方法和***
CN113486760A (zh) * 2021-06-30 2021-10-08 上海商汤临港智能科技有限公司 对象说话检测方法及装置、电子设备和存储介质
CN113655938B (zh) * 2021-08-17 2022-09-02 北京百度网讯科技有限公司 一种用于智能座舱的交互方法、装置、设备和介质
CN113435421B (zh) * 2021-08-26 2021-11-05 湖南大学 一种基于跨模态注意力增强的唇语识别方法及***
CN113963528A (zh) * 2021-10-20 2022-01-21 浙江理工大学 一种人机交互***
CN114639152A (zh) * 2022-03-22 2022-06-17 平安普惠企业管理有限公司 基于人脸识别的多模态语音交互方法、装置、设备及介质
KR20230137814A (ko) 2022-03-22 2023-10-05 이충열 컴퓨팅 장치와 연동하는 촬영 장치로부터 획득되는 영상을 처리하는 방법 및 이를 이용한 시스템
CN115050092A (zh) * 2022-05-20 2022-09-13 宁波明家智能科技有限公司 一种面向智能驾驶的唇读算法及***
CN116721661B (zh) * 2023-08-10 2023-10-31 深圳中检实验室技术有限公司 用于智能安全生物柜的人机交互管理***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6633844B1 (en) * 1999-12-02 2003-10-14 International Business Machines Corporation Late integration in audio-visual continuous speech recognition
JP2005292401A (ja) * 2004-03-31 2005-10-20 Denso Corp カーナビゲーション装置
US7269560B2 (en) * 2003-06-27 2007-09-11 Microsoft Corporation Speech detection and enhancement using audio/video fusion
US7587318B2 (en) * 2002-09-12 2009-09-08 Broadcom Corporation Correlating video images of lip movements with audio signals to improve speech recognition

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0505621A3 (en) * 1991-03-28 1993-06-02 International Business Machines Corporation Improved message recognition employing integrated speech and handwriting information
US5586215A (en) * 1992-05-26 1996-12-17 Ricoh Corporation Neural network acoustic and visual speech recognition system
US5537488A (en) * 1993-09-16 1996-07-16 Massachusetts Institute Of Technology Pattern recognition system with statistical classification
KR100324988B1 (ko) * 1994-06-13 2002-08-27 마츠시타 덴끼 산교 가부시키가이샤 신호해석장치
KR19980050096A (ko) 1996-12-20 1998-09-15 박병재 음성과 영상에 의한 차량 동작제어장치
US6219639B1 (en) * 1998-04-28 2001-04-17 International Business Machines Corporation Method and apparatus for recognizing identity of individuals employing synchronized biometrics
US6263334B1 (en) * 1998-11-11 2001-07-17 Microsoft Corporation Density-based indexing method for efficient execution of high dimensional nearest-neighbor queries on large databases
US6366885B1 (en) * 1999-08-27 2002-04-02 International Business Machines Corporation Speech driven lip synthesis using viseme based hidden markov models
US6931351B2 (en) * 2001-04-20 2005-08-16 International Business Machines Corporation Decision making in classification problems
US7130446B2 (en) * 2001-12-03 2006-10-31 Microsoft Corporation Automatic detection and tracking of multiple individuals using multiple cues
US7165029B2 (en) * 2002-05-09 2007-01-16 Intel Corporation Coupled hidden Markov model for audiovisual speech recognition
JP4363076B2 (ja) * 2002-06-28 2009-11-11 株式会社デンソー 音声制御装置
KR100499030B1 (ko) 2002-12-16 2005-07-01 한국전자통신연구원 휴대용 단말에서 입술인식 인터페이스 입력장치 및 방법
US7472063B2 (en) * 2002-12-19 2008-12-30 Intel Corporation Audio-visual feature fusion and support vector machine useful for continuous speech recognition
KR100682889B1 (ko) * 2003-08-29 2007-02-15 삼성전자주식회사 영상에 기반한 사실감 있는 3차원 얼굴 모델링 방법 및 장치
US7587064B2 (en) * 2004-02-03 2009-09-08 Hrl Laboratories, Llc Active learning system for object fingerprinting
US7133048B2 (en) * 2004-06-30 2006-11-07 Mitsubishi Electric Research Laboratories, Inc. Variable multilinear models for facial synthesis
WO2007052100A2 (en) * 2005-02-15 2007-05-10 Dspv, Ltd. System and method of user interface and data entry from a video call
US20070061335A1 (en) * 2005-09-14 2007-03-15 Jorey Ramer Multimodal search query processing
KR100680278B1 (ko) 2005-12-28 2007-02-07 고려대학교 산학협력단 입술모양 추출방법 및 그 장치
JP4775961B2 (ja) 2006-12-08 2011-09-21 公立大学法人大阪府立大学 映像を用いた発音の推定方法
KR20080073933A (ko) * 2007-02-07 2008-08-12 삼성전자주식회사 객체 트래킹 방법 및 장치, 그리고 객체 포즈 정보 산출방법 및 장치
KR101373206B1 (ko) 2007-02-12 2014-03-12 삼성전자 주식회사 음성인식과 영상인식을 이용한 휴대단말기에서의 문서작성방법
KR100851981B1 (ko) * 2007-02-14 2008-08-12 삼성전자주식회사 비디오 영상에서 실 객체 판별 방법 및 장치
JP2008310382A (ja) 2007-06-12 2008-12-25 Omron Corp 読唇装置および方法、情報処理装置および方法、検出装置および方法、プログラム、データ構造、並びに、記録媒体
KR100897149B1 (ko) 2007-10-19 2009-05-14 에스케이 텔레콤주식회사 텍스트 분석 기반의 입 모양 동기화 장치 및 방법
KR100840021B1 (ko) * 2007-11-05 2008-06-20 (주)올라웍스 특성 데이터를 이용하여 디지털 데이터에 포함된 인물의얼굴에 대해 인식하는 방법 및 시스템
KR101170612B1 (ko) 2008-03-11 2012-08-03 에스케이 텔레콤주식회사 사용자 영상을 이용한 음성인식 시스템 및 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6633844B1 (en) * 1999-12-02 2003-10-14 International Business Machines Corporation Late integration in audio-visual continuous speech recognition
US7587318B2 (en) * 2002-09-12 2009-09-08 Broadcom Corporation Correlating video images of lip movements with audio signals to improve speech recognition
US7269560B2 (en) * 2003-06-27 2007-09-11 Microsoft Corporation Speech detection and enhancement using audio/video fusion
JP2005292401A (ja) * 2004-03-31 2005-10-20 Denso Corp カーナビゲーション装置

Cited By (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298443A (zh) * 2011-06-24 2011-12-28 华南理工大学 结合视频通道的智能家居语音控制***及其控制方法
CN102298443B (zh) * 2011-06-24 2013-09-25 华南理工大学 结合视频通道的智能家居语音控制***及其控制方法
CN102270308A (zh) * 2011-07-21 2011-12-07 武汉大学 一种基于五官相关aam模型的面部特征定位方法
CN102324035A (zh) * 2011-08-19 2012-01-18 广东好帮手电子科技股份有限公司 口型辅助语音识别术在车载导航中应用的方法及***
CN103177238A (zh) * 2011-12-26 2013-06-26 宇龙计算机通信科技(深圳)有限公司 终端和用户识别方法
CN103177238B (zh) * 2011-12-26 2019-01-15 宇龙计算机通信科技(深圳)有限公司 终端和用户识别方法
CN103428623A (zh) * 2012-05-14 2013-12-04 通用汽车有限责任公司 活动顶篷式交通工具中的声音参数之间的切换
CN103428623B (zh) * 2012-05-14 2019-03-12 通用汽车有限责任公司 活动顶篷式交通工具中的声音参数之间的切换
CN103869962A (zh) * 2012-12-18 2014-06-18 联想(北京)有限公司 一种数据处理方法、装置及电子设备
CN104166837A (zh) * 2013-05-15 2014-11-26 鹦鹉股份有限公司 采用最相关的兴趣点的各组的选择的视觉语音识别方法
CN104166837B (zh) * 2013-05-15 2018-12-04 鹦鹉汽车股份有限公司 采用最相关的兴趣点的各组的选择的视觉语音识别方法
CN103366506A (zh) * 2013-06-27 2013-10-23 北京理工大学 一种驾驶员行车途中接打手机行为的自动监控装置及方法
CN104679471A (zh) * 2013-12-03 2015-06-03 联想(新加坡)私人有限公司 用于检测可听输入中的中止的装置、设备及方法
CN103905873A (zh) * 2014-04-08 2014-07-02 天津思博科科技发展有限公司 一种基于口型识别技术的电视遥控器
CN105022470A (zh) * 2014-04-17 2015-11-04 中兴通讯股份有限公司 一种基于唇读的终端操作方法及装置
WO2015158082A1 (zh) * 2014-04-17 2015-10-22 中兴通讯股份有限公司 一种基于唇读的终端操作方法及装置
CN105450970A (zh) * 2014-06-16 2016-03-30 联想(北京)有限公司 一种信息处理方法及电子设备
CN105450970B (zh) * 2014-06-16 2019-03-29 联想(北京)有限公司 一种信息处理方法及电子设备
CN105389097A (zh) * 2014-09-03 2016-03-09 中兴通讯股份有限公司 一种人机交互装置及方法
WO2015154419A1 (zh) * 2014-09-03 2015-10-15 中兴通讯股份有限公司 一种人机交互装置及方法
CN104409075B (zh) * 2014-11-28 2018-09-04 深圳创维-Rgb电子有限公司 语音识别方法和***
WO2016082267A1 (zh) * 2014-11-28 2016-06-02 深圳创维-Rgb电子有限公司 语音识别方法和***
CN104409075A (zh) * 2014-11-28 2015-03-11 深圳创维-Rgb电子有限公司 语音识别方法和***
US10262658B2 (en) 2014-11-28 2019-04-16 Shenzhen Skyworth-Rgb Eletronic Co., Ltd. Voice recognition method and system
CN107004405A (zh) * 2014-12-18 2017-08-01 三菱电机株式会社 语音识别装置和语音识别方法
CN106157956A (zh) * 2015-03-24 2016-11-23 中兴通讯股份有限公司 语音识别的方法及装置
WO2016150001A1 (zh) * 2015-03-24 2016-09-29 中兴通讯股份有限公司 语音识别的方法、装置及计算机存储介质
CN104808794A (zh) * 2015-04-24 2015-07-29 北京旷视科技有限公司 一种唇语输入方法和***
CN106203235A (zh) * 2015-04-30 2016-12-07 腾讯科技(深圳)有限公司 活体鉴别方法和装置
CN105632497A (zh) * 2016-01-06 2016-06-01 昆山龙腾光电有限公司 一种语音输出方法、语音输出***
CN108227904A (zh) * 2016-12-21 2018-06-29 深圳市掌网科技股份有限公司 一种虚拟现实语言交互***与方法
CN108227903B (zh) * 2016-12-21 2020-01-10 深圳市掌网科技股份有限公司 一种虚拟现实语言交互***与方法
CN108227903A (zh) * 2016-12-21 2018-06-29 深圳市掌网科技股份有限公司 一种虚拟现实语言交互***与方法
CN114141245A (zh) * 2017-03-14 2022-03-04 谷歌有限责任公司 基于唇部检测的查询端点化
CN107025439B (zh) * 2017-03-22 2020-04-24 天津大学 基于深度数据的唇部区域特征提取和规范化方法
CN107025439A (zh) * 2017-03-22 2017-08-08 天津大学 基于深度数据的唇部区域特征提取和规范化方法
CN111033611A (zh) * 2017-03-23 2020-04-17 乔伊森安全***收购有限责任公司 使嘴部图像与输入指令关联的***和方法
CN106875941A (zh) * 2017-04-01 2017-06-20 彭楚奥 一种服务机器人的语音语义识别方法
CN106875941B (zh) * 2017-04-01 2020-02-18 彭楚奥 一种服务机器人的语音语义识别方法
CN110998678A (zh) * 2017-06-12 2020-04-10 可口可乐公司 低成本控制倾倒
CN111201786B (zh) * 2018-01-17 2022-04-08 Jvc建伍株式会社 显示控制装置、通信装置、显示控制方法及存储介质
CN111201786A (zh) * 2018-01-17 2020-05-26 Jvc建伍株式会社 显示控制装置、通信装置、显示控制方法及程序
WO2019196196A1 (zh) * 2018-04-12 2019-10-17 科大讯飞股份有限公司 一种耳语音恢复方法、装置、设备及可读存储介质
US11508366B2 (en) 2018-04-12 2022-11-22 Iflytek Co., Ltd. Whispering voice recovery method, apparatus and device, and readable storage medium
CN112041924A (zh) * 2018-05-18 2020-12-04 渊慧科技有限公司 通过音素预测进行视觉语音识别
CN110837758B (zh) * 2018-08-17 2023-06-02 杭州海康威视数字技术股份有限公司 一种关键词输入方法、装置及电子设备
CN110837758A (zh) * 2018-08-17 2020-02-25 杭州海康威视数字技术股份有限公司 一种关键词输入方法、装置及电子设备
WO2020073403A1 (zh) * 2018-10-08 2020-04-16 清华大学 静默语音输入辨识方法、计算装置和计算机可读介质
CN109558788A (zh) * 2018-10-08 2019-04-02 清华大学 静默语音输入辨识方法、计算装置和计算机可读介质
CN109558788B (zh) * 2018-10-08 2023-10-27 清华大学 静默语音输入辨识方法、计算装置和计算机可读介质
CN109448711A (zh) * 2018-10-23 2019-03-08 珠海格力电器股份有限公司 一种语音识别的方法、装置及计算机存储介质
WO2020125038A1 (zh) * 2018-12-17 2020-06-25 南京人工智能高等研究院有限公司 语音控制方法及装置
CN109872714A (zh) * 2019-01-25 2019-06-11 广州富港万嘉智能科技有限公司 一种提高语音识别准确性的方法、电子设备及存储介质
CN111951629A (zh) * 2019-05-16 2020-11-17 上海流利说信息技术有限公司 一种发音纠正***、方法、介质和计算设备
CN110765868A (zh) * 2019-09-18 2020-02-07 平安科技(深圳)有限公司 唇读模型的生成方法、装置、设备及存储介质
WO2021196802A1 (zh) * 2020-03-31 2021-10-07 科大讯飞股份有限公司 多模态语音识别模型训练方法、装置、设备及存储介质
CN113002461A (zh) * 2021-03-26 2021-06-22 芜湖汽车前瞻技术研究院有限公司 Ar-hud***的虚像位置调整方法、装置及存储介质
WO2023006033A1 (zh) * 2021-07-29 2023-02-02 华为技术有限公司 语音交互方法、电子设备及介质
CN114708642A (zh) * 2022-05-24 2022-07-05 成都锦城学院 商务英语仿真实训装置、***、方法及存储介质

Also Published As

Publication number Publication date
US20110071830A1 (en) 2011-03-24
KR20110032244A (ko) 2011-03-30
CN102023703B (zh) 2015-03-11
KR101092820B1 (ko) 2011-12-12
US8442820B2 (en) 2013-05-14

Similar Documents

Publication Publication Date Title
CN102023703B (zh) 组合唇读与语音识别的多模式界面***
CN102298443B (zh) 结合视频通道的智能家居语音控制***及其控制方法
US11854550B2 (en) Determining input for speech processing engine
CN109941231B (zh) 车载终端设备、车载交互***和交互方法
CN202110564U (zh) 结合视频通道的智能家居语音控制***
CN109410957B (zh) 基于计算机视觉辅助的正面人机交互语音识别方法及***
US7729920B2 (en) Systems and methods for predicting consequences of misinterpretation of user commands in automated systems
CN112088402A (zh) 用于说话者识别的联合神经网络
US11495214B2 (en) Artificial intelligence device for providing voice recognition service and method of operating the same
US20220139389A1 (en) Speech Interaction Method and Apparatus, Computer Readable Storage Medium and Electronic Device
US11404066B2 (en) Device and method for providing voice recognition service based on artificial intelligence
JP6977004B2 (ja) 車載装置、発声を処理する方法およびプログラム
CN104620257A (zh) 基于深度的语境识别
CN102132227A (zh) 用于对姿势的多维评估的***和方法
US11355101B2 (en) Artificial intelligence apparatus for training acoustic model
US11810575B2 (en) Artificial intelligence robot for providing voice recognition function and method of operating the same
US20200114925A1 (en) Interaction device, interaction method, and program
CN110827823A (zh) 语音辅助识别方法、装置、存储介质及电子设备
CN111081244B (zh) 一种语音交互方法和装置
US11468247B2 (en) Artificial intelligence apparatus for learning natural language understanding models
CN113593572B (zh) 在空间区域内进行音区定位方法和装置、设备和介质
US11322134B2 (en) Artificial intelligence device and operating method thereof
KR20100062413A (ko) 텔레매틱스 장치를 위한 음성인식 장치 및 그 방법
US20240212681A1 (en) Voice recognition device having barge-in function and method thereof
CN116580725A (zh) 一种语音端点检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant