CN102023703A - 组合唇读与语音识别的多模式界面*** - Google Patents
组合唇读与语音识别的多模式界面*** Download PDFInfo
- Publication number
- CN102023703A CN102023703A CN2009102468867A CN200910246886A CN102023703A CN 102023703 A CN102023703 A CN 102023703A CN 2009102468867 A CN2009102468867 A CN 2009102468867A CN 200910246886 A CN200910246886 A CN 200910246886A CN 102023703 A CN102023703 A CN 102023703A
- Authority
- CN
- China
- Prior art keywords
- labiomaney
- unit
- instruction
- lip
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 claims description 38
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 230000005236 sound signal Effects 0.000 claims description 13
- 230000002452 interceptive effect Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 239000012634 fragment Substances 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000033001 locomotion Effects 0.000 abstract description 6
- 238000000034 method Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 8
- 238000011160 research Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 3
- 238000000513 principal component analysis Methods 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 241000156302 Porcine hemagglutinating encephalomyelitis virus Species 0.000 description 2
- HUTDUHSNJYTCAR-UHFFFAOYSA-N ancymidol Chemical compound C1=CC(OC)=CC=C1C(O)(C=1C=NC=NC=1)C1CC1 HUTDUHSNJYTCAR-UHFFFAOYSA-N 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000000446 fuel Substances 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004378 air conditioning Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000005520 electrodynamics Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000007634 remodeling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000035899 viability Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/26—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
- G01C21/34—Route searching; Route guidance
- G01C21/36—Input/output arrangements for on-board computers
- G01C21/3602—Input other than that of destination using image analysis, e.g. detection of road signs, lanes, buildings, real preceding vehicles using a camera
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/26—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
- G01C21/34—Route searching; Route guidance
- G01C21/36—Input/output arrangements for on-board computers
- G01C21/3605—Destination input or retrieval
- G01C21/3608—Destination input or retrieval using speech input, e.g. using speech recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Automation & Control Theory (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Artificial Intelligence (AREA)
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种组合唇读与语音识别的多模式界面***,可仅通过语音和嘴唇运动发布导航操作指令,因此使得驾驶员在导航操作过程中向前看,并且减少在行驶过程中与导航操作相关的车辆事故。根据本发明的组合唇读与语音识别的多模式界面***包括:音频语音输入单元;语音识别单元;语音识别指令和估计概率输出单元;嘴唇视频图像输入单元;唇读单元;唇读识别指令输出单元;和语音识别与唇读识别结果组合单元,其输出语音识别指令。
Description
技术领域
本发明总体涉及一种组合唇读与语音识别的多模式界面***。更具体地,在优选实施例中,本发明涉及一种组合唇读与语音识别的多模式界面***,其能够主要通过且优选地仅通过语音和嘴唇运动适当地发布导航操作指令,因此,优选地使得驾驶员在导航操作过程中向前看,并且适当地减少在行驶过程中与导航操作相关的车辆事故。
背景技术
目前,随着汽车技术的发展和日常生活中车辆使用的增加,对安全的关注与需求也已经在增加。并且,随着电子技术的发展,各种类型的装置常规地安装于车辆上,例如,但并不限于,音频设备、电话以及导航***。
常规地,导航***优选地通过经由触摸屏输入指令来进行操作。虽然使用触摸屏可以使输入错误最小化,但是使用者必须同时使用他/她的手和眼睛,这使得在行驶过程中操作导航***变得困难,并且还分散使用者的注意力,因此增加了事故的风险。作为这种方式的替换,已经使用了使用语音识别的指令输入方法。然而,这种方法对音频噪声敏感,因此在噪声环境下可能发生识别故障。
基于嘴唇图像数据使用唇读的语音识别技术的研究仍处于算法研究的初始阶段。为了实现实时操作的唇读***,必须稳定地检测使用者的嘴唇,适当地找到嘴唇的特征点,并且适当地迅速跟踪它们。因此,一系列步骤,包括但不限于面部检测、嘴唇检测、嘴唇跟踪、特征定义、数据归一化、语音片段检测、识别等,优选地一起工作。然而,目前,还不存在对所有步骤的一致性研究。
常规地,已经提出了基于主动外观模型(AAM)或主动形状模型(ASM)的嘴唇拟合算法。其性能对初始位置敏感,并且不能鲁棒地跟踪嘴唇在说话中的快速运动,从而使得在视频跟踪时难以获得稳定的特征值。虽然为了在视频获得嘴唇特征的变化作为特征值之后识别该特征值,需要用于一致性地检测语音片段并将其分割为帧的自动语音检测算法,但对该算法尚无研究。此外,虽然已经对使用隐马尔可夫模型(HMM)或神经网络的识别器算法开展了研究,但是这些算法需要一定量的用于学习的学习数据,并且进一步需要大量的数据进行学习,以实现精细的识别器。已知,学习现有的基于音频的说话者无关(speaker-independent)的语音识别器需要每个单词来自多于2000人的学习数据。因此,当旨在实现说话者无关的唇读识别器时,不容易确保HM 学习所需的足够的学习数据。而且,因为HMM学习涉及复杂的数学计算过程,所以需要许多***资源和时间,因此使得难以在例如导航***的低规格***中执行在线学习。
目前,唇读***的独立识别率为40%至60%,其远低于语音识别器的独立识别率。这是因为从嘴唇图像可识别的发音的基本单位(视位)的数目(13)比基于音频的语音识别中的发音的基本单位(音位)的数目(44)少70%,从而显著地降低了区别口型看似相似的单词的能力。因此,实际应用服务***难以单独通过唇读实现指令识别***。
在此背景技术部分中公开的以上信息仅用于增强对本发明的背景技术的理解,因此其可能包含不构成在本国对于本领域技术人员而言已公知的现有技术的信息。
发明内容
本发明在优选方面提供了一种组合唇读与语音识别的多模式界面***,其实现了通过摄像机从面部图像有效地检测嘴唇的唇读***,适当地跟踪嘴唇运动,并且基于嘴唇的特征值适当地识别语音指令,随后适当地组合唇读***与基于音频的语音识别***,使得使用摄像机图像的唇读能够在语音识别器由于噪声而无法工作的环境中适当地接收指令。
在一些优选实施例中,本发明优选地提供了一种组合唇读与语音识别的多模式界面***,其基于适合的情景适当地配置作为交互***的导航***的应用服务屏幕,并且限制将要识别的指令,使得可根据各服务屏幕状态仅识别必要的指令,由此提高单个指令的识别率。
在另外的优选实施例中,本发明提供了一种组合唇读与语音识别的多模式界面***,其适当地应用能够实时在线学习的识别器算法,以便当驾驶者长时间使用该***时,使识别器适当地适应驾驶者的语音特征,由此逐渐提高识别率。
优选地,根据本发明的优选实施例的组合唇读与语音识别的多模式界面***包括,但可不仅限于,音频语音输入单元、语音识别单元、语音识别指令和估计概率输出单元、嘴唇视频图像输入单元、唇读单元、唇读识别指令输出单元、以及语音识别与唇读识别结果组合单元,其中音频语音输入单元适当地获得通过音频输入传感器输入的声音信号或者通过有线或无线连接从外部传送的输入音频信号;语音识别单元从输入音频信号适当地识别语音并且计算估计的识别准确度;语音识别指令和估计概率输出单元适当地输出与语音识别单元识别的语音相应的指令和估计的识别概率值;嘴唇视频图像输入单元适当地获得通过图像输入传感器输入的输入图像或者通过有线或无线连接从外部传送的输入图像;唇读单元通过处理输入图像适当地识别说话者的唇读指令;唇读识别指令输出单元适当地输出由唇读单元识别的唇读指令;如果估计的概率高于阈值,则语音识别与唇读识别结果组合单元适当地输出语音识别指令,如果估计的概率低于阈值,则其适当地输出唇读指令。
根据本发明的一些优选实施例,唇读单元可优选地包括,但可不仅限于,嘴唇检测器、嘴唇模型生成器、嘴唇***、语音片段检测器、***模式确定器、唇读识别学习单元、指令识别单元以及嘴唇特征数据库,其中嘴唇检测器使用来自嘴唇视频图像输入单元的输入图像适当地检测嘴唇特征;嘴唇模型生成器使用主动外观模型(AAM)嘴唇模型适当地生成形状模型和外观模型;嘴唇***使用由嘴唇模型生成器生成的形状模型和Lucas-Kanade(LK)算法,适当地跟踪作为在嘴唇检测后AAM拟合的结果而获得的嘴唇特征点;语音片段检测器将预定周期的帧数据适当地输入到神经网络识别器中,以便基于作为对连续的输入图像进行嘴唇跟踪的结果而获得的一系列嘴唇模型参数,确定片段是语音片段还是静音片段;***模式确定器适当地确定***是处于嘴唇特征数据的标签已知的学习模式,还是处于嘴唇特征数据的标签未知的识别模式;如果***处于学习模式,则唇读识别学习单元使用特征数据和输入标签适当地学习K最近邻(K-NN)学习器;如果***处于识别模式,则指令识别单元通过习得的K-NN识别器适当地找到与特征数据最相似的学习模式,并且输出作为特征值的结果指令;嘴唇特征数据库适当地存储离线或在线习得的每个指令的模式。
根据本发明另外的优选实施例,组合唇读与语音识别的多模式界面***还可包括,但可不仅限于,唇读特征检测单元、语音识别单词估计概率确定单元、嘴唇特征检测确定单元和实时唇读学习单元,其中唇读特征检测单元从来自语音片段检测器的输入图像适当地检测唇读特征;如果由语音识别模块识别的指令的估计概率高于阈值,则语音识别单词估计概率确定单元确定使用唇读特征检测单元检测的嘴唇图像作为嘴唇特征的学习标签执行学习;嘴唇特征检测确定单元适当地确定是否正确地检测到图像特征数据;实时唇读学习单元通过使用从基于的语音识别模块提供的指令作为标签,对从唇读特征检测单元提供的嘴唇特征值适当地执行k-NN学习,来更新嘴唇特征数据库,由此实现说话者自适应实时学习***。
优选地,组合唇读与语音识别的多模式界面***还可包括交互服务单元,其根据服务情景以有限的方式适当地识别必要的指令,由此实现能够实时学习的在线学习识别算法。
根据本发明的一些优选实施例,交互服务单元可优选地包括服务情景数据库,其优选地预先定义可对各屏幕适当输入的一序列指令,并且在执行唇读或语音识别时提供可对各服务屏幕或者在各阶段适当输入的该序列指令;服务屏幕;屏幕转换单元,其根据在服务情景数据库中定义的功能,响应于输入指令执行屏幕转换,并且向服务屏幕提供当前服务状态的信息;识别目标单词序列设置单元,其适当地设置在根据服务情景数据库发生状态改变的情况下各服务状态或屏幕所需要的一序列单词。
在本发明的其它进一步的实施例中,多模式界面***通过参照由识别目标单词序列设置单元设置的识别目标单词序列适当地组合唇读与语音识别,来执行抗噪语音识别;服务执行单元,其响应于输入指令适当地执行屏幕转换、语音引导、信息注册和其它注册的应用服务;以及识别结果确定单元,其适当地确定语音识别或者唇读识别是否失败,以决定是否对输入音频和视频信号执行服务,从而限制在实际服务中要识别的单词的数目,由此显著提高识别率。
应该理解的是,这里使用的术语“车辆”或“车辆的”或其它类似术语包括通常的机动车辆,例如包括运动型多用途车(SUV)、公共汽车、卡车、各种商用车在内的客运车辆,包括各种艇和船只在内的水运工具,以及航空器等,并且包括混合动力车、电动车、插电式混合动力电动车、氢动力车和其它替代燃料车(例如,从石油以外的资源所得到的燃料)。
如文中所提到的,混合动力车是具有两种或更多种动力源的车辆,例如既有汽油动力又有电动力的车辆。
本发明的上述特征和优点,从附图和以下具体实施方式中将是显而易见的或者在其中被更加详细地阐明,其中附图并入且形成此说明书的一部分,并与具体实施方式共同用于通过举例的方式说明本发明的原理。
附图说明
现在将参照附图所示出的某些示例性实施例详细说明本发明的上述及其它特征,这些实施方式在下文中仅以例示的方式给出,因此不对本发明构成限制,并且其中:
图1是示出根据本发明的示例性实施例的组合唇读与语音识别的多模式界面***的框图;
图2是示出图1中的唇读模块的详细框图;
图3是示出作为交互服务***实施的根据本发明的优选实施例的组合唇读与语音识别的多模式界面***的详细框图;并且
图4是示出说话者自适应实时唇读学习***的详细框图。
应该理解的是,附图不一定成比例,而是示出了说明本发明的基本原理的各种优选特征的某种程度的简化表示。这里所公开的、包括例如具体尺寸、方向、位置和形状的本发明的具体设计特征,将由具体期望的应用和使用环境部分地确定。
具体实施方式
在第一方面,本发明的特征在于一种组合唇读与语音识别的多模式界面***,包括音频语音输入单元、语音识别单元、语音识别指令和估计概率输出单元、嘴唇视频图像输入单元、唇读单元、唇读识别指令输出单元、语音识别与唇读识别结果组合单元,该单元输出语音识别指令。
在一个实施例中,音频语音输入单元获得通过音频输入传感器输入的声音信号或者通过有线或无线连接从外部传送的输入音频信号。
在另一实施例中,语音识别单元从输入音频信号识别语音并且计算估计的识别准确度。
在又一实施例中,语音识别指令和估计概率输出单元输出与语音识别单元识别的语音相应的指令和估计的识别概率值。
在再一实施例中,嘴唇视频图像输入单元获得通过图像输入传感器输入的输入图像或者通过有线或无线连接从外部传送的输入图像。
在另一实施例中,唇读单元通过处理输入图像识别说话者的唇读指令。
在又一实施例中,唇读识别指令输出单元输出由唇读单元识别的唇读指令。
在再一实施例中,如果估计的概率高于阈值,则语音识别与唇读识别结果组合单元输出语音识别指令,如果估计的概率低于阈值,则输出唇读指令。
本发明的优点和特征以及实现这些优点和特征的方法通过参考以下示例性实施例的详细说明和附图将更容易理解。然而,本发明可以多种不同的形式实现,并且不应解释为局限于本文给出的实施例。相反,这些实施例的给出使得本公开将是详尽和完整的,并且将充分地将本发明的构思传达给本领域技术人员,而且本发明将仅通过所附权利要求进行限定。
以下,将参照用以示出根据本发明的优选实施例的、组合唇读与语音识别的多模式界面***的框图,说明本发明的示例性实施例。根据本发明的一些优选实施例,应当理解各框图可通过计算机程序指令适当地实现。优选地,这些计算机程序指令可以适当地提供给通用计算机、专用计算机、或者其它可编程数据处理装置的处理器以产生一种机器,使得通过计算机或其它可编程数据处理装置的处理器适当地执行的指令产生实现流程图框中指定的功能的装置。
根据本发明的一些优选实施例,这些计算机程序指令还可存储在计算机可用或计算机可读的存储器中,这样的存储器可适当地指引计算机或其它可编程数据处理装置以特定的方式工作,使得存储在计算机可用或计算机可读的存储器中的指令产生制造的产品,优选地包括适当地实现流程图框中指定的功能的指令装置。
根据一些优选实施例,计算机程序指令还可适当地载入到计算机或其它可编程数据处理装置上,使得在计算机或其它可编程装置上执行一系列操作步骤,以产生计算机实现的过程,使得在计算机或其它可编程装置上适当地执行的指令优选地提供用以实现流程图框中指定的功能的步骤。
优选地,流程图示例中的每个方框可代表代码的模块、分段或部分,其适当地包括用于实现指定的逻辑功能的一个或多个可执行指令。根据本发明另外的示例性实施例,在方框中注释的功能可优选地不按顺序执行。例如,取决于所涉及的功能性,连续示出的两个方框可优选地基本上同时执行,或者有时方框可以相反的顺序执行。
在一些优选实施例中,如其中所使用的,术语“模块”包括但不局限于执行一定任务的软件或硬件组件,诸如现场可编程门阵列(FPGA)或者专用集成电路(ASIC)。优选地,模块可被优选地配置为驻留在可寻址存储介质上并且优选地配置为在一个或多个处理器上执行。因此,在另外的优选实施例中,示例性模块可优选地包括,但可不仅限于组件,诸如,软件组件,面向对象的软件组件,类组件和任务组件,进程,函数,属性,过程,子程序,程序代码段,驱动程序,固件,微码,电路,数据,数据库,数据结构,表,数组和变量。优选地,在组件和模块中提供的功能可适当地组合到更少的组件和模块中或者进一步分割到附加的组件和模块中。
下面将参照附图详细说明本发明的示例性实施例。
在一些优选实施例中,本发明提出了一种组合唇读与语音识别的多模式界面***,其实现了一种从通过摄像机获得的面部图像有效地检测嘴唇,适当地跟踪嘴唇运动,并且基于嘴唇的特征值适当地识别语音指令的唇读***,然后适当地组合唇读***与基于音频的语音识别***。因此,因为本发明不受音频噪声的影响,所以本发明适当地允许使用摄像机图像的唇读技术在某一环境中通过接收指令而提供服务,在该环境中由于在室内收听广播时或者在车窗落下而驾驶车辆时所产生的噪声,语音识别器不能工作。
在另外的优选实施例中,在根据本发明的导航***中,使用嘴唇图像的唇读***从输入图像适当地检测驾驶者的面部,从检测到的面部区域适当地检测相对于嘴唇候选区的嘴唇的位置,然后使用嘴唇形状模型相对于检测到的嘴唇适当地确定用于跟踪的嘴唇特征点的精确位置。因此,提出了一系列过程,其中通过图像匹配算法适当地跟踪图像特征点,从特征的时间变化的数据适当地检测语音片断,并且识别器基于按单词排序的一系列嘴唇特征值识别指令。
根据本发明的另外的优选实施例,为了弥补唇读技术的识别性能较低的问题,本发明作为一个示例性实施例提出了一种方法,在减少要识别的单词的数量导致更好的识别,而当同时识别所有注册在识别器中的指令时准确度降低的情况下,通过基于情景配置作为交互***的导航***的应用服务屏幕,然后适当地限制指令,使得可根据服务的屏幕状态仅识别必需的指令,能够适当地提高单个指令的识别率。
另外,在使用嘴唇特征的语音识别的一些实例中,通常特征是因人而异的,因此识别器需要适当大量的学习数据。因此,本发明提出了一种自适应学习***,其应用能够实时在线学习的识别器,以便如果驾驶者长时间使用此***,则使识别器适当地适应驾驶者的语音特征,由此逐渐提高识别率。在一些示例性实施例中,在学习数据采集受到限制的情况下,说话者无关的识别器的识别率较低。根据一些优选实施例,导航***包括说话者自适应实时唇读学习算法,该算法在服务的实际操作中并没有很多使用者,因而作为固定驾驶者的少数几个经常的使用者频繁使用一些特定指令的情况下,通过实时地学习并向识别器添加数据而实时地学习当前说话者的唇读特征数据,从而能够随着使用者使用该***而逐渐提高识别率。
根据如本文所述的本发明的优选实施例,语音识别和唇读技术是一种机器与人之间的基本交互技术,例如基本人机交互(HCI)技术,其可广泛地用于诸如但不限于电视、空调等的电子产品,机械人控制,以及车辆。
根据一些示例性实施例,并且如图1中所示,图1是示出组合唇读与语音识别的多模式界面***的框图。
在一些优选实施例中,组合唇读与语音识别的多模式界面***100包括音频语音输入单元110,语音识别模块120,语音识别指令和估计概率输出单元130,嘴唇视频图像输入单元140,唇读模块150,唇读识别指令输出单元160,语音识别与唇读识别结果组合单元170,最终识别指令输出单元180。优选地,语音识别与唇读识别结果组合单元170包括语音识别结果确定单元171,唇读语音识别结果确定单元172,组合识别指令(语音)输出单元173,和组合识别指令(唇读)输出单元174。
优选地,音频语音输入单元110可适当地获得通过音频输入传感器输入的声音信号或者通过有线或无线连接从外部传送的输入音频信号。例如,在一些优选实施例中,例如在通过音频输入传感器获得输入音频信号的情况下,可通过将经由给定的扩音器输入的声信号转换为电信号而适当地获得输入声音信号。因此,可通过用于将获得的电信号转换为数字信号的模/数转换器和用于处理通过模/数转换器获得的语音信号的数字信号处理器(DSP)适当地获得预定的输入声音信号。在另外的优选实施例中,输入声音可适当地存储在存储介质中或者以有线或无线的方式传送,由此获得预定的输入声音信号。
在另外的优选实施例中,语音识别模块120是商用的语音识别模块,其能够适当地设置用于孤立单词识别的识别单词,具有说话者无关的识别功能,并且能够输出具有关于注册的识别单词和相应的单词的以百分率(%)表示的估计的识别准确度的识别结果。
优选地,语音识别指令和估计概率输出单元130输出孤立指令和由语音识别器识别的相应的输入语音信号为识别的单词的概率值。
在另外的优选实施例中,嘴唇视频图像输入单元140可适当地获得通过图像输入传感器输入的输入图像或者通过有线或无线连接从外部传送的输入图像。例如,在一些优选实施例中,在通过图像输入传感器获得输入图像的情况下,可通过将通过给定的透镜入射的目标的图像信号转换为电信号而适当地获得输入图像。例如,在一些优选实施例中,图像输入传感器可包括电荷耦合装置(CCD),CMOS,和其它商用的图像采集装置。另外,可通过用于将由图像输入传感器获得的电信号转换为数字信号的模/数转换器和用于处理由模/数转换器转换为图像信号的数字信号的数字信号处理器(DSP)适当地获得预定的输入图像。在另外的优选实施例中,输入图像可适当地存储在存储介质中或者以有线或无线的方式传送,由此获得预定的输入图像。优选地,嘴唇视频图像输入单元140可适当地将获得的输入图像转换为单通道图像。例如,在一些示例性实施例中,输入图像可被改变为灰度。替代性地,在其它的示例性实施例中,如果输入图像是“RGB”通道的多通道图像,则输入图像可被适当地改变为单通道值。因此,输入图像的亮度分布可通过将输入图像转换为单通道的强度值而容易地表示。
优选地,唇读模块150通过处理输入图像数据而识别来自说话者的语音指令。
优选地,唇读识别指令输出单元160输出由唇读模块150识别的指令。
根据本发明的另外的优选实施例,语音识别与唇读识别结果组合单元170以这样的方式适当地组合基于音频的语音识别结果与基于图像的唇读结果,以便适当地执行各个模式特征数据的组合或者组合由各个***识别的结果。优选地,在一些优选实施例中,本发明的目的是通过自由地使用现有的独立的语音识别器将结果与唇读组合。优选地,语音识别结果确定单元171和172接收独立的音频语音输入单元110的语音识别指令和估计概率输出单元130的结果,确定单词识别的可靠性的概率是高于还是低于适当的特定的阈值,并且输出确定结果。优选地,可以根据***调整和调节阈值,并且可以证实试验结果典型地示出关于50%的可靠性的最高组合识别率。优选地,当从语音识别结果确定单元171和172的结果确定可靠性的概率高于阈值时,组合识别指令输出单元173和174向最终识别指令输出单元180输出语音识别器的识别结果指令,否则,输出唇读识别结果指令作为识别结果。
如本文所述,可如下面的实例中所述扩展这样的组合语音识别与唇读结果的方法。在一定的示例性实施例中,如果语音识别结果确定单元171和172的语音识别的可靠性适当地低于阈值并且唇读模块没有检测到任何指令,则适当地不产生输出,以便防止语音识别器由于噪声而发生故障。如本文所述,当识别模块中只有一个适当地检测到特定的单词而其它识别器没有检测到任何单词时,可以通过限定各自的操作而适当地修改组合算法。
根据一定的示例性实施例,并且如图2中所示,图2是详细示出图1中的唇读模块150的框图。
优选地,唇读模块150包括嘴唇检测器210,用于检测和跟踪的嘴唇模型生成器220,嘴唇***230,语音片段检测器240,***模式确定器250,唇读识别学习单元260,指令识别单元270和嘴唇特征数据库280。
根据一些示例性实施例,如果来自嘴唇视频图像输入单元140的输入图像是彩色图像,则嘴唇检测器210适当地将输入图像转换为黑/白图像。对使用彩色图像的嘴唇检测算法已有研究,然而,已经发现该算法可受照明影响并且在夜间在红外图像中可能不能正确工作。因此,在上述示例性实施例中,将关于仅使用黑/白图像检测并跟踪嘴唇的情况给出说明。因此,可以在白天和夜间以鲁棒的方式检测并跟踪嘴唇。根据一些示例性实施例,在嘴唇检测步骤中,首先通过自适应增强(Adaboost)算法基于局部二进制模式(LBP)检测面部,并且关于嘴唇在面部的大致位置以同样的方式适当地检测嘴唇。因此,在另外的相关实施例中,适当地允许检测器使用规一化面部和嘴唇图像学习。优选地,Adaboost方法不能确定用于唇读的嘴唇特征点的精确位置。因此,本发明的目的在于使用主动外观模型(AAM)嘴唇模型产生形状和外观模型,并使用该模型适当地获得精确的嘴唇特征点。
根据另外的优选实施例,嘴唇模型生成器220在学习图像上关于嘴唇图像适当地指出通过手而手工获得的特征点的位置,收集这样的数据以通过主成分分析(PCA)适当地生成形状模型和外观模型,并且在AAM拟合和嘴唇特征跟踪中使用这些模型。
优选地,嘴唇***230使用由嘴唇模型生成器220生成的形状模型和Lucas-kanade(LK)算法,跟踪作为在嘴唇检测后AAM拟合的结果而获得的嘴唇特征点。优选地,使用作为特征值的形状参数,将对于各输入图像的嘴唇跟踪结果适当地提供给唇读模块150。
在又一个实施例中,语音片段检测器240将预定周期的帧数据适当地输入到神经网络识别器中,以便基于作为对连续的输入图像进行嘴唇跟踪的结果而适当地获得的一系列嘴唇模型参数,确定片段是语音片段还是静音片段。因此,作为确定结果,如果语音片段延续然后改变为静音片段,则适当地提取并输出语音片段的特征数据。
根据一些优选实施例,***模式确定器250适当地确定***是处于嘴唇特征数据的标签已知的学习模式,还是处于嘴唇特征数据的标签未知的识别模式。优选地,在学习模式中,使唇读识别学习单元260使用特征数据和输入标签学习K最近邻(K-NN)学习器。优选地,与HMM不同,可以通过少量的学习数据实现有效的学习,并且识别器因为其结构简单可通过实时学习而逐渐更新。优选地,在其中输入特征值没有标签的识别模式中,指令识别单元270通过在唇读识别学习单元260中习得的K-NN识别器找到与特征数据最相似的适当的学习模式,并将作为特征值的结果指令适当地输出至唇读识别指令输出单元160。
优选地,嘴唇特征数据库280存储离线或在线习得的每个指令的模式。
以下将更详细地说明根据优选的示例性实施例的唇读模块150的操作。
根据本发明的一些优选实施例,嘴唇检测器210通过使用LBP图像转换和Adaboost算法在白天和夜间以鲁棒的方式提供关于单色图像(mono image)的嘴唇的大致位置,使用整体嘴唇模型适当地确定嘴唇的整***置,使用唇角模型适当地检测嘴唇的角落,使用AAM嘴唇模型通过将嘴唇的角落位置设定为初始位置而适当地执行精确拟合,并且适当地提供特征点的坐标作为嘴唇***230的初始位置值。
在一些示例性实施例中,嘴唇***230使用基于LK的图像配准算法和嘴唇形状模型,通过将各个AAM嘴唇探测结果设定为初始特征点,而跟踪随后的输入图像上的特征点周围的m×m个像素区域。另外,虽然可优选地调整像素的数目,但是从下一帧适当地检测到并且关于每个特征点11×11个像素区域地匹配最相似的区域,并且将匹配结果适当地输入至形状模型,以便得到形状模型参数并将其提供给语音片段检测器240。
优选地,语音片段检测器240适当地接收作为一系列时间流(temporal stream)的嘴唇的形状模型参数,通过神经网络识别器适当地确定每一帧的预定片段是否为语音,当语音片段在持续预定的时间之后变化为非语音片段时适当地提取语音片段的特征数据,并将数据适当地提供给唇读识别学习单元260。
根据本发明的另外的优选实施例,唇读识别学习单元260适当地使用按单词和标签信息分组的准备好的嘴唇特征数据离线地学习K-NN唇读识别器,并且作为结果优选地向唇读模块150提供初始识别器。
优选地,指令识别单元270基于唇读识别学习单元260的结果,关于新的输入数据,通过k-NN识别算法适当地识别单词,并且适当地向唇读模块150返回结果指令。
根据本发明的一些优选实施例,并且如图3中所示,图3是适当地实现组合唇读与语音识别的多模式界面***的详细框图。
优选地,交互服务***300包括服务情景数据库310,服务屏幕320,屏幕转换单元330,识别目标单词序列设置单元340,服务执行单元350,多模式界面***100和识别结果确定单元360。
在另外的优选实施例中,交互服务***300通过交互***或者情景库***适当地限制在实际服务中要识别的单词的数目,以便弥补唇读***200的识别率降低的基本问题,从而达到识别率的显著改善。
根据本发明的一些示例性实施例,服务情景数据库310可优选地假定配有导航服务。优选地,服务的屏幕可以适当地设计为必要的服务屏幕,例如启动屏幕、主菜单屏幕、定位屏幕、路径选择屏幕、实际道路引导屏幕等。优选地,服务情景数据库310预先定义可对各屏幕输入的一序列指令,并且在执行唇读或语音识别时适当地提供可对各服务屏幕或者在各阶段输入的该序列指令。
优选地,服务屏幕320表示各个服务屏幕,诸如但不限于,初始屏幕,主菜单屏幕等。
优选地,屏幕转换单元330根据在服务情景数据库310中定义的功能,响应于输入指令执行屏幕转换,并且向服务屏幕320提供当前服务状态的信息。
在另外的优选实施例中,识别目标单词序列设置单元340适当地设置在根据服务情景数据库310发生状态改变的情况下,各服务状态或屏幕所需要的一序列单词。
优选地,服务执行单元350响应于输入指令适当地执行屏幕转换、语音引导、信息注册和其它注册的应用服务。
在另外的优选实施例中,多模式界面***100通过参照由识别目标单词序列设置单元340设置的识别目标单词序列组合唇读与语音识别,而适当地执行抗噪语音识别。
优选地,识别结果确定单元360适当地确定语音识别或者唇读识别是否失败,以决定是否对输入音频和视频信号执行服务。根据一些优选实施例,这是通过使用其本身的指令识别的估计可靠性来确定的。在另外的优选实施例中,如果识别成功,则服务执行单元350适当地执行相应于指令的服务,否则,在服务等待模式中等待指令输入。
根据本发明的一些优选实施例并且如图4中所示,图4是示出说话者自适应实时唇读学习***的详细框图。
在一些优选实施例中,说话者自适应实时唇读学习***400适当地包括唇读特征检测单元410、语音识别单词估计概率确定单元420,嘴唇特征检测确定单元430,和实时唇读学习单元440。在一些优选实施例中,要求实时学习的原因在于,尽管唇读适当地要求大量的学习数据以学习具有大的个人特征数据偏差的说话者无关的识别器,然而收集学习数据并不容易,因此实时唇读学习单元440需要学习k-NN识别器,以便在实际情况下适应于个体的服务使用者。
在本发明的一些优选实施例中,唇读特征检测单元410从来自唇读模块150的语音片段检测器240的输入图像适当地检测唇读特征。
根据本发明的一些优选实施例,语音识别单词估计概率确定单元420适当地评价由语音识别模块120识别的指令的可靠性,以确定该指令是否可以用作由唇读特征检测单元410检测到的嘴唇图像特征的学习标签。优选地,如果由语音识别模块120识别的指令的可靠性的估计值高于特定的阈值,则执行学习,否则,不执行学习。
优选地,嘴唇特征检测确定单元430适当地确定是否正确地检测到图像特征数据,从而为即使语音识别模块120已适当地识别指令也没有检测到图像特征数据的情况作准备。
优选地,在一些实施例中,实时唇读学习单元440通过使用从语音识别模块120提供的指令作为标签,以与离线同样的方式,对在实际服务***中从唇读特征检测单元410提供的嘴唇特征值适当地执行k-NN学习,来更新图2中的嘴唇特征数据库280。优选地,在服务期间对于每个输入,这样的一系列学习持续,以学习基于在无噪声环境下的语音识别模块120的高识别性能的唇读模块150,从而即使在噪声环境下语音识别模块120不能再工作,也使唇读模块150能够适当地识别指令并继续服务。
本发明优选地提供了一种对于在现有语音识别方法中观察到的识别率降低的问题的解决方案。因此,本发明优选地允许使用者在噪声持续存在的环境中,诸如行驶的车辆的内部,取代基于音频的语音识别器而适当地操作导航的基本指令。本发明进一步提供了在驾驶过程中通过经由触摸屏操作导航***而不分散使用者注意力的方法和***,因此防止了事故的风险。另外,本发明提供了一种使用语音识别器操作诸如总是产生噪声的音频设备的装置的方法。
优选地,本发明并不局限于特定的服务,而是可应用于几乎所有目前应用语音识别器的服务,例如但不限于,车辆、机械手、家用电器等。因此,这克服了适当地应用在暴露于日常噪声的实际环境中可能不能正确工作的现有的语音识别器的难题。
根据本发明的优选实施例,组合唇读与语音识别的多模式界面***实现了一种从通过摄像机获得的面部图像适当地检测嘴唇,跟踪嘴唇运动,并且基于嘴唇的特征值适当地识别语音指令的唇读***,然后适当地组合唇读***与基于音频的语音识别***,由此提供了一种多模式语音识别***。优选地,因为组合唇读与语音识别的多模式界面***适当地不受音频噪声的影响,所以组合唇读与语音识别的多模式界面***优选地允许使用摄像机图像的唇读技术在一定的环境中通过接收指令而提供服务,在该环境中由于在室内收听广播时或者在车窗落下而驾驶车辆时所产生的噪声,语音识别器无法工作。
在另一优选实施例中,组合唇读与语音识别的多模式界面***可基于情景适当地配置作为交互***的导航***的应用服务屏幕,并且适当地限制要识别的指令,使得可根据各服务屏幕状态适当地仅识别必要的指令,由此提高单个指令的识别率。
在本发明的另外的优选实施例中,组合唇读与语音识别的多模式界面***应用能够实时在线学习的识别器算法,以便如果驾驶者长时间使用该***,则使识别器适当地适应驾驶者的语音特征,由此逐渐提高识别率。
本发明的以上实施例是示例性的而非限制性的。各种替代方案和等同方案都是可能的。本发明不受本文所述实施例的限制。本发明也不局限于任何特定形式的半导体装置。鉴于本公开,其它的增加、减少或改型都是显而易见的,并且意在属于所附权利要求的范围。
附图中各元件的标记
100:组合唇读与语音识别的多模式界面***
110:音频语音输入单元
120:语音识别模块
130:语音识别指令和估计概率输出单元
140:嘴唇视频图像输入单元
150:唇读模块
160:唇读识别指令输出单元
170:语音识别与唇读识别结果组合单元
171:语音识别结果确定单元
172:唇读识别结果确定单元
173:组合识别指令(语音)输出单元
174:组合识别指令(唇读)输出单元
180:最终识别指令输出单元
210:嘴唇检测器
220:嘴唇模型生成器
230:嘴唇***
240:语音片段检测器
250:***模式确定器
260:唇读识别学习单元
270:指令识别单元
280:嘴唇特征数据库
300:交互服务***
310:服务情景数据库
320:服务屏幕
330:屏幕转换单元
350:服务执行单元
360:识别结果确定单元
400:说话者自适应实时唇读学习***
410:唇读特征检测单元
420:语音识别单词估计概率确定单元
430:嘴唇特征检测确定单元
440:实时唇读学习单元
Claims (14)
1.一种组合唇读与语音识别的多模式界面***,包括:
音频语音输入单元,其获得通过音频输入传感器输入的声音信号或者通过有线或无线连接从外部传送的输入音频信号;
语音识别单元,其从输入音频信号识别语音并且计算估计的识别准确度;
语音识别指令和估计概率输出单元,其输出与语音识别单元识别的语音相对应的指令和估计的识别概率值;
嘴唇视频图像输入单元,其获得通过图像输入传感器输入的输入图像或者通过有线或无线连接从外部传送的输入图像;
唇读单元,其通过处理输入图像识别说话者的唇读指令;
唇读识别指令输出单元,其输出由唇读单元识别的唇读指令;以及
语音识别与唇读识别结果组合单元,如果估计的概率高于阈值,则其输出语音识别指令,如果估计的概率低于阈值,则其输出唇读指令。
2.如权利要求1所述的***,其中唇读单元包括:
嘴唇检测器,其使用来自嘴唇视频图像输入单元的输入图像检测嘴唇特征;
嘴唇模型生成器,其使用主动外观模型(AAM)嘴唇模型生成形状模型和外观模型;
嘴唇***,其使用由嘴唇模型生成器生成的形状模型和Lucas-Kanade(LK)算法,跟踪作为在嘴唇检测后AAM拟合的结果而获得的嘴唇特征点;
语音片段检测器,其将预定周期的帧数据输入到神经网络识别器中,以便基于作为对连续的输入图像进行嘴唇跟踪的结果而获得的一系列嘴唇模型参数,确定片段是语音片段还是静音片段;
***模式确定器,其确定***是处于嘴唇特征数据的标签已知的学习模式,还是处于嘴唇特征数据的标签未知的识别模式;
唇读识别学习单元,如果***处于学习模式,则其使用特征数据和输入标签学习K最近邻域(K-NN)学习器;
指令识别单元,如果***处于识别模式,则其通过习得的K-NN识别器找到与特征数据最相似的学习模式,并且输出作为特征值的结果指令;以及
嘴唇特征数据库,其存储离线或在线习得的每个指令的模式。
3.如权利要求2所述的***,还包括:
唇读特征检测单元,其从来自语音片段检测器的输入图像检测唇读特征;
语音识别单词估计概率确定单元,如果由语音识别模块识别的指令的估计概率高于阈值,则确定使用由唇读特征检测单元检测的嘴唇图像作为嘴唇特征的学习标签执行学习;
嘴唇特征检测确定单元,其确定是否正确地检测到图像特征数据;以及
实时唇读学习单元,其通过使用从基于的语音识别模块提供的指令作为标签,对从唇读特征检测单元提供的嘴唇特征值执行k-NN学习,来更新嘴唇特征数据库,由此实现说话者自适应实时学习***。
4.如权利要求1所述的***,还包括交互服务单元,其根据服务情景以有限的方式识别必要的指令,由此实现能够实时学习的在线学习识别算法。
5.如权利要求4所述的***,其中交互服务单元包括:
服务情景数据库,其预先定义可对各屏幕输入的一序列指令,并且在执行唇读或者语音识别时提供可对各服务屏幕或者在各阶段输入的该序列指令;
服务屏幕;
屏幕转换单元,其根据在服务情景数据库中定义的功能响应于输入指令执行屏幕转换,并且向服务屏幕提供当前服务状态的信息;
识别目标单词序列设置单元,其设置在基于服务情景数据库发生状态改变的情况下,各服务状态或者屏幕所要求的一序列单词;
如权利要求1所述的多模式界面***,其通过参照由识别目标单词序列设置单元设置的识别目标单词序列组合唇读与语音识别,来执行抗噪语音识别;
服务执行单元,其响应于输入指令执行屏幕转换、语音引导、信息注册和其它注册的应用服务;以及
识别结果确定单元,其确定语音识别或者唇读识别是否失败,以决定是否对输入音频和视频信号执行服务,从而限制在实际服务中要识别的单词的数目,由此显著提高识别率。
6.一种组合唇读与语音识别的多模式界面***,包括:
音频语音输入单元;
语音识别单元;
语音识别指令和估计概率输出单元;
嘴唇视频图像输入单元;
唇读单元;
唇读识别指令输出单元;以及
语音识别与唇读识别结果组合单元,其输出语音识别指令。
7.如权利要求6所述的组合唇读与语音识别的多模式界面***,其中音频语音输入单元获得通过音频输入传感器输入的声音信号或者通过有线或无线连接从外部传送的输入音频信号。
8.如权利要求6所述的组合唇读与语音识别的多模式界面***,其中语音识别单元从输入音频信号识别语音并且计算估计的识别准确度。
9.如权利要求6所述的组合唇读与语音识别的多模式界面***,其中语音识别指令和估计概率输出单元输出与语音识别单元识别的语音相对应的指令和估计的识别概率值。
10.如权利要求6所述的组合唇读与语音识别的多模式界面***,其中嘴唇视频图像输入单元获得通过图像输入传感器输入的输入图像或者通过有线或无线连接从外部传送的输入图像。
11.如权利要求6所述的组合唇读与语音识别的多模式界面***,其中唇读单元通过处理输入图像识别说话者的唇读指令。
12.如权利要求6所述的组合唇读与语音识别的多模式界面***,其中唇读识别指令输出单元输出由唇读单元识别的唇读指令。
13.如权利要求6所述的组合唇读与语音识别的多模式界面***,其中如果估计的概率高于阈值,则语音识别与唇读识别结果组合单元输出语音识别指令。
14.如权利要求6所述的组合唇读与语音识别的多模式界面***,其中如果估计的概率低于阈值,则语音识别与唇读识别结果组合单元输出唇读指令。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090089637A KR101092820B1 (ko) | 2009-09-22 | 2009-09-22 | 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템 |
KR10-2009-0089637 | 2009-09-22 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102023703A true CN102023703A (zh) | 2011-04-20 |
CN102023703B CN102023703B (zh) | 2015-03-11 |
Family
ID=43757401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200910246886.7A Active CN102023703B (zh) | 2009-09-22 | 2009-12-03 | 组合唇读与语音识别的多模式界面*** |
Country Status (3)
Country | Link |
---|---|
US (1) | US8442820B2 (zh) |
KR (1) | KR101092820B1 (zh) |
CN (1) | CN102023703B (zh) |
Cited By (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102270308A (zh) * | 2011-07-21 | 2011-12-07 | 武汉大学 | 一种基于五官相关aam模型的面部特征定位方法 |
CN102298443A (zh) * | 2011-06-24 | 2011-12-28 | 华南理工大学 | 结合视频通道的智能家居语音控制***及其控制方法 |
CN102324035A (zh) * | 2011-08-19 | 2012-01-18 | 广东好帮手电子科技股份有限公司 | 口型辅助语音识别术在车载导航中应用的方法及*** |
CN103177238A (zh) * | 2011-12-26 | 2013-06-26 | 宇龙计算机通信科技(深圳)有限公司 | 终端和用户识别方法 |
CN103366506A (zh) * | 2013-06-27 | 2013-10-23 | 北京理工大学 | 一种驾驶员行车途中接打手机行为的自动监控装置及方法 |
CN103428623A (zh) * | 2012-05-14 | 2013-12-04 | 通用汽车有限责任公司 | 活动顶篷式交通工具中的声音参数之间的切换 |
CN103869962A (zh) * | 2012-12-18 | 2014-06-18 | 联想(北京)有限公司 | 一种数据处理方法、装置及电子设备 |
CN103905873A (zh) * | 2014-04-08 | 2014-07-02 | 天津思博科科技发展有限公司 | 一种基于口型识别技术的电视遥控器 |
CN104166837A (zh) * | 2013-05-15 | 2014-11-26 | 鹦鹉股份有限公司 | 采用最相关的兴趣点的各组的选择的视觉语音识别方法 |
CN104409075A (zh) * | 2014-11-28 | 2015-03-11 | 深圳创维-Rgb电子有限公司 | 语音识别方法和*** |
CN104679471A (zh) * | 2013-12-03 | 2015-06-03 | 联想(新加坡)私人有限公司 | 用于检测可听输入中的中止的装置、设备及方法 |
CN104808794A (zh) * | 2015-04-24 | 2015-07-29 | 北京旷视科技有限公司 | 一种唇语输入方法和*** |
WO2015154419A1 (zh) * | 2014-09-03 | 2015-10-15 | 中兴通讯股份有限公司 | 一种人机交互装置及方法 |
WO2015158082A1 (zh) * | 2014-04-17 | 2015-10-22 | 中兴通讯股份有限公司 | 一种基于唇读的终端操作方法及装置 |
CN105450970A (zh) * | 2014-06-16 | 2016-03-30 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN105632497A (zh) * | 2016-01-06 | 2016-06-01 | 昆山龙腾光电有限公司 | 一种语音输出方法、语音输出*** |
WO2016150001A1 (zh) * | 2015-03-24 | 2016-09-29 | 中兴通讯股份有限公司 | 语音识别的方法、装置及计算机存储介质 |
CN106203235A (zh) * | 2015-04-30 | 2016-12-07 | 腾讯科技(深圳)有限公司 | 活体鉴别方法和装置 |
CN106875941A (zh) * | 2017-04-01 | 2017-06-20 | 彭楚奥 | 一种服务机器人的语音语义识别方法 |
CN107004405A (zh) * | 2014-12-18 | 2017-08-01 | 三菱电机株式会社 | 语音识别装置和语音识别方法 |
CN107025439A (zh) * | 2017-03-22 | 2017-08-08 | 天津大学 | 基于深度数据的唇部区域特征提取和规范化方法 |
CN108227903A (zh) * | 2016-12-21 | 2018-06-29 | 深圳市掌网科技股份有限公司 | 一种虚拟现实语言交互***与方法 |
CN108227904A (zh) * | 2016-12-21 | 2018-06-29 | 深圳市掌网科技股份有限公司 | 一种虚拟现实语言交互***与方法 |
CN109448711A (zh) * | 2018-10-23 | 2019-03-08 | 珠海格力电器股份有限公司 | 一种语音识别的方法、装置及计算机存储介质 |
CN109558788A (zh) * | 2018-10-08 | 2019-04-02 | 清华大学 | 静默语音输入辨识方法、计算装置和计算机可读介质 |
CN109872714A (zh) * | 2019-01-25 | 2019-06-11 | 广州富港万嘉智能科技有限公司 | 一种提高语音识别准确性的方法、电子设备及存储介质 |
WO2019196196A1 (zh) * | 2018-04-12 | 2019-10-17 | 科大讯飞股份有限公司 | 一种耳语音恢复方法、装置、设备及可读存储介质 |
CN110765868A (zh) * | 2019-09-18 | 2020-02-07 | 平安科技(深圳)有限公司 | 唇读模型的生成方法、装置、设备及存储介质 |
CN110837758A (zh) * | 2018-08-17 | 2020-02-25 | 杭州海康威视数字技术股份有限公司 | 一种关键词输入方法、装置及电子设备 |
CN110998678A (zh) * | 2017-06-12 | 2020-04-10 | 可口可乐公司 | 低成本控制倾倒 |
CN111033611A (zh) * | 2017-03-23 | 2020-04-17 | 乔伊森安全***收购有限责任公司 | 使嘴部图像与输入指令关联的***和方法 |
CN111201786A (zh) * | 2018-01-17 | 2020-05-26 | Jvc建伍株式会社 | 显示控制装置、通信装置、显示控制方法及程序 |
WO2020125038A1 (zh) * | 2018-12-17 | 2020-06-25 | 南京人工智能高等研究院有限公司 | 语音控制方法及装置 |
CN111951629A (zh) * | 2019-05-16 | 2020-11-17 | 上海流利说信息技术有限公司 | 一种发音纠正***、方法、介质和计算设备 |
CN112041924A (zh) * | 2018-05-18 | 2020-12-04 | 渊慧科技有限公司 | 通过音素预测进行视觉语音识别 |
CN113002461A (zh) * | 2021-03-26 | 2021-06-22 | 芜湖汽车前瞻技术研究院有限公司 | Ar-hud***的虚像位置调整方法、装置及存储介质 |
WO2021196802A1 (zh) * | 2020-03-31 | 2021-10-07 | 科大讯飞股份有限公司 | 多模态语音识别模型训练方法、装置、设备及存储介质 |
CN114141245A (zh) * | 2017-03-14 | 2022-03-04 | 谷歌有限责任公司 | 基于唇部检测的查询端点化 |
CN114708642A (zh) * | 2022-05-24 | 2022-07-05 | 成都锦城学院 | 商务英语仿真实训装置、***、方法及存储介质 |
WO2023006033A1 (zh) * | 2021-07-29 | 2023-02-02 | 华为技术有限公司 | 语音交互方法、电子设备及介质 |
Families Citing this family (106)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011209787A (ja) * | 2010-03-29 | 2011-10-20 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
JP2013072974A (ja) * | 2011-09-27 | 2013-04-22 | Toshiba Corp | 音声認識装置、方法及びプログラム |
BR112014015844A8 (pt) * | 2011-12-26 | 2017-07-04 | Intel Corp | determinação das entradas de áudio e visuais de ocupantes baseada em veículo |
US8863042B2 (en) * | 2012-01-24 | 2014-10-14 | Charles J. Kulas | Handheld device with touch controls that reconfigure in response to the way a user operates the device |
US20130212501A1 (en) * | 2012-02-10 | 2013-08-15 | Glen J. Anderson | Perceptual computing with conversational agent |
US8925058B1 (en) * | 2012-03-29 | 2014-12-30 | Emc Corporation | Authentication involving authentication operations which cross reference authentication factors |
US9094509B2 (en) | 2012-06-28 | 2015-07-28 | International Business Machines Corporation | Privacy generation |
KR101992676B1 (ko) * | 2012-07-26 | 2019-06-25 | 삼성전자주식회사 | 영상 인식을 이용하여 음성 인식을 하는 방법 및 장치 |
JP5902632B2 (ja) * | 2013-01-07 | 2016-04-13 | 日立マクセル株式会社 | 携帯端末装置及び情報処理システム |
US9094576B1 (en) | 2013-03-12 | 2015-07-28 | Amazon Technologies, Inc. | Rendered audiovisual communication |
DE102013007964B4 (de) * | 2013-05-10 | 2022-08-18 | Audi Ag | Kraftfahrzeug-Eingabevorrichtung mit Zeichenerkennung |
US11199906B1 (en) | 2013-09-04 | 2021-12-14 | Amazon Technologies, Inc. | Global user input management |
WO2015076828A1 (en) * | 2013-11-22 | 2015-05-28 | Intel Corporation | Apparatus and method for voice based user enrollment with video assistance |
US9915545B2 (en) | 2014-01-14 | 2018-03-13 | Toyota Motor Engineering & Manufacturing North America, Inc. | Smart necklace with stereo vision and onboard processing |
US10024679B2 (en) | 2014-01-14 | 2018-07-17 | Toyota Motor Engineering & Manufacturing North America, Inc. | Smart necklace with stereo vision and onboard processing |
US10360907B2 (en) | 2014-01-14 | 2019-07-23 | Toyota Motor Engineering & Manufacturing North America, Inc. | Smart necklace with stereo vision and onboard processing |
US10248856B2 (en) | 2014-01-14 | 2019-04-02 | Toyota Motor Engineering & Manufacturing North America, Inc. | Smart necklace with stereo vision and onboard processing |
US9629774B2 (en) | 2014-01-14 | 2017-04-25 | Toyota Motor Engineering & Manufacturing North America, Inc. | Smart necklace with stereo vision and onboard processing |
US9578307B2 (en) | 2014-01-14 | 2017-02-21 | Toyota Motor Engineering & Manufacturing North America, Inc. | Smart necklace with stereo vision and onboard processing |
US20150279364A1 (en) * | 2014-03-29 | 2015-10-01 | Ajay Krishnan | Mouth-Phoneme Model for Computerized Lip Reading |
CN105096935B (zh) * | 2014-05-06 | 2019-08-09 | 阿里巴巴集团控股有限公司 | 一种语音输入方法、装置和*** |
WO2015187631A1 (en) * | 2014-06-02 | 2015-12-10 | Tethis, Inc. | Modified biopolymers and methods of producing and using the same |
JP6276132B2 (ja) * | 2014-07-30 | 2018-02-07 | 株式会社東芝 | 発話区間検出装置、音声処理システム、発話区間検出方法およびプログラム |
US10024667B2 (en) | 2014-08-01 | 2018-07-17 | Toyota Motor Engineering & Manufacturing North America, Inc. | Wearable earpiece for providing social and environmental awareness |
CN105468950B (zh) * | 2014-09-03 | 2020-06-30 | 阿里巴巴集团控股有限公司 | 身份认证方法、装置、终端及服务器 |
US9922236B2 (en) | 2014-09-17 | 2018-03-20 | Toyota Motor Engineering & Manufacturing North America, Inc. | Wearable eyeglasses for providing social and environmental awareness |
US10024678B2 (en) | 2014-09-17 | 2018-07-17 | Toyota Motor Engineering & Manufacturing North America, Inc. | Wearable clip for providing social and environmental awareness |
US9626001B2 (en) * | 2014-11-13 | 2017-04-18 | International Business Machines Corporation | Speech recognition candidate selection based on non-acoustic input |
US9881610B2 (en) | 2014-11-13 | 2018-01-30 | International Business Machines Corporation | Speech recognition system adaptation based on non-acoustic attributes and face selection based on mouth motion using pixel intensities |
US9741342B2 (en) | 2014-11-26 | 2017-08-22 | Panasonic Intellectual Property Corporation Of America | Method and apparatus for recognizing speech by lip reading |
US9576460B2 (en) | 2015-01-21 | 2017-02-21 | Toyota Motor Engineering & Manufacturing North America, Inc. | Wearable smart device for hazard detection and warning based on image and audio data |
US10490102B2 (en) | 2015-02-10 | 2019-11-26 | Toyota Motor Engineering & Manufacturing North America, Inc. | System and method for braille assistance |
US9586318B2 (en) | 2015-02-27 | 2017-03-07 | Toyota Motor Engineering & Manufacturing North America, Inc. | Modular robot with smart device |
US9811752B2 (en) | 2015-03-10 | 2017-11-07 | Toyota Motor Engineering & Manufacturing North America, Inc. | Wearable smart device and method for redundant object identification |
US9677901B2 (en) | 2015-03-10 | 2017-06-13 | Toyota Motor Engineering & Manufacturing North America, Inc. | System and method for providing navigation instructions at optimal times |
US9972216B2 (en) | 2015-03-20 | 2018-05-15 | Toyota Motor Engineering & Manufacturing North America, Inc. | System and method for storing and playback of information for blind users |
FR3034215B1 (fr) | 2015-03-27 | 2018-06-15 | Valeo Comfort And Driving Assistance | Procede de commande, dispositif de commande, systeme et vehicule automobile comprenant un tel dispositif de commande |
US10395555B2 (en) * | 2015-03-30 | 2019-08-27 | Toyota Motor Engineering & Manufacturing North America, Inc. | System and method for providing optimal braille output based on spoken and sign language |
US9898039B2 (en) | 2015-08-03 | 2018-02-20 | Toyota Motor Engineering & Manufacturing North America, Inc. | Modular smart necklace |
CN106599764A (zh) * | 2015-10-20 | 2017-04-26 | 深圳市商汤科技有限公司 | 基于唇形特征的活体判断方法及设备 |
CN106651340B (zh) * | 2015-11-02 | 2021-06-29 | 创新先进技术有限公司 | 结算方法及装置 |
US9959872B2 (en) | 2015-12-14 | 2018-05-01 | International Business Machines Corporation | Multimodal speech recognition for real-time video audio-based display indicia application |
US10024680B2 (en) | 2016-03-11 | 2018-07-17 | Toyota Motor Engineering & Manufacturing North America, Inc. | Step based guidance system |
EP3460791A4 (en) * | 2016-05-16 | 2019-05-22 | Sony Corporation | INFORMATION PROCESSING DEVICE |
CN107404381A (zh) * | 2016-05-19 | 2017-11-28 | 阿里巴巴集团控股有限公司 | 一种身份认证方法和装置 |
US9958275B2 (en) | 2016-05-31 | 2018-05-01 | Toyota Motor Engineering & Manufacturing North America, Inc. | System and method for wearable smart device communications |
US10561519B2 (en) | 2016-07-20 | 2020-02-18 | Toyota Motor Engineering & Manufacturing North America, Inc. | Wearable computing device having a curved back to reduce pressure on vertebrae |
US10607258B2 (en) * | 2016-08-02 | 2020-03-31 | International Business Machines Corporation | System, method, and recording medium for fixed-wing aircraft advertisement using locally sampled word listening |
US10559312B2 (en) * | 2016-08-25 | 2020-02-11 | International Business Machines Corporation | User authentication using audiovisual synchrony detection |
US10432851B2 (en) | 2016-10-28 | 2019-10-01 | Toyota Motor Engineering & Manufacturing North America, Inc. | Wearable computing device for detecting photography |
JP2018074366A (ja) * | 2016-10-28 | 2018-05-10 | 京セラ株式会社 | 電子機器、制御方法およびプログラム |
US10012505B2 (en) | 2016-11-11 | 2018-07-03 | Toyota Motor Engineering & Manufacturing North America, Inc. | Wearable system for providing walking directions |
US10521669B2 (en) | 2016-11-14 | 2019-12-31 | Toyota Motor Engineering & Manufacturing North America, Inc. | System and method for providing guidance or feedback to a user |
US10172760B2 (en) | 2017-01-19 | 2019-01-08 | Jennifer Hendrix | Responsive route guidance and identification system |
US11189281B2 (en) * | 2017-03-17 | 2021-11-30 | Samsung Electronics Co., Ltd. | Method and system for automatically managing operations of electronic device |
CN108664842B (zh) * | 2017-03-27 | 2020-12-18 | Tcl科技集团股份有限公司 | 一种唇动识别模型的构建方法及*** |
CN107239139B (zh) * | 2017-05-18 | 2018-03-16 | 刘国华 | 基于正视的人机交互方法与*** |
US10522147B2 (en) | 2017-12-21 | 2019-12-31 | Motorola Solutions, Inc. | Device and method for generating text representative of lip movement |
KR102550932B1 (ko) | 2017-12-29 | 2023-07-04 | 삼성전자주식회사 | 음성 인식 모델의 개인화 방법 및 장치 |
WO2019161229A1 (en) | 2018-02-15 | 2019-08-22 | DMAI, Inc. | System and method for reconstructing unoccupied 3d space |
WO2019161196A2 (en) * | 2018-02-15 | 2019-08-22 | DMAI, Inc. | System and method for disambiguating a source of sound based on detected lip movement |
US11468885B2 (en) * | 2018-02-15 | 2022-10-11 | DMAI, Inc. | System and method for conversational agent via adaptive caching of dialogue tree |
EP3752957A4 (en) * | 2018-02-15 | 2021-11-17 | DMAI, Inc. | SYSTEM AND PROCEDURE FOR SPEECH UNDERSTANDING VIA INTEGRATED AUDIO AND VIDEO-BASED VOICE RECOGNITION |
CN108596107A (zh) | 2018-04-26 | 2018-09-28 | 京东方科技集团股份有限公司 | 基于ar设备的唇语识别方法及其装置、ar设备 |
KR102114368B1 (ko) * | 2018-05-23 | 2020-05-22 | 카페24 주식회사 | 사용자 영상을 기반으로 하는 정보 입력 장치, 방법, 시스템 및 컴퓨터 판독 가능한 저장 매체 |
KR20200000155A (ko) | 2018-06-22 | 2020-01-02 | 현대자동차주식회사 | 대화 시스템 및 이를 이용한 차량 |
CN110767228B (zh) * | 2018-07-25 | 2022-06-03 | 杭州海康威视数字技术股份有限公司 | 一种声音获取方法、装置、设备及*** |
KR102168802B1 (ko) * | 2018-09-20 | 2020-10-22 | 한국전자통신연구원 | 상호 작용 장치 및 방법 |
KR20200056754A (ko) * | 2018-11-15 | 2020-05-25 | 삼성전자주식회사 | 개인화 립 리딩 모델 생성 방법 및 장치 |
TWI682325B (zh) * | 2018-11-20 | 2020-01-11 | 新唐科技股份有限公司 | 辨識系統及辨識方法 |
CN111259711A (zh) * | 2018-12-03 | 2020-06-09 | 北京嘀嘀无限科技发展有限公司 | 一种识别唇动的方法和*** |
KR20200073733A (ko) * | 2018-12-14 | 2020-06-24 | 삼성전자주식회사 | 전자 장치의 기능 실행 방법 및 이를 사용하는 전자 장치 |
WO2020147925A1 (de) * | 2019-01-15 | 2020-07-23 | Siemens Aktiengesellschaft | System zum visualisieren einer geräuschquelle in einer umgebung eines nutzers sowie verfahren |
CN110427809B (zh) * | 2019-06-21 | 2023-07-25 | 平安科技(深圳)有限公司 | 基于深度学习的唇语识别方法、装置、电子设备及介质 |
US11257493B2 (en) | 2019-07-11 | 2022-02-22 | Soundhound, Inc. | Vision-assisted speech processing |
US11348581B2 (en) | 2019-07-12 | 2022-05-31 | Qualcomm Incorporated | Multi-modal user interface |
CN111684459A (zh) * | 2019-07-18 | 2020-09-18 | 深圳海付移通科技有限公司 | 一种身份验证方法、终端设备、存储介质 |
CN111684444A (zh) * | 2019-07-18 | 2020-09-18 | 深圳海付移通科技有限公司 | 一种身份验证方法、终端设备、存储介质 |
JP6977004B2 (ja) | 2019-08-23 | 2021-12-08 | サウンドハウンド,インコーポレイテッド | 車載装置、発声を処理する方法およびプログラム |
CN110750152B (zh) * | 2019-09-11 | 2023-08-29 | 云知声智能科技股份有限公司 | 一种基于唇部动作的人机交互方法和*** |
CN110865705B (zh) * | 2019-10-24 | 2023-09-19 | 中国人民解放军军事科学院国防科技创新研究院 | 多模态融合的通讯方法、装置、头戴设备及存储介质 |
US11244696B2 (en) | 2019-11-06 | 2022-02-08 | Microsoft Technology Licensing, Llc | Audio-visual speech enhancement |
KR102479400B1 (ko) * | 2019-11-06 | 2022-12-21 | 한국과학기술원 | 영상을 활용한 딥러닝 모델 기반의 실시간 립리딩 인터페이스 시스템 |
US11375275B2 (en) | 2019-11-19 | 2022-06-28 | Charter Communications Operating, Llc | Method and system for using lip sequences to control operations of a device |
CN113112997A (zh) * | 2019-12-25 | 2021-07-13 | 华为技术有限公司 | 数据采集的方法及装置 |
CN111539270A (zh) * | 2020-04-10 | 2020-08-14 | 贵州合谷信息科技有限公司 | 一种用于语音输入法的高识别率微表情识别方法 |
CN111554279A (zh) * | 2020-04-27 | 2020-08-18 | 天津大学 | 一种基于Kinect的多模态人机交互*** |
CN111739534B (zh) * | 2020-06-04 | 2022-12-27 | 广东小天才科技有限公司 | 一种辅助语音识别的处理方法、装置、电子设备及存储介质 |
DE102020118967A1 (de) | 2020-07-17 | 2022-01-20 | Clinomic GmbH | Verfahren zum automatischen lippenlesen mittels einer funktionskomponente und zum bereitstellen der funktionskomponente |
CN111967334B (zh) * | 2020-07-20 | 2023-04-07 | 中国人民解放军军事科学院国防科技创新研究院 | 一种人体意图识别方法、***以及存储介质 |
CN111986674B (zh) * | 2020-08-13 | 2021-04-09 | 广州仿真机器人有限公司 | 基于三级特征采集的智能语音识别方法 |
CN111933174A (zh) * | 2020-08-16 | 2020-11-13 | 云知声智能科技股份有限公司 | 语音处理方法、装置、设备和*** |
CN112672021B (zh) * | 2020-12-25 | 2022-05-17 | 维沃移动通信有限公司 | 语言识别方法、装置及电子设备 |
CN112817575B (zh) * | 2021-01-19 | 2024-02-20 | 中科方寸知微(南京)科技有限公司 | 基于唇语识别的汇编语言编辑器及识别方法 |
US11996114B2 (en) | 2021-05-15 | 2024-05-28 | Apple Inc. | End-to-end time-domain multitask learning for ML-based speech enhancement |
KR102437760B1 (ko) | 2021-05-27 | 2022-08-29 | 이충열 | 컴퓨팅 장치에 의한 음향의 처리 방법, 영상 및 음향의 처리 방법 및 이를 이용한 시스템들 |
CN113450824B (zh) * | 2021-06-28 | 2022-08-16 | 武汉理工大学 | 一种基于多尺度视频特征融合的语音唇读方法及*** |
CN113611287B (zh) * | 2021-06-29 | 2023-09-12 | 深圳大学 | 一种基于机器学习的发音纠错方法和*** |
CN113486760A (zh) * | 2021-06-30 | 2021-10-08 | 上海商汤临港智能科技有限公司 | 对象说话检测方法及装置、电子设备和存储介质 |
CN113655938B (zh) * | 2021-08-17 | 2022-09-02 | 北京百度网讯科技有限公司 | 一种用于智能座舱的交互方法、装置、设备和介质 |
CN113435421B (zh) * | 2021-08-26 | 2021-11-05 | 湖南大学 | 一种基于跨模态注意力增强的唇语识别方法及*** |
CN113963528A (zh) * | 2021-10-20 | 2022-01-21 | 浙江理工大学 | 一种人机交互*** |
CN114639152A (zh) * | 2022-03-22 | 2022-06-17 | 平安普惠企业管理有限公司 | 基于人脸识别的多模态语音交互方法、装置、设备及介质 |
KR20230137814A (ko) | 2022-03-22 | 2023-10-05 | 이충열 | 컴퓨팅 장치와 연동하는 촬영 장치로부터 획득되는 영상을 처리하는 방법 및 이를 이용한 시스템 |
CN115050092A (zh) * | 2022-05-20 | 2022-09-13 | 宁波明家智能科技有限公司 | 一种面向智能驾驶的唇读算法及*** |
CN116721661B (zh) * | 2023-08-10 | 2023-10-31 | 深圳中检实验室技术有限公司 | 用于智能安全生物柜的人机交互管理*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6633844B1 (en) * | 1999-12-02 | 2003-10-14 | International Business Machines Corporation | Late integration in audio-visual continuous speech recognition |
JP2005292401A (ja) * | 2004-03-31 | 2005-10-20 | Denso Corp | カーナビゲーション装置 |
US7269560B2 (en) * | 2003-06-27 | 2007-09-11 | Microsoft Corporation | Speech detection and enhancement using audio/video fusion |
US7587318B2 (en) * | 2002-09-12 | 2009-09-08 | Broadcom Corporation | Correlating video images of lip movements with audio signals to improve speech recognition |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0505621A3 (en) * | 1991-03-28 | 1993-06-02 | International Business Machines Corporation | Improved message recognition employing integrated speech and handwriting information |
US5586215A (en) * | 1992-05-26 | 1996-12-17 | Ricoh Corporation | Neural network acoustic and visual speech recognition system |
US5537488A (en) * | 1993-09-16 | 1996-07-16 | Massachusetts Institute Of Technology | Pattern recognition system with statistical classification |
KR100324988B1 (ko) * | 1994-06-13 | 2002-08-27 | 마츠시타 덴끼 산교 가부시키가이샤 | 신호해석장치 |
KR19980050096A (ko) | 1996-12-20 | 1998-09-15 | 박병재 | 음성과 영상에 의한 차량 동작제어장치 |
US6219639B1 (en) * | 1998-04-28 | 2001-04-17 | International Business Machines Corporation | Method and apparatus for recognizing identity of individuals employing synchronized biometrics |
US6263334B1 (en) * | 1998-11-11 | 2001-07-17 | Microsoft Corporation | Density-based indexing method for efficient execution of high dimensional nearest-neighbor queries on large databases |
US6366885B1 (en) * | 1999-08-27 | 2002-04-02 | International Business Machines Corporation | Speech driven lip synthesis using viseme based hidden markov models |
US6931351B2 (en) * | 2001-04-20 | 2005-08-16 | International Business Machines Corporation | Decision making in classification problems |
US7130446B2 (en) * | 2001-12-03 | 2006-10-31 | Microsoft Corporation | Automatic detection and tracking of multiple individuals using multiple cues |
US7165029B2 (en) * | 2002-05-09 | 2007-01-16 | Intel Corporation | Coupled hidden Markov model for audiovisual speech recognition |
JP4363076B2 (ja) * | 2002-06-28 | 2009-11-11 | 株式会社デンソー | 音声制御装置 |
KR100499030B1 (ko) | 2002-12-16 | 2005-07-01 | 한국전자통신연구원 | 휴대용 단말에서 입술인식 인터페이스 입력장치 및 방법 |
US7472063B2 (en) * | 2002-12-19 | 2008-12-30 | Intel Corporation | Audio-visual feature fusion and support vector machine useful for continuous speech recognition |
KR100682889B1 (ko) * | 2003-08-29 | 2007-02-15 | 삼성전자주식회사 | 영상에 기반한 사실감 있는 3차원 얼굴 모델링 방법 및 장치 |
US7587064B2 (en) * | 2004-02-03 | 2009-09-08 | Hrl Laboratories, Llc | Active learning system for object fingerprinting |
US7133048B2 (en) * | 2004-06-30 | 2006-11-07 | Mitsubishi Electric Research Laboratories, Inc. | Variable multilinear models for facial synthesis |
WO2007052100A2 (en) * | 2005-02-15 | 2007-05-10 | Dspv, Ltd. | System and method of user interface and data entry from a video call |
US20070061335A1 (en) * | 2005-09-14 | 2007-03-15 | Jorey Ramer | Multimodal search query processing |
KR100680278B1 (ko) | 2005-12-28 | 2007-02-07 | 고려대학교 산학협력단 | 입술모양 추출방법 및 그 장치 |
JP4775961B2 (ja) | 2006-12-08 | 2011-09-21 | 公立大学法人大阪府立大学 | 映像を用いた発音の推定方法 |
KR20080073933A (ko) * | 2007-02-07 | 2008-08-12 | 삼성전자주식회사 | 객체 트래킹 방법 및 장치, 그리고 객체 포즈 정보 산출방법 및 장치 |
KR101373206B1 (ko) | 2007-02-12 | 2014-03-12 | 삼성전자 주식회사 | 음성인식과 영상인식을 이용한 휴대단말기에서의 문서작성방법 |
KR100851981B1 (ko) * | 2007-02-14 | 2008-08-12 | 삼성전자주식회사 | 비디오 영상에서 실 객체 판별 방법 및 장치 |
JP2008310382A (ja) | 2007-06-12 | 2008-12-25 | Omron Corp | 読唇装置および方法、情報処理装置および方法、検出装置および方法、プログラム、データ構造、並びに、記録媒体 |
KR100897149B1 (ko) | 2007-10-19 | 2009-05-14 | 에스케이 텔레콤주식회사 | 텍스트 분석 기반의 입 모양 동기화 장치 및 방법 |
KR100840021B1 (ko) * | 2007-11-05 | 2008-06-20 | (주)올라웍스 | 특성 데이터를 이용하여 디지털 데이터에 포함된 인물의얼굴에 대해 인식하는 방법 및 시스템 |
KR101170612B1 (ko) | 2008-03-11 | 2012-08-03 | 에스케이 텔레콤주식회사 | 사용자 영상을 이용한 음성인식 시스템 및 방법 |
-
2009
- 2009-09-22 KR KR1020090089637A patent/KR101092820B1/ko active IP Right Grant
- 2009-12-01 US US12/628,514 patent/US8442820B2/en active Active
- 2009-12-03 CN CN200910246886.7A patent/CN102023703B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6633844B1 (en) * | 1999-12-02 | 2003-10-14 | International Business Machines Corporation | Late integration in audio-visual continuous speech recognition |
US7587318B2 (en) * | 2002-09-12 | 2009-09-08 | Broadcom Corporation | Correlating video images of lip movements with audio signals to improve speech recognition |
US7269560B2 (en) * | 2003-06-27 | 2007-09-11 | Microsoft Corporation | Speech detection and enhancement using audio/video fusion |
JP2005292401A (ja) * | 2004-03-31 | 2005-10-20 | Denso Corp | カーナビゲーション装置 |
Cited By (59)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298443A (zh) * | 2011-06-24 | 2011-12-28 | 华南理工大学 | 结合视频通道的智能家居语音控制***及其控制方法 |
CN102298443B (zh) * | 2011-06-24 | 2013-09-25 | 华南理工大学 | 结合视频通道的智能家居语音控制***及其控制方法 |
CN102270308A (zh) * | 2011-07-21 | 2011-12-07 | 武汉大学 | 一种基于五官相关aam模型的面部特征定位方法 |
CN102324035A (zh) * | 2011-08-19 | 2012-01-18 | 广东好帮手电子科技股份有限公司 | 口型辅助语音识别术在车载导航中应用的方法及*** |
CN103177238A (zh) * | 2011-12-26 | 2013-06-26 | 宇龙计算机通信科技(深圳)有限公司 | 终端和用户识别方法 |
CN103177238B (zh) * | 2011-12-26 | 2019-01-15 | 宇龙计算机通信科技(深圳)有限公司 | 终端和用户识别方法 |
CN103428623A (zh) * | 2012-05-14 | 2013-12-04 | 通用汽车有限责任公司 | 活动顶篷式交通工具中的声音参数之间的切换 |
CN103428623B (zh) * | 2012-05-14 | 2019-03-12 | 通用汽车有限责任公司 | 活动顶篷式交通工具中的声音参数之间的切换 |
CN103869962A (zh) * | 2012-12-18 | 2014-06-18 | 联想(北京)有限公司 | 一种数据处理方法、装置及电子设备 |
CN104166837A (zh) * | 2013-05-15 | 2014-11-26 | 鹦鹉股份有限公司 | 采用最相关的兴趣点的各组的选择的视觉语音识别方法 |
CN104166837B (zh) * | 2013-05-15 | 2018-12-04 | 鹦鹉汽车股份有限公司 | 采用最相关的兴趣点的各组的选择的视觉语音识别方法 |
CN103366506A (zh) * | 2013-06-27 | 2013-10-23 | 北京理工大学 | 一种驾驶员行车途中接打手机行为的自动监控装置及方法 |
CN104679471A (zh) * | 2013-12-03 | 2015-06-03 | 联想(新加坡)私人有限公司 | 用于检测可听输入中的中止的装置、设备及方法 |
CN103905873A (zh) * | 2014-04-08 | 2014-07-02 | 天津思博科科技发展有限公司 | 一种基于口型识别技术的电视遥控器 |
CN105022470A (zh) * | 2014-04-17 | 2015-11-04 | 中兴通讯股份有限公司 | 一种基于唇读的终端操作方法及装置 |
WO2015158082A1 (zh) * | 2014-04-17 | 2015-10-22 | 中兴通讯股份有限公司 | 一种基于唇读的终端操作方法及装置 |
CN105450970A (zh) * | 2014-06-16 | 2016-03-30 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN105450970B (zh) * | 2014-06-16 | 2019-03-29 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN105389097A (zh) * | 2014-09-03 | 2016-03-09 | 中兴通讯股份有限公司 | 一种人机交互装置及方法 |
WO2015154419A1 (zh) * | 2014-09-03 | 2015-10-15 | 中兴通讯股份有限公司 | 一种人机交互装置及方法 |
CN104409075B (zh) * | 2014-11-28 | 2018-09-04 | 深圳创维-Rgb电子有限公司 | 语音识别方法和*** |
WO2016082267A1 (zh) * | 2014-11-28 | 2016-06-02 | 深圳创维-Rgb电子有限公司 | 语音识别方法和*** |
CN104409075A (zh) * | 2014-11-28 | 2015-03-11 | 深圳创维-Rgb电子有限公司 | 语音识别方法和*** |
US10262658B2 (en) | 2014-11-28 | 2019-04-16 | Shenzhen Skyworth-Rgb Eletronic Co., Ltd. | Voice recognition method and system |
CN107004405A (zh) * | 2014-12-18 | 2017-08-01 | 三菱电机株式会社 | 语音识别装置和语音识别方法 |
CN106157956A (zh) * | 2015-03-24 | 2016-11-23 | 中兴通讯股份有限公司 | 语音识别的方法及装置 |
WO2016150001A1 (zh) * | 2015-03-24 | 2016-09-29 | 中兴通讯股份有限公司 | 语音识别的方法、装置及计算机存储介质 |
CN104808794A (zh) * | 2015-04-24 | 2015-07-29 | 北京旷视科技有限公司 | 一种唇语输入方法和*** |
CN106203235A (zh) * | 2015-04-30 | 2016-12-07 | 腾讯科技(深圳)有限公司 | 活体鉴别方法和装置 |
CN105632497A (zh) * | 2016-01-06 | 2016-06-01 | 昆山龙腾光电有限公司 | 一种语音输出方法、语音输出*** |
CN108227904A (zh) * | 2016-12-21 | 2018-06-29 | 深圳市掌网科技股份有限公司 | 一种虚拟现实语言交互***与方法 |
CN108227903B (zh) * | 2016-12-21 | 2020-01-10 | 深圳市掌网科技股份有限公司 | 一种虚拟现实语言交互***与方法 |
CN108227903A (zh) * | 2016-12-21 | 2018-06-29 | 深圳市掌网科技股份有限公司 | 一种虚拟现实语言交互***与方法 |
CN114141245A (zh) * | 2017-03-14 | 2022-03-04 | 谷歌有限责任公司 | 基于唇部检测的查询端点化 |
CN107025439B (zh) * | 2017-03-22 | 2020-04-24 | 天津大学 | 基于深度数据的唇部区域特征提取和规范化方法 |
CN107025439A (zh) * | 2017-03-22 | 2017-08-08 | 天津大学 | 基于深度数据的唇部区域特征提取和规范化方法 |
CN111033611A (zh) * | 2017-03-23 | 2020-04-17 | 乔伊森安全***收购有限责任公司 | 使嘴部图像与输入指令关联的***和方法 |
CN106875941A (zh) * | 2017-04-01 | 2017-06-20 | 彭楚奥 | 一种服务机器人的语音语义识别方法 |
CN106875941B (zh) * | 2017-04-01 | 2020-02-18 | 彭楚奥 | 一种服务机器人的语音语义识别方法 |
CN110998678A (zh) * | 2017-06-12 | 2020-04-10 | 可口可乐公司 | 低成本控制倾倒 |
CN111201786B (zh) * | 2018-01-17 | 2022-04-08 | Jvc建伍株式会社 | 显示控制装置、通信装置、显示控制方法及存储介质 |
CN111201786A (zh) * | 2018-01-17 | 2020-05-26 | Jvc建伍株式会社 | 显示控制装置、通信装置、显示控制方法及程序 |
WO2019196196A1 (zh) * | 2018-04-12 | 2019-10-17 | 科大讯飞股份有限公司 | 一种耳语音恢复方法、装置、设备及可读存储介质 |
US11508366B2 (en) | 2018-04-12 | 2022-11-22 | Iflytek Co., Ltd. | Whispering voice recovery method, apparatus and device, and readable storage medium |
CN112041924A (zh) * | 2018-05-18 | 2020-12-04 | 渊慧科技有限公司 | 通过音素预测进行视觉语音识别 |
CN110837758B (zh) * | 2018-08-17 | 2023-06-02 | 杭州海康威视数字技术股份有限公司 | 一种关键词输入方法、装置及电子设备 |
CN110837758A (zh) * | 2018-08-17 | 2020-02-25 | 杭州海康威视数字技术股份有限公司 | 一种关键词输入方法、装置及电子设备 |
WO2020073403A1 (zh) * | 2018-10-08 | 2020-04-16 | 清华大学 | 静默语音输入辨识方法、计算装置和计算机可读介质 |
CN109558788A (zh) * | 2018-10-08 | 2019-04-02 | 清华大学 | 静默语音输入辨识方法、计算装置和计算机可读介质 |
CN109558788B (zh) * | 2018-10-08 | 2023-10-27 | 清华大学 | 静默语音输入辨识方法、计算装置和计算机可读介质 |
CN109448711A (zh) * | 2018-10-23 | 2019-03-08 | 珠海格力电器股份有限公司 | 一种语音识别的方法、装置及计算机存储介质 |
WO2020125038A1 (zh) * | 2018-12-17 | 2020-06-25 | 南京人工智能高等研究院有限公司 | 语音控制方法及装置 |
CN109872714A (zh) * | 2019-01-25 | 2019-06-11 | 广州富港万嘉智能科技有限公司 | 一种提高语音识别准确性的方法、电子设备及存储介质 |
CN111951629A (zh) * | 2019-05-16 | 2020-11-17 | 上海流利说信息技术有限公司 | 一种发音纠正***、方法、介质和计算设备 |
CN110765868A (zh) * | 2019-09-18 | 2020-02-07 | 平安科技(深圳)有限公司 | 唇读模型的生成方法、装置、设备及存储介质 |
WO2021196802A1 (zh) * | 2020-03-31 | 2021-10-07 | 科大讯飞股份有限公司 | 多模态语音识别模型训练方法、装置、设备及存储介质 |
CN113002461A (zh) * | 2021-03-26 | 2021-06-22 | 芜湖汽车前瞻技术研究院有限公司 | Ar-hud***的虚像位置调整方法、装置及存储介质 |
WO2023006033A1 (zh) * | 2021-07-29 | 2023-02-02 | 华为技术有限公司 | 语音交互方法、电子设备及介质 |
CN114708642A (zh) * | 2022-05-24 | 2022-07-05 | 成都锦城学院 | 商务英语仿真实训装置、***、方法及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20110071830A1 (en) | 2011-03-24 |
KR20110032244A (ko) | 2011-03-30 |
CN102023703B (zh) | 2015-03-11 |
KR101092820B1 (ko) | 2011-12-12 |
US8442820B2 (en) | 2013-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102023703B (zh) | 组合唇读与语音识别的多模式界面*** | |
CN102298443B (zh) | 结合视频通道的智能家居语音控制***及其控制方法 | |
US11854550B2 (en) | Determining input for speech processing engine | |
CN109941231B (zh) | 车载终端设备、车载交互***和交互方法 | |
CN202110564U (zh) | 结合视频通道的智能家居语音控制*** | |
CN109410957B (zh) | 基于计算机视觉辅助的正面人机交互语音识别方法及*** | |
US7729920B2 (en) | Systems and methods for predicting consequences of misinterpretation of user commands in automated systems | |
CN112088402A (zh) | 用于说话者识别的联合神经网络 | |
US11495214B2 (en) | Artificial intelligence device for providing voice recognition service and method of operating the same | |
US20220139389A1 (en) | Speech Interaction Method and Apparatus, Computer Readable Storage Medium and Electronic Device | |
US11404066B2 (en) | Device and method for providing voice recognition service based on artificial intelligence | |
JP6977004B2 (ja) | 車載装置、発声を処理する方法およびプログラム | |
CN104620257A (zh) | 基于深度的语境识别 | |
CN102132227A (zh) | 用于对姿势的多维评估的***和方法 | |
US11355101B2 (en) | Artificial intelligence apparatus for training acoustic model | |
US11810575B2 (en) | Artificial intelligence robot for providing voice recognition function and method of operating the same | |
US20200114925A1 (en) | Interaction device, interaction method, and program | |
CN110827823A (zh) | 语音辅助识别方法、装置、存储介质及电子设备 | |
CN111081244B (zh) | 一种语音交互方法和装置 | |
US11468247B2 (en) | Artificial intelligence apparatus for learning natural language understanding models | |
CN113593572B (zh) | 在空间区域内进行音区定位方法和装置、设备和介质 | |
US11322134B2 (en) | Artificial intelligence device and operating method thereof | |
KR20100062413A (ko) | 텔레매틱스 장치를 위한 음성인식 장치 및 그 방법 | |
US20240212681A1 (en) | Voice recognition device having barge-in function and method thereof | |
CN116580725A (zh) | 一种语音端点检测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |