CN104103274A - 语音处理装置和语音处理方法 - Google Patents

语音处理装置和语音处理方法 Download PDF

Info

Publication number
CN104103274A
CN104103274A CN201310144427.4A CN201310144427A CN104103274A CN 104103274 A CN104103274 A CN 104103274A CN 201310144427 A CN201310144427 A CN 201310144427A CN 104103274 A CN104103274 A CN 104103274A
Authority
CN
China
Prior art keywords
sound signal
variation
face
voice
conditioned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310144427.4A
Other languages
English (en)
Other versions
CN104103274B (zh
Inventor
萧希群
魏守德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wistron Corp
Original Assignee
Wistron Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wistron Corp filed Critical Wistron Corp
Publication of CN104103274A publication Critical patent/CN104103274A/zh
Application granted granted Critical
Publication of CN104103274B publication Critical patent/CN104103274B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

一种语音处理装置与其对应的语音处理方法。上述语音处理装置包括收音器、摄影机、以及处理器。收音器接收声音讯号。摄影机拍摄影片。处理器耦接收音器和摄影机,取得声音讯号的语音起始时间,检测影片中的人脸,检测人脸的嘴型轮廓的变动时间,并检验至少一个预设条件。在上述至少一个预设条件全部成立时,处理器对上述声音讯号进行语音识别。其中,上述的至少一个预设条件包括上述语音起始时间和上述变动时间的误差小于一临界值。

Description

语音处理装置和语音处理方法
技术领域
本发明涉及一种语音处理装置和语音处理方法,特别是涉及分辨来自使用者的语音和环境噪音。
背景技术
语音识别(speech recognition)的技术,是在麦克风接收使用者的语音指令后,利用处理器将指令的声音讯号与内建数据库比对,输出最接近的结果。
目前语音识别的技术,在无环境噪音的情况下,能够正确识别语音指令。问题是接收的声音无法控制,也就是说,不管是使用者的指令或者环境噪音,都会被接收而识别。如图1所示,电视120可通过麦克风130接收使用者140的语音指令145。但是麦克风130不仅接收使用者140的语音指令145,也接收电视120本身发出的经由墙壁110反弹的声音讯号125,以及路人150的语音155。电视120发出的声音讯号125和路人150的语音155都是环境噪音。
在一般有环境噪音的情况下,语音指令可能受到环境噪音的混杂和干扰,是否能识别还是未知数。尤其是路人的语音和使用者的语音指令更难以分辨,这也是造成识别错误的主因之一。
可知环境噪音的干扰,在语音识别领域是亟待解决的重要问题。
发明内容
本发明提供一种语音处理装置和语音处理方法,可利用声音和影片定位语音来源,以排除环境噪音的干扰,正确识别使用者的语音指令。
本发明的语音处理装置包括收音器、摄影机、以及处理器。收音器接收声音讯号。摄影机拍摄影片。处理器耦接收音器和摄影机,取得声音讯号的语音起始时间,检测影片中的人脸,检测人脸的嘴型轮廓的变动时间,并检验至少一个预设条件。在上述至少一个预设条件全部成立时,处理器对上述声音讯号进行语音识别。其中,上述的至少一个预设条件包括上述语音起始时间和上述变动时间的误差小于一临界值。
本发明的语音处理方法包括下列步骤:接收声音讯号;取得声音讯号的语音起始时间;拍摄影片;检测影片中的人脸;检测人脸的嘴型轮廓的变动时间;检验至少一个预设条件;以及在上述至少一个预设条件全部成立时,对上述声音讯号进行语音识别。其中,上述的至少一个预设条件包括上述语音起始时间和上述变动时间的误差小于一临界值。
为使本发明的上述特征和优点能更明显易懂,下文特举实施例,并结合附图详细说明如下。
附图说明
图1是现有的环境噪音的干扰示意图。
图2是依照本发明一实施例的一种语音处理装置的示意图。
图3、图4和图5是依照本发明一实施例的一种语音处理方法的流程图。
图6是依照本发明一实施例的判断声源方向的示意图。
图7是依照本发明一实施例的一种语音处理方法的流程图。
图8是依照本发明一实施例的检测嘴型轮廓变动的示意图。
附图符号说明
110:墙壁
120:电视
125:声音讯号
130:麦克风
140:使用者
145:语音指令
150:路人
155:语音
200:语音处理装置
210:收音器
215:声音讯号
220:摄影机
225:影片
230:处理器
310~340、410~440、510~560:方法步骤
610:画面
620:人脸
630:使用者
631、632:声音讯号
635:时间差或相位差
636:方向角度
650:语音处理装置的前方表面
651、652:麦克风
710~780:方法步骤
810、820:画面
830:人脸
832:嘴型轮廓
834:外接四边形
具体实施方式
图2是依照本发明一实施例的一种语音处理装置200的示意图。语音处理装置200可以是任何一种可接受使用者的语音指令操作的电子装置,例如智能型手机、个人数字助理(PDA:personal digital assistant)、平板计算机(tabletcomputer)、笔记型计算机、个人计算机、或各种智能型家电。语音处理装置200包括收音器210、摄影机220、以及处理器230。处理器230耦接收音器210和摄影机220。
图3是依照本发明一实施例的一种语音处理方法的流程图,此方法可由语音处理装置200执行。收音器210在步骤310接收声音讯号215。摄影机220在步骤320拍摄一段影片225。处理器230在步骤330检验至少一个预设条件,这些预设条件和声音讯号215以及影片225相关。如果上述的至少一个预设条件全部成立,则处理器230在步骤340对声音讯号215进行语音识别。
图4是依照本发明一实施例的一种语音处理方法的流程图。图4的方法流程是步骤330的预设条件其中之一的检验流程,图4的方法流程所检验的预设条件是声音讯号215必须来自预设方向。步骤330可包括图4的方法流程,图4的方法流程可由处理器230执行。
以下说明图4的方法流程。首先,在步骤410判断声音讯号215的声源方向(或称为方向角度),至于如何判断声源方向,在图6有进一步说明。在步骤420检查声源方向是否符合预设方向。如果符合,则在步骤430判定图4的方法流程所检验的预设条件成立,反之,则在步骤440判定图4的方法流程所检验的预设条件不成立。
此处的预设方向,是根据预想中使用者操作语音处理装置200时所在的位置。例如,当语音处理装置200是一台电视,则进行操作的使用者会在电视前面,因此上述的预设方向可设定为电视正前方。上述的符合是指声音讯号215的声源方向和上述预设方向的角度误差必须小于一个临界值,例如上述的角度误差必须小于五度。这个角度误差的限制条件可以是步骤330所检验的预设条件其中之一。
图5是依照本发明一实施例的一种语音处理方法的流程图。图5的方法流程是步骤330的预设条件其中之一的检验流程,图5的方法流程所检验的预设条件是声音讯号215的声源方向必须符合使用者的人脸所在的方向。步骤330可包括图5的方法流程,图5的方法流程可由处理器230执行。
以下说明图5的方法流程。首先,在步骤510判断声音讯号215的声源方向,至于声源方向如何判断则如图6所示。声音讯号215来自使用者630,声音讯号215包括两个声音讯号631和632。语音处理装置200的前方表面标示为650。收音器210包括两个麦克风651和652,麦克风651和652分别接收声音讯号631和632。处理器230可根据声音讯号631和632的时间差或相位差635判断声音讯号215的方向角度636。
例如,处理器230可将麦克风651和652所收到的声音讯号631和632作讯号平移,检测声音讯号631和632其中两个最强讯号交迭的时间点,计算此时的平移量可得到声音讯号631和632的时间差或相位差635,进而得到声音讯号215的方向角度636。根据多个声音讯号的时间差或相位差计算声源方向已经是现有技术,细节就不在此赘述。
接下来,在步骤520检测影片225的画面中是否有人脸,这个人脸可能属于使用者。在影片画面中检测人脸已经是现有技术,例如可采用动态检测(motion detection)、肤色检测(skin color detection)、或模型检测(model detection)等方式截取画面中人脸的位置,细节就不在此赘述。如果没检测到人脸,则流程进入步骤560,判定图5的方法流程所检验的预设条件不成立。如果检测到人脸,例如图6所示在影片225的画面610的中检测到人脸620,则在步骤530根据一个对照表将人脸在影片的画面中的位置转换为该人脸的方向。例如图6所示,人脸620属于使用者630,人脸620的方向角度为636。
上述的对照表可以预先制作,例如将一个物品和语音处理装置200之间的距离限定为固定的预设距离(例如是3公尺),在此前提下,将此物品摆放在对应于收音器210的多个不同角度之处,比较不同角度的物品于画面上所在的不同位置,再将这些画面位置与方向角度的对应关系记录下来,就能建立方向角度与画面位置的对照表。
或者,语音处理装置200可提供一个校正程序。在此校正程序中,使用者分别在多个可以操作语音处理装置200的位置发出声音,处理器230可判断声源方向,记录使用者在每一个上述位置时,使用者的人脸在影片225的画面中的位置,以及每一个画面位置所对应的声音讯号215的声源方向,然后可依据画面位置与声源方向的对应关系建立对照表。
上述对照表记录多个不同的画面位置,以及每个画面位置所对应的方向。所以步骤530可将人脸出现在画面中的位置转换为对应的人脸方向。如果使用者正在讲话,则使用者的人脸方向应该和声源方向相同。所以,可在步骤540检查声音讯号215的声源方向是否符合人脸方向。如果符合,则在步骤550判定图5的方法流程所检验的预设条件成立,反之,则在步骤560判定图5的方法流程所检验的预设条件不成立。上述的符合是指声音讯号215的声源方向和上述人脸方向的角度误差必须小于一个临界值,例如上述的角度误差必须小于五度。这个角度误差的限制条件可以是步骤330所检验的预设条件其中之一。
图7是依照本发明一实施例的一种语音处理方法的流程图。图7的方法流程是步骤330的预设条件其中之一的检验流程,图7的方法流程所检验的预设条件是声音讯号215的语音起始时间(VOT:voice onset time)必须符合画面中的人脸的嘴型轮廓的变动时间。步骤330可包括图7的方法流程,图7的方法流程可由处理器230执行。
以下说明图7的方法流程。首先,在步骤710检查声音讯号215是否包括语音讯号。如果声音讯号215不包括语音讯号,表示声音讯号215纯粹是环境噪音,因此流程进入步骤780,判定图7的方法流程所检验的预设条件不成立。如果声音讯号215包括语音讯号,则流程进入步骤720,取得声音讯号215的语音起始时间。
举例来说,在步骤710可对声音讯号215做语音起始时间检测(VOTdetection),以判断声音讯号215是否包括语音讯号。语音起始时间检测是现有技术,简单说,就是利用声音讯号的频谱特征,例如梅尔频率倒频谱系数(MFCCs:Mel-frequency cepstral coefficients)的分布、能量、过零率(zero-crossing rate)、以及基频轨迹(pitch contour)等等,检测一段声音讯号中的语音起始时间,以和一般非语音的声音讯号做区隔。如果声音讯号215包括语音讯号,上述的语音起始时间检测即可取得声音讯号215其中的语音起始时间。
以下继续说明图7的方法流程。在步骤730检测影片225其中是否有人脸。如果检测不到人脸,则流程进入步骤780,判定图7的方法流程所检验的预设条件不成立。如果有人脸,则在步骤740检测上述人脸是否有嘴型轮廓。例如可用主动形状模型(ASMs:active shape models)以及主动外观模型(AAMs:active appearance models)检测嘴型轮廓。主动形状模型和主动外观模型都是现有技术,细节不在此赘述。
若在步骤740检测不到嘴型轮廓,则流程进入步骤780,判定图7的方法流程所检验的预设条件不成立。反之,如果有嘴型轮廓,则在步骤750检测上述嘴型轮廓的变动时间。
嘴型轮廓的变动时间的检测可以如图8所示。在图8的范例中,使用者830出现在影片225的两个不同画面810和820。处理器230可检测使用者830的嘴型轮廓832在画面810和820之间的一个变动量,上述变动量可以是嘴型轮廓832的面积、高度或宽度的变动量。或者,处理器230可检测嘴型轮廓832的外接四边形834,并且以外接四边形834的面积、高度或宽度在画面810和820之间的变动量做为嘴型轮廓832的上述变动量。
如果嘴型轮廓832在画面810和820之间没有变动,或是嘴型轮廓832在画面810和820之间的上述变动量并未大于预设的临界值,则视为嘴型轮廓832没有变动,流程进入步骤780,判定图7的方法流程所检验的预设条件不成立。如果嘴型轮廓832在画面810和820之间的上述变动量大于预设的临界值,则可将嘴型轮廓832的变动时间设定为上述变动量大于预设临界值的时间,而且流程进入步骤760。
在图8的范例中,使用者830正在讲话,所以嘴型轮廓832和外接四边形834在画面810和820之间都有明显变动。如果声音讯号215是使用者830的语音指令,则声音讯号215的语音起始时间应该和嘴型轮廓832的变动时间同步。所以,可在步骤760检查声音讯号215的语音起始时间是否符合嘴型轮廓832的变动时间。如果符合,则在步骤770判定图7的方法流程所检验的预设条件成立,反之,则在步骤780判定图7的方法流程所检验的预设条件不成立。上述的符合是指声音讯号215的语音起始时间和嘴型轮廓832的变动时间的误差必须小于一个临界值,例如上述的时间误差必须小于0.2秒。这个时间误差的限制条件可以是步骤330所检验的预设条件其中之一。
图4、图5和图7的方法流程分别代表不同的预设条件的检验。步骤330所检验的预设条件可包括图4、图5和图7的预设条件其中的一个或多个预设条件。对于不符合预设条件的声音讯号,都可以视为环境噪音而予以排除。当步骤330所检验的预设条件全部成立,则可将声音讯号215视为使用者的语音,处理器230可以在步骤340对声音讯号215进行语音识别,以判断声音讯号215是否为语音指令。如果声音讯号215是语音指令,则处理器230可执行此语音指令。
综上所述,本发明提供的语音处理装置和语音处理方法,可使用一个或多个预设条件分辨来自使用者的语音和环境噪音,以排除环境噪音的干扰,以确保只对使用者的语音进行识别。
虽然本发明已以实施例揭示如上,然其并非用以限定本发明,本领域的技术人员,在不脱离本发明的精神和范围的前提下,可作些许的更动与润饰,故本发明的保护范围是以本发明的权利要求为准。

Claims (16)

1.一种语音处理装置,包括:
一收音器,接收一声音讯号;
一摄影机,拍摄一影片;以及
一处理器,耦接该收音器和该摄影机,取得该声音讯号的一语音起始时间,检测该影片中的一人脸,检测该人脸的嘴型轮廓的变动时间,检验至少一预设条件,并且在该至少一预设条件全部成立时对该声音讯号进行语音识别,其中该至少一预设条件包括该语音起始时间和该变动时间的误差小于一第一临界值。
2.如权利要求1所述的语音处理装置,其中该处理器检测该嘴型轮廓在该影片的两个画面之间的一变动量,并且将该变动时间设定为该变动量大于一第二临界值的时间。
3.如权利要求2所述的语音处理装置,其中该变动量为该嘴型轮廓的面积、高度或宽度的变动量。
4.如权利要求2所述的语音处理装置,其中该处理器检测该嘴型轮廓的外接四边形,而且该变动量为该外接四边形的面积、高度或宽度的变动量。
5.如权利要求1所述的语音处理装置,其中该处理器判断该声音讯号的声源方向,而且该至少一预设条件还包括该声源方向和一预设方向的角度误差小于一第三临界值。
6.如权利要求5所述的语音处理装置,其中该收音器包括一第一麦克风和一第二麦克风,该声音讯号包括一第一声音讯号和一第二声音讯号,该第一麦克风和该第二麦克风分别接收该第一声音讯号和该第二声音讯号,该处理器根据该第一声音讯号和该第二声音讯号的时间差或相位差判断该声源方向。
7.如权利要求1所述的语音处理装置,其中该处理器判断该声音讯号的声源方向,并根据一对照表将该人脸在该影片的画面中的位置转换为该人脸的方向,而且该至少一预设条件还包括该声源方向和该人脸的方向的角度误差小于一第四临界值。
8.如权利要求7所述的语音处理装置,其中该处理器记录该人脸在该影片的画面中的多个位置,以及每一上述位置所对应的该声源方向,以建立该对照表。
9.一种语音处理方法,包括:
接收一声音讯号;
取得该声音讯号的一语音起始时间;
拍摄一影片;
检测该影片中的一人脸;
检测该人脸的嘴型轮廓的变动时间;
检验至少一预设条件;以及
在该至少一预设条件全部成立时对该声音讯号进行语音识别,其中该至少一预设条件包括该语音起始时间和该变动时间的误差小于一第一临界值。
10.如权利要求9所述的语音处理方法,其中检测该变动时间的步骤包括:
检测该嘴型轮廓在该影片的两个画面之间的一变动量;以及
将该变动时间设定为该变动量大于一第二临界值的时间。
11.如权利要求10所述的语音处理方法,其中该变动量为该嘴型轮廓的面积、高度或宽度的变动量。
12.如权利要求10所述的语音处理方法,其中检测该嘴型轮廓的该变动量的步骤包括:
检测该嘴型轮廓的外接四边形,而且该变动量为该外接四边形的面积、高度或宽度的变动量。
13.如权利要求9所述的语音处理方法,还包括:
判断该声音讯号的声源方向,其中该至少一预设条件还包括该声源方向和一预设方向的角度误差小于一第三临界值。
14.如权利要求13所述的语音处理方法,其中该声音讯号包括一第一声音讯号和一第二声音讯号,而且判断该声源方向的步骤包括:
根据该第一声音讯号和该第二声音讯号的时间差或相位差判断该声源方向。
15.如权利要求9所述的语音处理方法,还包括:
判断该声音讯号的声源方向;以及
根据一对照表将该人脸在该影片的画面中的位置转换为该人脸的方向,其中该至少一预设条件还包括该声源方向和该人脸的方向的角度误差小于一第四临界值。
16.如权利要求15所述的语音处理方法,还包括:
记录该人脸在该影片的画面中的多个位置,以及每一上述位置所对应的该声源方向,以建立该对照表。
CN201310144427.4A 2013-04-11 2013-04-24 语音处理装置和语音处理方法 Active CN104103274B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW102112876A TWI502583B (zh) 2013-04-11 2013-04-11 語音處理裝置和語音處理方法
TW102112876 2013-04-11

Publications (2)

Publication Number Publication Date
CN104103274A true CN104103274A (zh) 2014-10-15
CN104103274B CN104103274B (zh) 2017-12-22

Family

ID=51671360

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310144427.4A Active CN104103274B (zh) 2013-04-11 2013-04-24 语音处理装置和语音处理方法

Country Status (3)

Country Link
US (1) US9520131B2 (zh)
CN (1) CN104103274B (zh)
TW (1) TWI502583B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820556A (zh) * 2015-05-06 2015-08-05 广州视源电子科技股份有限公司 唤醒语音助手的方法及装置
CN105869639A (zh) * 2016-03-21 2016-08-17 广东小天才科技有限公司 一种语音识别的方法及***
CN106297794A (zh) * 2015-05-22 2017-01-04 西安中兴新软件有限责任公司 一种语音文字的转换方法及设备
CN106356061A (zh) * 2016-10-24 2017-01-25 合肥华凌股份有限公司 基于声源定位的语音识别方法和***、及智能家电设备
CN107221324A (zh) * 2017-08-02 2017-09-29 上海木爷机器人技术有限公司 语音处理方法及装置
CN107678793A (zh) * 2017-09-14 2018-02-09 珠海市魅族科技有限公司 语音助手启动方法及装置、终端及计算机可读存储介质
CN112102546A (zh) * 2020-08-07 2020-12-18 浙江大华技术股份有限公司 一种人机交互控制方法、对讲呼叫方法及相关装置
CN115150712A (zh) * 2022-06-07 2022-10-04 中国第一汽车股份有限公司 一种车载麦克风***及汽车

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9686605B2 (en) * 2014-05-20 2017-06-20 Cisco Technology, Inc. Precise tracking of sound angle of arrival at a microphone array under air temperature variation
US20160284349A1 (en) * 2015-03-26 2016-09-29 Binuraj Ravindran Method and system of environment sensitive automatic speech recognition
CN106886161A (zh) * 2015-12-16 2017-06-23 美的集团股份有限公司 音箱的控制方法、***及音箱
CN107452381B (zh) * 2016-05-30 2020-12-29 ***通信有限公司研究院 一种多媒体语音识别装置及方法
CN110830708A (zh) * 2018-08-13 2020-02-21 深圳市冠旭电子股份有限公司 一种追踪摄像方法、装置及终端设备
CN110505127B (zh) * 2019-07-09 2021-09-28 青岛海信日立空调***有限公司 一种指令处理方法及装置
CN114783412B (zh) * 2022-04-21 2022-11-15 山东青年政治学院 一种西班牙语口语发音训练纠正方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200729083A (en) * 2006-01-23 2007-08-01 Univ Nat Kaohsiung 1St Univ Sc Auto-detection of continuous changes of lips on face
CN101101752A (zh) * 2007-07-19 2008-01-09 华中科技大学 基于视觉特征的单音节语言唇读识别***
US20080037837A1 (en) * 2004-05-21 2008-02-14 Yoshihiro Noguchi Behavior Content Classification Device
CN202110564U (zh) * 2011-06-24 2012-01-11 华南理工大学 结合视频通道的智能家居语音控制***

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6471420B1 (en) * 1994-05-13 2002-10-29 Matsushita Electric Industrial Co., Ltd. Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections
US6594629B1 (en) * 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
EP1443498B1 (en) * 2003-01-24 2008-03-19 Sony Ericsson Mobile Communications AB Noise reduction and audio-visual speech activity detection
JP4770178B2 (ja) 2005-01-17 2011-09-14 ソニー株式会社 カメラ制御装置、カメラシステム、電子会議システムおよびカメラ制御方法
US7680656B2 (en) * 2005-06-28 2010-03-16 Microsoft Corporation Multi-sensory speech enhancement using a speech-state model
TWI302609B (en) 2006-07-11 2008-11-01 Compal Electronics Inc Method for tracking vocal target
TWI396862B (zh) 2009-12-04 2013-05-21 Teco Elec & Machinery Co Ltd 聲源定位系統、方法及電腦可讀取儲存媒體
WO2013086027A1 (en) * 2011-12-06 2013-06-13 Doug Carson & Associates, Inc. Audio-video frame synchronization in a multimedia stream
WO2014032162A1 (en) * 2012-08-28 2014-03-06 Solink Corporation Transaction verification system
US9589357B2 (en) * 2013-06-04 2017-03-07 Intel Corporation Avatar-based video encoding

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080037837A1 (en) * 2004-05-21 2008-02-14 Yoshihiro Noguchi Behavior Content Classification Device
TW200729083A (en) * 2006-01-23 2007-08-01 Univ Nat Kaohsiung 1St Univ Sc Auto-detection of continuous changes of lips on face
CN101101752A (zh) * 2007-07-19 2008-01-09 华中科技大学 基于视觉特征的单音节语言唇读识别***
CN202110564U (zh) * 2011-06-24 2012-01-11 华南理工大学 结合视频通道的智能家居语音控制***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KOJI LWANO ETC: "Audio-Visual Speech Recognition Using Lip Information Extracted from Side-Face Images", 《EURASIP JOURNAL ON AUDIO, SPEECH, AND MUSIC PROCESSING》 *
谢兴甫: "《立体声原理》", 30 September 1981, 科学出版社 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104820556A (zh) * 2015-05-06 2015-08-05 广州视源电子科技股份有限公司 唤醒语音助手的方法及装置
CN106297794A (zh) * 2015-05-22 2017-01-04 西安中兴新软件有限责任公司 一种语音文字的转换方法及设备
CN105869639A (zh) * 2016-03-21 2016-08-17 广东小天才科技有限公司 一种语音识别的方法及***
CN106356061A (zh) * 2016-10-24 2017-01-25 合肥华凌股份有限公司 基于声源定位的语音识别方法和***、及智能家电设备
WO2018077149A1 (zh) * 2016-10-24 2018-05-03 合肥美的智能科技有限公司 基于声源定位的语音识别方法和***、及智能家电设备
CN107221324A (zh) * 2017-08-02 2017-09-29 上海木爷机器人技术有限公司 语音处理方法及装置
CN107678793A (zh) * 2017-09-14 2018-02-09 珠海市魅族科技有限公司 语音助手启动方法及装置、终端及计算机可读存储介质
CN112102546A (zh) * 2020-08-07 2020-12-18 浙江大华技术股份有限公司 一种人机交互控制方法、对讲呼叫方法及相关装置
CN115150712A (zh) * 2022-06-07 2022-10-04 中国第一汽车股份有限公司 一种车载麦克风***及汽车

Also Published As

Publication number Publication date
CN104103274B (zh) 2017-12-22
US9520131B2 (en) 2016-12-13
US20140309994A1 (en) 2014-10-16
TWI502583B (zh) 2015-10-01
TW201440036A (zh) 2014-10-16

Similar Documents

Publication Publication Date Title
CN104103274A (zh) 语音处理装置和语音处理方法
US10909988B2 (en) Systems and methods for displaying a user interface
CN104054039B (zh) 具有声音和几何分析的扩增现实
US9532140B2 (en) Listen to people you recognize
US20150088515A1 (en) Primary speaker identification from audio and video data
US20170154638A1 (en) Determining audio event based on location information
CN107210824A (zh) 麦克风的环境切换
TWI678696B (zh) 語音資訊的接收方法、系統及裝置
CN105550637A (zh) 轮廓点定位方法及装置
CN110688957A (zh) 应用于人脸识别的活体检测方法、装置及存储介质
US11790900B2 (en) System and method for audio-visual multi-speaker speech separation with location-based selection
KR20120072244A (ko) 디바이스 제어를 위한 제스처/음향 융합 인식 시스템 및 방법
CN110825446A (zh) 参数配置方法、装置、存储介质及电子设备
CN109284081A (zh) 一种音频的输出方法、装置及音频设备
CN111370025A (zh) 音频识别方法、装置及计算机存储介质
CN107403144A (zh) 嘴巴定位方法及装置
US8837778B1 (en) Pose tracking
US9190061B1 (en) Visual speech detection using facial landmarks
CN103019478B (zh) 基于曲面显示的触控装置和触控检测方法
CN116129526A (zh) 合拍控制方法、装置、电子设备及存储介质
US9456187B1 (en) Edge-based pose detection
CN114089945A (zh) 音量实时调整方法、电子设备及可读存储介质
CN112055119B (zh) 识别障碍物的终端、方法、装置及存储介质
US11315265B2 (en) Fingertip detection method, fingertip detection device, and medium
TWI687917B (zh) 語音系統及聲音偵測方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant