CN104103274A

CN104103274A - 语音处理装置和语音处理方法

Info

Publication number: CN104103274A
Application number: CN201310144427.4A
Authority: CN
Inventors: 萧希群; 魏守德
Original assignee: Wistron Corp
Current assignee: Wistron Corp
Priority date: 2013-04-11
Filing date: 2013-04-24
Publication date: 2014-10-15
Anticipated expiration: 2033-04-24
Also published as: CN104103274B; US9520131B2; US20140309994A1; TWI502583B; TW201440036A

Abstract

一种语音处理装置与其对应的语音处理方法。上述语音处理装置包括收音器、摄影机、以及处理器。收音器接收声音讯号。摄影机拍摄影片。处理器耦接收音器和摄影机，取得声音讯号的语音起始时间，检测影片中的人脸，检测人脸的嘴型轮廓的变动时间，并检验至少一个预设条件。在上述至少一个预设条件全部成立时，处理器对上述声音讯号进行语音识别。其中，上述的至少一个预设条件包括上述语音起始时间和上述变动时间的误差小于一临界值。

Description

语音处理装置和语音处理方法

技术领域

本发明涉及一种语音处理装置和语音处理方法，特别是涉及分辨来自使用者的语音和环境噪音。

背景技术

语音识别(speech recognition)的技术，是在麦克风接收使用者的语音指令后，利用处理器将指令的声音讯号与内建数据库比对，输出最接近的结果。

目前语音识别的技术，在无环境噪音的情况下，能够正确识别语音指令。问题是接收的声音无法控制，也就是说，不管是使用者的指令或者环境噪音，都会被接收而识别。如图1所示，电视120可通过麦克风130接收使用者140的语音指令145。但是麦克风130不仅接收使用者140的语音指令145，也接收电视120本身发出的经由墙壁110反弹的声音讯号125，以及路人150的语音155。电视120发出的声音讯号125和路人150的语音155都是环境噪音。

在一般有环境噪音的情况下，语音指令可能受到环境噪音的混杂和干扰，是否能识别还是未知数。尤其是路人的语音和使用者的语音指令更难以分辨，这也是造成识别错误的主因之一。

可知环境噪音的干扰，在语音识别领域是亟待解决的重要问题。

发明内容

本发明提供一种语音处理装置和语音处理方法，可利用声音和影片定位语音来源，以排除环境噪音的干扰，正确识别使用者的语音指令。

本发明的语音处理装置包括收音器、摄影机、以及处理器。收音器接收声音讯号。摄影机拍摄影片。处理器耦接收音器和摄影机，取得声音讯号的语音起始时间，检测影片中的人脸，检测人脸的嘴型轮廓的变动时间，并检验至少一个预设条件。在上述至少一个预设条件全部成立时，处理器对上述声音讯号进行语音识别。其中，上述的至少一个预设条件包括上述语音起始时间和上述变动时间的误差小于一临界值。

本发明的语音处理方法包括下列步骤：接收声音讯号；取得声音讯号的语音起始时间；拍摄影片；检测影片中的人脸；检测人脸的嘴型轮廓的变动时间；检验至少一个预设条件；以及在上述至少一个预设条件全部成立时，对上述声音讯号进行语音识别。其中，上述的至少一个预设条件包括上述语音起始时间和上述变动时间的误差小于一临界值。

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并结合附图详细说明如下。

附图说明

图1是现有的环境噪音的干扰示意图。

图2是依照本发明一实施例的一种语音处理装置的示意图。

图3、图4和图5是依照本发明一实施例的一种语音处理方法的流程图。

图6是依照本发明一实施例的判断声源方向的示意图。

图7是依照本发明一实施例的一种语音处理方法的流程图。

图8是依照本发明一实施例的检测嘴型轮廓变动的示意图。

附图符号说明

110：墙壁

120：电视

125：声音讯号

130：麦克风

140：使用者

145：语音指令

150：路人

155：语音

200：语音处理装置

210：收音器

215：声音讯号

220：摄影机

225：影片

230：处理器

310～340、410～440、510～560：方法步骤

610：画面

620：人脸

630：使用者

631、632：声音讯号

635：时间差或相位差

636：方向角度

650：语音处理装置的前方表面

651、652：麦克风

710～780：方法步骤

810、820：画面

830：人脸

832：嘴型轮廓

834：外接四边形

具体实施方式

图2是依照本发明一实施例的一种语音处理装置200的示意图。语音处理装置200可以是任何一种可接受使用者的语音指令操作的电子装置，例如智能型手机、个人数字助理(PDA:personal digital assistant)、平板计算机(tabletcomputer)、笔记型计算机、个人计算机、或各种智能型家电。语音处理装置200包括收音器210、摄影机220、以及处理器230。处理器230耦接收音器210和摄影机220。

图3是依照本发明一实施例的一种语音处理方法的流程图，此方法可由语音处理装置200执行。收音器210在步骤310接收声音讯号215。摄影机220在步骤320拍摄一段影片225。处理器230在步骤330检验至少一个预设条件，这些预设条件和声音讯号215以及影片225相关。如果上述的至少一个预设条件全部成立，则处理器230在步骤340对声音讯号215进行语音识别。

图4是依照本发明一实施例的一种语音处理方法的流程图。图4的方法流程是步骤330的预设条件其中之一的检验流程，图4的方法流程所检验的预设条件是声音讯号215必须来自预设方向。步骤330可包括图4的方法流程，图4的方法流程可由处理器230执行。

以下说明图4的方法流程。首先，在步骤410判断声音讯号215的声源方向（或称为方向角度），至于如何判断声源方向，在图6有进一步说明。在步骤420检查声源方向是否符合预设方向。如果符合，则在步骤430判定图4的方法流程所检验的预设条件成立，反之，则在步骤440判定图4的方法流程所检验的预设条件不成立。

此处的预设方向，是根据预想中使用者操作语音处理装置200时所在的位置。例如，当语音处理装置200是一台电视，则进行操作的使用者会在电视前面，因此上述的预设方向可设定为电视正前方。上述的符合是指声音讯号215的声源方向和上述预设方向的角度误差必须小于一个临界值，例如上述的角度误差必须小于五度。这个角度误差的限制条件可以是步骤330所检验的预设条件其中之一。

图5是依照本发明一实施例的一种语音处理方法的流程图。图5的方法流程是步骤330的预设条件其中之一的检验流程，图5的方法流程所检验的预设条件是声音讯号215的声源方向必须符合使用者的人脸所在的方向。步骤330可包括图5的方法流程，图5的方法流程可由处理器230执行。

以下说明图5的方法流程。首先，在步骤510判断声音讯号215的声源方向，至于声源方向如何判断则如图6所示。声音讯号215来自使用者630，声音讯号215包括两个声音讯号631和632。语音处理装置200的前方表面标示为650。收音器210包括两个麦克风651和652，麦克风651和652分别接收声音讯号631和632。处理器230可根据声音讯号631和632的时间差或相位差635判断声音讯号215的方向角度636。

例如，处理器230可将麦克风651和652所收到的声音讯号631和632作讯号平移，检测声音讯号631和632其中两个最强讯号交迭的时间点，计算此时的平移量可得到声音讯号631和632的时间差或相位差635，进而得到声音讯号215的方向角度636。根据多个声音讯号的时间差或相位差计算声源方向已经是现有技术，细节就不在此赘述。

接下来，在步骤520检测影片225的画面中是否有人脸，这个人脸可能属于使用者。在影片画面中检测人脸已经是现有技术，例如可采用动态检测(motion detection)、肤色检测(skin color detection)、或模型检测(model detection)等方式截取画面中人脸的位置，细节就不在此赘述。如果没检测到人脸，则流程进入步骤560，判定图5的方法流程所检验的预设条件不成立。如果检测到人脸，例如图6所示在影片225的画面610的中检测到人脸620，则在步骤530根据一个对照表将人脸在影片的画面中的位置转换为该人脸的方向。例如图6所示，人脸620属于使用者630，人脸620的方向角度为636。

上述的对照表可以预先制作，例如将一个物品和语音处理装置200之间的距离限定为固定的预设距离（例如是3公尺），在此前提下，将此物品摆放在对应于收音器210的多个不同角度之处，比较不同角度的物品于画面上所在的不同位置，再将这些画面位置与方向角度的对应关系记录下来，就能建立方向角度与画面位置的对照表。

或者，语音处理装置200可提供一个校正程序。在此校正程序中，使用者分别在多个可以操作语音处理装置200的位置发出声音，处理器230可判断声源方向，记录使用者在每一个上述位置时，使用者的人脸在影片225的画面中的位置，以及每一个画面位置所对应的声音讯号215的声源方向，然后可依据画面位置与声源方向的对应关系建立对照表。

上述对照表记录多个不同的画面位置，以及每个画面位置所对应的方向。所以步骤530可将人脸出现在画面中的位置转换为对应的人脸方向。如果使用者正在讲话，则使用者的人脸方向应该和声源方向相同。所以，可在步骤540检查声音讯号215的声源方向是否符合人脸方向。如果符合，则在步骤550判定图5的方法流程所检验的预设条件成立，反之，则在步骤560判定图5的方法流程所检验的预设条件不成立。上述的符合是指声音讯号215的声源方向和上述人脸方向的角度误差必须小于一个临界值，例如上述的角度误差必须小于五度。这个角度误差的限制条件可以是步骤330所检验的预设条件其中之一。

图7是依照本发明一实施例的一种语音处理方法的流程图。图7的方法流程是步骤330的预设条件其中之一的检验流程，图7的方法流程所检验的预设条件是声音讯号215的语音起始时间(VOT:voice onset time)必须符合画面中的人脸的嘴型轮廓的变动时间。步骤330可包括图7的方法流程，图7的方法流程可由处理器230执行。

以下说明图7的方法流程。首先，在步骤710检查声音讯号215是否包括语音讯号。如果声音讯号215不包括语音讯号，表示声音讯号215纯粹是环境噪音，因此流程进入步骤780，判定图7的方法流程所检验的预设条件不成立。如果声音讯号215包括语音讯号，则流程进入步骤720，取得声音讯号215的语音起始时间。

举例来说，在步骤710可对声音讯号215做语音起始时间检测(VOTdetection)，以判断声音讯号215是否包括语音讯号。语音起始时间检测是现有技术，简单说，就是利用声音讯号的频谱特征，例如梅尔频率倒频谱系数(MFCCs:Mel-frequency cepstral coefficients)的分布、能量、过零率(zero-crossing rate)、以及基频轨迹(pitch contour)等等，检测一段声音讯号中的语音起始时间，以和一般非语音的声音讯号做区隔。如果声音讯号215包括语音讯号，上述的语音起始时间检测即可取得声音讯号215其中的语音起始时间。

以下继续说明图7的方法流程。在步骤730检测影片225其中是否有人脸。如果检测不到人脸，则流程进入步骤780，判定图7的方法流程所检验的预设条件不成立。如果有人脸，则在步骤740检测上述人脸是否有嘴型轮廓。例如可用主动形状模型(ASMs:active shape models)以及主动外观模型(AAMs:active appearance models)检测嘴型轮廓。主动形状模型和主动外观模型都是现有技术，细节不在此赘述。

若在步骤740检测不到嘴型轮廓，则流程进入步骤780，判定图7的方法流程所检验的预设条件不成立。反之，如果有嘴型轮廓，则在步骤750检测上述嘴型轮廓的变动时间。

嘴型轮廓的变动时间的检测可以如图8所示。在图8的范例中，使用者830出现在影片225的两个不同画面810和820。处理器230可检测使用者830的嘴型轮廓832在画面810和820之间的一个变动量，上述变动量可以是嘴型轮廓832的面积、高度或宽度的变动量。或者，处理器230可检测嘴型轮廓832的外接四边形834，并且以外接四边形834的面积、高度或宽度在画面810和820之间的变动量做为嘴型轮廓832的上述变动量。

如果嘴型轮廓832在画面810和820之间没有变动，或是嘴型轮廓832在画面810和820之间的上述变动量并未大于预设的临界值，则视为嘴型轮廓832没有变动，流程进入步骤780，判定图7的方法流程所检验的预设条件不成立。如果嘴型轮廓832在画面810和820之间的上述变动量大于预设的临界值，则可将嘴型轮廓832的变动时间设定为上述变动量大于预设临界值的时间，而且流程进入步骤760。

在图8的范例中，使用者830正在讲话，所以嘴型轮廓832和外接四边形834在画面810和820之间都有明显变动。如果声音讯号215是使用者830的语音指令，则声音讯号215的语音起始时间应该和嘴型轮廓832的变动时间同步。所以，可在步骤760检查声音讯号215的语音起始时间是否符合嘴型轮廓832的变动时间。如果符合，则在步骤770判定图7的方法流程所检验的预设条件成立，反之，则在步骤780判定图7的方法流程所检验的预设条件不成立。上述的符合是指声音讯号215的语音起始时间和嘴型轮廓832的变动时间的误差必须小于一个临界值，例如上述的时间误差必须小于0.2秒。这个时间误差的限制条件可以是步骤330所检验的预设条件其中之一。

图4、图5和图7的方法流程分别代表不同的预设条件的检验。步骤330所检验的预设条件可包括图4、图5和图7的预设条件其中的一个或多个预设条件。对于不符合预设条件的声音讯号，都可以视为环境噪音而予以排除。当步骤330所检验的预设条件全部成立，则可将声音讯号215视为使用者的语音，处理器230可以在步骤340对声音讯号215进行语音识别，以判断声音讯号215是否为语音指令。如果声音讯号215是语音指令，则处理器230可执行此语音指令。

综上所述，本发明提供的语音处理装置和语音处理方法，可使用一个或多个预设条件分辨来自使用者的语音和环境噪音，以排除环境噪音的干扰，以确保只对使用者的语音进行识别。

虽然本发明已以实施例揭示如上，然其并非用以限定本发明，本领域的技术人员，在不脱离本发明的精神和范围的前提下，可作些许的更动与润饰，故本发明的保护范围是以本发明的权利要求为准。

Claims

1.一种语音处理装置，包括：

一收音器，接收一声音讯号；

一摄影机，拍摄一影片；以及

一处理器，耦接该收音器和该摄影机，取得该声音讯号的一语音起始时间，检测该影片中的一人脸，检测该人脸的嘴型轮廓的变动时间，检验至少一预设条件，并且在该至少一预设条件全部成立时对该声音讯号进行语音识别，其中该至少一预设条件包括该语音起始时间和该变动时间的误差小于一第一临界值。

2.如权利要求1所述的语音处理装置，其中该处理器检测该嘴型轮廓在该影片的两个画面之间的一变动量，并且将该变动时间设定为该变动量大于一第二临界值的时间。

3.如权利要求2所述的语音处理装置，其中该变动量为该嘴型轮廓的面积、高度或宽度的变动量。

4.如权利要求2所述的语音处理装置，其中该处理器检测该嘴型轮廓的外接四边形，而且该变动量为该外接四边形的面积、高度或宽度的变动量。

5.如权利要求1所述的语音处理装置，其中该处理器判断该声音讯号的声源方向，而且该至少一预设条件还包括该声源方向和一预设方向的角度误差小于一第三临界值。

6.如权利要求5所述的语音处理装置，其中该收音器包括一第一麦克风和一第二麦克风，该声音讯号包括一第一声音讯号和一第二声音讯号，该第一麦克风和该第二麦克风分别接收该第一声音讯号和该第二声音讯号，该处理器根据该第一声音讯号和该第二声音讯号的时间差或相位差判断该声源方向。

7.如权利要求1所述的语音处理装置，其中该处理器判断该声音讯号的声源方向，并根据一对照表将该人脸在该影片的画面中的位置转换为该人脸的方向，而且该至少一预设条件还包括该声源方向和该人脸的方向的角度误差小于一第四临界值。

8.如权利要求7所述的语音处理装置，其中该处理器记录该人脸在该影片的画面中的多个位置，以及每一上述位置所对应的该声源方向，以建立该对照表。

9.一种语音处理方法，包括：

接收一声音讯号；

取得该声音讯号的一语音起始时间；

拍摄一影片；

检测该影片中的一人脸；

检测该人脸的嘴型轮廓的变动时间；

检验至少一预设条件；以及

在该至少一预设条件全部成立时对该声音讯号进行语音识别，其中该至少一预设条件包括该语音起始时间和该变动时间的误差小于一第一临界值。

10.如权利要求9所述的语音处理方法，其中检测该变动时间的步骤包括：

检测该嘴型轮廓在该影片的两个画面之间的一变动量；以及

将该变动时间设定为该变动量大于一第二临界值的时间。

11.如权利要求10所述的语音处理方法，其中该变动量为该嘴型轮廓的面积、高度或宽度的变动量。

12.如权利要求10所述的语音处理方法，其中检测该嘴型轮廓的该变动量的步骤包括：

检测该嘴型轮廓的外接四边形，而且该变动量为该外接四边形的面积、高度或宽度的变动量。

13.如权利要求9所述的语音处理方法，还包括：

判断该声音讯号的声源方向，其中该至少一预设条件还包括该声源方向和一预设方向的角度误差小于一第三临界值。

14.如权利要求13所述的语音处理方法，其中该声音讯号包括一第一声音讯号和一第二声音讯号，而且判断该声源方向的步骤包括：

根据该第一声音讯号和该第二声音讯号的时间差或相位差判断该声源方向。

15.如权利要求9所述的语音处理方法，还包括：

判断该声音讯号的声源方向；以及

根据一对照表将该人脸在该影片的画面中的位置转换为该人脸的方向，其中该至少一预设条件还包括该声源方向和该人脸的方向的角度误差小于一第四临界值。

16.如权利要求15所述的语音处理方法，还包括：

记录该人脸在该影片的画面中的多个位置，以及每一上述位置所对应的该声源方向，以建立该对照表。