CN109448711A

CN109448711A - 一种语音识别的方法、装置及计算机存储介质

Info

Publication number: CN109448711A
Application number: CN201811238626.0A
Authority: CN
Inventors: 刘健军; 王慧君; 秦萍
Original assignee: Gree Electric Appliances Inc of Zhuhai
Current assignee: Gree Electric Appliances Inc of Zhuhai
Priority date: 2018-10-23
Filing date: 2018-10-23
Publication date: 2019-03-08

Abstract

本发明公开了一种语音识别的方法、装置及计算机存储介质，用以解决现有技术中存在的语音的识别率较低、不够方便快捷的技术问题。该方法包括：在通过语音采集装置采集用户语音时，通过图像采集装置采集用户面部图像；基于用户语音及用户面部图像，用预测模型预测用户语音对应的预测语音；其中，预测模型是由每个控制指令对应的不同人群的语音及对应的面部图像训练得到的；基于预测语音，从语音数据库中匹配出与控制指令对应的语音音频标准数据；其中，语音数据库为控制指令与对应的语音音频标准数据的映射关系；通过匹配模型计算用户语音与语音音频标准数据的匹配度，当匹配度达到设定阈值时根据语音音频标准数据对应的控制指令控制智能家居设备。

Description

一种语音识别的方法、装置及计算机存储介质

技术领域

本发明涉及智能家居领域，尤其是涉及一种语音识别的方法、装置及计算机存储介质。

背景技术

随着科学技术的发展，语音识别技术在智能家居领域中的应用越来越广泛。

例如，用户可以通过向智能家居设备发送语音指令，使智能家居设备工作。如，用户对智能空调说“开机”，智能空调能够通过语音识别技术识别用户的语音指令，进而执行开机动作。

然而，在智能家居设备中使用语音识别技术对智能家居设备进行控制的过程中，由于用户发出的语音容易受到噪音、距离等因素的影响，从而降低了语音的识别率，进而使智能家居设备并不能完全按照用户的语音指令执行相应的动作。

在现有技术中，为了提高语音识别率通常会对采集到的用户语音进行降噪处理，常见的处理方法有两种，一种是对采集到的用户语音进行分段处理(包括降噪、增加增益等)，进而提取出有效的语音信息进行算法识别；另一种是使用端对端的深度学习算法对用户语音进行训练学习，得到语音识别模型，用语音识别模型识别用户语音。

但这两种方法对语音识别率的提高都十分有限，且在训练语音识别模型时需要较多的时间，从而将降低用户体验。

鉴于此，如何方便、快捷且有效的提高语音的识别率，成为一个亟待解决的技术问题。

发明内容

本发明提供一种语音识别的方法、装置及计算机存储介质，用以解决现有技术中存在的语音的识别率较低、不够方便快捷的技术问题。

第一方面，为解决上述技术问题，本发明实施例提供的一种语音识别的方法，应用于智能家居设备，该方法的技术方案如下：

在通过语音采集装置采集用户语音时，通过图像采集装置采集用户面部图像；

基于所述用户语音及所述用户面部图像，用预测模型预测所述用户语音对应的预测语音；其中，所述预测模型是由每个控制指令对应的不同人群的语音及对应的标准面部图像训练得到的，使所述预测模型对不同人群针对同一控制指令发出的语音及呈现的面部图像进行预测后能输出与所述同一控制指令对应的标准语音相似的语音；

基于所述预测语音，从语音数据库中匹配出与所述控制指令对应的语音音频标准数据；其中，所述语音数据库为所述智能家居设备的控制指令与对应的语音音频标准数据的映射关系；

通过匹配模型计算所述用户语音与所述语音音频标准数据的匹配度度，当所述匹配度达到设定阈值时，根据所述语音音频标准数据对应的控制指令控制所述智能家居设备。

通过智能家居设备通过语音采集装置采集用户语音时，同时通过图像采集装置采集用户面部图像；并基于采集到的用户语音及用户面部图像，用预测模型预测用户语音对应的预测语音；其中，预测模型是由每个控制指令对应的不同人群的语音及对应的标准面部图像训练得到的，使预测模型对不同人群针对同一控制指令发出的语音及呈现的面部图像进行预测后能输出与同一控制指令对应的标准语音相似的语音；之后，再基于预测语音，从语音数据库中匹配出与控制指令对应的语音音频标准数据；其中，语音数据库为智能家居设备的控制指令与对应的语音音频标准数据的映射关系；最后，通过匹配模型计算用户语音与语音音频标准数据的匹配度，当匹配度达到设定阈值时，根据语音音频标准数据对应的控制指令控制智能家居设备。从而让智能家居设备能够快捷方便的提高语音的识别率，减少因语音识别不正确而引起的误动作、提高用户体验。

优选的，基于所述用户语音及所述用户面部图像，用预测模型预测所述用户语音对应的预测语音，包括：

通过所述预测模型中的语音识别技术从所述用户语音中，识别出所述用户语音对应的第一控制指令集；

基于所述用户面部图像从所述预测模型中的面部图像数据库中，获得与所述用户面部图像相对应的第二控制指令集；其中，所述面部图像数据库为控制指令与标准用户表情和/或标准用户唇形的映射关系；

对所述第一控制指令集与所述第二控制指令集中的每条控制指令进行逐一匹配，将匹配度最高的控制指令对应的音频数据作为所述预测语音。

优选的，基于所述用户面部图像从所述预测模型中的面部图像数据库中，获得与所述用户面部图像相对应的第二控制指令集，包括：

从所述用户面部图像中提取对应的用户表情和/或用户唇形，获得用户表情数据和/或用户唇型数据；

基于所述用户表情数据和/或用户唇型数据，从所述面部图像数据库中获得所述第二控制指令集。

优选的，计算所述用户语音与所述语音音频标准数据的相似度之后，还包括：

若所述相似度不能达到所述设定阈值，通过预设提示信息指示用户将重新采集用户语音；其中，所述预设提示信息为声和/或光提示信息。

第二方面，本发明实施例提供了一种用于语音识别的装置，应用于智能家居设备，该装置包括：

采集单元，用于在通过语音采集装置采集用户语音时，通过图像采集装置采集用户面部图像；

预测单元，用于基于所述用户语音及所述用户面部图像，用预测模型预测所述用户语音对应的预测语音；其中，所述预测模型是由每个控制指令对应的不同人群的语音及对应的面部图像训练得到的，使所述预测模型对不同人群针对同一控制指令发出的语音及呈现的面部图像进行预测后能输出与所述同一控制指令对应的标准语音相似的语音；

获取单元，用于基于所述预测语音，从语音数据库中匹配出与所述控制指令对应的语音音频标准数据；其中，所述语音数据库为所述智能家居设备的控制指令与对应的语音音频标准数据的映射关系；

计算单元，用于通过匹配模型计算所述用户语音与所述语音音频标准数据的匹配度，当所述匹配度达到设定阈值时，根据所述语音音频标准数据对应的控制指令控制所述智能家居设备。

优选的，所述预测单元具体用于：

优选的，所述预测单元还用于：

优选的，所述计算单元还用于：

第三方面，本发明实施例还提供一种用于语音识别的装置，应用于智能家居设备，该装置包括：

至少一个处理器，以及

与所述至少一个处理器连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令，执行如上述第一方面所述的方法。

第四方面，本发明实施例还提供一种计算机可读存储介质，包括：

所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如上述第一方面所述的方法。

通过本发明实施例的上述一个或多个实施例中的技术方案，本发明实施例至少具有如下技术效果：

在本发明提供的实施例中，通过智能家居设备通过语音采集装置采集用户语音时，同时通过图像采集装置采集用户面部图像；并基于采集到的用户语音及用户面部图像，用预测模型预测用户语音对应的预测语音；其中，预测模型是由每个控制指令对应的不同人群的语音及对应的面部图像训练得到的，使所述预测模型对不同人群针对同一控制指令发出的语音及呈现的面部图像进行预测后能输出与所述同一控制指令对应的标准语音相似的语音；之后，再基于预测语音，从语音数据库中匹配出与控制指令对应的语音音频标准数据；其中，语音数据库为智能家居设备的控制指令与对应的语音音频标准数据的映射关系；最后，通过匹配模型计算用户语音与语音音频标准数据的匹配度，当相匹配达到设定阈值时，根据语音音频标准数据对应的控制指令控制智能家居设备。从而让智能家居设备能够快捷方便的提高语音的识别率，减少因语音识别不正确而引起的误动作、提高用户体验。

附图说明

图1为本发明实施例提供的一种语音识别方法的流程图；

图2为本发明实施例提供的空调进行语音识别的示意图；

图3为本发明实施例提供的获得第二控制指令集的示意图；

图4为本发明实施例提供的一种语音识别装置的结构示意图。

具体实施方式

本发明实施列提供一种语音识别的方法、装置及计算机存储介质，以解决现有技术中存在的语音的识别率较低、不够方便快捷的技术问题。

本申请实施例中的技术方案为解决上述的技术问题，总体思路如下：

提供一种语音识别的方法，包括：在通过语音采集装置采集用户语音时，通过图像采集装置采集用户面部图像；基于用户语音及用户面部图像，用预测模型预测用户语音对应的预测语音；其中，预测模型是由每个控制指令对应的不同人群的语音及对应的面部图像训练得到的，使预测模型对不同人群针对同一控制指令发出的语音及呈现的面部图像进行预测后能输出与同一控制指令对应的标准语音相似的语音；基于预测语音，从语音数据库中匹配出与控制指令对应的语音音频标准数据；其中，语音数据库为智能家居设备的控制指令与对应的语音音频标准数据的映射关系；通过匹配模型计算用户语音与语音音频标准数据的匹配度，当匹配度达到设定阈值时，根据语音音频标准数据对应的控制指令控制智能家居设备。

由于在上述方案中，在智能家居设备通过语音采集装置采集用户语音时，同时通过图像采集装置采集用户面部图像；并基于采集到的用户语音及用户面部图像，用预测模型预测用户语音对应的预测语音；其中，预测模型是由每个控制指令对应的不同人群的语音及对应的面部图像训练得到的，使预测模型对不同人群针对同一控制指令发出的语音及呈现的面部图像进行预测后能输出与同一控制指令对应的标准语音相似的语音；之后，再基于预测语音，从语音数据库中匹配出与控制指令对应的语音音频标准数据；其中，语音数据库为智能家居设备的控制指令与对应的语音音频标准数据的映射关系；最后，通过匹配模型计算用户语音与语音音频标准数据的匹配度，当匹配度达到设定阈值时，根据语音音频标准数据对应的控制指令控制智能家居设备。从而让智能家居设备能够快捷方便的提高语音的识别率，减少因语音识别不正确而引起的误动作、提高用户体验。

为了更好的理解上述技术方案，下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明，而不是对本发明技术方案的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互组合。

请参考图1，本发明实施例提供一种语音识别的方法，应用于智能家居设备，该方法的处理过程如下。

步骤101：在通过语音采集装置采集用户语音时，通过图像采集装置采集用户面部图像。

在智能家居设备如智能空调、智能电视等，在用语音对它们进行控制时，由于距离智能家居设备较远、或用户使用语音时还存在其它噪音如开门关门的声音，洗衣机洗衣服时发出的噪音等，使得用户要控制的智能家居设备不能准确的识别用户语音对应的指令。

为此，本发明提供的实施例中，通过让智能家居设备在使用语音装置采集用户语音时，还使用图像采集装置采集用户面部表情，使得智能家居设备可以通过对用户语音与用户面部表情进行综合分析、判断，确定用户语音对应的正确的指令来控制智能家居设备按照指令进行工作。

其中，语音采集装置可以是麦克风、麦克风阵列等，语音采集装置可以是智能家居设备的组成部分，也可以是外置的语音采集装置，还可以是智能手机上的麦克风，外置的语音采集装置可以通过有线的方式与智能家居设备进行通信，也可以通过无线的方式与智能家居设备进行通信，具体不做限定。

图像采集装置可以是摄像头、CCD传感器、相机等，图像采集装置可以是智能家居设备的组成部分，也可以是外置的图像采集装置，还可以是智能手机上的摄像头，外置的图像采集装置可以通过有线的方式与智能家居设备进行通信，也可以通过无线的方式与智能家居设备进行通信，具体不做限定。

在通过语音采集装置和图像采集装置采集到用户语音和用户面部图像之后，便可执行步骤102。

步骤102：基于用户语音及用户面部图像，用预测模型预测所述用户语音对应的预测语音；其中，预测模型是由每个控制指令对应的不同人群的语音及对应的面部图像训练得到的，使预测模型对不同人群针对同一控制指令发出的语音及呈现的面部图像进行预测后能输出与同一控制指令对应的标准语音相似的语音。

其中，预测模型可以通过不同人群的语音及对应的面部图像训练得到，智能家居设备中使用的预测模型是训练好的模型。

例如，以智能空调为例，假设要训练“开空调”的预测语音，可以让分别让不同的人群如男士、女士、小孩老人读“开空调”，在不同人群读“开空调”时同时采集对应人群发出的声音(音频数据)及发声时的面部图像，将获得与开空调指令对应的标准音频和标准图像相似度为90％的音频数据和面部图像。用户使用时，通过用上述训练好的预测模型采集用户语音和面部图像后，便可直接输出相似语音。

进一步的，为了适应各个地方的方言，还可以用各个地方的不同人群用当地方言读控制指令，采集对应的音频数据及读指令时的面部图像对预测模型进行训练的与训练的控制指令对应的相似的语音及面部图像，训练过程与上面的过程相似，在此不再赘述。

具体的，基于用户语音及用户面部图像，用预测模型预测所述用户语音对应的预测语音，可以通过以下过程实现：

首先，通过预测模型中的语音识别技术从用户语音中，识别出用户语音对应的第一控制指令集。

其次，基于用户面部图像从预测模型中的面部图像数据库中，获得与用户面部图像相对应的第二控制指令集；其中，面部图像数据库为控制指令与标准用户表情和/或标准用户唇形的映射关系。

具体的，可以是先从用户面部图像中提取对应的用户表情和/或用户唇形，获得用户表情数据和/或用户唇型数据；再基于用户表情数据和/或用户唇型数据，从面部图像数据库中获得第二控制指令集。

最后，对第一控制指令集与第二控制指令集中的每条控制指令进行逐一匹配，将匹配度最高的控制指令对应的音频数据作为预测语音。

例如，请参见图2，以智能家居设备是空调为例，该空调使用的图像采集装置为外置的摄像头，在用户说“开空调”时，在空调通过语音采集装置采集用户语音的同时，还控制摄像头采集用户面部图像。其中，在用户发出“开空调”的语音时，由于洗衣机正在工作，所以产生了噪音1，由于另一家庭成员正在叫孩子不要看电视，而发出了噪音2“关掉电视！”，所以在空调获得的用户语音中除了“开空调”的语音之外，还混杂了洗衣机的噪音1及其它语音噪音2“关掉电视！”。

在空调获得用户面部图像和用户语音后，通过内置的预测模型从用户语音中识别出用户语音对应的第一控制指令集：“开机”指令和“关机”指令；同时，从用户面部图像中提取对应的用户唇形，并将提取的用户唇形与面部图像数据库中的唇形数据进行逐一比对，确定每个唇形对应的字，进而确定出这些唇形对应的识别词(识别词1为开空调，识别词2为爱空调)，然后根据预测模型中识别词与空调指令的对应关系，确定每个识别词对应的空调控制指令，进而获得与用户面部图像对应的第二控制指令集中的指令1“开机”和指令2“自动清洁”，具体请参见图3。

在获得用户语音对应的第一控制指令集“开机”和“关机”，以及用户面部图像对应的第二控制指令集“开机”和“自动清洁”之后，对第一控制指令集与第二控制指令集中的每条控制指令进行逐一匹配，将匹配度最高的控制指令(即“开机”指令)对应的音频数据作为预测语音。

需要说明的是，上述实施例，只是以从用户面部图像中提取唇形为例，在实际使用中，还可以参考用户的面部表情、肢体动作等来对用户语音对应的控制指令进行辅助识别，提高用户语音识别的准确度。

在智能家居设备预测出用户语音对应的预测语音之后，便可执行步骤103-104。

步骤103：基于预测语音，从语音数据库中匹配出与控制指令对应的语音音频标准数据；其中，语音数据库为智能家居设备的控制指令与对应的语音音频标准数据的映射关系。

步骤104：通过匹配模型计算用户语音与语音音频标准数据的匹配度，当匹配度达到设定阈值时，根据语音音频标准数据对应的控制指令控制智能家居设备。

在智能家居设备预测出用户语音对应的预测语音之后，还需要进一步的验证预测的结果是否正确，具体的可以根据预测语音，从存储了智能家居设备的控制指令与对应的语音标准数据的映射关系的语音数据库中，获取与控制指令对应的语音音频标准数据，并通过计算用户语音与语音音频标准数据的相似度来验证预测的预测语音是否正确，具体可以是当相似度达到设定阈值如90％时，确定预测的预测语音正确，否则不正确。

若预测的预测语音正确，则根据语音音频标准数据对应的控制指令控制智能家居设备。

若预测的预测语音不正确，即在计算用户语音与语音音频标准数据的相似度之后，若相似度不能达到设定阈值，确定预测的预测语音不正确，则通过预设提示信息指示用户将重新采集用户语音；其中，预设提示信息为声和/或光提示信息。

例如，相似度没有达到设定阈值时，智能家居设备可以通过音频设备告知用户重新再输入语音信息，如空调播放“你在说什么？”让用户重复刚才的用户语音。也可以通过指示灯指示用户重新再输入语音信息，如空调可以闪烁红灯，示意用户重复刚才的用户语音。

基于同一发明构思，本发明一实施例中提供一种用于语音识别的装置，该装置的语音识别方法的具体实施方式可参见方法实施例部分的描述，重复之处不再赘述，请参见图4，该装置包括：

采集单元401，用于在通过语音采集装置采集用户语音时，通过图像采集装置采集用户面部图像；

预测单元402，用于基于所述用户语音及所述用户面部图像，用预测模型预测所述用户语音对应的预测语音；其中，所述预测模型是由每个控制指令对应的不同人群的语音及对应的面部图像训练得到的，使所述预测模型对不同人群针对同一控制指令发出的语音及呈现的面部图像进行预测后能输出与所述同一控制指令对应的标准语音相似的语音；

匹配单元403，用于基于所述预测语音，从语音数据库中匹配与所述控制指令对应的语音音频标准数据；其中，所述语音数据库为所述智能家居设备的控制指令与对应的语音音频标准数据的映射关系；

计算单元404，用于通过匹配模型计算所述用户语音与所述语音音频标准数据的匹配度，当所述匹配度达到设定阈值时，根据所述语音音频标准数据对应的控制指令控制所述智能家居设备。

优选的，所述预测单元402具体用于：

优选的，所述预测单元402还用于：

优选的，所述计算单元404还用于：

基于同一发明构思，本发明实施例中提供了一种用于语音识别的装置，包括：至少一个处理器，以及

与所述至少一个处理器连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令，执行如上所述的语音识别方法。

基于同一发明构思，本发明实施例还提一种计算机可读存储介质，包括：

所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如上所述的语音识别方法。

在本发明提供的实施例中，通过智能家居设备通过语音采集装置采集用户语音时，同时通过图像采集装置采集用户面部图像；并基于采集到的用户语音及用户面部图像，用预测模型预测用户语音对应的预测语音；其中，预测模型是由每个控制指令对应的不同人群的语音及对应的面部图像训练得到的，使预测模型对不同人群针对同一控制指令发出的语音及呈现的面部图像进行预测后能输出与同一控制指令对应的标准语音相似的语音；之后，再基于预测语音，从语音数据库中匹配出与控制指令对应的语音音频标准数据；其中，语音数据库为智能家居设备的控制指令与对应的语音音频标准数据的映射关系；最后，通过匹配模型计算用户语音与语音音频标准数据的匹配度，当匹配度达到设定阈值时，根据语音音频标准数据对应的控制指令控制智能家居设备。从而让智能家居设备能够快捷方便的提高语音的识别率，减少因语音识别不正确而引起的误动作、提高用户体验。

本领域内的技术人员应明白，本发明实施例可提供为方法、***、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音识别的方法，应用于智能家居设备，其特征在于，包括：

基于所述用户语音及所述用户面部图像，用预测模型预测所述用户语音对应的预测语音；其中，所述预测模型是由每个控制指令对应的不同人群的语音及对应的面部图像训练得到的，使所述预测模型对不同人群针对同一控制指令发出的语音及呈现的面部图像进行预测后能输出与所述同一控制指令对应的标准语音相似的语音；

通过匹配模型计算所述用户语音与所述语音音频标准数据的匹配度，当所述匹配度达到设定阈值时，根据所述语音音频标准数据对应的控制指令控制所述智能家居设备。

2.如权利要求1所述的方法，其特征在于，基于所述用户语音及所述用户面部图像，用预测模型预测所述用户语音对应的预测语音，包括：

3.如权利要求2所述的方法，其特征在于，基于所述用户面部图像从所述预测模型中的面部图像数据库中，获得与所述用户面部图像相对应的第二控制指令集，包括：

4.如权利要求1-3任一权项所述的方法，其特征在于，计算所述用户语音与所述语音音频标准数据的相似度之后，还包括：

5.一种语音识别的装置，应用于智能家居设备，其特征在于，包括：

6.如权利要求5所述的装置，其特征在于，所述预测单元具体用于：

7.如权利要求6所述的装置，其特征在于，所述预测单元还用于：

8.如权利要求5-7任一权项所述的装置，其特征在于，所述计算单元还用于：

9.一种语音识别的装置，其特征在于，包括：

至少一个处理器，以及

与所述至少一个处理器连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令，执行如权利要求1-4任一项所述的方法。

10.一种计算机可读存储介质，其特征在于：

所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如权利要求1-4中任一项所述的方法。