CN103678404A

CN103678404A - 一种关键词识别方法及电子设备

Info

Publication number: CN103678404A
Application number: CN201210357210.7A
Authority: CN
Inventors: 彭刚
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2012-09-21
Filing date: 2012-09-21
Publication date: 2014-03-26

Abstract

本发明实施例提供一种关键词识别方法及电子设备，其中方法包括：获取用户的发音场景图像；确定所述发音场景图像中的发音场景信息；将所述发音场景信息与候选关键词进行匹配，当存在与所述发音场景信息相匹配的候选关键词时，将所述相匹配的候选关键词确定为最终输出的关键词，当不存在与所述发音场景信息相匹配的候选关键词时，将优先级最高的候选关键词确定为最终输出的关键词。本发明避免了通过上下文语义对关键词进行识别而存在的限制，提高了关键词识别的正确率。

Description

一种关键词识别方法及电子设备

技术领域

本发明涉及语音识别技术领域，更具体地说，涉及一种关键词识别方法及电子设备。

背景技术

随着语音识别技术的发展，越来越多的电子设备，如智能手机、个人计算机和掌上电脑等均具备了语音输入的功能，借助于语音识别技术，这些电子设备能够识别和理解用户输入的语音，将语音信号转变为相应的文本或命令，使得信息的输入更为简便。

语音识别中关键词的识别尤为重要，如果关键词识别错误，那么用户输入的语音的语义将发生重大的改变，使得语音识别出错。由于近似音或用户发音不标准等问题，对于用户输入的一个关键词语音，电子设备可能会识别出多个候选关键词，此时就需要对该多个候选关键词进行进一步的识别，从中确定出最终输出的关键词；如当用户输入的语音为“tai gu”对应的语音信号时，电子设备确认该语音信号为关键词语音信号后，由于近似音或用户发音不标准的问题，电子设备对于该语音信号可能存在识别出“太苦”、“泰谷”这两个候选关键词的情况，此时就需要对这两个候选关键词进行进一步的识别，在“泰谷”和“太苦”间确定最终输出的关键词。

现有技术中，当一个关键词语音识别出多个候选关键词时，电子设备一般通过用户输入的语音的上下文语义对该多个候选关键词进行进一步的识别，从而确定出候选关键词的优先级，将优先级最高的候选关键词确定为最终输出的关键词，这种关键词的识别方式虽然在一定程度上能够增强关键词识别的正确率；但很多情况下，如用户输入的语音过于简短或用户输入的语音只为关键词语音时，这种通过上下文语义对关键词进行识别的方式就会存在限制，无法正确的对关键词进行识别，影响关键词识别的正确率。

发明内容

有鉴于此，本发明实施例提供一种关键词识别方法及电子设备，以避免通过上下文语义对关键词进行识别而存在的限制，提高关键词识别的正确率。

为实现上述目的，本发明实施例提供如下技术方案：

一种关键词识别方法，包括：

获取用户的发音场景图像；

确定所述发音场景图像中的发音场景信息；

将所述发音场景信息与候选关键词进行匹配，当存在与所述发音场景信息相匹配的候选关键词时，将所述相匹配的候选关键词确定为最终输出的关键词，当不存在与所述发音场景信息相匹配的候选关键词时，将优先级最高的候选关键词确定为最终输出的关键词。

可选的，所述发音场景信息为用户当前的面部表情信息或用户当前的发音背景信息。

可选的，当所述发音场景信息为用户当前的面部表情信息时，所述确定所述发音场景图像中的发音场景信息包括：

根据人脸识别技术从所述发音场景图像中提取出用户的人脸，从所述人脸中提取出用户当前的表情特征，确定与所述表情特征对应的用户当前的面部表情信息。

可选的，所述确定与所述表情特征对应的用户当前的面部表情信息包括：

在预置的表情词库中查找所述表情特征所对应的字词，确定所述字词为用户当前的面部表情信息，所述预置的表情词库存储有表情特征与表达表情特征所代表的含义的字词的对应关系。

可选的，当发音场景信息为用户当前的面部表情信息时，所述将所述发音场景信息与候选关键词进行匹配包括：

将用户当前的面部表情信息与候选关键词进行匹配，判断是否存在与用户当前的面部表情信息相对应的候选关键词；

若是，则存在与用户当前的面部表情信息相匹配的候选关键词，若否，则不存在与用户当前的面部表情信息相匹配的候选关键词。

可选的，当所述发音场景信息为用户当前的发音背景信息时，所述确定所述发音场景图像中的发音场景信息包括：

从所述发音场景图像中提取出场景特征，确定与所述场景特征对应的用户当前的发音背景信息。

可选的，当发音场景信息为用户当前的发音背景信息时，所述将所述发音场景信息与候选关键词进行匹配包括：

按照预先设置的发音背景信息与关键词的对应关系，判断是否存在与用户当前的发音背景信息对应的候选关键词；

若是，则存在与用户当前的发音背景信息相匹配的候选关键词，若否，则不存在与用户当前的发音背景信息相匹配的候选关键词。

本发明实施例还提供一种电子设备，包括：图像获取模块，发音场景信息确定模块和匹配确定模块；

所述图像获取模块，用于获取用户的发音场景图像，将所述发音场景图像发送给所述发音场景信息确定模块；

所述发音场景信息确定模块，用于接收所述发音场景图像，确定所述发音场景图像中的发音场景信息，将所述发音场景信息发送给所述匹配确定模块；

所述匹配确定模块，用于接收所述发音场景信息，将所述发音场景信息与候选关键词进行匹配，当存在与所述发音场景信息相匹配的候选关键词时，将所述相匹配的候选关键词确定为最终输出的关键词，当不存在与所述发音场景信息相匹配的候选关键词时，将优先级最高的候选关键词确定为最终输出的关键词。

可选的，所述发音场景信息确定模块包括：

面部表情信息确定单元，用于根据人脸识别技术从所述发音场景图像中提取出用户的人脸，从所述人脸中提取出用户当前的表情特征，确定与所述表情特征对应的用户当前的面部表情信息；

所述匹配确定模块包括：

第一匹配单元，用于将用户当前的面部表情信息与候选关键词进行匹配，判断是否存在与用户当前的面部表情信息相对应的候选关键词，若是，则存在与用户当前的面部表情信息相匹配的候选关键词，若否，则不存在与用户当前的面部表情信息相匹配的候选关键词；

第一确定单元，用于在所述第一匹配单元判断存在与用户当前的面部表情信息对应的候选关键词时，将与用户当前的面部表情信息对应的候选关键词确定为最终输出的关键词，在所述第一匹配单元判断不存在与用户当前的面部表情信息对应的候选关键词时，将优先级最高的候选关键词确定为最终输出的关键词。

可选的，所述发音场景信息确定模块包括：

发音背景信息确定单元，用于从所述发音场景图像中提取出当前的场景特征，确定与所述场景特征对应的用户当前的发音背景信息；

所述匹配确定模块包括：

第二匹配单元，用于按照预先设置的发音背景信息与关键词的对应关系，判断是否存在与用户当前的发音背景信息对应的候选关键词，若是，则存在与用户当前的发音背景信息相匹配的候选关键词，若否，则不存在与用户当前的发音背景信息相匹配的候选关键词；

第二确定单元，用于在所述第二匹配单元判断存在与用户当前的发音背景信息相对应的候选关键词时，将与用户当前的发音背景信息相对应的候选关键词确定为最终输出的关键词，在所述第二匹配单元判断不存在与用户当前的发音背景信息相对应的候选关键词时，将优先级最高的候选关键词确定为最终输出的关键词。

基于上述技术方案，本发明实施例提供的关键词识别方法，在关键词识别中考虑了发音场景信息的因素，通过将发音场景信息与候选关键词进行匹配，当存在与用户当前发音场景信息相匹配的候选关键词时，将所述相匹配的候选关键词确定为最终输出的关键词，这样就避免了通过上下文语义对关键词进行识别而存在的限制，提高了关键词识别的正确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的关键词识别方法的流程图；

图2为本发明实施例提供的关键词识别方法的另一流程图；

图3为本发明实施例提供的关键词识别方法的又一流程图；

图4为本发明实施例提供的一种电子设备的结构框图；

图5为本发明实施例提供的一种电子设备的另一结构框图；

图6为本发明实施例提供的面部表情信息确定单元的结构框图；

图7为本发明实施例提供的一种电子设备的又一结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的关键词识别方法的流程图，参照图1，该方法可以包括：

步骤S100、获取用户的发音场景图像；

当语音识别的过程中出现多个候选关键词时，可启用本发明实施例提供的方法，执行步骤S100“获取用户的发音场景图像”的操作；也可设定每次语音识别过程中，均启用本发明实施例提供的方法，执行步骤S100“获取用户的发音场景图像”的操作；也可设定语音识别中启用本发明实施例提供的方法的预定条件，在达到预定条件时，执行步骤S100“获取用户的发音场景图像”的操作；

用户的发音场景图像是指用户在发音时刻的场景图像，包括用户的自身图像及用户的背景图像。

步骤S110、确定所述发音场景图像中的发音场景信息；

其中，发音场景信息为用户当前的面部表情信息或用户当前的发音背景信息，由于发音场景图像包括了用户的自身图像及用户的背景图像，因此通过用户的自身图像即可确定用户当前的面部表情信息，如喜、怒、哀、乐、难过，伤心等信息，通过用户的背景图像即可确定用户当前的发音背景信息，如用户所处的超市、广场、健身房等场所信息。

步骤S120、将所述发音场景信息与候选关键词进行匹配，当存在与所述发音场景信息相匹配的候选关键词时，将所述相匹配的候选关键词确定为最终输出的关键词，当不存在与所述发音场景信息相匹配的候选关键词时，将优先级最高的候选关键词确定为最终输出的关键词。

在确定了发音场景信息后，可将语音识别过程中出现的候选关键词与发音场景信息进行匹配，具体的，当发音场景信息为用户当前的面部表情信息时，可将候选关键词与用户当前的面部表情信息进行匹配，判断是否存在与用户当前的面部表情信息相对应的候选关键词，若存在与用户当前的面部表情信息相对应的候选关键词，则表明存在与用户当前的面部表情信息相匹配的候选关键词；当发音场景信息为用户当前的发音背景信息时，可将候选关键词与用户当前的发音背景信息进行匹配，判断是否存在与用户当前的发音背景信息相对应的候选关键词，若存在与用户当前的发音背景信息相对应的候选关键词，则表明存在与用户当前的发音背景信息相匹配的候选关键词。

本发明实施例提供的关键词识别方法，在关键词识别中考虑了发音场景信息的因素，通过将发音场景信息与候选关键词进行匹配，当存在与用户当前发音场景信息相匹配的候选关键词时，将所述相匹配的候选关键词确定为最终输出的关键词，这样就避免了通过上下文语义对关键词进行识别而存在的限制，提高了关键词识别的正确率。

图2为本发明实施例提供的关键词识别方法的另一流程图，结合图1和图2所示，该方法可以包括：

步骤S200、获取用户的发音场景图像；

步骤S210、根据人脸识别技术从所述发音场景图像中提取出用户的人脸，从所述人脸中提取出用户当前的表情特征，确定与所述表情特征对应的用户当前的面部表情信息；

相比图1所示步骤S110，步骤S210为发音场景信息为用户当前的面部表情信息时，步骤S110的一种可选实现方式；

确定出的表情特征可为“嘴角上扬”、“嘴角下撇”，“脸部抽搐”等脸部器官的动作特征，在确定出表情特征后即可确定各个表情特征所代表的含义，从而确定用户当前的面部表情信息，用户当前的面部表情信息可以为能够表达表情特征所代表的含义的字词，表情特征可以是由用户的触觉、味觉、心里感受等反应出来的信息，因此本发明实施例中，表情特征所代表的含义可以指由用户的脸部器官的动作而反映的用户的触觉感受、味觉感受、心里感受等，一个表情特征可以既表示触觉感受、味觉感受又可以表示心里感受，如“嘴角上扬”的表情特征代表的含义为“高兴”、“甜”、“快乐”、“得意”等字词，则“嘴角上扬”的表情特征所对应的面部表情信息可以为“高兴”、“乐”、“甜”、“得意”等字词，本发明实施例中，具体的表情特征与表情特征所代表的用户的触觉感受、味觉感受、心里感受等的对应关系，可按照实际需要进行设定。

其中，确定与所述表情特征对应的用户当前的面部表情信息的一种可选方式为：预先设置表情词库，在表情词库中存储各个表情特征，与表达各个表情特征所代表的含义的字词的对应关系，如“嘴角上扬”的表情特征所代表的含义为“高兴”，“甜”、“快乐”、“得意”等，则可在表情词库中存储“嘴角上扬”与“高兴”、“甜”、“快乐”、“得意”等的对应关系，在表情词库中查找与用户当前的表情特征所对应的字词，确定所述字词为用户当前的面部表情信息；

另一种确定与用户当前的表情特征对应的用户当前的面部表情信息的可选方式为：建立表情训练模型，对电子设备进行机器训练，使得电子设备能够解析出各个表情特征所代表的含义，通过机器训练确定能够表达各个表情特征所代表的含义的字词，将该字词确定为用户当前的面部表情信息。

步骤S220、将用户当前的面部表情信息与候选关键词进行匹配，判断是否存在与用户当前的面部表情信息相对应的候选关键词；若是，执行步骤S230，若否，执行步骤S240；

相比图1所示步骤S120，步骤S220为当发音场景信息为用户当前的面部表情信息时，步骤S120中将所述发音场景信息与候选关键词进行匹配的一种可选实现方式；

在将表达用户当前的表情特征所代表的含义的字词确定为用户当前的面部表情信息后，可将该字词与候选关键词进行匹配，判断候选关键词与该字词是否对应，主要通过字词间的相似度来判断字词与候选关键词是否对应，如当候选关键词为“太苦”和“泰谷”，用户的表情特征为“嘴角上厥”的苦涩的表情时，则对应的当前的面部表情信息为“苦”、“难过”、“痛苦”、“疼痛”等字词，则可将这些字词分别与“太苦”和“泰谷”进行匹配，从而确定与“苦”对应的“太苦”；如果存在与用户当前的面部表情信息相对应的候选关键词，则说明存在与用户当前的面部表情信息相匹配的候选关键词，执行步骤S230，否则，说明不存在与用户当前的面部表情信息相匹配的候选关键词，执行步骤S240。

步骤S230、将与用户当前的面部表情信息相对应的候选关键词确定为最终输出的关键词；

步骤S240、将优先级最高的候选关键词确定为最终输出的关键词。

本发明实施例在关键词识别中考虑了用户当前的面部表情信息的因素，通过将用户当前的面部表情信息与候选关键词进行匹配，当存在与用户当前的面部表情信息相对应的候选关键词，将与用户当前的面部表情信息相对应的候选关键词确定为最终输出的关键词，避免了通过上下文语义对关键词进行识别而存在的限制，提高了关键词识别的正确率。

为了更好的说明图2所示方法，现以用户输入的语音为“tai gu”对应的语音信号，且电子设备对该语音信号存在“太苦”和“泰谷”这两个候选关键词的情况为例，对图2所示方法进行说明。

当电子设备存在“太苦”和“泰谷”这两个候选关键词时，电子设备开启前置摄像头或后置摄像头拍摄用户发音场景图像，电子设备根据人脸识别技术从发音场景图像中提取出用户的人脸，从人脸中提取出用户当前的表情特征，在表情词库中查找用户当前的表情特征所对应的字词，若用户当前的表情特征为“嘴角上厥”等苦涩的表情时，则可在表情词库中查找到用户当前的表情特征所对应的字词为“苦”、“难过”、“痛苦”、“疼痛”等与“嘴角上厥”相对应的字词，将“苦”、“难过”、“痛苦”、“疼痛”等字词与“太苦”和“泰谷”这两个候选关键词进行匹配，通过字词的形似比对，确定与“苦”对应的“太苦”为最终输出的关键词；若用户当前没有表情特征或表情特征不为嘴角上厥等苦涩的表情时，则“太苦”和“泰谷”与用户当前的面部表情信息均不对应，将“太苦”和“泰谷”中优先级最高的候选关键词确定为最终输出的关键词。

图3为本发明实施例提供的关键词方法的又一流程图，结合图1和图3所示，该方法可以包括：

步骤S300、获取用户的发音场景图像；

步骤S310、从所述发音场景图像中提取出当前的场景特征，确定与所述场景特征对应的用户当前的发音背景信息；

相比图1所示步骤S110，步骤S310为发音场景信息为用户当前的发音背景信息时，步骤S110的一种可选实现方式；

场景特征为发音场景图像中标识用户当前所处背景的信息，如用户处在商店中，则发音场景图像中的商店招牌、货架等这些可以标识用户当前处于商店这一背景的信息，均可认为是场景特征；如用户处于广场中，广场上的标志性建筑等可以标识用户当前处于广场中，则广场上的标志性建筑可认为是场景特征。在提取出当前的场景特征后，则可通过预置的场景特征与发音背景信息的对应关系确定用户当前的发音背景信息，可选的，可设置数据库预存场景特征与发音背景信息的对应关系，在确定当前的场景特征后，通过查找数据库确定用户当前的发音背景信息；其中，用户当前的发音背景信息可以为用户当前所处的背景，如商店、广场场所等。

步骤S320、按照预先设置的发音背景信息与关键词的对应关系，判断是否存在与用户当前的发音背景信息对应的候选关键词，若是，执行步骤S330，若否，执行步骤S340；

相比图1所示步骤S120，步骤S320为当发音场景信息为用户当前的发音背景信息时，步骤S120中将所述发音场景信息与候选关键词进行匹配的一种可选实现方式；

在确定了发音背景信息后，可按照预先设置的发音背景信息与关键词的对应关系，判断是否存在与用户当前的发音背景信息对应的候选关键词，如确定的发音背景信息为商店，那么可预置商店中的商品名称、品牌等与商店相关的关键词，与商店的对应关系；将与商店对应的商品名称、品牌等关键词与候选关键词进行匹配，如果存在与商品名称、品牌等关键词对应的候选关键词，则说明存在与用户当前发音背景信息相匹配的候选关键词，执行步骤S330，否则，说明不存在与用户当前发音背景信息相匹配的候选关键词，执行步骤S340，此处可通过字词间的相似度，判断候选关键词与商品名称、品牌等关键词间是否对应，优选的，对应可以表示为字词间的相似度完全一致。

步骤S330、将与用户当前的发音背景信息对应的候选关键词确定为最终输出的关键词；

步骤S340、将优先级最高的候选关键词确定为最终输出的关键词。

本发明实施例在关键词识别中考虑了用户当前的发音背景信息的因素，通过将用户当前的发音背景信息与候选关键词进行匹配，当存在与用户当前的发音背景信息对应的候选关键词时，将与用户当前的发音背景信息对应的候选关键词确定为最终输出的关键词，避免了通过上下文语义对关键词进行识别而存在的限制，提高了关键词识别的正确率。

为了更好的说明图3所示方法，现以用户所处场景为商店，输入的语音为“que chao”对应的语音信号，由于发音不标准或近似音的缘故，电子设备对该语音信号存在“雀巢”和“鹊巢”这两个候选关键词的情况为例，对图3所示方法进行说明。

当电子设备存在“雀巢”和“鹊巢”这两个候选关键词时，电子设备开启前置摄像头或后置摄像头拍摄用户发音场景图像，电子设备从发音场景图像中提取出当前的场景特征，通过当前场景特征与发音背景信息的对应关系，确定用户当前的发音背景信息，由于用户处于商店中，电子设备可从发音场景图像中提取到货架等与商店相关的场景特征，则可通过预置的货架等与商店相关的场景特征与商店的对应关系，确定当前的发音背景信息为商店，在确定了用户当前的发音背景信息后，按照预先设置的发音背景信息与关键词的对应关系，判断是否存在与用户当前的发音背景信息对应的候选关键词，由于当前的发音背景信息为商店，则与商店对应的关键词为商品的种类、品牌等与商店这一背景相关的字词，由于“雀巢”和“鹊巢”中，“雀巢”为咖啡品牌，与商店对应，因此确定“雀巢”为最终输出的关键词。

下面对本发明实施例提供的一种电子设备进行介绍，下文所介绍的电子设备与上文描述的关键词识别方法相对应，两者可相互参照。

图4为本发明实施例提供的一种电子设备的结构框图，参照图4，电子设备可以包括：图像获取模块100，发音场景信息确定模块200和匹配确定模块300；其中，图像获取模块100与发音场景信息确定模块200相连，发音场景信息确定模块200与匹配确定模块300相连。

图像获取模块100，用于获取用户的发音场景图像，将所述发音场景图像发送给发音场景信息确定模块200；

发音场景信息确定模块200，用于接收所述发音场景图像，确定所述发音场景图像中的发音场景信息，将所述发音场景信息发送给匹配确定模块300；

匹配确定模块300，用于接收所述发音场景信息，将所述发音场景信息与候选关键词进行匹配，当存在与所述发音场景信息相匹配的候选关键词时，将所述相匹配的候选关键词确定为最终输出的关键词，当不存在与所述发音场景信息相匹配的候选关键词时，将优先级最高的候选关键词确定为最终输出的关键词。

本发明实施例所指的发音场景信息为用户当前的面部表情信息或用户当前的发音背景信息。

图5为本发明实施例提供的一种电子设备的另一结构框图，参照图5，发音场景信息确定模块200可以包括：

面部表情信息确定单元210，用于根据人脸识别技术从所述发音场景图像中提取出用户的人脸，从所述人脸中提取出用户当前的表情特征，确定与所述表情特征对应的用户当前的面部表情信息；

匹配确定模块300可以包括：

第一匹配单元310，用于将用户当前的面部表情信息与候选关键词进行匹配，判断是否存在与用户当前的面部表情信息相对应的候选关键词，若是，则存在与用户当前的面部表情信息相匹配的候选关键词，若否，则不存在与用户当前的面部表情信息相匹配的候选关键词；

第一确定单元311，用于在第一匹配单元310判断存在与用户当前的面部表情信息对应的候选关键词时，将与用户当前的面部表情信息对应的候选关键词确定为最终输出的关键词，在第一匹配单元310判断不存在与用户当前的面部表情信息对应的候选关键词时，将优先级最高的候选关键词确定为最终输出的关键词。

其中，面部表情信息确定单元210的结构可如图6所示，包括：

人脸提取子单元211，用于根据人脸识别技术从所述发音场景图像中提取出用户的人脸；

表情特征提取子单元212，用于从所述人脸中提取出用户当前的表情特征；

查找子单元213，用于在预置的表情词库中查找与所述用户当前的表情特征相对应的字词；

确定子单元214，用于将查找子单元213所查找出的字词确定为用户当前的面部表情信息。

图7为本发明实施例提供的一种电子设备的又一结构框图，参照图7，发音场景信息确定模块200可以包括：

发音背景信息确定单元220，用于从所述发音场景图像中提取出当前的场景特征，确定与所述场景特征对应的用户当前的发音背景信息；

匹配确定模块300可以包括：

第二匹配单元320，用于按照预先设置的发音背景信息与关键词的对应关系，判断是否存在与用户当前的发音背景信息对应的候选关键词，若是，则存在与用户当前发音背景信息相匹配的候选关键词，若否，则不存在与用户当前发音背景信息相匹配的候选关键词；

第二确定单元321，用于在第二匹配单元320判断存在与用户当前的发音背景信息相对应的候选关键词时，将与用户当前的发音背景信息相对应的候选关键词确定为最终输出的关键词，在第二匹配单元320判断不存在与用户当前的发音背景信息相对应的候选关键词时，将优先级最高的候选关键词确定为最终输出的关键词。

本发明在关键词的识别中考虑了发音场景信息的因素，通过将发音场景信息与候选关键词进行匹配，当存在与用户当前发音场景信息相匹配的候选关键词时，将所述相匹配的候选关键词确定为最终输出的关键词，这样就避免了通过上下文语义对关键词进行识别而存在的限制，提高了关键词识别的正确率。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种关键词识别方法，其特征在于，包括：

获取用户的发音场景图像；

确定所述发音场景图像中的发音场景信息；

2.根据权利要求1所述的方法，其特征在于，所述发音场景信息为用户当前的面部表情信息或用户当前的发音背景信息。

3.根据权利要求2所述的方法，其特征在于，当所述发音场景信息为用户当前的面部表情信息时，所述确定所述发音场景图像中的发音场景信息包括：

4.根据权利要求3所述的方法，其特征在于，所述确定与所述表情特征对应的用户当前的面部表情信息包括：

5.根据权利要求2至4任一项所述的方法，其特征在于，当发音场景信息为用户当前的面部表情信息时，所述将所述发音场景信息与候选关键词进行匹配包括：

6.根据权利要求2所述的方法，其特征在于，当所述发音场景信息为用户当前的发音背景信息时，所述确定所述发音场景图像中的发音场景信息包括：

7.根据权利要求2或6所述的方法，其特征在于，当发音场景信息为用户当前的发音背景信息时，所述将所述发音场景信息与候选关键词进行匹配包括：

8.一种电子设备，其特征在于，包括：图像获取模块，发音场景信息确定模块和匹配确定模块；

9.根据权利要求8所述的电子设备，其特征在于，所述发音场景信息确定模块包括：

所述匹配确定模块包括：

10.根据权利要求8所述的电子设备，其特征在于，所述发音场景信息确定模块包括：

所述匹配确定模块包括：