CN114550720A

CN114550720A - 语音交互方法、装置、电子设备和存储介质

Info

Publication number: CN114550720A
Application number: CN202210214175.7A
Authority: CN
Inventors: 宫一尘; 王子扬
Original assignee: Shenzhen Horizon Robotics Science and Technology Co Ltd
Current assignee: Shenzhen Horizon Robotics Science and Technology Co Ltd
Priority date: 2022-03-03
Filing date: 2022-03-03
Publication date: 2022-05-27

Abstract

本公开实施例公开了一种语音交互方法、装置、电子设备和存储介质，其中，方法包括：基于用户的第一语音数据确定第一语音指令；获取所述第一语音数据对应的第一图像数据；基于所述第一语音数据和所述第一图像数据，确定所述第一语音指令的类型；响应于确定出所述第一语音指令的类型为有效，根据所述第一语音指令执行所述第一语音指令对应的操作。本公开实施例可以结合语音和视觉来识别用户的语音指令是否为有效的语音指令，从而有效提高语音交互的准确性，有效降低语音交互的误触发性，提高用户体验。

Description

语音交互方法、装置、电子设备和存储介质

技术领域

本公开涉及语音交互技术，尤其是一种语音交互方法、装置、电子设备和存储介质。

背景技术

随着语音识别技术的飞速发展，语音交互已应用于各种领域中，比如车辆上，主驾用户或副驾用户通过语音交互控制车内应用或设备，大大提高了用户体验，但是，在语音交互过程中，因为自然语言泛化能力的限制，容易导致语音指令的误触发，从而使得语音交互不够准确，导致用户体验较差。

发明内容

为了解决上述语音交互误触发等技术问题，提出了本公开。本公开的实施例提供了一种语音交互方法、装置、电子设备和存储介质。

根据本公开实施例的一个方面，提供了一种语音交互方法，包括：基于用户的第一语音数据确定第一语音指令；获取所述第一语音数据对应的第一图像数据；基于所述第一语音数据和所述第一图像数据，确定所述第一语音指令的类型；响应于确定出所述第一语音指令的类型为有效，根据所述第一语音指令执行所述第一语音指令对应的操作。

根据本公开实施例的另一个方面，提供了一种语音交互装置，包括：第一确定模块，用于基于用户的第一语音数据确定第一语音指令；第一获取模块，用于获取所述第一语音数据对应的第一图像数据；第一处理模块，用于基于所述第一语音数据和所述第一图像数据，确定所述第一语音指令的类型；第二处理模块，用于响应于确定出所述第一语音指令的类型为有效，根据所述第一语音指令执行所述第一语音指令对应的操作。

根据本公开实施例的再一方面，提供一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行本公开上述任一实施例所述的语音交互方法。

根据本公开实施例的又一方面，提供一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现本公开上述任一实施例所述的语音交互方法。

基于本公开上述实施例提供的语音交互方法、装置、电子设备和存储介质，通过结合语音和视觉来识别用户的语音指令是否为有效的语音指令，从而有效提高语音交互的准确性，有效降低语音交互的误触发性，提高用户体验。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开提供的语音交互方法的一个示例性的应用场景；

图2是本公开一示例性实施例提供的语音交互方法的流程示意图；

图3是本公开一个示例性实施例提供的步骤203的流程示意图；

图4是本公开一个示例性实施例提供的步骤20312的流程示意图；

图5是本公开另一个示例性实施例提供的步骤203的流程示意图；

图6是本公开一个示例性实施例提供的步骤20321的流程示意图；

图7是本公开另一示例性实施例提供的语音交互方法的流程示意图；

图8是本公开再一示例性实施例提供的步骤203的流程示意图；

图9是本公开一示例性实施例提供的唇音同步检测的流程示意图；

图10是本公开一示例性实施例提供的唇音同步检测模型的网络架构框图；

图11是本公开再一示例性实施例提供的语音交互方法的流程示意图；

图12是本公开又一示例性实施例提供的语音交互方法的流程示意图；

图13是本公开又一示例性实施例提供的语音交互方法的流程示意图；

图14是本公开一示例性实施例提供的语音交互装置的结构示意图；

图15是本公开一示例性实施例提供的第一处理模块503的结构示意图；

图16是本公开一示例性实施例提供的第二确定单元50312的结构示意图；

图17是本公开另一示例性实施例提供的第一处理模块503的结构示意图；

图18是本公开另一示例性实施例提供的语音交互装置的结构示意图；

图19是本公开再一示例性实施例提供的第一处理模块503的结构示意图；

图20是本公开电子设备一个应用实施例的结构示意图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机***、服务器等电子设备，其可与众多其它通用或专用计算***环境或配置一起操作。适于与终端设备、计算机***、服务器等电子设备一起使用的众所周知的终端设备、计算***、环境和/或配置的例子包括但不限于：个人计算机***、服务器计算机***、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的***、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机***﹑大型计算机***和包括上述任何***的分布式云计算技术环境，等等。

终端设备、计算机***、服务器等电子设备可以在由计算机***执行的计算机***可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机***/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算***存储介质上。

本公开概述

在实现本公开的过程中，发明人发现，随着语音识别技术的飞速发展，语音交互已应用于各种领域中，比如车辆上，主驾用户或副驾用户通过语音交互控制车内应用或设备，大大提高了用户体验，但是，在语音交互过程中，因为自然语言泛化能力的限制，容易导致语音指令的误触发，从而使得语音交互不够准确，导致用户体验较差。

示例性概述

图1是本公开提供的语音交互方法的一个示例性的应用场景。

在车辆内，主驾或副驾用户可以通过语音交互实现对车内应用或设备的控制，相应的语音采集设备采集到用户语音后，上传至车辆的控制设备，比如车载计算平台，车辆的控制设备对用户语音进行识别，基于用户语音确定出语音指令，确定语音指令对应的交互对象的执行设备，以根据用户语音指令执行相应的操作。利用本公开的语音交互方法，在基于用户语音确定出语音指令后，可以获取摄像头采集的图像数据，基于时间信息确定出与用户语音对应的图像数据，进而可以结合用户语音及对应的图像数据来确定该语音指令的有效性，以对无效的语音指令进行过滤，从而有效提高语音交互的准确性，有效降低语音交互的误触发性，提高用户体验。

本公开的语音交互方法不仅仅适用于上述应用场景，任意需要通过语音交互进行控制的场景，均可以适用，只要能够结合视觉信息均可。比如游戏室及其他可能的具有可通过语音交互控制的设备的场景，本公开实施例不做限定。

示例性方法

图2是本公开一示例性实施例提供的语音交互方法的流程示意图。本实施例可应用在电子设备上，具体比如车载计算平台、服务器或终端上，如图2所示，包括如下步骤：

步骤201，基于用户的第一语音数据确定第一语音指令。

其中，用户的第一语音数据可以通过语音采集设备采集获得，比如通过麦克风或麦克风阵列等语音采集设备采集，具体可以根据实际需求设置，本公开不做限定。第一语音指令是基于第一语音数据确定的指令文本，比如可以是将第一语音数据对应的文本内容与当前能够支持的预设指令文本匹配确定的指令文本。第一语音指令可以是通过对第一语音数据进行语音识别及自然语言理解获得，具体的语音识别及理解方式可以采用惯用方式，本公开实施例不做限定。

步骤202，获取第一语音数据对应的第一图像数据。

其中，第一图像数据可以通过预先设置的图像采集设备(比如摄像头)获得，比如在车辆内，通过设置在车辆上的能够拍摄主驾和/或副驾的摄像头采集主驾用户和/或副驾用户的图像数据。第一图像数据可以是单帧或多帧的图像，也可以是连续帧的视频段，具体可以根据实际需求设置，本公开不做限定。获取与第一语音数据对应的第一图像数据可以基于时间信息实现对应关系。比如语音采集设备和图像采集设备在采集数据时均携带采集时间信息，从而可以在处理过程中，确定第一语音数据对应的时间段，进而可以基于该时间段获取对应时间段内采集的图像数据作为第一语音数据对应的第一图像数据。

步骤203，基于第一语音数据和第一图像数据，确定第一语音指令的类型。

其中，第一语音指令的类型可以包括有效和无效两种类型。基于第一语音数据和第一图像数据确定第一语音指令的类型即是结合语音和视觉信息综合判断第一语音指令的有效性。

示例性的，由于第一语音数据的产生伴有相应用户的脸部或唇部动作，因此，可以结合用户的第一图像数据来获得用户的脸部或唇部的动作情况，从而可以辅助判断第一语音指令的有效性，实现对无效语音指令的过滤。

示例性的，结合用户的第一图像数据还能识别出用户的其他状态，比如打电话状态，与其他用户交谈的状态，等等，当用户处于这些状态时，第一语音指令可能是该用户与其他用户的交谈内容，而并不是用户希望进行相应的控制，因此可以确定该第一语音指令的类型为无效，不对其进行响应，从而避免误触发。

步骤204，响应于确定出第一语音指令的类型为有效，根据第一语音指令执行第一语音指令对应的操作。

当确定第一语音指令为有效时，则可以响应用户的该第一语音指令，为用户执行相应的操作，比如将第一语音指令发送给交互对象对应的执行设备，由该执行设备执行第一语音指令对应的操作。对于语音指令的执行方式可以根据实际需求确定，本公开不做限定。

比如用户想要打开空调，则可以将第一语音指令发送给打开空调对应的执行设备，以使该执行设备根据第一语音指令打开空调。具体的语音指令内容可以根据实际需求设置，本公开不做限定。

本实施例提供的语音交互方法，通过结合语音和视觉来识别用户的语音指令是否为有效的语音指令，从而有效提高语音交互的准确性，有效降低语音交互的误触发性，提高用户体验。

在一个可选示例中，图3是本公开一个示例性实施例提供的步骤203的流程示意图，在本示例中，步骤203具体可以包括以下步骤：

步骤20311，基于第一语音数据和第一图像数据，确定第一图像数据中用户的唇部动作与第一语音数据中用户的语音的同步情况。

其中，同步情况可以包括同步和不同步两种情况，唇部动作与语音的同步情况的确定，可以采用任意可实施的方式实现，比如通过预先训练获得的唇音同步检测模型实现，具体不做限定。

步骤20312，基于同步情况，确定第一语音指令的类型。

具体的，同步情况为同步时，可以确定第一语音指令的类型为有效，同步情况为不同步时，可以确定第一语音指令的类型为无效，或者继续通过其他方式进一步确定第一语音指令的类型，具体可以根据实际需求设置。

本公开通过结合语音和视觉信息来确定用户唇部动作与语音的同步情况，基于同步情况对第一语音指令的有效性进行确定，虽然语音中会有噪声影响，比如可能采集到来自电子设备的语音指令，但实际上用户并没有发出语音指令，这时候就无法检测到用户唇部动作与语音同步，结合视觉信息可以有效辅助语音指令的过滤，避免误触发。

在一个可选示例中，图4是本公开一个示例性实施例提供的步骤20312的流程示意图，在本示例中，步骤20312的基于同步情况，确定第一语音指令的类型，具体可以包括以下步骤：

步骤203121，基于第一图像数据，识别用户的第一状态。

其中，第一状态包括打电话状态和非打电话状态。用户的第一状态可以通过对第一图像数据进行图像识别来确定，比如可以采用预先训练获得的打电话状态分类模型来确定用户的第一状态是否为打电话状态，具体的模型可以根据实际需求设置，本公开不做限定。

步骤203122，响应于识别出用户的第一状态为打电话状态，确定第一语音指令的类型为无效。

具体的，当确定用户的第一状态为打电话状态，表示用户的语音数据是在于电话另一头的用户交谈，而不是想要对可交互对象进行控制，因此可以确定第一语音指令的类型为无效。

步骤203123，响应于识别出用户的第一状态为非打电话状态，确定第一语音指令的类型为有效。

当确定用户的第一状态为非打电话状态，排除了用户打电话状态导致的误触发，因此可以确定第一语音指令的类型为有效。

可选地，在确定用户的第一状态为非打电话状态后，还可以结合其他过滤方式对第一语音指令的有效性做进一步确定，具体不做限定。

本公开通过识别用户是否处于打电话状态，可以排除用户打电话过程中因与其他用户交谈产生的非预期的语音指令，进一步提高语音交互的准确性，进而提升用户体验。

在一个可选示例中，图5是本公开另一个示例性实施例提供的步骤203的流程示意图，在本示例中，步骤203具体可以包括以下步骤：

步骤20321，基于第一语音数据和第一图像数据，确定用户的第二状态。

其中，第二状态可以包括与其他用户交谈状态和未与其他用户交谈状态，比如车辆内，主驾用户与副驾用户是否处于交谈状态。

在一个可选示例中，第二状态可以结合第一语音数据中的语音端点检测及第一图像数据中用户与其他用户的唇部动作检测来确定，比如通过语音端点检测可以确定出各用户的交谈时段，将各交谈时段的语音与图像中各用户的唇部动作的同步情况来确定用户是否与其他用户交谈。

在一个可选示例中，第二状态还可以结合多模态语音端点检测来确定。多模态语音端点检测结合语音和视觉信息来确定用户的语音时段，由于增加了视觉信息辅助检测，视觉信息不会受到高噪声的影响，因此，对于噪声环境下的语音数据，可以有效提高端点检测结果的准确性。

在实际应用中，对于用户与其他用户的交谈场景的确定，其他用户是与该用户处于同一环境，比如车辆内的主驾用户和副驾用户，可以为不同用户分别设置语音采集设备，比如在车辆上设置主驾麦克风和副驾麦克风，分别用于采集主驾用户的语音数据和副驾用户的语音数据。或者，也可以是在车辆上设置单个麦克风，采集多个区域的语音，比如通过一个麦克风采集主驾用户和副驾用户的语音数据，具体语音采集方式及麦克风数量本公开不做限定。第一语音数据可以既包括主驾用户的语音数据又包括副驾用户的语音数据，可以基于不同麦克风采集的同一语音的音量大小来确定是哪个用户的语音，或者也可以在语音端点检测获得不同的语音段后，通过声纹特征来区分不同用户，等等，具体区分方式不做限定。对于图像数据，可以基于图像采集设备的拍摄范围与不同用户的位置关系，同拍摄图像中提取出不同用户的图像信息，从而实现各用户分别对应的图像数据。

步骤20322，响应于确定出用户的第二状态为与其他用户交谈状态，确定第一语音指令的类型为无效。

与打电话状态类似，若确定出用户正在与其他用户交谈，则可以确定第一语音指令并非是用户期望控制相应的交互对象，而仅仅是与其他用户的说话内容，可以确定第一语音指令的类型无效，可以丢弃第一语音指令或者不对其进行响应。

步骤20323，响应于确定出用户的第二状态为未与其他用户交谈状态，确定第一语音指令的类型为有效。

当确定出用户并未与其他用户交谈，则可以排除因与其他用户交谈产生的非预期的语音指令，避免误触发。

本公开通过结合语音和视觉信息确定出用户是否处于与其他用户交谈状态，从而过滤掉因交谈产生的非预期的语音指令，进一步提高语音指令的准确性，进而进一步提升用户体验。

在一个可选示例中，图6是本公开一个示例性实施例提供的步骤20321的流程示意图，在本示例中，步骤20321的基于第一语音数据和第一图像数据，确定用户的第二状态，包括：

步骤203211，基于预先训练获得的多模态语音端点检测模型对第一语音数据和第一图像数据进行检测，获得第一检测结果，第一检测结果包括各用户的语音活动分类结果。

其中，语音活动分类结果可以包括第一语音数据中各时间点的音频内容是否处于语音激活状态的结果，语音激活状态即处于语音状态，语音未激活状态即指处于非语音状态。

多模态语音端点检测模型是结合语音数据和视觉信息进行语音端点检测的模型，由于视觉信息中的图像帧的信息是不会因为噪声的存在而产生额外变化的，从而可有助于将对应噪音内容的段落从语音中排除。因此，同时参考语音的特征信息和视觉的特征信息，可显著提高对于语音激活状态的检测精度。

示例性的，可以基于第一语音数据获得音频特征序列，基于第一图像数据获得图像特征序列，基于音频特征序列和图像特征序列获得融合特征序列，将融合特征序列输入到多模态语音端点检测模型，获得预测概率序列，基于预测概率序列获得上述第一检测结果。其中，预测概率序列包括第一语音数据中各时间点的音频内容属于各类型的概率值，根据预测概率值的大小，通过设定概率阈值便可判断出对应的时间点的音频内容是否处于语音激活状态。具体原理不再赘述。

多模态语音端点检测模型实质上是分类模型，可以采用任意可实施的神经网络模型实现，本公开不做限定。

步骤203212，根据第一检测结果，确定用户的第二状态。

第一语音数据包括多个用户的语音数据时可以基于多模态语音端点检测模型确定出各用户在各时间点的语音激活状态，或者第一语音数据包括待判断用户的语音数据，可以再获取其他用户对应的第二语音数据和对应的第二图像数据，基于多模态语音端点检测模型确定出其他用户在各时间点的语音激活状态，进而可以结合该用户在各时间点的语音激活状态和其他用户在各时间点的语音激活状态的分布关系来确定该用户是否与其他用户交谈。

示例性的，由于多模态语音端点检测模型获得的预测概率序列中所包括的预测概率值是与时间点对应的，因此基于预测概率序列便可确定语音数据中的哪些时间段落为语音段落，由此可确定出在预设时段内，第一用户的第一说话时长、第二用户的第二说话时长、及第一用户和第二用户的综合说话时长，基于综合说话时长与该预设时段的总时长的比例关系、第一说话时长与综合说话时长的比例关系、第二说话时长与综合说话时长的比例关系，来确定第一用户与第二用户是否处于交谈状态，具体比如，当综合说话时长与该预设时段的总时长的第一比例大于第一阈值，且第一说话时长与综合说话时长的第二比例大于第二阈值，第二说话时长与综合说话时长的第三比例大于第三阈值时，可以确定第一用户与第二用户处于交谈状态，据此可以确定出用户的第二状态。

本公开通过多模态语音端点检测模型确定用户及其他用户的语音活动分类结果，进而基于语音活动分类结果来确定用户的第二状态是否为与其他用户交谈状态，提高交谈场景确定的准确性。

图7是本公开另一示例性实施例提供的语音交互方法的流程示意图。

在一个可选示例中，在步骤203的基于所述第一语音数据和所述第一图像数据，确定所述第一语音指令的类型之前，本公开的方法还包括：

步骤301，获取第一语音数据对应的目标音区。

其中，目标音区是指第一语音数据来源区域，比如车辆内，主驾用户的语音数据对应的目标音区即为主驾位置区域，副驾用户的语音数据对应的目标音区即为副驾位置区域，具体的目标音区的确定可以采用任意可实施的方式，比如可以根据采集第一语音数据的麦克风的位置来确定，具体不再赘述。

步骤302，基于第一图像数据，识别目标音区的用户。

在确定了目标音区后，可以基于目标音区的位置区域在拍摄图像中对应的图像区域，来检测第一图像数据中目标音区是否存在用户。基于图像的目标检测可以采用任意可实施的方式，本公开不做限定。

相应的，步骤203的基于第一语音数据和第一图像数据，确定第一语音指令的类型，包括：

步骤2031，响应于识别出目标音区存在用户，基于第一语音数据和第一图像数据，确定第一语音指令的类型。

若识别出目标音区不存在用户，则表示可能语音采集或者信号处理出现问题，或者是采集到的并非车内人声语音信息，可能导致语音交互的误触发，因此可以确定第一语音指令的类型为无效，无需进行后续的处理，避免资源浪费。若确定出目标音区存在用户，则表示确实是用户发出的第一语音指令，则可以进行后续的语音指令的有效性确定。

本公开通过在基于所述第一语音数据和所述第一图像数据，确定所述第一语音指令的类型之前，先确定目标音区是否存在用户，当存在用户时再进行类型的确定，当不存在用户时，可以不用进行后续的类型的确定，可以提高数据处理效率，减少处理资源和处理时间的浪费。

在一个可选示例中，图8是本公开再一示例性实施例提供的步骤203的流程示意图。在本示例中，在步骤20311的所述基于所述第一语音数据和所述第一图像数据，确定所述第一图像数据中所述用户的唇部动作与所述第一语音数据中所述用户的语音的同步情况之前，本公开的方法还包括：

步骤20331，基于第一图像数据检测用户的唇部遮挡状态；

具体的，由于当用户唇部处于遮挡状态时，无法进行唇音同步情况的检测，为了避免处理资源和处理时间的浪费，进一步提高处理效率，可在唇音同步确定之前先确定用户的唇部遮挡状态。当唇部处于遮挡状态可以不进行唇音同步的判断，可以进行其他判断。当唇部处于遮挡状态，再进行唇音同步的判断。

唇部遮挡状态的确定可以采用任意可实施的方式实现，比如可以采用预先训练获得的神经网络分类模型，对第一图像数据中用户的唇部区域进行分类检测，获得唇部的遮挡状态。具体比如，可以先进行目标检测，提取出唇部或脸部的局部图像，再对局部图像进行分类，具体原理不再赘述。

相应的，步骤20311的基于第一语音数据和第一图像数据，确定第一图像数据中用户的唇部动作与第一语音数据中用户的语音的同步情况，包括：

步骤203111，响应于检测出用户的唇部遮挡状态为未遮挡，基于第一语音数据和第一图像数据，确定第一图像数据中用户的唇部动作与第一语音数据中用户的语音的同步情况。

本公开通过先对唇部遮挡状态进行确定，当确定唇部处于未遮挡状态时，再进行唇音同步情况的确定，进一步提高数据处理效率，减少处理资源和处理时间的浪费。

在一个可选示例中，步骤20311的所述基于所述第一语音数据和所述第一图像数据，确定所述第一图像数据中所述用户的唇部动作与所述第一语音数据中所述用户的语音的同步情况，包括：基于预先训练获得的唇音同步检测模型，对所述第一语音数据和所述第一图像数据进行同步检测，获得第二检测结果；所述第二检测结果包括同步的概率；基于所述第二检测结果，确定所述用户的唇部动作与所述用户的语音的同步情况。

其中，唇音同步检测模型可以采用任意可实施的检测模型，本公开不做限定。

示例性的，图9是本公开一示例性实施例提供的唇音同步检测的流程示意图。检测过程可以包括，对第一图像数据逐帧进行人脸检测，获得人脸检测结果，基于人脸检测结果进行人脸关键点检测，确定唇部关键点区域，获得唇部区域图像；同时对第一语音数据进行前端信号处理，获得对应音区降噪后的音频信号，将唇部区域图像和降噪后的音频信号输入到唇音同步检测模型，获得对应的第二检测结果，第二检测结果可以包括同步的概率，通过设置概率阈值，可以基于第二检测结果确定出是否同步。具体原理不再赘述。

示例性的，唇音同步检测模型可以基于孪生网络的网络架构实现，图10是本公开一示例性实施例提供的唇音同步检测模型的网络架构框图，具体可以包括视频编码器网络、特征提取网络、语音编码器网络和相似度计算网络。其中，视频编码器可以通过一维卷积神经网络、二维卷积神经网络、三维卷积神经网络、膨胀卷积神经网络、RNN递归神经网络、LSTM(长短时记忆网络)、Transformer(自注意力编码网络)等网络结构或其组合实现，具体可以根据实际需求设置。特征提取网络用于对音频信号进行特征提取，比如提取频谱特征、Filter Bank特征、MFCC(Mel-Frequency Cepstral Coefficients，梅尔频率倒谱系数)特征、PCEN(Per-Channel Energy Normalization，)特征等，具体可以根据实际需求设置。语音编码器网络可以通过一维卷积神经网络、二维卷积神经网络、膨胀卷积神经网络、RNN递归神经网络、LSTM(长短时记忆网络)、Transformer(自注意力编码网络)等网络结构或其组合实现，具体可以根据实际需求设置。相似度计算网络可以通过使用余弦相似度或者通过全连接神经网络预测拼接后音视频特征的形似度实现，具体可以根据实际需求设置。

在一个可选示例中，图11是本公开再一示例性实施例提供的语音交互方法的流程示意图，在本示例中，在步骤202的获取所述第一语音数据对应的第一图像数据之前，本公开的方法还包括：

步骤4011，基于第一预设规则，确定第一语音指令所属的预设指令。

其中，第一预设规则可以根据实际需求设置，比如可以为关键词匹配规则、模型分类、正则匹配规则等等，具体不做限定。

预设指令为根据可交互的对象所支持的指令设置的，当确定出第一语音指令后，可以基于第一预设规则来确定该第一语音指令是否属于预设指令，若不属于预设指令，则表示无法响应该第一语音指令，因此确定该第一语音指令的类型为无效，则无需再进行后续的语音指令类型的判断，进一步减少处理资源和处理时间的浪费，提高处理效率。

相应的，步骤202的所述获取所述第一语音数据对应的第一图像数据，包括：

步骤2021，响应于确定出第一语音指令属于目标预设指令，获取第一语音数据对应的第一图像数据。

当确定出第一语音指令属于目标预设指令，则表示当前有相应的交互对象可以支持该第一语义指令的交互，则可以进入后续的类型的判断。

本公开通过先确定第一语音指令是否属于预设指令来对语音指令进行过滤，当属于预设指令时在进行后续的类型判断，当不属于预设指令时则无需进行后续类型的判断，可以有效减少处理资源和处理时间的浪费，进一步提高处理效率及语音指令的准确性。

在一个可选示例中，图12是本公开又一示例性实施例提供的语音交互方法的流程示意图，在本示例中，在步骤202的获取所述第一语音数据对应的第一图像数据之前，本公开的方法还包括：

步骤4021，基于第二预设规则，确定当前是否支持交互；

其中，第二预设规则可以根据能够支持语音交互的对象或当前场景来确定，比如，第一语音指令为“换一首歌”，但是此时并没有开启音乐应用，则确定当前交互对象音乐应用不支持交互，再比如，当前车辆没有开启导航模式，在没有唤醒词的情况下，收到第一语音指令为“去A餐厅”、“下一路口左转”等，则确定当前不支持该交互。再比如，基于车辆的行驶状态或位置，确定当前不支持第一语音指令的交互，等等。具体可以根据实际需求设置，本实施例不做限定。

当确定当前不支持交互，则可以不用进行后续的相关处理流程，进一步提高语音交互的准确性，并减少处理资源和时间的浪费。

相应的，步骤202的获取第一语音数据对应的第一图像数据，包括：

步骤2022，响应于当前支持交互，获取第一语音数据对应的第一图像数据。

当确定当前支持交互时，再进行后续的处理流程，保证后续处理流程的有效性，避免无效的处理导致资源和时间的浪费。

本公开通过对当前是否支持交互进行确定，对语音指令进行过滤，进一步提高交互准确性。

在一个可选示例中，步骤4021的所述基于第二预设规则，确定当前是否支持交互，包括：基于所述第一语音指令对应的交互对象的当前状态，确定当前是否支持交互；或者，基于当前所处场景，确定当前是否支持交互。

其中，交互对象可以包括任意能够支持语音交互的设备、应用等等。比如车辆场景的空调、车门、车窗、音乐应用、导航应用等等。交互对象的当前状态可以包括交互对象的开启状态、关闭状态及其他可能的状态。比如对于音乐应用、导航应用、车门、车窗等，其当前状态均可以包括打开状态和关闭状态。再比如，对于空调，其当前状态除了打开状态和关闭状态外还可以包括制热状态、制冷状态，等等，具体可以根据实际需求设置。

当前所处场景可以根据实际需求设置，比如车辆内的交互场景下，当前所处场景可以包括车辆的行驶状态、车辆的位置等。就车辆的行驶状态或车辆的位置来确定当前是否支持交互。比如当车辆正在行驶过程中，收到第一语音指令为“打开车门”，明显的当前场景不能支持该第一语音指令的交互。再比如，当车辆未在停车场，收到开启自动泊车的语音指令，则确定当前场景不支持该语音指令的交互。具体的场景可以根据实际需求设置，本公开不做限定。

基于交互对象的当前状态确定当前是否支持交互，可以根据不同交互对象的不同情况设置不同的确定规则，比如对于音乐应用，在打开状态下支持节目的切换的语音交互，比如根据“换一首歌”的语音指令可以切换一首歌，在关闭状态下，则不支持“换一首歌”的语音控制，则可以基于此设置语音指令的过滤，当确定出第一语音指令对应的交互对象当前不支持该第一语音指令的交互时，可以直接过滤掉，无需发送给交互对象的执行设备执行。据此，对于不同的交互对象，可以根据实际情况来设置对应的过滤规则，基于是否支持交互来过滤语音指令。

在一个可选示例中，当通过任意方式确定出第一语音指令的类型为无效后，还可以生成对应的提醒信息，提醒用户，比如询问用户“您刚发出了换一首歌的指令，是否需要为您开启音乐应用？”当用户确认开启时，则可以为用户开启音乐应用，进一步提升用户体验。

在一个可选示例中，图13是本公开又一示例性实施例提供的语音交互方法的流程示意图，在本示例中，本公开的方法包括：

1、获取第一语音数据。

2、基于第一语音数据确定第一语音指令。

3、基于第一预设规则，确定第一语音指令所属的预设指令。

4、响应于确定出第一语音指令属于目标预设指令，基于第二预设规则，确定当前是否支持交互。

5.1、响应于当前支持交互，获取第一语音数据对应的第一图像数据、以及第一语音数据对应的目标音区。

5.2、响应于当前不支持交互，确定第一语音指令的类型为无效。

6、基于第一图像数据，识别目标音区的用户。

7.1、响应于识别出目标音区存在用户，基于第一图像数据检测用户的唇部遮挡状态。

7.2、响应于识别出目标音区不存在用户，可以确定第一语音指令的类型为无效。

8.1、响应于检测出用户的唇部遮挡状态为未遮挡，基于第一语音数据和第一图像数据，确定第一图像数据中用户的唇部动作与第一语音数据中用户的语音的同步情况。

8.2、响应于检测出用户的唇部遮挡状态为遮挡，基于第一图像数据，识别用户的第一状态。

9.1、响应于同步情况为同步，基于第一图像数据，识别用户的第一状态。

9.2、响应于同步情况为不同步，确定第一语音指令的类型为无效。

10、响应于识别出用户的第一状态为打电话状态，确定第一语音指令的类型为无效。

11、响应于识别出用户的第一状态为非打电话状态，基于第一语音数据和第一图像数据，确定用户的第二状态。

12、响应于确定出用户的第二状态为与其他用户交谈状态，确定第一语音指令的类型为无效。

13、响应于确定出用户的第二状态为未与其他用户交谈状态，确定第一语音指令的类型为有效。

14、响应于确定出第一语音指令的类型为有效，根据第一语音指令执行第一语音指令对应的操作。

15、响应于确定出第一语音指令的类型为无效，丢弃第一语音指令。

上述步骤的具体操作参见前述内容，在此不再赘述。

需要说明的是，该示例仅为上述各实施例及示例结合实施的一种方式，在实际应用中，上述各实施例及示例可以在不冲突的情况下，以任意结合方式实施，本公开不做限定。

本公开实施例提供的任一种语音交互方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种语音交互方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种语音交互方法。下文不再赘述。

示例性装置

图14是本公开一示例性实施例提供的语音交互装置的结构示意图。该实施例的装置可用于实现本公开相应的方法实施例，如图14所示的装置包括：第一确定模块501、第一获取模块502、第一处理模块503和第二处理模块504。

第一确定模块501，用于基于用户的第一语音数据确定第一语音指令；第一获取模块502，用于获取所述第一语音数据对应的第一图像数据；第一处理模块503，用于基于所述第一语音数据和第一获取模块502获取的所述第一图像数据，确定所述第一语音指令的类型；第二处理模块504，用于响应于确定出所述第一语音指令的类型为有效，根据所述第一语音指令执行所述第一语音指令对应的操作。

在一个可选示例中，图15是本公开一示例性实施例提供的第一处理模块503的结构示意图。本示例中，第一处理模块503包括：第一确定单元50311和第二确定单元50312。第一确定单元50311，用于基于所述第一语音数据和所述第一图像数据，确定所述第一图像数据中所述用户的唇部动作与所述第一语音数据中所述用户的语音的同步情况；第二确定单元50312，基于第一确定单元50311获得的所述同步情况，确定所述第一语音指令的类型。

图16是本公开一示例性实施例提供的第二确定单元50312的结构示意图。

在一个可选示例中，第二确定单元50312包括：第一确定子单元503121、第二确定子单元503122和第三确定子单元503123。第一确定子单元503121，用于基于所述第一图像数据，识别所述用户的第一状态；第二确定子单元503122，用于响应于第一确定子单元503121识别出所述用户的第一状态为打电话状态，确定所述第一语音指令的类型为无效；第三确定子单元503123，用于响应于第一确定子单元503121识别出所述用户的第一状态为非打电话状态，确定所述第一语音指令的类型为有效。

在一个可选示例中，图17是本公开另一示例性实施例提供的第一处理模块503的结构示意图。本示例中，第一处理模块503包括：第一处理单元50321、第二处理单元50322和第三处理单元50323。第一处理单元50321，用于基于所述第一语音数据和所述第一图像数据，确定所述用户的第二状态；第二处理单元50322，用于响应于第一处理单元50321确定出所述用户的第二状态为与其他用户交谈状态，确定所述第一语音指令的类型为无效；第三处理单元50323，用于响应于第一处理单元50321确定出所述用户的第二状态为未与其他用户交谈状态，确定所述第一语音指令的类型为有效。

在一个可选示例中，第一处理单元50321，具体用于：基于预先训练获得的多模态语音端点检测模型对所述第一语音数据和所述第一图像数据进行检测，获得第一检测结果，所述第一检测结果包括各用户的语音活动分类结果；根据所述第一检测结果，确定所述用户的第二状态。

图18是本公开另一示例性实施例提供的语音交互装置的结构示意图。

在一个可选示例中，本公开的装置还包括：第二获取模块505和第三处理模块506。第二获取模块505，用于获取所述第一语音数据对应的目标音区；第三处理模块506，用于基于所述第一图像数据，识别所述目标音区的用户；相应的，第一处理模块503具体用于：响应于识别出所述目标音区存在用户，基于所述第一语音数据和所述第一图像数据，确定所述第一语音指令的类型。

在一个可选示例中，图19是本公开再一示例性实施例提供的第一处理模块503的结构示意图。本示例中，第一处理模块503还包括：第一检测单元50313，用于基于所述第一图像数据检测所述用户的唇部遮挡状态；相应的，第一确定单元50311具体用于：响应于检测出所述用户的唇部遮挡状态为未遮挡，基于所述第一语音数据和所述第一图像数据，确定所述第一图像数据中所述用户的唇部动作与所述第一语音数据中所述用户的语音的同步情况。

在一个可选示例中，第一确定单元50311，具体用于：基于预先训练获得的唇音同步检测模型，对所述第一语音数据和所述第一图像数据进行同步检测，获得第二检测结果；所述第二检测结果包括同步的概率；基于所述第二检测结果，确定所述用户的唇部动作与所述用户的语音的同步情况。

在一个可选示例中，本公开的装置还包括：第二确定模块507，用于基于第一预设规则，确定所述第一语音指令所属的预设指令；相应的，第一获取模块502，具体用于响应于确定出所述第一语音指令属于目标预设指令，获取所述第一语音数据对应的第一图像数据。

在一个可选示例中，本公开的装置还包括：第三确定模块508，用于基于第二预设规则，确定当前是否支持交互；相应的，第一获取模块502，具体用于：响应于当前支持交互，获取所述第一语音数据对应的第一图像数据。

在一个可选示例中，第三确定模块508，具体用于：基于所述第一语音指令对应的交互对象的当前状态，确定当前是否支持交互；或者，基于当前所处场景，确定当前是否支持交互。

示例性电子设备

本公开实施例还提供了一种电子设备，包括：存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现本公开上述任一实施例所述的语音交互方法。

图20是本公开电子设备一个应用实施例的结构示意图。本实施例中，该电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本公开的各个实施例的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线***和/或其他形式的连接机构(未示出)互连。

例如，该输入装置13可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号；该输入装置13还可以包括图像采集装置，比如摄像头，用于采集图像数据。

此外，该输入装置13还可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图20中仅示出了该电子设备10中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于***实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种语音交互方法，包括：

基于用户的第一语音数据确定第一语音指令；

获取所述第一语音数据对应的第一图像数据；

基于所述第一语音数据和所述第一图像数据，确定所述第一语音指令的类型；

响应于确定出所述第一语音指令的类型为有效，根据所述第一语音指令执行所述第一语音指令对应的操作。

2.根据权利要求1所述的方法，其中，所述基于所述第一语音数据和所述第一图像数据，确定所述第一语音指令的类型，包括：

基于所述第一语音数据和所述第一图像数据，确定所述第一图像数据中所述用户的唇部动作与所述第一语音数据中所述用户的语音的同步情况；

基于所述同步情况，确定所述第一语音指令的类型。

3.根据权利要求2所述的方法，其中，所述基于所述同步情况，确定所述第一语音指令的类型，包括：

基于所述第一图像数据，识别所述用户的第一状态；

响应于识别出所述用户的第一状态为打电话状态，确定所述第一语音指令的类型为无效；

响应于识别出所述用户的第一状态为非打电话状态，确定所述第一语音指令的类型为有效。

4.根据权利要求1所述的方法，其中，所述基于所述第一语音数据和所述第一图像数据，确定所述第一语音指令的类型，包括：

基于所述第一语音数据和所述第一图像数据，确定所述用户的第二状态；

响应于确定出所述用户的第二状态为与其他用户交谈状态，确定所述第一语音指令的类型为无效；

响应于确定出所述用户的第二状态为未与其他用户交谈状态，确定所述第一语音指令的类型为有效。

5.根据权利要求4所述的方法，其中，所述基于所述第一语音数据和所述第一图像数据，确定所述用户的第二状态，包括：

基于预先训练获得的多模态语音端点检测模型对所述第一语音数据和所述第一图像数据进行检测，获得第一检测结果，所述第一检测结果包括各用户的语音活动分类结果；

根据所述第一检测结果，确定所述用户的第二状态。

6.根据权利要求1所述的方法，其中，在基于所述第一语音数据和所述第一图像数据，确定所述第一语音指令的类型之前，所述方法还包括：

获取所述第一语音数据对应的目标音区；

基于所述第一图像数据，识别所述目标音区的用户；

所述基于所述第一语音数据和所述第一图像数据，确定所述第一语音指令的类型，包括：

响应于识别出所述目标音区存在用户，基于所述第一语音数据和所述第一图像数据，确定所述第一语音指令的类型。

7.根据权利要求2所述的方法，其中，在所述基于所述第一语音数据和所述第一图像数据，确定所述第一图像数据中所述用户的唇部动作与所述第一语音数据中所述用户的语音的同步情况之前，所述方法还包括：

基于所述第一图像数据检测所述用户的唇部遮挡状态；

所述基于所述第一语音数据和所述第一图像数据，确定所述第一图像数据中所述用户的唇部动作与所述第一语音数据中所述用户的语音的同步情况，包括：

响应于检测出所述用户的唇部遮挡状态为未遮挡，基于所述第一语音数据和所述第一图像数据，确定所述第一图像数据中所述用户的唇部动作与所述第一语音数据中所述用户的语音的同步情况。

8.根据权利要求2所述的方法，其中，所述基于所述第一语音数据和所述第一图像数据，确定所述第一图像数据中所述用户的唇部动作与所述第一语音数据中所述用户的语音的同步情况，包括：

基于预先训练获得的唇音同步检测模型，对所述第一语音数据和所述第一图像数据进行同步检测，获得第二检测结果；所述第二检测结果包括同步的概率；

基于所述第二检测结果，确定所述用户的唇部动作与所述用户的语音的同步情况。

9.根据权利要求1所述的方法，其中，在获取所述第一语音数据对应的第一图像数据之前，所述方法还包括：

基于第一预设规则，确定所述第一语音指令所属的预设指令；

所述获取所述第一语音数据对应的第一图像数据，包括：

响应于确定出所述第一语音指令属于目标预设指令，获取所述第一语音数据对应的第一图像数据。

10.根据权利要求1-9任一所述的方法，其中，在获取所述第一语音数据对应的第一图像数据之前，所述方法还包括：

基于第二预设规则，确定当前是否支持交互；

所述获取所述第一语音数据对应的第一图像数据，包括：

响应于当前支持交互，获取所述第一语音数据对应的第一图像数据。

11.根据权利要求10所述的方法，其中，所述基于第二预设规则，确定当前是否支持交互，包括：

基于所述第一语音指令对应的交互对象的当前状态，确定当前是否支持交互；或者，

基于当前所处场景，确定当前是否支持交互。

12.一种语音交互装置，包括：

第一确定模块，用于基于用户的第一语音数据确定第一语音指令；

第一获取模块，用于获取所述第一语音数据对应的第一图像数据；

第一处理模块，用于基于所述第一语音数据和所述第一图像数据，确定所述第一语音指令的类型；

第二处理模块，用于响应于确定出所述第一语音指令的类型为有效，根据所述第一语音指令执行所述第一语音指令对应的操作。

13.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-11任一所述的语音交互方法。

14.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-11任一所述的语音交互方法。