CN115793852A

CN115793852A - 基于座舱区域获取操作指示的方法、显示方法及相关设备

Info

Publication number: CN115793852A
Application number: CN202211430235.5A
Authority: CN
Inventors: 顾娟; 王光甫; 颉毅; 涂慧勋; 赵龙
Original assignee: Great Wall Motor Co Ltd
Current assignee: Great Wall Motor Co Ltd
Priority date: 2022-11-15
Filing date: 2022-11-15
Publication date: 2023-03-14
Also published as: WO2024104045A1

Abstract

本公开提供一种基于座舱区域获取操作指示的方法、显示方法及相关设备。所述方法包括：对座舱内用户的操作指令进行识别处理，得到第一识别结果；接收可穿戴电子设备对车载设备图标的第二识别结果；从预先划分标定的至少一个功能区域中，筛选与所述第一识别结果和/或所述第二识别结果对应的目标功能区域；获取所述目标功能区域对应的操作指示信息；将所述操作指示信息发送至所述可穿戴电子设备，以供所述可穿戴电子设备将所述操作指示信息提示给用户。

Description

基于座舱区域获取操作指示的方法、显示方法及相关设备

技术领域

本公开涉及智能驾驶技术领域，尤其涉及一种基于座舱区域获取操作指示的方法、显示方法及相关设备。

背景技术

在当今社会生活中，车辆的普及率不断提高。然而，车辆功能区域众多，相应地，功能区域的操作也越来越复杂。用户不熟悉车辆的功能区域如何操作，难以实现对功能区域的操作。当遇到紧急情况，用户不能对相应的功能区域进行操作，影响用户体验。

有鉴于此，如何确定用户想要了解的功能区域，并向用户展示对应功能区域的操作方式，成为了一个重要的研究问题。

发明内容

有鉴于此，本公开的目的在于提出一种基于座舱区域获取操作指示的方法、显示方法及相关设备，以解决现有技术中用户不了解功能区域的操作方式，不能对相应的功能区域进行操作的问题。

基于上述目的，本公开的第一方面提出了一种基于座舱区域获取操作指示的方法，包括：

对座舱内用户的操作指令进行识别处理，得到第一识别结果；

接收可穿戴电子设备对车载设备图标的第二识别结果；

从预先划分标定的至少一个功能区域中，筛选与所述第一识别结果和/或所述第二识别结果对应的目标功能区域；

获取所述目标功能区域对应的操作指示信息；

将所述操作指示信息发送至所述可穿戴电子设备，以供所述可穿戴电子设备将所述操作指示信息提示给用户。

在一些实施例中，所述从预先划分标定的至少一个功能区域中，筛选与所述第一识别结果和/或所述第二识别结果对应的目标功能区域，包括：

响应于确定所述第一识别结果满足预先设定的条件，触发多模态融合判断；

通过所述多模态融合判断对所述第一识别结果和/或所述第二识别结果进行判断处理，从预先划分标定的至少一个功能区域中确定得到目标功能区域；

将所述目标功能区域发送至车载虚拟个人助理，以供对所述目标功能区域进行确认。

在一些实施例中，所述第一识别结果包括下列至少之一：语音关键词识别结果、表情识别结果；

所述响应于确定所述第一识别结果满足预先设定的条件，触发多模态融合判断，包括：

响应于确定所述语音关键词识别结果中存在与所述至少一个功能区域一致的语音关键词，或者，所述表情识别结果中存在预设表情，触发多模态融合判断。

在一些实施例中，所述第一识别结果的数量为多个，所述第一识别结果包括下列至少两个：语音关键词识别结果、视线识别结果、手势识别结果和表情识别结果；

所述通过所述多模态融合判断对所述第一识别结果进行判断处理，包括：

通过所述多模态融合判断对至少两个第一识别结果按照预先设定的优先级顺序依次进行判断处理；

或者，

所述通过所述多模态融合判断对所述第一识别结果和所述第二识别结果进行判断处理，包括：

通过所述多模态融合判断对至少一个第一识别结果和所述第二识别结果按照预先设定的优先级顺序依次进行判断处理。

在一些实施例中，所述第一识别结果包括：语音关键词识别结果、视线识别结果、手势识别结果和表情识别结果；所述第二识别结果包括：车载设备图标识别结果；

所述通过所述多模态融合判断对所述第一识别结果和/或所述第二识别结果进行判断处理，从预先划分标定的至少一个功能区域中确定得到目标功能区域，包括：

通过所述多模态融合判断对所述第一识别结果和所述第二识别结果按照预先设定的优先级顺序依次进行判断处理，从预先划分标定的至少一个功能区域中确定得到目标功能区域；

其中，所述预先设定的优先级顺序为所述语音关键词识别结果、所述设备图标识别结果、所述视线识别结果、所述手势识别结果的优先级顺序。

在一些实施例中，所述通过所述多模态融合判断对所述第一识别结果和所述第二识别结果按照预先设定的优先级顺序依次进行判断处理，从预先划分标定的至少一个功能区域中确定得到目标功能区域，包括：

响应于确定所述语音关键词识别结果中存在与所述至少一个功能区域的关键词一致的语音关键词，将所述语音关键词一致的功能区域作为所述目标功能区域；

响应于确定所述语音关键词识别结果中不存在与所述至少一个功能区域的关键词一致的语音关键词，对所述车载设备图标识别结果进行判断；

响应于确定所述车载设备图标识别结果中存在一个功能区域的车载设备图标，将所述车载设备图标对应的功能区域作为所述目标功能区域；

响应于确定所述车载设备图标识别结果中存在至少两个功能区域的车载设备图标，在所述至少两个功能区域的基础上，对所述视线识别结果进行判断；

响应于确定所述车载设备图标识别结果中不存在功能区域的车载设备图标，对所述视线识别结果进行判断；

响应于确定所述视线识别结果中存在一个视线看向的功能区域，将所述视线看向的功能区域作为所述目标功能区域；

响应于确定所述视线识别结果中存在至少两个视线看向的功能区域，在所述至少两个视线看向的功能区域的基础上，对所述手势识别结果进行判断；

响应于确定所述视线识别结果中不存在视线看向的功能区域，对所述手势识别结果进行判断；

响应于确定所述手势识别结果中存在手指向的功能区域，将所述手指向的功能区域作为目标功能区域。

在一些实施例中，在所述从预先划分标定的至少一个功能区域中，筛选与所述第一识别结果和/或所述第二识别结果对应的目标功能区域之前，还包括：

通过对所述视线识别结果、所述手势识别结果和所述表情识别结果进行分析处理，得到人脸识别结果；

通过对所述语音关键词识别结果进行音区判断，得到音区位置识别结果；

对所述人脸识别结果和所述音区位置识别结果进行判断处理，得到匹配判断结果，以供确定所述第一识别结果为座舱内同一个用户的识别结果数据。

基于同一个发明构思，本公开的第二方面提出了一种操作指示的显示方法，包括：

对座舱内用户前方采集到的车载设备图标进行识别处理，得到第二识别结果；

将所述第二识别结果发送至车端，以供所述车端根据所述第二识别结果和所述车端获取的第一识别结果获取对应的操作指示信息；

接收所述车端的所述操作指示信息；

对所述操作指示信息进行语音播报或者在现实场景上进行叠加显示。

基于同一个发明构思，本公开的第三方面提出了一种车端，包括：

第一识别结果获取模块，被配置为对座舱内用户的操作指令进行识别处理，得到第一识别结果；

第二识别结果接收模块，被配置为接收可穿戴电子设备对车载设备图标的第二识别结果；

目标功能区域判定模块，被配置为从预先划分标定的至少一个功能区域中，筛选与所述第一识别结果和/或所述第二识别结果对应的目标功能区域；

操作指示信息获取模块，被配置为获取所述目标功能区域对应的操作指示信息；

操作指示信息发送模块，被配置为将所述操作指示信息发送至所述可穿戴电子设备，以供所述可穿戴电子设备将所述操作指示信息提示给用户。

基于同一个发明构思，本公开的第四方面提出了一种可穿戴电子设备，包括：

第二识别结果获取模块，被配置为对座舱内用户前方采集到的车载设备图标进行识别处理，得到第二识别结果；

第二识别结果发送模块，被配置为将所述第二识别结果发送至车端，以供所述车端根据所述第二识别结果和所述车端获取的第一识别结果获取对应的操作指示信息；

操作指示信息接收模块，被配置为接收所述车端的所述操作指示信息；

操作指示信息展示模块，被配置为对所述操作指示信息进行语音播报或者在现实场景上进行叠加显示。

基于同一发明构思，本公开的第五方面提出了一种电子设备，包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序，所述处理器在执行所述计算机程序时实现如上所述的方法。

基于同一发明构思，本公开的第六方面提出了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行如上所述的方法。

基于同一发明构思，本公开的第七方面提出了一种车辆，所述车辆包括第三方面所述的车端或第五方面所述的电子设备或第六方面所述的存储介质。

从上面所述可以看出，本公开提供的基于座舱区域获取操作指示的方法、显示方法及相关设备，根据座舱内用户操作指令的识别结果和/或车载电子设备的识别结果，筛选得到对应的目标功能区域，使得筛选得到的目标功能区域更加精准，准确得到用户感兴趣的目标功能区域；将目标功能区域对应的操作指示信息发送至可穿戴电子设备，对用户进行提示，以便用户及时了解目标功能区域的操作指示信息，根据操作指示信息对目标功能区域进行操作，改善用户的体验。

附图说明

为了更清楚地说明本公开或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例的基于座舱区域获取操作指示的方法的流程图；

图2为本公开实施例的操作指示的显示方法的流程图；

图3为本公开实施例的基于座舱区域的操作指示获取及显示的示意图；

图4为本公开实施例的XR眼镜的示意图；

图5为本公开实施例的车端的结构示意图；

图6为本公开实施例的可穿戴电子设备的结构示意图；

图7为本公开实施例的电子设备的结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

需要说明的是，除非另外定义，本公开实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

如上所述，如何确定用户想要了解的功能区域，并向用户展示对应功能区域的操作方式，成为了一个重要的研究问题。

基于上述描述，如图1所示，本实施例提出的基于座舱区域获取操作指示的方法，所述方法应用于车端，所述方法包括：

步骤101，对座舱内用户的操作指令进行识别处理，得到第一识别结果。

具体实施时，通过车端的传感器对座舱内用户的操作指令进行识别处理，得到第一识别结果。其中，所述传感器包括下列至少之一：惯性测量传感器(InertialMeasurement Unit，简称IMU传感器)、摄像头和收音设备。操作指令主要是用户的语音和行为，因此，第一识别结果主要是对用户的语音和行为进行识别，得到对应的识别结果。例如，第一识别结果可以是语音关键词识别结果、表情识别结果、视线识别结果和手势识别结果。根据第一识别结果中用户语音和行为中和功能区域相关的信息，可以确定用户感兴趣的目标功能区域。

步骤102，接收可穿戴电子设备对车载设备图标的第二识别结果。

具体实施时，可穿戴电子设备上设置有可以进行信息采集的传感器(例如，摄像头)。通过可穿戴电子设备上的传感器进行信息数据采集，对用户附近或者视线前方采集到的车载设备和显示屏上的图标进行识别处理，得到车载设备图标识别结果作为第二识别结果。其中，可穿戴电子设备可以是能进行数据处理的眼镜、耳机、手表、项链、耳钉、胸针等，在本实施例中，可穿戴电子设备优选为XR眼镜(扩展现实，Extended Reality，简称XR)。第二识别结果主要是车载设备图标识别结果，可以根据用户附近或者视线前方采集到的车载设备和图标确定用户感兴趣的目标功能区域。

步骤103，从预先划分标定的至少一个功能区域中，筛选与所述第一识别结果和/或所述第二识别结果对应的目标功能区域。

具体实施时，功能区域是对车辆座舱内各个车载设备和图标等按照不同的功能和位置进行划分得到。划分标定得到的功能区域包括多个，针对不同的车型按照车载设备的功能和位置进行功能区域的划分标定，例如，功能区域划分为：空调区域、娱乐屏、天窗、座椅等。根据第一识别结果和/或第二识别结果，从多个功能区域中筛选得到用户想要了解或者感兴趣的目标功能区域。

步骤104，获取所述目标功能区域对应的操作指示信息。

具体实施时，车端中预先存储有各个功能区域的操作指示信息，在筛选得到目标功能区域后，会调取对应的操作指示信息。其中，操作指示信息可以在知识图谱中调取，所述知识图谱存储在车端或者服务器中。所述操作指示信息包括下列至少之一：设备维修延展信息、设备运行动画展示。

步骤105，将所述操作指示信息发送至所述可穿戴电子设备，以供所述可穿戴电子设备将所述操作指示信息提示给用户。

具体实施时，将目标功能区域对应的操作指示信息发送至可穿戴电子设备，对用户进行提示，以便用户及时了解目标功能区域的操作指示信息，根据操作指示信息对目标功能区域进行操作，改善用户的体验。

在上述实施例中，根据座舱内用户操作指令的识别结果和/或车载电子设备的识别结果，筛选得到对应的目标功能区域，使得筛选得到的目标功能区域更加精准，准确得到用户感兴趣的目标功能区域；将目标功能区域对应的操作指示信息发送至可穿戴电子设备，对用户进行提示，以便用户及时了解目标功能区域的操作指示信息，根据操作指示信息对目标功能区域进行操作，改善用户的体验。

在一些实施例中，步骤103包括：

步骤1031，响应于确定所述第一识别结果满足预先设定的条件，触发多模态融合判断；

步骤1032，通过所述多模态融合判断对所述第一识别结果和/或所述第二识别结果进行判断处理，从预先划分标定的至少一个功能区域中确定得到目标功能区域；

步骤1033，将所述目标功能区域发送至车载虚拟个人助理，以供对所述目标功能区域进行确认。

具体实施时，当第一识别结果中满足对应的预先设定的条件，触发多模态融合判断。其中，第一识别结果可以只有一个，也可以包括多个。当第一识别结果包括多个时，第一识别结果中的至少一个满足预先设定的条件即可触发多模态融合判断。预先设定的条件可以是用户语音关键词中出现功能区域的名称，或者识别到用户表情与预设表情(如，困惑表情或者皱眉表情)一致等。

多模态融合判断是指多个识别结果之间的相关性较高，对多个识别结果之间按照规则进行判断处理。通过多模态融合判断对第一识别结果和/或第二识别结果进行判断处理，当判断到与功能区域相关的识别结果时，即将识别到的功能区域作为用户感兴趣的目标功能区域。例如，识别到有关功能区域名称的语音关键词，则将识别到的功能区域作为目标功能区域。将得到的目标功能区域发送至车载虚拟个人助理(Virtual PersonalAssistant，简称VPA)，通过VPA对目标功能区域进行确认。例如，VPA可以向用户进行语音提示，询问用户是否需要目标功能区域的详细信息，待用户确认后，即可得到准确的目标功能区域。

在上述方案中，当第一识别结果满足预先设定的条件时，触发多模态融合判断，通过多模态融合判断得到目标功能区域。因此，可以在用户想要了解功能区域的操作提示信息时，才会触发多模态融合判断确定用户想要了解的目标功能区域，不会随意触发多模态融合判断，产生触发判断错误的问题。确定得到目标功能区域后，通过VPA对目标功能区域进行确认，使得到的目标功能区域更加精准。

步骤1031包括：

步骤1031A，响应于确定所述语音关键词识别结果中存在与所述至少一个功能区域一致的语音关键词，或者，所述表情识别结果中存在预设表情，触发多模态融合判断。

具体实施时，第一识别结果包括多个。第一识别结果包括语音关键词识别结果或者表情识别结果时，触发多模态融合判断的条件为：语音关键词识别结果或者表情识别结果满足预先设定的条件。例如，语音关键词识别结果中存在与功能区域一致的语音关键词，或者，表情识别结果中存在预设表情，其中，预设表情可以是用户疑惑皱眉的表情。

在上述方案中，用户的语音关键词和表情可以更加准确地判断是否存在用户想要了解的功能区域。当语音关键词识别结果或者表情识别结果满足预先设定的条件时，触发多模态融合判断，使得多模态融合判断的触发条件更加准确，及时对用户感兴趣的功能区域进行判断。

步骤1032包括：

步骤1032A，通过所述多模态融合判断对至少两个第一识别结果按照预先设定的优先级顺序依次进行判断处理；

或者，

步骤1032B，通过所述多模态融合判断对至少一个第一识别结果和所述第二识别结果按照预先设定的优先级顺序依次进行判断处理。

具体实施时，在进行多模态融合判断时，如果对多个识别结果进行判断，多个识别结果之间存在预先设定的优先级顺序，对多个识别结果按照优先级顺序依次进行判断，直至确定得到唯一的目标功能区域，则判断结束。

第一识别结果的数量为多个，在多模态融合判断过程中，多个识别结果可以是至少两个第一识别结果，也可以是至少一个第一识别结果和第二识别结果。

在上述方案中，在进行多模态融合判断时，对多个识别结果按照预先设定的优先级顺序依次进行判断处理，得到目标功能区域。使得到的目标功能区域更加准确，当其中一个识别结果不能判断得到目标功能区域时，可以对下一个识别结果进行判断，直至得到目标功能区域，避免出现不能确定目标功能区域的问题。

步骤1032包括：

步骤10321，通过所述多模态融合判断对所述第一识别结果和所述第二识别结果按照预先设定的优先级顺序依次进行判断处理，从预先划分标定的至少一个功能区域中确定得到目标功能区域；

具体实施时，在进行多模态融合判断时，对多个识别结果按照预先设定的优先级顺序依次进行判断处理，得到目标功能区域。当第一识别结果包括语音关键词识别结果、视线识别结果、手势识别结果和表情识别结果，第二识别结果包括车载设备图标识别结果时，预先设定的优先级顺序为语音关键词识别结果、设备图标识别结果、视线识别结果、手势识别结果的优先级顺序。

在上述方案中，预先设定的优先级顺序按照识别结果对目标功能区域判断的精准程度进行排序，判断越准确的识别结果优先级越高，使得到的目标功能区域更加准确。

在一些实施例中，步骤10321包括：

步骤10321a，响应于确定所述语音关键词识别结果中存在与所述至少一个功能区域的关键词一致的语音关键词，将所述语音关键词一致的功能区域作为所述目标功能区域；

步骤10321b，响应于确定所述语音关键词识别结果中不存在与所述至少一个功能区域的关键词一致的语音关键词，对所述车载设备图标识别结果进行判断；

步骤10321c，响应于确定所述车载设备图标识别结果中存在一个功能区域的车载设备图标，将所述车载设备图标对应的功能区域作为所述目标功能区域；

步骤10321d，响应于确定所述车载设备图标识别结果中存在至少两个功能区域的车载设备图标，在所述至少两个功能区域的基础上，对所述视线识别结果进行判断；

步骤10321e，响应于确定所述车载设备图标识别结果中不存在功能区域的车载设备图标，对所述视线识别结果进行判断；

步骤10321f，响应于确定所述视线识别结果中存在一个视线看向的功能区域，将所述视线看向的功能区域作为所述目标功能区域；

步骤10321g，响应于确定所述视线识别结果中存在至少两个视线看向的功能区域，在所述至少两个视线看向的功能区域的基础上，对所述手势识别结果进行判断；

步骤10321h，响应于确定所述视线识别结果中不存在视线看向的功能区域，对所述手势识别结果进行判断；

步骤10321i，响应于确定所述手势识别结果中存在手指向的功能区域，将所述手指向的功能区域作为目标功能区域。

具体实施时，按照预先设定的优先级顺序依次进行判断，首先对语音识别结果进行判断，若能得到唯一的目标功能区域，则将所述目标功能区域发送至VPA进行确认；若不能得到目标功能区域，则按照优先级顺序对车载设备图标识别结果进行判断；若得到至少两个目标功能区域，则在所述至少两个目标功能区域的基础上，按照优先级顺序对车载设备图标识别结果进行判断，得到唯一的目标识别结果。按照预先设定的优先级顺序依次进行判断处理，其他识别结果的判断过程与上述语音关键词识别结果的判断过程类似，这里不再赘述。

除此之外，第一识别结果和第二识别结果通过传感器获取。例如，语音关键词识别结果通过收音设备(例如，麦克风)获取；视线识别结果、手势识别结果、表情识别结果通过摄像头获取，其中，摄像头包括下列至少之一：TOF摄像头(Time of Flight摄像头，简称TOF摄像头，输出3D点云信息)、DMS摄像头(Driver Monitoring System，简称DMS摄像头，采集对象为驾驶员)、OMS摄像头(Occupancy Monitoring System，简称OMS摄像头，采集对象为乘客)；设备图标识别结果通过可穿戴电子设备上的摄像头获取。另外，上述各个识别结果的获取过程均采用深度神经网络进行训练，使得上述各个识别结果更加精准。

在上述方案中，在按照优先级顺序对多个识别结果进行多模态融合判断时，当存在至少两个目标功能区域时，按照优先级顺序对下一个识别结果进行判断直至确定得到唯一的目标功能区域，使得到的目标功能区域唯一且准确。另外，各个识别结果的获取过程都是经过深度神经网络训练过的，因此，可以保证各个识别结果的准确性。

在一些实施例中，在步骤103之前，还包括：

步骤103A，通过对所述视线识别结果、所述手势识别结果和所述表情识别结果进行分析处理，得到人脸识别结果；

步骤103B，通过对所述语音关键词识别结果进行音区判断，得到音区位置识别结果；

步骤103C，对所述人脸识别结果和所述音区位置识别结果进行判断处理，得到匹配判断结果，以供确定所述第一识别结果为座舱内同一个用户的识别结果数据。

具体实施时，对摄像头采集到的视线识别结果、手势识别结果和表情识别结果进行分析处理，得到人脸识别结果，可以根据人脸识别结果确定以上三个识别结果为同一个用户的识别结果。对收音设备采集的语音关键词识别结果进行判断处理，得到音区位置识别结果，可以根据音区位置识别结果确定用户的位置。对人脸识别结果和音区位置识别结果进行判断处理，得到匹配判断结果，可以根据匹配判断结果确定第一识别结果均为同一个用户的识别结果。

在上述方案中，对第一识别结果中的各个识别结果进行分析处理，确定第一识别结果为同一用户的识别结果数据。避免出现识别结果不是同一用户识别结果的问题，进而影响目标功能区域的确定。

如图2所示，本实施例提出的操作指示的显示方法，所述方法应用于可佩戴电子设备，所述方法包括：

步骤201，对座舱内用户前方采集到的车载设备图标进行识别处理，得到第二识别结果。

步骤202，将所述第二识别结果发送至车端，以供所述车端根据所述第二识别结果和所述车端获取的第一识别结果获取对应的操作指示信息。

步骤203，接收所述车端的所述操作指示信息。

步骤204，对所述操作指示信息进行语音播报或者在现实场景上进行叠加显示。

具体实施时，可穿戴电子设备上设置有摄像头，通过摄像头采集用户前方或者附近的车载设备图标，得到第二识别结果。其中，第二识别结果包括车载设备图标识别结果。将所述第二识别结果发送至车端，车端可以根据第一识别结果和第二识别结果进行判断，确定目标功能区域，使得确定得到的目标功能区域更加精准。

车端确定得到目标功能区域，并调取对应的操作指示信息后，将操作指示信息发送至可穿戴电子设备，可穿戴电子设备可以对操作指示信息进行语音播报或者在现实场景上进行叠加显示。其中，操作指示信息包括下列至少之一：设备维修延展信息、设备运行动画展示。除此之外，车端也可以直接显示操作指示信息。

所述可穿戴电子设备可以是扩展现实眼镜(Extended Reality，简称XR眼镜)，XR眼镜包括增强现实眼镜(Augmented Reality，简称AR眼镜)和虚拟现实眼镜(VirtualReality，简称VR眼镜)，在使用过程中，可以借助其上安装的摄像头来与环境进行交互。通过XR眼镜在现实场景的对应目标功能区域位置叠加显示操作指示信息，使得用户更加清晰地获知对应目标功能区域的操作方式。

扩展现实，是指通过计算机将真实与虚拟相结合，打造一个可人机交互的虚拟环境，这也是AR、VR等多种技术的统称。通过将三者的视觉交互技术相融合，为体验者带来虚拟世界与现实世界之间无缝转换的“沉浸感”。

在上述实施例中，将可穿戴电子设备采集的第二识别结果与第一识别结果一同进行目标功能区域的确定，使得筛选得到的目标功能区域更加精准，准确得到用户感兴趣的目标功能区域。可穿戴电子设备将接收到的操作指示信息，向用户进行提示，用户可以及时了解目标功能区域的操作指示信息，根据操作指示信息对目标功能区域进行操作，并且，通过在现实场景上进行叠加显示，可以使用户清晰获知目标功能区域的操作方式，改善用户的体验。

需要说明的是，本公开的实施例还可以以下方式进一步描述：

如图3所示，图3为本公开实施例的基于座舱区域的操作指示获取及显示的示意图。

步骤1，多模态交互识别意图(意图，即目标功能区域)

对座舱内用户感兴趣的目标功能区域进行判断，可以根据多个识别结果进行判断，例如，可以根据语音关键词识别结果、表情识别结果、视线识别结果、手势识别结果以及车载设备图标识别结果进行判断。当前用户的目光所及、手之所向，以及言语中提及的关键词内容，对其进行多模态融合判断处理，得到用户感兴趣的目标功能区域。通过传感器进行相应多模态(语音关键词、表情、头姿视线、手势)的识别，得到对应的识别结果。最后，对以上识别结果进行判断处理，得到同一用户感兴趣的目标功能区域，向用户展示目标功能区域的操作指示信息。主要包括如下几个步骤：

(1)预处理：座舱功能区域的划分标定

将座舱内按照车设功能，分为不同的功能区域，如：空调区域、娱乐屏、天窗、座椅等。传感器对每个模态进行处理(即通过传感器对相应的识别结果进行采集处理的过程)前，要针对不同车型做功能区域的标定。而对每个模态进行处理，输出得到的是当前用户感兴趣的功能区域。

(2)预处理：同一用户识别结果的判断

1.人脸识别结果

通过对视线识别结果、手势识别结果和表情识别结果进行分析处理，判断上述识别结果是否为同一用户的识别结果，并判断该用户的位置。

2.音区位置识别结果

通过对语音关键词识别结果进行分析处理，根据音区声场位置进行判断，确定该用户所处的位置，结合对应的人脸识别结果，判断上述识别结果是同一用户的识别结果。

(3)多模态交互识别

在进行多模态交互识别时，主要通过传感器从视觉、听觉角度获取舱内用户的行为及语音。其中，传感器主要分为三类：视觉传感器(例如，TOF摄像头、DMS摄像头和OMS摄像头等)、听觉传感器(例如，麦克风话筒等收音设备)和IMU传感器。其中，视觉传感器采集用户的行为姿态数据；听觉传感器采集用户的语音数据；IMU传感器采集用户的运动姿态数据。

1.语音关键词识别

按座舱内不同的功能区域，提炼用户语音中和功能区域相关的关键词，通过语音识别座舱内用户的说话内容，获得他可能感兴趣的目标功能区域，得到语音关键词识别结果。上述语音关键词识别过程采用深度神经网络(例如，AI深度神经网络)进行训练。

2.头姿视线检测

根据摄像头输入，识别用户的头部姿态以及视线方向，判断用户可能感兴趣的目标功能区域，得到视线识别结果。上述头姿视线检测过程采用深度神经网络(例如，AI深度神经网络)进行训练，通过标定的功能区域来判断用户视线所看向的功能区域作为目标功能区域。

3.手势检测识别

根据摄像头输入，识别用户的手势姿态，根据用户手所指向或者整个手臂的指向的功能区域，判断用户可能感兴趣的目标功能区域，得到手势识别结果。上述手势检测识别过程采用深度神经网络(例如，AI深度神经网络)进行训练，通过标定的功能区域来判断用户手所指向的功能区域作为目标功能区域。

4.表情检测识别

根据摄像头输入，识别用户的表情，得到表情识别结果并作为判断触发条件提供给VPA虚拟助理。上述表情检测识别过程采用深度神经网络(例如，AI深度神经网络)进行训练。

5.车载设备识别

可佩戴电子设备可以采用虚拟现实显示设备，虚拟现实显示设备可以使用XR眼镜(包括AR眼镜和VR眼镜)，如图4所示，图4为本公开实施例的XR眼镜的示意图。该XR眼镜前带有视觉传感器(例如，摄像头，可以是一个摄像头也可以是多个摄像头，取决于XR眼镜设备)，可以采集用户视角的信息(例如，采集用户前方视角的车载设备图标得到车载设备图标识别结果)。除此之外，XR眼镜上还可以有陀螺仪、加速度计、磁力计等惯性传感器。该XR眼镜可以和车端建立连接，可以获得相应的输入输出信号。

XR眼镜上有摄像头，可以看到用户的视场角，识别出在这个画面里(50％中心区域)的车载设备和图标，和车端的功能区域建立对应的连接。上述车载设备识别过程采用深度神经网络(例如，AI深度神经网络)进行训练。

其中，训练过程可以分为：识别车载设备名称，训练输入为车载设备的各种角度图片，输出为车载设备名称；识别图标名称，训练输入为功能区域中图标的各个角度图片，输出为图标名称。

6.多模态融合判断目标功能区域

根据上述各个识别结果，通过多模态融合判断得出用户感兴趣的目标功能区域并发送至VPA虚拟助理，以便对目标功能区域进行进一步的确认。

·触发条件

当语音关键词识别结果或者表情识别结果满足预先设定的条件时(例如，所述表情识别结果识别到用户困惑或者皱眉的表情)，将触发多模态融合判断。

·融合计算感兴趣车设L_POI

L_POI＝_voice∩L_XR∩L_sightline∩L_handpoint

其中，L_voice为语音关键词识别结果；L_XR为车载设备图标识别结果；L_sightline为视线识别结果；L_handpoint为手势识别结果。

按照上述优先级顺序依次求交集，直到获得准确的唯一目标功能区域，则直接反馈给VPA。上述优先级顺序设置是因为语音关键词识别结果的置信度最高，得到的目标功能区域更加准确。

上述融合计算过程为：

判断L_voice是否可以得到唯一的目标功能区域，若可以得到唯一的目标功能区域，则直接得到目标功能区域并反馈给VPA；若得到多个目标功能区域，则在多个目标功能区域的基础上，对下一优先级的L_XR进行判断；若L_voice中不能得到目标功能区域，则从L_XR开始进行判断。

对L_XR进行判断，若根据L_XR可以得到唯一的目标功能区域，则直接得到目标功能区域并反馈给VPA；若根据L_XR得到多个目标功能区域，则在多个目标功能区域的基础上，对下一优先级的L_sightline进行判断；若根据L_XR不能得到目标功能区域，则从L_sightline开始进行判断。

对L_sightline和L_handpoint的判断过程与上述L_voice和L_XR的判断过程类似，这里不再赘述。

步骤2，VPA互动确认车设(车设，即目标功能区域)

在通过多模态融合判断确定得到目标功能区域后，将目标功能区域发送至VPA，通过VPA可以向用户进一步确认，例如，VPA可以向用户进行语音提示“看到您此时有些困惑，在关注目标功能区域，是否需要更多关于目标功能区域的详细帮助信息”。当用户确认之后，再将确认的目标功能区域对应的操作指示信息反馈给可穿戴电子设备，将对应的操作指示信息在可穿戴电子设备(例如，XR眼镜)中进行显示。

步骤3，混合现实展示车设内容(车设内容，即目标功能区域对应的操作指示信息)

根据从知识图谱中查询相应的操作指示信息。其中，知识图谱存储在车机设备信息或者服务器数据库中，操作指示信息可以是设备维修和延展信息、设备的运行动画展示等。将查询得到的操作指示信息贴到XR眼镜中目标功能区域进行叠加显示，在现实场景上进行叠加显示。

例如，当用户看向中控台的各类按钮图标(如雨刮器、车灯控制等)，提示图标的内容和详细的说明；当用户看向车底盘时，显示电机和发动机的运行动画；当用户看向空调出风口时，显示风运行的动画；当用户看向天窗和幕帘时，叠加天窗和幕帘的打开动画，并旁边标注；当用户看向按摩座椅时，箭头指示座椅的条件按钮；当用户提到香氛***，模拟香氛***在车内循环的动画，跟随用户的视野变化。

需要说明的是，本公开实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本公开实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。

需要说明的是，上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种车端。

参考图5，图5为本公开实施例的车端的结构示意图，包括：

第一识别结果获取模块301，被配置为对座舱内用户的操作指令进行识别处理，得到第一识别结果；

第二识别结果接收模块302，被配置为接收可穿戴电子设备对车载设备图标的第二识别结果；

目标功能区域判定模块303，被配置为从预先划分标定的至少一个功能区域中，筛选与所述第一识别结果和/或所述第二识别结果对应的目标功能区域；

操作指示信息获取模块304，被配置为获取所述目标功能区域对应的操作指示信息；

操作指示信息发送模块305，被配置为将所述操作指示信息发送至所述可穿戴电子设备，以供所述可穿戴电子设备将所述操作指示信息提示给用户。

在一些实施例中，目标功能区域判定模块303包括：

多模态融合判断触发单元，被配置为响应于确定所述第一识别结果满足预先设定的条件，触发多模态融合判断；

目标功能区域判定单元，被配置为通过所述多模态融合判断对所述第一识别结果和/或所述第二识别结果进行判断处理，从预先划分标定的至少一个功能区域中确定得到目标功能区域；

目标功能区域确认单元，被配置为将所述目标功能区域发送至车载虚拟个人助理，以供对所述目标功能区域进行确认。

多模态融合判断触发单元包括：

多模态融合判断触发子单元，被配置为响应于确定所述语音关键词识别结果中存在与所述至少一个功能区域一致的语音关键词，或者，所述表情识别结果中存在预设表情，触发多模态融合判断。

目标功能区域判定单元包括：

目标功能区域判定子单元，被配置为通过所述多模态融合判断对至少两个第一识别结果按照预先设定的优先级顺序依次进行判断处理；

或者，

目标功能区域判定子单元，被配置为通过所述多模态融合判断对至少一个第一识别结果和所述第二识别结果按照预先设定的优先级顺序依次进行判断处理。

目标功能区域判定单元包括：

目标功能区域判定子单元，被配置为通过所述多模态融合判断对所述第一识别结果和所述第二识别结果按照预先设定的优先级顺序依次进行判断处理，从预先划分标定的至少一个功能区域中确定得到目标功能区域；

在一些实施例中，目标功能区域判定子单元具体被配置为：

响应于确定所述语音关键词识别结果中存在与所述至少一个功能区域的关键词一致的语音关键词，将所述语音关键词一致的功能区域作为所述目标功能区域；响应于确定所述语音关键词识别结果中不存在与所述至少一个功能区域的关键词一致的语音关键词，对所述车载设备图标识别结果进行判断；响应于确定所述车载设备图标识别结果中存在一个功能区域的车载设备图标，将所述车载设备图标对应的功能区域作为所述目标功能区域；响应于确定所述车载设备图标识别结果中存在至少两个功能区域的车载设备图标，在所述至少两个功能区域的基础上，对所述视线识别结果进行判断；响应于确定所述车载设备图标识别结果中不存在功能区域的车载设备图标，对所述视线识别结果进行判断；响应于确定所述视线识别结果中存在一个视线看向的功能区域，将所述视线看向的功能区域作为所述目标功能区域；响应于确定所述视线识别结果中存在至少两个视线看向的功能区域，在所述至少两个视线看向的功能区域的基础上，对所述手势识别结果进行判断；响应于确定所述视线识别结果中不存在视线看向的功能区域，对所述手势识别结果进行判断；响应于确定所述手势识别结果中存在手指向的功能区域，将所述手指向的功能区域作为目标功能区域。

在一些实施例中，在目标功能区域判定模块303之前，还包括：

人脸识别结果获取单元，被配置为通过对所述视线识别结果、所述手势识别结果和所述表情识别结果进行分析处理，得到人脸识别结果；

音区位置识别结果获取单元，被配置为通过对所述语音关键词识别结果进行音区判断，得到音区位置识别结果；

匹配判断单元，被配置为对所述人脸识别结果和所述音区位置识别结果进行判断处理，得到匹配判断结果，以供确定所述第一识别结果为座舱内同一个用户的识别结果数据。

为了描述的方便，描述以上车端时以功能分为各种模块分别描述。当然，在实施本公开时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的车端用于实现前述任一实施例中相应的基于座舱区域获取操作指示的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种可穿戴电子设备。

参考图6，图6为本公开实施例的可穿戴电子设备的结构示意图，包括：

第二识别结果获取模块401，被配置为对座舱内用户前方采集到的车载设备图标进行识别处理，得到第二识别结果；

第二识别结果发送模块402，被配置为将所述第二识别结果发送至车端，以供所述车端根据所述第二识别结果和所述车端获取的第一识别结果获取对应的操作指示信息；

操作指示信息接收模块403，被配置为接收所述车端的所述操作指示信息；

操作指示信息展示模块404，被配置为对所述操作指示信息进行语音播报或者在现实场景上进行叠加显示。

为了描述的方便，描述以上可穿戴电子设备时以功能分为各种模块分别描述。当然，在实施本公开时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的可穿戴电子设备用于实现前述任一实施例中相应的操作指示的显示方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上任意一实施例所述的基于座舱区域获取操作指示的方法或者所述的操作指示的显示方法。

图7示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作***和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB(Universal Serial Bus，通用串行总线)、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI(Wireless Fidelity，无线网络通信技术)、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

上述实施例的电子设备用于实现前述任一实施例中相应的基于座舱区域获取操作指示的方法或者所述的操作指示的显示方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本公开还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的基于座舱区域获取操作指示的方法或者所述的操作指示的显示方法。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的基于座舱区域获取操作指示的方法或者所述的操作指示的显示方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

基于同一发明构思，与上述任意实施例方法相对应的，本申请还提供了一种车辆，包括上述实施例中的车端、或电子设备、或存储介质，所述车辆设备实现上任意一实施例所述的基于座舱区域获取操作指示的方法或者所述的操作指示的显示方法。

上述实施例的车辆用于实现前述任一实施例所述的基于座舱区域获取操作指示的方法或者所述的操作指示的显示方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本公开实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本公开实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本公开实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本公开实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本公开的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本公开实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本公开的具体实施例对本公开进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本公开实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本公开实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种基于座舱区域获取操作指示的方法，其特征在于，所述方法包括：

接收可穿戴电子设备对车载设备图标的第二识别结果；

获取所述目标功能区域对应的操作指示信息；

2.根据权利要求1所述的方法，其特征在于，所述从预先划分标定的至少一个功能区域中，筛选与所述第一识别结果和/或所述第二识别结果对应的目标功能区域，包括：

3.根据权利要求2所述的方法，其特征在于，所述第一识别结果包括下列至少之一：语音关键词识别结果、表情识别结果；

4.根据权利要求2所述的方法，其特征在于，所述第一识别结果的数量为多个，所述第一识别结果包括下列至少两个：语音关键词识别结果、视线识别结果、手势识别结果和表情识别结果；

或者，

5.根据权利要求2所述的方法，其特征在于，所述第一识别结果包括：语音关键词识别结果、视线识别结果、手势识别结果和表情识别结果；所述第二识别结果包括：车载设备图标识别结果；

6.根据权利要求5所述的方法，其特征在于，所述通过所述多模态融合判断对所述第一识别结果和所述第二识别结果按照预先设定的优先级顺序依次进行判断处理，从预先划分标定的至少一个功能区域中确定得到目标功能区域，包括：

7.根据权利要求5所述的方法，其特征在于，在所述从预先划分标定的至少一个功能区域中，筛选与所述第一识别结果和/或所述第二识别结果对应的目标功能区域之前，还包括：

8.一种操作指示的显示方法，其特征在于，所述方法包括：

接收所述车端的所述操作指示信息；

9.一种车端，其特征在于，包括：

10.一种可穿戴电子设备，其特征在于，包括：

11.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使计算机执行权利要求1至8任意一项所述的方法。

12.一种车辆，其特征在于，包括权利要求9所述的车端或权利要求11所述的存储介质。