CN113407758A

CN113407758A - 数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN113407758A
Application number: CN202110789225.XA
Authority: CN
Inventors: 袁志伟
Original assignee: FAW Group Corp
Current assignee: FAW Group Corp
Priority date: 2021-07-13
Filing date: 2021-07-13
Publication date: 2021-09-17

Abstract

本发明实施例公开了一种数据处理方法、装置、电子设备及存储介质，该方法包括：基于预先设置的麦克风阵列采集发言用户的语音信息，并确定与所述语音信息相对应的目标位置信息；确定与所述目标位置信息对应的目标发言用户的目标图像信息；根据所述目标图像信息，确定所述目标发言用户的角色权限；基于所述角色权限，确定与所述语音信息相对应的目标执行方式，以基于所述目标执行方式执行与所述语音信息相对应的操作。本发明实施例的技术方案，为各个位置的用户都提供了人机语音交互途径，提升了人机交互的效率和体验，同时保证了操作的安全性。

Description

数据处理方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种数据处理方法、装置、电子设备及存储介质。

背景技术

随着汽车技术的发展，用户对车内娱乐设备的需求也逐步提高。基于上述需求，可以在车内设置相应的智能娱乐屏幕。

现有技术中，通常在座舱内设置中控屏幕，车内主副驾驶位置的用户可以利用该中控屏幕与车机***进行交互。然而，一方面，这种方式没有考虑车内后排用户的交互需求，也即是说，后排用户无法便捷有效地使用中控屏幕；另一方面，当司乘人员以语音的方式向车机***下达指令时，环境中的噪音(如其他用户发出的语音)可能干扰***对指令的识别，进一步地，如果车机***错误地其他用户的语音识别为控制指令，甚至会造成安全事故。

因此，相关技术提供的方案在与车机***的交互过程中无法覆盖全体用户，以语音的方式向车机***下达指令时容易被其他声音干扰，车机***的智能度较低。

发明内容

本发明提供一种数据处理方法、装置、电子设备及存储介质，为各个位置的用户都提供了人机语音交互途径，提升了人机交互的效率和体验，同时保证了操作的安全性。

第一方面，本发明实施例提供了一种数据处理方法，该方法包括：

基于预先设置的麦克风阵列采集发言用户的语音信息，并确定与所述语音信息相对应的目标位置信息；

确定与所述目标位置信息对应的目标发言用户的目标图像信息；

根据所述目标图像信息，确定所述目标发言用户的角色权限；

基于所述角色权限，确定与所述语音信息相对应的目标执行方式，以基于所述目标执行方式执行与所述语音信息相对应的操作。

第二方面，本发明实施例还提供了一种数据处理装置，该装置包括：

语音信息采集模块，用于基于预先设置的麦克风阵列采集发言用户的语音信息，并确定与所述语音信息相对应的目标位置信息；

目标图像信息确定模块，用于确定与所述目标位置信息对应的目标发言用户的目标图像信息；

角色权限确定模块，用于根据所述目标图像信息，确定所述目标发言用户的角色权限；

目标执行方式确定模块，用于基于所述角色权限，确定与所述语音信息相对应的目标执行方式，以基于所述目标执行方式执行与所述语音信息相对应的操作。

第三方面，本发明实施例还提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明实施例任一所述的数据处理方法。

第四方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如本发明实施例任一所述的数据处理方法。

本发明实施例的技术方案，预先设置麦克风阵列，基于麦克风阵列采集发言用户的语音信息，并确定与语音信息相对应的目标位置信息，不仅为各个位置的人员都提供了人机语音交互的途径，还利用定向拾音避免了语音交互过程中其他声音的干扰，提高了人机交互的效率和体验，通过确定与目标位置信息对应的目标发言用户的目标图像信息，可以进一步确定目标发言用户的角色权限，基于角色权限确定执行方式以及与语音信息对应的操作，避免了低权限用户向***下发错误或危险的语音信息，确保了操作的安全性。

附图说明

为了更加清楚地说明本发明示例性实施例的技术方案，下面对描述实施例中所需要用到的附图做一简单介绍。显然，所介绍的附图只是本发明所要描述的一部分实施例的附图，而不是全部的附图，对于本领域普通技术人员，在不付出创造性劳动的前提下，还可以根据这些附图得到其他的附图。

图1为本发明实施例一所提供的一种数据处理方法的流程示意图；

图2为本发明实施例一所提供的一种数据处理方法的流程图；

图3为本发明实施例二所提供的一种数据处理方法的流程示意图；

图4为本发明实施例二中为引导用户参与语音交互所呈现的屏幕动效；

图5为本发明实施例二中为引导用户参与语音交互所呈现的氛围灯提示；

图6为本发明实施例二中为引导用户参与语音交互所呈现的实体机器人朝向提示；

图7为本发明实施例二所提供的一种数据处理方法的流程图；

图8为本发明实施例三所提供的一种数据处理装置的结构框图；

图9为本发明实施例四所提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一所提供的一种数据处理方法的流程示意图，本实施例可适用于空间内不同位置的用户与***进行语音交互的情况，尤其适用于部署了麦克风阵列的汽车座舱内，不同座位的用户与车机***进行语音交互的场景，该方法可以由数据处理装置来执行，该装置可以通过软件和/或硬件的形式实现，该硬件可以是电子设备，如移动终端、PC端或服务器等。

如图1所示，该方法具体包括如下步骤：

S110、基于预先设置的麦克风阵列采集发言用户的语音信息，并确定与语音信息相对应的目标位置信息。

其中，发言用户可以是处在空间中不同位置的、发出语音信息的用户，例如，位于汽车座舱内主驾驶位置的驾驶员通过语音的方式向车机***下达指令时，驾驶员可以作为发言用户，可以理解，当座舱内任意用户都有权限向车机***下发语音指令时，每个用户都可以作为发言用户。对应的，接收发言用户语音信息的装置可以是麦克风阵列，麦克风阵列由一定数目的声学传感器(如多个麦克风)构成，用于采集空间内多个方向的语音信号音源，在每个麦克风中都有一层碳膜，在收到声波压缩时会产生振动并与碳膜下方的电极接触，接触时长和频率与声波的振动幅度和频率有关，以此实现声音信号到电信号的转换。需要说明的是，麦克风阵列部署在汽车中时，通常与车机***相连接。

可以理解，相较于单一的麦克风，在空间内部署麦克风阵列不仅能够实现对空间内声音的采集，还可以进一步确定出该声音源的位置信息。

可选的，当基于预先设置的多音区麦克风阵列采集到目标唤醒词时，则采集发言用户的语音信息。

具体的，多音区麦克风阵列可以理解为，将组成麦克风阵列的多个声学传感器根据空间内的不同位置区域划分为多个音区，每个音区与特定的位置区域相对应，用于采集该位置区域内用户发出的语音信息。目标唤醒词可以是触发***语音助手或使***进入待命状态的词汇，例如，当车机***中安装有语音助手时，可以设置“助手”为目标唤醒词，当麦克风阵列采集到的语音中包含“助手”时，即可触发车机***的语音助手，并等待用户发出进一步的指令。需要说明的是，在实际应用过程中，对于发言用户来说，只有在发出含有目标唤醒词的语音时，才能唤醒语音助手，或使车机***进入待命状态，否则，在用户发出不包含目标唤醒词的普通语音时，***并不会做出反应。

在本实施例中，不同发言用户所坐的位置即是对应的位置信息，例如，汽车座舱内的驾驶员对应主驾驶的位置信息，副驾驶位置的用户对应副驾驶的位置信息。本领域技术人员应当理解，不同的座舱位置信息在车机***中存储时设置有特定的标识，如，对于四座汽车来说，主驾驶位置对应标识1，副驾驶位置对应标识2，后排左侧位置对应标识3，后排右侧位置对应标识4。

在本实施例中，基于麦克风阵列确定发言用户目标位置信息的方式至少有两种。第一种方式为，基于多音区麦克风阵列确定与语音信息相对应的目标发言用户的目标位置信息。

具体的，组成麦克风阵列的多个声学传感器在空间内进行部署时，可以根据不同位置区域划分为多个音区，同时，将不同音区的声学传感器与对应的位置信息进行关联，以映射表的形式存储在车机***数据库中。基于此，当发言用户发出语音信息时，可以确定出对语音信息感知最强烈的声学传感器(即确定出对语音信息感知最强烈的音区)，进而通过查表的方式确定出该发言用户对应的目标位置信息，实现定向拾音。继续以座舱内部署了麦克风阵列的四座汽车为例，四个座位的位置信息在车机***中存储时分别对应标识1、2、3、4，每个标识又与组成麦克风阵列的四个麦克风标识1’、2’、3’、4’对应，并以映射表的形式存储，当座位标识为3的后排左侧用户发出语音信息时，麦克风阵列中标识为3’的麦克风对该语音信息感知最强烈，通过查表的方式，车机***可以确定出与标识为3’的麦克风对应的标识为3的位置信息，即座舱后排左侧。

需要说明的是，当根据发言用户确定出目标音区后，还可以按照预设规则暂时关闭除目标音区之外的部分音区，仅锁定目标音区，并在中控屏幕上以可视化的方式引导当前发言用户下达后续的语音指令，提高了交互效率和交互体验。

第二种方式为，将空间内不同位置与麦克风阵列对应的距离范围和角度范围预先存储在***中，当发言用户发出语音信息时，可以基于声源定位算法确定出发言用户与麦克风阵列的距离和角度，根据所确定距离和角度所处的范围确定出发言用户所处的位置信息。以座舱内部署了麦克风阵列的四座汽车为例，当座舱后排左侧用户发出语音信息时，麦克风阵列基于声源定位算法确定出该用户与自身距离和角度分别为80cm，200°，同时，预先存储在车机***中的该座位位置信息与麦克风阵列的距离范围和角度范围分别为[30cm，120cm]、[180°，270°]，基于此，车机***可以确定出当前发言用户对应的位置信息为座舱后排左侧。

S120、确定与目标位置信息对应的目标发言用户的目标图像信息。

其中，目标图像信息是通过摄像装置拍摄得到的，可以理解，在空间内至少可以部署一个摄像装置，也可以部署多个摄像装置。当部署一个摄像装置，且该装置为静态时，可以获取空间的全景图像，进而从全景图像中确定出包括目标发言用户的目标图像信息，当该装置为动态时，可以在接收到发言用户语音信息后，利用空间内的滑轨移动至目标发言用户附近，进而采集包括目标发言用户的目标图像信息。

可选的，基于预先设置的至少一个摄像装置拍摄目标区域的待处理图像，并根据目标位置信息从待处理图像中确定出目标图像信息。

在本实施例中，可以预先在空间内部署至少一个摄像装置，并将其固定在空间内的某个位置，需要说明的是，在部署的过程中，还要使摄像装置满足可拍摄空间整体图像的条件。当摄像装置对该空间进行拍摄后，所得到的图像为待处理图像。

***为了基于图像对不同类型的用户提供针对性的反馈，还需要对摄像装置所拍摄的待处理图像做进一步处理。具体的，可以根据成像区域与空间内位置信息的对应关系预先配置脚本，当得到待处理图像时，根据预先配置的脚本即可在待处理图像中划分出与目标位置信息相对应的部分，进一步地，舍弃其他部分以剪裁出新的图像，并将剪裁得到的图像作为目标图像信息，可以理解，目标图像信息中包括目标发言用户，如，目标图像信息可以是目标发言用户的上身照片或头部照片。

示例性的，在四座汽车的中控位置部署一台全景摄像装置，并调节该装置的高度使其能够拍摄车内的全景图像，同时，根据主驾驶位置、副驾驶位置以及后排两个位置与全景摄像装置成像区域的关系，预先配置对应的脚本。当主驾驶位置的驾驶员发出语音信息后，该全景摄像装置即可拍摄一张包括座舱四个位置的全景图像作为待处理图像，进一步地，根据预先配置的脚本，可以在该全景图像中剪裁出仅包括主驾驶位置驾驶员的目标图像信息。

可选的，基于目标位置信息生成拍摄指令，并将拍摄指令发送至目标摄像装置，以使目标摄像装置拍摄与目标位置信息相对应的目标图像信息。

在本实施例中可以在空间各个位置部署多个摄像装置，同时，将各摄像装置与对应的位置信息相关联。在确定出目标位置信息后，即可通过查表的方式确定出对应的摄像装置，进而向该摄像装置下发拍摄指令。目标摄像装置接收到拍摄指令后，即可拍摄得到包括目标发言用户的目标图像信息。

继续以四座汽车为例进行说明，对应于主驾驶位置、副驾驶位置、后排左侧位置以及后排右侧位置分别部署四台摄像装置，并在车机***中预先存储表征各位置信息与摄像装置对应的关系的映射表。当主驾驶位置的驾驶员发出语音信息后，可以通过查表的方式确定出与主驾驶位置对应的摄像装置，进而利用该摄像装置对主驾驶位置进行拍摄，得到仅包括主驾驶位置驾驶员的目标图像信息。

在本实施例中，多种摄像装置的部署方式进一步增强了方案对空间的适应性。同时，本领域技术人员应当理解，本实施例中所采用的摄像装置可以有多种，如车内高清摄像头、枪机、半球形摄像机、一体化摄像机、红外日夜两用摄像机、高速球摄像机以及网络摄像机等多种设备，具体的摄像装置和部署方式应根据实际需求进行选择，本公开实施例在此不做具体的限定。

在汽车座舱应用场景中，通过摄像装置采集发言用户对应的目标图像信息后，还可以将目标图像信息上传至车机***，使车机***利用目标图像信息执行进一步的操作。

S130、根据目标图像信息，确定目标发言用户的角色权限。

其中，角色权限可以表征用户对当前***进行决策的范围和程度，可以理解，不同的发言用户可以有相同的角色权限，也可以有不同的角色权限。同时，用户的角色权限与不同类型用户的特征进行对应，并以映射表的形式预先存储在***中，基于此，在确定出目标发言用户的目标图像信息后，可以对图像进行分析处理，确定出目标发言用户的用户特征，进而通过查表的方式确定出与所确定的特征对应的角色权限。

以汽车为例，在车机***中可以预先存储不同类型用户的角色权限，具体的，主驾驶位置的成年人对应的角色权限为等级最高的一级权限，拥有对车辆多种功能的开启、关闭和调节权限，如，语音控制自动驾驶功能开启和关闭的权限；非主驾驶位置的成年人对应的角色权限为二级权限，拥有对车辆部分功能的开启、关闭和调节权限，如，语音控制对应车窗升降调节的权限；儿童对应的角色权限为三级权限，仅拥有不影响用户和车辆安全的特定权限。当座舱内的摄像装置采集目标发言用户的目标图像信息后，车机***可以对图像中的用户特征进行分析，确定出目标发言用户所处的年龄段，结合目标发言用户的目标位置信息，即可得到对应的角色权限。

S140、基于角色权限，确定与语音信息相对应的目标执行方式，以基于目标执行方式执行与语音信息相对应的操作。

在本实施例中，目标发言用户发出的语音信息中可以包括操作指令，例如，针对于车机***，汽车座舱主驾驶位置用户发出的语音信息中可以包括“开启自动驾驶”的指令。本领域技术人员应当理解，麦克风阵列采集的语音信息可以输入至预先训练好的语音识别算法模型中，进而确定出对应的操作指令。

在本实施例中，针对于不同的角色权限，***可以选择对应的处理逻辑作为目标执行方式。可选的，可以预先创建不同角色权限、可使用语音信息以及执行方式之间的对应关系，以在确定角色权限和语音信息时，基于对应关系确定目标执行方式。

继续以上述示例进行说明，当确定出发言用户的角色权限为等级最高的一级权限时，车机***可以结合所接收的语音信息在表征角色权限、可使用语音信息以及执行方式对应关系的映射表中进行查询，进而根据查询结果执行相对应的操作，如，开启汽车的自动驾驶功能；当确定出发言用户的角色权限为三级权限时，车机***根据查询结果则需要对主驾驶位置的用户反馈问询消息，根据反馈信息决定是否执行语音信息相对应的操作，如，车内儿童发出开启车床的指令时，车机***询问驾驶员是否同意该儿童开启对应的车窗。

为了清楚地介绍本实施例的技术方案，可以以应用场景为汽车座舱为例并结合图2中的流程进行说明，但不局限于上述场景，可以适用于多种基于采集的语音信息执行对应操作的场景中。参见图2，当汽车座舱内的用户使用唤醒词唤醒车机***的语音助手时，麦克风阵列可以对采集的语音信息进行识别，当识别成功时，语音助手可以向用户反馈唤醒应答；当识别失败时，如果用户不再唤醒语音助手，则流程结束，如果用户继续尝试唤醒语音助手，则需要继续下发包含唤醒词的语音信息。当语音助手反馈唤醒应答后，可以继续利用麦克风阵列定向拾取发言用户的语音信息，进而确定出用户的角色权限，并从语音信息中提取出对应的指令，选择与角色权限对应的执行方式来执行所提取的指令。

本实施例的技术方案，预先设置麦克风阵列，基于麦克风阵列采集发言用户的语音信息，并确定与语音信息相对应的目标位置信息，不仅为各个位置的人员都提供了人机语音交互的途径，还利用定向拾音避免了语音交互过程中其他声音的干扰，提高了人机交互的效率和体验，通过确定与目标位置信息对应的目标发言用户的目标图像信息，可以进一步确定目标发言用户的角色权限，基于角色权限确定执行方式以及与语音信息对应的操作，避免了低权限用户向***下发错误或危险的语音信息，确保了操作的安全性。

实施例二

图3为本发明实施例二所提供的一种数据处理方法的流程示意图，在前述实施例的基础上，基于年龄层级信息和目标位置信息，确定目标发言用户的角色权限，针对不同的角色权限，采用差异化的执行方式执行对应的操作，进一步提高了基于语音信息所执行操作的安全性。针对于具有非高级用户权限的用户发言的情况，通过以可视化的方式引导问询用户对语音信息进行决策，避免了空间内部署多音区麦克风阵列时导致的拾音混乱问题，进一步提高了语音交互的效率和体验。其具体的实施方式可以参见本实施例技术方案。其中，与上述实施例相同或者相应的技术术语在此不再赘述。

如图3所示，该方法具体包括如下步骤：

S210、基于预先设置的麦克风阵列采集发言用户的语音信息，并确定与语音信息相对应的目标位置信息。

S220、确定与目标位置信息对应的目标发言用户的目标图像信息。

S230、将目标图像信息输入至预先训练得到的目标用户分类模型中，得到目标图像信息中目标发言用户的年龄层级信息。

其中，目标用户分类模型可以基于目标图像信息中的用户特征判定出用户的年龄层级，如判定目标发言用户为成年用户还是未成年用户。示例性的，采用卷积神经网络作为算法模型，随机选择500张包括不同用户的图像作为训练集，以对模型进行训练，再随机采集1000张包括不同用户的图像，将其中500张作为验证集，以对模型参数进行估算，其余500张作为测试集对算法性能进行评价。在使用验证集寻找到最优模型参数后，再将作为训练集的500张图像与作为验证集的500张图像混合起来组成新的训练集对模型进行多次优化，当测得算法模型的目标检测评价指标达到预设阈值后，即认为模型训练完成。此时，***即可将目标图像信息作为输入，通过训练好的目标用户分类模型确定出目标发言用户的年龄层级信息，例如，在座舱内采集包含某成年用户头像的目标图像信息，并输入至上述模型后，所得到的年龄层级信息可以是“20～30岁”，在座舱内采集包含某未成年用户头像的目标图像信息，并输入至上述模型后，所得到的年龄层级信息可以是“10～18岁”。

S240、基于年龄层级信息和目标位置信息，确定目标发言用户的角色权限。

在本实施例中，目标发言用户的角色权限需要基于年龄层级信息和目标位置信息共同确定。以四座汽车的应用场景为例，当确定出目标发言用户位于主驾驶位置时，车机***并不能直接确定该用户拥有车辆多种功能的开启、关闭和调节权限，还需要结合由目标用户分类模型输出的年龄层级信息才能确定。可以理解，当模型输出结果表明主驾驶位置用户为未成年人时，所确定的角色权限不会是驾驶员对应的权限，而依然是不影响用户和车辆安全的与未成年用户对应的权限，在此基础上，车机***将拒绝执行该未成年用户下发的部分语音信息。示例性的，当确定出该未成年用户下发的语音信息为启动车辆时，车机***拒绝执行，并通过中控屏幕反馈拒绝执行该语音信息的提示消息，当确定出该未成年用户下发的语音信息为开启自动驾驶功能时，车机***直接执行熄火操作等。

S250、基于角色权限，确定与语音信息相对应的目标执行方式，以基于目标执行方式执行与语音信息相对应的操作。

可选的，如果角色权限为高级角色权限，则目标执行方式为执行与语音信息相对应的操作。

继续以上述示例进行说明，当判定出目标发言用户为主驾驶位置的驾驶员，目标用户分类模型输出的年龄层级信息也表征该驾驶员为成年人时，可以确定驾驶员对应的角色权限为高级角色权限，即拥有操控车辆的最高权限。与高级角色权项相对应，车机***接收到语音信息后，可以直接提取语音信息中的控制指令，并根据所提取的控制指令执行对应的操作，如，启动车辆，开启自动驾驶功能等。

可选的，如果角色权限为非高级角色权限，则根据预先建立的映射关系表确定与角色权限相对应可执行语音信息，基于语音信息和可执行语音信息，确定与语音信息相对应的目标执行方式。

与高级角色权限相对应，***还可以为用户赋予非高级角色权限。可以理解，高级角色权限的用户权限等级高于非高级角色权限的用户权限等级，不同权限所对应的控制功能也存在差异。

在本实施例中，通过预先存储的映射表可以确定出与非高级角色权限对应的可执行语音信息(即控制指令)，对于这些可以作为控制指令的语音信息，***既可以直接执行，也可以根据预设规则生成对应的问询信息反馈给主驾驶位置的驾驶员。

继续以上述示例进行说明，当判定出目标发言用户为后排位置的儿童用户时，在后续过程中，如果接收到该儿童用户发出启动车辆的语音信息，通过查表又确定出该语音信息并非可执行语音信息，对于该控制指令***会选择拒绝执行，并提示操作越限的消息；如果接收到该儿童用户发出调节车窗的语音信息，通过查表又确定出该语音信息为可执行语音信息，则可以直接执行调节车窗的操作。

尤其需要说明的是，当本实施例的方案应用在汽车领域时，车机***可以与云端进行互联。也即是说，当确定出目标发言用户及其对应的目标位置信息后，可以结合目标图像信息将所确定的数据上传至云端，由云端确定出发言用户的年龄层级信息，并基于年龄层级信息和和目标位置信息确定出目标发言用户的角色权限。通过引入云端对采集的数据进行处理，可以进一步提高数据处理的效率。

可选的，如果语音信息属于可执行语音信息，则目标执行方式为执行与语音信息相对应的操作。

示例性的，确定出汽车座舱内某成年用户对应的角色权限为非高级用户权限后，当该用户发出开启车内空调的语音信息时，通过查表的方式确定出该语音信息属于可执行语音信息，基于此，车机***可以向车辆发出开启车内空调的指令。

可选的，如果语音信息不属于可执行语音信息，则目标执行方式为基于播放装置播放语音信息，并在接收到高级角色权限用户发送的确认语音信息后，执行与确认语音信息相对应的操作。

在本实施例中，如果判定用户下发的语音信息不属于可执行语音信息，表明该语音信息对应的控制指令超出了该用户对***的控制权限。此时，需要利用空间内的播放装置播放该语音信息，并向拥有高级用户权限的用户反馈问询消息，以确定是否可以执行与该语音信息相对应的操作。

示例性的，目标发言用户为汽车座舱后排的儿童时，所对应的角色权限为非高级用户权限，当该儿童用户发出调节车窗的语音信息时，通过查表的方式确定出该语音信息不属于可执行语音信息，此时，可以在座舱内广播该儿童用户发出的调节车窗的语音信息，并利用车机***中部署的本地仲裁引擎智能选择当前座舱内拥有高级用户权限的用户。除拥有高级用户权限的用户外，选择问询用户的依据还可以是座舱内用户的位置信息、用户年龄段、用户的当前视线方向以及用户的聆听状态等，如，将位于主驾驶位置的用户、处于“30～40岁”年龄段的用户或者当前视线方向为中控屏幕的用户作为问询用户。

进一步地，确定出当前座舱内的问询用户后，还可以在中控屏幕上显示特定的提示信息，引导问询用户对上述语音信息进行决策。下面以图4、5、6为例进行说明，通过图4中的屏幕动效可以确定，当前座舱内主副驾驶位置的用户可以参与对该语音信息的决策；图5与图4表示的含义相同，仅在表现方式上存在差异，具体的，图5通过环绕在特定麦克风周围的氛围灯来引导问询用户；图6表示座舱内部署有用于辅助驾驶的实体机器人的情况，当确定出主驾驶位置的驾驶员有权限对上述语音信息进行决策时，该实体机器人则会将自身朝向调整为主驾驶位置，引导驾驶员对调节车窗的控制指令进行决策。

通过以可视化的方式引导问询用户对非高级用户权限对应用户发出的语音信息进行决策，避免了空间内部署多音区麦克风阵列时导致的拾音混乱问题，进一步提高了语音交互的效率和体验。

为了清楚地介绍本实施例的技术方案，可以以应用场景为汽车座舱为例并结合图7中的流程进行说明，但不局限于上述场景，可以适用于多种基于采集的语音信息执行对应操作的场景中。参见图7，当座舱内的用户利用目标唤醒词唤醒语音助手时，利用预先部署在车内的麦克风阵列以及摄像装置，可以确定发言用户的位置信息以及年龄层级信息，利用上述数据可以锁定麦克风阵列中对应的音区，以实现定向拾音。继续获取目标发言用户的语音信息，并将获取的语音信息上传至云端的语音交互服务中心，通过发言用户的位置信息以及年龄层级信息可以确定出对应的操作权限，当判定该发言用户对应高级用户权限时，对于该用户下发的可以作为控制指令的语音信息，车机***会选择直接执行对应的操作，并下发语音反馈；当判定该发言用户对应非高级用户权限时，对于该用户下发的可以作为控制指令的语音信息，可以生成引导其他用户介入的语音信息，并确定出对其他用户的权限要求，在座舱内进行广播。针对于发言用户下发的语音信息，通过预先部署的本地仲裁引擎还可以判定是否需要进一步交互，如果判定该语音信息对应的控制指令无需交互，则可以直接播报该控制指令并执行对应的操作；如果判定该语音信息对应的控制指令还需要进一步交互，则根据所确定的权限要求、当前座舱内用户的位置、年龄段、视线方向或聆听状态确定出问询用户，同时，通过屏幕动效、氛围灯以及实体机器人引导所确定出的问询用户参与对该语音信息的进一步交互。

本实施例的技术方案，基于年龄层级信息和目标位置信息，确定目标发言用户的角色权限，针对不同的角色权限，采用差异化的执行方式执行对应的操作，进一步提高了基于语音信息所执行操作的安全性。针对于具有非高级用户权限的用户发言的情况，通过以可视化的方式引导问询用户对语音信息进行决策，避免了空间内部署多音区麦克风阵列时导致的拾音混乱问题，进一步提高了语音交互的效率和体验。

实施例三

图8为本发明实施例三所提供的一种数据处理装置的结构框图，可执行本发明任意实施例所提供的数据处理方法，具备执行方法相应的功能模块和有益效果。如图8所示，该装置具体包括：语音信息采集模块310、目标图像信息确定模块320、角色权限确定模块330以及目标执行方式确定模块340。

语音信息采集模块310，用于基于预先设置的麦克风阵列采集发言用户的语音信息，并确定与所述语音信息相对应的目标位置信息。

目标图像信息确定模块320，用于确定与所述目标位置信息对应的目标发言用户的目标图像信息。

角色权限确定模块330，用于根据所述目标图像信息，确定所述目标发言用户的角色权限。

目标执行方式确定模块340，用于基于所述角色权限，确定与所述语音信息相对应的目标执行方式，以基于所述目标执行方式执行与所述语音信息相对应的操作。

在上述各技术方案的基础上，语音信息采集模块310包括语音信息采集单元以及目标位置信息确定单元。

语音信息采集单元，用于当基于预先设置的多音区麦克风阵列采集到目标唤醒词时，则采集发言用户的语音信息。

目标位置信息确定单元，用于基于所述多音区麦克风阵列确定与所述语音信息相对应的目标发言用户的目标位置信息。

可选的，目标图像信息确定模块320，还用于基于预先设置的至少一个摄像装置拍摄目标区域的待处理图像，并根据所述目标位置信息从所述待处理图像中确定出目标图像信息；或，基于所述目标位置信息生成拍摄指令，并将所述拍摄指令发送至目标摄像装置，以使所述目标摄像装置拍摄与所述目标位置信息相对应的目标图像信息；其中，所述目标图像信息中包括目标发言用户。

在上述各技术方案的基础上，角色权限确定模块330包括年龄层级信息确定单元以及角色权限确定单元。

年龄层级信息确定单元，用于将所述目标图像信息输入至预先训练得到的目标用户分类模型中，得到所述目标图像信息中目标发言用户的年龄层级信息。

角色权限确定单元，用于基于所述年龄层级信息和所述目标位置信息，确定所述目标发言用户的角色权限。

在上述各技术方案的基础上，目标执行方式确定模块340包括高级角色权限执行方式确定单元以及非高级角色权限执行方式确定单元。

高级角色权限执行方式确定单元，用于如果所述角色权限为高级角色权限，则所述目标执行方式为执行与所述语音信息相对应的操作。

非高级角色权限执行方式确定单元，用于如果所述角色权限为非高级角色权限，则根据预先建立的映射关系表确定与所述角色权限相对应可执行语音信息，基于所述语音信息和所述可执行语音信息，确定与所述语音信息相对应的目标执行方式；其中，所述高级角色权限的用户权限等级高于所述非高级角色权限的用户权限等级。

可选的，非高级角色权限执行方式确定单元，还用于如果所述语音信息属于所述可执行语音信息，则所述目标执行方式为执行与所述语音信息相对应的操作；如果所述语音信息不属于所述可执行语音信息，则所述目标执行方式为基于播放装置播放所述语音信息，并在接收到高级角色权限用户发送的确认语音信息后，执行与所述确认语音信息相对应的操作。

在上述各技术方案的基础上，数据处理装置还包括关系创建模块。

关系创建模块，用于预先创建不同角色权限、可使用语音信息以及执行方式之间的对应关系，以在确定角色权限和所述语音信息时，基于所述对应关系确定目标执行方式。

本实施例所提供的技术方案，预先设置麦克风阵列，基于麦克风阵列采集发言用户的语音信息，并确定与语音信息相对应的目标位置信息，不仅为各个位置的人员都提供了人机语音交互的途径，还利用定向拾音避免了语音交互过程中其他声音的干扰，提高了人机交互的效率和体验，通过确定与目标位置信息对应的目标发言用户的目标图像信息，可以进一步确定目标发言用户的角色权限，基于角色权限确定执行方式以及与语音信息对应的操作，确保了操作的安全性。

本发明实施例所提供的数据处理装置可执行本发明任意实施例所提供的数据处理方法，具备执行方法相应的功能模块和有益效果。

值得注意的是，上述装置所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明实施例的保护范围。

实施例四

图9为本发明实施例四所提供的一种电子设备的结构示意图。图9示出了适于用来实现本发明实施例实施方式的示例性电子设备40的框图。图9显示的电子设备40仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，电子设备40以通用计算设备的形式表现。电子设备40的组件可以包括但不限于：一个或者多个处理器或者处理单元401，***存储器402，连接不同***组件(包括***存储器402和处理单元401)的总线403。

总线403表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，***总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及***组件互连(PCI)总线。

电子设备40典型地包括多种计算机***可读介质。这些介质可以是任何能够被电子设备40访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

***存储器402可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(RAM)404和/或高速缓存存储器405。电子设备40可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机***存储介质。仅作为举例，存储***406可以用于读写不可移动的、非易失性磁介质(图9未显示，通常称为“硬盘驱动器”)。尽管图9中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线403相连。存储器402可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块407的程序/实用工具408，可以存储在例如存储器402中，这样的程序模块407包括但不限于操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块407通常执行本发明所描述的实施例中的功能和/或方法。

电子设备40也可以与一个或多个外部设备409(例如键盘、指向设备、显示器410等)通信，还可与一个或者多个使得用户能与该电子设备40交互的设备通信，和/或与使得该电子设备40能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口411进行。并且，电子设备40还可以通过网络适配器412与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器412通过总线403与电子设备40的其它模块通信。应当明白，尽管图9中未示出，可以结合电子设备40使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

处理单元401通过运行存储在***存储器402中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的数据处理方法。

实施例五

本发明实施例五还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行数据处理方法。

该方法包括：

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的项目代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的项目代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机项目代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。项目代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于预先设置的麦克风阵列采集发言用户的语音信息，并确定与所述语音信息相对应的目标位置信息，包括：

当基于预先设置的多音区麦克风阵列采集到目标唤醒词时，则采集发言用户的语音信息；

基于所述多音区麦克风阵列确定与所述语音信息相对应的目标发言用户的目标位置信息。

3.根据权利要求1所述的方法，其特征在于，所述确定与所述目标位置信息对应的目标发言用户的目标图像信息，包括：

基于预先设置的至少一个摄像装置拍摄目标区域的待处理图像，并根据所述目标位置信息从所述待处理图像中确定出目标图像信息；或，

基于所述目标位置信息生成拍摄指令，并将所述拍摄指令发送至目标摄像装置，以使所述目标摄像装置拍摄与所述目标位置信息相对应的目标图像信息；

其中，所述目标图像信息中包括目标发言用户。

4.根据权利要求1所述的方法，其特征在于，所述根据所述目标图像信息，确定所述目标发言用户的角色权限，包括：

将所述目标图像信息输入至预先训练得到的目标用户分类模型中，得到所述目标图像信息中目标发言用户的年龄层级信息；

基于所述年龄层级信息和所述目标位置信息，确定所述目标发言用户的角色权限。

5.根据权利要求1所述的方法，其特征在于，所述基于所述角色权限，确定与所述语音信息相对应的目标执行方式，以基于所述目标执行方式执行与所述语音信息相对应的操作，包括：

如果所述角色权限为高级角色权限，则所述目标执行方式为执行与所述语音信息相对应的操作；

如果所述角色权限为非高级角色权限，则根据预先建立的映射关系表确定与所述角色权限相对应可执行语音信息，基于所述语音信息和所述可执行语音信息，确定与所述语音信息相对应的目标执行方式；

其中，所述高级角色权限的用户权限等级高于所述非高级角色权限的用户权限等级。

6.根据权利要求5所述的方法，其特征在于，所述基于所述语音信息和所述可执行语音信息，确定与所述语音信息相对应的目标执行方式，包括：

如果所述语音信息属于所述可执行语音信息，则所述目标执行方式为执行与所述语音信息相对应的操作；

如果所述语音信息不属于所述可执行语音信息，则所述目标执行方式为基于播放装置播放所述语音信息，并在接收到高级角色权限用户发送的确认语音信息后，执行与所述确认语音信息相对应的操作。

7.根据权利要求1所述的方法，其特征在于，还包括：

预先创建不同角色权限、可使用语音信息以及执行方式之间的对应关系，以在确定角色权限和所述语音信息时，基于所述对应关系确定目标执行方式。

8.一种数据处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的数据处理方法。

10.一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的数据处理方法。