CN110070868B

CN110070868B - 车载***的语音交互方法、装置、汽车和机器可读介质

Info

Publication number: CN110070868B
Application number: CN201910350098.6A
Authority: CN
Inventors: 胡蓉; 于豪; 钟华; 程振华; 陈凌奇; 简驾
Original assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Current assignee: Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date: 2019-04-28
Filing date: 2019-04-28
Publication date: 2021-10-08
Anticipated expiration: 2039-04-28
Also published as: CN110070868A

Abstract

本发明实施例提供了一种车载***的语音交互方法、装置、汽车和机器可读介质，应用于汽车的车载***，其中，车载***包括麦克风阵列，通过麦克风阵列采集车内音区的声源信号，接着对声源信号进行同时识别，得到多个用户语音信号，然后分别采用各个用户语音信号，同时生成对应的语音指令，并分别执行与语音指令对应的操作，从而通过麦克风阵列对车内各音区进行声源信号的识别，得到每一路麦克风对应的语音指令，接着在后台分别对每个语音指令进行处理，实现在多人同时语音对话场景下，车载***进行多线程处理，提高了车载***的处理效率，同时可以满足多名用户在用一时刻不同的需求，提高了用户体验。

Description

车载***的语音交互方法、装置、汽车和机器可读介质

技术领域

本发明涉及语音识别技术领域，特别是涉及一种车载***的语音交互方法、一种车载***的语音交互装置、汽车和机器可读介质。

背景技术

在传统汽车中，基本不具有智能语音识别AI(Artificial Intelligence)技术。而随着人工智能的发展，智能汽车开始搭载智能语音对话引擎，从而可以实现语音识别、功能控制等。

然而，当前车内扬声器普遍设置于车门中，或中置扬声器，当车载***发声时，或是所有扬声器都发声，或是指定某个扬声器发声。当车内在同一时刻，有多位用户使用语音对话时，用户声音嘈杂，容易导致语音识别助手无法识别多位用户的语音指令，进而无法执行相应的操作。因此，当前车载***的语音识别仍未能满足用户的需求。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种车载***的语音交互方法和相应的一种车载***的语音交互装置、汽车、机器可读介质。

为了解决上述问题，本发明实施例公开了一种车载***的语音交互方法，所述车载***包括麦克风阵列，所述方法包括：

通过所述麦克风阵列采集车内音区的声源信号；

对所述声源信号进行同时识别，得到多个用户语音信号；

分别采用各个所述用户语音信号，同时生成对应的语音指令；

分别执行与所述语音指令对应的操作。

可选的，所述对所述车内声音信号中进行同时识别，得到多个用户语音信号，包括：

通过所述麦克风阵列进行声源定位，分别识别各个所述音区对应的主声源信号以及次声源信号；

分别对各个所述音区中所述次声源进行同时滤除，并将所述主声源转换为所述用户语音信号。

可选的，所述分别采用各个所述用户语音信号，同时生成对应的语音指令之后，还包括：

分别采用所述语音指令，确定针对所述用户的预设扬声器；

获取针对所述用户的噪声音量，并判断所述噪声音量是否大于第一门限值；

当所述噪声音量大于所述第一门限值时，根据第一预设阈值调节所述扬声器的音量；

当所述噪声音量小于或等于所述第一门限值时，根据第二预设阈值调节所述扬声器的音量。

可选的，所述当所述噪声音量大于所述第一门限值时，根据第一预设阈值调节所述扬声器的音量，包括：

判断所述扬声器的音量是否等于所述第一预设阈值；

当所述音量大于所述第一预设阈值时，将所述音量调节为所述第一预设阈值；

当所述音量小于所述第一预设阈值时，将所述音量调节为所述第一预设阈值。

可选的，当所述噪声音量小于或等于所述第一门限值时，根据第二预设阈值调节所述扬声器的音量，包括：

判断所述扬声器的音量是否等于所述第二预设阈值；

当所述音量大于所述第二预设阈值时，将所述音量调节为所述第二预设阈值；

当所述音量小于所述第二预设阈值时，将所述音量调节为所述第二预设阈值。

可选的，所述分别采用所述语音指令，确定针对所述用户的预设扬声器，包括：

分别采用各个所述语音指令，确定针对所述用户的预设扬声器。

可选的，所述分别采用所述语音指令，确定针对所述用户的预设扬声器，包括

从所有所述语音指令中，提取用于执行相同操作的语音指令作为第一语音指令，以及提取用于执行不同操作的语音指令作为第二语音指令；

采用所述第一语音指令，确定针对所述用户的多个扬声器；

采用各个所述第二语音指令，确定针对所述用户的扬声器。

可选的，所述分别执行与所述语音指令对应的操作，包括：

分别采用各个所述语音指令，确定与所述语音指令匹配的点播节目；

分别通过与各个所述语音指令适配的扬声器，播放点播节目。

可选的，还包括：

当接收到所述用户输入的切换指令时，控制多个扬声器播放同一个点播节目。

可选的，所述分别采用各个所述用户语音信号，同时生成对应的语音指令，包括：

分别对各个所述用户语音信号进行语音识别，同时生成对应的用户语音信息；

分别将各个所述用户语音信息发送至预设云端服务器进行语义识别，同时生成对应的语音指令。

本发明实施例还公开了一种车载***的语音交互装置，所述汽车设有麦克风阵列，所述装置包括：

声源信号采集模块，用于通过所述麦克风阵列采集车内音区的声源信号；

声音信号获取模块，用于对所述声源信号进行同时识别，得到多个用户语音信号；

语音指令生成模块，用于分别采用各个所述用户语音信号，同时生成对应的语音指令；

语音交互模块，用于分别执行与所述语音指令对应的操作。

可选的，所述声音信号获取模块包括：

声源识别子模块，用于通过所述麦克风阵列进行声源定位，分别识别各个所述音区对应的主声源信号以及次声源信号；

声源处理子模块，用于分别对各个所述音区中所述次声源进行同时滤除，并将所述主声源转换为所述用户语音信号。

可选的，还包括：

扬声器确定模块，用于分别采用所述语音指令，确定针对所述用户的预设扬声器；

噪声音量判断模块，用于获取针对所述用户的噪声音量，并判断所述噪声音量是否大于第一门限值；

第一调节模块，用于当所述噪声音量大于所述第一门限值时，根据第一预设阈值调节所述扬声器的音量；

第二调节模块，用于当所述噪声音量小于或等于所述第一门限值时，根据第二预设阈值调节所述扬声器的音量。

可选的，所述第一调节模块具体用于：

判断所述扬声器的音量是否等于所述第一预设阈值；

可选的，所述第二调节模块具体用于：

判断所述扬声器的音量是否等于所述第二预设阈值；

可选的，所述扬声器确定模块包括：

第一确定子模块，用于分别采用各个所述语音指令，确定针对所述用户的预设扬声器。

可选的，所述扬声器确定模块包括：

指令提取子模块，用于从所有所述语音指令中，提取用于执行相同操作的语音指令作为第一语音指令，以及提取用于执行不同操作的语音指令作为第二语音指令；

第一扬声器确定子模块，用于采用所述第一语音指令，确定针对所述用户的多个扬声器；

第二扬声器确定子模块，用于采用各个所述第二语音指令，确定针对所述用户的扬声器。

可选的，所述语音交互模块包括：

节目确定子模块，用于分别采用各个所述语音指令，确定与所述语音指令匹配的点播节目；

节目播放子模块，用于分别通过与各个所述语音指令适配的扬声器，播放点播节目。

可选的，所述扬声器确定模块还包括：

切换子模块，用于当接收到所述用户输入的切换指令时，控制多个扬声器播放同一个点播节目。

可选的，所述语音指令生成模块包括：

语音信号生成子模块，用于分别对各个所述用户语音信号进行语音识别，同时生成对应的用户语音信息；

语音指令生成子模块，用于分别将各个所述用户语音信息发送至预设云端服务器进行语义识别，同时生成对应的语音指令。

本发明实施例还公开了一种汽车，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述汽车执行如上所述的一个或多个的方法。

本发明实施例还公开了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得所述处理器执行如上所述的一个或多个的方法。

本发明实施例包括以下优点：

在本发明实施例中，应用于汽车的车载***，其中，车载***包括麦克风阵列，通过麦克风阵列采集车内音区的声源信号，接着对声源信号进行同时识别，得到多个用户语音信号，然后分别采用各个用户语音信号，同时生成对应的语音指令，并分别执行与语音指令对应的操作，从而通过麦克风阵列对车内各音区进行声源信号的识别，得到每一路麦克风对应的语音指令，接着在后台分别对每个语音指令进行处理，实现在多人同时语音对话场景下，车载***进行多线程处理，提高了车载***的处理效率，同时可以满足多名用户在用一时刻不同的需求，提高了用户体验。

附图说明

图1是本发明的一种车载***的语音交互方法实施例一的步骤流程图；

图2是本发明的一种车载***的语音交互方法实施例二的步骤流程图；

图3是本发明的一种车载***的语音交互方法实施例中扬声器布局示意图；

图4是本发明的一种车载***的语音交互装置实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明的一种车载***的语音交互方法实施例一的步骤流程图，具体可以包括如下步骤：

步骤101，通过麦克风阵列采集车内音区的声源信号；

作为一种示例，麦克风阵列可以由多个麦克风组成。用于接收不同位置的声源信号，其中，其可以设置于汽车车厢内部上方顶棚的位置，并设置为圆形、多边形等形状。

在本发明实施例中，车载***可以通过设置于车厢内部的麦克风阵列接收车内音区的声源信号。其中，对于不同汽车，车内音区的分布也不同。

例如，对于双人座的汽车而言，车内音区可以分为主驾音区以及副驾音区；对于四人座的汽车而言，车内音区可以分为主驾音区、副驾音区以及后排左音区以及后排右音区；对于七人座的汽车而言，车内音区可以分为主驾音区、副驾音区、中间第一音区、中间第二音区、后排第一音区、后排第二音区以及后排第三音区等。

需要说明的是，在下述本发明实施例中以四人座的汽车为例进行示例性说明，可以理解的是，本领域技术人员在本发明的思想下，可以根据不同车型，对音区进行划分，并实施本发明实施例，本发明对此不作限制。

在具体实现中，可以通过麦克风阵列中设置于不同方向上的麦克风，同时对各音区进行定向拾音，并对非人声信号进行滤除，从而采集车内各音区对应的声源信号。具体的，人声信号集中于100Hz-800Hz之间，可以将麦克风阵列上的每一个麦克风均进行物理方式的带通滤波，设置一个100Hz-2000Hz的BPF(Band-pass Filter，带通滤波器)对采集的信号进行频段提取，得到各音区对应的人声声源信号，从而通过机械物理滤波，滤除人声频段以外的信号，提高了声源信号获取的抗干扰性。

步骤102，对声源信号进行同时识别，得到多个用户语音信号；

在本发明实施例中，声源信号可以包括主声源信号以及次声源信号，通过麦克风阵列进行声源定位，分别识别各个音区对应的主声源信号以及次声源信号，接着可以分别对各个音区中次声源信号进行同时滤除，并将主声源信号作为用户语音信号。

在具体实现中，由于麦克风阵列各路麦克风设置于不同的方位，则对于每一路麦克风而言，不同音区的声源信号信号强度不同，因此，可以通过信号强度的不同，同时确定各音区对应的主声源信号以及次声源信号，其中，主声源信号为音区中信号强度最强的声源信号，次声源信号为音区中信号较弱的若干个声源信号。

在本发明实施例的一种示例中，在主驾音区中，麦克风阵列采集到的主驾声源信号最强，副驾声源信号、后排左声源信号以及后排右声源信号弱于主驾声源信号；相对的，在副驾音区中，麦克风阵列采集到的副驾声源信号最强，主驾声源信号、后排左声源信号以及后排右声源信号弱于主驾声源信号；后排左声源信号以及后排右声源信号与主驾声源信号以及副驾声源信号原理相同或相似，不再赘述。

在具体实现中，当确定各音区对应的主声源信号以及次声源信号后，可以对各音区中的次声源信号进行同时滤除，接着麦克风阵列可以将各音区中的主声源信号传输至数字音频处理模块，从而将模拟信号的主声源信号转换为数字信号的用户语音信号，并进一步进行ANC(Active Noise Cancellation，主动降噪)以及消除回声等后处理流程。

步骤103，分别采用各个用户语音信号，同时生成对应的语音指令；

在本发明实施例中，当确定各个音区对应的用户语音信号后，可以分别对各个进行语音识别，同时生成对应的用户语音信息，接着可以分别将各个用户语音信息发送至预设的云端服务器进行语义识别，从而同时生成对应的语音指令。此外，还可以在本地进行语义识别，生成对应的语音指令。

在具体实现中，可以分别将各个用户语音信号输入预设的语音模型中进行匹配识别，同时将各个用户语音信号转换为用户语音信息，从而将语音信号转换为文本信息。其中，预设的语音模型可以包括动态时间规整算法(DTW)、隐马尔科夫模型(HMM)、人工神经网络(ANN)等。

在具体实现中，将语音信号转换为文本信息后，可以对文本信息进行自然语义理解，将用户语音信号中的指令信息和对应的数据库进行匹配。具体地，可以将用户语音信息发送至云端服务器进行语音识别，还可以在本地进行语义识别，从而生成与用户语音信号对应的语音指令，进而可以确定车内各用户输入的语音指令。

步骤104，分别执行与语音指令对应的操作。

在本发明实施例中，当确定各个用户语音信号对应的语音指令后，可以分别执行与语音指令对应的操作，实现在多人同时语音对话场景下，车载***进行多线程处理，执行不同语音指令的过程中互不干扰，提高了车载***的处理效率，同时可以满足多名用户在用一时刻不同的需求，提高了用户体验。

在本发明实施例的一种示例中，假设当前汽车内乘坐有4名乘客，包括主驾a、副驾b、后排乘客c(后排左侧)以及后排乘客d(后排右侧)。当副驾b、后排乘客c以及后排乘客d在同一时刻对车载语音助手发出语音指令，则麦克风阵列采集到3名乘客对应的语音信号后，可以分别将各个语音信号进行处理，得到对应的语音信息，并进行语义识别，生成对应的语音指令，如副驾b对应的语音指令为“播放音乐”、后排乘客c对应的语音指令为“打开车窗”以及后排乘客d对应的语音指令为“关闭空调”，则车载***可以同时分别执行为副驾b“播放音乐”，为后排乘客c打开对应车窗以及为后排乘客d关闭对应的空调等操作，从而实现了在多人同时语音对话场景下，车载***进行多线程处理，执行不同语音指令的过程中互不干扰，提高了车载***的处理效率，同时可以满足多名用户在用一时刻不同的需求，提高了用户体验。

参考图2，示出了本发明的一种车载***的语义交互方法实施例二的步骤流程图，具体可以包括如下步骤：

步骤201，通过麦克风阵列采集车内音区的声源信号；

在具体实现中，车内音区可以分为主驾音区、副驾音区、后排左音区以及后排右音区等，可以通过麦克风阵列中设置于不同方位的麦克风同时进行信号采集，并对非人声信号进行滤除，从而采集车内各音区对应的声源信号。

具体的，人声信号集中于100Hz-800Hz之间，可以将麦克风阵列上的每一个麦克风均进行物理方式的带通滤波，设置一个100Hz-2000Hz的BPF(Band-pass Filter，带通滤波器)对采集的信号进行频段提取，得到各音区对应的人声声源信号，从而通过机械物理滤波，滤除人声频段以外的信号，提高了声源信号获取的抗干扰性。

步骤202，对声源信号进行同时识别，得到多个用户语音信号；

在本发明实施例中，声源信号可以包括主声源信号以及次声源信号，通过麦克风阵列进行声源定位，分别识别各个音区对应的主声源信号以及次声源信号，接着可以分别对各个音区中次声源信号进行滤除，并将主声源信号转换为用户语音信号。

在具体实现中，由于麦克风阵列各路麦克风设置于不同的方位，则对于每一路麦克风而言，不同音区的声源信号信号强度不同，因此，可以通过信号强度的不同确定各音区对应的主声源信号以及次声源信号，其中，主声源信号为音区中信号强度最强的声源信号，次声源信号为音区中信号较弱的若干个声源信号。

步骤203，分别采用各个用户语音信号，同时生成对应的语音指令；

在具体实现中，当确定各个音区对应的用户语音信号后，可以分别对各个进行语音识别，同时生成对应的用户语音信息，接着可以分别将各个用户语音信息发送至预设的云端服务器进行语义识别，从而同时生成对应的语音指令。此外，还可以在本地进行语义识别，生成对应的语音指令。

步骤204，分别采用语音指令，确定针对用户的预设扬声器；

在本发明实施例中，当确定语音指令后，可以进一步分别采用语音指令，确定各个语音指令对应的扬声器，从而针对不同音区的乘客，调用不同的扬声器，避免不同音区之间的相互干扰，提高乘客的用户体验。

在具体实现中，当车内各用户输入的语音指令为不同指令时，可以分别采用各个语音指令，确定针对用户的扬声器；当车内部分用户输入的语音指令相同时，可以先从所有语音指令中，提取用于执行相同操作的语音指令作为第一语音指令，以及提取用于执行不同操作的语音指令作为第二语音指令，接着可以采用第一语音指令，确定针对用户的多个扬声器，并调用对应的多个扬声器执行相同的操作，以及采用各个第二语音指令，确定针对用户的扬声器，并调用各扬声器执行对应的操作。

在本发明实施例的一种示例中，参考图3所示，示出了本发明实施例中扬声器的布局示意图，各路扬声器可以布置在汽车座椅的四周，至少可以包括以汽车座椅为中心的前、后、左、右、上、下等六个方向；作为一种可选的实施方式，扬声器可以分别布置在以下位置：汽车的车门、前方中控台、顶棚、后置搁物板、地板以及座椅上；具体地，座椅上的扬声器可以布置于座椅头枕。通过在以座椅为中心的各个方向布置可以旋转的扬声器，当用户坐上座椅之后，可以通过环绕用户设置的多个扬声器产生立体声场，尤其是设置在顶棚和地板的扬声器，可以营造出声源位于用户头顶和脚下的声场效果。

在具体实现中，由于麦克风阵列中各路麦克风的位置，以及车内各路扬声器的位置相对固定，麦克风阵列可以确定不同音区对应的语音指令，不同音区可以对应不同的扬声器，则可以根据麦克风阵列与音区的映射关系，以及音区与各路扬声器的映射关系，从而确定语音指令与各路扬声器之间的关系。具体的，麦克风阵列中设置于不同方位的麦克风可以采集不同音区的声源信号，并转换为与音区对应的语音指令，接着可以根据音区对应的扬声器，调用扬声器，执行对应的语音指令，从而将人机交互自动切换至与音区对应的最近的扬声器，实现了多路扬声器同时工作时，互不干扰，满足不同乘客的需求，提高了用户体验。

在本发明实施例的一种示例中，当车内各用户输入的语音指令均不同时，如车内乘客包括主驾a、副驾b、后排乘客c以及后排乘客d，分别对应的语音指令为：主驾a-“播放节目1”、副驾b-“播放节目2”、后排乘客c-“播放节目3”以及后排乘客d-“播放节目4”，则可以调用与主驾a对应的扬声器一播放节目1，调用与副驾b对应的扬声器二播放节目2，调用与后排乘客c对应的扬声器三播放节目3，调用与后排乘客d对应的扬声器四播放节目4。

在本发明实施例的另一种示例中，当车内部分用户输入的语音指令相同，部分用户输入的语音指令不同时，如车内乘客包括主驾a、副驾b、后排乘客c以及后排乘客d，分别对应的语音指令为：主驾a-“播放节目1”、副驾b-“播放节目1”、后排乘客c-“播放节目2”以及后排乘客d-“播放节目3”，可以将主驾a以及副驾b的语音指令作为第一语音指令，并确定对应的扬声器为扬声器一以及扬声器二，同时可以将后排乘客c以及后排乘客d的语音指令作为第二语音指令，并确定对应的扬声器为扬声器三以及扬声器四，然后调用与主驾a对应的扬声器一以及与副驾b对应的扬声器二播放节目1，调用与后排乘客c对应的扬声器三播放节目2，以及调用与后排乘客d对应的扬声器四播放节目3。

步骤205，获取针对用户的噪声音量，并判断噪声音量是否大于第一门限值；

在具体实现中，为了进一步对扬声器进行控制，可以通过判断各路扬声器音量是否为预设阈值，从而可以根据判断结果对扬声器的音量进行调节，避免当离扬声器近时，音量较大，对乘客耳朵造成伤害，或干扰其他乘客；当离扬声器远时，乘客听不清楚扬声器播放的内容。同时，在行车环境中，汽车存在车窗封闭以及车窗敞开的情况，在车窗封闭时，环境噪声对车内扬声器的音量影响较小，在车窗敞开时，车外噪声由于音量较大，容易对车内扬声器的音量造成影响，进而影响车内乘客的体验。

在具体实现中，可以预先在车载***中设置与环境噪声音量对应的第一门限值，并通过该第一门限值对车窗开关情况进行监测，当环境噪声音量大于第一门限值时，则表示此时汽车车窗处于敞开状态，当环境噪声音量小于或等于第一门限值时，则表示此时汽车车窗处于封闭状态，或汽车处于较为安静的环境中。

其中，在部分场景中，如汽车停驻于森林、山顶、停车场等相对安静的环境，由于车外环境噪声音量较小，则此时环境噪声对车内扬声器的影响可以近似于“当车窗封闭时”的情形，在此场景中，可以按照车窗封闭时的情况，对车内扬声器进行音量调节。

步骤206，根据判断结果，调节扬声器的音量；

在本发明实施例中，当环境噪声音量进行判断后，可以根据判断结果，调节扬声器的音量。具体的，当噪声音量大于第一门限值时，根据第一预设阈值调节扬声器的音量；当噪声音量小于或等于第一门限值时，根据第二预设阈值调节扬声器的音量。其中，第一预设阈值为当汽车车窗敞开时，扬声器对应的音量调节阈值；第二预设阈值为当汽车车窗封闭时，扬声器对应的音量调节阈值，第一预设阈值大于第二预设阈值。

在本发明实施例的一种示例中，当环境噪声音量大于第一门限值时，可以进一步判断扬声器的音量是否等于第一预设阈值，当音量大于第一预设阈值时，将音量调节为第一预设阈值，当音量小于第一预设阈值时，将音量调节为第一预设阈值。

在具体实现中，在汽车车窗敞开的情况下，由于环境噪声容易对车内扬声器造成影响，使得乘客听不清扬声器播放的内容，因此，当监测到环境噪声音量大于第一门限值时，表明此时车外环境噪声可能对车内乘客造成影响，可以进一步根据预先设置的音量较高的第一预设阈值，对当前扬声器的音量进行调节，具体的，若当前扬声器音量大于第一预设阈值时，将音量调节为第一预设阈值，若当前扬声器音量小于第一预设阈值时，将音量调节为第一预设阈值。

需要说明的是，用户可以根据实际需要再进行音量调节，如当车载***将扬声器音量调节至第一预设阈值时，用户仍听不清扬声器播放的内容，可以自行将音量调大，或用户觉得第一预设阈值的音量过于大声，耳朵感到不适，可以将音量调小。

在本发明实施例的另一种示例中，当环境噪声音量小于或等于第一门限值时，可以进一步判断扬声器的音量是否等于第二预设阈值，当音量大于第二预设阈值时，将音量调节为第二预设阈值，当音量小于第二预设阈值时，将音量调节为第二预设阈值。

在具体实现中，在汽车车窗封闭的情况下，当扬声器的音量大于第二预设阈值时，车载***可以将音量调节至与第二预设阈值相等的音量；当扬声器的音量小于第二预设阈值时，车载***可以将音量调节至与第二预设阈值相等的音量，从而避免当离扬声器近时，音量较大，对乘客耳朵造成伤害，或干扰其他乘客；当离扬声器远时，乘客听不清楚扬声器播放的内容。

需要说明的是，预设阈值与用户习惯相关，当车载***为用户调节音量后，用户可以根据实际需求自行对音量进行调节。可以理解的是，在本发明实施例的思想下，本领域技术人员可以根据实际情况，对预设阈值进行设置，本发明对此不作限制。

步骤207，分别执行与语音指令对应的操作。

在本发明实施例中，当确定各个用户语音信号对应的语音指令，以及对应的扬声器后，可以采用各个语音指令，确定与语音指令适配的点播节目，并同时通过分别调用各路扬声器播放与语音指令对应的点播节目，从而实现在多人同时语音对话场景下，车载***进行多线程处理，在不同音区播放不同点播节目的过程中互不干扰，提高了车载***的处理效率，同时可以满足多名用户在用一时刻不同的需求，提高了用户体验。

在本发明实施例的一种示例中，假设当前汽车内乘坐有4名乘客，包括主驾a、副驾b、后排乘客c(后排左侧)以及后排乘客d(后排右侧)。当主驾a、副驾b、后排乘客c以及后排乘客d在同一时刻对车载语音助手发出语音指令，则麦克风阵列采集到4名乘客对应的语音信号后，可以分别将各个语音信号进行处理，得到对应的语音信息，并进行语义识别，生成对应的语音指令，如主驾a对应的语音指令为“导航”、副驾b对应的语音指令为“点播节目1”、后排乘客c对应的语音指令为“点播节目2”以及后排乘客d对应的语音指令为“点播节目2”，则可以先确定主驾对应的扬声器一、副驾对应的扬声器二、后排乘客c对应的扬声器三以及后排乘客d对应的扬声器四，并调节音量，接着车载***可以同时调用扬声器一为主驾a播放导航路线，调用扬声器二为副驾b播放“节目1”，调用扬声器三为后排乘客c播放“节目2”以及调用扬声器四为后排乘客d播放“节目3”等操作，从而实现了在多人同时语音对话场景下，车载***进行多线程处理，在不同音区播放不同点播节目的过程中互不干扰，提高了车载***的处理效率，同时可以满足多名用户在用一时刻不同的需求，提高了用户体验。

在本发明实施例中，当接收到用户输入的切换指令时，可以控制多个扬声器播放同一个点播节目。具体的，在分别通过与各个语音指令适配的扬声器，播放点播节目后，在播放过程中，当第一乘客对第二乘客的点播节目感兴趣时，第一乘客可以输入切换的语音指令，由车载***根据该语音指令，控制第一乘客对应的扬声器播放第二乘客的点播节目。

在本发明实施例的一种示例中，假设当前汽车内后排乘客c对应的扬声器三正在播放节目3，后排乘客d对应的扬声器正在播放节目4，此时，乘客d对节目3感兴趣，可以通过语音输入切换指令，车载***可以采用该切换指令，同时控制扬声器三以及扬声器四播放节目3，从而可以满足多名用户在用一时刻不同的需求，提高了用户体验。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图4，示出了本发明的一种车载***的语音交互装置实施例的结构框图，具体可以包括如下模块：

声源信号采集模块401，用于通过所述麦克风阵列采集车内音区的声源信号；

声音信号获取模块402，用于对所述声源信号进行同时识别，得到多个用户语音信号；

语音指令生成模块403，用于分别采用各个所述用户语音信号，同时生成对应的语音指令；

语音交互模块404，用于分别执行与所述语音指令对应的操作。

在本发明实施例的一种可选实施例中，所述声音信号获取模块包括：

在本发明实施例的一种可选实施例中，还包括：

在本发明实施例的一种可选实施例中，所述第一调节模块具体用于：

判断所述扬声器的音量是否等于所述第一预设阈值；

在本发明实施例的一种可选实施例中，所述第二调节模块具体用于：

判断所述扬声器的音量是否等于所述第二预设阈值；

在本发明实施例的一种可选实施例中，所述扬声器确定模块包括：

在本发明实施例的一种可选实施例中，所述语音交互模块包括：

节目播放子模块，用于分别通过与各个所述语音指令适配的扬声器，播放所述点播节目。

在本发明实施例的一种可选实施例中，所述扬声器确定模块还包括：

在本发明实施例的一种可选实施例中，所述语音指令生成模块包括：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明实施例还提供了一种汽车，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述汽车执行本发明实施例所述的方法。

本发明实施例还提供了一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得所述处理器执行本发明实施例所述的方法。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器、EEPROM、Flash以及eMMC等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种车载***的语音交互方法和一种车载***的语音交互装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种车载***的语音交互方法，其特征在于，所述车载***包括麦克风阵列，所述方法包括：

通过所述麦克风阵列采集车内音区的声源信号；

对所述声源信号进行同时识别，得到多个用户语音信号；

分别执行与所述语音指令对应的操作；

其中，所述对所述声源信号进行同时识别，得到多个用户语音信号，包括：

通过所述麦克风阵列进行声源定位，分别识别各个所述音区对应的主声源信号以及次声源信号，所述次声源信号的信号强度低于所述主声源信号的信号强度；

分别对各个所述音区中所述次声源进行同时滤除，并将所述主声源信号转换为所述用户语音信号；

其中，所述方法还包括：

分别采用所述语音指令，确定针对所述用户的预设扬声器；

获取针对所述用户的噪声音量，并根据所述噪声音量对扬声器的音量进行调节。

2.根据权利要求1所述的方法，其特征在于，所述根据所述噪声音量对扬声器的音量进行调节，包括：

判断所述噪声音量是否大于第一门限值；

3.根据权利要求2所述的方法，其特征在于，所述当所述噪声音量大于所述第一门限值时，根据第一预设阈值调节所述扬声器的音量，包括：

判断所述扬声器的音量是否等于所述第一预设阈值；

4.根据权利要求2所述的方法，其特征在于，当所述噪声音量小于或等于所述第一门限值时，根据第二预设阈值调节所述扬声器的音量，包括：

判断所述扬声器的音量是否等于所述第二预设阈值；

5.根据权利要求2所述的方法，其特征在于，所述分别采用所述语音指令，确定针对所述用户的预设扬声器，包括：

6.根据权利要求2所述的方法，其特征在于，所述分别采用所述语音指令，确定针对所述用户的预设扬声器，包括

采用所述第一语音指令，确定针对所述用户的多个扬声器；

采用各个所述第二语音指令，确定针对所述用户的扬声器。

7.根据权利要求2所述的方法，其特征在于，所述分别执行与所述语音指令对应的操作，包括：

8.根据权利要求7所述的方法，其特征在于，还包括：

9.根据权利要求1所述的方法，其特征在于，所述分别采用各个所述用户语音信号，同时生成对应的语音指令，包括：

10.一种车载***的语音交互装置，其特征在于，所述车载***包括麦克风阵列，所述装置包括：

语音交互模块，用于分别执行与所述语音指令对应的操作；

其中，所述声音信号获取模块包括：

声源识别子模块，用于通过所述麦克风阵列进行声源定位，分别识别各个所述音区对应的主声源信号以及次声源信号，所述次声源信号的信号强度低于所述主声源信号的信号强度；

声源处理子模块，用于分别对各个所述音区中所述次声源进行同时滤除，并将所述主声源信号转换为所述用户语音信号；

其中，所述装置还包括：

用于获取针对所述用户的噪声音量，并根据所述噪声音量对扬声器的音量进行调节的模块。

11.根据权利要求10所述的装置，其特征在于，所述用于获取针对所述用户的噪声音量，并根据所述噪声音量对扬声器的音量进行调节的模块包括：

噪声音量判断模块，用于判断所述噪声音量是否大于第一门限值；

12.根据权利要求11所述的装置，其特征在于，所述第一调节模块具体用于：

判断所述扬声器的音量是否等于所述第一预设阈值；

13.根据权利要求11所述的装置，其特征在于，所述第二调节模块具体用于：

判断所述扬声器的音量是否等于所述第二预设阈值；

14.根据权利要求11所述的装置，其特征在于，所述扬声器确定模块包括：

15.根据权利要求11所述的装置，其特征在于，所述扬声器确定模块包括：

16.根据权利要求11所述的装置，其特征在于，所述语音交互模块包括：

17.根据权利要求16所述的装置，其特征在于，所述扬声器确定模块还包括：

18.根据权利要求10所述的装置，其特征在于，所述语音指令生成模块包括：

19.一种汽车，其特征在于，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当由所述一个或多个处理器执行时，使得所述汽车执行如权利要求1-9任一项所述的方法。

20.一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得所述处理器执行如权利要求1-9任一项所述的方法。