CN110648663A

CN110648663A - 车载音频管理方法、装置、设备、汽车及可读存储介质

Info

Publication number: CN110648663A
Application number: CN201910918443.1A
Authority: CN
Inventors: 马桂林; 陶然; 陆恒良; 王海坤; 刘俊峰
Original assignee: Hkust Technology (suzhou) Technology Co Ltd
Current assignee: Hkust Technology (suzhou) Technology Co Ltd
Priority date: 2019-09-26
Filing date: 2019-09-26
Publication date: 2020-01-03

Abstract

本申请实施例公开了一种车载音频管理方法、装置、设备、汽车及可读存储介质，采集语音信号，对语音信号进行处理，确定控制意图、目标车载音频源和目标输出区，根据控制意图，对目标车载音频源在目标输出区进行输出控制，实现了通过语音对车载音频源进行分区输出控制的目的，提高了对车载音频控制的智能性。

Description

车载音频管理方法、装置、设备、汽车及可读存储介质

技术领域

本申请涉及信息处理技术领域，更具体地说，涉及一种车载音频管理方法、装置、设备、汽车及可读存储介质。

背景技术

当今，汽车已经成为每个家庭必不可少的交通工具，它在为用户提供交通出行便利的同时，也逐渐成为用户休闲娱乐的个性空间，不仅为驾驶者也为每一个乘客提供舒适的驾乘感受，例如，车内具有音乐、新闻、电影等车载音频播放功能。

而目前，对车载音频的控制多局限于车载音频的开启或关闭、播放内容的切换等简单操作，对车载音频控制的智能性较低。

发明内容

有鉴于此，本申请提供了一种车载音频管理方法、装置、设备、汽车及可读存储介质，以提高对车载音频控制的智能性。

为了实现上述目的，现提出的方案如下：

一种车载音频管理方法，包括：

采集语音信号；

对所述语音信号进行处理，确定控制意图、目标车载音频源和目标输出区；

根据所述控制意图，对所述目标车载音频源在所述目标输出区进行输出控制。

上述方法，优选的，所述采集语音信号包括：通过一个语音采集设备采集语音信号；

所述对所述语音信号进行处理，确定控制意图、目标车载音频源和目标输出区，包括：

对所述语音信号进行语音识别，得到文本数据；

对所述文本数据进行语义理解，确定所述控制意图、目标车载音频源和目标输出区。

上述方法，优选的，所述采集语音信号包括：通过至少两个语音采集设备采集语音信号，不同语音采集设备的设置位置对应不同的语音区；每个语音区位于一个输出区内；

对每个一语音采集设备采集的第一语音信号分别进行处理，以确定语音源所在语音区；

对所述语音源所在语音区对应的语音采集设备采集第二语音信号进行语音识别，得到文本数据；

上述方法，优选的，在根据所述控制意图，对所述目标车载音频源在所述目标输出区进行输出控制之前，还包括：

判断所述语音源所在语音区是否具有对所述目标车载音频源的控制权限；

若判断结果为是，根据所述控制意图，对所述目标车载音频源在所述目标输出区进行输出控制。

上述方法，优选的，所述对所述文本数据进行语义理解，确定所述控制意图、目标车载音频源和目标输出区，包括：

对所述文本数据进行语义理解，确定控制意图、目标车载音频源和初始目标输出区；

若所述目标车载音频源为音乐类车载音频源，则将车内所有的输出区作为最终的目标输出区域，否则，将所述初始目标输出区作为最终的目标输出区。

上述方法，优选的，所述根据所述控制意图，对所述目标车载音频源在所述目标输出区进行输出控制包括：

在所述控制意图为音量调节时，若所述目标输出区为车内所有的输出区，对所述目标车载音频源对应的整车增益控制模块进行调节，以对所述目标车载音频源在整车内的输出音量进行调节；

若所述目标输出区为车内的部分输出区，对所述目标车载音频源对应的所述目标输出区的增益控制模块进行调节，以对所述目标车载音频源在所述目标输出区的输出音量进行调节。

上述方法，优选的，所述根据所述控制意图，对所述目标车载音频源在所述目标输出区进行输出控制，包括：

在所述控制意图为启动车载音频源时，根据所述控制意图，启动所述目标车载音频源；

对所述目标车载音频源的信号进行放大；

采用与所述目标车载音频源对应的音频扩展方式，将放大后的信号扩展为多通道音频；

通过所述目标输出区的输出设备输出所述多通道音频。

一种车载音频管理装置，包括：

采集模块，用于采集语音信号；

处理模块，用于对所述语音信号进行处理，确定控制意图、目标车载音频源和目标输出区；

控制模块，用于根据所述控制意图，对所述目标车载音频源在所述目标输出区进行输出控制。

上述装置，优选的，所述采集模块包括：

单通道采集模块，用于通过一个语音采集设备采集语音信号；

所述处理模块包括：

第一识别模块，用于对所述语音信号进行语音识别，得到文本数据；

语义理解模块，用于对所述文本数据进行语义理解，确定所述控制意图、目标车载音频源和目标输出区。

上述装置，优选的，所述采集模块包括：

多通道采集模块，用于通过至少两个语音采集设备采集语音信号，不同语音采集设备的设置位置对应不同的语音区；每个语音区位于一个输出区内；

所述处理模块包括：

分区处理模块，用于对每个一语音采集设备采集的第一语音信号分别进行处理，以确定语音源所在语音区；

第二识别模块，用于对所述语音源所在语音区对应的语音采集设备采集第二语音信号进行语音识别，得到文本数据；

上述装置，优选的，还包括：

判断模块，用于在根据所述控制意图，对所述目标车载音频源在所述目标输出区进行输出控制之前，判断所述语音源所在语音区是否具有对所述目标车载音频源的控制权限；

所述控制模块具体用于：若所述判断模块的判断结果为是，根据所述控制意图，对所述目标车载音频源在所述目标输出区进行输出控制。

上述装置，优选的，所述语义理解模块具体用于：

对所述文本数据进行语义理解，确定控制意图、目标车载音频源和初始目标输出区；若所述目标车载音频源为音乐类车载音频源，则将车内所有的输出区作为最终的目标输出区域，否则，将所述初始目标输出区作为最终的目标输出区。

上述装置，优选的，所述控制模块包括：

整车音量控制模块，用于在所述控制意图为音量调节时，若所述目标输出区为车内所有的输出区，对所述目标车载音频源对应的整车增益控制模块进行调节，以对所述目标车载音频源在整车内的输出音量进行调节；

分区音量控制模块，用于在所述控制意图为音量调节时，若所述目标输出区为车内的部分输出区，对所述目标车载音频源对应的所述目标输出区的增益控制模块进行调节，以对所述目标车载音频源在所述目标输出区的输出音量进行调节。

上述装置，优选的，所述控制模块包括：

启动模块，用于在所述控制意图为启动车载音频源时，根据所述控制意图，启动所述目标车载音频源；

放大模块，用于对所述目标车载音频源的信号进行放大；

扩展模块，用于采用与所述目标车载音频源对应的音频扩展方式，将放大后的信号扩展为多通道音频；

输出控制模块，用于通过所述目标输出区的输出设备输出所述多通道音频。

一种车载音频管理设备，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上任一项所述的车载音频管理方法的各个步骤。

一种汽车，配置有如上所述的车载音频管理装置，或者，配置有如上所述的车载音频管理设备。

一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上任一项所述的车载音频管理方法的各个步骤。

从上述的技术方案可以看出，本申请实施例提供的车载音频管理方法、装置、设备、汽车及可读存储介质，采集语音信号，对语音信号进行处理，确定控制意图、目标车载音频源和目标输出区，根据控制意图，对目标车载音频源在目标输出区进行输出控制，实现了通过语音对车载音频源进行分区输出控制的目的，提高了对车载音频控制的智能性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的车载音频管理方法的一种实现流程图；

图2为本申请实施例公开的对语音信号进行处理，确定控制意图、目标车载音频源和目标输出区的一种实现流程图；

图3为本申请实施例公开的根据控制意图，对目标车载音频源在目标输出区进行输出控制的一种实现流程图；

图4为本申请实施例公开的车载音频管理装置的一种结构示意图；

图5为本申请实施例公开的通过四个语音采集设备采集语音信号时，四个语音采集设备的布局示意图；

图6为本申请实施例公开的车载音频管理装置的另一种结构示意图；

图7为本申请实施例公开的一个车载音频源对应的整车音量控制模块和分区音量控制模块的示例图；

图8为本申请实施例公开的车载音频管理设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

发明人研究发现，目前，在一台车内，驾驶员和非驾驶员(可以统称为乘客)处于同一个声场环境，无论是播放音乐还是导航，车内每个座位上的乘客都会同时听到，所有乘客必须收听同一个音频内容。但是，有些情况下，并不是每个乘客都有相同的听音需求，例如，后排的乘客可能想听音乐，驾驶位的乘客(即驾驶员)可能需要听导航，副驾驶位的乘客可能想听新闻等。不仅如此，目前在车内通过免提接听电话的时候，声音是以全车的形式播放出来，车内所有的乘客都可以听到电话声音，但在一些情况下，电话并不需要驾驶员接听，可能只需要后排某一位乘客接听即可，这时过大的电话声会分散驾驶员的注意力，影响行车安全。

对此，本申请提出，在车内形成多个独立的车载音频输出区域，通过语音对车载音频源进行分区输出控制，在满足不同乘客的听音需求的同时减少输出区域之间的声音干扰，提高对车载音频控制的智能性。

下面对本申请方案进行详细说明。

请参阅图1，图1为本申请实施例提供的车载音频管理方法的一种实现流程图，可以包括：

步骤S11：采集语音信号。

本申请实施例中，可以通过多种方式采集语音信号，例如，可以通过一个语音采集设备采集语音信号，或者，可以通过两个或更多个语音采集设备采集语音信号。具体采用哪种方式不做具体限定。

步骤S12：对语音信号进行处理，确定控制意图、目标车载音频源和目标输出区。

本申请实施例中，对语音信号的处理至少可以包括对语音信号进行语义理解。当然，除了对语音信号进行语义理解外，还可以有其它处理方式，例如对语音信号进行声纹分析、能量分析等。

其中，控制意图用于表示说话人所发出的命令类别，例如，音量调节，播放控制等。其中，音量调节具体可以包括：音量增加和音量减少两类。而播放控制又可以细分为：播放开始、播放暂停、播放停止三类。

目标车载音频源即为说话人想要控制的对象。本申请实施例中，车内配置了多个车载音频源，包括但不限于以下列举的几种：音乐、导航、新闻、电话、故事、电影、查天气、提示音、应答音等。目标车载音频源即为上述多个车载音频源中的其中一个。

目标输出区表示说话人想要控制的输出区，即说话人希望目标车载音频源在哪个区域输出。本申请实施例中，可以根据车内座位布局预先将车内空间划分为至少两个区域，且各个区域分别设置有音频输出设备。例如，将车内空间划分为前排区域和后排区域，则前排区域设置有至少一个音频输出设备，后排区域也设置有至少一个音频输出设备。再例如，将车内空间划分为四个区域，每个区域对应一个座位，为便于区分，将四个区域分别记为：左前区域(对应驾驶员的座位)、右前区域(对应副驾驶的座位)、左后区域(对应驾驶位后排的座位)、右后区域(对应副驾驶位后排的座位)，则在左前区域设置有至少一个音频输出设备，在右前区域设置有至少一个音频输出设备，在左后区域设置有至少一个音频输出设备，在右后区域设置有至少一个音频输出设备。目标输出区为预先设定的多个输出区域中的至少一个区域。如果目标输出区为所有的输出区域，则是对目标音频源进行整车输出控制。

例如，假设说话人说了“把右后位置的故事音量调小一点”这样一句话，则基于该句话的语音，可以得到控制意图为音量调小，目标车载音频源为故事，目标输出区为右后区域，即副驾驶位后排的座位所在区域。

步骤S13：根据控制意图，对目标车载音频源在目标输出区进行输出控制。

通过对目标车载音频源在目标输出区进行输出控制，可以改变目标车载音频源在目标输出区的输出效果，该输出效果与控制意图相匹配，即根据控制意图的不同，输出效果会不同。由于仅对目标车载音频源在目标输出区进行输出控制，因此，目标车载音频源在非目标输出区的输出效果不会改变。

例如，假设控制意图为开始播放，目标车载音频源为导航，目标输出区为左前区域(即驾驶位)，则基于本申请会启动导航这个车载音频源，并开启左前区域的音频输出设备，然后控制导航的音频信号仅从左前区域的音频输出设备，而不会控制导航的音频信号从其它区域(即，右前区域、左后区域、右后区域)的音频输出设备，即其它区域不会输出导航的音频信号。

基于本申请实施例提供方案，可以同时在不同的区域输出不同的车载音频信号。例如，假设在左前区域输出导航信号的过程中，又采集到语音信号，基于该语音信号确定控制意图为开始播放，目标车载音频源为故事，目标输出区为左后，则基于本申请会启动故事这个车载音频源，并开启左后区域的音频输出设备，然后控制故事的音频信号仅从左后区域的音频输出设备，而不会控制导航的音频信号从其它区域(即，左前区域、右前区域、右后区域)的音频输出设备，即其它区域不会输出故事的音频信号。此时，有两个区域同时进行输出，但这两个区域输出的内容不同，其中，左前区域输出导航的音频信号，而左后区域则输出故事的音频信号。

基于本申请实施例提供的方案，还可以同时在不同的区域输出相同的车载音频信号。例如，假设在左后区域输出故事的音频信号的同时，再次采集到语音信号，基于该语音信号确定控制意图为开始播放，目标车载音频源为故事，目标输出区为右前区域，则基于本申请会开启右前区域的音频输出设备(由于故事这个车载音频源已经启动，所以无需再次启动)，然后控制故事的音频信号在左后区域输出的同时从右前区域的音频输出设备输出。此时，右前区域和左后区域同时输出故事的音频信号。

本申请实施例提供的车载音频管理方法，通过采集的语音信号确定控制意图、目标车载音频源和目标输出区；根据控制意图，对目标车载音频源在目标输出区进行输出控制，实现了通过语音对车载音频源进行分区输出控制，提高了对车载音频控制的智能性。

在一可选的实施例中，若通过一个语音采集设备采集语音信号，则上述对语音信号进行处理，确定控制意图、目标车载音频源和目标输出区的一种实现方式可以为：

对采集的语音信号进行语音识别，得到文本数据。

对识别得到的文本数据进行语义理解，确定控制意图、目标车载音频源和目标输出区。

可选的，可以预先创建一系列的意图，并为每个意图添加一系列的说法模板并配置语义实体。基于此，在得到文本数据后，若该文本数据命中了某个意图的一个说法模板，即为命中该意图(该意图即为控制意图)，并抽取出必要的语义槽信息，然后根据语义槽信息关联的语义实体，从文本数据中提取语义实体(即目标车载音频源和目标输出区)。

可选的，也可以将文本数据输入预先训练好的语义理解模型，得到由该语义理解模型输出的控制意图、目标车载音频源和目标输出区。

本申请实施例中，直接从识别到的文本数据中提取控制意图、目标车载音频源和目标输出区。

发明人在实现本申请的过程中发现，只通过一个语音采集设备采集语音信号的话，需要说话人说出具体的目标输出区域才可以实现对车载音频的分区管理，在一定程度上给用户的使用带来不便。

为了提高用户使用的便利性，本申请提出，可以通过至少两个语音采集设备采集语音信号，不同语音采集设备的设置位置对应不同的语音区(本申请实施例中，将说话人所在区域定义为语音区)，每个语音区位于一个输出区内。在车内，说话人是坐在座位上说话的，而每个输出区对应至少一个座位，因而每个语音区位于一个输出区内。

在通过至少两个语音采集设备同时采集语音信号的情况下，可以基于该至少两个语音采集设备同时采集的语音信号确定语音源所在语音区。基于此，在一些情况下(例如，说话人希望在自己所在输出区输出车载音频信号时)，说话人可以不必说出目标输出区域即可实现对车载音频的管理。

例如，对于“我要听导航”这一语音，对其进行语义理解可以得到：控制意图为播放开始，目标车载音频源是导航，目标输出区与语音源所在语音区一致，因此，在确定语音源所在语音区的情况下，便可以确定目标输出区了。

基于此，本申请实施例提供的对语音信号进行处理，确定控制意图、目标车载音频源和目标输出区的一种实现流程图如图2所示，可以包括：

步骤S21：对每个一语音采集设备采集的第一语音信号分别进行处理，以确定语音源所在语音区。

可选的，确定语音源所在语音区的一种实现方式可以为：

获取每一个语音采集设备采集的第一语音信号的信号能量。说话人与语音采集设备间的距离不同，语音采集设备采集到的语音信号的能量不同。信号能量可以为语音信号的功率谱的最大幅值。

将每一个语音采集设备采集的第一语音信号中唤醒词对应的音频信号分别与唤醒词对应的音频信号模板进行匹配，确定每一个语音采集设备对应的匹配度。本申请实施例中，需要说话人在说出语音命令前，先说出唤醒词。其中，将唤醒词对应的音频信号与唤醒词对应的音频信号模板进行匹配可以是指将唤醒词对应的音频信号的声学特征与唤醒词对应的音频信号模板的声学特征进行匹配，声学特征例如可以为：Mel频率倒谱系数(MelFrequency Cepstrum Coefficient，MFCC)特征，或者，FBank特征等。

将基于信号能量的排序与基于匹配度排序相同的语音采集设备确定为候选语音采集设备。本申请实施例中，根据信号能量对语音采集设备进行排名，并根据匹配度对语音采集设备进行排名，对于任意一个语音采集设备，若该语音采集设备基于信号能量的排序为N，且该语音采集设备基于匹配度的排序也为N，则该语音采集设备为候选语音采集设备。例如，假设有四个语音采集设备，分别为1号语音采集设备R1，2号语音采集设备R2，3号语音采集设备R3和4号语音采集设备R4。其中，R1采集的第一语音信号的能量为F1，R2采集的第一语音信号的能量为F2，R3采集的第一语音信号的能量为F3，R4采集的第一语音信号的能量为F4，其中，F1>F2>F4>F3，基于此，四个语音采集设备的排序为：R1 R2 R4 R3。R1采集的第一语音信号中唤醒词对应的音频信号与唤醒词对应的音频信号模板的匹配度为S1，R2采集的第一语音信号中唤醒词对应的音频信号与唤醒词对应的音频信号模板的匹配度为S2，R3采集的第一语音信号中唤醒词对应的音频信号与唤醒词对应的音频信号模板的匹配度为S3，R4采集的第一语音信号中唤醒词对应的音频信号与唤醒词对应的音频信号模板的匹配度为S4，其中，S1>S3>S4>S2，基于此，四个语音采集设备的排序为：R1 R3 R4 R2。由于R1基于信号能量的排序与基于匹配度排序相同，因此R1为一个候选语音采集设备，同理，R4也为一个候选语音采集设备。

将最大信号能量对应的候选语音采集设备对应的语音区确定为语音源所在语音区。

由于R1对应的信号能量大于R4对应的信号能量，因此，将R1确定为语音源所在语音区。也就是说，第一语音信号是由R1处的乘客说出来的。

上述实施例中，是通过确定语音采集设备的方式确定语音源所在语音区。虽然需要用户说出唤醒词，由于唤醒词通常是固定的，不管说话人在车内哪个位置，唤醒词都不变，因而基本不会影响用户对车载音频源进行管理的便利性。

在另一可选的实施例中，可以通过确定声源方位的方式确定语音源所在语音区。即通过对各个语音采集设备采集的语音信号进行分析，以确定语音源所处的方位(即语音源相对于语音采集设备的位置)，将位于该方位的语音区确定为语音源所在语音区。此实现方式中，无需用户说出唤醒词，直接说出语音命令即可。

步骤S22：对语音源所在语音区对应的语音采集设备采集第二语音信号进行语音识别，得到文本数据。

在确定出语音源所在语音区后，仅对语音源所在语音区对应的语音采集设备采集语音信号进行语音识别及后续处理，以保证语音信号的有效性。

其中，若确定语音源所在语音区时需要用户说出唤醒词，则第二语音信号与第一语音信号不同，第二语音信号是在第一语音信号之后采集到的。若确定语音源所在语音区时不需要用户说出唤醒词，则第二语音信号可以是第一语音信号，也可以是在第一语音信号之后采集的与第一语音信号不同的语音信号。

步骤S23：对文本数据进行语义理解，确定控制意图、目标车载音频源和目标输出区。

第二语音信号中可以携带控制意图、目标车载音频源和具体的目标输出区信息。例如，第二语音信号为“请把电话接到副驾驶”，此时，控制意图为播放开始，目标车载音频源为电话，目标输出区为右前区域。或者，

第二语音信号中携带控制意图，目标车载音频源和目标输出区相关信息。例如，第二语音信号为“把电话接到我这”，或者，“接电话”，此时，控制意图为播放开始，目标车载音频源为电话，目标输出区为语音源所在语音区。

具体语义理解方式可以参看前述实施例，这里不再详述。

进一步的，为了增加对车载音频源的管理的智能性，本申请实施例中增加权限判断机制。

具体的，在根据控制意图，对目标车载音频源在目标输出区进行输出控制之前，还包括：

判断语音源所在语音区是否具有对目标车载音频源的控制权限。

本申请实施例中，可以对每个语音源所在语音区设置控制权限，该控制权限可以是***默认设置的，也可以是用户根据需要自己设定的。

可选的，任意一个语音源所在语音区(为便于叙述，记为第一语音区)对任意一个车载音频源(为便于叙述，记为第一车载音频源)的控制权限可以是第一语音区对第一车载音频源的所有控制项的控制权限，此时，第一语音区的乘客可以对第一车载音频源进行所有控制项的控制。

可选的，第一语音区对第一车载音频源的控制权限也可以是第一语音区对第一车载音频源的部分控制项的控制权限，此时，第一语音区的乘客可以对第一车载音频源进行部分控制项的控制。

若判断结果为是，根据控制意图，对目标车载音频源在目标输出区进行输出控制。

本申请实施例中，只有在语音源所在语音区具有对目标车载音频源的控制权限时，才根据控制意图，对目标车载音频源在目标输出区进行输出控制，否则禁止执行根据控制意图，对目标车载音频源在目标输出区进行输出控制的步骤。

例如，可以设置驾驶员所在语音区的权限最高，则驾驶员可以对每个车载音频源的所有控制项进行控制，而其它语音区的权限较低。例如，只有驾驶位和副驾驶位所在语音区具有对电话这一车载音频源的控制权限(如，接听电话和转接电话的权限)，而后排座位所在语音区则不能对电话这一车载音频源的控制权限，也就是说，如果根据后排座位的乘客的语音命令确定的目标车载音频源为电话，则不会对该语音进行响应，而是启动提示音这一车载音频源，在后排座位对应的输出区输出提示信息，提示其不具备控制权限。再例如，只有驾驶位所在语音区具有对各个输出区的音量进行调小的权限，而其它语音区则只能对自身所在输出区的音量进行调小的权限。

比如，在车辆行驶过程中，驾驶员觉得后排电影的音量太大，影响驾驶，驾驶员可以通过“把后排电影音量调小一点”的语音命令控制电影音量变小。而如果副驾驶位的乘客发出同样的命令，则不会控制电影音量变小，还可以启动提示音这一车载音频源，在副驾驶位所在的输出区输出提示信息，提示副驾驶位的乘客不具备操作权限。除非通过人为设置使得副驾驶位所在语音区具有对后排的输出区的音量进行调小的权限。

再比如，副驾驶位的乘客正在通电话，此时，如果驾驶员说出“把电话转接到我这”的语音命令，或者，副驾驶位的乘客说出“把电话转接到驾驶位”的语音命令，则可以响应上述语音命令在左上区域这一输出区输出电话语音，并停止在右上区域这一输出区输出电话语音。而如果左后位置的乘客说出“把电话转接到我这”的语音命令，或者，说出“把电话转接到驾驶位”的语音命令，则不会响应，而是启动提示音这一车载音频源，在左后位置所在的输出区输出提示信息，提示左后位置的乘客不具备操作权限。

另外，发明人研究发现，对于音乐，由于用户比较追求音效体验，分区调节反而降低用户感受，所以本申请实施例中，音乐不进行分区调节，而是采用整体调节方式。而对于语言类信号(比如导航、电话、新闻、故事等)，由于用户对其音效需求相对于音乐较低，采用分区调节不会降低用户的听音感受，而且会减少对相邻位置乘客的干扰，所以可以采取分区调节方式。当然，语言类信号根据用户的语音命令，也可以进行整车控制。

基于此，本申请实施例提供的对文本数据进行语义理解，确定控制意图、目标车载音频源和目标输出区的一种实现方式可以为：

对文本数据进行语义理解，确定控制意图、目标车载音频源和初始目标输出区；

若目标车载音频源为音乐类车载音频源，则将车内所有的输出区作为最终的目标输出区域，否则，将上述初始目标输出区作为最终的目标输出区。

也就是说，如果目标车载音频源为音乐类车载音频源，则不管初始目标输出区是否是所有的输出区，均进行整车输出，即车内各个输出区均输出音频信号。而如果目标车载音频源不是音乐类车载音频源，则只在初始目标输出区输出音频信号即可。

为了进一步提高对车载音频源控制的智能性，本申请实施例中，对音量的调节分为整车调节和分区调节。其中，每个车载音频源都有各自的增益控制模块，每个车载音频源的增益控制模块又包括整车增益控制模块和各个输出区对应的增益控制模块(可以简称为区域增益控制模块)。整车增益控制模块用于对整车音量进行调节，而区域增益控制模块仅对对应的输出区的输出音量进行调节。

基于此，本申请实施例提供的根据控制意图，对目标车载音频源在目标输出区进行输出控制包括：

在控制意图为音量调节(音量调大或音量调小)时，若目标输出区为车内所有的输出区，对目标车载音频源对应的整车增益控制模块进行调节，以对目标车载音频源在整车内的输出音量进行调节，使得目标车载音频源在车内各个输出区的音量同时增大或变小。

在控制意图为音量调节(音量调大或音量调小)时，若目标输出区为车内的部分输出区，对目标车载音频源对应的目标输出区的增益控制模块进行调节，以对目标车载音频源在目标输出区的输出音量进行调节，使得目标车载音频源在目标输出区的输出音量增大或变小，而非目标输出区的输出音量则保持不变。

进一步的，当只有一个输出区对目标车载音频源的音频信号进行输出时，在目标车载音频源对应的目标输出区的增益控制模块已经将音量调节到最大，即目标车载音频源对应的目标输出区的增益控制模块无法再将目标输出区的输出音量调大的情况下，如果再次接收到将目标输出区域的音量增大的语音指令，则可以通过对目标车载音频源对应的目标输出区的增益控制模块进行调节，以增大目标输出区的音量。

可选的，为了进一步提高乘客的听音感受，本申请实施例在通过音频输出设备输出音频信号之前进行音频通道扩展，输出多通道音频信号，从而提高乘客的听音感受。基于此，在控制意图为启动车载音频源时，本申请实施例提供的根据控制意图，对目标车载音频源在目标输出区进行输出控制的一种实现流程图如图3所示，可以包括：

步骤S31：根据控制意图，启动目标车载音频源。

步骤S32：对目标车载音频源输出的信号进行放大。

车载音频源输出的音频信号的能量较小，不足以驱动音频输出设备产生预想的播放效果，因而需要对目标车载音频源输出的信号进行放大。

步骤S33：采用与目标车载音频源对应的音频扩展方式，将放大后的信号扩展为多通道音频。

本申请实施例中，不同的车载音频源所对应的音频扩展方式可能不同。例如，音乐类的车载音频源输出的信号大部分为双声道立体声，有的会是5.1声道音频，针对音乐类车载音频源输出的信号，可以使用环绕声算法将其扩展成更多通道的音频。而语言类车载音频源输出的信号通常是单声道信号，对此可以根据目标输出区的数量以及每个目标输出区的音频输出设备的扬声器的特性，使用相应的滤波***扩展成多通道音频进行输出。

步骤S34：通过目标输出区的输出设备输出多通道音频。

除了进行通道扩展，针对不同的输出区，还可以根据控制意图，在延时、混音逻辑、均衡等方面进行与控制意图相对应的调节。

需要说明的是，在目标车载音频源输出音频信号的过程中，步骤S32-步骤S34是持续执行的，除非目标车载音频源暂停或停止输出音频信号。

进一步的，为了实现快速准确的对车载音频源在输出区的输出控制，可以预先建立车载音频源与输出区的映射关系，如表1所示，每一车载音频源和每个输出区都会对应一个cell(每个cell对应于一个控制开关)，每个cell也都有各自的编号，可以根据目标车载音频源和目标输出区确定目标cell，然后根据目标cell的编号来控制对应的控制开关的开关状态，从而建立目标车载音频源到目标输出区的信号通路。

表1

	输出区1	输出区2	输出区3	输出区4	……
						音乐	cell01	cell02	cell03	cell04
导航	cell05	cell06	cell07	cell08
						电话	cell09	Cell10	Cell11	Cell12
新闻	Cell13	Cell14	Cell15	Cell16
						故事	Cell17	Cell18	Cell19	Cell20
提示音	Cell21	Cell22	Cell23	Cell24
						应答音	Cell25	Cell26	Cell27	Cell28
电影	Cell29	Cell30	Cell31	Cell32
						……

与方法实施例相对应，本申请实施例还提供一种车载音频管理装置。本申请实施例提供的车载音频管理装置的一种结构示意图如图4所示，可以包括：

采集模块41，处理模块42和控制模块43；其中，

采集模块41用于采集语音信号。

采集模块可以通过至少一个语音采集设备采集语音信号。根据语音采集设备的数量不同，语音采集设备的设置位置可以不同。例如，

若通过一个语音采集设备采集语音信号，该语音采集设备可以设置在距离驾驶员较近的位置，例如，设置在车内的前顶灯处。

若通过两个语音采集设备采集语音信号，该两个语音采集设备可以设置在距离前排乘客较近的位置，例如，可以设置在车内的前顶灯两侧，这样，其中一个语音采集设备距离驾驶员较近，但距离副驾驶的乘客的距离较远；而另一个语音采集设备则距离副驾驶的乘客的距离较近，但距离驾驶员较远。

若通过三个语音采集设备采集语音信号，则可以将其中两个语音采集设备设置在距离前排乘客较近的位置，而另一个语音采集设备设置在距离后排乘客较近的位置。例如，可以将两个语音采集设备设置在车内的前顶灯两侧，另一个语音采集设备设置在车内后顶灯处。

若通过四个语音采集设备采集语音信号，则可以将其中两个语音采集设备设置在距离前排乘客较近的位置，而另外两个语音采集设备设置在距离后排乘客较近的位置。例如，可以将两个语音采集设备设置在车内的前顶灯两侧，另外两个语音采集设备设置在车内后顶灯两侧，这样，后排两个语音采集设备距离后排每个乘客的距离均不同。如图5所示，为本申请实施例提供的通过四个语音采集设备采集语音信号时，四个语音采集设备(即麦克风)的布局示意图。图5中的“主驾音区”即为前述的左前区域，“副驾音区”即为前述的右前区域，“左后音区”即为前述的左后区域，“右后音区”即为前述的右后区域，

处理模块42用于对所述语音信号进行处理，确定控制意图、目标车载音频源和目标输出区。

本申请实施例中，预先将车内空间划分为至少两个区域，且各个区域分别设置有音频输出设备。具体的音频输出设备的布局采用车内默认的布局方式即可。一般的低端车，在四个车门的下方会设置扬声器，有的还会在A柱(即汽车前挡风玻璃与前车门之间的柱子)和B柱(即前后车门之间的柱子)上设置有高音扬声器。一些中高端的车还会有中置扬声器和低音炮。

处理模块42对语音信号进行处理的具体实现方式可以参看前述实施例，这里不再详述。

控制模块43用于根据所述控制意图，对所述目标车载音频源在所述目标输出区进行输出控制。

本申请实施例提供的车载音频管理装置，通过采集的语音信号确定控制意图、目标车载音频源和目标输出区；根据控制意图，对目标车载音频源在目标输出区进行输出控制，实现了通过语音对车载音频源进行分区输出控制，提高了对车载音频控制的智能性。

在一可选的实施例中，采集模块41可以包括：

所述处理模块包括：

在另一可选的实施例中，采集模块41可以包括：

所述处理模块包括：

在一可选的实施例中，分区处理模块可以包括：

获取模块，用于获取每一个语音采集设备采集的第一语音信号的信号能量；

匹配模块，用于将每一个语音采集设备采集的第一语音信号中唤醒词对应的音频信号分别与所述唤醒词对应的音频信号模板进行匹配，确定每一个语音采集设备对应的匹配度；

第一确定模块，用于将信号能量的排序与匹配度排序相同的语音采集设备确定为候选语音采集设备；

选择模块，用于选择信号能量最大的候选语音采集设备对应的语音区作为所述语音源所在语音区。

在另一可选的实施例中，分区处理模块可以包括：

方位确定模块，用于根据各个语音采集设备采集的第一语音信号确定语音信号源的方位；

第二确定模块，用于将位于所述方位的语音区确定为语音源所在语音区。

在一可选的实施例中，如图6所示，本申请实施例提供的车载音频管理装置的另一种结构示意图，还可以包括：

判断模块61，用于在根据所述控制意图，对所述目标车载音频源在所述目标输出区进行输出控制之前，判断所述语音源所在语音区是否具有对所述目标车载音频源的控制权限；

在一而可选的实施例中，所述语义理解模块具体可以用于：

在一可选的实施例中，所述控制模块43可以包括：

如图7所示，为本申请实施例提供的一个车载音频源对应的整车音量控制模块和分区音量控制模块的示例图。该示例中，车内设置了四个输出区，对用每一个车载音频源，每个输出区均对应一个分区音量控制模块。当对整车音量控制模块进行调节时，四个输出区的输出音量均会发生变化，如果只对某个输出区对应的分区音量控制模块进行调节，则仅该某个输出区的输出音量会发生变化，其它输出区的输出音量则不会发生变化。

在一可选的实施例中，所述控制模块43可以包括：

启动模块，用于在所述控制意图为启动车载音频源时，根据所述控制意图，启动所述目标车载音频源。

放大模块，用于对所述目标车载音频源的信号进行放大；上述整车音量控制模块和分区音量控制模块的功能可以集成在该放大模块中。

扩展模块，用于采用与所述目标车载音频源对应的音频扩展方式，将放大后的信号扩展为多通道音频。

本申请实施例提供的车载音频管理装置可应用于车载音频管理设备，如智能车机等。可选的，图8示出了车载音频管理设备的硬件结构框图，参照图8，车载音频管理设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

采集语音信号；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

采集语音信号；

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种汽车，该汽车配置有如前所述的车载音频管理装置，或者，车载音频管理设备，还配置有至少一个语音信号采集设备和设置在不同输出区的音频输出设备。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种车载音频管理方法，其特征在于，包括：

采集语音信号；

2.根据权利要求1所述的方法，其特征在于，所述采集语音信号包括：通过一个语音采集设备采集语音信号；

对所述语音信号进行语音识别，得到文本数据；

3.根据权利要求1所述的方法，其特征在于，所述采集语音信号包括：通过至少两个语音采集设备采集语音信号，不同语音采集设备的设置位置对应不同的语音区；每个语音区位于一个输出区内；

4.根据权利要求3所述的方法，其特征在于，在根据所述控制意图，对所述目标车载音频源在所述目标输出区进行输出控制之前，还包括：

5.根据权利要求2或3所述的方法，其特征在于，所述对所述文本数据进行语义理解，确定所述控制意图、目标车载音频源和目标输出区，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述控制意图，对所述目标车载音频源在所述目标输出区进行输出控制包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述控制意图，对所述目标车载音频源在所述目标输出区进行输出控制，包括：

对所述目标车载音频源的信号进行放大；

通过所述目标输出区的输出设备输出所述多通道音频。

8.一种车载音频管理装置，其特征在于，包括：

采集模块，用于采集语音信号；

9.根据权利要求8所述的装置，其特征在于，所述采集模块包括：

所述处理模块包括：

10.根据权利要求8所述的装置，其特征在于，所述采集模块包括：

所述处理模块包括：

11.一种车载音频管理设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1-7中任一项所述的车载音频管理方法的各个步骤。

12.一种汽车，其特征在于，配置有如权利要求8-10任意一项所述的车载音频管理装置，或者，配置有如权利要求11所述的车载音频管理设备。

13.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-7中任一项所述的车载音频管理方法的各个步骤。