CN115346527A

CN115346527A - 语音控制方法、装置、***、车辆和存储介质

Info

Publication number: CN115346527A
Application number: CN202210948341.6A
Authority: CN
Inventors: 黄鑫; 来翔; 张恩源; 史明春
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2022-08-08
Filing date: 2022-08-08
Publication date: 2022-11-15

Abstract

本申请公开了一种语音控制方法、装置、***、车辆和存储介质，其中，该方法包括：获取对车辆外部的目标范围采集的至少一路音频数据，音频数据包括说话人的语音数据；获取每路音频数据对应的能量值；利用每路音频数据包含的关键词，确定每路音频数据对应的唤醒得分；基于每路音频数据对应的能量值和唤醒得分，确定说话人的定位位置；利用说话人的定位位置对应的声音采集装置采集后续的音频数据；对后续的音频数据进行语音识别，得到语音控制指令；按照语音控制指令对车辆进行控制。通过上述方式，本申请能够提升车外语音控制的准确性和便利性。

Description

语音控制方法、装置、***、车辆和存储介质

技术领域

本申请涉及车辆技术领域，特别是涉及一种语音控制方法、装置、***、车辆和存储介质。

背景技术

随着汽车智能化技术的发展和人民生活水平的不断提高，人们对车辆的要求越来越高。

目前，对于从车外对车辆的控制方式一般是通过车外布置的摄像头感知用户的手势、动作，从而实现车外的控制操作，或者，通过布置红外传感器，通过触发红外传感器，开展某些控制类操作，如车辆后备箱的开启，又或者，通过手机或者蓝牙钥匙，来对车辆进行车外的指令操控。以上方式，存在用户学习成本过高，且较为繁琐的问题。

发明内容

本申请主要解决的技术问题是提供一种语音控制方法、装置、***、车辆和存储介质，能够提升车外语音控制的准确性和便利性，还降低了用户的学习成本较低。

为解决上述技术问题，本申请第一方面提供了一种语音控制方法，包括：获取对车辆外部的目标范围采集的至少一路音频数据，音频数据包括说话人的语音数据；获取每路音频数据对应的能量值；利用每路音频数据包含的关键词，确定每路音频数据对应的唤醒得分；基于每路音频数据对应的能量值和唤醒得分，确定说话人的定位位置；利用说话人的定位位置对应的声音采集装置采集后续的音频数据；对后续的音频数据进行语音识别，得到语音控制指令；按照语音控制指令对车辆进行控制。

为解决上述技术问题，本申请第二方面提供了一种语音控制装置，包括：第一获取模块，用于获取对车辆外部的目标范围采集的至少一路音频数据，音频数据包括说话人的语音数据；能量值模块，用于获取每路音频数据对应的能量值；唤醒模块，用于利用每路音频数据包含的关键词，确定每路音频数据对应的唤醒得分；定位模块，用于基于每路音频数据对应的能量值和唤醒得分，确定说话人的定位位置；第二获取模块，用于利用说话人的定位位置对应的声音采集装置采集后续的音频数据；语音识别模块，用于对后续的音频数据进行语音识别，得到语音控制指令；控制模块，用于按照语音控制指令对车辆进行控制。

为解决上述技术问题，本申请第三方面提供了一种语音控制***，包括：车外音频信号处理装置、至少一路声音采集装置和车外指令执行装置，至少一路声音采集装置设于车辆外部的不同位置，用于采集车辆外部的目标范围的声音，得到至少一路音频数据，其中，音频数据包括说话人的语音数据；车外音频信号处理装置包括车外定位模块和车外唤醒识别模块，所述车外定位模块用于获取每路所述音频数据对应的能量值；利用每路音频数据包含的关键词，确定每路音频数据对应的唤醒得分；基于每路所述音频数据对应的能量值和唤醒得分，确定所述说话人的定位位置；利用所述说话人的定位位置对应的声音采集装置采集后续的音频数据；所述车外唤醒识别模块用于对音频数据进行语音识别，得到语音控制指令；车外指令执行装置，用于按照语音控制指令对车辆进行控制。

为解决上述技术问题，本申请第四方面提供了一种车辆，包括前述的车外语音交互***。

为解决上述技术问题，本申请第五方面提供了一种计算机可读存储介质，该计算机可读存储介质中存储有程序数据，程序数据在被处理器执行时，用以实现前述的方法。

本申请的有益效果是：区别于现有技术的情况，本申请通过获取对车辆外部的目标范围采集的至少一路音频数据，音频数据包括说话人的语音数据，然后获取每路音频数据对应的能量值，以及利用每路音频数据包含的关键词，确定每路音频数据对应的唤醒得分，接着基于每路音频数据对应的能量值和唤醒得分，确定说话人的定位位置，然后利用说话人的定位位置对应的声音采集装置采集后续的音频数据，然后对后续的音频数据进行语音识别，得到语音控制指令，最后按照语音控制指令对车辆进行控制，以上，通过语音对车辆进行控制，相比于通过手势、动作或控制类操作更加直接，学习成本较低且灵敏度更高，还可以提升用户车外控制车辆的便利性；进一步地，基于每路音频数据对应的能量值和唤醒得分，确定说话人的定位位置，然后利用说话人的定位位置对应的声音采集装置采集后续的音频数据，能够提升音频数据的质量，使说话人的声音更加清楚，从而指令识别的灵敏度更高，对车辆的控制更加精准。

附图说明

为了更清楚地说明本申请中的技术方案，下面将对实施例描述中所需要的附图作简单的介绍，显而易见地，下面描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1是本申请语音控制方法一实施例的流程示意图；

图2是声音采集装置与车辆的相对位置示意图；

图3是图1中步骤S13一实施方式的流程示意图；

图4是本申请语音控制方法另一实施例的流程示意图；

图5是图4中步骤S22一实施方式的流程示意图；

图6是图4中步骤S25一实施方式的流程示意图；

图7是本申请语音控制方法又一实施例的流程示意图；

图8是本申请语音控制方法再一实施例的流程示意图；

图9是本申请语音控制装置一实施例的结构示意框图；

图10是本申请语音控制***一实施例的结构示意框图；

图11是车外音频信号处理装置的一结构示意框图；

图12是本申请车辆一实施例的结构示意框图

图13是本申请计算机可读存储介质一实施例的结构示意框图。

具体实施方式

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请中的术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

随着汽车智能化技术的发展和人民生活水平的不断提高，车辆配备车内语音交互***已经成为了广泛趋势，车内交互也由单纯的语音交互向多模态交互进行融合，同时，随着智能网联信息娱乐技术的不断普及、汽车的感知决策能力进一步升级，为了改善用户的用车交互体验，本申请将车内的语音交互逻辑移植到车外的环境下，实现对在车外的噪声环境下对车辆进行精准的语音控制以及安全性保障，能够极大的拓展车辆的可玩性和易用性，并且能够实现更多场景的联动。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

请参阅图1至图3，图1是本申请语音控制方法一实施例的流程示意图，图2是声音采集装置与车辆的相对位置示意图，图3是图1中步骤S13一实施方式的流程示意图。其中，本申请的执行主体为语音控制装置。本申请提供的语音控制方法适用于车外场景下针对车辆的信息互联娱乐、车辆控制以及更多领域进行语音控制。

该方法可以包括以下步骤：

步骤S11：获取对车辆外部的目标范围采集的至少一路音频数据，音频数据包括说话人的语音数据。

其中，说话人的数量可以为一个或多个。

其中，至少一路音频数据为一路或多路音频数据。每路音频数据由独立的声音采集装置进行采集。车辆的类型、大小等参数不作限定，例如为小汽车。目标范围可以是任意范围，具体可以根据实际情况进行设置和修改。目标范围可以是声音采集装置所能够采集到音频数据的最大范围，例如以声音采集装置为圆心，5米为半径的圆圈范围内。

在一些实施方式中，每路音频数据对应的声音采集装置可以设于车辆外部的不同位置。车辆可以包括多个声音采集装置，多个声音采集装置可以布置在车身周围，形成环绕车辆布局的车外声音采集***。可选地，多个声音采集装置还可以均匀布置在车身周围，以利于收集车身周围的声音。如图2所示，车辆10包括4个声音采集装置，分别布置于车辆10的四周。车辆10包括四个面，分别为相对设置的第一面11和第二面12，以及相对设置的第三面13和第四面14。如图2所示，4个声音采集装置15设置于不同面，其中，第一声音采集装置151设置于第一面11，第二声音采集装置152设置于第二面12，第三声音采集装置153设置于第三面13、第四声音采集装置154设置于第四面14，每个声音采集装置具体可以设置于面的中心位置。

在其他实施方式中，多个声音采集装置15也可以非均匀布置在车身周围。例如，车辆每个面设置的声音采集装置不同，其中，说话人越靠近的面设置的声音采集装置越多，从而便于采集说话人的语音数据。例如，车辆的第三面和第四面分别设置2个声音采集装置，车辆的第一面和第二面分别设置1个声音采集装置。又例如，还可以根据车辆的车身长度或宽度确定对应面设置的声音采集装置的数量。其中，声音采集装置的数量与车辆的车身长度或宽度呈正比。

可选地，声音采集装置可以是麦克风。声音采集装置可以包括全向麦克风和波束麦克风中的至少一种。当声音采集装置采用全向麦克风时，每个全向麦克风可进行360度的音频数据的收集，从所有方向均衡地拾取声音，故全向麦克风在布置时可以任意布置在车身四周。当声音采集装置采用波束麦克风时，每个位置至少需布置两个麦克风，由降噪算法形成定向波束，来进行音频信号的收集，此时收集的范围为波束形成的某一角度范围，相比于全向麦克风语音收集精准度更高，可以实现语音增强。对于环绕布局的麦克风***，需要至少4个全向麦克风分别设置于车辆的四个面，或者需要至少4组波束麦克风分别设置于车辆的四个面，每组包括两个波束麦克风，全向麦克风相比于波束麦克风所需要的麦克风数量更少，成本更低。

在一些实施方式中，当某一路声音采集装置出现故障或损坏，无法采集音频数据时，语音控制装置能够自动识别故障或损坏的声音采集装置信息并传递给车载主控***。车载主控***可以将损坏的声音采集装置信息通知用户，以便于用户对声音采集装置进行维护。

当声音采集装置与说话人的距离较远时，无法采集到说话人的音频数据或采集到的音频数据质量较差，从而影响后续的指令识别。本实施例中，设计多路音频数据的声音采集装置设置于车辆的不同位置，通过每路音频数据对应的能量值和唤醒得分对说话人进行定位，并选取与说话人的定位位置对应的声音采集装置采集后续的音频数据，由此可以保证后续采集的音频数据的质量，提升指令识别的准确性，下面将进一步进行说明。

步骤S12：获取每路音频数据对应的能量值。

在一些实施方式中，可以获取音频数据最大的振幅(即绝对值最大)(范围是0-32767)，然后再除以1000，得到0-32之间的数值，即为音频数据对应的能量值。当然，除此之外音频数据的能量值还可以采用其他可能的方式得到，此处不做限定。

步骤S13：利用每路音频数据包含的关键词，确定每路音频数据对应的唤醒得分。

其中，步骤S23和S24可以同时执行，也可以先后执行，且步骤S23和S24之间并无一定的先后关系。

在一些实施方式中，步骤S13可以包括子步骤S131～S132：

步骤S131：对每路音频数据进行关键词检测，得到候选关键词。

步骤S132：对候选关键词进行置信度确认，得到每路音频数据对应的唤醒得分。

关键词检测是语音识别的一个重要研究领域，其目的是在连续无限制的自然语音流中检测并确认出若干的特定关键词。关键词检测主要包括两个方面的基本内容：关键词检出(Keyword Spotting)和关键词确认(Utterance Verification)。关键词检出从无限制语音流中检测出尽可能多的候选关键词，再由关键词确认部分对这些候选关键词进行置信度评估。

关键词(Keyword)：词条规模为识别结果中单个候选元素大小且具有单一词性的单词。关键词作为***的识别基元，它不仅包含实际应用中经常出现的动词、名词，还包含贯穿于自然对话内的代词、连词、助词、介词等功能词。例如，在智能家居场景中，“打开”、“窗户”均为关键词，前者描述了命令所实现的动作，后者指明了命令所针对的设备。两个或两个以上关键词组成的单词组成关键短语(Key Phrase)，如“打开天窗”为关键短语，它由“打开”、“天窗”这两个关键词组成。关键短语一般都具有比关键词更为丰富的语义信息。

在一些实施方式中，可以基于Keyword Spotting框架来进行关键词的检测，其能够在连续音频流中检测到关键的声音片段(即候选关键词)，并同时进行置信度的确认，已确定该候选关键词是否为关键词。在一示例中，当候选关键词的置信度大于预设置信度时，确定该候选关键词为关键词并将候选关键词的置信度作为该路音频数据对应的唤醒得分；否则，确定该候选关键词不为关键词。预设置信度例如是90％，此处不作限定。当音频数据检测出多个(即至少两个)候选关键词时，可以将多个候选关键词的置信度的平均值作为该路音频数据对应的唤醒得分。当音频数据中未检测到候选关键词时，该路音频数据对应的唤醒得分默认为最小值，例如0。

步骤S14：基于每路音频数据对应的能量值和唤醒得分，确定说话人的定位位置。

其中，若音频数据对应的能量值和唤醒得分越高，说明说话人越靠近该路音频数据对应的声音采集装置，从而可以将该路音频数据对应的声音采集装置的位置作为说话人的定位位置。具体如何基于能量值和唤醒得分确定说话人的定位位置请参见后面的实施方式。

步骤S15：利用说话人的定位位置对应的声音采集装置采集后续的音频数据。

具体地，可以选取说话人的定位位置对应的声音采集装置和/或该声音采集装置相邻的声音采集装置采集后续的音频数据。

步骤S16：对后续的音频数据进行语音识别，得到语音控制指令。

其中，可以预设的语音识别算法对后续的音频数据进行语音识别。预设的语音识别算法可以根据需要进行选取，此处不作限制。语音控制指令用于对车辆进行控制。

步骤S17：按照语音控制指令对车辆进行控制。

在一些实施方式中，经过语音识别得到的语音控制指令，可以传递给车外指令执行装置，由车外指令执行装置按照语音控制指令对车辆进行控制。

在一些实施方式中，当车外指令执行装置具备声音识别能力时，车外指令执行装置还可以用于对音频数据进行语音识别，得到语音控制指令。具体地，可以将后续的音频数据直接可以传递给车外指令执行装置，以利用车外指令执行装置内的语音识别算法对音频数据进行语音识别，得到语音控制指令，然后按照语音控制指令对车辆进行控制。

可选地，车外指令执行装置可以是车载主控***。一般地，车载主控***内部的语音识别算法能够识别更多种类的语音控制指令。

可选地，车载主控***可以包括扬声器。车载主控***在执行语音控制指令时，还可以通过扬声器进行语音反馈播报。

作为示例，语音控制指令可以是“打开车窗”、“打开后备箱”、“打开空调”、“播放音乐”等等。

上述方案，通过获取对车辆外部的目标范围采集的至少一路音频数据，音频数据包括说话人的语音数据，然后获取每路音频数据对应的能量值，以及利用每路音频数据包含的关键词，确定每路音频数据对应的唤醒得分，接着基于每路音频数据对应的能量值和唤醒得分，确定说话人的定位位置，然后利用说话人的定位位置对应的声音采集装置采集后续的音频数据，然后对后续的音频数据进行语音识别，得到语音控制指令，最后按照语音控制指令对车辆进行控制，以上，通过语音对车辆进行控制，相比于通过手势、动作或控制类操作更加直接，学习成本较低且灵敏度更高，还可以提升用户车外控制车辆的便利性；进一步地，基于每路音频数据对应的能量值和唤醒得分，确定说话人的定位位置，然后利用说话人的定位位置对应的声音采集装置采集后续的音频数据，能够提升音频数据的质量，使说话人的声音更加清楚，从而指令识别的灵敏度更高，对车辆的控制更加精准，同时避免所有声音采集装置同时进行音频采集，可以降低车辆的能耗。

请参阅图4至图5，图4是本申请语音控制方法另一实施例的流程示意图，图5是图4中步骤S22一实施方式的流程示意图，图6是图4中步骤S25一实施方式的流程示意图。

区别于前述实施例，在利用每路音频数据包含的关键词，确定每路音频数据对应的唤醒得分之前，还可以对每路音频数据进行降噪处理，得到干净的语音数据，然后基于干净的语音数据进行后续处理，以提升指令识别的准确度。该方法可以包括以下步骤：

步骤S21：获取对车辆外部的目标范围采集的至少一路音频数据，音频数据包括说话人的语音数据。

其中，每路音频数据对应的声音采集装置设于车辆外部的不同位置。

步骤S22：对每路音频数据进行降噪处理，得到对应的语音数据。

其中，可以利用预设的降噪算法对每路音频数据进行降噪处理。预设的降噪算法可以根据需要进行选取，此处不作限制。在一些实施方式中，预设的降噪算法可以是神经网络降噪算法、回声消除算法等等。基于神经网络降噪算法能够对音频数据中的稳态和非平稳态的噪声进行抑制。

在一些实施方式中，步骤S22可以包括步骤S221～S223：

步骤S221：获取参考信号，其中，参考信号为已知频率的噪声信号。

在一示例中，参考信号(记为ref)可以是车辆播放的噪声信号，例如播放音乐、电台广播等。声音采集装置在对车辆外部的目标范围采集音频数据时，若车辆正在通过车外扬声器播放声音，则播放的声音也将被收集，成为音频数据中的噪声信号，降低了音频数据中说话人的语音质量。但是，由于车辆播放的噪声信号为已知频率的噪声信号，则可以根据噪声信号的频率进行回声消除(Acoustic Echo Cancellation，AEC)，将该噪声信号从音频数据中消除。

步骤S222：利用参考信号对每路音频数据进行回声消除。

步骤S223：利用神经网络降噪算法对回声消除后的每路音频数据进行降噪，得到对应的语音数据。

其中，车外噪声环境中存在的噪声类型可以包括稳态噪声和非稳态噪声，为了消除这两种噪声，需要预先录制批量的稳态噪声和非稳态噪声的训练集，构建大数据库，通过大数据学习音频时频结构信息，以获得满足车外环境噪声的神经网络降噪算法。稳态噪声是指在测量时间内，被测声源的声级起伏不大于3dB(A)的噪声。一般通过比较测量值的最大值Lmax和最小值Lmin，其差值不大于3dB(A)的噪声判断为稳态噪声，相反，其差值大于3dB(A)的噪声判断为非稳态噪声。对于稳态噪声和非稳态噪声，依据监测标准规范中的具体规定进行不同测量时段的监测。

此外，从另一种维度，车外噪声环境中可能存在的噪声类型可以包括常规噪声和混响噪声，常规噪声例如是车辆所在位置(例如停车场、公路边等)的大环境下的噪声等，混响噪声例如是干扰人声、其他车辆行驶过等。在一些实施方式中，用于训练的稳态噪声也可以包括常规噪声和/或混响噪声，用于训练的非稳态噪声也可以包括常规噪声和/或混响噪声。由此，训练完成的神经网络降噪算法能够进一步对每路音频数据中的稳态噪声和非稳态噪声进行抑制，提升语音数据的语音质量。

步骤S23：获取每路音频数据对应的能量值。

步骤S24：利用每路语音数据包含的关键词，确定每路音频数据对应的唤醒得分。

其中，步骤S23和S24可以同时执行，也可以先后执行，且步骤S23和S24之间并无一定的先后关系。关于步骤S23～S24的说明请参见上述实施例中的对应位置，此处不再赘述。

步骤S25：基于每路音频数据对应的能量值和唤醒得分，确定说话人的定位位置。

在本实施方式中，步骤S25可以包括步骤S251～S255：

步骤S251：分别选取能量值满足能量值要求的第一路音频数据对应的能量值和唤醒得分，以及唤醒得分满足唤醒得分要求的第二路音频数据对应的能量值和唤醒得分。

其中，每路音频数据均有对应的能量值和唤醒得分。

在一示例中，可以分别选取能量值最大的第一路音频数据(记为maxpower)对应的能量值和唤醒得分，以及唤醒得分最高的第二路音频数据(记为maxscore)对应的能量值和唤醒得分。

在另一示例中，也可以选择能量值第二大的第一路音频数据对应的能量值和唤醒得分，以及唤醒得分第二高的第二路音频数据对应的能量值和唤醒得分。

步骤S252：利用第一路音频数据和第二路音频数据对应的能量值，确定能量参考值。

可选地，能量参考值为能量归一化值。能量值和唤醒得分是两个不同的维度{即：属性}，每个属性的取值范围不同，导致计算时此属性占用的权重不同，即数据的量纲不同，量纲小的数据容易受到量纲大的数据影响。由此，需要分别将每个属性进行归一化之后再进行比较。

在一些实施方式中，能量归一化值的计算公式如下：

scoreDiffNormal＝fabs(0.01f+maxscorescore-maxpowerscore)/(0.1f+maxscorescore).

其中，scoreDiffNormal为能量归一化值，maxscorescorer为第二路音频数据的唤醒得分，maxpowerscore为第一路音频数据的唤醒得分，函数fabs的作用是求浮点数的绝对值，0.01f表示0.01为小数，0.1f表示0.1为小数。

步骤S253：利用第一路音频数据和第二路音频数据对应的唤醒得分，确定唤醒得分参考值。

可选地，唤醒得分参考值为唤醒得分归一化值。

在一些实施方式中，唤醒得分归一化值的计算公式如下：

PowerDiffNormal＝fabs(0.01f+maxpowerpower-maxscorepower)/(0.1f+maxpowerpower).

其中，PowerDiffNormal为唤醒得分归一化值，maxpowerpower为第一路音频数据的能量值，maxscorepower为第二路音频数据的能量值，函数fabs的作用是求浮点数的绝对值，0.01f表示0.01为小数，0.1f表示0.1为小数。

其中，步骤S252和S253可以同时执行，也可以先后执行，且步骤S252和S253之间并无一定的先后关系。

步骤S254：响应于唤醒得分参考值满足第一要求且能量参考值满足第二要求，选取第二路音频数据对应的声音采集装置的位置作为说话人的定位位置。

步骤S255：响应于唤醒得分参考值不满足第一要求或者能量参考值不满足第二要求，选取第一路音频数据对应的声音采集装置的位置作为说话人的定位位置。

在一些实施方式中，第一要求为唤醒得分参考值大于第一阈值，第二要求为能量参考值小于第二阈值，其中，第二阈值大于第一阈值。第一阈值和第二阈值可以根据实际情况进行设置或修改。

在一具体实施方式中，第一阈值为0.13，第二阈值为0.19，其中0.13和0.19为经验值。当唤醒得分参考值大于0.13并且能量参考值小于0.19，说明说话人在唤醒得分较高的第二路音频数据对应的声音采集装置的位置的可能性更大，所以选取第二路音频数据对应的声音采集装置的位置作为说话人的定位位置。否则，说明话人在能量值较高的第一路音频数据对应的声音采集装置的位置的可能性更大，所以选取第一路音频数据对应的声音采集装置的位置作为说话人的定位位置。

其中，步骤S254和S255可以同时执行，也可以先后执行，且步骤S254和S255之间并无一定的先后关系。

步骤S26：利用说话人的定位位置对应的声音采集装置采集后续的音频数据。

步骤S27：对后续的音频数据进行降噪处理，得到对应的语音数据。

步骤S28：对语音数据进行语音识别，得到语音控制指令。

步骤S29：按照语音控制指令对车辆进行控制。

在一些实施方式中，声音采集装置先采集包含唤醒词的音频数据，用于说话人的定位，在确定说话人的定位位置之后，利用说话人的定位位置对应的声音采集装置采集后续的音频数据，后续的音频数据包含说话人的语音控制指令，由此有利于语音控制指令的识别。后续的音频数据与上述实施例相同，依次经过降噪处理、语音识别后得到语音控制指令。

关于步骤S27～S29的说明请参见上述实施例中的对应位置，此处不再赘述。

请参阅图7，图7是本申请语音控制方法又一实施例的流程示意图。

区别于前述实施例，上述步骤S25(基于每路音频数据对应的能量值和唤醒得分，确定说话人的定位位置)之前，还可以包括步骤S31～S37：

步骤S31：基于每路音频数据对应的唤醒得分，确定当前已唤醒的路数。

在一些实施方式中，若音频数据对应的唤醒得分大于唤醒得分阈值，则确定该音频数据对应的路已唤醒，否则，则确定该音频数据对应的路未唤醒。或者，若能够获取到音频数据对应的唤醒得分，则确定该音频数据对应的路已唤醒，否则，则确定该音频数据对应的路未唤醒。

步骤S32：判断当前已唤醒的路数是否大于或等于预设数量阈值。

若是，则执行步骤S37；否则，执行步骤S33。

可选地，预设数量阈值可以根据需要进行设置和修改。在一示例中，预设数量阈值为4。一般地，车辆具有四个面，而要分别采集这四个面的音频，则最少需要四个声音采集装置，每路音频数据对应一个声音采集装置。若4路已唤醒，则说明此时说话人在车辆周围说话的可能性更大。

步骤S33：按照预设等待时间范围等待其他路被唤醒。

可选地，预设等待时间范围可以根据需要进行设置和修改。在一示例中，预设等待时间范围为500ms-600ms。

步骤S34：判断当前已唤醒的总路数是否大于或等于第一路数阈值。

若是，则步骤S37；否则，则执行步骤S35。

其中，在当前已唤醒的总路数包括等待之前唤醒的路数和在等待过程中唤醒的路数的总和。

可选地，第一路数阈值可以根据需要进行设置和修改。在一些实施方式中，第一路数阈值等于预设数量阈值。在一示例中，第一路数阈值为4。

步骤S35：判断已唤醒的总路数中至少一路的唤醒时间是否大于预设等待时间阈值。

若是，则执行步骤S36，否则，执行步骤S33。

可选地，预设等待时间阈值可以根据实际情况进行设置和修改。在一示例中，预设等待时间阈值为300ms。

步骤S36：判断当前已唤醒的总路数是否大于第二路数阈值。

若是，则执行步骤S37；否则，则执行步骤S38。

可选地，第二路数阈值可以根据需要进行设置和修改。在一些实施方式中，第二路数阈值小于第一路数阈值。在一示例中，第二路数阈值为2，2为经验值。

步骤S37：基于每路音频数据对应的能量值和唤醒得分，确定说话人的定位位置。

若当前已唤醒的路数大于2，则满足步骤S37进行定位的条件，从而可以采用如步骤S251～S255所示的定位逻辑，对说话人的位置进行定位。

步骤S38：选取当前已唤醒的至少一路音频数据对应的声音采集装置的位置作为说话人的定位位置。

若当前已唤醒的总路数小于或等于2，则选取当前已唤醒的至少一路音频数据对应的声音采集装置的位置作为说话人的定位位置。

目前，从车外对车辆的控制方式(如手势、动作或控制类操作)除了学习成本较高，以及灵敏度不足的问题，同时还会带来一些安全隐患，且无法区分驾驶人员，一但被恶意人员利用，将会产生无法挽回的后果。由此，本申请在对音频数据进行语音识别之前还可以通过声纹识别，对说话人的身份进行验证，以确保对车辆控制的安全性。

请参阅图8，图8是本申请语音控制方法再一实施例的流程示意图。

区别于上述实施例，上述步骤S13(对语音数据进行语音识别，得到语音控制指令)之前，还可以包括步骤S41～S43：

步骤S41：提取音频数据中说话人的声纹特征。

步骤S42：将说话人的声纹特征与候选声纹特征进行比对。

步骤S43：响应于比对成功，执行对音频数据进行语音识别，得到语音控制指令的步骤。

具体地，可以采用预先训练好的声纹识别模型提取音频数据中说话人的声纹特征，以及将说话人的声纹特征与候选声纹特征进行比对，若比对成功，则可以得到比对成功的候选声纹特征对应的声纹标签。声纹识别模型的类型不作限定，可以根据需要进行选取。

候选声纹特征为候选说话人的声纹特征，候选声纹特征可以由对候选说话人的语音数据提取得到。候选说话人例如是车主。若说话人的声纹特征与候选声纹特征比对成功，则判定声纹验证通过，说明该说话人属于候选说话人，从而说明该语音数据是安全的，进而可以进一步基于识别后续的音频数据中的语音控制指令，以及对车辆进行控制。若说话人的声纹特征与候选声纹特征比对失败，则判定声纹验证不通过，从而车辆会退出语音交互状态。在其他实施方式中，还可以基于降噪处理后的语音数据进行声纹识别，具体地，步骤S41可以是提取语音数据中的说话人的声纹特征。

在一些实施方式中，语音控制方法不包括声纹验证。唤醒词可以由用户自定义，例如“小星小星”等，用于唤醒语音控制装置进行指令的识别。免唤醒词，例如“打开窗户”。针对唤醒词，在语音控制装置响应通过时，可以对唤醒词进行响应并播报回复语(例如“诶”)，此时指令不执行，待说话人时输入语音控制指令且指令认证通过后会进行指令执行。针对免唤醒词，在语音控制装置响应通过时，将直接进行指令执行，并播报提示语(例如“正在为您打开窗户”)。

在一些实施方式中，语音控制方法包括声纹验证。针对唤醒词，进行声纹特征的提取和验证；若验证不通过，则直接退出语音交互并播报提示语(例如“声纹验证不通过”)；验证通过后，针对唤醒词进行响应并播报回复语，此时业务不执行，将等待用户输入语音控制指令，指令认证通过后会进行指令执行；以及在业务指令执行后将等待用户的新指令输入，超时将退出交互。

请参阅图9，图9是本申请语音控制装置一实施例的结构示意框图。

在本实施例中，语音控制装置100包括第一获取模块110、能量值模块120、唤醒模块130、定位模块140、第二获取模块150、语音识别模块160和控制模块170，其中，第一获取模块110用于获取对车辆外部的目标范围采集的至少一路音频数据，音频数据包括说话人的语音数据；能量值模块120用于获取每路音频数据对应的能量值；唤醒模块130用于利用每路音频数据包含的关键词，确定每路音频数据对应的唤醒得分；定位模块140用于基于每路音频数据对应的能量值和唤醒得分，确定说话人的定位位置；第二获取模块150用于利用说话人的定位位置对应的声音采集装置采集后续的音频数据；语音识别模块160用于对后续的音频数据进行语音识别，得到语音控制指令；控制模块170用于按照语音控制指令对车辆进行控制。

在一些实施方式中，每路音频数据对应的声音采集装置设于车辆外部的不同位置，和/或，定位模块140还用于分别选取能量值满足能量值要求的第一路音频数据对应的能量值和唤醒得分，以及唤醒得分满足唤醒得分要求的第二路音频数据对应的能量值和唤醒得分；利用第一路音频数据和第二路音频数据对应的能量值，确定能量参考值；以及利用第一路音频数据和第二路音频数据对应的唤醒得分，确定唤醒得分参考值；响应于唤醒得分参考值满足第一要求且能量参考值满足第二要求，选取第二路音频数据对应的声音采集装置的位置作为说话人的定位位置；响应于唤醒得分参考值不满足第一要求或者能量参考值不满足第二要求，选取第一路音频数据对应的声音采集装置的位置作为说话人的定位位置。

在一些实施方式中，能量参考值为能量归一化值，唤醒得分参考值为唤醒得分归一化值；和/或第一要求为唤醒得分参考值大于第一阈值，第二要求为能量参考值小于第二阈值，其中，第二阈值大于第一阈值。

在一些实施方式中，定位模块140还用于在基于每路音频数据对应的能量值和唤醒得分，确定说话人的定位位置之前，基于每路音频数据对应的唤醒得分，确定当前已唤醒的路数；响应于当前已唤醒的路数大于或等于预设数量阈值，则执行基于每路音频数据对应的能量值和每路语音数据对应的唤醒得分，确定说话人的定位位置的步骤。

在一些实施方式中，定位模块140还用于基于每路音频数据对应的唤醒得分，确定当前已唤醒的路数之后，响应于当前已唤醒的路数小于第一路数阈值，则按照预设等待时间范围等待其他路被唤醒；响应于当前已唤醒的总路数大于或等于第一路数阈值，则执行基于每路音频数据对应的能量值和唤醒得分，确定说话人的定位位置的步骤。

在一些实施方式中，定位模块140还用于响应于在预设等待时间范围内已唤醒的总路数小于第一路数阈值，则判断已唤醒的总路数中至少一路的唤醒时间是否大于预设等待时间阈值；响应于已唤醒的总路数中至少一路的唤醒时间大于预设等待时间阈值，则判断当前已唤醒的总路数是否大于第二路数阈值；若是，则执行基于每路音频数据对应的能量值和唤醒得分，确定说话人的定位位置的步骤；否则，选取当前已唤醒的至少一路音频数据对应的声音采集装置的位置作为说话人的定位位置。

在一些实施方式中，唤醒模块130还用于对的每路音频数据进行关键词检测，得到候选关键词；对候选关键词进行置信度确认，得到每路音频数据对应的唤醒得分。

在一些实施方式中，语音控制装置100还包括车外声纹识别模块(图未示)，车外声纹识别模块用于在对音频数据进行语音识别，得到语音控制指令之前，提取音频数据中说话人的声纹特征；将说话人的声纹特征与候选声纹特征进行比对；响应于比对成功，执行对音频数据进行语音识别，得到语音控制指令的步骤。

在一些实施方式中，语音控制装置100还包括降噪模块(图未示)，用于在获取每路音频数据对应的能量值之前，对每路音频数据进行降噪处理，得到对应的语音数据。

在一些实施方式中，降噪模块还用于获取参考信号，其中，参考信号为已知频率的噪声信号；利用参考信号对每路音频数据进行回声消除；利用神经网络降噪算法对回声消除后的每路音频数据进行降噪，得到对应的语音数据。

在本实施例中，关于上述步骤的说明请参见前述实施例，此处不再赘述。

请参阅图10至图11，图10是本申请语音控制***一实施例的结构示意框图，图11是车外音频信号处理装置的一结构示意框图。

在本实施例中，语音控制***200包括车外音频信号处理装置210、至少一路声音采集装置220和车外指令执行装置230。至少一路声音采集装置220设于车辆外部的不同位置，用于采集车辆外部的目标范围的声音，得到至少一路音频数据，其中，音频数据包括说话人的语音数据；车外音频信号处理装置210包括车外定位模块211和车外唤醒识别模块212，车外定位模块211用于获取每路音频数据对应的能量值；利用每路语音数据包含的关键词，确定每路音频数据对应的唤醒得分；基于每路音频数据对应的能量值和唤醒得分，确定说话人的定位位置；利用说话人的定位位置对应的声音采集装置采集后续的音频数据；车外唤醒识别模块212用于对语音数据进行语音识别，得到语音控制指令；车外指令执行装置230用于按照语音控制指令对车辆进行控制。其中，至少一路声音采集装置220可以包括1、2……n路声音采集装置，n为正整数。

在一些实施方式中，声音采集装置220包括全向麦克风和波束麦克风中的至少一种。

在一些实施方式中，车外指令执行装置230可以是车载主控***。车载主控***可以包括SoC(System on a Chip，***级芯片)。SoC芯片引入了DSP(Digital SignalProcessing，数字信号处理)、GPU(Graphics Processing Unit，图形处理单元)、NPU(Neural Processing Unit，神经处理单元)，使其不仅拥有控制单元，还集成了大量的计算单元，从而能够支撑多任务并发及海量数据的处理。

在一些实施方式中，车外指令执行装置230可以包括扬声器，用于在执行语音控制指令时，还可以通过扬声器进行语音反馈播报。

在一些实施方式中，车外指令执行装置230声音识别能力，即车外指令执行装置还可以用于对音频数据进行语音识别，得到语音控制指令。

如图11所示，声音采集装置220与车外指令执行装置230能够互相进行信息传递，车外音频信号处理装置210与车外指令执行装置230也能够互相进行信息传递。

在一些实施方式中，车外音频信号处理装置210包括车外降噪模块213，其中，车外降噪模块213用于对每路音频数据进行降噪处理，得到对应的语音数据。车外指令执行装置230还可以用于对上述语音数据进行进行语音识别，得到语音控制指令。

在一些实施方式中，车外降噪模块213包括回声消除模块2131和神经网络降噪模块2132。车外降噪模块213的输入数据包括至少一路音频数据(1～n)，以及至少一条参考信号(图11示例了参考信号1和参考信号2)。回声消除模块2131用于基于参考信号对音频数据进行回声消除，然后输出给神经网络降噪模块2132。神经网络降噪模块2132用于对回声消除后的音频数据中的稳态和非稳态噪声进行抑制等等。每路音频数据经过车外降噪模块213进行降噪处理后，得到对应的语音数据。

语音数据进一步由车外唤醒识别模块212对语音数据进行语音识别，得到语音控制指令。在一些实施方式中，车外唤醒识别模块212的语音识别能力有限，仅能识别定义范围内的识别命令词。车外唤醒识别模块212对于定义范围内的识别命令词，会以串口协议的形式传递给车载主控***并进行命令的执行以及语音反馈播报。作为补充实施方式，车辆主控***具备声音识别能力，从而车外降噪模块213可以直接将语音数据传递给车辆主控***进行命令的识别执行以及语音反馈播报，车辆主控***具有更强的指令识别能力，可以识别出更多的指令。由此，既能够满足车辆未完全启动时的指令操控，又可实现在车辆完全启动后的泛化指令执行。

在一些实施方式中，车辆主控***在完成一次识别指令后，会默认等待预设时间(可以根据实际情况进行设置或修改，例如15秒)，以满足***持续收音和命令执行的需求。

在一些实施方式中，车外降噪模块213还用于获取每路音频数据对应的能量值。其中，能量值可以通过神经网络降噪模块2132获得。车外唤醒识别模块212还用于利用每路音频数据或语音数据包含的关键词，确定每路语音数据对应的唤醒得分。

具体地，车外定位模块211可以获取车外降噪模块213输出的第一路音频数据的能量值maxpowerpower和第二路音频数据的能量值maxscorepower，以及车外唤醒识别模块212输出的第一路音频数据的唤醒得分maxpowerscore和第二路音频数据的唤醒得分maxscorescorer，通过本申请提出的定位算法(请参见上述步骤S251～S255)，定位说话人的位置。

在一些实施方式中，车外音频信号处理装置210还包括车外声纹识别模块214。其中，车外声纹识别模块214用于提取语音数据中说话人的声纹特征，并将说话人的声纹特征与候选声纹特征进行比对，得到说话人的声纹标签；车外唤醒识别模块212具体用于响应于比对成功，对语音数据进行语音识别，得到语音控制指令。

在如图11所示的实施方式中，一般默认由车外声纹识别模块214与车外指令执行装置230互相进行信息传递，以将声纹标签发送至车外指令执行装置230。此外，车外降噪模块213也可以与车外指令执行装置230能够互相进行信息传递，当无需声纹验证时，可以直接将音频数据传递给车外指令执行装置230。

在一些实施方式中，车外降噪模块213、车外唤醒识别模块212、车外定位模块211、车外声纹识别模块214可以布置在独立芯片(如语音芯片)上，在中央处理器(CentralProcessing Unit，CPU)、数字信号处理器(Digital Signal Processor，DSP)或微控制单元(Microcontroller Unit，MCU)等算力充裕时，也可以同时部署在CPU、DSP或MCU等器件上。即车外音频信号处理装置210可以是独立的语音芯片，可以是CPU或DSP。

请参阅图12，图12是本申请车辆一实施例的结构示意框图。

在本实施例中，车辆300包括前面任一实施例中的的车外语音交互***310。车辆300可以是汽车、货车、客车等任意类型的车辆。

请参阅图13，图13是本申请计算机可读存储介质一实施例的结构示意框图。

计算机可读存储介质400存储有程序数据410，程序数据410被处理器执行时，用以实现上述任一方法实施例中的步骤。

计算机可读存储介质400可以为U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等可以存储计算机程序的介质，也可以为存储有该计算机程序的服务器，该服务器可将存储的计算机程序发送给其他设备运行，或者也可以自运行该存储的计算机程序。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语音控制方法，其特征在于，包括：

获取对车辆外部的目标范围采集的至少一路音频数据，所述音频数据包括说话人的语音数据；

获取每路所述音频数据对应的能量值；

利用每路音频数据包含的关键词，确定每路音频数据对应的唤醒得分；

基于每路所述音频数据对应的能量值和唤醒得分，确定所述说话人的定位位置；

利用所述说话人的定位位置对应的声音采集装置采集后续的音频数据；

对后续的所述音频数据进行语音识别，得到语音控制指令；

按照所述语音控制指令对所述车辆进行控制。

2.根据权利要求1中所述的方法，其特征在于，每路所述音频数据对应的声音采集装置设于车辆外部的不同位置，和/或

所述基于每路所述音频数据对应的能量值唤醒得分，确定所述说话人的定位位置，包括：

分别选取能量值满足能量值要求的第一路音频数据对应的能量值和唤醒得分，以及唤醒得分满足唤醒得分要求的第二路音频数据对应的能量值和唤醒得分；

利用所述第一路音频数据和所述第二路音频数据对应的能量值，确定能量参考值；以及

利用所述第一路音频数据和所述第二路音频数据对应的唤醒得分，确定唤醒得分参考值；

响应于所述唤醒得分参考值满足第一要求且所述能量参考值满足第二要求，选取所述第二路音频数据对应的声音采集装置的位置作为所述说话人的定位位置；

响应于所述唤醒得分参考值不满足第一要求或者所述能量参考值不满足第二要求，选取所述第一路音频数据对应的声音采集装置的位置作为所述说话人的定位位置。

3.根据权利要求2中所述的方法，其特征在于，所述能量参考值为能量归一化值，所述唤醒得分参考值为唤醒得分归一化值；

和/或所述第一要求为所述唤醒得分参考值大于第一阈值，所述第二要求为所述能量参考值小于第二阈值，其中，所述第二阈值大于所述第一阈值。

4.根据权利要求3中所述的方法，其特征在于，所述基于每路所述音频数据对应的能量值唤醒得分，确定所述说话人的定位位置之前，还包括：

基于所述每路音频数据对应的唤醒得分，确定当前已唤醒的路数；

响应于当前已唤醒的路数大于或等于预设数量阈值，则执行基于每路所述音频数据对应的能量值唤醒得分，确定所述说话人的定位位置的步骤。

5.根据权利要求4中所述的方法，其特征在于，所述基于所述每路音频数据对应的唤醒得分，确定当前已唤醒的路数之后，还包括：

响应于当前已唤醒的路数小于第一路数阈值，则按照预设等待时间范围等待其他路被唤醒；

响应于当前已唤醒的总路数大于或等于第一路数阈值，则执行基于每路所述音频数据对应的能量值和唤醒得分，确定所述说话人的定位位置的步骤。

6.根据权利要求3中所述的方法，其特征在于，所述响应于已唤醒的路数小于第一路数阈值，则按照预设等待时间范围等待其他路被唤醒之后，还包括：

响应于在预设等待时间范围内已唤醒的总路数小于第一路数阈值，则判断已唤醒的总路数中至少一路的唤醒时间是否大于预设等待时间阈值；

响应于已唤醒的总路数中至少一路的唤醒时间大于预设等待时间阈值，则判断当前已唤醒的总路数是否大于第二路数阈值；

若是，则执行基于每路所述音频数据对应的能量值和唤醒得分，确定所述说话人的定位位置的步骤；

否则，选取当前已唤醒的至少一路音频数据对应的声音采集装置的位置作为所述说话人的定位位置。

7.根据权利要求1中所述的方法，其特征在于，所述利用每路音频数据包含的关键词，确定每路音频数据对应的唤醒得分，包括：

对的每路所述音频数据进行关键词检测，得到候选关键词；

对候选关键词进行置信度确认，得到每路音频数据对应的唤醒得分。

8.根据权利要求1中所述的方法，其特征在于，所述对后续的所述音频数据进行语音识别，得到语音控制指令之前，还包括：

提取所述音频数据中说话人的声纹特征；

将所述说话人的声纹特征与候选声纹特征进行比对；

响应于比对成功，执行对所述音频数据进行语音识别，得到语音控制指令的步骤。

9.根据权利要求1中所述的方法，其特征在于，所述利用每路音频数据包含的关键词，确定每路音频数据对应的唤醒得分，包括：

对每路所述音频数据进行降噪处理，得到对应的所述语音数据；

利用每路所述语音数据包含的关键词，确定每路音频数据对应的唤醒得分。

10.根据权利要求9中所述的方法，其特征在于，

所述对每路所述音频数据进行降噪处理，得到对应的所述语音数据，包括：

获取参考信号，其中，所述参考信号为已知频率的噪声信号；

利用所述参考信号对每路所述音频数据进行回声消除；

利用神经网络降噪算法对回声消除后的每路所述音频数据进行降噪，得到对应的所述语音数据。

11.一种语音控制装置，其特征在于，包括：

第一获取模块，用于获取对车辆外部的目标范围采集的至少一路音频数据，所述音频数据包括说话人的语音数据；

能量值模块，用于获取每路所述音频数据对应的能量值；

唤醒模块，用于利用每路音频数据包含的关键词，确定每路音频数据对应的唤醒得分；

定位模块，用于基于每路所述音频数据对应的能量值唤醒得分，确定所述说话人的定位位置；

第二获取模块，用于利用所述说话人的定位位置对应的声音采集装置采集后续的音频数据；

语音识别模块，用于对后续的所述音频数据进行语音识别，得到语音控制指令；

控制模块，用于按照所述语音控制指令对所述车辆进行控制。

12.一种语音控制***，其特征在于，包括：车外音频信号处理装置、至少一路声音采集装置和车外指令执行装置，

所述至少一路声音采集装置设于车辆外部的不同位置，用于采集车辆外部的目标范围的声音，得到至少一路音频数据，其中，所述音频数据包括说话人的语音数据；

所述车外音频信号处理装置包括车外定位模块和车外唤醒识别模块，所述车外定位模块用于获取每路所述音频数据对应的能量值；利用每路音频数据包含的关键词，确定每路音频数据对应的唤醒得分；基于每路所述音频数据对应的能量值和唤醒得分，确定所述说话人的定位位置；利用所述说话人的定位位置对应的声音采集装置采集后续的音频数据；所述车外唤醒识别模块用于对所述音频数据进行语音识别，得到语音控制指令；

所述车外指令执行装置，用于按照所述语音控制指令对所述车辆进行控制。

13.根据权利要求12中所述的***，其特征在于，所述车外音频信号处理装置还包括：

车外降噪模块，用于对每路所述音频数据进行降噪处理，得到对应的所述语音数据。

14.根据权利要求13中所述的***，其特征在于，所述车外降噪模块还用于获取每路所述音频数据对应的能量值；

和/或，所述车外音频信号处理装置还包括车外声纹识别模块；其中，所述车外声纹识别模块用于提取所述语音数据中说话人的声纹特征，并将所述说话人的声纹特征与候选声纹特征进行比对；所述车外唤醒识别模块具体用于响应于所述比对成功，对所述语音数据进行语音识别，得到语音控制指令。

15.根据权利要求12中所述的***，其特征在于，

所述车外指令执行装置还用于对所述音频数据进行语音识别，得到语音控制指令；和/或，

所述声音采集装置包括全向麦克风和波束麦克风中的至少一种，和/或，

所述车外指令执行装置包括车载主控***。

16.一种车辆，其特征在于，包括如权利要求12-15中任一项所述的车外语音交互***。

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序数据，所述程序数据在被处理器执行时，用以实现如权利要求1-10任一项所述的方法。