CN109509465B

CN109509465B - 语音信号的处理方法、组件、设备及介质

Info

Publication number: CN109509465B
Application number: CN201710850441.4A
Authority: CN
Inventors: 都家宇; 田彪; 雷鸣; 姚海涛; 刘勇; 黄雷
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2017-09-15
Filing date: 2017-09-15
Publication date: 2023-07-25
Anticipated expiration: 2037-09-15
Also published as: CN109509465A

Abstract

本申请实施例公开了一种语音信号的处理方法、组件、设备及介质，用以提高语音控制的灵活性。所述方法，包括：处理组件将接收到的混合语音信号中来自不同方位的语音信号分离，得到多路语音信号；所述处理组件对所述多路语音信号中的部分或全部进行并行识别，其中，所述并行识别包括：对所述多路语音信号中的部分或全部，分别将每路语音信号分成多个识别单位以进行识别，其中每个识别单位包括连续的多帧。

Description

语音信号的处理方法、组件、设备及介质

技术领域

本申请涉及数据处理技术领域，尤其涉及一种语音信号的处理方法、组件、设备及计算机可读存储介质。

背景技术

随着语音识别技术的不断发展，智能语音控制***得到了快速的发展，智能语音控制***通过对语音的识别，能够快速、准确、有效地执行相应的功能。

现有的智能语音控制***，在采集到语音信号后，可以在智能语音控制***的数据库中查找与语音信号语义相匹配的目标数据，进而根据查找到的目标数据所对应的控制指令，控制执行相应的功能。

但是，现有的语音控制***只能响应于单个用户的语音信号执行相应的功能，缺乏灵活性。

发明内容

本申请实施例提供了一种语音信号的处理方法、组件、设备及计算机可读存储介质，用以提高语音控制的灵活性。

根据本申请实施例的第一方面，提供一种语音信号的处理方法，包括：

处理组件将接收到的混合语音信号中来自不同方位的语音信号分离，得到多路语音信号；

处理组件对多路语音信号中的部分或全部进行并行识别，其中，并行识别包括：对多路语音信号中的部分或全部，分别将每路语音信号分成多个识别单位以进行识别，其中每个识别单位包括连续的多帧。

根据本申请实施例的第二方面，提供一种语音信号的处理组件，包括：

语音处理模块，用于将接收到的混合语音信号中来自不同方位的语音信号分离，得到多路语音信号；

识别模块，用于对多路语音信号中的部分或全部进行并行识别，其中，并行识别包括：对多路语音信号中的部分或全部，分别将每路语音信号分成多个识别单位以进行识别，其中每个识别单位包括连续的多帧。

根据本申请实施例的第三方面，提供一种语音信号的处理设备，包括：存储器和处理器；该存储器用于储存有可执行程序代码；该处理器用于读取存储器中存储的可执行程序代码以执行上述语音信号的处理方法。

根据本申请实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序指令，当计算机程序指令被处理器执行时实现上述语音信号的处理方法。

根据本申请实施例的第五方面，提供一种车载语音交互设备，设备包括：麦克风阵列和处理器；其中，

麦克风阵列，用于采集混合语音信号；

处理器，与麦克风阵列通信连接，用于将接收到的混合语音信号中来自不同方位的语音信号分离，得到多路语音信号，并对多路语音信号中的部分或全部进行并行识别，其中，并行识别包括：对多路语音信号中的部分或全部，分别将每路语音信号分成多个识别单位以进行识别，其中每个识别单位包括连续的多帧。

根据本申请实施例的第六方面，提供一种车载互联网控制***，包括：麦克风控制组件和控制组件；其中，

麦克风控制组件，用于控制麦克风阵列采集混合语音信号；

控制组件，用于控制将接收到的混合语音信号中来自不同方位的语音信号分离，得到多路语音信号，并对多路语音信号中的部分或全部进行并行识别，其中，并行识别包括：对多路语音信号中的部分或全部，分别将每路语音信号分成多个识别单位以进行识别，其中每个识别单位包括连续的多帧。

根据本申请实施例中的语音信号的处理方法、组件、设备及计算机可读存储介质，将接收到的混合语音信号中来自不同方位的语音信号分离，得到多路语音信号，并对多路语音信号中的部分或全部进行并行识别，其中，并行识别包括：对多路语音信号中的部分或全部，分别将每路语音信号分成多个识别单位以进行识别，其中每个识别单位包括连续的多帧。本申请实施例的技术方案，在对部分或全部语音信号中的每路语音信号进行识别时，通过将每路语音信号分成多个识别单位进行识别，有效降低了识别的次数，进而降低了对每路语音信号识别时占用的中央处理器(Central Processing Unit，CPU)资源，从而使得能够对多路语音信号中的部分或全部进行并行识别。进一步地，使得采用本申请实施例技术方案的语音交互设备，能够并行对多路语音信号进行识别，与现有技术中只能响应于单个用户的语音信号相比，大大提高了语音控制的灵活性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了现有技术中语义识别的原理示意图；

图2示出了本申请实施例中语义识别的原理示意图；

图3示出了根据本申请实施例的语音信号的处理方法的一个应用场景的示意图；

图4示出了本申请实施例中基于麦克风阵列进行波束成形的原理示意图；

图5示出了根据本申请实施例的语音信号的处理方法的另一应用场景的示意图；

图6示出了根据本申请实施例的语音信号的处理方法的示意流程图；

图7示出了根据本申请实施例的语音信号的处理组件的结构示意图；

图8示出了能够实现根据本申请实施例的语音信号的处理方法和组件的计算设备的示例性硬件架构的结构图；

图9示出了本申请实施例的车载语音交互设备的结构示意图；

图10示出了本申请实施例的车载互联网控制***的结构示意图。

具体实施方式

下面将详细描述本申请的各个方面的特征和示例性实施例，为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本申请，并不被配置为限定本申请。对于本领域技术人员来说，本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

需要说明的是，对语音信号进行识别时，可以包括但不限于：语义识别、语境识别、语气识别等。本申请实施例在智能语音控制***中以语义识别为例进行说明。

现有的智能语音控制***，在根据接收到的语音信号执行相应的功能时，包括：语义识别环节、语义匹配环节、以及控制执行环节。其中，语义识别环节是指在采集到语音信号后，对语音信号进行语义识别，识别出语音信号中包含的语义；语义匹配环节是指基于对语音信号的语义识别结果，从智能语音控制***的数据库中查找与语义识别结果相匹配的目标数据；而控制执行环节则是指根据查找到的目标数据所对应的控制指令，控制设备执行相应的功能。

现有的智能语音控制***中，在语义识别环节，采集到语音信号之后，先对语音信号进行分帧处理，然后对语音信号中的每帧语音数据进行识别，进而根据每帧语音数据的识别结果确定语音信号包含的语义。

举例来说，如图1所示，分帧处理后的语音信号中包括7帧语音数据，也即从t＝i-3时刻到t＝i+3时刻的7帧语音数据，则在语义识别环节中会分别对7帧语音数据进行语义识别，进而结合7帧语音数据的语义识别结果确定语音信号包含的语义。

语义识别环节中的上述处理过程将占用大量的CPU资源，而智能语音控制***的CPU资源往往是极其有限的，这势必会使得能够分配到语义匹配环节和控制执行环节的CPU资源更为有限，从而导致现有的智能语音控制***只能响应于单个用户的语音信号执行相应的功能，缺乏灵活性。

举例来说，现有的智能语音控制***应用在汽车中，形成车载语音控制***，但是现有的车载语音控制***通常只能由主驾驶进行语音控制，而且在实际使用中，主驾驶的语音信号容易受副驾驶和车内后座人员的语音信号干扰，导致实际车载语音控制***的控制效果并不理想。

再比如，现有的智能语音控制***应用在智能设备中时，例如，应用在智能音箱、智能电视、自动购物机时，智能设备往往只能由一个用户进行语音控制，而在多个用户同时讲话或者在嘈杂的环境中时，智能设备中智能语音控制***的控制效果将大大降低。

有鉴于此，在一个实施方式中，本申请实施例在对语音信号进行语义识别时，采用低帧率(Low Frame Rate，LFR)声学模型对采集到的语音信号进行语义识别，以降低语义识别环节占用的CPU资源。

在一个实施方式中，在采用LFR声学模型对采集到的语音信号进行语义识别时，将语音信号分成多个识别单位以进行语义识别，其中，每个识别单位包括连续的多帧。

在一个示例中，先对采集到的语音信号进行分帧处理，在对语音信号进行分帧处理之后，在每预设数量帧语音数据中选取一帧语音数据作为目标帧，并以与目标帧语音数据相邻的多帧语音数据以及目标帧语音数据为识别单位对目标帧语音数据进行语义识别。其中，相邻识别单位之间可以包括相同的语音数据帧。

举例来说，如图2所示，分帧处理后的语音信号中包括N帧语音数据，现以其中的7帧语音数据为例进行说明，也即以从t＝i-3时刻到t＝i+3时刻的7帧语音数据为例进行说明。

在对语音信号进行语义识别时，每3帧语音数据中选取一帧作为目标帧语音数据，例如，在t＝i-3时刻到t＝i+3时刻的7帧语音数据，选取t＝i-3时刻的语音数据、t＝i时刻的语音数据、以及t＝i+3时刻的语音数据作为目标帧语音数据。

针对t＝i-3时刻的语音数据，在进行语义识别时，结合t＝i-6时刻的语音数据、t＝i-5时刻的语音数据、t＝i-4时刻的语音数据、t＝i-3时刻的语音数据、t＝i-2时刻的语音数据、t＝i-1时刻的语音数据、以及t＝i时刻的语音数据进行语义识别。与之类似，针对t＝i时刻的语音数据，在进行语义识别时，结合t＝i-3时刻的语音数据、t＝i-2时刻的语音数据、t＝i-1时刻的语音数据、t＝i时刻的语音数据、t＝i+1时刻的语音数据、t＝i+2时刻的语音数据、以及t＝i+3时刻的语音数据进行语义识别。

从图2中示出的语义识别过程可以看出，图2中示出的语义识别过程，与图1中示出的语义识别过程相比，能够明显降低语义识别时的识别次数或者频率，进而降低语义识别环节占用的CPU资源。同时由于在语义识别过程中，识别的语音数据帧数量减少，图2中示出的语义识别过程还可以提高语义识别的效率。

图2中示出的语义识别过程，在选取目标帧语音数据之后，以与目标帧语音数据相邻的多帧语音数据以及目标帧语音数据为单位对目标帧语音数据进行语义识别，与选取目标帧语音数据之后，仅结合目标帧语音数据进行语义识别的方式相比，在对每个目标帧语音数据进行语义识别时，结合了更多的语音信息，因此，图2中示出的语义识别过程，在降低语义识别的识别频率、降低语义识别环节占用的CPU资源、提高语义识别效率的同时，还能够有效保证语义识别的准确率。

当然，本示例中，以与目标帧语音数据相邻的前三帧语音数据、后三帧语音数据以及目标帧语音数据为识别单位对目标帧语音数据进行语义识别。在本申请其它实施例中，在以与目标帧语音数据相邻的多帧语音数据以及目标帧语音数据为单位对目标帧语音数据进行语义识别时，与目标帧语音数据相邻的多帧语音数据，也可以根据语音识别的准确率需求进行设定。举例来说，若对语音识别的准确率要求较高，则可以将与目标帧语音数据相邻的多帧语音数据的数量设置的大一点；相反，若对语音识别的准确率要求较低，则可以将与目标帧语音数据相邻的多帧语音数据的数量设置的小一点。

在一个实施方式中，由于采用图2中示出的语义识别方法进行语义识别，能够降低语义识别环节占用的CPU资源。因此，本申请实施例提供的语音信号的处理方案，在采用图2中示出的语义识别方法之后，在CPU资源有限的情况下，仍然能够并行对多路语音信号进行语义识别。

虽然在采用图2中示出的语音信号的处理方法之后，在对语音信号的处理时可以并行对多路语音信号进行语义识别，但是在接收到包含来自不同方位的语音信号的混合语音信号时，还需要从混合语音信号中将各个语音信号进行分离，得到多路语音信号，然后对多路语音信号中的部分或全部进行并行语义识别，以提高对语音信号语义识别的准确率。

为此，在一个实施方式中，本申请实施例中采用麦克风阵列将接收到的混合语音信号中来自不同方位的语音信号分离，得到多路语音信号，并基于波束成形算法从采集的混合语音信号中分离各个语音信号，进而对各个语音信号进行语义识别，提高语义识别的准确率，从而解决现有技术中在对混合语音信号识别时语义识别准确率低的问题。

举例来说，如图3所示，在车载语音控制环境中，包括主驾驶员31、副驾驶员32、以及语音交互设备33，其中，语音交互设备33中包括麦克风阵列。

在主驾驶员31和副驾驶员32讲话过程中，若语音交互设备33处于开启状态，则语音交互设备33中的麦克风阵列将实时采集包括主驾驶员31的语音信号和副驾驶员32的语音信号的混合语音信号。当然，实际车载环境中，混合语音信号还可能包含车内后座人员的语音信号和环境噪音。

在麦克风阵列采集混合语音信号时，由于主驾驶员31和副驾驶员32处于语音交互设备33的不同方位，因此，就麦克风阵列而言，主驾驶员31的语音信号和副驾驶员32的语音信号来自不同的方位。基于此，麦克风阵列可以在不同方向形成波束，并拾取波束内的语音信号，消除波束外的噪音，达到分离语音信号和语音信号增强的目的。

在一个示例中，如图4所示，在麦克风阵列采集包括主驾驶员31的语音信号和副驾驶员32的语音信号的混合语音信号之后，首先对采集到的混合语音信号进行预处理，预处理之后采用相位变换加权广义互相关算法求得每路语音信号相对于参考信号的时延差，最后基于计算出的时延差，通过延迟累加波束成形算法形成波束。

在一个示例中，预处理包括分帧、静音检测、加汉明窗。由于语音信号是非稳态信号，它的特征是随时间变化的，但在很短的时间段内，可以认为语音信号具有相对稳定的特征，也即语音信号具有短时平稳性。因此，在对语音信号进行处理时通常按短时间段对语音信号进行分帧。

而静音检测的目的在于剔除语音信号中的静音帧，静音检测既可以消除静音帧对前后帧语音识别时带来的影响，又可以减少不必要的计算量，提高计算效率。

另外，由于对语音信号的分帧处理，相当于用矩形窗对时域语音信号进行截取，由于时域乘积相当于频域卷积，就频域而言，矩形窗截取会造成语音信号的频谱泄露，因此，需要加汉明窗来缓解频谱泄露。

在对语音信号进行预处理之后，基于麦克风阵列的语音增强，需要对声源进行定位，以估计期望声源的位置或者方向，然后利用增强算法得到增强后的语音信号。

在一个示例中，以基于时延差(Time Difference of Arrival，TDOA)估计方法进行声源定位为例进行说明。

常用的时延差估计方法包括：广义互相关(Generalized Cross Correlation，GCC)法，线性回归(Linear Regression，LR)法，最小均方(Least Mean Square，LMS)自适应法等。下文以GCC法为例进行说明。

GCC法首先计算出一对麦克风信号的互功率谱，再乘以相应的权重，最后做傅里叶反变换得到信号的互相关函数，其峰值对应的时刻就是此对麦克风的到达时延差τ_i。

GCC法的性能取决于选取的权重函数，其中，最具代表性的是最大似然(MaximumLikelihood，ML)加权和相位变换(Phase Transform，PHAT)加权。

理想情况下，最大似然加权可以达到最优估计，但是最大似然加权需要已知声源信号及噪声的功率谱，实际应用中，此条件很难得到满足。而相位变换加权摒弃了对声源信号及噪声的功率谱的需求，通过归一化互功率谱函数，锐化了互相关函数，使得峰值突出，更好地抑制了互相关伪峰的干扰。此外，在混响环境中，相位变换加权具有较强的鲁棒性。

对于理想自由声场环境，当声源信号自相关函数为最大值时，互相关函数也是最大值，所以在计算时，只须找出互相关函数的最大值，其对应的时间，即为时延差。

而混响环境，由于叠加了无数的混响信号，函数的峰值点可能有多个，针对此问题，可以采用相位变换加权广义互相关GCC-PHAT算法进行解决。

GCC-PHAT算法并不直接在时域计算互相关函数，而是利用信号在时域的互相关函数与信号在频域的互功率谱函数的对应关系，先计算两个语音信号之间的互功率谱密度，然后进行PHAT加权，最后经过傅里叶逆变换，得到广义互相关函数，进而求得相应的时延差。

延迟-累加波束形成(Delay-Sum Beamforming，DSB)算法利用GCC-PHAT得到的时延差τ_i，首先对各个麦克风通道上的语音信号进行时延补偿，使各个麦克风接收到的语音信号在时间轴上对齐，然后均匀加权、求和，得到输出信号。

在波束成形的过程中，可以根据各方位波束能量与相位差的关系，确定每路语音信号的方位信息。

在一个示例中，麦克风阵列在确定混合语音信号中主驾驶员31的语音信号和副驾驶员32的语音信号相对于麦克风阵列的方位信息之后，可以基于确定出的方位信息，从采集到的混合语音信号中分离出主驾驶员31的语音信号和副驾驶员32的语音信号。

在一个示例中，在从混合语音信号中分离出主驾驶员31的语音信号和副驾驶员32的语音信号之后，还可以对主驾驶员31的语音信号和副驾驶员32的语音信号分别进行波束成形处理和信号增强处理。举例来说，信号增强处理可以包括但不限于：信号放大处理、降噪处理等。

在一个示例中，在从采集到的混合语音信号中分离出主驾驶员31的语音信号和副驾驶员32的语音信号之后，可以并行对主驾驶员31的语音信号和副驾驶员32的语音信号进行语义识别。具体在对主驾驶员31的语音信号和副驾驶员32的语音信号进行语义识别时，可以采用图2中示出的语义识别方法，以降低语义识别占用的CPU资源。

在一个实施方式中，在通过麦克风阵列采集包含来自不同方位的语音信号的混合语音信号之后，可以采用图4示出的波束成形算法确定每个语音信号的方位信息，并基于确定出的每个语音信号的方位信息从混合语音信号中分离出每个语音信号，得到多路语音信号，进而采用图2示出的语义识别方法对分离出的多路语音信号中的部分或者全部进行语义识别。

在一个示例中，若麦克风阵列采集到的混合语音信号中包括主驾驶的语音信号、副驾驶语音信号、以及环境噪音，则在麦克风阵列从混合语音信号中分离出主驾驶的语音信号、副驾驶语音信号、以及环境噪音之后，由于环境噪音中显然不可能包括有价值的信息，因此，在后续对分离出的多路语音信号进行语义识别时，可以仅对分离出主驾驶的语音信号和副驾驶语音信号进行语义识别，而不对分离出的环境噪音进行语义识别，以进一步降低语义识别环节占用的CPU资源。

在一个实施方式中，在并行对主驾驶员31的语音信号和副驾驶员32的语音信号进行语义识别之后，可以由语音交互设备33中的多个唤醒引擎并行对主驾驶员31语音信号的语义识别结果和副驾驶员32语音信号的语义识别结果进行检测，检测主驾驶员31语音信号的语义识别结果和副驾驶员32语音信号的语义识别结果中是否包含唤醒词。

在一个示例中，唤醒词是指激活语音交互设备33中语音控制***的口令或者命令，其可以是预先定义的特定词语、特定句子或者特定信号等。举例来说，唤醒词为“你好斑马”。

在一个示例中，语音交互设备33中的多个唤醒引擎在检测到某一用户(主驾驶员或者副驾驶员)的语音信号中包含唤醒词时，利用唤醒词唤醒语音交互设备33中的语音控制***，并在随后的预设时长内根据该用户的语音信号对进行语音控制。

在一个实施方式中，语音交互设备33中的多个唤醒引擎均可以与语音控制***相连接，但是实际使用中具体将哪个唤醒引擎中检测的语义识别结果发送至语音控制***，由语义识别结果中是否包含唤醒词决定。也即哪路唤醒引擎检测的语义识别结果中包含唤醒词，则将该路语义识别结果发送至语音控制***。

举例来说，在并行对主驾驶员31的语音信号和副驾驶员32的语音信号进行语义识别之后，可以由语音交互设备33中的多个唤醒引擎并行对主驾驶员31语音信号的语义识别结果和副驾驶员32语音信号的语义识别结果进行检测。

若检测到主驾驶员31语音信号的语义识别结果中包含唤醒词，则将主驾驶员31语音信号的语义识别结果发送至语音控制***，进而由主驾驶员31进行语音控制；而若检测到副驾驶员32语音信号的语义识别结果中包含唤醒词，则将副驾驶员32语音信号的语义识别结果发送至语音控制***，进而由副驾驶员32进行语音控制。

在一个实施方式中，为了方便进行控制，在主驾驶员31或副驾驶员32唤醒语音控制***之后，例如，在主驾驶员31唤醒语音控制***之后，还可以基于麦克风阵列确定出的主驾驶员31的方位信息，在当前时刻之后的预设时长内，可以定向采集主驾驶员31所在方位的语音信息，并对采集到的语音信号进行波束成形处理和信号增强处理，然后将波束成形处理和信号增强处理后的语音信号发送至语音控制***。其中，预设时长可以根据经验值设定，例如：30秒。

上面结合车载环境对本申请实施例提供的语音信号的处理方法进行了说明，本申请实施例还可以用于其它包含语音控制***的智能设备中。其中，智能设备可以包括但不限于：智能音箱、智能电视、自动购物机。

举例来说，以智能音箱为例，如图5所示，在智能家居环境中，包括智能音箱50、用户51和用户52，智能音箱50中包括采集语音信号的麦克风阵列、语义识别***、语义检测***以及语音控制***。

在具体使用时，用户51和用户52均在智能音箱50的识别范围内，通过语音向智能音箱50发送控制命令。

智能音箱50中的麦克风阵列采集包含用户51语音信号和用户52语音信号的混合语音信号，然后基于波束成形算法确定用户51和用户52的方位信息，并根据确定出的用户51的方位信息和用户52的方位信息，从混合语音信号中分离出用户51的语音信号和用户52的语音信号，然后将用户51的语音信号和用户52的语音信号发送至语义识别***。

智能音箱50中的语义识别***在接收到用户51的语音信号和用户52的语音信号之后，并行对用户51的语音信号和用户52的语音信号进行语义识别，然后将用户51的语音信号的语义识别结果和用户52的语音信号的语义识别结果发送至语义检测***。

智能音箱50中的语义检测***在接收到用户51语音信号的语义识别结果和用户52语音信号的语义识别结果之后，启动两个唤醒引擎，并行检测用户51语音信号的语义识别结果和用户52语音信号的语义识别结果中是否包含唤醒词。例如，启动唤醒引擎1和唤醒引擎2，唤醒引擎1和唤醒引擎2并行运行，由唤醒引擎1检测用户51语音信号的语义识别结果中是否包含唤醒词，由唤醒引擎2检测用户52语音信号的语义识别结果中是否包含唤醒词。

若唤醒引擎1检测到用户51语音信号的语义识别结果中包含唤醒词，则唤醒引擎1将用户51语音信号的语义识别结果发送至语音控制***；若唤醒引擎2检测到用户52语音信号的语义识别结果中包含唤醒词，则唤醒引擎2将用户52语音信号的语义识别结果发送至语音控制***。

智能音箱50中的语音控制***在接收到语义检测***发送的语义识别结果之后，根据语义识别结果在数据库中查找与语义识别结果相匹配的目标数据，进而根据查找到的目标数据所对应的控制指令，控制智能音箱50执行相应的功能。

语音控制***在根据语义识别结果在数据库中查找与语义识别结果相匹配的目标数据，可以在智能音箱50本地存储的数据库中查找与语义识别结果相匹配的目标数据，也可以将语义识别结果上传到云服务器或云计算平台，在云服务器的数据库或云计算平台的数据库中查找与语义识别结果相匹配的目标数据，本申请对此不作限定。

下面结合具体的***处理流程对上述语音信号的处理方法的执行过程进行说明，然而，值得注意的是，该具体实施例仅是为了更好地说明本申请，并不构成对本申请的不当限定。

从整体流程而言，如图6所示，语音信号的处理方法600，可以包括以下步骤：

步骤S601，处理组件将接收到的混合语音信号中来自不同方位的语音信号分离，得到多路语音信号。

步骤S602，处理组件对多路语音信号中的部分或全部进行并行识别，其中，并行识别包括：对多路语音信号中的部分或全部，分别将每路语音信号分成多个识别单位以进行识别，其中每个识别单位包括连续的多帧。

在本申请实施例中，在对部分或全部语音信号中的每路语音信号进行识别时，通过将每路语音信号分成多个识别单位进行识别，有效降低了识别的次数，进而降低了对每路语音信号识别时占用的CPU资源，从而使得能够对多路语音信号中的部分或全部进行并行识别。进一步地，使得采用本申请实施例技术方案的语音交互设备，能够并行对多路语音信号进行识别，与现有技术中只能响应于单个用户的语音信号相比，大大提高了语音控制的灵活性。

在实现的时候，如图7所示，语音信号的处理组件700，可以包括：

语音处理模块701，用于将接收到的混合语音信号中来自不同方位的语音信号分离，得到多路语音信号。

识别模块702，用于对多路语音信号中的部分或全部进行并行识别，其中，并行识别包括：对多路语音信号中的部分或全部，分别将每路语音信号分成多个识别单位以进行识别，其中每个识别单位包括连续的多帧。

在一个实施方式中，识别模块702，具体用于：分别对每路语音信号进行分帧处理，得到多帧语音数据；在多帧语音数据中，从每预设数量帧语音数据中选取一帧作为目标帧语音数据；以与目标帧语音数据相邻的多帧语音数据，以及目标帧语音数据为识别单位，对每路语音信号进行识别。

在一个实施方式中，语音处理模块701，具体用于：确定混合语音信号中每路语音信号的方位信息；基于每路语音信号的方位信息，将混合语音信号中来自不同方位的的多路语音信号进行分离。

在一个实施方式中，信号增强模块703，用于对每路语音信号进行波束成形处理和信号增强处理。

在一个实施方式中，装置还包括：检测模块704，用于并行检测每路语音信号的识别结果中是否包含唤醒词；第一发送模块705，用于在检测到任一路语音信号的识别结果中包含唤醒词时，将包含唤醒词的识别结果发送至语音控制***。

在一个实施方式中，装置还包括：方位确定模块706，用于确定包含唤醒词的识别结果对应语音信号的方位信息；采集模块707，用于在预设时长内，定向采集方位信息的语音信号，并对采集到的语音信号进行波束成形处理和信号增强处理；第二发送模块708，用于将波束成形处理和信号增强处理后的语音信号发送至语音控制***。

在一个实施方式中，语音控制***在被包含唤醒词的识别结果唤醒后，根据接收到的语音信号执行对应的功能。

在一个实施方式中，多路语音信号，包括：主驾驶的语音信号和副驾驶的语音信号。

图8示出了能够实现根据本申请实施例的语音信号的处理方法和组件的计算设备的示例性硬件架构的结构图。如图8所示，计算设备800包括输入设备801、输入接口802、中央处理器803、存储器804、输出接口805、以及输出设备806。其中，输入接口802、中央处理器803、存储器804、以及输出接口805通过总线810相互连接，输入设备801和输出设备806分别通过输入接口802和输出接口805与总线810连接，进而与计算设备800的其他组件连接。

具体地，输入设备801接收来自外部的输入信息，并通过输入接口802将输入信息传送到中央处理器803；中央处理器803基于存储器804中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器804中，然后通过输出接口805将输出信息传送到输出设备806；输出设备806将输出信息输出到计算设备800的外部供用户使用。

也就是说，图8所示的计算设备也可以被实现为语音信号的处理设备，该语音信号的处理设备可以包括：存储有计算机可执行指令的存储器；以及处理器，该处理器在执行计算机可执行指令时可以实现结合图2至图7描述的语音信号的处理方法和组件。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品或计算机可读存储介质的形式实现。所述计算机程序产品或计算机可读存储介质包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如，红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如，固态硬盘Solid State Disk(SSD))等。

另外，结合上述实施例中的语音信号的处理方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种语音信号的处理方法。

本申请还提供一种车载语音交互设备。本领域技术人员可以理解，该车载语音交互设备可以管理和控制上述图7或图8所示的语音信号的处理组件的硬件或者本申请所涉及的语音信号的处理设备的硬件以及本申请所涉及的软件资源的计算机程序，是直接运行在上述处理组件或处理设备上的***软件。

本申请提供的车载语音交互设备，可以与车辆上的其他模块或功能设备进行交互，以控制相应模块或功能设备的功能。

下面详细说明本申请提供的车载语音交互设备的结构示意图。图9为本申请一实施例提供的车载语音交互设备的结构示意图。如图9所示，本申请提供的车载语音交互设备包括：麦克风阵列901和处理器902，其中，

麦克风阵列901，用于采集混合语音信号。

处理器902，与麦克风阵列901通信连接，用于将接收到的混合语音信号中来自不同方位的语音信号分离，得到多路语音信号，并对多路语音信号中的部分或全部进行并行识别，其中，并行识别包括：对多路语音信号中的部分或全部，分别将每路语音信号分成多个识别单位以进行识别，其中每个识别单位包括连续的多帧。

在一个实施方式中，处理器902具体用于：分别对每路语音信号进行分帧处理，得到多帧语音数据；在多帧语音数据中，从每预设数量帧语音数据中选取一帧作为目标帧语音数据；以与目标帧语音数据相邻的多帧语音数据，以及目标帧语音数据为识别单位，对每路语音信号进行识别。

在一个实施方式中，处理器902具体用于：确定混合语音信号中每路语音信号的方位信息；基于每路语音信号的方位信息，将混合语音信号中来自不同方位的的多路语音信号进行分离。

在一个实施方式中，处理器902还用于，对每路语音信号进行波束成形处理和信号增强处理。

在一个实施方式中，处理器902，还用于：并行检测每路语音信号的识别结果中是否包含唤醒词；在检测到任一路语音信号的识别结果中包含唤醒词时，将包含唤醒词的识别结果发送至语音控制***。

在一个实施方式中，处理器902，还用于：确定包含唤醒词的识别结果对应语音信号的方位信息；在预设时长内，定向采集方位信息的语音信号，并对采集到的语音信号进行波束成形处理和信号增强处理；将波束成形处理和信号增强处理后的语音信号发送至语音控制***。

进一步地，该车载语音交互设备可以通过上述的麦克风阵列901和处理器902，或者在上述麦克风阵列901和处理器902的基础上，结合其它单元，控制相应的组件以执行上述图6中语音信号的处理方法。

本申请还提供一种车载互联网操作***。本领域技术人员可以理解，该车载互联网操作***可以管理和控制上述图7或图8所示的语音信号的处理组件的硬件或者本申请所涉及的语音信号的处理设备的硬件以及本申请所涉及的软件资源的计算机程序，是直接运行在上述处理组件或处理设备上的***软件。

本申请提供的车载互联网控制***，可以与车辆上的其他模块或功能设备进行交互，以控制相应模块或功能设备的功能。

基于本申请提供的车载互联网控制***以及车辆通信技术的发展，使得车辆不再独立于通信网络以外，车辆可以与服务端互相连接起来组成网络，从而形成车载互联网。该车载互联网***可以提供语音通信服务、定位服务、导航服务、移动互联网接入、车辆紧急救援、车辆数据和管理服务、车载娱乐服务等。

下面详细说明本申请提供的车载互联网控制***的结构示意图。图10为本申请一实施例提供的车载互联网控制***的结构示意图。如图10所示，本申请提供的车载互联网控制***包括：麦克风控制组件1001和控制组件1002，其中，

麦克风控制组件1001，用于控制麦克风阵列采集混合语音信号；

控制组件1002，用于控制将接收到的混合语音信号中来自不同方位的语音信号分离，得到多路语音信号，并对多路语音信号中的部分或全部进行并行识别，其中，并行识别包括：对多路语音信号中的部分或全部，分别将每路语音信号分成多个识别单位以进行识别，其中每个识别单位包括连续的多帧。

进一步地，该车载互联网控制***可以通过上述的麦克风控制组件1001和控制组件1002，或者在上述麦克风控制组件1001和控制组件1002的基础上，结合其它单元，控制相应的组件以执行上述图6中语音信号的处理方法。

需要明确的是，本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本申请的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本申请的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

还需要说明的是，本申请中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或***。但是，本申请不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

以上所述，仅为本申请的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的***、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。

Claims

1.一种语音信号的处理方法，其特征在于，所述方法包括：

所述处理组件对所述多路语音信号中的部分或全部进行并行识别，其中，所述并行识别包括：对所述多路语音信号中的部分或全部，分别将每路语音信号分成多个识别单位以进行识别，其中每个识别单位包括连续的多帧；其中，所述分别将每路语音信号分成多个识别单位以进行识别，包括：

分别对每路语音信号进行分帧处理，得到多帧语音数据；

在所述多帧语音数据中，从每预设数量帧语音数据中选取一帧作为目标帧语音数据；

以与所述目标帧语音数据相邻的多帧语音数据，以及所述目标帧语音数据为识别单位，对每路语音信号进行识别。

2.根据权利要求1所述的方法，其特征在于，所述处理组件将接收到的混合语音信号中来自不同方位的多路语音信号分离，包括：

确定所述混合语音信号中每路语音信号的方位信息；

基于每路语音信号的方位信息，将所述混合语音信号中来自不同方位的多路语音信号进行分离。

3.根据权利要求1所述的方法，其特征在于，所述处理组件将接收到的混合语音信号中来自不同方位的多路语音信号分离，得到多路语音信号之后，所述对所述多路语音信号中的部分或全部进行并行识别之前，所述方法还包括：

所述处理组件对每路语音信号进行波束成形处理和信号增强处理。

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述方法还包括：

并行检测每路语音信号的识别结果中是否包含唤醒词；

在检测到任一路语音信号的识别结果中包含唤醒词时，将包含所述唤醒词的识别结果发送至语音控制***。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

确定包含所述唤醒词的识别结果对应语音信号的方位信息；

在预设时长内，定向采集所述方位信息的语音信号，并对采集到的语音信号进行波束成形处理和信号增强处理；

将波束成形处理和信号增强处理后的语音信号发送至所述语音控制***。

6.根据权利要求5所述的方法，其特征在于，所述语音控制***在被包含所述唤醒词的识别结果唤醒后，根据接收到的语音信号执行对应的功能。

7.根据权利要求1所述的方法，其特征在于，所述多路语音信号，包括：主驾驶的语音信号和副驾驶的语音信号。

8.一种语音信号的处理组件，其特征在于，所述处理组件包括：

识别模块，用于对所述多路语音信号中的部分或全部进行并行识别，其中，所述并行识别包括：对所述多路语音信号中的部分或全部，分别将每路语音信号分成多个识别单位以进行识别，其中每个识别单位包括连续的多帧；其中，所述识别模块，具体用于：

分别对每路语音信号进行分帧处理，得到多帧语音数据；

9.根据权利要求8所述的组件，其特征在于，所述语音处理模块，具体用于：

确定所述混合语音信号中每路语音信号的方位信息；

10.根据权利要求8所述的组件，其特征在于，所述处理组件还包括，信号增强模块，用于对每路语音信号进行波束成形处理和信号增强处理。

11.根据权利要求8-10中任一项所述的组件，其特征在于，所述处理组件还包括：

检测模块，用于并行检测每路语音信号的识别结果中是否包含唤醒词；

第一发送模块，用于在检测到任一路语音信号的识别结果中包含唤醒词时，将包含所述唤醒词的识别结果发送至语音控制***。

12.根据权利要求11所述的组件，其特征在于，所述处理组件还包括：

方位确定模块，用于确定包含所述唤醒词的识别结果对应语音信号的方位信息；

采集模块，用于在预设时长内，定向采集所述方位信息的语音信号，并对采集到的语音信号进行波束成形处理和信号增强处理；

第二发送模块，用于将波束成形处理和信号增强处理后的语音信号发送至所述语音控制***。

13.根据权利要求12所述的组件，其特征在于，所述语音控制***在被包含所述唤醒词的识别结果唤醒后，根据接收到的语音信号执行对应的功能。

14.根据权利要求8所述的组件，其特征在于，所述多路语音信号，包括：主驾驶的语音信号和副驾驶的语音信号。

15.一种语音信号的处理设备，其特征在于，包括存储器和处理器；所述存储器用于储存有可执行程序代码；所述处理器用于读取所述存储器中存储的可执行程序代码以执行权利要求1-7中任意一项所述的方法。

16.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，当所述计算机程序指令被处理器执行时实现如权利要求1-7中任一项所述的方法。

17.一种车载语音交互设备，其特征在于，所述设备包括：麦克风阵列和处理器；其中，

所述麦克风阵列，用于采集混合语音信号；

所述处理器，与所述麦克风阵列通信连接，用于将接收到的混合语音信号中来自不同方位的语音信号分离，得到多路语音信号，并对所述多路语音信号中的部分或全部进行并行识别，其中，所述并行识别包括：对所述多路语音信号中的部分或全部，分别将每路语音信号分成多个识别单位以进行识别，其中每个识别单位包括连续的多帧；其中，所述处理器具体用于：

分别对每路语音信号进行分帧处理，得到多帧语音数据；

18.根据权利要求17所述的设备，其特征在于，所述处理器具体用于：

确定所述混合语音信号中每路语音信号的方位信息；

19.根据权利要求17所述的设备，其特征在于，所述处理器还用于，对每路语音信号进行波束成形处理和信号增强处理。

20.根据权利要求17-19中任一项所述的设备，其特征在于，所述处理器，还用于：

并行检测每路语音信号的识别结果中是否包含唤醒词；

21.根据权利要求20所述的设备，其特征在于，所述处理器，还用于：

确定包含所述唤醒词的识别结果对应语音信号的方位信息；

22.根据权利要求21所述的设备，其特征在于，所述语音控制***在被包含所述唤醒词的识别结果唤醒后，根据接收到的语音信号执行对应的功能。

23.一种车载互联网控制***，其特征在于，包括：麦克风控制组件和控制组件；其中，

所述麦克风控制组件，用于控制麦克风阵列采集混合语音信号；

所述控制组件，用于控制将接收到的混合语音信号中来自不同方位的语音信号分离，得到多路语音信号，并对所述多路语音信号中的部分或全部进行并行识别，其中，所述并行识别包括：对所述多路语音信号中的部分或全部，分别将每路语音信号分成多个识别单位以进行识别，其中每个识别单位包括连续的多帧；所述控制组件具体用于：

分别对每路语音信号进行分帧处理，得到多帧语音数据；