WO2020221059A1

WO2020221059A1 - 音频信号处理方法及相关产品

Info

Publication number: WO2020221059A1
Application number: PCT/CN2020/085800
Authority: WO
Inventors: 黎椿键; 施栋
Original assignee: 华为技术有限公司
Priority date: 2019-04-30
Filing date: 2020-04-21
Publication date: 2020-11-05
Also published as: US20220199099A1; CN110111808B; EP3944238B1; EP3944238A1; CN110111808A; EP3944238A4

Abstract

一种音频信号处理方法及产品，方法包括：接收麦克风阵列采集的N路观测信号，对N路观测信号进行盲源分离以得到M路源信号和M个分离矩阵，M路源信号和M个分离矩阵一一对应，N为大于或者等于2的整数，M为大于或者等于1的整数（S101）；获取N路观测信号的空间特征矩阵，空间特征矩阵用于表示N路观测信号之间的相关性（S102）；获取M路源信号中每路源信号的预设音频特征（S103）；根据每路源信号的预设音频特征、M个分离矩阵和空间特征矩阵确定N路观测信号对应的说话人数量和说话人身份（S104）。有利提高说话人的分割精度。

Description

音频信号处理方法及相关产品

本申请要求在2019年4月30日提交中国国家知识产权局、申请号为201910369726.5的中国专利申请的优先权，发明名称为“音频信号处理方法及相关产品”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及音频信号处理技术领域，尤其涉及一种音频处理方法及相关产品。

背景技术

随着网络和通讯技术的发展，利用音视频技术、网络与通讯技术等可以实现复杂声学环境场景下的多人多方通话。在很多的应用场景中通话一方包含多人参加：比如大型的会议室。为了便于后期的文本和会议摘要的生成，通常对音频信号进行说话人分割(英文：Speaker Diarization)，将整个音频信号分割成不同的片段，将说话人和音频片段对应标注出来，这样可以清楚知道在每个时刻的说话人，可快速生成会议摘要。

现有技术中，单麦克风的说话人分割技术，难以区分声音类似的说话人；多麦克风的说话人分割***，难以区分角度接近的说话人、受房间混响影响较大，分割精度低。所以现有技术中对说话人的分割精度低。

发明内容

本申请实施例提供了一种音频信号处理方法，有利于提高说话人分割的精度，进而便于会议室记录的生成，进而提高用户体验。

第一方面，本申请实施例提供了一种音频信号处理方法，包括：

接收麦克风阵列采集的N路观测信号，对所述N路观测信号进行盲源分离以得到M路源信号和M个分离矩阵，所述M路源信号和所述M个分离矩阵一一对应，N为大于或者等于2的整数，M为大于或者等于1的整数；

获取所述N路观测信号的空间特征矩阵，所述空间特征矩阵用于表示所述N路观测信号之间的相关性；

获取所述M路源信号中每路源信号的预设音频特征；

根据每路源信号的预设音频特征、所述M个分离矩阵和所述空间特征矩阵确定所述N路观测信号对应的说话人数量和说话人身份。

可以看出，本申请实施例方案为多麦***下的说话人分割技术，引入了空间特征矩阵和预设音频特征，通过空间特征矩阵、预设音频特征以及分离矩阵进行说话人的聚类，无需提前知道麦克风阵列的排列信息，即可实现说话人分割，解决了现有技术中器件老化降低分割精度的问题，而且有音频特征的参与，可以识别出说话人角度相近以及说话人移动的场景，进一步提高说话人的分割精度。

在一些可能的实施方式中，所述获取所述M路源信号中每路源信号的预设音频特征，包括：将所述M路源信号中每路源信号分割为Q个音频帧，Q为大于1的整数；获取每路源信号的每个音频帧的预设音频特征。对源信号进行分割，以便后续利用预设音频特征进行聚类。

在一些可能的实施方式中，所述获取所述N路观测信号的空间特征矩阵，包括：将所述 N路观测信号中每路观测信号分割为Q个音频帧；根据每个音频帧组对应的N个音频帧确定每个第一音频帧组对应的空间特征矩阵，得到Q个空间特征矩阵，每个第一音频帧组对应的N个音频帧为所述N路观测信号在同一时间窗口下的N个音频帧；根据所述Q个空间特征矩阵得到所述N路观测信号的空间特征矩阵；

其中，

c ^F(k,n)表示每个第一音频组对应的空间特征矩阵，n表示所述Q个音频帧的帧序号，k表示第n个音频帧的频点索引，X ^F(k,n)是由每路观测信号的第n个音频帧的第k个频点在频域中的表征组成的列向量，X ^FH(k,n)为X ^F(k,n)的转置，n为整数，1≤n≤Q。。可以看出，由于空间特征矩阵反映了说话人相对于麦克风的位置信息，所以通过引入空间特征矩阵，在无需提前知道麦克风阵列的排列信息时，即可确定出当前场景中有多少个位置存在说话人。

在一些可能的实施方式中，所述根据每路源信号的预设音频特征、所述M个分离矩阵和所述空间特征矩阵确定所述N路观测信号对应的说话人数量和说话人身份，包括：对所述空间特征矩阵进行第一聚类，得到P个初始聚类，每个初始聚类对应一个初始聚类中心矩阵，所述初始聚类中心矩阵用于表示每个初始聚类对应的说话人的空间位置，P为大于或者等于1的整数；确定M个相似度，所述M个相似度为每个初始聚类对应的初始聚类中心矩阵与所述M个分离矩阵之间的相似度；根据所述M个相似度确定每个初始聚类对应的源信号；对每个初始聚类对应的源信号的预设音频特征进行第二聚类，得到所述N路观测信号对应的说话人数量和说话人身份。可以看出，先利用空间特征矩阵进行第一聚类，确定当前场景中说话人在哪些位置说话，得到说话人的预估数量，然后，再利用预设音频特征进行第二聚类，对第一聚类得到的初始聚类进行拆分或者合并，得到当前场景中说话人的真实数量，提高了说话人的分割精度。

在一些可能的实施方式中，所述根据所述M个相似度确定每个初始聚类对应的源信号，包括：确定所述M个相似度中的最大相似度，确定所述M个分离矩阵中与最大相似度对应的分离矩阵为目标分离矩阵；确定与所述目标分离矩阵对应的源信号为每个初始聚类对应的源信号。可以看出，通过空间特征矩阵进行第一聚类，确定当前场景中说话人在哪些位置说话，然后利用空间特征矩阵和分离矩阵的相似度确定出每个说话人对应的源信号，实现快速确定出每个说话人对应的的源信号。

在一些可能的实施方式中，所述对每个初始聚类对应的源信号的预设音频特征进行第二聚类，得到所述N路观测信号对应的说话人数量和说话人身份，包括：对每个初始聚类对应的源信号的预设音频特征进行第二聚类，得到H个目标聚类，所述H个目标聚类表示所述N路观测信号对应的说话人数量，每个目标聚类对应一个目标聚类中心，每个目标聚类中心是由一个预设音频特征和至少一个初始聚类中心矩阵组成，每个目标聚类对应的预设音频特征用于表示每个目标聚类对应的说话人的说话人身份，每个目标聚类对应的至少一个初始聚类中心矩阵用于表示所述说话人的空间位置。可以看出，利用每路源信号对应的预设音频特征进行聚类，将每路源信号对应的初始聚类进行拆分或者合并，得到所述M路源信号对应的目标聚类，将说话人移动而分离出的两路源信号聚为同一个目标聚类以及将角度相近的两个说话人拆分为两个目标聚类，将角度相近的两个说话人分割出来，提高了说话人的分割精度。

在一些可能的实施方式中，所述方法还包括：根据所述N路观测信号对应的说话人数量和说话人身份得到包含有说话人标签的输出音频。可以看出，基于聚类后的说话人身份和数量，对音频信号切割，确定每个音频帧对应的说话人身份和数量，方便会议室环境下生成会议室摘要。

在一些可能的实施方式中，所述根据所述N路观测信号对应的说话人数量和说话人身份得到包含有说话人标签的输出音频，包括：确定K个距离，所述K个距离为每个第一音频帧组对应的空间特征矩阵与每个目标聚类对应的至少一个初始聚类中心矩阵的距离，每个第一音频帧组由所述N路观测信号在同一时间窗口下的N个音频帧组成，K≥H；根据所述K个距离确定每个第一音频帧组对应的L个目标聚类，L≤H；从所述M路源信号中提取与每个第一音频帧组对应的L个音频帧，所述L个音频帧与每个第一音频帧组所在时间窗口相同；确定L个相似度，所述L个相似度为所述L个音频帧中每个音频帧的预设音频特征与所述L个目标聚类中每个目标聚类对应的预设音频特征的相似度；根据所述L个相似度确定所述L个音频帧中每个音频帧对应的目标聚类；根据每个音频帧对应的目标聚类得到包含有说话人标签的输出音频，所述说话人标签用于标注所述输出音频中每个音频帧的说话人数量和/或说话人身份。可以看出，基于聚类后的说话人身份和数量，对音频信号进行切割和标注，先利用空间特征矩阵确定出每个音频帧组对应的说话人数量，然后，再利用源信号中每个音频帧的预设音频特征确定出每个说话人对应的源信号，通过对音频进行两步切割和标注，提高了说话人的切割精度。

在一些可能的实施方式中，所述根据所述N路观测信号对应的说话人数量和说话人身份得到包含有说话人标签的输出音频，包括：确定H个相似度，所述H个相似度为每个第二音频帧组中每个音频帧的预设音频特征与所述H个目标聚类中每个目标聚类中心的预设音频特征之间的相似度，所述每个第二音频帧组由所述M路源信号在同一时间窗口下的音频帧组成；根据所述H个相似度确定每个第二音频帧组中每个音频帧对应的目标聚类；根据每个音频帧对应的目标聚类得到包含有说话人标签的输出音频，所述说话人标签用于标注所述输出音频中每个音频帧的说话人数量和/或说话人身份。可以看出，通过音频特征直接进行音频的分割和标注，提高了说话人的分割速度。

第二方面，本申请实施例提供了一种音频处理装置，其特征在于，包括：

音频分离单元，用于接收麦克风阵列采集的N路观测信号，对所述N路观测信号进行盲源分离以得到M路源信号和M个分离矩阵，所述M路源信号和所述M个分离矩阵一一对应，N为大于或者等于2的整数，M为大于或者等于1的整数；

空间特征提取单元，用于获取所述N路观测信号的空间特征矩阵，所述空间特征矩阵用于表示所述N路观测信号之间的相关性；

音频特征提取单元，用于获取所述M路源信号中每路源信号的预设音频特征；

确定单元，用于根据每路源信号的预设音频特征、所述M个分离矩阵和所述空间特征矩阵确定所述N路观测信号对应的说话人数量和说话人身份。

在一些可能的实施方式中，所述音频特征提取单元，在获取所述M路源信号中每路源信号的预设音频特征时，具体用于：将所述M路源信号中每路源信号分割为Q个音频帧，Q为大于1的整数；获取每路源信号的每个音频帧的预设音频特征。

在一些可能的实施方式中，所述空间特征提取单元，在获取所述N路观测信号的空间特征矩阵时，具体用于：将所述N路观测信号中每路观测信号分割为Q个音频帧；根据每个音频帧组对应的N个音频帧确定每个第一音频帧组对应的空间特征矩阵，得到Q个空间特征矩阵，每个第一音频帧组对应的N个音频帧为所述N路观测信号在同一时间窗口下的N个音频帧；根据所述Q个空间特征矩阵得到所述N路观测信号的空间特征矩阵；

其中，

c ^F(k,n)表示每个第一音频组对应的空间特征矩阵，n表示所述Q个音频帧的帧序号，k表示第n个音频帧的频点索引，X ^F(k,n)是由每路观测信号的第n个音频帧的第k个频点在频域中的表征组成的列向量，X ^FH(k,n)为X ^F(k,n)的转置，n为整数，1≤n≤Q。

在一些可能的实施方式中，所述确定单元，在根据每路源信号的预设音频特征、所述M个分离矩阵和所述空间特征矩阵确定所述N路观测信号对应的说话人数量和说话人身份时，具体用于：对所述空间特征矩阵进行第一聚类，得到P个初始聚类，每个初始聚类对应一个初始聚类中心矩阵，所述初始聚类中心矩阵用于表示每个初始聚类对应的说话人的空间位置，P为大于或者等于1的整数；确定M个相似度，所述M个相似度为每个初始聚类对应的初始聚类中心矩阵与所述M个分离矩阵之间的相似度；根据所述M个相似度确定每个初始聚类对应的源信号；对每个初始聚类对应的源信号的预设音频特征进行第二聚类，得到所述N路观测信号对应的说话人数量和说话人身份。

在一些可能的实施方式中，所述确定单元，在根据所述M个相似度确定每个初始聚类对应的源信号时，具体用于：确定所述M个相似度中的最大相似度，确定所述M个分离矩阵中与最大相似度对应的分离矩阵为目标分离矩阵；确定与所述目标分离矩阵对应的源信号为每个初始聚类对应的源信号。

在一些可能的实施方式中，所述确定单元，在对每个初始聚类对应的源信号的预设音频特征进行第二聚类，得到所述N路观测信号对应的说话人数量和说话人身份时，具体用于：对每个初始聚类对应的源信号的预设音频特征进行第二聚类，得到H个目标聚类，所述H个目标聚类表示所述N路观测信号对应的说话人数量，每个目标聚类对应一个目标聚类中心，每个目标聚类中心是由一个预设音频特征和至少一个初始聚类中心矩阵组成，每个目标聚类对应的预设音频特征用于表示每个目标聚类对应的说话人的说话人身份，每个目标聚类对应的至少一个初始聚类中心矩阵用于表示所述说话人的空间位置。

在一些可能的实施方式中，所述装置还包括音频分割单元；

所述音频分割单元，用于根据所述N路观测信号对应的说话人数量和说话人身份得到包含有说话人标签的输出音频。

在一些可能的实施方式中，所述音频分割单元，在根据所述N路观测信号对应的说话人数量和说话人身份得到包含有说话人标签的输出音频时，具体用于：确定K个距离，所述K个距离为每个第一音频帧组对应的空间特征矩阵与每个目标聚类对应的至少一个初始聚类中心矩阵的距离，每个第一音频帧组由所述N路观测信号在同一时间窗口下的N个音频帧组成，K≥H；根据所述K个距离确定每个第一音频帧组对应的L个目标聚类，L≤H；从所述M路源信号中提取与每个第一音频帧组对应的L个音频帧，所述L个音频帧与每个第一音频帧组所在时间窗口相同；确定L个相似度，所述L个相似度为所述L个音频帧中每个音频帧的预设音频特征与所述L个目标聚类中每个目标聚类对应的预设音频特征的相似度；根据所述L个相似度确定所述L个音频帧中每个音频帧对应的目标聚类；根据每个音频帧对应的目标聚类得到包含有说话人标签的输出音频，所述说话人标签用于标注所述输出音频中每个音频帧的说话人数量和/或说话人身份。

在一些可能的实施方式中，所述音频分割单元，在根据所述N路观测信号对应的说话人数量和说话人身份得到包含有说话人标签的输出音频时，具体用于：确定H个相似度，所述H个相似度为每个第二音频帧组中每个音频帧的预设音频特征与所述H个目标聚类中每个目标聚类中心的预设音频特征之间的相似度，所述每个第二音频帧组由所述M路源信号在同一时间窗口下的音频帧组成；根据所述H个相似度确定每个第二音频帧组中每个音频帧对应的目标聚类；根据每个音频帧对应的目标聚类得到包含有说话人标签的输出音频，所述说话人标签用于标注所述输出音频中每个音频帧的说话人数量和/或说话人身份。

第三方面、本申请实施例提供一种音频处理装置，其特征在于，包括：

相互耦合的处理器、通信接口和存储器；

其中，所述通信接口，用于收麦克风阵列采集的N路观测信号，N为大于或者等于2的整数；

所述处理器，用于对所述N路观测信号进行盲源分离以得到M路源信号和M个分离矩阵，所述M路源信号和所述M个分离矩阵一一对应，M为大于或者等于1的整数；获取所述N路观测信号的空间特征矩阵，所述空间特征矩阵用于表示所述N路观测信号之间的相关性；获取所述M路源信号中每路源信号的预设音频特征；根据每路源信号的预设音频特征、所述M个分离矩阵和所述空间特征矩阵确定所述N路观测信号对应的说话人数量和说话人身份。

第四方面，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被硬件(例如处理器等)执行，以本申请实施例中由音频处理装置执行的任意一种方法的部分或全部步骤。

第五方面，本申请实施例提供了一种包括指令的计算机程序产品，当所述计算机程序产品在音频处理装置上运行时，使得所述音频处理装置执行以上各方面的音频信号处理方法的部分或全部步骤。

附图说明

图1A为本申请实施例提供的一种的流程示意图；

图1B为本申请实施例提供的一种音频信号处理方法的流程示意图

图2A为本申请实施例提供的另一种音频信号处理方法的流程示意图；

图2B为本申请实施例提供的一种频点在频域中的表征的示意图；

图2C为本申请实施例提供的一种说话场景的示意图；

图2D为本申请实施例提供的另一种说话场景的示意图；

图3为本申请实施例提供的另一种音频信号处理方法的流程示意图；

图4为本申请实施例提供的另一种音频信号处理方法的流程示意图；

图5A为本申请实施例提供的一种在界面显示输出音频的示意图；

图5B为本申请实施例提供的另一种在界面显示输出音频的示意图；

图5C为本申请实施例提供的另一种在界面显示输出音频的的示意图；

图6为本申请实施例提供的一种音频处理装置的示意图；

图7为本申请实施例提供的一种音频处理装置的示意图。

具体实施方式

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结果或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

下面先介绍一下盲源分离BSS(Blind Source Separation，简称：BSS)技术。

BSS技术主要解决“鸡尾酒会”问题，即从给定的混合信号中分离出每个人说话的独立信号。当有M个源信号时，通常假设观察信号也有M个，即假设麦克风阵列中有M个麦克风。举例来说，在一个房间的不同位置放着两个麦克风，同时有两个人说话，每个麦克风都能采集到两个人说话的音频信号，输出一路观测信号，假设两个麦克风输出的两个观测信号为x ₁，x ₂，两路源信号为s ₁，s ₂，则x ₁，x ₂分别由s ₁、s ₂混合而成，即x ₁＝a ₁₁*s ₁+a ₁₂*s ₂，x ₂＝a ₂₁*s ₁+a ₂₂* _s2，BSS技术主要解决从x ₁，x ₂中分离出s ₁，s ₂的问题。

当存在M路观测信号x ₁,…,x _M时，BSS技术主要解决如何从x ₁,…,x _M中分离出M路源信号s ₁,…,s _M、。由上述举例可知，X＝AS，X＝[x ₁,…,x _M]，S＝[s ₁,…,s _M],A为混合矩阵；假设有Y＝WX，Y是对S的估计，W为分离矩阵，W通过自然梯度法得到。所以，在BSS时，先得到分离矩阵W，然后利用分离矩阵W对观测信号X进行分离，得到源信号S，其中，通过自然梯度法得到分离矩阵W。

现有技术中，单麦克风的说话人分割时，主要利用说话人的音频特征进行分割，无法分割说话类似的说话人(音频特征相似的说话人)，分割精度低；多麦克风的说话人分割***，需要获取说话人的角度和位置，利用说话人的角度和位置对说话人进行分割，所以多麦克风的说话人分割***需要预先知道麦克风阵列的排列信息和空间位置信息，但是，随着器件的老化，导致麦克风阵列的排布信息和空间位置信息发生变化，导致分割精度降低，而且利用说话人的角度和位置对说话人进行分割，难以区分角度接近的说话人，且在分割时受房间混响影响较大，分割精度低。为了解决现有技术中说话人分割精度低的问题，特提出本申请中的音频信号处理方法，以期提高说话人的分割精度。

参阅图1A，图1A为一种音频信号处理方法的场景架构图，该场景架构图包括声源、麦克风阵列、音频处理装置，音频处理装置包括：空间特征提取模块、盲源分离模块、音频特征提取模块、第一聚类模块、第二聚类模块、音频分割模块；麦克风阵列用于采集说话人的说话音频，得到观测信号；空间特征提取模块用于确定观测信号对应的空间特征矩阵；盲源分离模块用于对观测信号进行盲源分离，得到源信号；第一聚类模块用于对空间特征矩阵进行第一聚类，得到初始聚类；音频特征提取模块用于对源信号进行特征提取，得到源信号对应的预设音频特征；第二聚类模块用于根据源信号对应的预设音频特征以及初始聚类进行第二聚类，得到目标聚类；音频分割模块用于根据目标聚类对源信号进行音频分割，输出音频信号和说话人标签，所述说话人标签用于标注输出的音频信号中每个音频帧对应的说话人数量和/或说话人身份。

本申请实施例的技术方案可以基于图1A举例所示的场景架构图来具体实施。

参阅图1B，图1B为本申请实施例提供的一种音频信号处理方法的流程示意图，这种方法可包括但不限于如下步骤：

步骤101：音频处理装置接收麦克风阵列采集的N路观测信号，对所述N路观测信号进行盲源分离以得到M路源信号和M个分离矩阵，所述M路源信号和所述M个分离矩阵一一对应，N为大于或者等于2的整数，M为大于或者等于1的整数。

其中，对所述N路观测信号进行盲源分离包括时域分离法和频域分离法。

步骤102：音频处理装置获取所述N路观测信号的空间特征矩阵，所述空间特征矩阵用于表示所述N路观测信号之间的相关性。

其中，所述N路观测信号之间的相关性是由于说话人相对于麦克风的空间位置不同造成的，即空间特征矩阵反映了说话人的空间位置信息。

步骤103：音频处理装置获取所述M路源信号中每路源信号的预设音频特征。

其中，所述预设音频特征包括但不限于以下一种或几种：过零率ZCR、短时能量、基频、梅尔倒谱系数MFCC。

步骤104：音频处理装置根据每路源信号的预设音频特征、所述M个分离矩阵和所述空间特征矩阵确定所述N路观测信号对应的说话人数量和说话人身份。

可以看出，在本申请实施例中，利用预设音频特征、分离矩阵和空间特征矩阵进行聚类，得到说话人的身份和数量，相比现有技术仅利用音频特征进行说话人分割，提高了说话人的分割精度；而且，本申请多麦的说话人分割技术，引入了空间特征矩阵，无需预先知道麦克风阵列的排列信息即可进行说话人分割，不会产生由于器件老化导致排列信息变化而降低分割精度的问题。

参阅图2A，图2A为本申请实施例提供的另一种音频信号处理方法的流程示意图，这种方法可包括但不限于如下步骤：

步骤201：音频处理装置接收麦克风阵列采集的N路观测信号，对所述N路观测信号进行盲源分离以得到M路源信号和M个分离矩阵，所述M路源信号和所述M个分离矩阵一一对应，N为大于或者等于2的整数，M为大于或者等于1的整数。

其中，所述N路观测信号为麦克风阵列在一段时间内采集到的音频信号。

在盲源分离时，如有D个源信号时，通常假设观察信号也有D个，以便确定混合矩阵为方阵，此时称麦克风阵列为标准的独立成分分析ICA模型，对于源信号的维数和麦克风阵列的维数不同时，这种情况称非方阵ICA模型non-square ICA。本申请以标准的ICA模型为例做具体说明，即N＝M。

可选的，通过时域法对所述N路观测信号进行盲源分离时，具体包括以下步骤：假设N路观测信号分别为x ₁，x ₂,…,x _N；将N路观测信号组成输入信号X＝[x ₁,x ₂,…,x _N],假设经BSS后的输出信号为Y，Y＝[s ₁,s ₂,…,s _M],基于BSS技术可知：Y＝XW，W为由M个分离矩阵组成的矩阵，假设W＝[w ₁₁,w ₁₂,…w _1M,w ₂₁,w ₂₂,…w _2M,…,w _M1,w _M2,…,w _MM]，每M列w为一个分离矩阵，每个分离矩阵用于分离该N路观测信号，得到一路源信号，基于BSS从所述N观测信号中分离出M路源信号的分离公式为：

其中，p为整数，1≤p≤M，

为卷积运算。

可选的，通过频域法对对所述N路观测信号进行盲源分离时，上述分离公式变换为：

其中，

分别为频域下的输出信号、输入信号和分离矩阵。

步骤202：音频处理装置获取所述N路观测信号的空间特征矩阵，所述空间特征矩阵用于表示所述N路观测信号之间的相关性。

可选的，获取所述N路观测信号的空间特征矩阵的实现过程可以为：将所述N路观测信号中每路观测信号分割为Q个音频帧；

根据每个音频帧组对应的N个音频帧确定每个第一音频帧组对应的空间特征矩阵，得到Q个空间特征矩阵，每个第一音频帧组对应的N个音频帧为所述N路观测信号在同一时间窗口下的N个音频帧；

根据所述Q个空间特征矩阵得到所述N路观测信号的空间特征矩阵；

其中，

c ^F(k,n)表示每个第一音频组对应的空间特征矩阵，n表示所述Q个音频帧的帧序号，k表示第n个音频帧的频点索引，X ^F(k,n)是由每路观测信号的第n个音频帧的第k个频点在频域中的表征组成的列向量，X ^FH(k,n)为X ^F(k,n)的转置，n为整数，1≤n≤Q，||X ^F(k,n)*X ^FH(k,n)||为X ^FH(k,n)为X ^F(k,n)的范数。

其中，空间特征矩阵中的对角线元素代表麦克风阵列中每个麦克风采集到的观测信号的能量，非对角线元素代表麦克风阵列中不同麦克风采集到的观测信号之间的相关性。例如，空间特征矩阵的对角线元素C ₁₁代表了麦克风阵列中第1个麦克风采集到的观测信号的能量，非对角线元素C ₁₂代表了麦克风阵列中第1个麦克风与第2个麦克风采集到的观测信号之间的相关性，该相关性是由于说话相对于第1个麦克风和第2个麦克风的空间位置不同造成的。所以通过空间特征矩阵可以反映出每个第一音频帧组对应的说话人的空间位置。

参阅图2B，图2B为本申请实施例提供的一种N路观测信号中每路观测信号在任意一个时间窗口下的音频帧在频域中的表征的示意图，假设每个音频帧中包含s个频点，则从图2B中可以看出N路观测信号中在该时间窗口下的所有第一个频点对应的列向量为[a ₁₁+b ₁₁*j,a ₂₁+b ₂₁*j,…a _N1+b _N1*j] ^T，将每个时间窗口对应的N个音频帧作为一个第一音频帧组，由于将每路观测信号分割为Q个音频帧，故可得到Q个第一音频帧组；获取图2B所示的时间窗口下其他频点在频域中的表征，得到该时间窗口下的第一音频帧组对应的

基于上述的空间特征矩阵的计算方法，分别计算每个第一音频组对应的空间特征矩阵，得到Q个空间特征矩阵，Q个空间特征矩阵按照其所在的时间窗口的先后顺序进行拼接，得到所述N路观测信号对应的空间特征矩阵。

步骤203：音频处理装置获取所述M路源信号中每路源信号的预设音频特征。

可选的，获取所述M路源信号中每路源信号的预设音频特征的步骤包括：将所述M路源信号中每路源信号分割为Q个音频帧；获取每路源信号的每个音频帧的预设音频特征。

下面具体介绍获取过零率ZCR、短时能量的过程。

其中，Z _n为Q个音频帧的第n个音频帧对应的过零率，sgn[]为符号函数，N为第n帧音频帧的帧长，n为音频帧的帧索引。

其中，E _n为第n个音频帧的短时能量，N为第n个音频帧的帧长。

步骤204：音频处理装置根据每路源信号的预设音频特征、所述M个分离矩阵和所述空间特征矩阵确定所述N路观测信号对应的说话人数量和说话人身份。

首先，根据所述空间特征矩阵进行第一聚类，得到P个初始聚类，每个初始聚类对应一个初始聚类中心矩阵，所述初始聚类中心矩阵用于表示每个初始聚类对应的说话人的空间位置，P为大于或者等于1的整数；确定M个相似度，所述M个相似度为每个初始聚类对应的初始聚类中心矩阵与所述M个分离矩阵之间的相似度；根据所述M个相似度确定每个初始聚类对应的源信号，对每个初始聚类对应的源信号的预设音频特征进行第二聚类，得到所述N路观测信号对应的说话人数量和/或说话人身份。

具体来讲，由于空间特征矩阵反映了说话人的空间位置，故利用每个第一音频组对应的空间特征矩阵作为样本数据，则得到Q个样本数据，利用该Q个样本数据进行第一聚类，将空间特征矩阵距离相近的聚为一类，得到一个初始聚类，每个初始聚类对应一个初始聚类中心矩阵，初始聚类中心矩阵表示说话人的空间位置，该初始聚类中心以空间特征矩阵的形式表示，在聚类完成后，得到P个初始聚类，确定出所述N路观测信号是由说话人在P个空间位置说话产生。

其中，第一聚类和第二聚类可以采用的聚类算法包括但不限于以下几种：最大期望聚类算法EM(英文：Expectation Maximization)、K-means聚类算法、层次聚类算法HAC(英文：Hierarchical Agglomerative Clustering)。

在一些可能实施方式中，由于分离矩阵代表了空间位置，故分离矩阵在一定程度上反映说话人的数量，所以在采用K-means算法进行第一聚类时，根据分离矩阵的数量估计初始聚类的数量，将K-means算法中的k值赋值为分离矩阵的数量M，然后，预设与M个初始聚类对应的聚类中心进行第一聚类，通过分离矩阵的数量估计初始聚类的数量，减少迭代次数，加快聚类速度。

可选的，根据所述M个相似度确定每个初始聚类对应的源信号的步骤包括：根据所述M个相似度确定每个初始聚类对应的源信号确定所述M个相似度中的最大相似度，确定所述M个分离矩阵中与最大相似度对应的分离矩阵为目标分离矩阵；确定与所述目标分离矩阵对应的源信号为每个初始聚类对应的源信号。通过求取初始聚类中心与分离矩阵的相似度，确定出P个空间位置中每个空间位置对应的源信号，即确定出每个初始聚类对应的源信号。

可选的，对每个初始聚类对应的源信号的预设音频特征进行第二聚类，得到所述N路观测信号对应的说话人数量和/或说话人身份的实现过程可以为：对每个初始聚类对应的源信号的预设音频特征进行第二聚类，得到H个目标聚类，所述H个目标聚类表示所述N路观测信号对应的说话人数量，每个目标聚类对应一个目标聚类中心，每个目标聚类中心是由一个预设音频特征和至少一个初始聚类中心矩阵组成，每个目标聚类对应的预设音频特征用于表示每个目标聚类对应的说话人的说话人身份，每个目标聚类对应的至少一个初始聚类中心矩阵用于表示所述说话人的空间位置。

可选的，对每个初始聚类对应的源信号的预设音频特征进行第二聚类，得到H个目标聚类的实现过程可以为：对每个初始聚类对应的源信号的预设音频特征进行第二聚类，得到每个初始聚类对应的至少一个目标聚类；根据每个初始聚类对应的至少一个目标聚类，得到所述H个目标聚类

具体来讲，将每个初始聚类对应的源信号的每个音频帧的预设音频特征组成特征向量作为一个样本数据，得到与每个初始聚类对应的源信号对应的若干个样本数据，对该若干个样本数据进行聚类，将音频特征相似的样本数据聚为一类，得到该初始聚类对应的目标聚类，如每个初始聚类对应的源信号为一个说话人的音频信号，则在多次聚类迭代后该若干个样本数据对应一个目标聚类中心，该目标聚类中心以特征向量的形式表现，该目标聚类中心表示该说话人的的身份信息(音频特征)，如每个初始聚类对应的源信号对应多个说话人，则在多次聚类迭代后该初始聚类对应的源信号的若干个样本数据对应多个目标聚类中心，每个目标聚类中心表示每个说话人的身份信息，故将该初始聚类对应的源信号拆分成了多个目标聚类；如第一路源信号和第二源信号对应的说话人为同一个说话人，在第二聚类后，两路源信号对应的目标聚类中心为同一个目标聚类中心或者两者的聚类中心相近，则将两路源信号对应的两个初始聚类作为同一个目标聚类；由于第二聚类是在第一聚类基础上进行的，所以第二聚类得到的目标聚类中心还包含第一聚类得到说话人的空间位置。

举例来说，如图2C所示，由于分离矩阵表示了说话人的空间位置信息，故每路源信号是根据说话人所在的空间位置分离得到的，当同一个说话人在不同位置说话时，在第一聚类时，会从观测信号中分离出与该说话人对应的多路源信号，且对应不同的初始聚类。如该说话人0～t ₁时间段内在位置W ₁说话，t ₂～t ₃时间段内在位置W ₂说话，t ₃＞t ₂＞t ₁，且确定出该说话人在W ₁和W ₂对应的源信号分别为s ₁和s ₂，如s ₁对应初始聚类A，s ₂对应初始聚类B，由于s ₁和s ₂对应同一个说话人，0～t ₁内的预设音频特征与t ₂～t ₃内的预设音频特征一致，所以在第二聚类后，可确定s ₁和s ₂对应同一个目标聚类中心，由于t ₂＞t ₁，可确定出s ₂是由说话人走到位置W ₂产生的音频信号，故可将两个初始聚类A和B合并为一个目标聚类，故该目标聚类的目标聚类中心包含了第一聚类得到的空间位置W ₁和W ₂以及第二聚类得到说话人的预设音频特征。

再例如，如图2D所示，如说话人A和说话人B在同一个位置W ₃说话，由于说话人的位置相同，则基于分离矩阵分离出一路与位置W ₃对应的源信号s ₃，但源信号s ₃中同时包括了说话人A和说话人B的音频信号，一般来讲，说话人A和说话人B不可能在同一个位置一直保持同时说话，我们假设0～t ₁时间段内，说话人A在位置W ₃说话，说话人B未说话，t ₂～t ₃时间段内说话人B在位置W ₃说话，由于这两个时间段内为不同的说话人在说话，所以，该两个时间段内的预设音频特征不一致，在进行第二聚类后，该路源信号会对应两个目标聚类中心，第一个目标聚类中心包含了第一聚类得到的位置信息W ₃以及第二聚类得到说话人A的音频特征，第二个目标聚类中心包含了第一聚类得到的位置信息W ₃以及第二聚类得到说话人B的音频特征。

可选的，在对每个初始聚类对应的源信号的预设音频特征进行第二聚类之前，所述方法还包括：对每路源信号进行人声分析，以移除该M路源信号中为非人声的源信号，其中，对每路源信号进行人声分析的实现过程可以为：将每路源信号的每个音频帧的预设音频特征与人声的音频特征进行比对，确定每路源信号中是否包含人声。

步骤205：音频处理装置根据所述N路观测信号对应的说话人数量和说话人身份输出包含有第一说话人标签的音频信号，所述第一说话人标签用于标注所述音频信号的每个帧音频帧对应的说话人数量。

可选的，根据所述N路观测信号对应的说话人数量和说话人身份得到包含有第一说话人标签的输出音频的步骤包括：确定K个距离，所述K个距离为每个第一音频帧组对应的空间特征矩阵与每个目标聚类对应的至少一个初始聚类中心矩阵的距离，每个第一音频帧组由所述N路观测信号在同一时间窗口下的N个音频帧组成，K≥H；根据所述K个距离确定每个第一音频帧组对应的说话人数量，即确定所述H个距离中大于距离阈值的L个距离，将L作为该第一音频帧组对应的说话人数量；然后，确定该第一音频帧组对应的时间窗口，将该输出音频在该时间窗口的音频帧的说话人数量标记为L；最后，依次确定每个第一音频帧组对应的说话人数量，从而得到该第一说话人标签。

其中，该距离阈值可以为80％、90％、95％或者其他值。

可选的，该输出音频在每个时间窗口下的音频帧可以包含多路音频，也可以为该多路音频的混合音频。举例来说，如在0～t ₁为说话人A和说话人B同时说话，且说话人A和说话人B位于不同的空间位置，则从说话人A对应的源信号中提取出0～t ₁内说话人A的第一说话音频，同样从说话人B对应的源信号中提取出0～t ₁内说话人B的第二说话音频，可以单独保留第一说话音频和第二说话音频，即该输出音频在0～t ₁内对应两路说话音频，且标注0～t ₁有说话人2个人同时说话，在也可以将第一说话音频和第二说话音频，则该输出音频在0～t ₁对应一路混合音频，同样标注0～t ₁内有2个说话人同时说话。

可以看出，本申请实施例为多麦***下的说话人分割方法，引入了空间特征矩阵以及预设音频特征，通过空间特征矩阵、预设音频特征以及分离矩阵进行说话人的确认，无需提前知道麦克风阵列的排列信息，即可实现说话人分割，解决了现有技术中由于器件老化降低分割精度问题，而且基于音频特征进行第二聚类，可以将角度相近的说话人对应的一个初始聚类拆分为两个目标聚类，将由于说话人移动产生的两个初始聚类合并为一个目标聚类，解决了现有技术中说话人的分割精度低的问题。

参阅图3，图3为本申请实施例提供的一种音频信号处理方法的流程示意图，这种方法可包括但不限于如下步骤：

步骤301：音频处理装置接收麦克风阵列采集的N路观测信号，对所述N路观测信号进行盲源分离以得到M路源信号和M个分离矩阵，所述M路源信号和所述M个分离矩阵一一对应，M和N均为大于或者等于1的整数。

步骤302：音频处理装置获取所述N路观测信号的空间特征矩阵，所述空间特征矩阵用于表示所述N路观测信号之间的相关性。

步骤303：音频处理装置获取所述M路源信号中每路源信号的预设音频特征。

步骤304：音频处理装置根据每路源信号的预设音频特征、所述M个分离矩阵和所述空间特征矩阵确定所述N路观测信号对应的说话人数量和说话人身份。

步骤305：音频处理装置根据所述N路观测信号对应的说话人数量和说话人身份得到包含有第二说话人标签的输出音频，所述第二说话人标签用于标注所述输出音频的每个帧音频帧对应的说话人身份。

可选的，根据所述N路观测信号对应的说话人数量和说话人身份得到包含有第二说话人标签的输出音频的步骤包括：确定K个距离，所述K个距离为每个第一音频帧组对应的空间特征矩阵与每个目标聚类对应的至少一个初始聚类中心矩阵的距离，每个第一音频帧组由所述N路观测信号在同一时间窗口下的N个音频帧组成，K≥H；根据所述K个距离确定每个第一音频帧组对应的说话人身份，即确定所述H个距离中大于距离阈值的L个距离，L≤H，获取与该L距离对应的L个目标聚类，将该L个目标聚类作为该第一音频帧组对应的说话人身份；然后，确定该第一音频帧组对应的时间窗口，确定该M路源信号在该时间窗口下的说话人为该L个目标聚类；最后，依次确定每个音频帧组对应的说话人数量，即确定出该M路源信号在每个时间窗口下的说话人数量，将该M路源信号在每个时间窗口下的音频帧组成该输出音频，并基于每个时间窗口下的说话人身份确定第二说话人标签，第二说话人标签则标注出该输出音频在每个时间窗口下的说话人身份。

其中，该距离阈值可以为80％、90％、95％或者其他值。

可选的，该输出音频在每个时间窗口下的音频帧可以包含多路音频，也可以为该多路音频的混合音频。举例来说，如在0～t ₁为说话人A和说话人B同时说话，且说话人A和说话人B位于不同的空间位置，则从说话人A对应的源信号中提取出0～t ₁内说话人A的第一说话音频，同样从说话人B对应的源信号中提取出0～t ₁内说话人B的第二说话音频，可以单独保留第一说话音频和第二说话音频，即该输出音频在0～t ₁内对应两路说话音频，且通过第二说话人标签标注0～t ₁有说话人A和说话人B同时说话，在也可以将第一说话音频和第二说话音频，则该输出音频在0～t ₁对应一路混合音频，同样通过第二说话人标签标注0～t ₁有说话人A和说话人B同时说话。

参阅图4，图4为本申请实施例提供的一种音频信号处理方法的流程示意图，这种方法可包括但不限于如下步骤：

步骤401：音频处理装置接收麦克风阵列采集的N路观测信号，对所述N路观测信号进行盲源分离以得到M路源信号和M个分离矩阵，所述M路源信号和所述M个分离矩阵一一对应，M和N均为大于或者等于1的整数。

步骤402：音频处理装置获取所述N路观测信号的空间特征矩阵，所述空间特征矩阵用于表示所述N路观测信号之间的相关性。

步骤403：音频处理装置获取所述M路源信号中每路源信号的预设音频特征。

步骤404：音频处理装置根据每路源信号的预设音频特征、所述M个分离矩阵和所述空间特征矩阵确定所述N路观测信号对应的说话人数量和说话人身份。

步骤405：音频处理装置根据所述N路观测信号对应的说话人数量和说话人身份得到包含有第三说话人标签的输出音频，所述第三说话人标签用于标注所述输出音频的每个帧音频帧对应的说话人数量和说话人身份。

可选的，根据所述N路观测信号对应的说话人数量和说话人身份得到包含有第三说话人标签的输出音频的步骤包括：确定K个距离，所述K个距离为每个第一音频帧组对应的空间特征矩阵与每个目标聚类对应的至少一个初始聚类中心矩阵的距离，每个第一音频帧组由所述N路观测信号在同一时间窗口下的N个音频帧组成，K≥H；根据所述K个距离确定每个第一音频帧组对应的说话人身份，即确定所述H个距离中大于距离阈值的L个距离，L≤H，获取与该L距离对应的L个目标聚类，将该L个目标聚类作为该第一音频帧组对应的说话人身份；然后，确定该第一音频帧组对应的时间窗口，确定该M路源信号在该时间窗口下的说话人为该L个目标聚类；从所述M路源信号中提取与每个第一音频帧组对应的L个音频帧，所述L个音频帧与每个第一音频帧组所在时间窗口相同；确定L个相似度，所述L个相似度为所述L个音频帧中每个音频帧的预设音频特征与所述L个目标聚类中每个目标聚类对应的预设音频特征的相似度；根据所述L个相似度确定所述L个音频帧中每个音频帧对应的目标聚类，即将该L个相似度中最大相似度对应的目标聚类作为每个音频帧的目标聚类，即确定该时间窗口下对应的说话人数量以及每个说话人对应的源音频帧；最后，根据每个音频帧对应的目标聚类得到包含有第三说话人标签的输出音频。先通过空间特征矩阵进行比对，确定出每个时间窗下的说话人数量，然后，在通过说话人的音频特征进行比对，确定每个源音频帧对应的说话人，提高了说话人的分割精度。

其中，该距离阈值可以为80％、90％、95％或者其他值。

举例来说，如在0～t ₁为说话人A和说话人B同时说话，且说话人A和说话人B位于不同的空间位置，则通过第一音频组的空间特征矩阵确定出0～t ₁内对应目标聚类A和目标聚类B，然后，从M路源信号中在0～t ₁内提取出两路源音频帧，但是，无法确定出哪个源音频帧是说话人A的，哪个源音频帧是说话人B的，故将该两路源音频帧的预设音频特征分别与目标聚类A对应的预设音频特征进行比对，获取相似度，得到两个相似度，将相似度最大时对应的目标聚类作为每路源音频帧对应的说话人。

可选的，根据所述N路观测信号对应的说话人数量和说话人身份得到包含有第三说话人标签的输出音频的步骤包括：确定H个相似度，所述H个相似度为每个第二音频帧组中每个音频帧的预设音频特征与所述H个目标聚类中每个目标聚类中心的预设音频特征之间的相似度，所述每个第二音频帧组由所述M路源信号在同一时间窗口下的音频帧组成；根据所述H 个相似度确定每个第二音频帧组中每个音频帧对应的目标聚类；根据每个音频帧对应的目标聚类得到包含有说话人标签的输出音频，所述说话人标签用于标注所述输出音频中每个音频帧的说话人数量和/或说话人身份。通过音频特征直接进行说话人比对，加快了说话人分割速度。

举例来说，如在0～t ₁为说话人A和说话人B同时说话，且说话人A和说话人B位于不同的空间位置，可从M路源信号中提取0～t ₁内对应的两路源音频帧，但是，无法确定出哪个源音频帧是说话人A的，哪个源音频帧是说话人B的，然后，直接将该两路源音频帧的预设音频特征分别与第二聚类后得到的H个目标聚类进行比对，将相似度最大的目标聚类作为每路源音频帧对应的说话人。

可选的，该输出音频在每个时间窗口下的音频帧可以包含多路音频，也可以为该多路音频的混合音频。举例来说，如在0～t ₁为说话人A和说话人B同时说话，且说话人A和说话人B位于不同的空间位置，则从说话人A对应的源信号中提取出0～t ₁内说话人A的第一说话音频，同样从说话人B对应的源信号中提取出0～t ₁内说话人B的第二说话音频，可以单独保留第一说话音频和第二说话音频，即该输出音频在0～t ₁内对应两路说话音频，且通过第三说话人标签标注0～t ₁有说话人A和说话人B同时说话，当然，由于确定出了每路源音频帧对应的说话人，在不将A和B的音频进行混合时，可设置单独播放按钮，在点击说话人A的播放按钮时，可单独播放A的说话音频；在也可以将第一说话音频和第二说话音频，则该输出音频在0～t ₁对应一路混合音频，同样通过第二说话人标签标注0～t ₁有说话人A和说话人B同时说话。

在一些可能实施方式中，如所述N路观测信号为在第一预设时间段内获得的音频信号，将所述N路观测信号对应的H个目标聚类的H个聚类中心输入到下一个时间窗口，将所述H个聚类中心作为第二预设时间内获得的观测信号的聚类初值，实现两个时间段内的参数共享，加快聚类速度，提高说话人分割效率。

在一些可能实施方式中，基于图2A、图3、图4所示的说话人分割方法，可在音频处理装置的界面以下几种形式呈现该输出音频和说话人标签。

可选的，图5A为本申请实施例提供的一种在界面显示输出音频的示意图，图5A所示的显示方式对应图2A中所述的说话人分割方法，如图5A所示，在输出音频的每个音频帧上添加第一说话人标签，通过第一说话人标签标注时间窗口对应的说话人数量。可以理解的是，如果输出音频中保留每个说话人单独说话的音频，即未对说话人的音频混合输出，当输出音频的一时间窗口对应的多个说话人时，通过点击标签旁的“点击”按钮，可依次播放该时间窗口下的每个说话人的独立音频信号。当然，在添加第一说话人标签时，无需将第一说话人标签添加到输出音频上，可将第一说话人标签和输出音频关联输出，该第一说话人标签标注了该输出音频中每个音频帧对应的说话人数量，可通过读取该第一说话人标签，确定出输出音频中每个音频帧对应的说话人数量。

可选的，图5B为本申请实施例提供的另一种在界面显示输出音频的示意图，图5B所示的显示方式对应图3中所述的说话人分割方法，在确定出输出音频中每个音频帧对应的说话人身份时，在输出音频帧上添加第二说话人标签，标注每个时间窗口对应的说话人身份，如图5B所示，标记出第一个音频帧和第三个音频帧对应的说话人为为说话人A。可以理解的是，如果输出音频中保留每个说话人单独说话的音频，未对说话人的音频混合输出，当输出音频的一时间窗口对应的多个说话人时，点击标签旁的“点击”按钮，依次播放每个说话人的音频，但无法确定出每次播放的音频帧属于哪一个说话人。当然，在添加第二说话人标签时，无需将第二说话人标签添加到输出音频上，可将第二说话人标签和输出音频关联输出，该第一说话人标签标注了该输出音频中每个音频帧对应的说话人数量，可通过读取该第二说话人标签，确定出输出音频中每个音频帧对应的说话人身份。

可选的，图5C为本申请实施例提供的另一种在界面显示输出音频的示意图，图5C所示的显示方式对应图4中所述的说话人分割方法，在确定出输出音频中每个音频帧对应的说话人数量和说话人身份后，在该输出音频上添加第三说话人标签，标记每个时间窗口对应的说话人数量和说话人身份；而且，输出音频中在未对说话人的音频进行混合输出，当输出音频的一时间窗口对应的多个说话人时，可确定每个说话人的身份以及该说话人在该时间窗口下的源信号；对输出音频的所有时间窗口进行分析，可确定出每个说话人在该输出音频上对应的所有音频帧，通过点击每个说话人的“点击”按钮，则可单独播放每个人说话的音频，有利于生成会议记录。当然，在添加第三说话人标签时，无需将第三说话人标签添加到输出音频上，可将第三说话人标签和输出音频关联输出，通过读取该第一说话人标签，确定出输出音频中每个时间窗口对应的说话人数量和说话人身份。

参阅图6，本申请实施例提供了一种音频处理装置600，可包括：

音频分离单元610，用于接收麦克风阵列采集的N路观测信号，对所述N路观测信号进行盲源分离以得到M路源信号和M个分离矩阵，所述M路源信号和所述M个分离矩阵一一对应，N为大于或者等于2的整数，M为大于或者等于1的整数；

空间特征提取单元620，用于获取所述N路观测信号的空间特征矩阵，所述空间特征矩阵用于表示所述N路观测信号之间的相关性；

音频特征提取单元630，用于获取所述M路源信号中每路源信号的预设音频特征；

确定单元640，用于根据每路源信号的预设音频特征、所述M个分离矩阵和所述空间特征矩阵确定所述N路观测信号对应的说话人数量和说话人身份。

在一些可能的实施方式中，音频特征提取单元630，在获取所述M路源信号中每路源信号的预设音频特征时，具体用于：将所述M路源信号中每路源信号分割为Q个音频帧，Q为大于1的整数；获取每路源信号的每个音频帧的预设音频特征。

在一些可能的实施方式中，空间特征提取单元620，在获取所述N路观测信号的空间特征矩阵时，具体用于：将所述N路观测信号中每路观测信号分割为Q个音频帧；根据每个音频帧组对应的N个音频帧确定每个第一音频帧组对应的空间特征矩阵，得到Q个空间特征矩阵，每个第一音频帧组对应的N个音频帧为所述N路观测信号在同一时间窗口下的N个音频帧；根据所述Q个空间特征矩阵得到所述N路观测信号的空间特征矩阵；

其中，

c ^F(k,n)表示每个第一音频组对应的空间特征矩阵，n表示所述Q个音频帧的帧序号，k表示第n个音频帧的频点索引，X ^F(k,n)是由每路观测信号的第n个音频帧的第k个频点在频域中的表征组成的列向量，X ^FH(k,n)为X ^F(k,n)的转置，n为整数，1≤n≤Q。。

在一些可能的实施方式中，确定单元640，在根据每路源信号的预设音频特征、所述M个分离矩阵和所述空间特征矩阵确定所述N路观测信号对应的说话人数量和说话人身份时，具体用于：对所述空间特征矩阵进行第一聚类，得到P个初始聚类，每个初始聚类对应一个初始聚类中心矩阵，所述初始聚类中心矩阵用于表示每个初始聚类对应的说话人的空间位置，P为大于或者等于1的整数；确定M个相似度，所述M个相似度为每个初始聚类对应的初始聚类中心矩阵与所述M个分离矩阵之间的相似度；根据所述M个相似度确定每个初始聚类对应的源信号；对每个初始聚类对应的源信号的预设音频特征进行第二聚类，得到所述N路观测信号对应的说话人数量和说话人身份。

在一些可能的实施方式中，确定单元640，在对每个初始聚类对应的源信号的预设音频特征进行第二聚类，得到所述N路观测信号对应的说话人数量和说话人身份时，具体用于：对每个初始聚类对应的源信号的预设音频特征进行第二聚类，得到H个目标聚类，所述H个目标聚类表示所述N路观测信号对应的说话人数量，每个目标聚类对应一个目标聚类中心，每个目标聚类中心是由一个预设音频特征和至少一个初始聚类中心矩阵组成，每个目标聚类对应的预设音频特征用于表示每个目标聚类对应的说话人的说话人身份，每个目标聚类对应的至少一个初始聚类中心矩阵用于表示所述说话人的空间位置。

在一些可能的实施方式中，音频处理装置100还包括音频分割单元650；

音频分割单元650，用于根据所述N路观测信号对应的说话人数量和说话人身份得到包含有说话人标签的输出音频。

在一些可能的实施方式中，音频分割单元650，在根据所述N路观测信号对应的说话人数量和说话人身份得到包含有说话人标签的输出音频时，具体用于：确定K个距离，所述K个距离为每个第一音频帧组对应的空间特征矩阵与每个目标聚类对应的至少一个初始聚类中心矩阵的距离，每个第一音频帧组由所述N路观测信号在同一时间窗口下的N个音频帧组成，K≥H；根据所述K个距离确定每个第一音频帧组对应的L个目标聚类，L≤H；从所述M路源信号中提取与每个第一音频帧组对应的L个音频帧，所述L个音频帧与每个第一音频帧组所在时间窗口相同；确定L个相似度，所述L个相似度为所述L个音频帧中每个音频帧的预设音频特征与所述L个目标聚类中每个目标聚类对应的预设音频特征的相似度；根据所述L个相似度确定所述L个音频帧中每个音频帧对应的目标聚类；根据每个音频帧对应的目标聚类得到包含有说话人标签的输出音频，所述说话人标签用于标注所述输出音频中每个音频帧的说话人数量和/或说话人身份。

在一些可能的实施方式中，音频分割单元650，在根据所述N路观测信号对应的说话人数量和说话人身份得到包含有说话人标签的输出音频时，具体用于：确定H个相似度，所述H个相似度为每个第二音频帧组中每个音频帧的预设音频特征与所述H个目标聚类中每个目标聚类中心的预设音频特征之间的相似度，所述每个第二音频帧组由所述M路源信号在同一时间窗口下的音频帧组成；根据所述H个相似度确定每个第二音频帧组中每个音频帧对应的目标聚类；根据每个音频帧对应的目标聚类得到包含有说话人标签的输出音频，所述说话人标签用于标注所述输出音频中每个音频帧的说话人数量和/或说话人身份。

参见图7，本申请实施例提供了一种音频处理装置700，包括：

相互耦合的处理器730、通信接口720和存储器710；例如处理器730、通信接口720和存储器710通过总线740耦合。

存储器710可包括但不限于随机存储记忆体(Random Access Memory，RAM)、可擦除可编程只读存储器(Erasable Programmable ROM，EPROM)、只读存储器(Read-Only Memory,ROM)或便携式只读存储器(Compact Disc Read-Only Memory，CD-ROM)等等，该存储器810用于相关指令及数据。

处理器730可以是一个或多个中央处理器(Central Processing Unit，CPU)，在处理器730是一个CPU的情况下，该CPU可以是单核CPU，也可以是多核CPU。

处理器730用于读取所述存储器710中存储的程序代码，与通信接口740配合执行本申请上述实施例中由音频处理装置执行的方法的部分或全部步骤。

举例来说，所述通信接口720用于收麦克风阵列采集的N路观测信号，N为大于或者等于2的整数。

所述处理器730，所述处理器，用于对所述N路观测信号进行盲源分离以得到M路源信号和M个分离矩阵，所述M路源信号和所述M个分离矩阵一一对应，M为大于或者等于1的整数；获取所述N路观测信号的空间特征矩阵，所述空间特征矩阵用于表示所述N路观测信号之间的相关性；获取所述M路源信号中每路源信号的预设音频特征；根据每路源信号的预设音频特征、所述M个分离矩阵和所述空间特征矩阵确定所述N路观测信号对应的说话人数量和说话人身份。

在上述实施例中，可全部或部分地通过软件、硬件、固件、或其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如软盘、硬盘、磁带)、光介质(例如光盘)、或者半导体介质(例如固态硬盘)等。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其中，所述计算机程序被相关硬件执行，以完成执行本发明实施例提供的任意一种音频信号处理方法。此外，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被相关硬件执行，以完成执行本发明实施例提供的任意一种方法。

本申请实施例还提供一种计算机程序产品，其中，当所述计算机程序产品在计算机上运行时，使得所述计算机执行本发明实施例提供的任意一种音频信号处理方法。此外，本申请实施例还提供一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行本发明实施例提供的任意一种方法。

在上述实施例中对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，也可以通过其它的方式实现。例如以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可结合或者可以集成到另一个***，或一些特征可以忽略或不执行。另一点，所显示或讨论的相互之间的间接耦合或者直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者，也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例的方案的目的。

另外，在本申请各实施例中的各功能单元可集成在一个处理单元中，也可以是各单元单独物理存在，也可两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，或者也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质例如可包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或光盘等各种可存储程序代码的介质。

Claims

一种音频信号处理方法，其特征在于，包括：

接收麦克风阵列采集的N路观测信号，对所述N路观测信号进行盲源分离以得到M路源信号和M个分离矩阵，所述M路源信号和所述M个分离矩阵一一对应，N为大于或者等于2的整数，M为大于或者等于1的整数；

获取所述N路观测信号的空间特征矩阵，所述空间特征矩阵用于表示所述N路观测信号之间的相关性；

获取所述M路源信号中每路源信号的预设音频特征；

根据每路源信号的预设音频特征、所述M个分离矩阵和所述空间特征矩阵确定所述N路观测信号对应的说话人数量和说话人身份。
根据权利要求1所述的方法，其特征在于，所述获取所述M路源信号中每路源信号的预设音频特征，包括：

将所述M路源信号中每路源信号分割为Q个音频帧，Q为大于1的整数；

获取每路源信号的每个音频帧的预设音频特征。
根据权利要求1或2所述的方法，其特征在于，所述获取所述N路观测信号的空间特征矩阵，包括：

将所述N路观测信号中每路观测信号分割为Q个音频帧；

根据每个音频帧组对应的N个音频帧确定每个第一音频帧组对应的空间特征矩阵，得到Q个空间特征矩阵，每个第一音频帧组对应的N个音频帧为所述N路观测信号在同一时间窗口下的N个音频帧；

根据所述Q个空间特征矩阵得到所述N路观测信号的空间特征矩阵；

其中，

c ^F(k,n)表示每个第一音频组对应的空间特征矩阵，n表示所述Q个音频帧的帧序号，k表示第n个音频帧的频点索引，X ^F(k,n)是由每路观测信号的第n个音频帧的第k个频点在频域中的表征组成的列向量，X ^FH(k,n)为X ^F(k,n)的转置，n为整数，1≤n≤Q。
根据权利要求1-3任一项所述的方法，其特征在于，所述根据每路源信号的预设音频特征、所述M个分离矩阵和所述空间特征矩阵确定所述N路观测信号对应的说话人数量和说话人身份，包括：

对所述空间特征矩阵进行第一聚类，得到P个初始聚类，每个初始聚类对应一个初始聚类中心矩阵，所述初始聚类中心矩阵用于表示每个初始聚类对应的说话人的空间位置，P为大于或者等于1的整数；

确定M个相似度，所述M个相似度为每个初始聚类对应的初始聚类中心矩阵与所述M个分离矩阵之间的相似度；

根据所述M个相似度确定每个初始聚类对应的源信号；

对每个初始聚类对应的源信号的预设音频特征进行第二聚类，得到所述N路观测信号对应的说话人数量和说话人身份。
根据权利要求4所述的方法，其特征在于，所述根据所述M个相似度确定每个初始聚类对应的源信号，包括：

确定所述M个相似度中的最大相似度，

确定所述M个分离矩阵中与最大相似度对应的分离矩阵为目标分离矩阵；

确定与所述目标分离矩阵对应的源信号为每个初始聚类对应的源信号。
根据权利要求4或5所述的方法，其特征在于，所述对每个初始聚类对应的源信号的预设音频特征进行第二聚类，得到所述N路观测信号对应的说话人数量和说话人身份，包括：

对每个初始聚类对应的源信号的预设音频特征进行第二聚类，得到H个目标聚类，所述H个目标聚类表示所述N路观测信号对应的说话人数量，每个目标聚类对应一个目标聚类中心，每个目标聚类中心是由一个预设音频特征和至少一个初始聚类中心矩阵组成，每个目标聚类对应的预设音频特征用于表示每个目标聚类对应的说话人的说话人身份，每个目标聚类对应的至少一个初始聚类中心矩阵用于表示所述说话人的空间位置。
根据权利要求6所述的方法，其特征在于，所述方法还包括：

根据所述N路观测信号对应的说话人数量和说话人身份得到包含有说话人标签的输出音频。
根据权利要求7所述的方法，其特征在于，所述根据所述N路观测信号对应的说话人数量和说话人身份得到包含有说话人标签的输出音频，包括：

确定K个距离，所述K个距离为每个第一音频帧组对应的空间特征矩阵与每个目标聚类对应的至少一个初始聚类中心矩阵的距离，每个第一音频帧组由所述N路观测信号在同一时间窗口下的N个音频帧组成，K≥H；

根据所述K个距离确定每个第一音频帧组对应的L个目标聚类，L≤H；

从所述M路源信号中提取与每个第一音频帧组对应的L个音频帧，所述L个音频帧与每个第一音频帧组所在时间窗口相同；

确定L个相似度，所述L个相似度为所述L个音频帧中每个音频帧的预设音频特征与所述L个目标聚类中每个目标聚类对应的预设音频特征的相似度；

根据所述L个相似度确定所述L个音频帧中每个音频帧对应的目标聚类；

根据每个音频帧对应的目标聚类得到包含有说话人标签的输出音频，所述说话人标签用于标注所述输出音频中每个音频帧的说话人数量和/或说话人身份。
根据权利要求7所述的方法，其特征在于，所述根据所述N路观测信号对应的说话人数量和说话人身份得到包含有说话人标签的输出音频，包括：

确定H个相似度，所述H个相似度为每个第二音频帧组中每个音频帧的预设音频特征与所述H个目标聚类中每个目标聚类中心的预设音频特征之间的相似度，所述每个第二音频帧组由所述M路源信号在同一时间窗口下的音频帧组成；

根据所述H个相似度确定每个第二音频帧组中每个音频帧对应的目标聚类；

根据每个音频帧对应的目标聚类得到包含有说话人标签的输出音频，所述说话人标签用于标注所述输出音频中每个音频帧的说话人数量和/或说话人身份。
一种音频处理装置，其特征在于，包括：

音频分离单元，用于接收麦克风阵列采集的N路观测信号，对所述N路观测信号进行盲源分离以得到M路源信号和M个分离矩阵，所述M路源信号和所述M个分离矩阵一一对应，N为大于或者等于2的整数，M为大于或者等于1的整数；

空间特征提取单元，用于获取所述N路观测信号的空间特征矩阵，所述空间特征矩阵用于表示所述N路观测信号之间的相关性；

音频特征提取单元，用于获取所述M路源信号中每路源信号的预设音频特征；

确定单元，用于根据每路源信号的预设音频特征、所述M个分离矩阵和所述空间特征矩阵确定所述N路观测信号对应的说话人数量和说话人身份。
根据权利要求10所述的装置，其特征在于，

所述音频特征提取单元，在获取所述M路源信号中每路源信号的预设音频特征时，具体用于：将所述M路源信号中每路源信号分割为Q个音频帧，Q为大于1的整数；获取每路源信号的每个音频帧的预设音频特征。
根据权利要求10或11所述的装置，其特征在于，

所述空间特征提取单元，在获取所述N路观测信号的空间特征矩阵时，具体用于：将所述N路观测信号中每路观测信号分割为Q个音频帧；根据每个音频帧组对应的N个音频帧确定每个第一音频帧组对应的空间特征矩阵，得到Q个空间特征矩阵，每个第一音频帧组对应的N个音频帧为所述N路观测信号在同一时间窗口下的N个音频帧；根据所述Q个空间特征矩阵得到所述N路观测信号的空间特征矩阵；

其中，

c ^F(k,n)表示每个第一音频组对应的空间特征矩阵，n表示所述Q个音频帧的帧序号，k表示第n个音频帧的频点索引，X ^F(k,n)是由每路观测信号的第n个音频帧的第k个频点在频域中的表征组成的列向量，X ^FH(k,n)为X ^F(k,n)的转置，n为整数，1≤n≤Q。
根据权利要求10-12任一项所述的装置，其特征在于，

所述确定单元，在根据每路源信号的预设音频特征、所述M个分离矩阵和所述空间特征矩阵确定所述N路观测信号对应的说话人数量和说话人身份时，具体用于：对所述空间特征矩阵进行第一聚类，得到P个初始聚类，每个初始聚类对应一个初始聚类中心矩阵，所述初始聚类中心矩阵用于表示每个初始聚类对应的说话人的空间位置，P为大于或者等于1的整数；确定M个相似度，所述M个相似度为每个初始聚类对应的初始聚类中心矩阵与所述M个分离矩阵之间的相似度；根据所述M个相似度确定每个初始聚类对应的源信号；对每个初始聚类对应的源信号的预设音频特征进行第二聚类，得到所述N路观测信号对应的说话人数量和说话人身份。
根据权利要求13所述的装置，其特征在于，

所述确定单元，在根据所述M个相似度确定每个初始聚类对应的源信号时，具体用于：确定所述M个相似度中的最大相似度，确定所述M个分离矩阵中与最大相似度对应的分离矩阵为目标分离矩阵；确定与所述目标分离矩阵对应的源信号为每个初始聚类对应的源信号。
根据权利要求13或14所述的装置，其特征在于，

所述确定单元，在对每个初始聚类对应的源信号的预设音频特征进行第二聚类，得到所述N路观测信号对应的说话人数量和说话人身份时，具体用于：对每个初始聚类对应的源信号的预设音频特征进行第二聚类，得到H个目标聚类，所述H个目标聚类表示所述N路观测信号对应的说话人数量，每个目标聚类对应一个目标聚类中心，每个目标聚类中心是由一个预设音频特征和至少一个初始聚类中心矩阵组成，每个目标聚类对应的预设音频特征用于表示每个目标聚类对应的说话人的说话人身份，每个目标聚类对应的至少一个初始聚类中心矩阵用于表示所述说话人的空间位置。
根据权利要求15所述的装置，其特征在于，

所述装置还包括音频分割单元；

所述音频分割单元，用于根据所述N路观测信号对应的说话人数量和说话人身份得到包含有说话人标签的输出音频。
根据权利要求16所述的装置，其特征在于，

所述音频分割单元，在根据所述N路观测信号对应的说话人数量和说话人身份得到包含有说话人标签的输出音频时，具体用于：确定K个距离，所述K个距离为每个第一音频帧组对应的空间特征矩阵与每个目标聚类对应的至少一个初始聚类中心矩阵的距离，每个第一音频帧组由所述N路观测信号在同一时间窗口下的N个音频帧组成，K≥H；根据所述K个距离确定每个第一音频帧组对应的L个目标聚类，L≤H；从所述M路源信号中提取与每个第一音频帧组对应的L个音频帧，所述L个音频帧与每个第一音频帧组所在时间窗口相同；确定L个相似度，所述L个相似度为所述L个音频帧中每个音频帧的预设音频特征与所述L个目标聚类中每个目标聚类对应的预设音频特征的相似度；根据所述L个相似度确定所述L个音频帧中每个音频帧对应的目标聚类；根据每个音频帧对应的目标聚类得到包含有说话人标签的输出音频，所述说话人标签用于标注所述输出音频中每个音频帧的说话人数量和/或说话人身份。
根据权利要求16所述的装置，其特征在于，

所述音频分割单元，在根据所述N路观测信号对应的说话人数量和说话人身份得到包含有说话人标签的输出音频时，具体用于：确定H个相似度，所述H个相似度为每个第二音频帧组中每个音频帧的预设音频特征与所述H个目标聚类中每个目标聚类中心的预设音频特征之间的相似度，所述每个第二音频帧组由所述M路源信号在同一时间窗口下的音频帧组成；根据所述H个相似度确定每个第二音频帧组中每个音频帧对应的目标聚类；根据每个音频帧对应的目标聚类得到包含有说话人标签的输出音频，所述说话人标签用于标注所述输出音频中每个音频帧的说话人数量和/或说话人身份。
一种音频处理装置，其特征在于，包括：

相互耦合的处理器、通信接口和存储器；

其中，所述通信接口，用于收麦克风阵列采集的N路观测信号，N为大于或者等于2的整数；

所述处理器，用于对所述N路观测信号进行盲源分离以得到M路源信号和M个分离矩阵，所述M路源信号和所述M个分离矩阵一一对应，M为大于或者等于1的整数；获取所述N路观测信号的空间特征矩阵，所述空间特征矩阵用于表示所述N路观测信号之间的相关性；获取所述M路源信号中每路源信号的预设音频特征；根据每路源信号的预设音频特征、所述M个分离矩阵和所述空间特征矩阵确定所述N路观测信号对应的说话人数量和说话人身份。
一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被硬件执行以实现权利要求书1至9任意一项中由音频处理装置执行的方法。