CN111863020A

CN111863020A - 语音信号处理方法、装置、设备及存储介质

Info

Publication number: CN111863020A
Application number: CN202010754241.0A
Authority: CN
Inventors: 陈日林; 汤欣钰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2020-10-30
Anticipated expiration: 2040-07-30
Also published as: CN111863020B

Abstract

本申请公开了一种语音信号处理方法、装置、设备及存储介质，属于语音技术领域。本申请实施例以形状参数来对应不同的概率分布，同时提供了多种概率分布以供选择，对语音信号进行处理时能够根据形状参数灵活地选择对应的概率分布，进而确定出使得目标信号彼此独立的分离参数对语音信号进行分离，这样能够适应包括多个不同声源的声学场景，在多变的多声源混合的场景中也能够准确地分离出各个声源的目标语音信号，因而，上述方法的准确性好，适应性好。

Description

语音信号处理方法、装置、设备及存储介质

技术领域

本申请涉及语音技术领域，特别涉及一种语音信号处理方法、装置、设备及存储介质。

背景技术

随着语音技术的发展，语音技术的应用越来越广泛。越来越多的场景中能够通过采集语音信号，对语音信号进行处理，分析语音信号中包含的内容或意图等，以执行相应的控制命令或将实现机器翻译等功能。

鸡尾酒会效应揭示了人耳的掩蔽效应，即从复杂嘈杂的听觉场景(同时存在多个声源的声学场景)中提取期望声源的自然能力。在这种复杂的声学场景中，对语音信号进行分离，分离出各个声源的语音信号，后续即可对各个声源的语音信号进行处理。

目前，语音信号处理方法通常是采用单一的声源概率模型，如多元拉普拉斯分布、复高斯分布等对语音信号进行分离，然而声学场景具有复杂性，不同的信号具有不同的概率分布，比如规律的机械转轴声信号更倾向于亚高斯分布，而人类的语音信号偏向于超高斯分布等。采用同一概率模型对所有声源的信号进行处理并不能广泛地适应多变的多声源混合的场景，在这种场景中无法准确地分离出各个声源的目标语音信号，因而，上述方法的准确性差，适应性差。

发明内容

本申请实施例提供了一种语音信号处理方法、装置、设备及存储介质，提高了对语音信号处理的准确性和适应性。所述技术方案如下：

一方面，提供了一种语音信号处理方法，所述方法包括：

基于分离参数，对语音信号进行分离，得到至少一个目标信号；

分别为所述至少一个目标信号确定对应的形状参数，不同的形状参数对应于不同的概率分布；

根据所述至少一个目标信号对应的形状参数，获取所述至少一个目标信号的概率密度分布，一个目标信号的概率密度分布服从所述目标信号的形状参数对应的概率分布；

根据所述概率密度分布和所述分离参数确定，确定所述至少一个目标信号之间的独立性；

根据所述独立性，对所述形状参数和所述分离参数进行更新，直至符合目标条件时停止，得到基于更新后的所述分离参数分离得到的至少一个目标语音信号。

一方面，提供了一种语音信号处理装置，所述装置包括：

分离模块，用于基于分离参数，对语音信号进行分离，得到至少一个目标信号；

确定模块，用于分别为所述至少一个目标信号确定对应的形状参数，不同的形状参数对应于不同的概率分布；

获取模块，用于根据所述至少一个目标信号对应的形状参数，获取所述至少一个目标信号的概率密度分布，一个目标信号的概率密度分布服从所述目标信号的形状参数对应的概率分布；

所述确定模块，还用于根据所述概率密度分布和所述分离参数，确定所述至少一个目标信号之间的独立性；

更新模块，用于根据所述独立性，对所述形状参数和所述分离参数进行更新，直至符合目标条件时停止，得到基于更新后的所述分离参数分离得到的至少一个目标语音信号。

在一种可能实现方式中，所述获取模块包括第一获取单元、第二获取单元、第三获取单元和加权单元；

所述第一获取单元用于对于一个目标信号，获取所述目标信号中至少一帧的至少两个信号分量的混合系数；

所述第二获取单元用于根据所述目标信号中至少一帧的至少两个信号分量的混合系数，获取所述目标信号的至少两个信号分量的混合系数以及方差信息；

所述第三获取单元用于根据所述至少两个信号分量的方差信息，获取所述至少两个信号分量的概率密度分布；

所述加权单元用于根据所述目标信号的至少两个信号分量的混合系数，对所述至少两个信号分量进行的概率密度分布进行加权，得到所述目标信号的概率密度分布。

在一种可能实现方式中，所述第一获取单元用于：

对于所述目标信号中任一帧的任一信号分量，获取所述任一信号分量在上一次迭代过程中确定的混合系数与概率密度分布的乘积；

获取所述任一信号分量的所述乘积与所述任一帧的至少两个信号分量的所述乘积之和的比例，将所述比例作为所述任一信号分量的混合系数。

在一种可能实现方式中，所述第二获取单元用于对于所述目标信号的任一信号分量，获取所述任一信号分量在至少一帧中的混合系数的平均值，将所述平均值作为所述任一个信号分量的混合系数。

在一种可能实现方式中，所述至少两个信号分量中任一信号分量的所述方差信息包括所述信号分量在任一频点对应的方差，以及所述信号分量在任一帧中对应的方差权重。

在一种可能实现方式中，所述分离参数为至少一个分离矩阵；

所述更新模块用于：

根据上一次迭代得到的至少一个目标信号、所述至少一个目标信号中至少一帧的至少两个信号分量的混合系数、所述至少一个目标信号的所述至少两个分量的所述方差信息，对所述至少一个分离矩阵的权重矩阵进行更新；

根据更新后的权重矩阵，对所述至少一个分离矩阵进行更新。

在一种可能实现方式中，所述确定模块用于随机从预设的至少两个形状参数中选择所述至少一个目标信号对应的形状参数。

在一种可能实现方式中，所述更新模块用于：

响应于不符合所述目标条件，对所述形状参数和所述分离参数进行更新；

基于更新的形状参数和分离参数，重复执行所述信号分离、获取概率密度分布和确定独立性的步骤，直至符合所述目标条件，停止更新步骤。

在一种可能实现方式中，所述目标条件为所述独立性收敛，或所述目标条件为所述独立性与上一次迭代得到的独立性的差值小于目标差值，或所述目标条件为迭代次数达到目标次数。

在一种可能实现方式中，所述至少一个目标信号为至少一个目标频域信号；

所述分离模块用于：

对语音信号进行短时傅里叶变换，得到所述语音信号的频域信号；

基于所述分离参数，对所述频域信号进行分离，得到所述至少一个目标频域信号；

所述更新模块用于：

根据所述概率密度分布和所述分离参数确定的所述至少一个目标信号之间的独立性，对所述形状参数和所述分离参数进行更新，直至所述独立性符合目标条件时停止，得到基于更新后的所述分离参数分离得到的至少一个目标频域信号；

对所述至少一个目标频域信号进行短时傅里叶逆变换，得到所述至少一个目标语音信号。

一方面，提供了一种电子设备，所述电子设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述至少一条程序代码由所述一个或多个处理器加载并执行以实现上述语音信号处理方法。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现上述语音信号处理方法。

一方面，提供一种计算机程序产品或计算机程序，所述计算机程序产品或所述计算机程序包括一条或多条程序代码，所述一条或多条程序代码存储在计算机可读存储介质中。计算机设备的一个或多个处理器能够从计算机可读存储介质中读取所述一条或多条程序代码，所述一个或多个处理器执行所述一条或多条程序代码，使得计算机设备能够执行上述任一种可能实施方式的语音信号处理方法。

本申请实施例提供的方法及装置，以形状参数来对应不同的概率分布，同时提供了多种概率分布以供选择，对语音信号进行处理时能够根据形状参数灵活地选择对应的概率分布，进而确定出使得目标信号彼此独立的分离参数对语音信号进行分离，这样能够适应包括多个不同声源的声学场景，在多变的多声源混合的场景中也能够准确地分离出各个声源的目标语音信号，因而，上述方法的准确性好，适应性好。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种语音信号处理方法的实施环境的示意图；

图2是本申请实施例提供的一种语音信号处理***的语音信号处理流程示意图；

图3是本申请实施例提供的一种智能家居***的示意图；

图4是本申请实施例提供的一种视频会议***的示意图；

图5是本申请实施例提供的一种语音信号处理方法的流程图；

图6是相关技术中提供的一种基于IVA的盲源分离方法的流程图；

图7是本申请实施例提供的一种语音信号处理方法的流程图；

图8是本申请实施例提供的一种语音信号处理方法的流程图；

图9是本申请实施例提供的对一段两声源混合语音信号处理前的语谱图；

图10是本申请实施例提供的对一段两声源混合语音信号处理后的语谱图；

图11是本申请实施例提供的一种语音信号处理装置的结构示意图；

图12是本申请实施例提供的一种终端的结构框图；

图13是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。还应理解，尽管以下描述使用术语第一、第二等来描述各种元素，但这些元素不应受术语的限制。这些术语只是用于将一元素与另一元素区别分开。例如，在不脱离各种示例的范围的情况下，第一图像可以被称为第二图像，并且类似地，第二图像可以被称为第一图像。第一图像和第二图像都可以是图像，并且在某些情况下，可以是单独且不同的图像。

本申请中术语“至少一个”的含义是指一个或多个，本申请中术语“多个”的含义是指两个或两个以上，例如，多个数据包是指两个或两个以上的数据包。

应理解，在本文中对各种示例的描述中所使用的术语只是为了描述特定示例，而并非旨在进行限制。如在对各种示例的描述和所附权利要求书中所使用的那样，单数形式“一个(“a”“an”)”和“该”旨在也包括复数形式，除非上下文另外明确地指示。

还应理解，本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。术语“和/或”，是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本申请中的字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，在本申请的各个实施例中，各个过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

还应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其它信息确定B。

还应理解，术语“包括”(也称“inCludes”、“inCluding”、“Comprises”和/或“Comprising”)当在本说明书中使用时指定存在所陈述的特征、整数、步骤、操作、元素、和/或部件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元素、部件、和/或其分组。

还应理解，术语“如果”可被解释为意指“当...时”(“when”或“upon”)或“响应于确定”或“响应于检测到”。类似地，根据上下文，短语“如果确定...”或“如果检测到[所陈述的条件或事件]”可被解释为意指“在确定...时”或“响应于确定...”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。

盲信号分离，也可以称之为盲源分离、声源分离或语音信号分离等，指的是从多个观测到的混合信号中分析出声源发出的源信号。通常观测到的混合信号来自多个传感器的输出，并且传感器的输出信号独立性(线性不相关)。也即是，通过多个传感器采集得到多个观测信号，该多个观测信号混合得到该混合信号。盲信号的“盲”字强调了两点：1)原始信号并不知道；2)对于信号混合的方法也不知道。

具体的，盲源分离是指分离来自多个声源的声音。在声源的声音为用户发出的语音信号的情况下，声源分离也称语音信号分离。语音信号分离是指利用盲源分离技术，将混合的语音信号分离为n个语音信号。

盲源分离技术(Blind Source Separation)，是研究在未知***的传递函数、源信号的混合系数及其概率分布的情况下，仅利用源信号之间相互独立这一微弱已知条件，从一组传感器测量所得的混合信号中分离出独立源信号的一种技术。

该盲信号分离技术可以实现为盲声信号分离***，该***可以模拟人类的听觉***，用来识别和增强来自特定声源的声音。

独立向量分析(Independent Vector Analysis，IVA)是一种有效的盲源分离方法，它联合所有频点、最小化输出信号之间的统计相关性，避免了独立成分分析(Independent Component Analysis，ICA)方法中的排列模糊问题。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(Text To Speech，TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的语音技术、自然语言处理技术等技术，具体通过如下实施例进行说明。

下面对本申请的实施环境进行说明。

图1是本申请实施例提供的一种语音信号处理方法的实施环境的示意图。该实施环境包括终端101，或者该实施环境包括终端101和语音信号处理平台102。终端101通过无线网络或有线网络与语音信号处理平台102相连。

终端101可以是智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器或MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器和膝上型便携计算机中的至少一种。终端101安装和运行有支持语音信号处理的应用程序，例如，该应用程序可以是***应用、即时通讯应用、新闻推送应用、购物应用、在线视频应用、社交应用、音乐应用等。

示例性地，该终端101能够具有语音信号采集功能和语音信号处理功能，该终端101能够采集语音信号，对采集到的语音信号进行处理。该终端101能够独立完成该工作，也能够通过语音信号处理平台102为其提供语音信号处理的后台服务，本申请实施例对此不作限定。

语音信号处理平台102包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。语音信号处理平台102用于为支持语音信号处理的应用程序提供后台服务。可选地，语音信号处理平台102承担主要处理工作，终端101承担次要处理工作；或者，语音信号处理平台102承担次要处理工作，终端101承担主要处理工作；或者，语音信号处理平台102或终端101分别可以单独承担处理工作。或者，语音信号处理平台102和终端101两者之间采用分布式计算架构进行协同计算。

可选地，该语音信号处理平台102包括多台服务器1021，该多台服务器1021能够协同计算，为终端101提供语音信号处理的后台服务。

服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。

本领域技术人员可以知晓，上述终端101、服务器1021的数量可以更多或更少。比如上述终端101、服务器1021可以仅为一个，或者上述终端101、服务器1021为几十个或几百个，或者更多数量，本申请实施例对终端或服务器的数量和设备类型不加以限定。

下面提供一种具体的应用场景。

本申请实施例提供了一种前端语音增强技术，在该技术中，可以增强期望信号、抑制干扰，能够应用到多种***中，如智能家居***、视频会议***以及语音识别***等。下面通过图2、图3和图4对这三种应用场景进行说明。当然，本申请实施例提供的方法还能够应用于其他场景中，本申请实施例对应用场景和应用领域不作限定。

图2是本申请实施例提供的一种语音信号处理***的语音信号处理流程示意图，图2示出了在语音识别***之前的前端信号处理过程。具体的，一个或多个用户201发出语音，一个或多个麦克风202采集目标语音和干扰语音，输出一个或多个观测信号203，分别经过回声消除204、去混响205、声源分离206和后处理207后能够得到增强的干净目标语音信号208，将该干净目标语音信号208输入识别***209进行语音识别，得到干净目标语音信号208对应的文本内容。本申请实施例提供的语音信号处理方法即对应该声源分离206。

具体地，在对一个或多个观测信号203进行了回声消除204、去混响205后，得到了预处理后的一个或多个观测信号。在该声源分离206的步骤中，能够进行多次迭代，确定出分离效果好的分离参数来对该一个或多个观测信号的混合信号进行分离，分离得到一个或多个干净目标语音信号，每个干净目标语音信号对应一个声源，从而将每个声源的干净目标语音信号进行后处理后，输入到识别***209中，由识别***209将每个干净语音信号进行语音识别，确定出每个声源发出的语音对应的文本内容。通过该声源分离206，能够提高后续识别***识别每个用户发出的语音对应的文本内容的准确性。

其中，对于回声消除204和去混响205，在语音信号采集或录制的情况下，传声器除了接收到所需要的声源发射声波直接到达的部分外，还会接收声源发出的、经过其它途径传递而到达的声波，以及所在环境其它声源产生的不需要的声波(即背景噪声)。在声学上，延迟时间达到约50毫秒(ms)以上的反射波称为回声，其余的反射波产生的效应称为混响。

回声消除一般采用回波抵消方法，也就是通过自适应方法估计回波信号的大小，将其称为估计值，在接收信号中减去此估计值以抵消回波。

对于去混响205，单传声器***的去混响技术能够利用声场中接收位置的声信号时间和变换域的特性进行混响去除。多传声器阵列***能利用声场的空间特性，根据阵列的接收方向性能够获知该声场的空间特性，因而能直接提高信号与混响声能比，还对本底噪声(等效噪声电平，话筒本身产生的电噪声)有显著的抑制作用。去混响205可以通过去混响算法或去混响模型实现，例如，WPE(Weighted Prediction Error for speechdereverberation，语音去冗余加权预测误差)算法、Schroeder混响模型等。

后处理206用于对声源分离得到的干净目标语音信号208进行进一步降噪处理等，使得进入识别***209的语音信号足够干净，以提高语音识别的准确性。

对于识别***209，该识别***209用于采用语音技术，将语音转换为文本或命令。可选地，该识别***209可以通过语音识别模型实现。

该语音信号处理***可以应用于任一语音识别场景中，例如，该语音信号处理***应用于语音识别场景中，在该场景中，该语音信号处理***可以称为语音识别***，在多人场景中，使用“语音输入”功能，该“语音输入”功能是指用户发出语音，由设备采集用户的语音信号将其转化为文本内容，将文本内容输入在输入框中。当然，该多人场景中还可以包括依赖语音识别的功能，例如，语音搜索、语音唤醒、机器翻译等，比如在法庭上能够通过对多个声源发出的语音信号进行分离，并分别进行识别，得到每个声源发出语音信号的文本内容，将其记录下来作为每个发言人的庭审记录。

在一个具体的应用场景中，该语音信号处理***可以应用于智能家居场景中，在该场景中，该语音信号处理***可以称为智能家居***。图3是本申请实施例提供的一种智能家居***的示意图，如图3所示，在智能家居***中，多个用户301说话，其中，一个或多个用户301对智能家居***的设备302发出了语音指令，以控制设备302执行语音指令对应的功能303。

其中，该设备302可以为卫生间灯、桌灯、空调、电视机等智能家电，在此仅列出几种智能家电为例进行说明，本申请实施例并不对智能家电进行限定。

不同的智能家电所执行的功能303不同。例如，卫生间灯、桌灯等的功能为开/关灯，或者调整亮度等。又例如，空调能够开/关，或者调整温度，或者调整风力或转向等。又例如，电视机能够开/关，或者换频道，或者调整音量等。例如，用户A、用户B、用户C和用户D在说话，智能家居***的设备302采集到四个用户说话的语音信号混合后的混合信号，能够对混合信号进行回声消除、去混响等处理，再通过本申请提供的方法对该混合信号进行分离，分离出四个声源的语音信号，再对每个声源的语音信号进行识别，确定每个语音信号的文本内容。经过对每个语音信号的文本内容的语义进行分析，能够确定出用户A和用户B是在闲聊，用户C发出了语音指令“打开空调”，用户D发出了语音指令“调低电视机的音量”。则分析后，该智能家居***中的空调和电视机则会执行相应的功能：空调启动，电视机调低了音量。

在另一个具体的应用场景中，该语音信号处理***可以应用于视频会议场景中，在该场景中，该语音信号处理***可以称为视频会议***。图4是本申请实施例提供的一种视频会议***的示意图，如图4中(a)所示，在视频会议***中，多个用户401正在通过各自的设备进行视频通话，该多个用户401的设备可以显示视频通话界面402，在该视频通话界面可以显示每个用户401的视频画面。

对视频通话过程中该多个用户401说话时，设备采集或接收到多个用户401发出的语音信号后，能够对该多个语音信号的混合信号进行回声消除、去混响等处理，再通过本申请提供的方法对该混合信号进行分离，分离出四个声源(也即是用户401)的语音信号，再对每个声源的语音信号进行识别，确定每个语音信号的文本内容，将其作为每个用户401的发言内容。

可选地，如图4中(b)所示，在识别完成后，可以将每个用户401的发言内容作为字幕403显示于每个用户401的视频画面中。

可选地，如图4中(c)所示，在识别完成后，设备可以在聊天框404中显示该多个用户401的发言内容。

图5是本申请实施例提供的一种语音信号处理方法的流程图，该方法应用于电子设备中，该电子设备为终端或服务器，参见图5，以该方法应用于终端为例，该方法包括以下步骤。

501、终端基于分离参数，对语音信号进行分离，得到至少一个目标信号。

该语音信号为基于多个传感器采集得到的混合信号，可以称之为混合观测信号或观测到的多声源混合信号。

该分离参数用于对语音信号进行分离，分离出至少一个目标信号，每个目标信号为每个声源发出的信号。该分离参数一开始可以为初始值，终端可以继续执行后续步骤，以根据后续的数据对该分离参数进行更新，以提高该分离参数对语音信号的分离效果，得到准确的、干净的目标信号。

502、终端分别为该至少一个目标信号确定对应的形状参数，不同的形状参数对应于不同的概率分布。

该形状参数用于确定目标信号的概率分布。由于不同声源的信号的概率分布可能不同，本申请提供了几种可选的概率分布，通过确定该形状参数，能够灵活地从几种可选的概率分布中确定出每个目标信号的概率分布，能够适应复杂的多声源的声学场景，提高语音信号处理方法的适应性。

具体的，该形状参数能够基于后续步骤进行更新，择优选择每个目标信号的形状参数，能够为每个目标信号确定出准确的概率分布，拟合得到的概率分布更符合该目标信号的真实概率分布情况，进而也提高了语音信号处理方法的准确性。

503、终端根据该至少一个目标信号对应的形状参数，获取该至少一个目标信号的概率密度分布，一个目标信号的概率密度分布服从该目标信号的形状参数对应的概率分布。

终端为每个目标信号确定了形状参数后，能够根据该形状参数确定出该目标信号的概率密度分布。该概率密度分布与形状参数相关，例如，在一个具体示例中，可以提供两种概率分布：高斯分布和超高斯分布。假设

为形状参数，

时对应的目标信号服从超高斯分布，

时对应的目标信号服从高斯分布。特别地，

时对应的目标信号服从拉普拉斯分布。当然，在另一具体示例中，还可以提供亚高斯分布，为该亚高斯分布设置形状参数。

504、终端根据该概率密度分布和该分离参数，确定该至少一个目标信号之间的独立性。

终端确定了每个目标信号的概率密度分布后，能够设定目标函数，以目标函数的取值来衡量当前分离参数分离得到的至少一个目标信号的效果如何。该目标函数用于体现该至少一个目标信号之间的独立性。可以理解地，独立性越好，说明分离效果越好；独立性不好，说明分离效果不佳。

505、终端根据该独立性，对该形状参数和该分离参数进行更新，直至符合目标条件时停止，得到基于更新后的该分离参数分离得到的至少一个目标语音信号。

如果独立性不好，终端可以对分离参数和形状参数进行更新，再重复执行上述步骤，将每次重复执行的过程称为一次迭代过程，经过多次迭代过程，能够找到最优的分离参数以及形状参数，进而，通过最优的分离参数能够分离得到最优的目标语音信号。

如图6所示，相关技术中，采用基于IVA的盲源分离方法，假设N个源的卷积混合信号被M个传感器采集，并输出了M个通道的观测信号，使用STFT(Short-Time FourierTransform，短时傅里叶变换)将观测信号变换到频域，采用基于独立向量分析(IVA)的分离方法，建立源信号模型，得到目标函数，该目标函数采用非线性参数最优化的方式中的目标函数，例如，该非线性参数最优化的方式可以为自然梯度法、自适应的变步长方法等。但该方法采用的是单一概率模型，

而本申请实施例以形状参数来对应不同的概率分布，同时提供了多种概率分布以供选择，对语音信号进行处理时能够根据形状参数灵活地选择对应的概率分布，进而确定出使得目标信号彼此独立的分离参数对语音信号进行分离，这样能够适应包括多个不同声源的声学场景，在多变的多声源混合的场景中也能够准确地分离出各个声源的目标语音信号，因而，上述方法的准确性好，适应性好。

图7是本申请实施例提供的一种语音信号处理方法的流程图，参见图7，该方法包括以下步骤。

701、终端采集语音信号。

该终端可以具有语音信号采集功能和语音信号处理功能。终端能够采集语音信号，并对语音信号进行处理，将其分离为至少一个目标语音信号。该语音信号通常是一个或多个声源产生的信号，通过分离步骤，能够将各个声源产生的语音信号分离，该目标语音信号为干净的、噪声小甚至无噪声的、单声源的语音信号。

在一种可能实现方式中，该终端上可以配置有一个或多个麦克风，例如，该麦克风的数量可以为4、6、8等。终端可以基于麦克风采集语音信号。一个麦克风也即是一个传感器，每个麦克风输出一个通道的语音信号。如果麦克风的数量为多个，则可以将多个通道的语音信号混合得到该语音信号。

在此以该方法应用于终端为例进行说明，可选地，该方法也可以应用于服务器，在应用于服务器时，该步骤701中该语音信号可以由终端采集并发送至该服务器。可选地，终端和服务器可以协作完成语音信号处理过程，本申请实施例对具体采用哪种方式不作限定。

702、终端对语音信号进行短时傅里叶变换，得到该语音信号的频域信号。

可以理解地，该语音信号为时域信号，对时域信号进行处理时通常计算复杂度高，计算量大，将其转换至频域进行计算，能够降低计算复杂度，大大减少计算量。因而，终端能够将语音信号转换为频域信号，再基于频域信号进行后续处理。

由于语音信号是非平稳的，无法直接使用标准傅里叶变换方式进行处理，又语音信号具有短时特性，采用短时傅里叶变换，对语音信号的各个短时片段进行变换，能够得到语音信号的频域信号。该短时傅里叶变换还可以称为有限长度的傅里叶变换，得到的频域信号的频谱也可以称为短时谱。

具体地，该时域信号转换为频域信号的过程可以包括：终端对语音信号进行加窗、分帧和傅里叶变换，得到该语音信号的频域信号。可选地，终端还可以对傅里叶变换后的信号进行取对数处理，得到相应的频谱(例如，梅尔频谱)，基于频谱进行分析处理。

703、终端基于该分离参数，对该频域信号进行分离，得到该至少一个目标频域信号。

终端得到频域信号后，该频域信号也是一个混合信号，终端能够将其中的信号对其进行分离，将其分离为至少一个目标频域信号，认为每个目标频域信号为一个声源发出的语音信号对应的频域信号。

该分离参数可以看做为一种转换系数，语音信号为将源信号混合后得到的混合信号，自然该语音信号的频域信号也是一个混合信号。其中，该混合方式可以包括多种，例如，线性瞬时混合，或线性卷积混合，或非线性混合等。该分离参数即用于对混合信号进行解混。

在一种可能实现方式中，该分离参数为至少一个分离矩阵，分离矩阵的数量为一个或多个，每个频点对应一个分离矩阵。如果分离矩阵的数量为一个，终端能够对单频点的频域信号进行分离处理。如果分离矩阵的数量为多个，终端能够对多频点的频域信号进行分离处理。相应地，终端能够根据至少一个分离矩阵，对频域信号进行分离，得到该至少一个目标频域信号。根据该综合分离矩阵能够对频域信号进行解混，分离出至少一个目标频域信号。

例如，假设N个源信号、M个观测信号和估计的N个源信号分别表示为

和

其中频点标记f∈{1,...,F}、帧标记t∈{1,...,T}，并且要求M≥N。设M×N阶混合矩阵为A_f，N×M阶分离矩阵为W_f。M和N均为正整数。可选地，可以假设M＝N，通过对观测信号(也即是上述频域信号)进行处理，得到估计的源信号(也即是至少一个目标频域信号)，分析出源信号的数量，丢弃一些观测信号。该三种信号的关系可以如下述公式(1)和公式(2)所示。

x_ft＝A_fs_ft 公式(1)

y_ft＝W_fx_ft 公式(2)

需要说明的是，该步骤702和步骤703为基于分离参数，对语音信号进行分离，得到至少一个目标信号的过程，在上述过程中，该至少一个目标信号为至少一个目标频域信号，将语音信号转换到频域计算，降低了计算复杂度，减少了计算量。可选地，终端也可以直接对时域信号进行处理，本申请实施例对此不作限定。

704、终端分别为该至少一个目标信号确定对应的形状参数，不同的形状参数对应于不同的概率分布。

终端分离得到至少一个目标信号后，可以确定各个信号的概率密度分布，以便于基于概率密度分布确定各个目标信号之间的独立性，以此判定分离效果。

可选地，该形状参数包括多种确定方式，例如，从预设的形状参数中确定出最符合该目标信号的概率分布的形状参数。又例如，对目标信号进行波形或能量分布分析，确定该目标信号的形状参数。

在一种可能实现方式中，终端可以随机从预设的至少两个形状参数中选择该至少一个目标信号对应的形状参数。在每次迭代过程中终端能够随机确定形状参数，形状参数不同时，对应的概率分布不同，后续获取的概率密度分布也即不同，自然地，终端获取到的至少一个目标信号之间的独立性也就不同。这样后续根据独立性对形状参数进行调整时，能够调整到最优的形状参数，使得后续获取得到的至少一个目标信号之间的独立性更好。

通过预设至少两个形状参数，并在迭代中为每个目标信号确定出最优的形状参数，考虑到了语音信号中的一个或多个声源发出的语音信号的概率分布可能不同的情况，而不是将所有声源的语音信号均采用同一种概率分布进行分析，能够拟合出更符合各个声源发出的信号本身的概率分布情况的目标信号。且通过对预设的性状参数进行择优，能够较快地确定形状参数，效率更高。

其中，预设的形状参数可以由相关技术人员根据需求进行设置，本申请实施例对此不作限定。例如，该预设的形状参数

可以为0-2中的数值。可以将对语音信号进行处理的过程看做为使用一个混合模型对语音信号进行分离的过程，则当

时模型具有超高斯性，

时模型具有高斯性。

在另一种可能实现方式中，终端也可以根据每个至少一个目标信号的波形或能量分布等信息，为该至少一个目标信号确定对应的形状参数，本申请实施例对具体采用哪种方式不作限定。

705、终端根据该至少一个目标信号对应的形状参数，获取该至少一个目标信号的概率密度分布，一个目标信号的概率密度分布服从该目标信号的形状参数对应的概率分布。

终端确定出每个目标信号对应的形状参数后，则每个目标信号所服从的概率分布确定，即可获取得到每个目标信号的概率密度分布。

可选地，该概率密度分布可以通过目标概率密度分布函数确定，该目标概率密度分布函数中包括形状参数，通过为形状参数赋不同的值，即可得到不同概率分布的概率密度分布函数。

在一种可能实现方式中，可以将目标信号划分为至少两个信号分量，以信号分量混合后得到目标信号的情况来分析该目标信号的概率密度分布。具体地，该步骤705可以通过下述步骤一至步骤四实现：

步骤一、对于一个目标信号，获取该目标信号中至少一帧的至少两个信号分量的混合系数。

该混合系数用于体现该目标信号中至少一帧的每个信号分量在所有信号分量中的占比或权重。该步骤一中的混合系数为每帧中的每个信号分量的混合系数，通过确定出每个信号分量在所有信号分量中的占比或权重，即可通过每个信号分量以及其对应的占比或权重，来混合得到该目标信号的每帧，进而能够确定出目标信号的概率密度分布。

该混合系数能够通过多种方式确定，在一种可能实现方式中，对于该目标信号中任一帧的任一信号分量，终端可以获取该任一信号分量在上一次迭代过程中确定的混合系数与概率密度分布的乘积，获取该任一信号分量的该乘积与该任一帧的至少两个信号分量的该乘积之和的比例，将该比例作为该任一信号分量的混合系数。

例如，该混合系数的获取过程可以通过下述公式(3)实现：

其中，

是第t帧第i个混合分量的后验概率(混合系数)，也即是第t帧第i个混合分量的混合系数，

是第n个源中i个分量的混合概率(混合系数)，p(y^[n])为第n个源信号的概率密度函数。I和j用于标识混合分量。

当然，该混合系数还能够通过其他方式确定，例如，可以预设有多个混合系数，终端从预设的多个混合系数中为每个信号分量选择一个混合系数，在后续的多次迭代中，能够从预设的多个混合系数中择优选择出每个信号分量的混合系数。本申请实施例对该混合系数的确定方式不作具体限定。

步骤二、根据该目标信号中至少一帧的至少两个信号分量的混合系数，获取该目标信号的至少两个信号分量的混合系数以及方差信息。

通过步骤一确定出每帧中每个信号分量的混合系数后，可以确定该目标信号的所有帧中每个信号分量的混合系数，也能够确定出该目标信号所涉及地方差信息。

可选地，对于该目标信号的至少两个信号分量的混合系数，该混合系数为综合所有帧的同一信号分量的混合系数。对于该目标信号的任一信号分量，终端可以获取该任一信号分量在至少一帧中的混合系数的平均值，将该平均值作为该任一个信号分量的混合系数。

可选地，该终端也可以通过其他方式来确定出该目标信号的至少两个信号分量的混合系数，例如，可以为每帧设置有相应的权重，终端能够根据每个信号分量在至少一帧中的混合系数以及每帧的权重进行加权，得到该目标信号的至少两个信号分量的混合系数。其中，该权重可以由相关技术人员根据需求设置，或者根据对目标信号的每帧信号进行分析确定。本申请实施例对具体采用哪种实现方式不作限定。

对于方差信息，在一种可能实现方式中，该至少两个信号分量中任一信号分量的该方差信息包括该信号分量在任一频点对应的方差，以及该信号分量在任一帧中对应的方差权重。相应的，该步骤二中，终端获取到该目标信号的至少两个信号分量的混合系数后，可以根据该混合系数，确定该信号分量在任一频点对应的方差，以及该信号分量在任一帧中对应的方差权重。可选地，该方差可以方差矩阵的形式，该方差权重可以为方差的权重系数矩阵的形式。

例如，该步骤二可以通过下述公式(4)至公式(6)实现，其中，公式(4)用于确定该任一个信号分量的混合系数，公式(5)和公式(6)用于确定方差信息。

其中，

为方差，方差的权重系数

用来适应声信号的非平稳性带来的功率波动。

在一个具体的实施例中，上述步骤一和步骤二可以采用最大期望(EM)算法实现，上述步骤一可以对应E步骤(E-Step)，步骤二对应M步骤(M-Step)。如果上述对语音信号进行处理的过程通过模型实现，在此称之为复广义高斯混合模型。EM算法在估计模型参数方面具有较大优势，通过该EM算法能够快速、准确地确定出该模型的模型参数，该模型参数也即是上述混合系数和方差信息。

步骤三、根据该至少两个信号分量的方差信息，获取该至少两个信号分量的概率密度分布。

步骤四、根据该目标信号的至少两个信号分量的混合系数，对该至少两个信号分量进行的概率密度分布进行加权，得到该目标信号的概率密度分布。

在步骤三和步骤四中，终端确定出获取概率密度分布所需的参数后，即可基于这些参数确定出每个目标信号的概率密度分布。在确定该目标信号的概率密度分布时，能够确定每个信号分量的概率密度分布，进而根据每个信号分量的混合系数将至少两个信号分量的概率密度分布混合得到目标信号的概率密度分布。

可选地，该概率密度分布可以通过概率密度分布函数表示。例如，认为同一帧频点间相互独立，目标信号具有I个混合分量，该混合分量也即是信号分量，I为正整数，也即是上述信号分量的数量，该信号分量的数量可以由相关技术人员根据需求设置，也能够由终端在预设的多个信号分量中随机选择，并在迭代过程中确定出最优的数量，本申请实施例对此不作限定。具体地，该步骤三和步骤四可以通过下述公式(7)实现：

其中，p(y^[n])为第n个源信号(也即是第n个目标信号)的概率密度函数。其中，Γ(·)为伽马函数，

和

分别是第n个源中i个信号分量的混合概率(也即是混合系数)和形状参数。

为方差，方差的权重系数

用来适应声信号的非平稳性带来的功率波动。

706、终端根据该概率密度分布和该分离参数，确定该至少一个目标信号之间的独立性。

在确定上述参数时，能够设定目标函数，该目标函数的目的是为了最大化各通道信号间的独立性。这样通过设定目标函数，能够通过目标函数的值，来调整上述步骤确定给出的各项参数，以找到最优的参数，通过最优的参数来分离语音信号得到最优的分离结果。

例如，该目标函数如下公式(8)所示：

其中，p(y^[1],...,y^[N])为联合概率密度函数，p(y^[n])为第n个源信号的概率密度函数，

det是一个计算机函数，在FreeMat、Matlab中，该函数用于求一个方阵(square matrix)的行列式(Determinant)。

707、终端响应于不符合该目标条件，对该形状参数和该分离参数进行更新，基于更新的形状参数和分离参数，重复执行上述步骤703至步骤706，直至符合该目标条件，停止更新步骤，得到基于更新后的该分离参数分离得到的至少一个目标频域信号。

通过上述步骤，根据得到的独立性来判断当前分离结果是否准确，是否能符合要求，如果不符合，说明还需确定出更好的分离参数来分离语音信号，因而，终端能够在不符合目标条件时，对形状参数和分离参数进行更新，基于更新后的参数再执行上述步骤703至步骤706，再确定更新后的参数是否符合目标条件。

每次执行步骤703至步骤706的过程为一次迭代过程，重复执行该过程，也即是多次迭代过程，通过多次迭代能够确定出符合目标条件的形状参数和分离参数。符合该目标条件的分离参数能够对语音信号进行准确分离，得到干净的目标语音信号。

可选地，该分离参数为至少一个分离矩阵。对该分离参数的更新过程可以为：根据上一次迭代得到的至少一个目标信号、该至少一个目标信号中至少一帧的至少两个信号分量的混合系数、该至少一个目标信号的该至少两个分量的该方差信息，对该至少一个分离矩阵的权重矩阵进行更新，根据更新后的权重矩阵，对该至少一个分离矩阵进行更新。也即是，终端能够更新分离矩阵的权重矩阵以及分离矩阵。

例如，该步骤707中，终端可以利用AuxIVA中的辅助函数方法得到分离矩阵，通过该辅助函数，相较于自然梯度法、自适应的变步长方法等，不受步长参数的约束，在减小计算量的同时能够较为准确地求出分离矩阵和模型参数(例如形状参数和方差信息等)的近似解，且无需对观测信号(也即是采集得到的语音信号)进行预白化处理，即可准确得到分离矩阵。具体地，通过该辅助函数方法，每次迭代能够对以下两种信息进行更新：

第一种信息的更新：更新加权方差矩阵。该加权方差矩阵可以如下述公式(9)所示：

其中，

是上一次迭代中对

的估计值。

第二种信息的更新：更新分离矩阵。该分离矩阵可以如下述公式(10)所示：

其中，e_n是N×1阶的单位向量，其中第n个元素为1，其他元素为0。

是第n个源的分离滤波器，分别对N个源更新分离滤波器后得到分离矩阵，即

每个频点对应一个分离矩阵。其中，N和n为正整数。

对于目标条件，该目标条件为该独立性收敛，或该目标条件为该独立性与上一次迭代得到的独立性的差值小于目标差值，或该目标条件为迭代次数达到目标次数，当然，该目标条件还可以为其他条件，该目标条件可以由相关技术人员根据需求进行设置，本申请实施例对此不作限定。

该步骤707为根据该概率密度分布和该分离参数确定的该至少一个目标信号之间的独立性，对该形状参数和该分离参数进行更新，直至该独立性符合目标条件时停止的过程，通过多次迭代，能够确定出使得至少一个目标信号之间独立性很好的分离参数，根据这样的分离参数对语音信号进行分离，能够得到至少一个干净的目标语音信号。

上述过程中，以将最后一次迭代得到的至少一个目标频域信号作为输出为例进行说明，在另一可能实现方式中，终端也可以在多次迭代得到分离参数后，再重复上述步骤703，对频域信号进行分离，得到至少一个目标频域信号，基于该至少一个目标频域信号执行下述步骤708，本申请实施例对此不作限定。

708、终端对该至少一个目标频域信号进行短时傅里叶逆变换，得到该至少一个目标语音信号。

通过上述多次迭代过程，终端得到了通过分离效果好的分离参数分离得到的至少一个目标频域信号，可以通过短时傅里叶逆变换，得到每个目标频域信号对应的目标语音信号。

需要说明的是，步骤707和步骤708为根据该概率密度分布和该分离参数确定的该至少一个目标信号之间的独立性，对该形状参数和该分离参数进行更新，直至该独立性符合目标条件时停止，得到基于更新后的该分离参数分离得到的至少一个目标语音信号的过程。在另一可能实现方式中，终端也能够直接对时域信号进行处理，不将其转换为频域信号，则通过上述步骤707即可得到至少一个目标语音信号，本申请实施例对具体采用哪种方式不作限定。

下面提供一个具体示例，通过该具体示例与相关技术进行对比分析。

如图6所示的相关技术，采用单一声源概率模型，对语音信号进行分离，无法适应多声源的声学场景，且分离性能受到步长参数的限制，且梯度下降算法的计算量较大，因而，对语音信号处理的效率低。且难以估计源信号的方差，要求对观测信号进行预白化处理，从而难以在产品中实时化。

如图8所示的具体示例中，本申请采用复广义高斯混合分布作为声源模型，能够对采集得到的混合后的语音信号x(t)执行STFT的步骤801，得到频域信号x_ft，然后执行混合模型参数初始化的步骤802，进而采用IVA算法803通过混合模型对频域信号进行处理，每次处理得到结果后，执行更新目标函数的步骤804，以及执行通过EM算法更新混合模型参数的步骤805，再基于更新后的模型参数继续执行IVA算法803，通过多次迭代，能够得到分离矩阵W(806)，基于该分离矩阵W即可分离得到至少一个目标频域信号y_ft，最后对y_ft执行ISTFT的步骤807，即可得到至少一个目标语音信号y(t)。

该具体示例中，通过确定形状参数可以灵活地选择超高斯和高斯信号的统计模型，并且混合机制的引入实现了声源模型的自适应匹配。其次，采用最大期望(ExpectationMaximization，EM)算法可以方便地估计混合模型参数(例如方差等)，能够得到更为准确的模型参数。最后，通过采用并改进了基于MM(Majorization Minimization，最大最小算法)框架的辅助函数最优化方法，不受步长参数的约束，在减小计算量的同时能够较为准确地求出分离矩阵和混合模型参数的近似解，且无需对采集到的语音信号进行预白化处理，提高了信号分离效率。

下面对本申请与相关技术的声源分离效果，进行了两声源混合场景的实验。在一个长4.45米(m)、宽3.55m、高2.5m、混响时间约130ms的房间内，两个说话人同时说话，他们各自都与麦克风相距1m，相对于麦克风的方向角分别为45°和135°，采用间距0.1m的两个麦克风接收混合语音信号，该混合语音信号为两个声源的语音信号混合后得到的语音信号，也可以称之为两声源混合语音信号。

如图9和图10所示，本申请实施例中对一段两声源混合语音信号处理前和处理后的语谱图。通过对比两个语谱图，图9所示的语谱图中，两个声源产生的语音信号混合在一起，图10所示的语谱图中，两个声源产生的语音信号则分别在左右声道上。

下面提供一种实验示例，分别采用本申请提供的方法与其他方法来对接收到的语音信号进行处理，通过处理后信号的信号干扰比(Signal-to-Interference Ratio，SIR)与信号失真比(Signal-to-Distortion Ratio，SDR)来对不同方法的处理效果进行对比分析。

其中，使用(1)来表示本申请提供的基于复广义高斯混合分布的AuxIVA技术，使用(2)来表示基于拉普拉斯分布的AuxIVA技术，使用(3)来表示基于复广义高斯分布的AuxIVA技术。

分别通过三种技术来对上述双声源语音信号进行处理，处理后得到的信号的SIR可以如表1所示，得到的信号的SDR可以如表2所示。

表1

声源	技术(1)	技术(2)	技术(3)
				45°声源	23.28	16.49	21.40
135°声源	23.21	18.10	23.01

该表1中示出了计算得到的每个声源采用每种技术得到的SIR值，其单位为分贝(dB)，上述表1中的数值为进行了50次实验的平均SIR值，仅以此为例进行对比说明。

如表1所示，能够看到采用技术(1)得到的信号的SIR值要大于采用其他技术得到的SIR值，可见，采用技术(1)能够更准确地对语音信号进行分离，分离效果更好。

表2

声源	技术(1)	技术(2)	技术(3)
				45°声源	15.98	11.26	14.76
135°声源	16.00	15.17	11.75

该表2中示出了计算得到的每个声源采用每种技术得到的SDR值，其单位为分贝(dB)，上述表2中的数值为进行了50次实验的平均SDR值，仅以此为例进行对比说明。

如表2所示，能够看到采用技术(1)得到的信号的SDR值要大于采用其他技术得到的SDR值，可见，采用技术(1)能够更准确地对语音信号进行分离，分离效果更好。

综合上述表1和表2的数据，本申请提供的方法能够成功分离多声源的混合语音，与其他方法相比，显著地提升了前端信号质量。

本申请实施例提供的方法，以形状参数来对应不同的概率分布，同时提供了多种概率分布以供选择，对语音信号进行处理时能够根据形状参数灵活地选择对应的概率分布，进而确定出使得目标信号彼此独立的分离参数对语音信号进行分离，这样能够适应包括多个不同声源的声学场景，在多变的多声源混合的场景中也能够准确地分离出各个声源的目标语音信号，因而，上述方法的准确性好，适应性好。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

图11是本申请实施例提供的一种语音信号处理装置的结构示意图。参见图11，该装置包括：

分离模块1101，用于基于分离参数，对语音信号进行分离，得到至少一个目标信号；

确定模块1102，用于分别为该至少一个目标信号确定对应的形状参数，不同的形状参数对应于不同的概率分布；

获取模块1103，用于根据该至少一个目标信号对应的形状参数，获取该至少一个目标信号的概率密度分布，一个目标信号的概率密度分布服从该目标信号的形状参数对应的概率分布；

该确定模块1102，还用于根据该概率密度分布和该分离参数确定的该至少一个目标信号之间的独立性；

更新模块1104，用于根据该独立性，对该形状参数和该分离参数进行更新，直至符合目标条件时停止，得到基于更新后的该分离参数分离得到的至少一个目标语音信号。

在一种可能实现方式中，该获取模块1103包括第一获取单元、第二获取单元、第三获取单元和加权单元；

该第一获取单元用于对于一个目标信号，获取该目标信号中至少一帧的至少两个信号分量的混合系数；

该第二获取单元用于根据该目标信号中至少一帧的至少两个信号分量的混合系数，获取该目标信号的至少两个信号分量的混合系数以及方差信息；

该第三获取单元用于根据该至少两个信号分量的方差信息，获取该至少两个信号分量的概率密度分布；

该加权单元用于根据该目标信号的至少两个信号分量的混合系数，对该至少两个信号分量进行的概率密度分布进行加权，得到该目标信号的概率密度分布。

在一种可能实现方式中，该第一获取单元用于：

对于该目标信号中任一帧的任一信号分量，获取该任一信号分量在上一次迭代过程中确定的混合系数与概率密度分布的乘积；

获取该任一信号分量的该乘积与该任一帧的至少两个信号分量的该乘积之和的比例，将该比例作为该任一信号分量的混合系数。

在一种可能实现方式中，该第二获取单元用于对于该目标信号的任一信号分量，获取该任一信号分量在至少一帧中的混合系数的平均值，将该平均值作为该任一个信号分量的混合系数。

在一种可能实现方式中，该至少两个信号分量中任一信号分量的该方差信息包括该信号分量在任一频点对应的方差，以及该信号分量在任一帧中对应的方差权重。

在一种可能实现方式中，该分离参数为至少一个分离矩阵；

该更新模块1104用于：

根据上一次迭代得到的至少一个目标信号、该至少一个目标信号中至少一帧的至少两个信号分量的混合系数、该至少一个目标信号的该至少两个分量的该方差信息，对该至少一个分离矩阵的权重矩阵进行更新；

根据更新后的权重矩阵，对该至少一个分离矩阵进行更新。

在一种可能实现方式中，该确定模块1102用于随机从预设的至少两个形状参数中选择该至少一个目标信号对应的形状参数。

在一种可能实现方式中，该更新模块1104用于：

响应于不符合该目标条件，对该形状参数和该分离参数进行更新；

基于更新的形状参数和分离参数，重复执行该信号分离、获取概率密度分布和确定独立性的步骤，直至符合该目标条件，停止更新步骤。

在一种可能实现方式中，该目标条件为该独立性收敛，或该目标条件为该独立性与上一次迭代得到的独立性的差值小于目标差值，或该目标条件为迭代次数达到目标次数。

在一种可能实现方式中，该至少一个目标信号为至少一个目标频域信号；

该分离模块1101用于：

对语音信号进行短时傅里叶变换，得到该语音信号的频域信号；

基于该分离参数，对该频域信号进行分离，得到该至少一个目标频域信号；

该更新模块1104用于：

根据该概率密度分布和该分离参数确定的该至少一个目标信号之间的独立性，对该形状参数和该分离参数进行更新，直至该独立性符合目标条件时停止，得到基于更新后的该分离参数分离得到的至少一个目标频域信号；

对该至少一个目标频域信号进行短时傅里叶逆变换，得到该至少一个目标语音信号。

本申请实施例提供的装置，以形状参数来对应不同的概率分布，同时提供了多种概率分布以供选择，对语音信号进行处理时能够根据形状参数灵活地选择对应的概率分布，进而确定出使得目标信号彼此独立的分离参数对语音信号进行分离，这样能够适应包括多个不同声源的声学场景，在多变的多声源混合的场景中也能够准确地分离出各个声源的目标语音信号，因而，上述方法的准确性好，适应性好。

需要说明的是：上述实施例提供的语音信号处理装置在处理语音信号时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将语音信号处理装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音信号处理装置与语音信号处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述方法实施例中的电子设备可以实现为终端。例如，图12是本申请实施例提供的一种终端的结构框图。该终端1200可以是：智能手机、平板电脑、MP3(Moving PictureExperts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(MovingPicture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端1200还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1200包括有：一个或多个处理器1201和一个或多个存储器1202。

处理器1201可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1201可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1201也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1201可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1201还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1202可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器1202还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1202中的非暂态的计算机可读存储介质用于存储至少一条程序代码，该至少一条程序代码用于被处理器1201所执行以实现本申请中方法实施例提供的语音信号处理方法。

在一些实施例中，终端1200还可选包括有：***设备接口1203和至少一个***设备。处理器1201、存储器1202和***设备接口1203之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口1203相连。具体地，***设备包括：射频电路1204、显示屏1205、摄像头组件1206、音频电路1207、定位组件1208和电源1209中的至少一种。

***设备接口1203可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器1201和存储器1202。在一些实施例中，处理器1201、存储器1202和***设备接口1203被集成在同一芯片或电路板上；在一些其他实施例中，处理器1201、存储器1202和***设备接口1203中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1204用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1204通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1204将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1204包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1204可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1204还可以包括NFC(Near Field Communication，小距离无线通信)有关的电路，本申请对此不加以限定。

显示屏1205用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1205是触摸显示屏时，显示屏1205还具有采集在显示屏1205的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1201进行处理。此时，显示屏1205还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏1205可以为一个，设置终端1200的前面板；在另一些实施例中，显示屏1205可以为至少两个，分别设置在终端1200的不同表面或呈折叠设计；在另一些实施例中，显示屏1205可以是柔性显示屏，设置在终端1200的弯曲表面上或折叠面上。甚至，显示屏1205还可以设置成非矩形的不规则图形，也即异形屏。显示屏1205可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件1206用于采集图像或视频。可选地，摄像头组件1206包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件1206还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1207可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1201进行处理，或者输入至射频电路1204以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1200的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1201或射频电路1204的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1207还可以包括耳机插孔。

定位组件1208用于定位终端1200的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件1208可以是基于美国的GPS(GlobalPositioning System，全球定位***)、中国的北斗***或俄罗斯的伽利略***的定位组件。

电源1209用于为终端1200中的各个组件进行供电。电源1209可以是交流电、直流电、一次性电池或可充电电池。当电源1209包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端1200还包括有一个或多个传感器1210。该一个或多个传感器1210包括但不限于：加速度传感器1211、陀螺仪传感器1212、压力传感器1213、指纹传感器1214、光学传感器1215以及接小传感器1216。

加速度传感器1211可以检测以终端1200建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1211可以用于检测重力加速度在三个坐标轴上的分量。处理器1201可以根据加速度传感器1211采集的重力加速度信号，控制显示屏1205以横向视图或纵向视图进行用户界面的显示。加速度传感器1211还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1212可以检测终端1200的机体方向及转动角度，陀螺仪传感器1212可以与加速度传感器1211协同采集用户对终端1200的3D动作。处理器1201根据陀螺仪传感器1212采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1213可以设置在终端1200的侧边框和/或显示屏1205的下层。当压力传感器1213设置在终端1200的侧边框时，可以检测用户对终端1200的握持信号，由处理器1201根据压力传感器1213采集的握持信号进行左右手识别或快捷操作。当压力传感器1213设置在显示屏1205的下层时，由处理器1201根据用户对显示屏1205的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器1214用于采集用户的指纹，由处理器1201根据指纹传感器1214采集到的指纹识别用户的身份，或者，由指纹传感器1214根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器1201授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器1214可以被设置终端1200的正面、背面或侧面。当终端1200上设置有物理按键或厂商Logo时，指纹传感器1214可以与物理按键或厂商Logo集成在一起。

光学传感器1215用于采集环境光强度。在一个实施例中，处理器1201可以根据光学传感器1215采集的环境光强度，控制显示屏1205的显示亮度。具体地，当环境光强度较高时，调高显示屏1205的显示亮度；当环境光强度较低时，调低显示屏1205的显示亮度。在另一个实施例中，处理器1201还可以根据光学传感器1215采集的环境光强度，动态调整摄像头组件1206的拍摄参数。

接小传感器1216，也称距离传感器，通常设置在终端1200的前面板。接小传感器1216用于采集用户与终端1200的正面之间的距离。在一个实施例中，当接小传感器1216检测到用户与终端1200的正面之间的距离逐渐变小时，由处理器1201控制显示屏1205从亮屏状态切换为息屏状态；当接小传感器1216检测到用户与终端1200的正面之间的距离逐渐变大时，由处理器1201控制显示屏1205从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图12中示出的结构并不构成对终端1200的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

上述方法实施例中的电子设备可以实现为服务器。例如，图13是本申请实施例提供的一种服务器的结构示意图，该服务器1300可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)1301和一个或一个以上的存储器1302，其中，该存储器1302中存储有至少一条程序代码，该至少一条程序代码由该处理器1301加载并执行以实现上述各个方法实施例提供的语音信号处理方法。当然，该服务器还可以具有有线或无线网络接口以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括至少一条程序代码的存储器，上述至少一条程序代码由可由处理器执行以完成上述实施例中的语音信号处理方法。例如，计算机可读存储介质可以是只读存储器(Read-Only Memory，简称：ROM)、随机存取存储器(Random Access Memory，简称：RAM)、只读光盘(Compact Disc Read-OnlyMemory，简称：CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，该计算机程序产品或该计算机程序包括一条或多条程序代码，该一条或多条程序代码存储在计算机可读存储介质中。计算机设备的一个或多个处理器能够从计算机可读存储介质中读取该一条或多条程序代码，该一个或多个处理器执行该一条或多条程序代码，使得计算机设备能够执行上述实施例所示的语音信号处理方法。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其它信息确定B。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上描述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音信号处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述至少一个目标信号对应的形状参数，获取所述至少一个目标信号的概率密度分布，包括：

对于一个目标信号，获取所述目标信号中至少一帧的至少两个信号分量的混合系数；

根据所述目标信号中至少一帧的至少两个信号分量的混合系数，获取所述目标信号的至少两个信号分量的混合系数以及方差信息；

根据所述至少两个信号分量的方差信息，获取所述至少两个信号分量的概率密度分布；

根据所述目标信号的至少两个信号分量的混合系数，对所述至少两个信号分量进行的概率密度分布进行加权，得到所述目标信号的概率密度分布。

3.根据权利要求2所述的方法，其特征在于，所述获取所述目标信号中至少一帧的至少两个信号分量的混合系数，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述目标信号中至少一帧的至少两个信号分量的混合系数，获取所述目标信号的至少两个信号分量的混合系数，包括：

对于所述目标信号的任一信号分量，获取所述任一信号分量在至少一帧中的混合系数的平均值，将所述平均值作为所述任一个信号分量的混合系数。

5.根据权利要求2所述的方法，其特征在于，所述至少两个信号分量中任一信号分量的所述方差信息包括所述信号分量在任一频点对应的方差，以及所述信号分量在任一帧中对应的方差权重。

6.根据权利要求2所述的方法，其特征在于，所述分离参数为至少一个分离矩阵；

所述分离参数的更新过程包括：

7.根据权利要求1所述的方法，其特征在于，所述分别为所述至少一个目标信号确定对应的形状参数，包括：

随机从预设的至少两个形状参数中选择所述至少一个目标信号对应的形状参数。

8.根据权利要求1所述的方法，其特征在于，所述根据所述独立性，对所述形状参数和所述分离参数进行更新，包括：

9.根据权利要求1所述的方法，其特征在于，所述目标条件为所述独立性收敛，或所述目标条件为所述独立性与上一次迭代得到的独立性的差值小于目标差值，或所述目标条件为迭代次数达到目标次数。

10.根据权利要求1所述的方法，其特征在于，所述至少一个目标信号为至少一个目标频域信号；

所述基于分离参数，对语音信号进行分离，得到至少一个目标信号，包括：

所述根据所述概率密度分布和所述分离参数确定的所述至少一个目标信号之间的独立性，对所述形状参数和所述分离参数进行更新，直至所述独立性符合目标条件时停止，得到基于更新后的所述分离参数分离得到的至少一个目标语音信号，包括：

11.一种语音信号处理装置，其特征在于，所述装置包括：

12.根据权利要求11所述的装置，其特征在于，所述获取模块包括第一获取单元、第二获取单元、第三获取单元和加权单元；

13.根据权利要求11所述的装置，其特征在于，所述更新模块用于：

14.一种电子设备，其特征在于，所述电子设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述至少一条程序代码由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求10任一项所述的语音信号处理方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现如权利要求1至权利要求10任一项所述的语音信号处理方法。