CN115910037A

CN115910037A - 语音信号的提取方法、装置、可读存储介质及电子设备

Info

Publication number: CN115910037A
Application number: CN202211179551.XA
Authority: CN
Inventors: 宫一尘; 李文鹏
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2022-09-27
Filing date: 2022-09-27
Publication date: 2023-04-04

Abstract

本公开实施例公开了一种语音信号的提取方法、装置、计算机可读存储介质及电子设备，其中，该方法包括：获取在目标区域内采集的单通道混合音频信号和图像序列单通道混合音频信号；基于图像序列，确定目标区域内的目标用户；基于图像序列，确定目标用户的唇部区域图像序列；基于唇部区域图像序列，确定唇部状态特征数据；基于单通道混合音频信号，确定音频特征数据；对唇部状态特征数据和音频特征数据进行融合，得到融合特征数据；基于融合特征数据，从单通道混合音频信号中提取目标用户的语音信号。本公开实施例可以有效提高提取目标用户的语音信号的准确性，降低了语音分离的延迟时间，提高了该方法的可扩展性。

Description

语音信号的提取方法、装置、可读存储介质及电子设备

技术领域

本公开涉及计算机技术领域，尤其是一种语音信号的提取方法、装置、计算机可读存储介质及电子设备。

背景技术

用于目标说话人声提取的语音分离技术是指从多人同时说话的混合语音信号中分离出目标说话人的语音。作为语音识别的前端技术，语音分离一直是人机交互中的关键技术之一。

根据干扰源的不同，语音分离任务可以分为三类：当干扰源为噪声信号时，可以称为“语音增强”(Speech Enhancement)；当干扰源为其他说话人的声音时，可以称为“多说话人分离”(Speaker Separation)；当干扰为目标说话人自己声音的反射波时，可以称为“解混响”(De-reverberation)。

由于麦克风采集到的声音中可能包括噪声、其他人说话的声音、混响等干扰，不做语音分离、直接进行识别的话，会影响到识别的准确率。因此在语音识别的前端加上语音分离技术，把目标说话人的声音和其它干扰分开就可以提高语音识别***的鲁棒性，这从而也成为现代语音识别***中不可或缺的一环。

现有的语音分离方法包括传统信号处理方法和基于深度学习的方法，根据传感器或麦克风的数量，又可以分为单通道方法(单个麦克风)和多通道方法(多个麦克风)。单通道语音分离的两个传统方法包括语音增强和计算听觉场景分析(CASA，ComputationalAuditory Scene Analysis)。多通道语音分离的两个传统方法包括波束成形方法和盲源分离(BSS，Blind Signal/Source Separation)方法。

现有的单通道传统语音分离方法由于缺少其他通道信号的参考，分离效果有待提高，多通道语音分离方法由于需要多个麦克风，造成成本较高，数据处理量大，使用场景限制较大。

现有的基于深度学习语音分离方法，通常只使用音频特征数据，造成语音分离的准确性较低。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种语音信号的提取方法、装置、计算机可读存储介质及电子设备。

本公开的实施例提供了一种语音信号的提取方法，该方法包括：获取在目标区域内采集的单通道混合音频信号和图像序列单通道混合音频信号；基于图像序列，确定目标区域内的目标用户；基于图像序列，确定目标用户的唇部区域图像序列；基于唇部区域图像序列，确定唇部状态特征数据；基于单通道混合音频信号，确定音频特征数据；对唇部状态特征数据和音频特征数据进行融合，得到融合特征数据；基于融合特征数据，从单通道混合音频信号中提取目标用户的语音信号。

根据本公开实施例的另一个方面，提供了一种语音信号的提取装置，该装置包括：获取模块，用于获取在目标区域内采集的单通道混合音频信号和图像序列单通道混合音频信号；第一确定模块，用于基于图像序列，确定目标区域内的目标用户；第二确定模块，用于基于图像序列，确定目标用户的唇部区域图像序列；第三确定模块，用于基于唇部区域图像序列，确定唇部状态特征数据；第四确定模块，用于基于单通道混合音频信号，确定音频特征数据；融合模块，用于对唇部状态特征数据和音频特征数据进行融合，得到融合特征数据；提取模块，用于基于融合特征数据，从单通道混合音频信号中提取目标用户的语音信号。

根据本公开实施例的另一个方面，提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序用于被处理器执行以实现执行上述语音信号的提取方法。

根据本公开实施例的另一个方面，提供了一种电子设备，电子设备包括：处理器；用于存储处理器可执行指令的存储器；处理器，用于从存储器中读取可执行指令，并执行指令以实现上述语音信号的提取方法。

基于本公开上述实施例提供的语音信号的提取方法、装置、计算机可读存储介质及电子设备，通过获取在目标区域内采集的单通道混合音频信号和目标用户的唇部区域图像序列，然后基于唇部区域图像序列，确定唇部状态特征数据，以及基于单通道混合音频信号，确定音频特征数据，接着对唇部状态特征数据和音频特征数据进行融合，得到融合特征数据，最后基于融合特征数据，从单通道混合音频信号中提取目标用户的语音信号，从而实现了将音频信号和唇部图像相结合的多模态语音分离，语音分离所利用的特征数据更加丰富，相比于只靠单模态的音频信号进行语音分离的方法，本公开实施例提供的多模态语音分离的方法，提取的目标用户的语音信号的准确性更高。此外，由于只需使用单麦克风采集音频信号，因此可以降低硬件成本，同时降低数据处理量。传统的针对单通道混合音频信号的语音分离方法，其使用的算法较复杂，在计算时需要一定的收敛时间，造成语音分离的延迟时间较长，本公开实施例提供的方法，由于结合了唇部图像特征数据，不需使用传统的语音分离算法，从而有效降低了语音分离的延迟时间。此外，在多人场景下，只需获得不同用户的唇部图像序列，针对不同的唇部图像序列分别执行本申请实施例提供的方法，即可实现对多人的语音信号提取，从而有效提高了该方法的可扩展性。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开所适用的***图。

图2是本公开一示例性实施例提供的语音信号的提取方法的流程示意图。

图3是本公开另一示例性实施例提供的语音信号的提取方法的流程示意图。

图4是本公开另一示例性实施例提供的第一神经网络模型的结构示意图。

图5是本公开另一示例性实施例提供的语音信号的提取方法的流程示意图。

图6是本公开另一示例性实施例提供的语音信号的提取方法的流程示意图。

图7是本公开另一示例性实施例提供的语音信号的提取方法的流程示意图。

图8是本公开另一示例性实施例提供的语音信号的提取方法的流程示意图。

图9是本公开另一示例性实施例提供的语音信号的提取方法的流程示意图。

图10是本公开另一示例性实施例提供的语音信号的提取方法的流程示意图。

图11是本公开一示例性实施例提供的一个生成融合特征数据的示例性示意图。

图12是本公开一示例性实施例提供的语音信号的提取装置的结构示意图。

图13是本公开另一示例性实施例提供的语音信号的提取装置的结构示意图。

图14是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机***、服务器等电子设备，其可与众多其它通用或专用计算***环境或配置一起操作。适于与终端设备、计算机***、服务器等电子设备一起使用的众所周知的终端设备、计算***、环境和/或配置的例子包括但不限于：个人计算机***、服务器计算机***、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的***、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机***、大型计算机***和包括上述任何***的分布式云计算技术环境，等等。

终端设备、计算机***、服务器等电子设备可以在由计算机***执行的计算机***可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机***/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算***存储介质上。

申请概述

单通道语音分离的两个传统方法是语音增强和计算听觉场景分析。语音增强方法需要分析语音和噪声的全部数据，然后经过带噪语音的噪声估计，进而对清晰语音进行估计。最简单以及应用最广泛的增强方法是频谱相减法，其中估计噪声的功率谱会从带噪语音中删去。为了估计背景噪声，语音增强技术一般假定背景噪音是稳定的，也就是说，其频谱特性不会随时间变化，或者至少比语音稳定一些。

计算听觉场景分析建立在听觉场景分析的感知理论基础上，利用聚类约束(grouping cue)如基音频率(pitch)和起音(onset)。例如，tandem算法通过交换pitch估计和基于pitch的聚类进行语音分离。

上述两种算法由于是建立在一定的场景限制下的，因此，语音分离效果不佳。

基于多个麦克风组成的阵列的语音分离方法，比如波束成形，又称空间滤波器，通过恰当的阵列结构增强从特定的方向到达的信号，进而削减来自其它方向的干扰。最简单的波束成形是一种延迟-叠加技术，能将来自目标方向的多个麦克风的信号以相同的相位相加，并根据相位差削减来自其它方向的信号。噪声的削减量取决于阵列的间隔、尺寸和结构，通常随着麦克风数量和阵列长度的增加，削减量也会增加。显然，当目标源和干扰源位置靠近的时候，空间滤波器是无法应用的。此外，在回声场景中，波束成形的效用大幅降低，对声源方向的判定变得模糊不清。

另一种多通道的传统分离技术是盲信号分离(BSS，Blind Signal/SourceSeparation)，其含义是在不知道源信号及信号混合参数的情况下，仅根据观测到的混合信号估计源信号。独立分量分析(ICA，Independent Component Analysis)是为了解决盲信号分离问题而逐渐发展起来的一种新技术。

上述传统的单通道语音分离方法的效果不好，而传统的多通道语音分离方法需要较多的麦克风，成本较高，数据处理量大，且存在欠定和超定场景，使用场景限制较大。现有的基于深度学习语音分离方法，通常只使用音频特征数据，造成语音分离的准确性较低。

本公开实施例旨在解决上述技术问题，通过采用深度学习的方法，将单通道混合音频信号和目标用户的唇部图像序列相结合进行语音分离，从而大大提高语音分离的准确性和效率。

示例性***

图1示出了可以应用本公开的实施例的语音信号的提取方法或语音信号的提取装置的示例性***架构100。

如图1所示，***架构100可以包括终端设备101，网络102、服务器103、麦克风104和相机105。网络102用于在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101通过网络102与服务器103交互，以接收或发送消息等。终端设备101上可以安装有各种应用，例如语音识别应用、图像识别应用、搜索类应用等。

麦克风104和相机105用于采集单通道混合音频信号和目标用户的图像。麦克风104和相机105可以与终端设备101直接连接，也可以通过网络102与终端设备101连接，麦克风104和相机105也可以通过网络102与服务器103连接。

终端设备101可以是各种电子设备，包括但不限于诸如车载终端、移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、等等的移动终端以及诸如数字TV、台式计算机、智能家电等等的固定终端。

服务器103可以是提供各种服务的服务器，例如对终端设备101上传的音频信号、图像等进行处理的后台服务器。后台服务器可以利用接收的单通道混合音频信号和图像序列进行语音分离，获得目标用户的语音信号。

需要说明的是，本公开的实施例所提供的语音信号的提取方法可以由服务器103执行，也可以由终端设备101执行，相应地，语音信号的提取装置可以设置于服务器103中，也可以设置于终端设备101中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。在单通道混合音频信号和图像序列不需要从远程获取的情况下，上述***架构可以不包括网络，只包括服务器或终端设备。

示例性方法

图2是本公开一示例性实施例提供的语音信号的提取方法的流程示意图。本实施例可应用在电子设备(如图1所示的终端设备101或服务器103)上，如图2所示，该方法包括如下步骤：

步骤201，获取在目标区域内采集的单通道混合音频信号和图像序列。

在本实施例中，目标区域可以是设置有麦克风和相机的空间区域，目标区域的类型可以包括但不限于车辆内部、房间内部等。单通道混合音频信号可以是由单个麦克风采集的音频信号，该音频信号可以包括至少一个用户的语音信号和噪声信号等。图像序列可以是相机对目标区域内的用户拍摄的图像。应当理解，本实施例中的单通道混合音频信号和图像序列是在相同时长(例如1秒)内同步采集的。

步骤202，基于图像序列，确定目标区域内的目标用户。

可选的，相机可以对某个特定区域(例如车辆内的驾驶位、副驾驶位等)内的某个单独的用户拍摄，若电子设备从拍摄的图像序列中识别出该用户，则确定该用户为目标用户。

相机也可以对多个用户拍摄，从拍摄的图像序列中识别出多个用户，电子设备将其中一个用户确定为当前执行该方法所针对的目标用户。例如，可以从识别出的多个用户中，确定位于指定的图像中央区域的用户为目标用户；或者，可以将每个用户均确定为目标用户，对于每个目标用户，均执行一次该方法；或者，可以根据预设的用户特征数据(例如脸部特征数据)，从图像序列中识别出与该用户特征数据匹配的用户，将该用户确定为目标用户。

步骤203，基于图像序列，确定目标用户的唇部区域图像序列。

具体地，图像序列中的图像可以包括目标用户的唇部区域，电子设备可以基于唇部图像检测方法(例如基于人脸关键点检测方法确定唇部区域图像)，从图像序列中包括的图像中分别提取唇部区域图像，得到唇部区域图像序列。

通常，可以将从图像序列中提取的唇部区域图像的尺寸调整为固定尺寸(例如96×96)，得到统一尺寸的唇部区域图像序列。

步骤204，基于唇部区域图像序列，确定唇部状态特征数据。

其中，唇部状态特征数据用于表征口型的变化特征。通常，电子设备可以识别唇部区域图像序列中的每个唇部区域图像的唇部外形特征数据(例如，包括嘴角之间的距离、上下嘴唇之间的距离等)，将各个唇部区域图像的唇部外形特征数据合并为唇部状态特征数据。应当理解，基于唇部区域图像序列，确定唇部状态特征数据的方法可以采用诸如唇语识别等方法确定唇部状态特征数据，这里不再赘述。

步骤205，基于单通道混合音频信号，确定音频特征数据。

可选的，电子设备可以基于神经网络的方法，确定音频特征数据。例如，神经网络可以包括但不限于RNN(循环神经网络，Recurrent Neural Network)、LSTM(长短期记忆网络，Long Short-Term Memory)、UNet(U型网络)、Complex UNet等，以及基于自注意力机制及跨域注意力机制的Transformer架构。

步骤206，对唇部状态特征数据和音频特征数据进行融合，得到融合特征数据。

其中，对唇部状态特征数据和音频特征数据进行融合可以通过各种方法实现，例如concat特征融合方法，elemwise_add特征融合方法，单门控(gate)特征融合方法，attention(注意力)特征融合方法等。

步骤207，基于融合特征数据，从单通道混合音频信号中提取目标用户的语音信号。

可选的，可以采用神经网络对融合特征数据进行解码，得到掩码数据，将掩码数据与单通道混合音频信号的频域信号(例如对单通道混合音频信号进行短时傅里叶变换得到)相乘，得到表示目标用户的语音信号的特征数据，然后对表示目标用户的语音信号的特征数据进行诸如逆傅里叶变换等处理，得到时域的语音信号。

本公开的上述实施例提供的方法，通过获取在目标区域内采集的单通道混合音频信号和目标用户的唇部区域图像序列，然后基于唇部区域图像序列，确定唇部状态特征数据，以及基于单通道混合音频信号，确定音频特征数据，接着对唇部状态特征数据和音频特征数据进行融合，得到融合特征数据，最后基于融合特征数据，从单通道混合音频信号中提取目标用户的语音信号，从而实现了将音频信号和唇部图像相结合的多模态语音分离，语音分离所利用的特征数据更加丰富，相比于只靠单模态的音频信号进行语音分离的方法，本公开实施例提供的多模态语音分离的方法，提取的目标用户的语音信号的准确性更高。此外，由于只需使用单麦克风采集音频信号，因此可以降低硬件成本，同时降低数据处理量。传统的针对单通道混合音频信号的语音分离方法，其使用的算法较复杂，在计算时需要一定的收敛时间，造成语音分离的延迟时间较长，本公开实施例提供的方法，由于结合了唇部图像特征数据，不需使用传统的语音分离算法，从而有效降低了语音分离的延迟时间。此外，在多人场景下，只需获得不同用户的唇部图像序列，针对不同的唇部图像序列分别执行本申请实施例提供的方法，即可实现对多人的语音信号提取，从而有效提高了该方法的可扩展性。

在一些可选的实现方式中，如图3所示，步骤205包括：

步骤2051，对单通道混合音频信号进行预处理，得到待编码数据。

其中，预处理方法可以包括将时域的单通道混合音频信号转换到频域，对频域信号进行压缩等方法。

步骤2052，利用预先训练的第一神经网络模型的下采样模块对待编码数据进行编码，得到音频特征数据。

其中，第一神经网络模型可以是UNet网络，UNet网络的结构示意图如图4所示，401为下采样模块，即UNet网络的左半部分。下采样模块可以对待编码数据进行一系列地卷积、池化等操作，将大尺度的数据转换为小尺度的数据，如图4中的403即为音频特征数据。

如图3所示，步骤207包括：

步骤2071，利用第一神经网络模型的上采样模块，对融合特征数据进行解码，得到掩码数据。

如图4所示，402为上采样模块，即UNet网络的右半部分。音频特征数据403和唇部状态特征数据404融合后，将融合特征数据405输入上采样模块402，上采样模块402可以将小尺度的融合特征数据的尺度还原为大尺度的掩码数据。

步骤2072，基于掩码数据，从单通道混合音频信号中提取目标用户的语音信号。

掩码数据用于对单通道混合音频信号的频域信号(例如对单通道混合音频信号进行短时傅里叶变换得到)进行筛选，得到目标用户的语音信号的频域信号。可选的，掩码数据可以与上述单通道混合音频信号的频域信号直接相乘，得到目标用户的语音信号的频域信号；或先利用tanh等激活函数对掩码数据进行归一化，再利用归一化的掩码数据与上述单通道混合音频信号的频域信号相乘，得到目标用户的语音信号的频域信号。然后，对目标用户的语音信号的频域信号进行诸如逆傅里叶变换等处理，得到时域的语音信号。

第一神经网络模型可以利用机器学习方法训练得到。具体地，可以预先获取训练样本，训练样本包括样本待编码数据和样本唇部状态特征数据，还包括标注掩码数据。可以将样本待编码数据作为下采样模块的输入，并将下采样模块输出的音频特征数据与样本唇部状态特征数据进行融合，得到融合特征数据。再将融合特征数据输入上采样模块，将与输入的样本待编码数据对应的标注掩码数据作为上采样模块的期望输出，对初始第一神经网络模型进行训练，针对每次训练输入的待编码数据和样本唇部状态特征数据，可以得到实际输出。其中，实际输出是初始第一神经网络模型实际输出的掩码数据。然后，可以采用梯度下降法和反向传播法，基于实际输出和期望输出，调整初始第一神经网络模型的参数，将每次调整参数后得到的模型作为下次训练的初始第一神经网络模型，并在满足预设的训练结束条件(例如基于预设损失函数计算的损失值收敛，或训练次数超过预设次数等)的情况下，结束训练，从而训练得到第一神经网络模型。

本实施例通过对单通道混合音频信号进行预处理，得到待编码数据，并采用第一神经网络模型的下采样模块和上采样模块分别进行编解码，由于第一神经网络模型通常为UNet网络，且UNet网络通常用于语义分割，因此，本实施例采用第一神经网络模型有助于从音频特征数据中准确地分割出目标用户的语音信号的特征数据，从而有效提高了提取目标用户的语音信号的准确性。

在一些可选的实现方式中，如图5所示，步骤2051包括：

20511，对单通道混合音频信号进行频域转换，得到频域数据。

具体地，对单通道混合音频信号进行频域转换的方法可以利用各种手段实现，例如STFT(短时傅里叶变换，Short-Time Fourier Transform)、DFT(离散傅里叶变换，Discrete Fourier Transform)等。

20512，对频域数据进行压缩，得到待编码数据。

对频域数据进行压缩的目的是缩小频域数据的数值范围。对频域数据进行压缩的方法可以基于各种方式实现，例如，可以采用指数压缩方法，即计算频域数据包括的所有数值取预设次(例如0.3)方。

本实施例通过对时域的单通道混合音频信号进行频域转换，再对频域数据进行压缩，得到待编码数据，可以缩小频域数据的数值范围，降低神经网络的数据处理难度，进而提高提取目标用户的语音信号的效率。

在一些可选的实现方式中，如图6所示，步骤206包括：

步骤2061，将音频特征数据和唇部状态特征数据合并，得到合并特征数据。

具体地，将音频特征数据和唇部状态特征数据合并的方法可以采用各种手段实现。例如，可以将音频特征数据和唇部状态特征数据分别包括的各通道直接合并；也可以利用诸如concat特征融合方法等将音频特征数据和唇部状态特征数据合并。

步骤2062，对音频特征数据和合并特征数据进行融合，生成第一融合特征数据。

可选的，对音频特征数据和合并特征数据进行融合的方法可以包括但不限于：elemwise_add特征融合方法，单门控(gate)特征融合方法，attention(注意力)特征融合方法等。

步骤2063，对唇部状态特征数据和合并特征数据进行融合，生成第二融合特征数据。

可选的，对唇部状态特征数据和合并特征数据进行融合的方法也可以包括但不限于：elemwise_add特征融合方法，单门控(gate)特征融合方法，attention(注意力)特征融合方法等。

步骤2064，将第一融合特征数据和第二融合特征数据合并为融合特征数据。

具体地，将第一融合特征数据和第二融合特征数据合并的方法可以采用各种手段实现。例如，可以将第一融合特征数据和第二融合特征数据分别包括的各通道直接合并；也可以利用诸如concat特征融合方法等将第一融合特征数据和第二融合特征数据合并。

本实施例基于音频特征数据和唇部状态特征数据，采用多次合并、融合的方式，实现了分别针对音频特征数据和唇部状态特征数据进行更充分地特征融合，有助于使融合特征数据表达更丰富的音频特征和视觉特征，提高提取目标用户的语音信号的准确性。在唇部遮挡等场景下，由于充分融合了两种特征数据，可以有效降低语音信号提取的错误率。

在一些可选的实现方式中，如图7所示，步骤2062包括：

步骤20621，利用预先训练的第二神经网络模型包括的第一卷积层和第一激活函数，对合并特征数据进行第一卷积处理，得到第一特征数据。

其中，第二神经网络模型可以是与上述可选实施例中描述的第一神经网络并列的神经网络模型，也可以包含在上述第一神经网络模型中，即第二神经网络模型作为第一神经网络模型的融合模块。在训练时，可以利用同样的训练样本对第一神经网络模型和第二神经网络模型进行联合训练。

上述第一激活函数用于将第一卷积层输出的数据进行归一化处理，使第一特征数据的数值范围处于0-1之间。可选的，第一激活函数可以为tanh激活函数。

步骤20622，利用第二神经网络模型包括的第二卷积层和第二激活函数，对合并特征数据进行第二卷积处理，得到第一权重数据。

可选的，第二激活函数可以为sigmoid激活函数。

步骤20623，基于第一特征数据和第一权重数据，生成第二特征数据。

通常，可以将第一特征数据和第一权重数据进行逐元素相乘(elemwise_mul)，得到第二特征数据。可选的，也可以将第一特征数据和第一权重数据进行逐元素相乘后，再对每个相乘后的值添加相应的偏置，得到第二特征数据。

步骤20624，基于音频特征数据和第二特征数据，生成第一融合特征数据。

可选的，可以利用逐元素相加(elemwise_add)方法、concat融合方法等，将音频特征数据直接与第二特征数据融合得到第一融合特征数据。

本实施例通过对合并特征数据进行两次卷积处理，并根据两次卷积处理的结果生成第二特征数据，可以从合并特征数据中提取表示音频特征数据和唇部状态特征数据的具有更多共性的特征，再与音频特征数据结合，得到的第一融合特征数据可以同时表达音频的特征，以及音频和唇部状态的共性特征，从而有助于更准确地从单通道混合音频信号中提取目标用户的语音信号。

在一些可选的实现方式中，如图8所示，步骤20624包括：

步骤206241，利用第二神经网络模型包括的第三卷积层和第三激活函数，对合并特征数据进行第三卷积处理，得到第二权重数据。

可选的，第三激活函数可以为sigmoid激活函数。

步骤206242，基于音频特征数据和第二权重数据，生成第三特征数据。

具体地，本步骤生成第三特征数据的方法可以与上述步骤20623中生成第二特征数据的方法相同。例如将音频特征数据与第二权重数据逐元素相乘，得到第三特征数据。

步骤206243，基于第三特征数据和第二特征数据，生成第一融合特征数据。

可选的，可以利用逐元素相加(elemwise_add)方法、concat融合方法等，将第三特征数据和第二特征数据融合得到第一融合特征数据。

本实施例通过对合并特征数据进行卷积，得到第二权重数据，基于音频特征数据和合并特征数据得到第三特征数据，将第三特征数据和第二特征数据融合，得到第一融合特征数据，由于第三特征数据是由音频特征数据和合并特征数据结合得到的，第三特征数据可以在主要表示音频特征的基础上还可以表示音频和唇部状态的共性特征，从而使得到的第一融合特征数据在将音频特征作为主要表示的特征的基础上，充分融合唇部状态特征，有助于使最终得到的融合特征数据表示的特征更丰富且更有针对性，提高提取目标用户的语音信号的准确性。

在一些可选的实现方式中，如图9所示，步骤2063包括：

步骤20631，利用第二神经网络模型包括的第四卷积层和第四激活函数，对合并特征数据进行第四卷积处理，得到第四特征数据。

步骤20632，利用第二神经网络模型包括的第五卷积层和第五激活函数，对合并特征数据进行第五卷积处理，得到第三权重数据。

步骤20633，基于第四特征数据和第三权重数据，生成第五特征数据。

步骤20634，基于唇部状态特征数据和第五特征数据，生成第二融合特征数据。

需要说明的是，本实施例包含的步骤与上述图7对应实施例描述的步骤，处理过程和使用的网络结构基本相同，区别在于两者处理的数据不同。

本实施例通过对合并特征数据进行两次卷积处理，并根据两次卷积处理的结果生成第五特征数据，可以从合并特征数据中提取表示音频特征数据和唇部状态特征数据的具有更多共性的特征，再与唇部状态特征数据结合，得到的第二融合特征数据可以同时表达唇部状态的特征，以及音频和唇部状态的共性特征，从而有助于更准确地从单通道混合音频信号中提取目标用户的语音信号。

在一些可选的实现方式中，如图10所示，步骤20634包括：

步骤206341，利用第二神经网络模型包括的第六卷积层和第六激活函数，对合并特征数据进行第六卷积处理，得到第四权重数据。

步骤206342，基于唇部状态特征数据和第四权重数据，生成第六特征数据。

步骤206343，基于第六特征数据和第五特征数据，生成第二融合特征数据。

需要说明的是，本实施例包含的步骤与上述图8对应实施例描述的步骤，处理过程和使用的网络结构基本相同，区别在于两者处理的数据不同。

本实施例通过对合并特征数据进行卷积，得到第四权重数据，基于唇部状态特征数据和合并特征数据得到第六特征数据，将第六特征数据和第五特征数据融合，得到第二融合特征数据，由于第六特征数据是由音频特征数据和合并特征数据结合得到的，第六特征数据可以在主要表示唇部状态特征数据的基础上还可以表示音频和唇部状态的共性特征，从而使得到的第二融合特征数据在将唇部状态特征数据为主要表示的特征的基础上，充分融合音频特征，有助于使最终得到的融合特征数据表示的特征更丰富且更有针对性，提高提取目标用户的语音信号的准确性。

参见图11，图11是根据本实施例的语音信号的提取方法的一个生成融合特征数据的示例性示意图。如图11所示，合并特征数据经过第一卷积层和第一激活函数1101(例如tanh激活函数)，生成第一特征数据；合并特征数据经过第二卷积层和第二激活函数1102(例如sigmoid激活函数)，生成第一权重数据。第一特征数据和第一权重数据经过逐元素相乘1103，生成第二特征数据。合并特征数据经过第三卷积层和第三激活函数1104(例如sigmoid激活函数)，生成第二权重数据；音频特征数据再与第二权重数据经过逐元素相乘1105，生成第三特征数据。第三特征数据和第二特征数据经过elemwise_add方法1106融合生成第一融合特征数据。

合并特征数据经过第四卷积层和第四激活函数1107(例如tanh激活函数)，生成第四特征数据；合并特征数据经过第五卷积层和第五激活函数1108(例如sigmoid激活函数)，生成第三权重数据。第四特征数据和第三权重数据经过逐元素相乘1109，生成第五特征数据。合并特征数据经过第六卷积层和第六激活函数1110(例如sigmoid激活函数)，生成第四权重数据；唇部状态特征数据再与第四权重数据经过逐元素相乘1111，生成第六特征数据。第六特征数据和第五特征数据经过elemwise_add方法1112融合生成第二融合特征数据。

第一融合特征数据和第二融合特征数据合并，生成融合特征数据。

图11所示的生成融合特征数据的方法，又可称为双门控(dual gate)方法，该方法将音频特征数据作为主特征数据，将唇部状态特征数据作为从特征数据，以及将唇部状态特征数据作为主特征数据，将音频特征数据作为从特征数据，按照相似的步骤和网络结构执行两次特征融合，得到第一融合特征数据和第二融合特征数据。执行过程中生成的权重数据作为门控参数与对应的特征数据进行运算，可以针对性更强地从音频特征数据和唇部状态特征数据中提取表示目标用户的语音的信息，从而达到更准确地提取目标用户的语音信号。

示例性装置

图12是本公开一示例性实施例提供的语音信号的提取装置的结构示意图。本实施例可应用在电子设备上，如图12所示，语音信号的提取装置包括：获取模块1201，用于获取在目标区域内采集的单通道混合音频信号和图像序列单通道混合音频信号；第一确定模块1202，用于基于图像序列，确定目标区域内的目标用户；第二确定模块1203，用于基于图像序列，确定目标用户的唇部区域图像序列；第三确定模块1204，用于基于唇部区域图像序列，确定唇部状态特征数据；第四确定模块1205，用于基于单通道混合音频信号，确定音频特征数据；融合模块1206，用于对唇部状态特征数据和音频特征数据进行融合，得到融合特征数据；提取模块1207，用于基于融合特征数据，从单通道混合音频信号中提取目标用户的语音信号。

在本实施例中，获取模块1201可以获取在目标区域内采集的单通道混合音频信号和图像序列。其中，目标区域可以是设置有麦克风和相机的空间区域，目标区域的类型可以包括但不限于车辆内部、房间内部等。单通道混合音频信号可以是由单个麦克风采集的音频信号，该音频信号可以包括至少一个用户的语音信号和噪声信号等。图像序列可以是相机对目标区域内的用户拍摄的图像。应当理解，本实施例中的单通道混合音频信号和图像序列是在相同时长(例如1秒)内同步采集的。

在本实施例中，第一确定模块1202可以基于图像序列，确定目标区域内的目标用户。这里，目标用户是指一个特定的用户。

可选的，相机可以对某个特定区域(例如车辆内的驾驶位、副驾驶位等)内的某个单独的用户拍摄，若第一确定模块1202从拍摄的图像序列中识别出该用户，则确定该用户为目标用户。

相机也可以对多个用户拍摄，从拍摄的图像序列中识别出多个用户，第一确定模块1202将其中一个用户确定为当前执行该方法所针对的目标用户。在本实施例中，第二确定模块1203可以基于图像序列，确定目标用户的唇部区域图像序列。具体地，图像序列中的图像可以包括目标用户的唇部区域，第二确定模块1203可以基于唇部图像检测方法(例如基于人脸关键点检测方法确定唇部区域图像)，从图像序列中包括的图像中分别提取唇部区域图像，得到唇部区域图像序列。

在本实施例中，第三确定模块1204可以基于唇部区域图像序列，确定唇部状态特征数据。

其中，唇部状态特征数据用于表征口型的变化特征。通常，第三确定模块1204可以识别唇部区域图像序列中的每个唇部区域图像的唇部外形特征数据(例如，包括嘴角之间的距离、上下嘴唇之间的距离等)，将各个唇部区域图像的唇部外形特征数据合并为唇部状态特征数据。应当理解，基于唇部区域图像序列，确定唇部状态特征数据的方法可以采用诸如唇语识别等方法确定唇部状态特征数据，这里不再赘述。

在本实施例中，第四确定模块1205可以基于单通道混合音频信号，确定音频特征数据。

可选的，第四确定模块1205还可以基于神经网络的方法，确定音频特征数据。例如，神经网络可以包括但不限于RNN(循环神经网络，Recurrent Neural Network)、LSTM(长短期记忆网络，Long Short-Term Memory)、UNet(U型网络)、Complex UNet等，以及基于自注意力机制及跨域注意力机制的Transformer架构。

在本实施例中，融合模块1206可以对唇部状态特征数据和音频特征数据进行融合，得到融合特征数据。

在本实施例中，提取模块1207可以基于融合特征数据，从单通道混合音频信号中提取目标用户的语音信号。

可选的，可以采用神经网络对融合特征数据进行解码，得到掩码数据，将掩码数据与上述音频特征数据相乘，得到表示目标用户的语音信号的特征数据，然后对表示目标用户的语音信号的特征数据进行诸如逆傅里叶变换等处理，得到时域的语音信号。

参照图13，图13是本公开另一示例性实施例提供的语音信号的提取装置的结构示意图。

在一些可选的实现方式中，第四确定模块1205包括：预处理单元12051，用于对单通道混合音频信号进行预处理，得到待编码数据；编码单元12052，用于利用预先训练的第一神经网络模型的下采样模块对待编码数据进行编码，得到音频特征数据；提取模块1207包括：解码单元12071，用于利用第一神经网络模型的上采样模块，对融合特征数据进行解码，得到掩码数据；提取单元12072，用于基于掩码数据，从单通道混合音频信号中提取目标用户的语音信号。

在一些可选的实现方式中，预处理单元12051包括：转换子单元120511，用于对单通道混合音频信号进行频域转换，得到频域数据；压缩子单元120512，用于对频域数据进行压缩，得到待编码数据。

在一些可选的实现方式中，融合模块1206包括：第一合并单元12061，用于将音频特征数据和唇部状态特征数据合并，得到合并特征数据；第一融合单元12062，用于对音频特征数据和合并特征数据进行融合，生成第一融合特征数据；第二融合单元12063，用于对唇部状态特征数据和合并特征数据进行融合，生成第二融合特征数据；第二合并单元12064，用于将第一融合特征数据和第二融合特征数据合并为融合特征数据。

在一些可选的实现方式中，第一融合单元12062包括：第一处理子单元120621，用于利用预先训练的第二神经网络模型包括的第一卷积层和第一激活函数，对合并特征数据进行第一卷积处理，得到第一特征数据；第二处理子单元120622，用于利用第二神经网络模型包括的第二卷积层和第二激活函数，对合并特征数据进行第二卷积处理，得到第一权重数据；第一生成子单元120623，用于基于第一特征数据和第一权重数据，生成第二特征数据；第二生成子单元120624，用于基于音频特征数据和第二特征数据，生成第一融合特征数据。

在一些可选的实现方式中，第二生成子单元120624进一步用于：利用第二神经网络模型包括的第三卷积层和第三激活函数，对合并特征数据进行第三卷积处理，得到第二权重数据；基于音频特征数据和第二权重数据，生成第三特征数据；基于第三特征数据和第二特征数据，生成第一融合特征数据。

在一些可选的实现方式中，第二融合单元12063包括：第三处理子单元120631，用于利用第二神经网络模型包括的第四卷积层和第四激活函数，对合并特征数据进行第四卷积处理，得到第四特征数据；第四处理子单元120632，用于利用第二神经网络模型包括的第五卷积层和第五激活函数，对合并特征数据进行第五卷积处理，得到第三权重数据；第三生成子单元120633，用于基于第四特征数据和第三权重数据，生成第五特征数据；第四生成子单元120634，用于基于唇部状态特征数据和第五特征数据，生成第二融合特征数据。

在一些可选的实现方式中，第四生成子单元120634进一步用于：利用第二神经网络模型包括的第六卷积层和第六激活函数，对合并特征数据进行第六卷积处理，得到第四权重数据；基于唇部状态特征数据和第四权重数据，生成第六特征数据；基于第六特征数据和第五特征数据，生成第二融合特征数据。

本公开上述实施例提供的语音信号的提取装置，通过获取在目标区域内采集的单通道混合音频信号和目标用户的唇部区域图像序列，然后基于唇部区域图像序列，确定唇部状态特征数据，以及基于单通道混合音频信号，确定音频特征数据，接着对唇部状态特征数据和音频特征数据进行融合，得到融合特征数据，最后基于融合特征数据，从单通道混合音频信号中提取目标用户的语音信号，从而实现了将音频信号和唇部图像相结合的多模态语音分离，语音分离所利用的特征数据更加丰富，相比于只靠单模态的音频信号进行语音分离的方法，本公开实施例提供的多模态语音分离的方法，提取的目标用户的语音信号的准确性更高。此外，由于只需使用单麦克风采集音频信号，因此可以降低硬件成本，同时降低数据处理量。传统的针对单通道混合音频信号的语音分离方法，其使用的算法较复杂，在计算时需要一定的收敛时间，造成语音分离的延迟时间较长，本公开实施例提供的方法，由于结合了唇部图像特征数据，不需使用传统的语音分离算法，从而有效降低了语音分离的延迟时间。此外，在多人场景下，只需获得不同用户的唇部图像序列，针对不同的唇部图像序列分别执行本申请实施例提供的方法，即可实现对多人的语音信号提取，从而有效提高了该方法的可扩展性。

示例性电子设备

下面，参考图14来描述根据本公开实施例的电子设备。该电子设备可以是如图1所示的终端设备101和服务器103中的任一个或两者、或与它们独立的单机设备，该单机设备可以与终端设备101和服务器103进行通信，以从它们接收所采集到的输入信号。

图14示出了根据本公开实施例的电子设备的框图。

如图14所示，电子设备1400包括一个或多个处理器1401和存储器1402。

处理器1401可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备1400中的其他组件以执行期望的功能。

存储器1402可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器1401可以运行程序指令，以实现上文的本公开的各个实施例的语音信号的提取方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如单通道混合音频信号、图像序列等各种内容。

在一个示例中，电子设备1400还可以包括：输入装置1403和输出装置1404，这些组件通过总线***和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是终端设备101或服务器103时，该输入装置1403可以是麦克风、相机、鼠标、键盘等设备，用于输入单通道混合音频信号、图像序列、各种命令等。在该电子设备是单机设备时，该输入装置1403可以是通信网络连接器，用于从终端设备101和服务器103接收所输入的单通道混合音频信号、图像序列、各种命令。

该输出装置1404可以向外部输出各种信息，包括目标用户的语音信号。该输出装置1404可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出装置等等。

当然，为了简化，图14中仅示出了该电子设备1400中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备1400还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的语音信号的提取方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的语音信号的提取方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于***实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种单通道混合音频信号语音信号的提取方法，包括：

获取在目标区域内采集的单通道混合音频信号和图像序列单通道混合音频信号；

基于所述图像序列，确定所述目标区域内的目标用户；

基于所述图像序列，确定所述目标用户的唇部区域图像序列；

基于所述唇部区域图像序列，确定唇部状态特征数据；

基于所述单通道混合音频信号，确定音频特征数据；

对所述唇部状态特征数据和所述音频特征数据进行融合，得到融合特征数据；

基于所述融合特征数据，从所述单通道混合音频信号中提取所述目标用户的语音信号。

2.根据权利要求1所述的方法，其中，所述基于所述单通道混合音频信号，确定音频特征数据，包括：

对所述单通道混合音频信号进行预处理，得到待编码数据；

利用预先训练的第一神经网络模型的下采样模块对所述待编码数据进行编码，得到所述音频特征数据；

所述基于所述融合特征数据，从所述单通道混合音频信号中提取所述目标用户的语音信号，包括：

利用所述第一神经网络模型的上采样模块，对所述融合特征数据进行解码，得到掩码数据；

基于所述掩码数据，从所述单通道混合音频信号中提取所述目标用户的语音信号。

3.根据权利要求2所述的方法，其中，所述对所述单通道混合音频信号进行预处理，得到待编码数据，包括：

对所述单通道混合音频信号进行频域转换，得到频域数据；

对所述频域数据进行压缩，得到所述待编码数据。

4.根据权利要求1所述的方法，其中，所述对所述唇部状态特征数据和所述音频特征数据进行融合，得到融合特征数据，包括：

将所述音频特征数据和所述唇部状态特征数据合并，得到合并特征数据；

对所述音频特征数据和所述合并特征数据进行融合，生成第一融合特征数据；

对所述唇部状态特征数据和所述合并特征数据进行融合，生成第二融合特征数据；

将所述第一融合特征数据和所述第二融合特征数据合并为所述融合特征数据。

5.根据权利要求4所述的方法，其中，所述对所述音频特征数据和所述合并特征数据进行融合，生成第一融合特征数据，包括：

利用预先训练的第二神经网络模型包括的第一卷积层和第一激活函数，对所述合并特征数据进行第一卷积处理，得到第一特征数据；

利用所述第二神经网络模型包括的第二卷积层和第二激活函数，对所述合并特征数据进行第二卷积处理，得到第一权重数据；

基于所述第一特征数据和所述第一权重数据，生成第二特征数据；

基于所述音频特征数据和所述第二特征数据，生成所述第一融合特征数据。

6.根据权利要求5所述的方法，其中，所述基于所述音频特征数据和所述第二特征数据，生成所述第一融合特征数据，包括：

利用所述第二神经网络模型包括的第三卷积层和第三激活函数，对所述合并特征数据进行第三卷积处理，得到第二权重数据；

基于所述音频特征数据和所述第二权重数据，生成第三特征数据；

基于所述第三特征数据和所述第二特征数据，生成所述第一融合特征数据。

7.根据权利要求5所述的方法，其中，所述对所述唇部状态特征数据和所述合并特征数据进行融合，生成第二融合特征数据，包括：

利用所述第二神经网络模型包括的第四卷积层和第四激活函数，对所述合并特征数据进行第四卷积处理，得到第四特征数据；

利用所述第二神经网络模型包括的第五卷积层和第五激活函数，对所述合并特征数据进行第五卷积处理，得到第三权重数据；

基于所述第四特征数据和所述第三权重数据，生成第五特征数据；

基于所述唇部状态特征数据和所述第五特征数据，生成所述第二融合特征数据。

8.根据权利要求7所述的方法，其中，所述基于所述唇部状态特征数据和所述第五特征数据，生成所述第二融合特征数据，包括：

利用所述第二神经网络模型包括的第六卷积层和第六激活函数，对所述合并特征数据进行第六卷积处理，得到第四权重数据；

基于所述唇部状态特征数据和所述第四权重数据，生成第六特征数据；

基于所述第六特征数据和所述第五特征数据，生成所述第二融合特征数据。

9.一种单通道混合音频信号语音信号的提取装置，包括：

获取模块，用于获取在目标区域内采集的单通道混合音频信号和图像序列单通道混合音频信号；

第一确定模块，用于基于所述图像序列，确定所述目标区域内的目标用户；

第二确定模块，用于基于所述图像序列，确定所述目标用户的唇部区域图像序列；

第三确定模块，用于基于所述唇部区域图像序列，确定唇部状态特征数据；

第四确定模块，用于基于所述单通道混合音频信号，确定音频特征数据；

融合模块，用于对所述唇部状态特征数据和所述音频特征数据进行融合，得到融合特征数据；

提取模块，用于基于所述融合特征数据，从所述单通道混合音频信号中提取所述目标用户的语音信号。

10.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于被处理器执行以实现上述权利要求1-8任一所述的方法。

11.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器的可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-8任一所述的方法。