CN115731587A

CN115731587A - 语音匹配方法、装置、设备及计算机可读存储介质

Info

Publication number: CN115731587A
Application number: CN202110996022.8A
Authority: CN
Inventors: 卢慧君; 蔡敦波; 钱岭; 黄智国
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Suzhou Software Technology Co Ltd
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2023-03-03

Abstract

本申请公开了一种语音匹配方法、装置、设备及计算机可读存储介质，所述方法包括：获取待处理的多媒体数据和训练好的匹配模型，从所述多媒体数据中提取出语音数据和图像数据；对所述语音数据进行分离处理，得到多个单人语音数据；对所述图像数据进行人脸识别，得到所述图像数据中对应的多个人脸图像；利用所述训练好的匹配模型对所述多个单人语音数据和所述多个人脸图像进行匹配处理，得到与各个单人语音数据匹配的目标人脸图像。实现对各个单人语音数据的人脸图像匹配，并且能够同时对多个人脸图像进行匹配，从而提升语音匹配的效率及正确率，增加语音匹配处理的灵活性。

Description

语音匹配方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及信息处理技术领域，涉及但不限于一种语音匹配方法、装置、设备及计算机可读存储介质。

背景技术

在一个嘈杂的鸡尾酒会中，人类依然可以选择性的注意一些声音，滤除一系列其他的声音。针对人类的这种听觉注意力机制研究，引出了语音信号处理领域的一个经典问题“鸡尾酒会问题”，而解决“鸡尾酒会问题”，主要是把多种混合的声音分离开来，其核心是多说话人语音分离。

多说话人语音分离在引入深度学习思想之后，取得了较大的发展。基于深度学习的语音分离方法根据是否使用多感知特征，可分为两类：一类是基于纯音频的深度学习语音分离方法，另一类是基于视听特征融合的深度学习语音分离方法。

在相关技术中，基于视觉听觉特征结合的多说话人语音分离方法是将人脸或者嘴唇信息等作为模型输入的一部分，并对视觉特征和音频特征进行融合，分离模型进行语音分离的同时，也完成了对音频和视频的匹配。语音分离效果在人数为2-3人较少时，效果较好。但人数的增加会使得模型性能降低，使得无法完成匹配音频和视频，或者匹配结果准确率低的问题。此外，模型的输入端能处理的人脸数目是已知的数目，并不能同时对多张人脸进行匹配，因此，处理过程不够灵活，不能满足现实场景的需求。

发明内容

有鉴于此，本申请实施例提供一种语音匹配方法、装置、设备及计算机可读存储介质。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种语音匹配方法，所述方法包括：

获取待处理的多媒体数据和训练好的匹配模型，从所述多媒体数据中提取出语音数据和图像数据；

对所述语音数据进行分离处理，得到多个单人语音数据；

对所述图像数据进行人脸识别，得到所述图像数据中对应的多个人脸图像；

利用所述训练好的匹配模型对所述多个单人语音数据和所述多个人脸图像进行匹配处理，得到与各个单人语音数据匹配的目标人脸图像。

本申请实施例提供一种语音匹配装置，所述语音匹配装置包括：

提取模块，用于获取待处理的多媒体数据和训练好的匹配模型，从所述多媒体数据中提取出语音数据和图像数据；

分离模块，用于对所述语音数据进行分离处理，得到多个单人语音数据；

识别模块，用于对所述图像数据进行人脸识别，得到所述图像数据中对应的多个人脸图像；

匹配模块，用于利用所述训练好的匹配模型对所述多个单人语音数据和所述多个人脸图像进行匹配处理，得到与各个单人语音数据匹配的目标人脸图像。

本申请实施例提供一种语音匹配设备，所述语音匹配设备包括：

处理器；以及

存储器，用于存储可在所述处理器上运行的计算机程序；

其中，所述计算机程序被处理器执行时实现上述语音匹配方法。

本申请实施例提供一种计算机可读存储介质，所述计算机存储介质中存储有计算机可执行指令，该计算机可执行指令配置为执行上述语音匹配方法。

本申请实施例提供一种语音匹配方法、装置、设备及计算机可读存储介质，先获取待处理的多媒体数据和训练好的匹配模型，再从多媒体数据中提取出其中的语音数据和图像数据；接着，对语音数据进行分离处理，得到语音数据中对应的多个单人语音数据，还对图像数据进行人脸识别，得到图像数据中对应的多个人脸图像；最后，将多个单人语音数据和多个人脸图像输入训练好的匹配模型中，利用训练好的匹配模型对多个单人语音数据和多个人脸图像进行匹配处理，从而得到与各个单人语音数据匹配的目标人脸图像。在进行语音匹配过程中，先对待处理的多媒体数据中的语音数据进行分离处理得到多个单人语音数据，还对待处理的多媒体数据中的图像数据进行人脸识别得到多个人脸图像，再将多个单人语音数据和多个人脸图像输入至训练好的匹配模型，通过两步走的思路，实现对各个单人语音数据的人脸图像匹配，并且能够同时对多个人脸图像进行匹配，从而提升语音匹配的效率及正确率，增加语音匹配处理的灵活性。

附图说明

在附图(其不一定是按比例绘制的)中，相似的附图标记可在不同的视图中描述相似的部件。附图以示例而非限制的方式大体示出了本文中所讨论的各个实施例。

图1为本申请实施例提供的语音匹配方法的一种实现流程示意图；

图2为本申请实施例提供的训练预设的匹配模型的一种实现流程示意图；

图3为本申请实施例提供的语音分离处理的一种实现流程示意图；

图4为本申请实施例提供的语音编码处理的一种实现流程示意图；

图5为本申请实施例提供的语音匹配处理的一种实现流程示意图；

图6为本申请实施例提供的确定目标语音数据的匹配结果的一种实现流程示意图；

图7为本申请实施例提供的语音匹配方法的另一种实现流程示意图；

图8为本申请实施例提供的语音分离模块处理的一种流程框图示意图；

图9为本申请实施例提供的匹配模型处理的一种流程框图示意图；

图10为本申请实施例提供的匹配模型学习过程的一种框架示意图；

图11为本申请实施例提供的语音匹配装置的组成结构示意图；

图12为本申请实施例提供的语音匹配设备的组成结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

基于相关技术所存在的问题，本申请实施例提供一种语音匹配方法，本申请实施例提供的方法可以通过计算机程序来实现，该计算机程序在执行的时候，完成本申请实施例提供的语音匹配方法中各个步骤。在一些实施例中，该计算机程序可以在边缘节点的语音匹配设备中的处理器执行。图1为本申请实施例提供的语音匹配方法的一种实现流程，如图1所示，该语音匹配方法包括：

步骤S101，获取待处理的多媒体数据和训练好的匹配模型，从多媒体数据中提取出语音数据和图像数据。

这里，待处理的多媒体数据可以为研讨会、宴席、发布会等场景下实时录制的视频或者监控视频，在该场景中，存在人员较多、人员流动性较大且同时说话人数不确定的特点。训练好的匹配模型是指通过样本数据训练，且能够实现语音匹配的匹配模型，其中，该训练好的匹配模型可以为人工智能模型中的一种，例如，该训练好的匹配模型可以是神经网络模型，也可以为贝叶斯网络模型，还可以是支持向量机模型，本申请实施例对此并不做限定。

在本申请实施例中，可通过基频提取等语音提取算法从多媒体数据中提取出其中的语音数据，此外，还可通过截取多媒体数据中任意时刻的视频帧形成图像数据，这里，还可以进行多次截取获得多个视频帧，并将该多个视频帧确定为图像数据。

步骤S102，对语音数据进行分离处理，得到多个单人语音数据。

这里，通过步骤S101得到的语音数据是混合语音数据，也即，语音数据中包括多个人的语音数据，那么，继续对语音数据进行处理，得到语音数据中的多个单人语音数据。

在实际实现时，可先通过对语音数据的分段、重叠、拼接以及转换处理，实现对语音数据的编码处理，并得到序列型向量的编码后的语音数据；接着，再对编码后的语音数据进行分离处理，得到分离后的语音数据，这里，可将编码后的语音数据输入分离网络，实现对编码后语音数据的分离处理；然后，对编码后的语音数据和分离后的语音数据进行特征融合处理，得到融合语音特征，示例性地，这里可以是获取编码后的语音数据和分离后的语音数据的矩阵乘积，并将矩阵乘积的结果作为融合语音特征；最后，对融合语音特征进行解码处理，获得对个单人语音数据，这里，可以是将融合语音特征输入至解码器网络，该解码器网络能够分离出单人语音数据。

步骤S103，对图像数据进行人脸识别，得到图像数据中对应的多个人脸图像。

在本申请实施例中，这里可基于人脸识别算法对图像数据进行人脸识别，其中，人脸识别算法可以为基于奇异值特征方法、子空间分析法、主成分分析法、特征脸法等，从而识别出图像数据中的人脸图像，由于研讨会、宴席、发布会等场景下的图像数据中存在较多的人员，那么，基于识别算法便能够识别出多个人脸图像。

步骤S104，利用训练好的匹配模型对多个单人语音数据和多个人脸图像进行匹配处理，得到与各个单人语音数据匹配的目标人脸图像。

在本申请实施例中，先将多个单人语音数据中任一单人语音数据确定为目标语音数据，将目标语音数据和多个人脸图像输入至训练好的匹配模型，利用训练好的匹配模型分别对目标语音数据和多个人脸图像进行特征提取，得到语音特征向量和各个人脸图像对应的各个图像特征向量；接着，通过语音特征向量和各个图像特征向量确定目标语音数据与各个人脸图像之间的各个距离；然后，基于各个距离确定存在与目标语音数据满足匹配条件的人脸图像的情况下，便将满足匹配条件的人脸图像确定为与该目标语音数据匹配的目标人脸图像；最后，从多个单人语音数据中删除目标语音数据，从多个人脸图像中删除目标人脸图像，再利用训练好的匹配模型对删除后的数据继续进行匹配处理，直至每个语音数据均已完成匹配，从而得到与各个单人语音数据匹配的目标人脸图像。

本申请实施例提供一种语音匹配方法，先获取待处理的多媒体数据和训练好的匹配模型，再从多媒体数据中提取出其中的语音数据和图像数据；接着，对语音数据进行分离处理，得到语音数据中对应的多个单人语音数据，还对图像数据进行人脸识别，得到图像数据中对应的多个人脸图像；最后，将多个单人语音数据和多个人脸图像输入训练好的匹配模型中，利用训练好的匹配模型对多个单人语音数据和多个人脸图像进行匹配处理，从而得到与各个单人语音数据匹配的目标人脸图像。在进行语音匹配过程中，先对待处理的多媒体数据中的语音数据进行分离处理得到多个单人语音数据，还对待处理的多媒体数据中的图像数据进行人脸识别得到多个人脸图像，再将多个单人语音数据和多个人脸图像输入至训练好的匹配模型，通过两步走的思路，实现对各个单人语音数据的人脸图像匹配，并且能够同时对多个人脸图像进行匹配，从而提升语音匹配的效率及正确率，增加语音匹配处理的灵活性。

在一些实施例中，在步骤S101之前，如图2所示，还可以执行以下步骤S201至步骤S204：

步骤S201，获取样本语音数据和样本人脸图像。

这里，样本人脸图像中包括正例样本人脸图像和至少一个负例样本人脸图像，其中，正例样本人脸图像为与样本语音数据匹配的样本人脸图像，至少一个负例样本人脸图像为与样本语音数据不匹配的样本人脸图像。

示例性地，在样本语音数据为小王的声音的情况下，那么，正例样本人脸图像为小王的人脸图像，至少一个负例样本人脸图像可以为小吴、小谈以及小李的人脸图像。

步骤S202，将样本语音数据、正例样本人脸图像和至少一个负例样本人脸图像输入预设的匹配模型，得到样本语音数据与正例样本人脸图像的第一距离和样本语音数据与至少一个负例样本人脸图像的第二距离。

这里，预设的匹配模型可以为神经网络模型、贝叶斯网络模型、遗传算法模型等人工智能算法模型，预设的匹配模型能够分别对样本语音数据、正例样本人脸图像和至少一个负例样本人脸图像进行处理，得到样本语音数据、正例样本人脸图像和至少一个负例样本人脸图像的向量表示形式，再基于距离公式确定样本语音数据与正例样本人脸图像的第一距离，还基于距离公式确定样本语音数据与每一负例样本人脸图像的第二距离，这里第二距离的个数与负例样本人脸图像的个数相对应。其中，距离公式可以为闵可夫斯基距离公式、欧氏距离公式、曼哈顿距离公式等。

步骤S203，获取第一距离与第一距离阈值之间的第一误差信息，并获取第二距离与第二距离阈值之间的第二误差信息。

这里，第一距离阈值小于第二距离阈值，第一阈值可以为1、1.5、2等，第二距离可以为5、5.5、6等。在本申请实施例中，第一误差信息可以为第一距离与第一距离阈值的差的绝对值，该第一误差信息也可以为第一距离与第一距离阈值的差的平方。相类似的，第二误差信息可以为第二距离与第二距离阈值的差的绝对值，该第二误差信息也可以为第二距离与第二距离阈值的差的平方。

步骤S204，基于第一误差信息和第二误差信息对预设的匹配模型进行反向传播训练，得到训练好的匹配模型。

这里，可通过梯度下降方法或者自适应矩估计法对预设的匹配模型进行训练，得到训练好的匹配模型，使得训练好的匹配模型能够适应于语音匹配场景，在进行训练时，可以将第一误差信息和第二误差信息反向传播来确定梯度向量，从而通过梯度向量调整预设的匹配模型中的每一个权值，对预设的匹配模型进行训练，直至第一误差信息和第二误差信息接近于零，从而得到训练好的匹配模型，使得该训练好的匹配模型能够使得最小化样本语音数据与正例样本人脸图像之间的距离，并且最大化样本语音数据与各个负例样本人脸图像之间的距离。

在本申请实施例中，通过以上步骤S201至步骤S204，先获取样本语音数据，还获取包含正例样本人脸图像和至少一个负例样本人脸图像的样本人脸图像，接着将样本语音数据、正例样本人脸图像以及至少一个负例样本人脸图像输入至预设的匹配模型，通过该匹配模型得到样本语音数据与正例样本人脸图像的第一距离和样本语音数据与至少一个负例样本人脸图像的第二距离；接着，获取第一距离与第一距离阈值之间的第一误差信息，还获取第二距离与第二距离阈值之间的第二误差信息；最后，基于已获取的两个误差信息对预设的匹配模型进行反向传播训练，并在这两个误差信息接近于零的时候，便得到训练好的匹配模型，该训练好的匹配模型能够使得最小化样本语音数据与正例样本人脸图像之间的距离，并且最大化样本语音数据与各个负例样本人脸图像之间的距离，从而能够匹配出语音数据与对应人脸图像数据。

在一些实施例中，如图3所示，上述步骤S102可通过以下步骤S1021至步骤S1024来实现：

步骤S1021，对语音数据进行编码处理，得到编码后的语音数据。

在本申请实施例中，如图4所示，步骤S1021可通过以下步骤S211至步骤S213来实现：

步骤S211，对语音数据进行分段处理，得到多段语音数据。

这里，可基于时间对语音进行均等分段，举例来说，基于预设时长将语音数据进行分段，该预设时长可以为5秒、7秒、10秒等，将语音数据等分为多段语音数据，该多段语音的长度一致。

步骤S212，对多段语音数据依次进行重叠、拼接处理，形成满足预设重叠率的三维语音向量。

这里，为了充分利用语音数据，这里设置有预设重叠率，该预设重叠率可以为默认值，也可以为自定义设置值，示例性地，预设重叠率可以为50％、60％等，重叠率是指相邻两段语音数据之间重复语音数据所占的比值。

在本申请实施例中，为了满足双路径递归神经网络(Dual-Path RecurrentNeural Network，DPRNN)的输入要求，这里会对多段语音数据进行重叠和拼接，从而形成三维语音向量。语音数据经分段处理增加了长度维度，则成为二维语音数据；再经过重叠处理增加了个数维度，便形成三维语音数据。

步骤S213，将三维语音向量转换成序列型向量，并将序列型向量确定为编码后的语音数据。

这里，可通过形式转换将三维语音向量转换为序列型向量，并将该序列型向量确定为编码后的语音数据，从而完成对语音数据的编码过程。

步骤S1022，对编码后的语音数据进行分离处理，得到分离后的语音数据。

这里，可通过分离网络对编码后的语音数据进行分离处理，该分离网络可以为深度长短时记忆网络(Deep Long Short-Term Memory Neural Networks，Deep LSTM)以及全连接神经网络层(Fully Connected Layer，FC)。

步骤S1023，基于编码后的语音数据和分离后的语音数据，确定融合语音特征。

这里，可将编码后的语音数据和分离后的语音数据的矩阵乘积确定为融合语音特征。

步骤S1024，对融合语音特征进行解码处理，获得多个单人语音数据。

这里，可将融合语音特征输入至解码器网络，实现对融合语音特征的解码处理，其中，该解码器网络可以对融合语音特征进行转置卷积处理。

在本申请实施例中，通过以上步骤S1021至步骤S1024，先经过分段、重叠、拼接处理，实现对语音数据的编码处理，得到编码后的语音数据；接着，对编码后的语音数据进行分离处理，得到分离后的语音数据，还将编码后和分离后的语音数据进行融合，得到融合后的融合语音特征；最后，对融合后的融合语音特征进行解码处理，从而获得多个单人语音数据，实现对语音数据中各个单人语音数据的分离。

在一些实施例中，如图5所示，上述步骤S104“利用训练好的匹配模型对多个单人语音数据和多个人脸图像进行匹配处理，得到与各个单人语音数据匹配的目标人脸图像”可通过以下步骤S1041至步骤S10412来实现：

步骤S1041，将多个单人语音数据确定为语音数据集合，将多个人脸图像确定为人脸图像集合，将语音数据集合中的任一单人语音数据确定为目标语音数据。

在本申请实施例中，先是对一个单人语音数据与多个人脸图像进行匹配，以此类推，遍历完每一单人语音数据。那么，在进行匹配时，可从语音数据集合中挑选任一个单人语音数据，并将挑选出的单人语音数据确定为目标语音数据，接下来，便将目标语音数据作为开始，逐一对多个单人语音数据进行人脸图像匹配。

步骤S1042，将目标语音数据和人脸图像集合输入训练好的匹配模型，得到目标语音数据的匹配结果。

这里，匹配结果包括目标语音数据与人脸图像集合中各个人脸图像之间的各个距离。

在实现步骤S1042时，如图6所示，可通过以下步骤S421至步骤S424来实现：

步骤S421，将目标语音数据和人脸图像集合输入训练好的匹配模型，利用训练好的匹配模型对目标语音数据进行特征提取，得到语音特征向量。

这里，训练好的匹配模型可通过线性预测分析、离散小波变换等方法实现对目标语音数据的特征提取，从而得到特征提取后语音特征向量。

步骤S422，利用训练好的匹配模型对人脸图像集合中的各个人脸图像进行特征提取，得到各个人脸图像对应的各个图像特征向量。

这里，训练好的匹配模型可通过灰度直方图、方差、自回归纹理特征等方法实现对各个人脸图像的特征提取，从而得到特征提取后各个人脸图像对应的各个图像特征向量。

在本申请实施例中，图像特征向量与语音特征向量的维度相同。

步骤S423，基于语音特征向量和各个图像特征向量，确定目标语音数据与各个人脸图像之间的各个距离。

这里，可基于闵可夫斯基距离公式、欧氏距离公式、曼哈顿距离公式等确定出语音特征向量与各个图像特征向量之间的各个距离。

步骤S424，将各个距离确定为目标语音数据的匹配结果。

这里，直接将各个距离认为是该目标语音数据与对应人脸图像的匹配结果。

步骤S1043，从各个距离中确定最小距离。

这里，可通过两两比较的方法从各个距离中确定出最小距离。

步骤S1044，判断最小距离是否小于第三距离阈值。

这里，第三距离阈值小于第二距离阈值，第三距离阈值可以为1、1.5、2等，该第三距离阈值可以为默认值，也可以为自定义设置值。如果判断出最小距离小于第三距离阈值，则表征存在图像特征向量与语音特征向量之间的距离较近，则进入步骤S1045；如果判断出最小距离大于或者等于第三距离阈值，则表征语音特征向量与各个图像特征向量之间的各个距离均较远，则进入步骤S10410。

步骤S1045，基于各个距离确定存在与目标语音数据满足匹配条件的人脸图像。

此时，最小距离小于第三距离阈值，在本申请实施例中可将最小距离小于第三距离阈值确定为满足匹配条件，那么，在最小距离小于第三距离阈值时则确定存在与目标语音数据满足匹配条件的人脸图像。

步骤S1046，将最小距离对应的人脸图像确定为满足匹配条件的人脸图像。

这里，先确定出最小距离所对应的人脸图像，然后，将该人脸图像确定为满足匹配条件的人脸图像。

步骤S1047，将满足匹配条件的人脸图像确定为目标人脸图像。

这里，由于满足匹配条件的人脸图像与目标语音数据之间的距离较短，满足第三距离阈值，则认为该满足匹配条件的人脸图像即为目标语音数据对应的目标人脸图像。

步骤S1048，从语音数据集合中删除目标数据得到更新后的语音数据集合，从人脸图像集合中删除目标人脸图像，得到更新后的人脸图像集合。

这里，在确定出目标语音数据对应的目标人脸图像之后，表征目标语音数据与目标人脸图像已完成匹配，那么，则从语音数据集合中删除完成匹配的目标语音数据，得到更新后的语音数据集合；还会从人脸图像集合中删除完成匹配的目标人脸图像，得到更新后的人脸图像集合。

步骤S1049，利用训练好的匹配模型对更新后的语音数据集合和更新后的人脸图像集合进行匹配处理，直至更新后的语音数据集合为空，得到与各个单人语音数据匹配的目标人脸图像。

这里，基于训练好的匹配模型继续对未匹配的语音数据集合和未匹配的人脸图像集合继续进行匹配处理，以此类推，直至对每一语音数据完成匹配，从而得到与各个单人语音数据匹配的目标人脸图像。

步骤S10410，确定不存在与目标语音数据满足匹配条件的人脸图像。

此时，最小距离大于或者等于第三距离阈值，表征语音特征向量与各个图像特征向量之间的各个距离均较远，由于距离越近则匹配度越高，那么，距离越远则匹配度越低，也即，表明此时并不存在与目标语音数据满足匹配条件的人脸图像。

步骤S10411，基于历史多媒体数据确定历史人脸图像集合。

这里，历史多媒体数据的生成时间早于待处理的媒体数据的生成时间。由于存在没有完成匹配的单人语音数据，那么，与该单人语音数据匹配的人脸图像可能存在于历史多媒体数据中。

在本申请实施例中，可通过如下方式获得历史人脸图像集合：获取历史多媒体数据；从历史多媒体数据中提取出历史图像数据；对历史图像数据进行人脸识别，得到历史图像数据中的多个历史人脸图像；将多个历史人脸图像确定为历史人脸图像集合。

在上述获取历史人脸图像集合的方式中，可从存储设备中读取生成时间早于待处理的多媒体数据生成时间的历史多媒体数据，该历史对媒体数据可以是与待处理的多媒体数据相邻的多媒体数据；接着，参考步骤S101和步骤S103中的方法，从历史多媒体数据中提取出历史图像数据，并通过人脸识别后得到多个历史人脸图像；最后，将该多个历史人脸图像确定为历史人脸图像集合。

步骤S10412，将目标语音数据和历史人脸图像集合输入训练好的匹配模型，得到与目标语音数据匹配的目标人脸图像。

这里，由于人脸图像集合中不存在与目标语音数据匹配的目标人脸图像，则从历史人脸图像集合中确定是否存在与目标语音数据匹配的目标人脸图像，则将目标语音数据和历史人脸图像集合输入训练好的匹配模型，参考上述步骤S1042至步骤S1046相类似的匹配方法，从历史人脸图像集合中确定出与目标语音数据匹配的目标人脸图像。

在本申请实施例中，通过以上步骤S1041至步骤S10412，将多个单人语音数据确定为语音数据集合，将多个人脸图像确定为人脸图像集合，再将语音数据集合中任一语音数据确定为目标语音数据，将目标语音数据和人脸图像集合输入至训练好的匹配模型，匹配模型通过特征提取确定目标语音数据与人脸图像集合的特征向量，再基于特征向量确定目标语音数据与各个人脸图像之间的各个距离；接着，判断各个距离中的最小距离是否小于第三距离阈值，在最小距离小于第三阈值的情况下，将该最小距离对应的人脸图像确定为目标语音数据对应的目标人脸图像，还从语音数据集合中删除目标语音数据，从人脸图像集合中删除目标人脸图像，形成更新后的语音数据集合和更新后的人脸图像集合，并基于训练好的匹配模型继续对更新后的语音数据集合和更新后的人脸图像集合继续进行匹配；而在最小距离大于等于第三阈值的情况下，表明人脸图像集合中并不存在与目标语音数据匹配的目标人脸图像，则继续获取生成时间较早的历史多媒体数据，并从历史多媒体数据中确定出历史人脸图像集合，并基于训练好的匹配模型对目标语音数据与历史人脸图像集合进行匹配，从而从历史人脸图像集合中确定出与目标语音数据匹配的目标人脸图像，实现对各个单人语音数据的人脸图像匹配，并且能够同时对多个人脸图像进行匹配，从而提升语音匹配的效率及正确率，增加语音匹配处理的灵活性。

基于上述实施例，本申请实施例再提供一种语音匹配方法，如图7所示，该语音匹配方法包括以下步骤S701至步骤S705：

步骤S701，获取语音数据和图像数据。

这里，可以先从监控设备中读取待处理的多媒体数据，该多媒体数据可以为视频数据，然后从待处理的多媒体数据中提取出语音数据和图像数据。

步骤S702，将语音数据进行分离，得到多个单人音频数据。

这里，可以是将语音数据输入至语音分离模块，图8为本申请实施例提供的语音分离模块处理流程框图，主要完成对语音数据的预处理和语音数据的分离，得到多个单人语音数据，举例来说，如果语音数据中包括M个人的语音，那么经预处理和分离后得到M个单人语音数据，可记为{语音1，语音2，……语音M}。

这里，预处理是语音特征表示的过程，可以是针对语音数据进行可区分信息的提取。参考图8，语音分离模块处理流程可通过以下步骤一至步骤四实现：

步骤一，将语音数据801输入至编码器802，该语音数据为混合语音数据，该编码器为编码器网络，在实际实现时，该编码器网络可以采用DPRNN结构，DPRNN是在一般的循环神经网络(Recurrent Neural Network，RNN)结构上进行的改进。DPRNN首先对输入的长序列以固定长度进行切分以完成分段，再通过重叠、拼接操作，形成3-D的向量。这里的重叠率可以设置为50％，每一个DPRNN块都包含两个RNN结构，这两个RNN结构的不同处在于内部的连接是沿着不同维度的。在实际实现时，一个是块内RNN，一个是块间RNN。块内双向RNN提取局部特征；块间双向RNN提取全局信息，其中该全局信息包括时间信息、上限文信息以及其他的可区分特征；DPRNN模块的输出是3D向量，通过后处理，转换成序列型输出。

步骤二，将编码器的序列型输出输入至分离网络803，其中，该分离网络802可以采用Deep LSTM以及FC。

步骤三，将分离网络803的输出和编码器802的输出进行矩阵乘积，并将矩阵乘积的结果输入解码器804，从而输出分离后的多个单人语音数据805，其中，该解码器可以为解码器网络，在实际实现时，解码器网络可以是转置卷积计算。

步骤四，在实际实现时，语音分离模块的损失函数设计为尺度不变信噪比(si-snr)，实现估计的信号和干净的目标信号做归一化确保尺度不变。

步骤S703，从图像数据中提取多个人脸图像。

这里，图像数据可以为视频帧数据，可通过人脸检测模块完成语音数据对应时间段视频帧数据中的人脸检测与识别，举例来说，假设视频帧数据中包括N个人脸，那么，人脸检测模块可基于开源人脸识别库识别出人脸，其中，人脸识别准确率高达99％以上，如此便可得到{人脸1，人脸2，……人脸N}。

步骤S704，基于距离学习，对多个单人语音数据和多个人脸图像进行匹配。

这里，对步骤S702和步骤S703的处理结果，基于度量学习和三元组损失(tripletloss)学习出分离出的多个单人语音数据和多个人脸图像之间的距离指数，距离指数最小的，意味着匹配程度最高。

此外，匹配算法设计了开关机制，根据输入的序列在语音编码器和人脸编码器之间做切换，可根据人脸检测模块的结果{人脸1，人脸2，……人脸N}，动态执行匹配模型。

图9为本申请实施例提供的一种匹配模型处理流程框图，参考图9，可通过以下步骤实现匹配模块处理流程：

步骤一，匹配模型训练时，构建{语音，Pos_face，Neg₁，Neg₂，……，Neg_N}这样的元组作为输入，其中N大于或者等于1。本申请实施例基于开关机制重复调用人脸特征的编码模块，实现了对不定数目说话人场景的良好兼容，具有很强的实用性；语音和视觉的特征提取模块在参数设置上不同，但视觉分支间是共享参数的；主要包含卷积层和池化层，其中，参数设置可根据应用场景调整；

匹配模型的损失函数如公式(1)所示：

在公式(1)中，a是锚点，可以记为anchor；D(a,Pos_face)是锚点和正例样本的距离，其中，正例样本也可记为正例样本人脸图像，可用Positive来表示；D(a,Neg_i)是锚点和第i个负例样本的距离，其中，负例样本也可记为负例样本人脸图像，可用Negative来表示；β_i是{锚点，正例样本}对与{锚点，负例样本}对间的间隔，

代表线性整流(RectifiedLinear Unit，ReLU)函数。其中，锚点是训练集中的已知说话人。

图10为本申请实施例提供的一种匹配模型学习过程，参考图10，在训练过程中，匹配模型不断调整参数，以最大化anchor(锚点)和Negative(负例样本，与anchor不匹配的样本)的距离；最小化anchor与Positive(正例样本，即与anchor匹配的样本)的距离。

步骤二，匹配模型推理阶段，输入为步骤S702与步骤S703中得到多个单人音频数据与多个人脸图像构成的，形如{语音，人脸1，人脸2，人脸3，……，人脸N}，输入匹配模型，该匹配模型计算语音特征与各个人脸特征间的距离，这里可通过如下公式(2)来计算语音特征与各个人脸特征间的距离：

D(语音，人脸i)＝||Aud(语音)-Vis(人脸i)||₂ (2)；

计算得到N*1向量，选择距离最小的语音与人脸对，如果最小距离小于门限值

则本次匹配成立；如果最小距离大于门限值

匹配不成立。

再结合实际应用场景时，存在以下三种处理方式：

方式一，M＝N时，对于步骤S702得到的M个单人语音，分M次调用以下语音与人脸的匹配模型，第一次输入序列{语音1，人脸1，人脸2，……，人脸N}，执行模型得到N*1的距离值向量，选择距离值向量中数值最小的，如果匹配距离值小于门限值

则本次匹配成功，其对应的人脸即是与本次输入语音最为匹配的；如果匹配距离大于门限值

则本次匹配失败，未能为语音找到对应的说话人对象，合理的分析是，存在视频外的未知说话人，而且视频中存在沉默者；进一步的，通过该算法继续分析可知视频中哪个人是沉默者；针对视频外的说话人，可基于历史人脸数据继续进行匹配处理，选择的历史人脸数据为上一个视频块单元的人脸检测数据。第二次调用此模型，输入为{语音2，人脸1，人脸2，……，人脸N-1}，即排除已成功匹配的，对余下语音与余下人脸进行匹配；重复执行以上过程，直到完成所有语音的分析。

方式二，M>N时，存在视频外的说话人；首先完成M次的匹配过程；根据每次的匹配情况，可以得到以下两种可能情况：

情况一，存在N次匹配过程的匹配距离最小值小于门限值

即N次成功的匹配。那就有(M-N)个视频外的说话人。选择上一个多媒体数据的人脸历史数据，继续与(M-N)段单人语音数据进行匹配；如果本轮匹配结束，(M-N)段单人语音数据均匹配到对应说话人，则停止；否则，继续沿多媒体生成时间轴回溯，读取上上一个多媒体数据的历史数据。最多执行三次历史数据的加载与匹配操作，如果三次执行完毕，依然不能为单人语音数据找到对应的说话人，则放弃，并输出分析结果；

情况二，存在P次匹配过程的匹配距离中的最小值小于门限值

也即，P次成功的匹配且P<N。即多媒体数据中存在沉默者，并且存在多媒体数据之外的说话人。同样，是从人脸检测历史数据里继续为(M-P)个单人语音数据确定匹配的说话人，实现算法流程可参考情况一。

方式三，M<N时，多媒体数据中存在至少(N-M)个沉默者。完成M次匹配过程之后，根据每次的匹配情况，可以得到以下两种可能情况：

情况一，存在M次匹配过程的匹配距离最小值小于门限值

即M次成功的匹配。则视频中存在(N-M)个沉默者，此次视频分析结束；

情况二，存在T次匹配过程的匹配距离最小值小于门限值

且T<M；则多媒体数据中存在(N-T)个沉默者，而且(M-T)个单人语音数据在本多媒体数据中，未找到对应的说话人，同样，接下来在历史数据里，继续匹配，实现算法可参考方式二。

步骤S705，将匹配度高的语音数据和人脸图像进行对应，确定各个语音数据所匹配的人脸图像。

这里，经过步骤S704中匹配算法分析，可以为分离出的多个单人音频数据确定所属的说话人，而且匹配算法可以标识出多媒体数据外的未知说话人的语音，并基于历史多媒体数据，确定所属说话人，匹配算法能够智能地对场景进行了分析。

在本申请实施例中，通过以上步骤S701至步骤S705，从待处理的多媒体数据中提取出语音数据和图像数据；接着，基于DPRNN对语音数据进行分离，得到多个单人语音数据；然后，基于人脸识别算法从图像数据中提取多个人脸图像；最后，基于距离学习，对多个单人语音数据和多个人脸图像进行匹配，从而匹配出单人语音数据对应的人脸图像。此外，本申请实施例还基于度量学习和三元组损失学习出匹配模型，本申请实施例提出一种综合的解决方案，兼容最新的DPRNN结构，语音数据分离效果好；又能对人脸图像数据进行分析，以完成对比如监控场景的智能化分析。本申请实施例还将场景理解分解成两个步骤：第一个步骤是，先进行纯语音数据的分离和对媒体数据中人脸图像的检测；第二个步骤是，根据检测的人脸图像和分离出的多个单人音频数据，基于度量学习，找到最匹配的语音数据和人脸图像。此外，还可以动态完成不确定数目语音数据和人脸图像间的匹配操作。

基于前述的实施例，本申请实施例提供一种语音匹配装置，该装置包括的各模块、以及各模块包括的各单元，可以通过计算机设备中的处理器来实现；当然也可通过相应的逻辑电路实现；在实施的过程中，处理器可以为中央处理器(CPU，Central ProcessingUnit)、微处理器(MPU，Microprocessor Unit)、数字信号处理器(DSP，Digital SignalProcessing)或现场可编程门阵列(FPGA，Field Programmable Gate Array)等。

本申请实施例再提供一种语音匹配装置，图11为本申请实施例提供的语音匹配装置的组成结构示意图，如图11所示，所述语音匹配装置1100包括：

提取模块1101，用于获取待处理的多媒体数据和训练好的匹配模型，从所述多媒体数据中提取出语音数据和图像数据；

分离模块1102，用于对所述语音数据进行分离处理，得到多个单人语音数据；

识别模块1103，用于对所述图像数据进行人脸识别，得到所述图像数据中对应的多个人脸图像；

匹配模块1104，用于利用所述训练好的匹配模型对所述多个单人语音数据和所述多个人脸图像进行匹配处理，得到与各个单人语音数据匹配的目标人脸图像。

在一些实施例中，所述语音匹配装置1100还包括：

第一获取模块，用于获取样本语音数据和样本人脸图像，所述样本人脸图像中包括正例样本人脸图像和至少一个负例样本人脸图像，其中，所述正例样本人脸图像为与所述样本语音数据匹配的样本人脸图像，所述至少一个负例样本人脸图像为与所述样本语音数据不匹配的样本人脸图像；

输入模块，用于将所述样本语音数据、所述正例样本人脸图像和所述至少一个负例样本人脸图像输入预设的匹配模型，得到所述样本语音数据与所述正例样本人脸图像的第一距离和所述样本语音数据与所述至少一个负例样本人脸图像的第二距离；

第二获取模块，还用于获取所述第一距离与第一距离阈值之间的第一误差信息，并获取所述第二距离与第二距离阈值之间的第二误差信息，其中，所述第一距离阈值小于所述第二距离阈值；

训练模块，用于基于所述第一误差信息和所述第二误差信息对所述预设的匹配模型进行反向传播训练，得到所述训练好的匹配模型。

在一些实施例中，所述分离模块1102包括：

编码子模块，用于对所述语音数据进行编码处理，得到编码后的语音数据；

分离子模块，用于对所述编码后的语音数据进行分离处理，得到分离后的语音数据；

融合子模块，用于基于所述编码后的语音数据和所述分离后的语音数据，确定融合语音特征；

解码子模块，用于对所述融合语音特征进行解码处理，获得所述多个单人语音数据。

在一些实施例中，所述编码子模块包括：

分段单元，用于对所述语音数据进行分段处理，得到多段语音数据；

重叠单元，用于对所述多段语音数据依次进行重叠、拼接处理，形成满足预设重叠率的三维语音向量；

转换单元，用于将所述三维语音向量转换成序列型向量，并将所述序列型向量确定为所述编码后的语音数据。

在一些实施例中，所述匹配模块1104包括：

第一确定子模块，用于将所述多个单人语音数据确定为语音数据集合，将所述多个人脸图像确定为人脸图像集合，将所述语音数据集合中的任一单人语音数据确定为目标语音数据；

第一输入子模块，用于将所述目标语音数据和所述人脸图像集合输入所述训练好的匹配模型，得到所述目标语音数据的匹配结果，所述匹配结果包括所述目标语音数据与所述人脸图像集合中各个人脸图像之间的各个距离；

第二确定子模块，用于当基于所述各个距离确定存在与所述目标语音数据满足匹配条件的人脸图像，将所述满足匹配条件的人脸图像确定为目标人脸图像；

删除子模块，用于从所述语音数据集合中删除所述目标语音数据得到更新后的语音数据集合，从所述人脸图像集合中删除所述目标人脸图像，得到更新后的人脸图像集合；

匹配子模块，用于利用所述训练好的匹配模型对所述更新后的语音数据集合和所述更新后的人脸图像集合进行匹配处理，直至所述更新后的语音数据集合为空，得到与各个单人语音数据匹配的目标人脸图像。

在一些实施例中，所述输入子模块包括：

输入单元，用于将所述目标语音数据和所述人脸图像集合输入所述训练好的匹配模型，利用所述训练好的匹配模型对所述目标语音数据进行特征提取，得到语音特征向量；

特征提取单元，用于利用所述训练好的匹配模型对所述人脸图像集合中的各个人脸图像进行特征提取，得到各个人脸图像对应的各个图像特征向量；

第一确定单元，用于基于所述语音特征向量和所述各个图像特征向量，确定所述目标语音数据与所述各个人脸图像之间的各个距离；

第二确定单元，用于将所述各个距离确定为所述目标语音数据的匹配结果。

在一些实施例中，所述第二确定子模块包括：

第三确定单元，用于从所述各个距离中确定最小距离；

第四确定单元，用于如果所述最小距离小于第三距离阈值，确定存在与所述目标语音数据满足匹配条件的人脸图像，并将所述最小距离对应的人脸图像确定为所述满足匹配条件的人脸图像，其中，所述第三距离阈值小于所述第二距离阈值。

在一些实施例中，所述匹配模块1104还包括：：

第三确定子模块，用于如果不存在与所述目标语音数据满足匹配条件的人脸图像，基于历史多媒体数据确定历史人脸图像集合，所述历史多媒体数据的生成时间早于所述待处理的媒体数据的生成时间；

第二输入子模块，用于将所述目标语音数据和所述历史人脸图像集合输入所述训练好的匹配模型，得到与所述目标语音数据匹配的目标人脸图像。

在一些实施例中，所述第三确定子模块包括：

获取单元，用于获取所述历史多媒体数据；

提取单元，用于从所述历史多媒体数据中提取出历史图像数据；

识别单元，用于对所述历史图像数据进行人脸识别，得到所述历史图像数据中的多个历史人脸图像；

确定单元，用于将所述多个历史人脸图像确定为历史人脸图像集合。

需要说明的是，本申请实施例语音匹配装置的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本装置实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

需要说明的是，本申请实施例中，如果以软件功能模块的形式实现上述的语音匹配方法，并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，ReadOnly Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

相应地，本申请实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中提供的语音匹配方法。

本申请实施例提供一种语音匹配设备，图12为本申请实施例提供的语音匹配设备的组成结构示意图，如图12所示，所述语音匹配设备1200包括：一个处理器1201、至少一个通信总线1202、用户接口1203、至少一个外部通信接口1104和存储器1205。其中，通信总线1202配置为实现这些组件之间的连接通信。其中，用户接口1203可以包括显示屏，外部通信接口1204可以包括标准的有线接口和无线接口。其中，所述处理器1201配置为执行存储器中存储的语音匹配方法的程序，以实现以上述实施例提供的语音匹配方法。

以上语音匹配设备和存储介质实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请语音匹配设备和存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

这里需要指出的是：以上存储介质和语音匹配设备实施例的描述，与上述方法实施例的描述是类似的，具有同方法实施例相似的有益效果。对于本申请存储介质和语音匹配设备实施例中未披露的技术细节，请参照本申请方法实施例的描述而理解。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本申请实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(ROM，Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台AC执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音匹配方法，其特征在于，所述方法包括：

对所述语音数据进行分离处理，得到多个单人语音数据；

2.根据权利要求1中所述的方法，其特征在于，所述方法还包括：

获取样本语音数据和样本人脸图像，所述样本人脸图像中包括正例样本人脸图像和至少一个负例样本人脸图像，其中，所述正例样本人脸图像为与所述样本语音数据匹配的样本人脸图像，所述至少一个负例样本人脸图像为与所述样本语音数据不匹配的样本人脸图像；

将所述样本语音数据、所述正例样本人脸图像和所述至少一个负例样本人脸图像输入预设的匹配模型，得到所述样本语音数据与所述正例样本人脸图像的第一距离和所述样本语音数据与所述至少一个负例样本人脸图像的第二距离；

获取所述第一距离与第一距离阈值之间的第一误差信息，并获取所述第二距离与第二距离阈值之间的第二误差信息，其中，所述第一距离阈值小于所述第二距离阈值；

基于所述第一误差信息和所述第二误差信息对所述预设的匹配模型进行反向传播训练，得到所述训练好的匹配模型。

3.根据权利要求1中所述的方法，其特征在于，对所述语音数据进行分离处理，得到多个单人语音数据，包括：

对所述语音数据进行编码处理，得到编码后的语音数据；

对所述编码后的语音数据进行分离处理，得到分离后的语音数据；

基于所述编码后的语音数据和所述分离后的语音数据，确定融合语音特征；

对所述融合语音特征进行解码处理，获得所述多个单人语音数据。

4.根据权利要求3中所述的方法，其特征在于，对所述语音数据进行编码处理，得到编码后的语音数据，包括：

对所述语音数据进行分段处理，得到多段语音数据；

对所述多段语音数据依次进行重叠、拼接处理，形成满足预设重叠率的三维语音向量；

将所述三维语音向量转换成序列型向量，并将所述序列型向量确定为所述编码后的语音数据。

5.根据权利要求2中所述的方法，其特征在于，利用所述训练好的匹配模型对所述多个单人语音数据和所述多个人脸图像进行匹配处理，得到与各个单人语音数据匹配的目标人脸图像，包括：

将所述多个单人语音数据确定为语音数据集合，将所述多个人脸图像确定为人脸图像集合，将所述语音数据集合中的任一单人语音数据确定为目标语音数据；

将所述目标语音数据和所述人脸图像集合输入所述训练好的匹配模型，得到所述目标语音数据的匹配结果，所述匹配结果包括所述目标语音数据与所述人脸图像集合中各个人脸图像之间的各个距离；

当基于所述各个距离确定存在与所述目标语音数据满足匹配条件的人脸图像，将所述满足匹配条件的人脸图像确定为目标人脸图像；

从所述语音数据集合中删除所述目标语音数据得到更新后的语音数据集合，从所述人脸图像集合中删除所述目标人脸图像，得到更新后的人脸图像集合；

利用所述训练好的匹配模型对所述更新后的语音数据集合和所述更新后的人脸图像集合进行匹配处理，直至所述更新后的语音数据集合为空，得到与各个单人语音数据匹配的目标人脸图像。

6.根据权利要求5中所述的方法，其特征在于，所述将所述目标语音数据和所述人脸图像集合输入所述训练好的匹配模型，得到所述目标语音数据的匹配结果，包括：

将所述目标语音数据和所述人脸图像集合输入所述训练好的匹配模型，利用所述训练好的匹配模型对所述目标语音数据进行特征提取，得到语音特征向量；

利用所述训练好的匹配模型对所述人脸图像集合中的各个人脸图像进行特征提取，得到各个人脸图像对应的各个图像特征向量；

基于所述语音特征向量和所述各个图像特征向量，确定所述目标语音数据与所述各个人脸图像之间的各个距离；

将所述各个距离确定为所述目标语音数据的匹配结果。

7.根据权利要求5中所述的方法，其特征在于，所述方法还包括：

从所述各个距离中确定最小距离；

如果所述最小距离小于第三距离阈值，确定存在与所述目标语音数据满足匹配条件的人脸图像，并将所述最小距离对应的人脸图像确定为所述满足匹配条件的人脸图像，其中，所述第三距离阈值小于所述第二距离阈值。

8.根据权利要求5至7任一项所述的方法，其特征在于，所述方法还包括：

如果不存在与所述目标语音数据满足匹配条件的人脸图像，基于历史多媒体数据确定历史人脸图像集合，所述历史多媒体数据的生成时间早于所述待处理的媒体数据的生成时间；

将所述目标语音数据和所述历史人脸图像集合输入所述训练好的匹配模型，得到与所述目标语音数据匹配的目标人脸图像。

9.根据权利要求8中所述的方法，其特征在于，所述基于历史多媒体数据确定历史人脸图像集合包括：

获取所述历史多媒体数据；

从所述历史多媒体数据中提取出历史图像数据；

对所述历史图像数据进行人脸识别，得到所述历史图像数据中的多个历史人脸图像；

将所述多个历史人脸图像确定为历史人脸图像集合。

10.一种语音匹配装置，其特征在于，所述语音匹配装置包括：

11.一种语音匹配设备，其特征在于，所述语音匹配设备包括：

处理器；以及

存储器，用于存储可在所述处理器上运行的计算机程序；

其中，所述计算机程序被处理器执行时实现权利要求1至9任一项所述的语音匹配方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机可执行指令，该计算机可执行指令配置为执行上述权利要求1至9任一项所述的语音匹配方法。