CN114067793A

CN114067793A - 音频处理方法和装置、电子设备及可读存储介质

Info

Publication number: CN114067793A
Application number: CN202111302400.4A
Authority: CN
Inventors: 赵情恩
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2022-02-18

Abstract

本公开提供了一种音频处理方法和装置、电子设备及可读存储介质，涉及语音处理技术领域，尤其涉及人工智能、语音技术、深度学习领域。具体实现方案为：获取待处理音频，其中，待处理音频包括：从多个声源采集到的初始音频数据，多个声源对应于多个对象；对待处理音频进行内容识别，得到内容向量和内容向量对应的时间信息；基于内容向量和时间信息对待处理音频进行分离，得到分离结果，其中，分离结果用于从初始音频数据中确定多个对象中每个对象分别对应的目标音频数据。通过上述实现方案，本公开达到了提高分离结果的准确性，增加整体特征的可区分性的效果，解决了相关技术中提供的人声分离方法的分离效果较差的问题。

Description

音频处理方法和装置、电子设备及可读存储介质

技术领域

本公开涉及语音处理技术领域，尤其涉及人工智能、语音技术、深度学习领域。本公开提供了一种音频处理方法和装置、电子设备及可读存储介质。

背景技术

在智能客服、会议讨论、访谈对话等场景中，单个声道上往往会采集到多个用户发出的声音，因此，需要对录制的音频进行人声分离，然后针对不同用户的声音进行针对性的分析处理。目前，可以通过离线的人声分离方法对采集到的音频进行分离，首先将音频切割成等长小片段，然后给定音频里面的说话人个数，或者阈值进行分离。但是，如果采集到的多个用户的声音出现重叠，则分离效果较差。

发明内容

本公开提供了一种音频处理方法和装置、电子设备及可读存储介质。

根据本公开的第一方面，提供了一种音频处理方法，包括：获取待处理音频，其中，待处理音频包括：从多个声源采集到的初始音频数据，多个声源对应于多个对象；对待处理音频进行内容识别，得到内容向量和内容向量对应的时间信息；基于内容向量和时间信息对待处理音频进行分离，得到分离结果，其中，分离结果用于从初始音频数据中确定多个对象中每个对象分别对应的目标音频数据。

根据本公开的第二方面，提供了一种音频处理装置，包括：获取模块，用于获取待处理音频，其中，待处理音频包括：从多个声源采集到的初始音频数据，多个声源对应于多个对象；识别模块，用于对待处理音频进行内容识别，得到内容向量和内容向量对应的时间信息；分离模块，用于基于内容向量和时间信息对待处理音频进行分离，得到分离结果，其中，分离结果用于从初始音频数据中确定多个对象中每个对象分别对应的目标音频数据。

根据本公开的第三方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行根据上述确定的方法。

根据本公开的第四方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行根据上述确定的方法。

根据本公开的第五方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现根据上述确定的方法。

通过本公开上述实施例，在获取到待处理音频之后，可以通过对待处理音频进行内容识别，得到内容向量和时间信息，并结合内容向量和时间信息对待处理音频进行分离，实现人声分离的目的。容易注意到的是，由于人声分离的过程中同时结合了内容向量和时间信息，因此切割后的音频片段中可以保留完整的内容信息，使得该音频片段对应的特征向量更具有区分性，从而达到了提高分离结果的准确性，增加整体特征的可区分性的效果，解决了相关技术中提供的人声分离方法的分离效果较差的问题。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开的音频处理方法的流程图；

图2是根据本公开的音频分离模型和辅助分离模型的示意图；

图3是根据本公开的音频处理装置的示意图；

图4是用来实现本公开实施例的音频处理方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

目前，人声分离的常用算法可以包括TDNN(Time Delay Neural Networks，时延神经网络)-xvector(用于提取用户特征向量)+AHC(agglomerative hierarchicalclustering，分层次聚类)，但是，该方案比较繁琐，不是端到端的实现方案，训练与测试过程可能不匹配；对于多个用户声音重叠的情况分离效果不理想。

根据本公开实施例，本公开提供了一种音频处理方法，如图1所示，该方法可以包括如下步骤：

步骤S102，获取待处理音频，其中，待处理音频包括：从多个声源采集到的初始音频数据，多个声源对应于多个对象。

在一些实施例中，在多人对话的场景中，如会议讨论、访谈对话、综艺节目等，可以通过麦克风采集多个不同用户的声音，得到来自多个不同声源的初始音频数据。

步骤S104，对待处理音频进行内容识别，得到内容向量和内容向量对应的时间信息。

上述步骤中的时间信息可以是指内容向量的时间戳，包括但不限于：起始时间和内容向量的持续时间。

在多人对话的场景中，同一个用户说话的上下文存在一定的相关性，为了提高人声分离的效果，可以通过机器学习的方式对待处理音频进行内容识别，识别出待处理音频的文本信息，并且识别出不同粒度的发音单元的时间戳，也即，识别出发音单元在待处理音频中的起始时间和持续时间，此处的不同粒度可以是音素(phone)、字(character)、词(word)等，但不仅限于此。另外，可以根据分离精度需求按照特定粒度对文本信息进行切割，得到多个文本，进一步对每个文本进行特征提取，得到每个文本的特征向量，也即得到上述的内容向量，称为content embedding。

步骤S106，基于内容向量和时间信息对待处理音频进行分离，得到分离结果，其中，分离结果用于从初始音频数据中确定多个对象中每个对象分别对应的目标音频数据。

在一些实施例中，可以基于时间信息对待处理音频进行切割，得到多个音频片段，不同音频片段的长度不同，与现有的均匀切割不同。进一步通过机器学习的方式结合内容向量对多个音频片段进行识别，确定每个音频片段对应的用户，最后将同一个用户的音频片段进行汇总，可以得到每个用户的目标音频数据。

例如，在会议讨论场景中，可以通过麦克风等声音采集装置采集整个会议过程中的音频数据，作为待处理音频，由于整个过程中会有多个参会人员进行发言，而且每个参会人员的发言时间并不固定，因此，在采集到待处理音频之后，可以通过识别待处理音频的内容，确定不同粒度的发音单元的时间戳，进而按照识别出的时间戳对待处理音频进行分割，得到音频片段，此时，音频片段的粒度与内容向量的粒度相同，通过结合内容向量对音频片段进行识别，可以准确确定出每个参会人员的发言音频，达到人声分离的目的。

通过上述步骤，在获取到待处理音频之后，可以通过对待处理音频进行内容识别，得到内容向量和时间信息，并结合内容向量和时间信息对待处理音频进行分离，实现人声分离的目的。容易注意到的是，由于人声分离的过程中同时结合了内容向量和时间信息，因此切割后的音频片段中可以保留完整的内容信息，使得该音频片段对应的特征向量更具有区分性，从而达到了提高分离结果的准确性，增加整体特征的可区分性的效果，解决了相关技术中提供的人声分离方法的分离效果较差的问题。

可选的，对待处理音频进行内容识别，得到内容向量和时间信息包括：利用强制对齐模型对待处理音频进行识别，得到文本信息和时间信息；利用特征生成模型对文本信息进行特征提取，得到内容向量。

上述的强制对齐模型可以是通过开源数据Aishell或LibriSpeech等，在常见的模型框架，如GMM(Gaussian Mixture Model，高斯混合模型)-HMM(Hidden Markov Model，隐马尔可夫模型)，LSTM((Long Short Term Memory，长短期记忆网络)-CTC(ConnectionistTemporal Classification，联级时序分类)，Chain，CNN(convolutional neuralnetworks，卷积神经网络)RNN(Recurrent Neural Network，循环神经网络)-T)等基础上，预先训练得到的模型。该模型的输入可以是音频的Mel谱，输出为预测的每个发音单元的概率，训练的损失是CE(Cross Entropy Loss，交叉熵损失)，反复迭代多轮后收敛，得到一个性能稳定的模型，这样应用时输入Mel谱即可得到对应的文本信息与时间信息，即音素(phone)，字(character)，词(word)的时间戳。

上述的特征生成模型可以是常见的特征提取模型，本公开对此不作具体限定，输入为音素(phone)，字(character)，词(word)等发音单元，输出为相应的特征向量。

在一些实施例中，在获取到待处理音频之后，可以提取待处理音频的Mel谱，例如，可以通过梅尔标度滤波器组对待处理音频进行处理，变换得到相应的Mel谱，但不仅限于此。将Mel谱输入到强制对齐模型，得到对应的文本信息和时间信息，例如，音素以及相应的时间信息，然后将文本信息通过特征生成模型映射到特征向量，也即，得到上述的内容向量。

通过上述步骤，通过预先构建强制对齐模型和特征生成模型对待处理音频进行内容识别，达到了提高内容识别效率和准确率，进而提升人声分离准确的效果。

可选的，内容向量包括：预设粒度的多个文本的特征向量，时间信息包括：多个文本的时间戳，基于内容向量和内容向量对应的时间信息对待处理音频进行分离，得到分离结果包括：基于每个文本的时间戳对待处理音频进行切割，得到多个目标音频；利用音频分离模型基于多个文本的特征向量对多个目标音频进行分离，得到分离结果。

上述的预设粒度可以是音素(phone)，字(character)，词(word)等，但不仅限于此。预设粒度的文本可以是待处理音频中的发音单元。

上述的音频分离模型可以是基于PIT(Permutation Invariant Train，置换不变训练)的深度神经网络的人声分离模块。如图2所示，该模型可以由多层BLSTM(BinaryLong-Short Term Memory，双向长短时记忆模型)，Linear映射层，sigmod激活层构成，训练的损失函数为BCE(Binary Cross Entropy，二值交叉熵)，策略是PIT。以训练音频包含2个用户分别为A和B，则预测的输出结果如图中的输出层所示，由于不知道输出层中上下两个结果与两个用户的对应关系，可以将两种情况都进行计算，选择Loss较小的结果作为最终的损失。需要说明的是，如果2个用户的声音在事件上发生重叠，则两个结果对应的概率都比较高。

在一些实施例中，可以根据时间信息将待处理音频进行相同粒度的切割，得到多个音频片段(即上述的多个目标音频)，也即，音频分离模型的输入的粒度与contentembedding相当，两者可以都是音素，也可以是字或词。对每个音频片段提取Mel谱，然后与特征生成模型输出的每个发音元素的特征向量，一起输入到音频分离模型进行分离，得到最终的人声分离结果。

通过上述步骤，通过基于每个文本的时间戳对待处理音频进行切割，确保切割后的目标音频保留完整的内容，并利用预先训练好的音频分离模型对多个目标音频和多个文本的特征向量进行人声分离，达到提高人声分离效率和准确率的效果。

可选的，音频分离模型至少包括：第一层双向长短时记忆模型和第二层双向长短时记忆模型，利用音频分离模型基于多个文本的特征向量对多个目标音频进行分离，得到分离结果包括：将多个目标音频输入至第一层双向长短时记忆模型进行处理，得到第一输出向量；将第一输出向量和多个文本的特征向量进行拼接，得到拼接向量；将拼接向量输入至第二层双向长短时记忆模型进行处理，得到分离结果。

在一些实施例中，由于音频分离模型需要对每个文本的特征向量和多个音频片段进行处理，因此，可以对每个音频片段提取Mel谱然后输入到Stacked BLSTM，得到相应粒度的特征向量H，然后将第一个Stacked BLSTM的输出向量H与相应的文本的特征向量C进行拼接得到向量M，并将向量输入至第二个Stacked BLSTM，作为音频分离模型后续模块的输入，如图2所示。

通过上述步骤，通过将第一输出向量和多个文本的特征向量进行拼接，使得音频分离模型在对第一输出向量进行识别的过程中，可以充分考虑多个文本的内容，达到了使拼接特征更具有区分性，提高人声分离准确度的效果。

可选的，该方法还包括：获取训练样本，其中，训练样本包括：训练音频和训练音频对应的标注结果，训练音频包括：从多个训练声源采集到的音频数据，多个训练声源对应于多个训练对象；对训练音频进行内容识别，得到训练音频对应的训练向量和训练向量对应的时间信息；基于训练向量和训练向量对应的时间信息对训练音频进行分离，得到第一预测结果，其中，第一预测结果用于表征训练向量对应的训练对象的概率；对标注结果和第一预测结果进行处理，得到第一损失函数；基于第一损失函数调整音频分离模型的模型参数。

上述的训练样本可以是收到的大量的多人对话的音频数据，并且包含少量比例的混叠(10％～20％)。标注结果可以是通过人工标注得到的特定粒度下不同音频片段对应的训练对象。

需要说明的是，为了提高训练样本的质量，可以对训练样本进行预处理，包括去除噪声，包括环境噪声，忙音，彩铃声等，但不仅限于此，得到高质量的音频。另外，为了确保训练样本的数量满足训练需求，可以对高质量的音频进行数据增强，包括时域弯折，频域掩盖等，但不仅限于此。

在一些实施例中，对于训练音频，可以提取Mel谱后输入到强制对齐模型，得到多个文本和时间戳，然后将多个文本通过特征生成模型应得到特征向量C，然后根据时间信息将训练音频进行相同粒度的切割。如图2所示，对每个音频片段提取Mel谱然后输入到第一个Stacked BLSTM，得到相应粒度的高级特征向量H，将H与C进行拼接得到M，将M输入到第二个Stacked BLSTM，得到相应的第一预测结果，即相应训练对象的概率，通过策略PIT得到相应的第一损失函数，并基于该损失函数更新音频分离模型的模型参数，从而训练得到一个高性能的音频分离模型。

通过上述步骤，通过训练样本对音频分离模型进行训练，确保训练得到一个高性能的音频分离模型，从而达到了提高人声分离准确度的效果。

可选的，在对标注结果和第一预测结果进行处理，得到第一损失函数之后，该方法还包括：获取目标向量，其中，目标向量为输入至音频分离模型的第二层双向长短时记忆模型的向量；利用辅助分离模型对目标向量进行预测，得到目标向量对应的第二预测结果，其中，第二预测结果用于表征目标向量对应的训练对象；基于标注结果和第二预测结果，生成第二损失函数；基于第一损失函数和第二损失函数，得到总损失函数；基于总损失函数调整音频分离模型的模型参数。

上述的辅助分离模型可以由Linear映射层，Tanh激活层，Normalize规整层构成，如图2中右侧模型所示。输入为第一个Stacked BLSTM的输出向量与content embedding拼接后的拼接向量，输出为相应的训练对象的特征向量。此处的特征向量代表了训练对象的发音特征，例如声带、口腔大小、鼻腔、喉咙等生理结构，通过该特征向量可以用于对训练对象的音频二次进行相似性比较。辅助分离模型训练的损失函数可以采用2范数损失函数，用以计算辅助分离模型的输出结果与标注结果之间的误差，计算公式如下：

其中，J^DC表示第二损失函数；V表示输出结果，V＝[v₁，…，v_T]^T T表示训练音频切割后的音频片段的数量；L＇表示标注结果，维度是T*2^c，C表示训练对象的个数，L＇中每行是one-hot(只有一个1其他都是0)形式，例如，假设C是2，则切割后的音频片段对应4中情况：0:non-speech，1:speaker 1，2:speaker 2，3:overlapping，如果第一个音频片段是静音，那么L的第一行就是[1 0 0 0]，第二个音频片段是speaker 1，那么第二行就是[0 1 0 0]，第三个音频片段是speaker 2，那么第三行就是[0 0 3 0]，第四个音频片段是speaker 1和speaker 2，那么第四行就是[0 0 0 1]；F表示范数的类型，F＝2表示2范数。

在一些实施例中，如图2所示，对于训练音频，在通过前述步骤得到拼接向量M之后，可以在将拼接向量M输入到第二个Stacked BLSTM的同时，将拼接向量输入到辅助分离模型，得到相应的第二预测结果，即相应训练对象的特征向量，通过2范数损失得到相应的第二损失函数，通过对两个损失函数进行加权和，可以得到总损失函数，计算公式如下：

J^MULTI＝(1-α)J^PIT+αJ^DC.，

其中，J^PIT表示第一损失函数，J^MULTI表示总损失函数，α表示超参数，用于调节两个损失函数的权重，优选的取值为0.4。

进而基于总损失函数，采用现有优化算法(如随机梯度下降算法、最小二乘法等)更新音频分离模型的模型参数，使得第一个Stacked BLSTM可以学习到辅助分离模型的知识，也即拼接模型包含有不同训练对象的特征向量，从而训练得到一个高性能的音频分离模型。

通过上述步骤，在音频分离模型训练过程中，通过结合辅助分离模型的输出结果计算总损失函数，确保训练得到的音频分离模型可以学习到不同训练对象的发音特征，从而在人声分离过程中可以准确确定出属于同一个用户的音频片段，进而达到了提高人声分离准确度的效果。

可选的，基于总损失函数调整音频分离模型的模型参数包括：基于总损失函数，利用随机梯度下降算法调整音频分离模型的模型参数。

在一些实施例中，在计算得到总损失函数之后，可以采用随机梯度下降算法(Stochastic Gradient Descent，SGD)计算损失函数的梯度，进而更新音频分离模型的模型参数，通过反复迭代多轮直至收敛。随机梯度下降算法的实现过程与现有技术相同，在此不作赘述。

通过上述步骤，通过随机梯度下降算法调整模型参数，从而达到降低学习时间，提升音频分离模型训练效率的效果。

基于上述分析可知，本公开通过强制对齐模型得到发音单元以及对应的时间信息，结合时间信息即可对音频进行内容信息的切割，与传统的等长切割不同，这样可以保留完整的内容信息，并且在音频片段所属用户的特征的基础上增加了内容信息，使得整体的特征更具有区分性；另外基于顺序无关的准则构建了端到端的说话人分离***，在使用时支持可变说话人数(网络能支持的最大说话人个数范围内)，整体结构简单，对于说话重叠的情形也有较好的分离效果；另外引入了深度聚类的辅助分离模型，通过双损失函数，进一步提升了人声分离的准确性。

需要说明的是，本实施例中的待处理音频并不是针对某一特定用户的音频输出，并不能反映出某一特定用户的个人信息，而且本实施例中所涉及的音频数据的获取、存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种音频处理装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图3是根据本公开的音频处理装置的示意图，如图3所示，该装置包括：获取模块32，用于获取待处理音频，其中，待处理音频包括：从多个声源采集到的初始音频数据，多个声源对应于多个对象；识别模块34，用于对待处理音频进行内容识别，得到内容向量和内容向量对应的时间信息；分离模块36，用于基于内容向量和时间信息对待处理音频进行分离，得到分离结果，其中，分离结果用于从初始音频数据中确定多个对象中每个对象分别对应的目标音频数据。

可选的，识别模块包括：识别单元，用于利用强制对齐模型对待处理音频进行识别，得到文本信息和时间信息；提取单元，用于利用特征生成模型对文本信息进行特征提取，得到内容向量。

可选的，内容向量包括：预设粒度的多个文本的特征向量，时间信息包括：多个文本的时间戳，分离模块包括：切割单元，用于基于每个文本的时间戳对待处理音频进行切割，得到多个目标音频；分离单元，用于利用音频分离模型基于多个文本的特征向量对多个目标音频进行分离，得到分离结果。

可选的，音频分离模型至少包括：第一层双向长短时记忆模型和第二层双向长短时记忆模型，分离单元还用于：将多个目标音频输入至第一层双向长短时记忆模型进行处理，得到第一输出向量；将第一输出向量和多个文本的特征向量进行拼接，得到拼接向量；将拼接向量输入至第二层双向长短时记忆模型进行处理，得到分离结果。

可选的，该装置还包括：获取模块还用于获取训练样本，其中，训练样本包括：训练音频和训练音频对应的标注结果，训练音频包括：从多个训练声源采集到的音频数据，多个训练声源对应于多个训练对象；识别模块还用于对训练音频进行内容识别，得到训练音频对应的训练向量和训练向量对应的时间信息；分离模块还用于基于训练向量和训练向量对应的时间信息对训练音频进行分离，得到第一预测结果，其中，第一预测结果用于表征训练向量对应的训练对象的概率；处理模块，用于对标注结果和第一预测结果进行处理，得到第一损失函数；调整模块，用于基于第一损失函数调整音频分离模型的模型参数。

可选的，该装置还包括：获取模块还用于获取目标向量，其中，目标向量为输入至音频分离模型的第二层双向长短时记忆模型的向量；预测模块，用于利用辅助分离模型对目标向量进行预测，得到目标向量对应的第二预测结果，其中，第二预测结果用于表征目标向量对应的训练对象；第一生成模块，用于基于标注结果和第二预测结果，生成第二损失函数；第二生成模块，用于基于第一损失函数和第二损失函数，得到总损失函数；调整模块还用于基于总损失函数调整音频分离模型的模型参数。

可选的，调整模块包括：调整单元，用于基于总损失函数，利用随机梯度下降算法调整音频分离模型的模型参数。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图4示出了可以用来实施本公开的实施例的示例电子设备400的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图4所示，设备400包括计算单元401，其可以根据存储在只读存储器(ROM)402中的计算机程序或者从存储单元408加载到随机访问存储器(RAM)403中的计算机程序，来执行各种适当的动作和处理。在RAM 403中，还可存储设备400操作所需的各种程序和数据。计算单元401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出(I/O)接口405也连接至总线404。

设备400中的多个部件连接至I/O接口405，包括：输入单元406，例如键盘、鼠标等；输出单元407，例如各种类型的显示器、扬声器等；存储单元408，例如磁盘、光盘等；以及通信单元409，例如网卡、调制解调器、无线通信收发机等。通信单元409允许设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理，例如音频处理方法。例如，在一些实施例中，音频处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元408。在一些实施例中，计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到设备400上。当计算机程序加载到RAM 403并由计算单元401执行时，可以执行上文描述的音频处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元401可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行音频处理方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式***的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种音频处理方法，包括：

获取待处理音频，其中，所述待处理音频包括：从多个声源采集到的初始音频数据，所述多个声源对应于多个对象；

对所述待处理音频进行内容识别，得到内容向量和所述内容向量对应的时间信息；

基于所述内容向量和所述时间信息对所述待处理音频进行分离，得到分离结果，其中，所述分离结果用于从所述初始音频数据中确定所述多个对象中每个对象分别对应的目标音频数据。

2.根据权利要求1所述的方法，其中，所述对所述待处理音频进行内容识别，得到内容向量和所述时间信息包括：

利用强制对齐模型对所述待处理音频进行识别，得到文本信息和所述时间信息；

利用特征生成模型对所述文本信息进行特征提取，得到所述内容向量。

3.根据权利要求2所述的方法，其中，所述内容向量包括：预设粒度的多个文本的特征向量，所述时间信息包括：所述多个文本的时间戳，所述基于所述内容向量和所述时间信息对所述待处理音频进行分离，得到分离结果包括：

基于每个文本的时间戳对所述待处理音频进行切割，得到多个目标音频；

利用音频分离模型基于所述多个文本的特征向量对所述多个目标音频进行分离，得到所述分离结果。

4.根据权利要求3所述的方法，其中，所述音频分离模型至少包括：第一层双向长短时记忆模型和第二层双向长短时记忆模型，所述利用音频分离模型基于所述多个文本的特征向量对所述多个目标音频进行分离，得到所述分离结果包括：

将所述多个目标音频输入至所述第一层双向长短时记忆模型进行处理，得到第一输出向量；

将所述第一输出向量和所述多个文本的特征向量进行拼接，得到拼接向量；

将所述拼接向量输入至所述第二层双向长短时记忆模型进行处理，得到所述分离结果。

5.根据权利要求3或4所述的方法，还包括：

获取训练样本，其中，所述训练样本包括训练音频和所述训练音频对应的标注结果，所述训练音频包括：从多个训练声源采集到的音频数据，所述多个训练声源对应于多个训练对象；

对所述训练音频进行内容识别，得到所述训练音频对应的训练向量和所述训练向量对应的时间信息；

基于所述训练向量和所述训练向量对应的时间信息对所述训练音频进行分离，得到第一预测结果，其中，所述第一预测结果用于表征所述训练向量对应的训练对象的概率；

对所述标注结果和所述第一预测结果进行处理，得到第一损失函数；

基于所述第一损失函数调整所述音频分离模型的模型参数。

6.根据权利要求5所述的方法，在对所述标注结果和所述第一预测结果进行处理，得到第一损失函数之后，还包括：

获取目标向量，其中，所述目标向量为输入至所述音频分离模型的第二层双向长短时记忆模型的向量；

利用辅助分离模型对所述目标向量进行预测，得到所述目标向量对应的第二预测结果，其中，所述第二预测结果用于表征所述目标向量对应的训练对象；

基于所述标注结果和所述第二预测结果，生成第二损失函数；

基于所述第一损失函数和所述第二损失函数，得到总损失函数；

基于所述总损失函数调整所述音频分离模型的模型参数。

7.根据权利要求6所述的方法，其中，基于所述总损失函数调整所述音频分离模型的模型参数包括：

基于所述总损失函数，利用随机梯度下降算法调整所述音频分离模型的模型参数。

8.一种音频处理装置，包括：

获取模块，用于获取待处理音频，其中，所述待处理音频包括：从多个声源采集到的初始音频数据，所述多个声源对应于多个对象；

识别模块，用于对所述待处理音频进行内容识别，得到内容向量和所述内容向量对应的时间信息；

分离模块，用于基于所述内容向量和所述时间信息对所述待处理音频进行分离，得到分离结果，其中，所述分离结果用于从所述初始音频数据中确定所述多个对象中每个对象分别对应的目标音频数据。

9.根据权利要求8所述的装置，其中，所述识别模块包括：

识别单元，用于利用强制对齐模型对所述待处理音频进行识别，得到文本信息和所述时间信息；

提取单元，用于利用特征生成模型对所述文本信息进行特征提取，得到所述内容向量。

10.根据权利要求9所述的装置，其中，所述内容向量包括：预设粒度的多个文本的特征向量，所述时间信息包括：所述多个文本的时间戳，所述分离模块包括：

切割单元，用于基于每个文本的时间戳对所述待处理音频进行切割，得到多个目标音频；

分离单元，用于利用音频分离模型基于所述多个文本的特征向量对所述多个目标音频进行分离，得到所述分离结果。

11.根据权利要求10所述的装置，其中，所述音频分离模型至少包括：第一层双向长短时记忆模型和第二层双向长短时记忆模型，所述分离单元还用于：

12.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

13.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。

14.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。