CN111147871B

CN111147871B - 直播间歌唱识别方法、装置及服务器、存储介质

Info

Publication number: CN111147871B
Application number: CN201911229100.0A
Authority: CN
Inventors: 张大威
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2021-10-12
Anticipated expiration: 2039-12-04
Also published as: CN111147871A

Abstract

本公开关于一种直播间歌唱识别方法、装置及服务器、存储介质，涉及直播领域。首先通过经音乐声分类模型对声音特征向量序列进行分类，并得到分类结果；如果分类结果表征声音特征向量序列包括音乐声特征向量，则从直播流中提取出包括音乐声特征向量的音频流；然后提取出包括音乐声特征向量的音频流中的人声特征向量；最后经清唱声分类模型对人声特征向量进行分类，并得到分类结果。通过上述的方式分析得出分别通过先通过音乐声分类模型对声音特征向量序列进行分类、再经过清唱声分类模型对人声特征向量进行分类，从而得到的分类结果更加精确，能够更准的确定当前的直播间的主播是否正在进行歌唱表演。

Description

直播间歌唱识别方法、装置及服务器、存储介质

技术领域

本公开涉及直播领域，尤其涉及一种直播间歌唱识别方法、装置及服务器、存储介质。

背景技术

随着移动互联网的发展，直播应用的发展有着长足的进步和发展，主播仅需在直播应用开设直播间即可仅需直播表演。听主播演唱歌曲是直播应用用户感兴趣的表演方式之一

相关技术中，常采用混合高斯模型(Gaussian Mixture Model,GMM)或者支持向量机(Support Vector Machine,SVM)等传统的浅层模型方法进行歌唱识别，准确率低，常将主播在聊天、放背景音乐、做游戏甚至离开，即包括了许多用户不感兴趣的内容误推送至观众端，然而当用户根据直播间的摘要信息进入直播间时，导致用户的观看体验低。

发明内容

本公开提供一种直播间歌唱识别方法、装置及***，以至少解决相关技术中对演唱语音直播片段的识别准确度低的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种直播间歌唱识别方法，所述方法包括：

获得目标应用程序的直播间处于播放状态的直播流，并对所述直播流进行处理，以得到所述直播流的声音特征向量序列；

经音乐声分类模型对所述声音特征向量序列进行分类，并得到分类结果，其中，所述音乐声分类模型的目标函数用于将所述声音特征向量序列是否包括音乐声特征向量作为分类基准进行分类；

如果所述分类结果表征所述声音特征向量序列包括音乐声特征向量，则从所述直播流中提取出包括音乐声特征向量的音频流；

提取出所述包括音乐声特征向量的音频流中的人声特征向量；

经清唱声分类模型对所述人声特征向量进行分类，并得到分类结果，其中，所述清唱声分类模型的目标函数用于将所述人声特征向量是否包括清唱声特征向量作为分类基准进行分类。

根据本公开实施例的第二方面，提供了一种直播间歌唱识别装置，装置包括：

向量获得单元，被配置为执行获得目标应用程序的直播间处于播放状态的直播流，并对所述直播流进行处理，以得到所述直播流的声音特征向量序列；

第一分类单元，被配置为执行经音乐声分类模型对所述声音特征向量序列进行分类，并得到分类结果，其中，所述音乐声分类模型的目标函数用于将所述声音特征向量序列是否包括音乐声特征向量作为分类基准进行分类；

音频流提取单元，被配置为执行如果所述分类结果表征所述声音特征向量序列包括音乐声特征向量，则从所述直播流中提取出包括音乐声特征向量的音频流；

人声特征向量提取单元，被配置为执行提取出所述包括音乐声特征向量的音频流中的人声特征向量；

第二分类单元，被配置为执行经清唱声分类模型对所述人声特征向量进行分类，并得到分类结果，其中，所述清唱声分类模型的目标函数用于将所述人声特征向量是否包括清唱声特征向量作为分类基准进行分类。

根据本公开实施例的第三方面，提供了一种服务器，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，处理器被配置为执行指令，以实现本公开实施例第一方面的直播间歌唱识别方法。

根据本公开实施例的第三方面，提供了一种存储介质，当存储介质中的指令由服务器的处理器执行时，使得服务器能够执行如本公开实施例第一方面的直播间歌唱识别方法。

根据本公开实施例的第四方面，提供一种计算机程序产品，包括指令，当计算机程序产品被计算机所执行时，该指令使得计算机执行本公开实施例第一方面的直播间歌唱识别方法。

本公开的实施例提供的技术方案至少带来以下有益效果：首先通过经音乐声分类模型对声音特征向量序列进行分类，并得到分类结果；如果分类结果表征声音特征向量序列包括音乐声特征向量，则从直播流中提取出包括音乐声特征向量的音频流；然后提取出包括音乐声特征向量的音频流中的人声特征向量；最后经清唱声分类模型对人声特征向量进行分类，并得到分类结果。通过上述的方式分析得出分别通过先通过音乐声分类模型对声音特征向量序列进行分类、再经过清唱声分类模型对人声特征向量进行分类，从而得到的分类结果更加精确，能够更准的确定当前的直播间的主播是否正在进行歌唱表演。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是本公开示例性实施例提供的用户终端与服务器的交互示意图；

图2是根据一示例性实施例示出的一种直播间歌唱识别方法的流程图；

图3是根据一示例性实施例示出的一种直播间歌唱识别方法的流程图；

图4为图3中的S32的具体流程图；

图5为根据一示例性实施例示出的长短期记忆分类模型的结构的示意图；

图6为图2中的S22的具体流程图；

图7为图2中的S26的具体流程图；

图8是根据一示例性实施例示出的一种直播间歌唱识别方法的流程图。

图9是根据一示例性实施例示出的一种直播间歌唱识别装置的框图；

图10是图9中的向量获得单元的具体模块框图；

图11是图10中的向量提取模块的具体子模块框图；

图12是图9中的第一分类单元的具体模块框图；

图13是图9中的第二分类单元的具体模块框图；

图14是根据一示例性实施例示出的一种直播间歌唱识别装置的框图；

图15是根据一示例性实施例示出的一种服务器的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

长短期记忆(LSTM，Long Short-Term Memory)网络是一种时间循环神经网络，是为了解决普通的RNN(循环神经网络)存在的长期依赖问题而专门设计的。由于独特的设计结构，LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件。LSTM网络的巧妙之处是通过增加输入门，遗忘门和输出门，设计连接间的权重系数，使得LSTM网络能够累积距离较远节点间的长期联系，实现对数据的长期记忆性。

本公开实施例提供了一种直播间歌唱识别方法，应用于服务器200，其中，如图1所示，服务器200与安装有社交应用程序的用户终端100通过网络300通信连接，以进行信息交互。其中，用户终端100可以为智能手机、平板电脑、台式电脑等电子设备。社交应用程序设计有主播用于直播表演的直播间、用于指引用户进入直播间的摘要信息展示列表界面。具体地，社交应用程序可以为“全民K歌”、“唱吧”、“快手”、“抖音”等具有直播功能的社交应用程序。

图2是根据一示例性实施例示出的一种直播间歌唱识别方法的流程图，如图2所示，包括以下步骤。

S21：获得目标应用程序的直播间处于播放状态的直播流，并对直播流进行处理，以得到所述直播流的声音特征向量序列。

当主播在目标应用程序上传注册信息，注册成功以后，即可开设直播间进行直播表演(如，唱歌)。当主播在表演之余，可能在聊天、比赛、做游戏等，这些游戏内容可能用户不感兴趣。当主播启动目标应用程序的直播间时，直播间即处于播放状态而产生直播流，此时，获得目标应用程序的直播间处于播放状态的直播流(可能携带主播唱歌、比赛、做游戏、聊天的音视频信息)。本公开实施例中，需要对音频流进行分析，因此，需要对直播流进行处理，得到声音特征向量序列。

S22：经音乐声分类模型对声音特征向量序列进行分类，并得到分类结果，其中，音乐声分类模型的目标函数用于将声音特征向量序列是否包括音乐声特征向量作为分类基准进行分类。

音乐声分类模型是根据纯背景音乐的声音特征向量序列作为正样本，聊天的声音特征向量序列、噪音的声音特征向量序列等非音乐声的声音特征向量序列作为负样本输入到训练网络中训练而成。训练网络可以为长短期记忆网络、神经网络、胶囊网络等，在此不做限定。

S23：判断分类结果是否表征声音特征向量序列包括音乐声特征向量，如果是，则执行S24。

当分类结果表征声音特征向量序列包括音乐声特征向量时，说明此时主播可能在播放背景音乐唱歌，但也有可能播放背景音乐在聊天、做游戏等。因而，需要进一步将包含音乐声特征向量的音频流进行分析，以确定直播间在播放背景音乐时，主播是否在唱歌。

S24：从直播流中提取出包括音乐声特征向量的音频流。

具体提取的方式可以为，例如：根据音频流中包含音乐声特征向量的开始时间戳与结束时间戳，截取包含音乐声特征向量的音频流。

S25：提取出包括音乐声特征向量的音频流中的人声特征向量。

由于人声的频段与背景音乐的频段是不同的，因此，可以根据音频流的频段将人声和背景音乐声分离，从而得到人声特征向量。

S26：经清唱声分类模型对人声特征向量进行分类，并得到分类结果，其中，清唱声分类模型的目标函数用于将人声特征向量是否包括清唱声特征向量作为分类基准进行分类。

清唱声分类模型是根据清唱声的声音特征向量序列作为正样本，聊天的声音特征向量序列、噪音的声音特征向量序列等作为负样本输入到训练网络中训练而成。经音乐声分类模型、清唱声分类模型先后对音频流进行分类(即先经音乐声分类模型先识别出包含音乐声的音频流，再将包含音乐声的音频流输入至清唱声分类模型识别出是否包含清唱声)，即可得到分类结果，可以理解地，通过上述的方式得到的分类结果可靠性很高。

该直播间歌唱识别方法首先通过经音乐声分类模型对声音特征向量序列进行分类，并得到分类结果；如果分类结果表征所述声音特征向量序列包括音乐声特征向量，则提取出分类结果表征所述声音特征向量序列包括音乐声特征向量的音频流；然后提取出包括音乐声特征向量的音频流中的人声特征向量；最后经清唱声分类模型对人声特征向量进行分类，并得到分类结果。通过上述的方式分析得出分别通过先通过音乐声分类模型对声音特征向量序列进行分类、再经过清唱声分类模型对人声特征向量进行分类，从而得到的分类结果更加精确，能够更准的确定当前的直播间的主播是否正在进行歌唱表演。

具体地，如图3所示，S11包括：

S31：获得目标应用程序的直播间处于播放状态的直播流，经解码器对直播流进行音视频分离得到音频流。

可以理解地，直播流通常为音视频流，即包含音频流和视频流。解码器可以将一路输入的数字视音频流解码还原成两路输出模拟信号，其中一路输出为视频流，另外一路输出为音频流。

S32：提取音频流中的声音特征向量序列。

具体地，声音特征向量序列为二维声音特征向量序列，如图4所示，S32包括：

S321：对音频流进行处理得到梅尔频谱。

具体的处理方式可以为：首先对音频流进行预加重，预加重是一种对输入信号高频分量进行补偿的信号处理方式。预加重的具体原理为：随着信号速率的增加，信号在传输过程中受损很大，为了能得到比较好的信号波形，就需要对受损的信号进行补偿，预加重就是在传输线的始端增强信号的高频成分，以补偿高频分量在传输过程中的过大衰减。然后对音频流的每一个音频帧进行加哈明窗，加哈明窗的目的是平滑信号，使用哈明窗对音频流加以平滑，可以减弱后续的傅里叶变换以后旁瓣大小和频谱泄露。接着，对加哈明窗后的音频帧进行傅里叶变换，然后对每个音频帧进行求模的平方，得到功率谱。然后，经梅尔滤波器组对功率谱进行滤波，即将一组三角滤波器(例如128个)作用到音频帧上，以将一个883维的向量转化为128维的音频特征向量，然后取128维的音频特征向量的对数，即可得到梅尔频谱。

S322：对梅尔频谱进行多次卷积池化处理，以提取降维后的声音特征向量序列。

例如，将上述得到的梅尔频谱输入到卷积核为3x3，卷积步长为64的卷积层进行卷积处理，然后输入到池化核大小为2x2的池化层进行池化；接着将池化后的数据再次输入到卷积核为3x3，卷积步长为128的卷积层进行第二次卷积处理，然后输入到池化核大小为2x2的池化层进行第二次池化；进一步将第二次池化后的数据再次输入到卷积核为3x3，卷积步长为256的卷积层进行第三次卷积处理，然后将第三次卷积处理后的数据再次输入到卷积核为3x3，卷积步长为256的卷积层进行第四次卷积处理，进一步将第四次卷积处理后的数据再次输入到卷积核为3x3，卷积步长为512的卷积层进行第五次卷积处理，然后将第五次卷积处理后的数据再次输入到卷积核为3x3，卷积步长为512的卷积层进行第六次卷积处理，再将第六次卷积处理后数据输入到池化核大小为2x2的池化层进行第三次池化，从而可以达到提取降维后的声音特征向量序列的目的。当然地，对梅尔频谱进行卷积池化不仅仅限于上述的处理方式，在此仅仅是举例说明。

S323：经至少一个全连接层对降维后的声音特征向量序列进行处理，生成音频流的二维声音特征向量序列。

具体地，全连接层的每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来，其每个神经元与其前一层的所有神经元进行全连接，每个神经元的激励函数，一般采用ReLU函数可以整合卷积层或者池化层中具有类别区分性的局部信息，最后一层全连接层的输出值(如二维声音特征向量序列)被传递给一个输出(如softmax函数)进行分类。

可选地，如上述所描述，音乐声分类模型可以采用长短期记忆分类模型。其中，如图5所示，长短期记忆分类模型包括依次连接的两组依次相连的长短期记忆网络层和随机失活处理层、特征连接层以及全连接层，每个长短期记忆网络层的输出与特征连接层的输入连接，如图6所示，S22包括：

S221：经长短期记忆网络层根据声音特征向量序列中的音频帧之间的上下文依赖关系，生成包含每个时间步的音频帧的特征的声音特征向量序列。

如上所述，LSTM是一种时间循环神经网络，它由记忆块随时间展开而成。LSTM的结构中每个时刻的隐层包含了多个记忆块(通常采用一个记忆块)，每个记忆块包含了多个历史信息记录，每个历史信息记录包含一个区间和三个门。

LSTM能够按照一个顺序处理声音特征向量序列，LSTM中的记忆块通过输入门、遗忘门、输出门的互相作用能够得到当前输入音频帧和之前的音频帧之间的关系，来达到吸收信息，更新状态和输出信息的目的。因此，LSTM的功能为捕捉音频帧之间的依赖关系。通过将LSTM在每个时间步上的输出与随时间分布的全连接网络相连，来更好的捕捉音频帧间的依赖关系，并且，LSTM在每个时间步上的输出可以作为当前输入音频帧的特征，包含上下文依赖关系。

S222：再经随机失活处理层对生成的声音特征向量序列中的部分特征值进行随机归零处理，输出处理后的声音特征向量序列至下一组依次相连的长短期记忆网络层和随机失活处理层，以依次执行与第一组依次相连的长短期记忆网络层和随机失活处理层对上述的声音特征向量序列的相同处理。

随机失活(dropout)是对具有深度结构的人工神经网络进行优化的方法，在学习过程中通过将隐含层的部分权重或输出随机归零，降低节点间的相互依赖性，从而实现神经网络的正则化，降低其结构风险，防止或减轻过拟合。

S223：经特征连接层将每个长短期记忆网络层输出的声音特征向量序列连接生成待分类特征向量。

对于同一个输入声音特征向量序列的音频帧，会经过第一组依次相连的长短期记忆网络层随机失活处理层得到一个输出，然后将得到的输出再经过第二组依次相连的长短期记忆网络层、随机失活处理层的又会得到一个输出，然后将两次得到的输出会被连接成一个向量。所以，对于同一个音频帧来说，第一组依次相连的长短期记忆网络层、随机失活处理层能够捕捉它与在它左边的音频帧之间的依赖关系，第二组依次相连的长短期记忆网络层、随机失活处理层能够捕捉它与在它右边的音频帧之间的依赖关系。因此，由上述的两个输出连接起来的向量能更好捕捉当前音频帧的上下文依赖关系，从而能够更好的表示当前音频帧。

S224：经全连接层对待分类特征向量进行分类，并得到分类结果。

该全连接层与长短期记忆网络层的记忆块可以同时随时间展开。在同一个记忆块中的区间能够抽取不同程度的待分类特征向量的音频帧间的依赖关系。因此，加入一个随时间分布的全连接层来给不同记忆区间的输出以不同的权重，从而更好的汇总依赖关系信息，经全连接层的输出softmax函数对待分类特征向量进行分类，并得到分类结果，且得到的分类结果精确度高。

可选地，如上述所描述，清唱声分类模型可以采用长短期记忆分类模型。其中，如图5所示，长短期记忆分类模型包括依次连接的两组依次相连的长短期记忆网络层和随机失活处理层、特征连接层以及全连接层，每个长短期记忆网络层的输出与特征连接层的输入连接，如图7所示，S26包括：

S261：经长短期记忆网络层根据人声特征向量中的音频帧之间的上下文依赖关系，生成包含每个时间步的音频帧的特征的人声特征向量。

LSTM能够按照一个顺序处理人声特征向量，LSTM中的记忆块通过输入门、遗忘门、输出门的互相作用能够得到当前输入音频帧和之前的音频帧之间的关系，来达到吸收信息，更新状态和输出信息的目的。因此，LSTM的功能为捕捉音频帧之间的依赖关系。通过将LSTM在每个时间步上的输出与随时间分布的全连接网络相连，来更好的捕捉音频帧间的依赖关系，并且，LSTM在每个时间步上的输出可以作为当前输入音频帧的特征，包含上下文依赖关系。

S262：再经随机失活处理层对生成的人声特征向量中的部分特征值进行随机归零处理，输出处理后的人声特征向量至下一组依次相连的长短期记忆网络层和随机失活处理层，以依次执行与第一组依次相连的长短期记忆网络层和随机失活处理层对上述的人声特征向量的相同处理。

S263：经特征连接层将每个长短期记忆网络层输出的人声特征向量连接生成待分类特征向量。

对于同一个输入人声特征向量的音频帧，会经过第一组依次相连的长短期记忆网络层随机失活处理层得到一个输出，然后将得到的输出再经过第二组依次相连的长短期记忆网络层、随机失活处理层的又会得到一个输出，然后将两次得到的输出会被连接成一个向量。所以，对于同一个音频帧来说，第一组依次相连的长短期记忆网络层、随机失活处理层能够捕捉它与在它左边的音频帧之间的依赖关系，第二组依次相连的长短期记忆网络层、随机失活处理层能够捕捉它与在它右边的音频帧之间的依赖关系。因此，由上述的两个输出连接起来的向量能更好捕捉当前音频帧的上下文依赖关系，从而能够更好的表示当前音频帧。

S264：经全连接层对待分类特征向量进行分类，并得到分类结果。

可以理解地，上述的音乐声分类模型、清唱声分类模型具体地训练的过程可以为：将训练样本集中的训练样本输入到训练网络模型(如LSTM网络)中进行分类，得到网络分类结果，根据每个训练样本的分类标识、网络分类结果确定一个交叉熵损失函数；根据小批量梯度下降算法确定多个训练样本的交叉熵损失函数的梯度(其中，梯度是函数上升(或增大)最快的方向，如果想要让损失函数减小，沿着梯度方向更新网络参数会使损失函数增大，沿着梯度的反方向更新网络参数可以使得损失函数减小)；根据梯度确定训练网络模型的网络参数，以使训练网络模型根据训练网络模型对网络参数进行更新(利用小批量梯度下降算法可以优化训练网络模型中的网络参数，使得训练样本的真实结果和训练网络模型输出的网络分类结果计算得到的交叉熵损失函数趋向于0(小于预设的阈值)时，不再投喂新的训练样本，从而得到声音分类模型)。

可以理解地，如图8所示，所述方法还包括：

S27：判断分类结果是否表征人声特征向量包括演唱语音特征向量，如果是，则执行S28。

S28：将直播间的直播摘要信息推送至目标应用程序的直播列表界面展示。

直播列表界面可以设计为目标应用程序的主界面，基于上述的方法，当用户根据直播摘要信息进入直播间时，能观看到歌唱表演，而不是聊天、做游戏等用户不感兴趣的内容，提升了用户的体验感。其中，直播列表界面可以包括多个主播正处于唱歌状态的直播间的直播摘要信息。具体地，直播摘要信息可以包括但不限于直播间的ID、主播的昵称、主播的头像、直播间的粉丝量等等，以便用户根据直播摘要信息选择感兴趣的直播间进入。

图9是根据一示例性实施例示出的一种直播间歌唱识别装置900框图。需要说明的是，本申请实施例所提供的直播间歌唱识别装置900，其基本原理及产生的技术效果和上述实施例相同，为简要描述，本申请实施例部分未提及之处，可参考上述的实施例中相应内容。所述装置900包括向量获得单元901、第一分类单元902、音频流提取单元903、人声特征向量提取单元904以及第二分类单元905，其中，

向量获得单元901，被配置为执行获得目标应用程序的直播间处于播放状态的直播流，并对所述直播流进行处理，以得到所述直播流的声音特征向量序列。

第一分类单元902，被配置为执行经音乐声分类模型对所述声音特征向量序列进行分类，并得到分类结果，其中，所述音乐声分类模型的目标函数用于将所述声音特征向量序列是否包括音乐声特征向量作为分类基准进行分类。

音频流提取单元903，被配置为执行如果分类结果表征所述声音特征向量序列包括音乐声特征向量，则从直播流中提取出包括音乐声特征向量的音频流。

人声特征向量提取单元904，被配置为执行提取出所述包括音乐声特征向量的音频流中的人声特征向量。

第二分类单元905，被配置为执行经清唱声分类模型对所述人声特征向量进行分类，并得到分类结果，其中，所述清唱声分类模型的目标函数用于将所述人声特征向量是否包括清唱声特征向量作为分类基准进行分类。

该直播间歌唱识别装置900在执行时可以实现如下功能：首先通过经音乐声分类模型对声音特征向量序列进行分类，并得到分类结果；如果分类结果表征声音特征向量序列包括音乐声特征向量，则从直播流中提取出包括音乐声特征向量的音频流；然后提取出包括音乐声特征向量的音频流中的人声特征向量；最后经清唱声分类模型对人声特征向量进行分类，并得到分类结果。通过上述的方式分析得出分别通过先通过音乐声分类模型对声音特征向量序列进行分类、再经过清唱声分类模型对人声特征向量进行分类，从而得到的分类结果更加精确，能够更准的确定当前的直播间的主播是否正在进行歌唱表演。

具体地，如图10所示，向量获得单元901可以包括音视频分离模块1001、向量提取模块1002，其中，

音视频分离模块1001，被配置为执行获得目标应用程序的直播间处于播放状态的直播流，经解码器对直播流进行音视频分离得到音频流。

向量提取模块1002，被配置为执行提取音频流中的声音特征向量序列。

具体地，声音特征向量序列为二维声音特征向量序列，如图11所示，向量提取模块1201可以包括频谱获得子模块1101、卷积池化子模块1102、二维特征生成子模块1103，其中，

频谱获得子模块1101，被配置为执行对音频流进行处理得到梅尔频谱。

卷积池化子模块1102，被配置为执行对梅尔频谱进行多次卷积池化处理，以提取降维后的声音特征向量序列。

二维特征生成子模块1103，被配置为执行经至少一个全连接层对降维后的声音特征向量序列进行处理，生成音频流的二维声音特征向量序列。

可选地，音乐声分类模型为长短期记忆分类模型，长短期记忆分类模型包括依次连接的两组依次相连的长短期记忆网络层和随机失活处理层、特征连接层以及全连接层，每个长短期记忆网络层的输出与特征连接层的输入连接。如图12所示，第一分类单元902包括人声特征向量提取模块1201、随机归零模块1202、向量拼接模块1203以及第三分类模块1204，其中，

声音特征向量序列提取模块1201，被配置为执行经长短期记忆网络层根据声音特征向量序列中的音频帧之间的上下文依赖关系，生成包含每个时间步的音频帧的特征的特征向量。

随机归零模块1202，被配置为执行再经随机失活处理层对生成的声音特征向量序列中的部分特征值进行随机归零处理，输出处理后的声音特征向量序列至下一组依次相连的长短期记忆网络层和随机失活处理层，以依次执行与第一组依次相连的长短期记忆网络层和随机失活处理层对上述的特征向量的相同处理。

向量拼接模块1203，被配置为执行经特征连接层将每个长短期记忆网络层输出的声音特征向量序列连接生成待分类特征向量。

分类模块1204，被配置为执行经全连接层对待分类特征向量进行分类，并得到分类结果。

具体地，如图14所示，向量获得单元901可以包括音视频分离模块1001、向量提取模块1002，其中，

可选地，清唱声分类模型也为长短期记忆分类模型，长短期记忆分类模型包括依次连接的两组依次相连的长短期记忆网络层和随机失活处理层、特征连接层以及全连接层，每个长短期记忆网络层的输出与特征连接层的输入连接。如图13所示，第二分类单元905包括清唱声特征向量提取模块1301、随机归零模块1302、向量拼接模块1303以及分类模块1304，其中，

清唱声特征向量提取模块1301，被配置为执行经长短期记忆网络层根据清唱声特征向量中的音频帧之间的上下文依赖关系，生成包含每个时间步的音频帧的特征的特征向量。

随机归零模块1302，被配置为执行再经随机失活处理层对生成的清唱声特征向量中的部分特征值进行随机归零处理，输出处理后的清唱声特征向量至下一组依次相连的长短期记忆网络层和随机失活处理层，以依次执行与第一组依次相连的长短期记忆网络层和随机失活处理层对上述的特征向量的相同处理。

向量拼接模块1303，被配置为执行经特征连接层将每个长短期记忆网络层输出的清唱声特征向量连接生成待分类特征向量。

分类模块1304，被配置为执行经全连接层对待分类特征向量进行分类，并得到分类结果。

可选地，如图14所示，所述装置900还包括：

信息推送单元1401，被配置为执行如果分类结果表征人声特征向量包括演唱语音特征向量，则将直播间的直播摘要信息推送至目标应用程序的直播列表界面展示。

关于上述实施例中的装置900，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图15是根据一示例性实施例示出的一种用于执行直播间歌唱识别方法的服务器200的框图。参照图15，服务器102包括处理组件1501，其进一步包括一个或多个处理器，以及由存储器1502所代表的存储器资源，用于存储可由处理组件1501的执行的指令，例如应用程序。存储器1502中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1501被配置为执行指令，以执行上述的文本拦截方法。

例如，可以执行如下步骤：

服务器102还可以包括一个电源组件1503被配置为执行服务器102的电源管理，一个有线或无线的网络接口1504被配置为将服务器102连接到网络300，和一个输入输出(I/O)接口1505。服务器102可以操作基于存储在存储器1502的操作***，例如WindowsServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM或类似。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器，上述指令可由所述装置900的处理器执行以完成本公开实施例所述的方法，例如，可以执行如下步骤：

可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本申请实施例还提供了一种计算机程序产品，包括指令，当计算机程序产品被计算机所执行时，该指令使得计算机执行本公开上述实施例的直播间歌唱识别方法，例如，可以执行如下步骤：

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种直播间歌唱识别方法，其特征在于，所述方法包括：

如果所述分类结果表征所述声音特征向量序列中包括音乐声特征向量，则从所述直播流中提取出包括音乐声特征向量的音频流；

2.根据权利要求1所述的方法，其特征在于，所述音乐声分类模型为长短期记忆分类模型，所述长短期记忆分类模型包括依次连接的两组依次相连的长短期记忆网络层和随机失活处理层、特征连接层以及全连接层，每个所述随机失活处理层的输出与所述特征连接层的输入连接，所述经所述音乐声分类模型对所述声音特征向量序列进行分类，并得到分类结果包括：

经所述长短期记忆网络层根据声音特征向量序列中的音频帧之间的上下文依赖关系，生成包含每个时间步的音频帧的特征的声音特征向量序列；

再经随机失活处理层对生成的声音特征向量序列中的部分特征值进行随机归零处理，输出处理后的声音特征向量序列至下一组依次相连的长短期记忆网络层和随机失活处理层，以依次执行与第一组依次相连的长短期记忆网络层和随机失活处理层对上述的声音特征向量序列的相同处理；

经所述特征连接层将每个所述随机失活处理层输出的声音特征向量序列连接生成待分类特征向量；

经全连接层对所述待分类特征向量进行分类，并得到分类结果。

3.根据权利要求1所述的方法，其特征在于，所述清唱声分类模型为长短期记忆分类模型，所述长短期记忆分类模型包括依次连接的两组依次相连的长短期记忆网络层和随机失活处理层、特征连接层以及全连接层，每个所述随机失活处理层的输出与所述特征连接层的输入连接，所述经所述清唱声分类模型对所述人声特征向量进行分类，并得到分类结果包括：

经所述长短期记忆网络层根据人声特征向量中的音频帧之间的上下文依赖关系，生成包含每个时间步的音频帧的特征的人声特征向量；

再经随机失活处理层对生成的人声特征向量中的部分特征值进行随机归零处理，输出处理后的人声特征向量至下一组依次相连的长短期记忆网络层和随机失活处理层，以依次执行与第一组依次相连的长短期记忆网络层和随机失活处理层对上述的人声特征向量的相同处理；

经所述特征连接层将每个所述随机失活处理层输出的人声特征向量连接生成待分类特征向量；

4.根据权利要求1所述的方法，其特征在于，所述获得目标应用程序的直播间处于播放状态的直播流，并对所述直播流进行处理，以得到所述直播流的声音特征向量序列包括：

获得目标应用程序的直播间处于播放状态的直播流，经解码器对所述直播流进行音视频分离得到音频流；

提取所述音频流中的声音特征向量序列。

5.根据权利要求4所述的方法，其特征在于，所述声音特征向量序列为二维声音特征向量序列，所述提取所述音频流中的声音特征向量序列包括：

对所述音频流进行处理得到梅尔频谱；

对所述梅尔频谱进行多次卷积池化处理，以提取降维后的声音特征向量序列；

经至少一个全连接层对降维后的声音特征向量序列进行处理，生成所述音频流的二维声音特征向量序列。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

如果所述分类结果表征所述声音特征向量序列包括清唱声特征向量，则将所述直播间的直播摘要信息推送至目标应用程序的直播列表界面展示。

7.根据权利要求1所述的方法，其特征在于，在所述获得目标应用程序的直播间处于播放状态的直播流，对所述直播流进行处理，以得到所述直播流的声音特征向量序列之前，所述方法还包括：

根据历史音乐声特征向量及对应的分类标识构成的训练样本集预先训练所述音乐声分类模型，以及根据历史清唱声特征向量及对应的分类标识构成的训练样本集预先训练所述清唱声分类模型。

8.一种直播间歌唱识别装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述音乐声分类模型为长短期记忆分类模型，所述长短期记忆分类模型包括依次连接的两组依次相连的长短期记忆网络层和随机失活处理层、特征连接层以及全连接层，每个所述随机失活处理层的输出与所述特征连接层的输入连接，所述第一分类单元包括：

声音特征向量序列提取模块，被配置为执行经所述长短期记忆网络层根据声音特征向量序列中的音频帧之间的上下文依赖关系，生成包含每个时间步的音频帧的特征的特征向量；

随机归零模块，被配置为执行再经随机失活处理层对生成的声音特征向量序列中的部分特征值进行随机归零处理，输出处理后的声音特征向量序列至下一组依次相连的长短期记忆网络层和随机失活处理层，以依次执行与第一组依次相连的长短期记忆网络层和随机失活处理层对上述的特征向量的相同处理；

向量拼接模块，被配置为执行经所述特征连接层将每个所述随机失活处理层输出的声音特征向量序列连接生成待分类特征向量；

分类模块，被配置为执行经全连接层对所述待分类特征向量进行分类，并得到分类结果。

10.根据权利要求8所述的装置，其特征在于，所述清唱声分类模型为长短期记忆分类模型，所述长短期记忆分类模型包括依次连接的两组依次相连的长短期记忆网络层和随机失活处理层、特征连接层以及全连接层，每个所述随机失活处理层的输出与所述特征连接层的输入连接，所述第二分类单元包括：

人声特征向量提取模块，被配置为执行经所述长短期记忆网络层根据人声特征向量中的音频帧之间的上下文依赖关系，生成包含每个时间步的音频帧的特征的特征向量；

随机归零模块，被配置为执行再经随机失活处理层对生成的人声特征向量中的部分特征值进行随机归零处理，输出处理后的人声特征向量至下一组依次相连的长短期记忆网络层和随机失活处理层，以依次执行与第一组依次相连的长短期记忆网络层和随机失活处理层对上述的特征向量的相同处理；

向量拼接模块，被配置为执行经所述特征连接层将每个所述随机失活处理层输出的人声特征向量连接生成待分类特征向量；

11.根据权利要求8所述的装置，其特征在于，所述向量获得单元包括：

音视频分离模块，被配置为执行获得目标应用程序的直播间处于播放状态的直播流，经解码器对所述直播流进行音视频分离得到音频流；

向量提取模块，被配置为执行提取所述音频流中的声音特征向量序列。

12.根据权利要求11所述的装置，其特征在于，所述声音特征向量序列为二维声音特征向量序列，所述声音特征向量序列提取模块包括：

频谱获得子模块，被配置为执行对所述音频流进行处理得到梅尔频谱；

卷积池化子模块，被配置为执行对所述梅尔频谱进行多次卷积池化处理，以提取降维后的声音特征向量序列；

二维特征生成子模块，被配置为执行经至少一个全连接层对降维后的声音特征向量序列进行处理，生成所述音频流的二维声音特征向量序列。

13.根据权利要求8所述的装置，其特征在于，所述装置还包括：

信息推送单元，被配置为执行如果所述分类结果表征所述声音特征向量序列包括清唱声特征向量，则将所述直播间的直播摘要信息推送至目标应用程序的直播列表界面展示。

14.一种服务器，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的直播间歌唱识别方法。

15.一种存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得服务器能够执行如权利要求1至7中任一项所述的直播间歌唱识别方法。