CN112489676B

CN112489676B - 模型训练方法、装置、设备及存储介质

Info

Publication number: CN112489676B
Application number: CN202011478539.XA
Authority: CN
Inventors: 王征韬
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2024-06-14
Anticipated expiration: 2040-12-15
Also published as: CN112489676A

Abstract

本申请公开了一种模型训练方法、装置、设备及存储介质，在该方案中，先利用基于有标签鼓点音频集训练得到的目标模型处理无标签样本集，然后根据得到无标签样本集中的各个样本对应的类别结果，从无标签样本集中选择类别结果的置信度较小的待标注样本打标签，并将具有标签的待标注样本添加至有标签鼓点音频集，从而获得新的训练集，最后利用新的训练集训练目标模型，从而得到鼓点识别模型。样本的类别结果的置信度越小，说明模型对该样本的识别能力越低，所以将具有标签的此类样本添加至训练集，可以让模型学习到识别此类样本的能力，故模型的识别能力和性能可得到提升。本申请提供的模型训练装置、设备及存储介质，也同样具有上述技术效果。

Description

模型训练方法、装置、设备及存储介质

技术领域

本申请涉及机器学习技术领域，特别涉及一种模型训练方法、装置、设备及存储介质。

背景技术

识别音频中的鼓点类型可以为音乐游戏和视频剪辑工具的制作提供基础数据。目前，一般对无干扰的鼓点录音音频进行机器学习，从而训练获得鼓点识别模型，然后利用该鼓点识别模型识别音频作品(如：有声电影、电视、录像、唱片等)中的鼓点类型。但由于该鼓点识别模型基于无干扰的鼓点录音音频训练获得，因此其识别有干扰的音频作品的能力不足。

因此，如何获得适用于识别有干扰的音频作品的鼓点识别模型，是本领域技术人员需要解决的问题。

发明内容

有鉴于此，本申请的目的在于提供一种模型训练方法、装置、设备及存储介质，以获得适用于识别有干扰的音频作品的鼓点识别模型。其具体方案如下：

为实现上述目的，一方面，本申请提供了一种模型训练方法，包括：

利用目标模型处理无标签样本集，以得到所述无标签样本集中的各个样本对应的类别结果；所述目标模型利用有标签鼓点音频集训练得到，所述无标签样本集中的各个样本为从音频作品中截取的鼓点音频；

确定所述各个样本对应的类别结果的置信度，并将置信度小于置信度阈值的样本添加至候选集；

在所述候选集中选择待标注样本，对所述待标注样本打标签后，将具有标签的所述待标注样本添加至所述有标签鼓点音频集，以得到训练集；

利用所述训练集训练所述目标模型，以得到鼓点识别模型。

又一方面，本申请还提供了一种模型训练装置，包括：

分类模块，用于利用目标模型处理无标签样本集，以得到所述无标签样本集中的各个样本对应的类别结果；所述目标模型利用有标签鼓点音频集训练得到，所述无标签样本集中的各个样本为从音频作品中截取的鼓点音频；

选择模块，用于确定所述各个样本对应的类别结果的置信度，并将置信度小于置信度阈值的样本添加至候选集；

更新模块，用于在所述候选集中选择待标注样本，对所述待标注样本打标签后，将具有标签的所述待标注样本添加至所述有标签鼓点音频集，以得到训练集；

训练模块，用于利用所述训练集训练所述目标模型，以得到鼓点识别模型。

又一方面，本申请还提供了一种电子设备，所述电子设备包括处理器和存储器；其中，所述存储器用于存储计算机程序，所述计算机程序由所述处理器加载并执行以实现前述模型训练方法。

又一方面，本申请还提供了一种存储介质，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现前述模型训练方法。

本申请利用基于有标签鼓点音频集训练得到的目标模型处理无标签样本集，得到相应类别结果，然后根据无标签样本集中的各个样本对应的类别结果，从无标签样本集中选择待标注样本打标签，并将具有标签的待标注样本添加至有标签鼓点音频集，从而获得新的训练集，最后利用新的训练集训练目标模型，从而得到鼓点识别模型。由于对音频作品(如歌曲)中的鼓点的类型打标签需要人工进行，且人工识别的难度较大(标注专家一般难以区分敲击不同类型的鼓时所发出的声音)，因此一般不可能对所有样本打标签，所以本申请基于各个样本的类别结果的置信度，选择置信度较小的样本打标签，既可以满足打标签的样本数量的限制，又能让模型在训练过程中学习到识别有干扰的真实鼓点音频的能力，从音频作品中截取的鼓点音频即为有干扰的真实鼓点音频。需要说明的是，样本的类别结果的置信度越小，说明模型对该样本的识别能力越低，所以模型需要学习对此类样本的识别能力，因此对此类样本打标签，并将其添加至训练集，恰好可以让模型在训练过程中学习到识别此类样本的能力，故而模型的识别能力和性能可以得到提升。

相应地，本申请提供的模型训练装置、设备及存储介质，也同样具有上述技术效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图以得到其他的附图。

图1为本申请提供的一种本申请适用的物理架构示意图；

图2为本申请提供的第一种模型训练方法流程图；

图3本申请提供的一种鼓点分离前和鼓点分离后的波形对比示意图；

图4本申请提供的第二种模型训练方法流程图；

图5本申请提供的第三种模型训练方法流程图；

图6申请提供的第四种模型训练方法流程图；

图7申请提供的一种模型应用流程示意图；

图8本申请提供的一种模型训练装置示意图；

图9本申请提供的一种服务器结构图；

图10本申请提供的一种终端结构图。

具体实施方式

现有鼓点识别模型基于无干扰的鼓点录音音频训练获得，因此其识别有干扰的音频作品的能力不足。鉴于目前所存在的上述问题，本申请提出了模型训练方案，该方案能够获得适用于识别有干扰的音频作品的鼓点识别模型。

应理解，本申请提供的模型训练方法可以应用于具有模型训练功能的***或程序中，例如音乐游戏。具体的，具有模型训练功能的***或程序可以运行于服务器、个人计算机等设备中。

如图1所示，图1为本申请适用的物理架构示意图。在图1中，具有模型训练功能的***或程序可以运行于服务器，该服务器通过网络从其他终端设备中获取无标签样本集和有标签鼓点音频集。其中，无标签样本集中的各个样本可以利用局部波形回溯从音频作品中截取获得，有标签鼓点音频集包括训练鼓点识别模型的公开数据集，该公开数据集中的样本为有标签的、无干扰鼓点录音音频。该服务器利用基于公开数据集训练得到的目标模型处理无标签样本集，以得到无标签样本集中的各个样本对应的类别结果；确定各个样本对应的类别结果的置信度，并将置信度小于置信度阈值的样本添加至候选集；在候选集中选择待标注样本，对待标注样本打标签后，将具有标签的待标注样本添加至有标签鼓点音频集，以得到训练集；利用训练集训练目标模型，以得到可应用于实际的鼓点识别模型。如：将训练得到的鼓点识别模型应用于音乐游戏中，让其识别歌曲中的鼓点类型，并按照识别结果进行游戏的人机交互。当然，若是当前鼓点识别模型的准确度还不能满足预设要求，那么可以用当前鼓点识别模型继续处理无标签样本集，从而进一步得到新的训练集，利用新的训练集可继续对当前鼓点识别模型进行训练，以得到准确度更高的模型。

如图可知，该服务器可以与多个设备建立通信连接，服务器从这些设备中获取无标签样本集中的无标签样本和/或有标签鼓点音频集中的有标签样本。当然，上述无标签样本和/或有标签样本也可以以数据库形式存储。服务器通过收集这些设备上传的样本数据，对相关模型进行训练，以获得可应用于实际的鼓点识别模型。图1中示出了多种终端设备，在实际场景中可以有更多或更少种类的终端设备参与到模型训练的过程中，具体数量和种类因实际场景而定，此处不做限定，另外，图1中示出了一个服务器，但在实际场景中，也可以有多个服务器的参与，具体服务器数量因实际场景而定。

应当注意的是，本实施例提供的模型训练方法可以离线进行，即服务器本地存储有无标签样本集和有标签鼓点音频集，其可以直接利用本申请提供的方案训练得到想要的模型。

可以理解的是，上述具有模型训练功能的***或程序也可以运行于个人移动终端，也可以作为云端服务程序的一种，具体运作模式因实际场景而定，此处不做限定。

结合以上共性，请参见图2，图2为本申请实施例提供的第一种模型训练方法流程图。如图2所示，该模型训练方法可以包括以下步骤：

S201、利用目标模型处理无标签样本集，以得到无标签样本集中的各个样本对应的类别结果。

其中，目标模型利用有标签鼓点音频集训练得到，无标签样本集中的各个样本为从音频作品中截取的鼓点音频。音频作品如：歌曲、戏曲、音乐伴奏等真实作品。有标签鼓点音频集包括：公开数据集和/或人工标注的有标签鼓点音频，该音频可利用鼓分量分离工具和局部波形回溯从音频作品中截取获得。

其中，鼓分量分离工具如spleeter，此类工具可以将原音频中的包含鼓点的音频段分离处理，从而给标注专家提供打标签便利。并且，分离出的鼓点具有明显的视觉特性。原音频在经过鼓点分离前和鼓点分离后的波形对比参见图3所示。通过标注专家打标签，我们获得了真实场景下的鼓点位置。随后通过局部波形回溯的方法，可以自动截取到该位置的时间点对应的音频段，截取到的音频段能够包含比较完整的鼓点波形(包含鼓点开始到结束的局部波形，通常长度仅有几十～几百毫秒)。

局部波形回溯其实就是基于一个时间点截取出一段局部音频。例如：t0是计算出来的鼓点时刻，但鼓点其实是一段音频，局部波形回溯的作用就是搜索t0附近，以确定一个起始点和终止点，然后截取出包含鼓点的音频片段。

S202、确定各个样本对应的类别结果的置信度，并将置信度小于置信度阈值的样本添加至候选集。

具体的，样本对应的类别结果可以用类别概率分布表示。虽然目标模型已经过训练，但是其识别不同样本的准确度还是会有大有小，因此不同样本对应的类别结果的置信度大小不一。

确定类别结果的置信度的方式众多，如：根据迷惑度(即困惑度)和/或信息熵确定。迷惑度和信息熵均可以描述信息不确定的程度，迷惑度或信息熵越大，表明模型识别结果越不准确，类别结果的置信度越小。迷惑度是信息熵的指数。由于迷惑度与置信度负相关，信息熵与置信度也是负相关，因此可以对迷惑度或置信度取反来获得置信度。例如：迷惑度为0.1，那么用1-0.1＝0.9作为置信度。迷惑度、置信度、信息熵均归一化至0～1之间。

在一种具体实施方式中，可以根据类别结果的迷惑度确定。具体的，确定各个样本对应的类别结果的置信度，包括：确定所述各个样本对应的类别结果的迷惑度，并根据迷惑度确定置信度。

在一种具体实施方式中，可以根据类别结果的信息熵确定。具体的，确定各个样本对应的类别结果的置信度，包括：确定所述各个样本对应的类别结果的信息熵，并根据信息熵确定置信度。具体可以利用下述公式计算信息熵：

其中，H(U)为信息熵，p_i为样本U被分为第i类的概率，n为预设样本类别的数量，E为数学期望。

S203、在候选集中选择待标注样本，对待标注样本打标签后，将具有标签的待标注样本添加至有标签鼓点音频集，以得到训练集。

假设无标签样本集中包括5个样本：A、B、C、D、E，且这5个样本分别对应的类别结果的置信度为：0.75、0.88、0.98、0.95、0.91，置信度阈值为0.96，那么可以添加至候选集的样本有：A、B、D、E。也就是说，目标模型对于A、B、D、E的识别能力不足，因此可以在A、B、D、E中选择一些样本作为待标注样本，在对待标注样本打标签后，将具有标签的待标注样本添加至有标签鼓点音频集，使得有标签鼓点音频集中增加一些有标签的真实样本，从而得到更新后的训练集。

选择待标注样本的方式众多，但由于打标签能力有限，因此需要预设标注条件，其中设置待标注样本的数量阈值(保证不超过人工打标签的能力)和选择条件(保证选择出来的待标注样本是最值得打标签的样本，也就是最能给模型训练提供帮助的样本)。在一种具体实施方式中，在候选集中选择待标注样本，包括：按照预设标注条件在候选集中选择待标注样本；预设标注条件包括：待标注样本的数量阈值和选择条件。当然，若候选集中的样本数量不超过数量阈值，则直接将整个候选集中的样本确定为待标注样本。

基于置信度和相似度挑选需要标注的样本，可以有助于挑选出置信度较小且不相似的样本(也就是当前模型对其识别能力不强且不同类的样本)，从而使得需要标注的样本更有标注价值。故在一种具体实施方式中，在候选集中选择待标注样本，包括：若候选集中的样本个数大于数量阈值，则将候选集中的所有样本按照置信度大小升序排列，以得到样本序列；获取当前迭代次数，并在样本序列中查询与当前迭代次数相等的排列位置；将处于排列位置上的样本作为对比样本，并计算对比样本与排列在对比样本后的其他样本之间的相似度；基于相似度得到更新集，将更新集中的所有样本确定为待标注样本。其中，基于相似度得到更新集，包括：从候选集中删除大于相似度阈值的相似度对应的其他样本，以得到更新集。

在一种具体实施方式中，还包括：判断删除后的候选集中的样本个数是否大于数量阈值；若是，则将迭代次数增一，并执行将候选集中的所有样本按照置信度大小升序排列，以得到样本序列；获取当前迭代次数，并在样本序列中查询与当前迭代次数相等的排列位置；将处于排列位置上的样本作为对比样本，并计算对比样本与排列在对比样本后的其他样本之间的相似度，从候选集中删除大于相似度阈值的相似度对应的其他样本，并执行判断删除后的候选集中的样本个数是否大于数量阈值；若删除后的候选集中的样本个数不大于数量阈值，则得到更新集。

例如：候选集中有5个样本：ABCDE，按照置信度从小到大排列后，样本序列为：BADCE。若当前是第一次迭代，即当前迭代次数为1，此时与当前迭代次数相等的排列位置即排列在样本序列首位的B，那么对比样本为B，故计算B和A，B和D，B和C，B和E之间的相似度，假设这4个相似度分别为0.1，0.3，0.4，0.2；相似度阈值为0.3，那么需要删除样本C，因为C对应的相似度0.4大于相似度阈值0.3。

删除后，候选集中剩有样本ABDE，若数量阈值为2，则删除后的候选集中的样本个数大于数量阈值，因此迭代次数递增为2，此时再次对候选集中的ABDE按照置信度从小到大排列，得到样本序列BADE；由于当前迭代次数为2，因此对比样本为排列在样本序列第二位的A，故计算A和D，A和E之间的相似度，然后再对比计算所得的各个相似度与相似度阈值0.3的大小，以确定是删除D还是E。如此迭代循环，直至候选集中有最多2个样本时，得到更新集。

需要说明的是，不同样本之间的相似度可以用不同样本的类别结果之间的相似度表示。相似度可以表征样本的差异性，独特而有价值的样本是最值得标注专家耗费精力标注的。并且，若两个样本相似度较大，那么模型识别这两个样本的结果的准确度就越接近，也就是模型对这两个样本的识别能力相近。据此，基于不同样本的相似度和置信度挑选样本，有助于挑选出置信度较小且不相似样本进行标注，从而使模型在训练过程中学习到多种类型样本的识别能力。

其中，相似度可以是不同样本的类别结果的cos距离、欧氏距离等。

在一种具体实施方式中，在候选集中选择待标注样本，包括：将候选集中的所有样本按照置信度大小降序排列，以得到第一样本序列；选择第一样本序列中的后N个样本作为待标注样本，N等于数量阈值；或将候选集中的所有样本按照置信度大小升序排列，以得到第二样本序列；选择第二样本序列中的前N个样本作为待标注样本，N等于数量阈值。由于模型对于相似样本的识别能力相近，因此置信度相近的样本一般相似，故此种方式可能会挑选出多个相似的样本进行标注，可能会浪费标注成本，但可以让模型学习到对此类样本的识别能力。对于模型来说，让其学习到多种类型样本的识别能力，会使其识别范围更为广泛。

S204、利用训练集训练目标模型，以得到鼓点识别模型。

利用包括公开数据集和有标签的真实样本的训练集再次训练目标模型，可得到进一步优化的鼓点识别模型，该鼓点识别模型比目标模型的识别能力更佳。

在一种具体实施方式中，利用训练集训练目标模型，以得到鼓点识别模型，包括：将训练集中的各个样本用mel频谱特征向量表示，并将所有mel频谱特征向量输入目标模型，以输出训练结果；利用目标模型中的softmax层确定训练结果的损失值；若损失值大于损失值阈值，则按照损失值优化目标模型的模型参数；若损失值不大于损失值阈值，则将当前目标模型确定为鼓点识别模型。其中，目标模型可以包括softmax层，以及多个全连接层。Softmax层级包括softmax这一激活函数的数据处理层，可以以logloss为损失函数进行训练，具体可以参照现有技术的训练过程。mel频谱特征向量即：以梅尔倒频谱系数(Mel-frequency cepstral coefficients)表示的特征向量。

需要说明的是，由于对音频作品(如歌曲)中的鼓点的类型打标签需要人工进行，且人工识别的难度较大，因此一般不可能对所有样本打标签，所以本实施例基于各个样本的类别结果的置信度，选择置信度较小的样本打标签，既可以满足打标签的样本数量的限制，又能让模型在训练过程中学习到识别有干扰的真实鼓点音频的能力，从音频作品中截取的鼓点音频即为有干扰的真实鼓点音频。

其中，样本的类别结果的置信度越小，说明模型对该样本的识别能力越低，所以模型需要学习对此类样本的识别能力，因此对此类样本打标签，并将其添加至训练集，恰好可以让模型在训练过程中学习到识别此类样本的能力，故而模型的识别能力和性能可以得到提升。

可见，本实施例利用基于有标签鼓点音频集训练得到的目标模型处理无标签样本集，得到相应类别结果，然后根据无标签样本集中的各个样本对应的类别结果，从无标签样本集中选择待标注样本打标签，并将具有标签的待标注样本添加至有标签鼓点音频集，从而获得新的训练集，最后利用新的训练集训练目标模型，从而可得到识别能力更佳的鼓点识别模型。

请参见图4，图4为本申请实施例提供的第二种模型训练方法流程图。如图4所示，该模型训练方法可以包括以下步骤：

S401、利用目标模型处理无标签样本集，以得到无标签样本集中的各个样本对应的类别结果；

其中，在初次执行S401时，S401中的目标模型基于公开数据集训练得到。

S402、确定各个样本对应的类别结果的置信度，并将置信度小于置信度阈值的样本添加至候选集；

S403、在候选集中选择待标注样本，对待标注样本打标签后，将具有标签的待标注样本添加至有标签鼓点音频集，以得到训练集；

S404、利用训练集训练目标模型，以得到鼓点识别模型；

S405、判断鼓点识别模型是否达到预设条件；若是，执行S406；若否，则执行S407；

S406、输出鼓点识别模型；

S407、从无标签样本集中删除待标注样本，将鼓点识别模型作为目标模型，并执行S401。

其中，预设条件可以设置为模型的准确度。理论上每次获得的鼓点识别模型都可以输出并存储，以便后续利用其识别音频中的鼓点。当然，还可以设置一定的预设条件，如：期望模型的准确度高于98％，故每次获得鼓点识别模型后，判断当前模型的准确度是否高于98％，若是，则表明鼓点识别模型达到预设条件；若否，则表明鼓点识别模型未达到预设条件。

在本实施例中，在初次训练时，目标模型利用公开数据集训练得到。公开数据集中的样本为有标签的、无干扰鼓点录音音频。按照步骤S401-S404训练得到鼓点识别模型后，若进行第二次训练，那么初次训练得到的鼓点识别模型就可以作为目标模型，并且，需要将无标签样本集中的具有标签的待标注样本删除，便再次利用目标模型处理无标签样本集，进行第二次训练过程。后续的训练过程以此类推。上述S201-S204描述的是任一次循环过程。

需要说明的是，每次训练得到的鼓点识别模型都可以应用于实际，并且，每进行一次训练，理论上鼓点识别模型的识别能力就可以得到提升。

其中，本实施例中的各步骤可参照上述实施例的相关介绍，本实施例在此不再赘述。

可见，本实施例利用基于公开数据集训练得到的目标模型处理无标签样本集，得到相应类别结果，然后根据无标签样本集中的各个样本对应的类别结果，从无标签样本集中选择待标注样本打标签，并将具有标签的待标注样本添加至有标签鼓点音频集，从而获得新的训练集，最后利用新的训练集训练目标模型，从而可得到识别能力更佳的鼓点识别模型。基于该过程按照fine-tune的训练思想，循环训练模型，从而使得模型的识别能力不断进步，性能不断提高。

请参见图5，图5为本申请实施例提供的第三种模型训练方法流程图。如图5所示，该模型训练方法可以包括以下步骤：

S501、利用目标模型处理无标签样本集，以得到无标签样本集中的各个样本对应的类别结果；

其中，在初次执行S501时，S501中的目标模型基于公开数据集训练得到。

S502、确定各个样本对应的类别结果的置信度；

S503、分别判断各个置信度是否小于置信度阈值；若是，则执行S504；若否，则执行S507；

S504、将置信度小于置信度阈值的样本添加至候选集；

S505、在候选集中选择待标注样本，对待标注样本打标签后，将具有标签的待标注样本添加至有标签鼓点音频集，以得到训练集；

S506、利用训练集训练目标模型，以得到鼓点识别模型；

S507、针对置信度不小于置信度阈值的各个样本，按照各个样本对应的类别结果对无标签样本集中的各个样本打标签，以将无标签样本集转换为有标签样本集；

S508、将有标签样本集与有标签鼓点音频集合并，并利用合并得到的数据集训练目标模型，以得到鼓点识别模型。

假设无标签样本集中包括5个样本：A、B、C、D、E，且这5个样本分别对应的类别结果的置信度为：0.75、0.88、0.98、0.95、0.91，置信度阈值为0.70，那么就不存在置信度小于置信度阈值的样本，针对这些置信度不小于置信度阈值的样本，可执行S507-S508，从而获得鼓点识别模型。此时认为鼓点识别模型已训练达到了最优。

若各个样本对应的类别结果的置信度都不小于置信度阈值，也就是不存在置信度小于置信度阈值的样本，则认为目标模型识别这些样本的结果足够准确，因此可以按照各个样本对应的类别结果对无标签样本集中的各个样本打标签，也就是将各个样本对应的类别结果直接作为这些样本的所属类别，以将无标签样本集转换为有标签样本集；然后将有标签样本集与有标签鼓点音频集合并，并利用合并得到的数据集训练目标模型，以得到鼓点识别模型。

可以理解的是，若既存在置信度小于置信度阈值的样本，又存在置信度不小于置信度阈值的样本，那么也可以直接将置信度不小于置信度阈值的样本对应的类别结果直接作为这些样本的所属类别，以对这些样本打标签，然后将具有标签的这些样本添加至有标签鼓点音频集，以得到训练集。当然，此种方式对模型识别能力的提升影响不太大。

当然，本实施例也可以按照fine-tune的训练思想，循环训练模型，也就是执行S501-S506后，将训练得到的鼓点识别模型作为目标模型，并且，将无标签样本集中的具有标签的待标注样本删除，然后再次执行S501，以实现循环训练。其中，每次训练得到的鼓点识别模型都可以应用于实际，并且，每进行一次训练，理论上鼓点识别模型的识别能力就可以得到提升。

可见，本实施例利用基于有标签鼓点音频集训练得到的目标模型处理无标签样本集，得到相应类别结果；若存在置信度小于置信度阈值的样本，则根据无标签样本集中的各个样本对应的类别结果，从无标签样本集中选择待标注样本打标签，并将具有标签的待标注样本添加至有标签鼓点音频集，从而获得新的训练集，最后利用新的训练集训练目标模型，从而可得到识别能力更佳的鼓点识别模型；若不存在置信度小于置信度阈值的样本，则按照各个样本对应的类别结果对无标签样本集中的各个样本打标签，以将无标签样本集转换为有标签样本集；将有标签样本集与有标签鼓点音频集合并，并利用合并得到的数据集训练目标模型，以得到鼓点识别模型。也就是基于模型识别结果的置信度判断模型是否需要再优化，然后执行不同的步骤，使得模型的识别能力不断进步，性能不断提高。

请参见图6，图6为本申请实施例提供的第四种模型训练方法流程图。如图6所示，该模型训练方法可以包括以下步骤：

S601、利用目标模型处理无标签样本集，以得到无标签样本集中的各个样本对应的类别结果；

其中，在初次执行S601时，S601中的目标模型基于公开数据集训练得到。

S602、确定各个样本对应的类别结果的置信度；

S603、分别判断各个置信度是否小于置信度阈值；若是，则执行S604；若否，则执行S610；

S604、将置信度小于置信度阈值的样本添加至候选集；

S605、在候选集中选择待标注样本，对待标注样本打标签后，将具有标签的待标注样本添加至有标签鼓点音频集，以得到训练集；

S606、利用训练集训练目标模型，以得到鼓点识别模型。

S607、判断鼓点识别模型是否达到预设条件；若是，执行S608；若否，则执行S609；

S608、输出鼓点识别模型；

S609、从无标签样本集中删除待标注样本，将鼓点识别模型作为目标模型，并执行S601。

S610、针对置信度不小于置信度阈值的各个样本，按照各个样本对应的类别结果对无标签样本集中的各个样本打标签，以将无标签样本集转换为有标签样本集；

S611、将有标签样本集与有标签鼓点音频集合并，并利用合并得到的数据集训练目标模型，以得到鼓点识别模型。

在本实施例初次训练模型时，目标模型利用公开数据集训练得到。公开数据集中的样本为有标签的、无干扰鼓点录音音频。按照步骤S601-S602确定各个样本的类别结果的置信度后，针对置信度小于置信度阈值的样本执行S604，针对置信度不小于置信度阈值的样本执行S610。其中，执行S604后，若鼓点识别模型未达到预设条件，则需要进行循环训练，而执行S610后即可获得性能最优的模型。

可见，本实施例利用基于公开数据集训练得到的目标模型处理无标签样本集，得到相应类别结果，若存在置信度小于置信度阈值的样本，则根据无标签样本集中的各个样本对应的类别结果，从无标签样本集中选择待标注样本打标签，并将具有标签的待标注样本添加至有标签鼓点音频集，从而获得新的训练集，最后利用新的训练集训练目标模型，从而可得到识别能力更佳的鼓点识别模型。若不存在置信度小于置信度阈值的样本，则按照各个样本对应的类别结果对无标签样本集中的各个样本打标签，以将无标签样本集转换为有标签样本集；将有标签样本集与有标签鼓点音频集合并，并利用合并得到的数据集训练目标模型，以得到鼓点识别模型。也就是基于模型识别结果的置信度判断模型是否需要再优化，然后执行不同的步骤，使得模型的识别能力不断进步，性能不断提高。

下面通过具体的应用场景实例描述，来介绍本申请提供的模型训练方案。识别音频中的鼓点类型可以为音乐游戏和视频剪辑工具的制作提供基础数据。按照本申请提供的模型训练方案获得可用的鼓点识别模型后，若将该鼓点识别模型应用于音乐游戏，则可以有如下模型应用流程。

请参见图7，该模型应用流程包括如下步骤：

S701、服务器训练得到鼓点识别模型；

S702、服务器利用鼓分量分离工具识别歌曲中的包含鼓点的音频；

S703、服务器利用局部波形回溯方法处理每个音频，以确定每个音频中的能够包含完整鼓点波形的音频片段，以及该音频片段的时间范围；

S704、服务器利用鼓点识别模型处理各个音频片段，以得到该音频片段对应鼓点类型；

S705、服务器利用时间范围及相应鼓点类型确定游戏基础数据，以制作得到游戏应用程序；

S706、服务器传输游戏应用程序至终端；

S707、终端安装并启动游戏应用程序；

S708、终端基于游戏应用程序中的游戏基础数据在游戏界面显示对应的可触摸区域，以提示游戏玩家进行歌曲的演奏。

可见，利用本申请提供的模型训练方法训练得到模型后，可用其识别真实歌曲中的鼓点类型，并确定鼓点发生的相应时间范围，然后基于识别结果设置游戏。由于本申请能够得到性能更佳的模型，所以能够给游戏的制作提供准确度更高的基础数据，因而可以提高音乐游戏的质量和玩家游戏体验。当然，利用本申请还可以制作视频剪辑工具、音频剪辑工具等，具体应用过程可参照上述内容以及现有技术的相关介绍，本说明书在此不再赘述。

请参见图8，图8为本申请实施例提供的一种模型训练装置示意图，包括：

分类模块801，用于利用目标模型处理无标签样本集，以得到无标签样本集中的各个样本对应的类别结果；目标模型利用有标签鼓点音频集训练得到，无标签样本集中的各个样本为从音频作品中截取的鼓点音频；

选择模块802，用于确定各个样本对应的类别结果的置信度，并将置信度小于置信度阈值的样本添加至候选集；

更新模块803，用于在候选集中选择待标注样本，对待标注样本打标签后，将具有标签的待标注样本添加至有标签鼓点音频集，以得到训练集；

训练模块804，用于利用训练集训练目标模型，以得到鼓点识别模型。

在一种具体实施方式中，选择模块具体用于：

确定所述各个样本对应的类别结果的迷惑度和/或信息熵，并根据所述迷惑度和/或所述信息熵确定所述置信度。

在一种具体实施方式中，更新模块包括：

排列单元，用于若候选集中的样本个数大于数量阈值，则将候选集中的所有样本按照置信度大小升序排列，以得到样本序列；

查询单元，用于获取当前迭代次数，并在样本序列中查询与当前迭代次数相等的排列位置；

计算单元，用于将处于排列位置上的样本作为对比样本，并计算对比样本与排列在对比样本后的其他样本之间的相似度；

确定单元，用于基于相似度得到更新集，将更新集中的所有样本确定为待标注样本。

在一种具体实施方式中，确定单元具体用于：

从候选集中删除大于相似度阈值的相似度对应的其他样本，以得到更新集。

在一种具体实施方式中，确定单元还用于：

判断删除后的候选集中的样本个数是否大于数量阈值；

若是，则将迭代次数增一，并执行将候选集中的所有样本按照置信度大小升序排列，以得到样本序列；获取当前迭代次数，并在样本序列中查询与当前迭代次数相等的排列位置；将处于排列位置上的样本作为对比样本，并计算对比样本与排列在对比样本后的其他样本之间的相似度，从候选集中删除大于相似度阈值的相似度对应的其他样本，并执行判断删除后的候选集中的样本个数是否大于数量阈值；

若删除后的候选集中的样本个数不大于数量阈值，则得到更新集。

在一种具体实施方式中，更新模块包括：

降序排列单元，用于将候选集中的所有样本按照置信度大小降序排列，以得到第一样本序列；

第一选择单元，用于选择第一样本序列中的后N个样本作为待标注样本，N等于数量阈值；

或

升序排列单元，用于将候选集中的所有样本按照置信度大小升序排列，以得到第二样本序列；

第二选择单元，用于选择第二样本序列中的前N个样本作为待标注样本，N等于数量阈值。

在一种具体实施方式中，还包括：

数据集转换模块，用于若不存在置信度小于置信度阈值的样本，则按照各个样本对应的类别结果对无标签样本集中的各个样本打标签，以将无标签样本集转换为有标签样本集；

数据集合并模块，用于将有标签样本集与有标签鼓点音频集合并，并利用合并得到的数据集训练目标模型，以得到鼓点识别模型。

在一种具体实施方式中，还包括：

循环处理模块，用于从无标签样本集中删除待标注样本后，将鼓点识别模型作为目标模型，并执行分类模块中的步骤。

在一种具体实施方式中，训练模块包括：

处理单元，用于将训练集中的各个样本用mel频谱特征向量表示，并将所有mel频谱特征向量输入目标模型，以输出训练结果；

损失计算单元，用于利用目标模型中的softmax层确定训练结果的损失值；

优化单元，用于若损失值大于损失值阈值，则按照损失值优化目标模型的模型参数；

模型输出单元，用于若损失值不大于损失值阈值，则将当前目标模型确定为鼓点识别模型。

其中，关于本实施例中各个模块、单元更加具体的工作过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

可见，本实施例提供了一种模型训练装置，该装置能够将具有标签的此类样本添加至训练集，可以让模型学习到识别此类样本的能力，故模型的识别能力和性能可得到提升。

进一步的，本申请实施例还提供了一种电子设备。其中，上述电子设备既可以是如图9所示的服务器50，也可以是如图10所示的终端60。图9和图10均是根据一示例性实施例示出的电子设备结构图，图中的内容不能被认为是对本申请的使用范围的任何限制。

图9为本申请实施例提供的一种服务器的结构示意图。该服务器50，具体可以包括：至少一个处理器51、至少一个存储器52、电源53、通信接口54、输入输出接口55和通信总线56。其中，所述存储器52用于存储计算机程序，所述计算机程序由所述处理器51加载并执行，以实现前述任一实施例公开的模型训练中的相关步骤。

本实施例中，电源53用于为服务器50上的各硬件设备提供工作电压；通信接口54能够为服务器50创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口55，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器52作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作***521、计算机程序522及数据523等，存储方式可以是短暂存储或者永久存储。

其中，操作***521用于管理与控制服务器50上的各硬件设备以及计算机程序522，以实现处理器51对存储器52中数据523的运算与处理，其可以是Windows Server、Netware、Unix、Linux等。计算机程序522除了包括能够用于完成前述任一实施例公开的模型训练方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。数据523除了可以包括无标签样本和有标签样本等数据外，还可以包括应用的开发商信息等数据。

图10为本申请实施例提供的一种终端的结构示意图，该终端60具体可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。

通常，本实施例中的终端60包括有：处理器61和存储器62。

其中，处理器61可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器61可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器61也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器61可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器61还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器62可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器62还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器62至少用于存储以下计算机程序621，其中，该计算机程序被处理器61加载并执行之后，能够实现前述任一实施例公开的由终端侧执行的模型训练方法中的相关步骤。另外，存储器62所存储的资源还可以包括操作***622和数据623等，存储方式可以是短暂存储或者永久存储。其中，操作***622可以包括Windows、Unix、Linux等。数据623可以包括但不限于应用程序的更新信息。

在一些实施例中，终端60还可包括有显示屏63、输入输出接口64、通信接口65、传感器66、电源67以及通信总线68。

本领域技术人员可以理解，图10中示出的结构并不构成对终端60的限定，可以包括比图示更多或更少的组件。

进一步的，本申请实施例还公开了一种存储介质，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现前述任一实施例公开的模型训练方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容，在此不再进行赘述。

需要指出的是，上述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种模型训练方法，其特征在于，包括：

利用目标模型处理无标签样本集，以得到所述无标签样本集中的各个样本对应的类别结果；所述目标模型利用有标签鼓点音频集训练得到，所述无标签样本集中的各个样本为从音频作品中截取的鼓点音频；其中，所述类别结果为鼓点类型，标签为鼓点位置；

利用所述训练集训练所述目标模型，以得到鼓点识别模型；其中，所述鼓点识别模型的识别能力高于所述目标模型。

2.根据权利要求1所述的模型训练方法，其特征在于，所述确定所述各个样本对应的类别结果的置信度，包括：

3.根据权利要求1所述的模型训练方法，其特征在于，所述在所述候选集中选择待标注样本，包括：

若所述候选集中的样本个数大于数量阈值，则将所述候选集中的所有样本按照置信度大小升序排列，以得到样本序列；

获取当前迭代次数，并在所述样本序列中查询与所述当前迭代次数相等的排列位置；

将处于所述排列位置上的样本作为对比样本，并计算所述对比样本与排列在所述对比样本后的其他样本之间的相似度；

基于所述相似度得到更新集，将所述更新集中的所有样本确定为所述待标注样本。

4.根据权利要求3所述的模型训练方法，其特征在于，所述基于所述相似度得到更新集，包括：

从所述候选集中删除大于相似度阈值的相似度对应的其他样本，以得到所述更新集。

5.根据权利要求4所述的模型训练方法，其特征在于，还包括：

判断删除后的所述候选集中的样本个数是否大于所述数量阈值；

若是，则将迭代次数增一，并执行将所述候选集中的所有样本按照置信度大小升序排列，以得到样本序列；获取当前迭代次数，并在所述样本序列中查询与所述当前迭代次数相等的排列位置；将处于所述排列位置上的样本作为对比样本，并计算所述对比样本与排列在所述对比样本后的其他样本之间的相似度，从所述候选集中删除大于相似度阈值的相似度对应的其他样本，并执行判断删除后的所述候选集中的样本个数是否大于所述数量阈值；

若删除后的所述候选集中的样本个数不大于所述数量阈值，则得到所述更新集。

6.根据权利要求1所述的模型训练方法，其特征在于，所述在所述候选集中选择待标注样本，包括：

将所述候选集中的所有样本按照置信度大小降序排列，以得到第一样本序列；

选择所述第一样本序列中的后N个样本作为所述待标注样本，N等于数量阈值；

或

将所述候选集中的所有样本按照置信度大小升序排列，以得到第二样本序列；

选择所述第二样本序列中的前N个样本作为所述待标注样本，N等于数量阈值。

7.根据权利要求1至6任一项所述的模型训练方法，其特征在于，还包括：

若不存在置信度小于置信度阈值的样本，则按照所述各个样本对应的类别结果对所述无标签样本集中的各个样本打标签，以将所述无标签样本集转换为有标签样本集；

将所述有标签样本集与所述有标签鼓点音频集合并，并利用合并得到的数据集训练所述目标模型，以得到鼓点识别模型。

8.根据权利要求1所述的模型训练方法，其特征在于，所述得到鼓点识别模型之后，还包括：

从所述无标签样本集中删除所述待标注样本后，将所述鼓点识别模型作为所述目标模型，并执行所述利用目标模型处理无标签样本集，以得到所述无标签样本集中的各个样本对应的类别结果的步骤。

9.根据权利要求1所述的模型训练方法，其特征在于，所述利用所述训练集训练所述目标模型，以得到鼓点识别模型，包括：

将所述训练集中的各个样本用mel频谱特征向量表示，并将所有mel频谱特征向量输入所述目标模型，以输出训练结果；

利用所述目标模型中的softmax层确定所述训练结果的损失值；

若所述损失值大于损失值阈值，则按照所述损失值优化所述目标模型的模型参数；

若所述损失值不大于所述损失值阈值，则将当前目标模型确定为所述鼓点识别模型。

10.一种模型训练装置，其特征在于，包括：

分类模块，用于利用目标模型处理无标签样本集，以得到所述无标签样本集中的各个样本对应的类别结果；所述目标模型利用有标签鼓点音频集训练得到，所述无标签样本集中的各个样本为从音频作品中截取的鼓点音频；其中，所述类别结果为鼓点类型，标签为鼓点位置；

训练模块，用于利用所述训练集训练所述目标模型，以得到鼓点识别模型；其中，所述鼓点识别模型的识别能力高于所述目标模型。

11.一种电子设备，其特征在于，所述电子设备包括处理器和存储器；其中，所述存储器用于存储计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至9任一项所述的模型训练方法。

12.一种存储介质，其特征在于，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如权利要求1至9任一项所述的模型训练方法。