CN112434746B

CN112434746B - 基于层次化迁移学习的预标注方法及其相关设备

Info

Publication number: CN112434746B
Application number: CN202011364408.9A
Authority: CN
Inventors: 张楠; 王健宗; 瞿晓阳
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2023-10-27
Anticipated expiration: 2040-11-27
Also published as: WO2022001233A1; CN112434746A

Abstract

本申请实施例属于人工智能领域，涉及一种基于层次化迁移学习的预标注方法及其相关设备，包括基于预设的聚类算法对预先接收的多个不同的场景进行聚类，获得聚类结果；根据聚类结果确定第一类场景和第二类场景，第一类场景包括第一场景，第一场景中标注数据的数据量大于第二类场景中任意场景的标注数据的数据量；基于预设的识别模型对所述第一类场景进行迁移学习，获得第一类场景中每个场景的预标注数据和迁移模型；基于迁移模型对所述第二类场景进行迁移学习，获得第二类场景中每个场景的预标注数据。其中，每个场景的预标注数据可存储于区块链中。本申请实现快速获得不同场景中较好的预标注数据。

Description

基于层次化迁移学习的预标注方法及其相关设备

技术领域

本申请涉及人工智能技术领域，尤其涉及基于层次化迁移学习的预标注方法及其相关设备。

背景技术

随机科技的发展，智能化的识别技术已经得到广泛的应用，许多数据不再需要人员来标注，而是通过模型可以直接进行预标注，人员只需要矫正预标注的结果即可，有效的减少了人工成本和标注时间。

但是，目前在模型实际投入使用，进行预标注之前，需要大量的已经标注的数据对模型进行训练，模型训练的效果直接影响预标注的结果。然而，在对不同场景的模型进行训练时，依然需要人员来对每个场景中的大量数据分别进行标注，造成人工成本过高，标注速度过慢，无法在短期内快速获得不同场景中的大量较好的标注数据。

目前的方式是将旧场景中训练好的模型直接迁移到新场景中进行预标注，再由人员矫正预标注结果，但由于不同的场景可能存在较大的差异，导致模型的预标注结果较差，甚至根本无法使用的情况。

发明内容

本申请实施例的目的在于提出一种基于层次化迁移学习的预标注方法及其相关设备，实现快速获得不同场景中较好的预标注数据。

为了解决上述技术问题，本申请实施例提供一种基于层次化迁移学习的预标注方法，采用了如下所述的技术方案：

一种基于层次化迁移学习的预标注方法，包括下述步骤：

基于预设的聚类算法对预先接收的多个不同的场景进行聚类，获得聚类结果；

根据所述聚类结果确定第一类场景和第二类场景，其中，所述第一类场景包括第一场景，所述第一场景中标注数据的数据量大于所述第二类场景中任意场景的标注数据的数据量；

基于预设的识别模型对所述第一类场景进行迁移学习，获得第一类场景中每个场景的预标注数据和迁移模型；

基于所述迁移模型对所述第二类场景进行迁移学习，获得第二类场景中每个场景的预标注数据。

进一步的，所述基于预设的聚类算法对预先接收的多个不同的场景进行聚类，获得聚类结果的步骤包括：

接收多个不同的场景文本，其中，所述场景文本与所述场景一一对应；

将所述多个不同的场景文本分别输入预先训练的向量模型中，分别获得场景向量；

基于无监督K-means算法聚类所述场景向量，获得聚类结果。

进一步的，所述将所述多个不同的场景文本分别输入预先训练的向量模型中，分别获得场景向量的步骤包括：

依次将每个所述场景文本分别输入预先训练的向量模型的分类记忆网络和词袋网络中，分别获得第一文本特征向量和第二文本特征向量；

组装所述第一文本特征向量和第二文本特征向量，获得所述场景向量。

进一步的，所述第一类场景至少包括第一场景和第二场景，所述基于预设的识别模型对所述第一类场景进行迁移学习，获得第一类场景中每个场景的预标注数据和迁移模型的步骤包括：

基于所述第一场景中包含的标注数据训练预设的识别模型，获得第一识别模型，其中，所述第一场景包括对应的标注数据；

基于所述第二场景中包含的标注数据调整所述第一识别模型，获得第二识别模型，其中，所述第二场景包括对应的标注数据和未标注数据；

将所述第二场景中包含的未标注数据输入所述第二识别模型中，获得第二场景对应的预标注数据，并校正所述预标注数据，获得第一标注结果；

通过所述第一标注结果训练所述第二识别模型，获得第二场景对应的第三识别模型；

判断所述识别模型已经学习的场景个数与所述第一类场景中包含的场景个数是否相等；

若相等则将所述第三识别模型作为所述迁移模型，获得所述迁移模型和第一类场景中每个场景的预标注数据；

若不相等，则通过所述第三识别模型对下一个场景进行学习，直至所述识别模型已经学习的场景个数与所述第一类场景中包含的场景个数相等，获得所述迁移模型和第一类场景中每个场景的预标注数据。

进一步的，所述基于所述第二场景中包含的标注数据调整所述第一识别模型，获得第二识别模型的步骤包括：

根据预设的划分位置，将所述第一识别模型划分为固定层和待调整层；

基于所述第二场景中包含的标注数据训练所述待调整层，获得调整层；

组合所述固定层和所述调整层，获得所述第二识别模型。

进一步的，所述校正所述预标注数据，获得标注结果的步骤包括：

将所述第二场景对应的预标注数据展示在预设的前端页面中；

向相关人员发送矫正通知，以通知所述相关人员在所述前端页面中矫正所述预标注数据；

当接收所述相关人员返回的矫正完成通知后，获取所述相关人员矫正后的预标注数据，作为标注结果。

进一步的，所述第二类场景至少包括第三场景，所述基于所述迁移模型对所述第二类场景进行迁移学习，获得第二类场景中每个场景的预标注数据的步骤包括：

基于所述第三场景中包含的标注数据调整所述迁移模型，获得第一迁移模型，其中，所述第三场景包括对应的标注数据和未标注数据；

通过所述第一迁移模型预标注所述第三场景中包含的未标注数据，获得第三场景对应的预标注数据，并校正所述预标注数据，获得第二标注结果；

通过所述第二标注结果训练所述第一迁移模型，获得第三场景对应的第二迁移模型；

判断所述迁移模型已经学习的场景个数与所述第二类场景中包含的场景个数是否相等；

若相等则确定完成对各场景的预标注，获得第二类场景中每个场景的预标注数据；

若不相等，则通过所述第二迁移模型对下一个场景进行学习，直至所述迁移模型已经学习的场景个数与所述第二类场景中包含的场景个数相等，获得第二类场景中每个场景的预标注数据。

为了解决上述技术问题，本申请实施例还提供一种基于层次化迁移学习的预标注装置，采用了如下所述的技术方案：

一种基于层次化迁移学习的预标注装置，包括：

场景聚类模块，用于基于预设的聚类算法对预先接收的多个不同的场景进行聚类，获得聚类结果；

类别确定模块，用于根据所述聚类结果确定第一类场景和第二类场景，其中，所述第一类场景包括第一场景，所述第一场景中标注数据的数据量大于所述第二类场景中任意场景的标注数据的数据量；

第一标注模块，用于基于预设的识别模型对所述第一类场景进行迁移学习，获得第一类场景中每个场景的预标注数据和迁移模型；

第二标注模块，用于基于所述迁移模型对所述第二类场景进行迁移学习，获得第二类场景中每个场景的预标注数据。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现上述的基于层次化迁移学习的预标注方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现上述的基于层次化迁移学习的预标注方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请在相同任务类型下，对多个不同的场景进行聚类，获得聚类结果，并根据聚类结果实现场景的划分，预设的识别模型先在同一类场景中进行迁移学习，由于场景相似，识别模型能够捕获相似场景下的细粒度的知识，进而识别模型在同一类下的不同场景中能够输出的较好的预标注数据。完成同一类的相似场景的迁移学习后，将获得的迁移模型输入另一类的场景中，依然能够捕获属于同任务类型下，不相似场景中的粗粒度的知识，从而能够解决在模型训练早期高质量的标注数据不足的情况，减少相同任务类型中不同场景下模型设计和开发的成本，提高预标注的效果，保证计算机能够高效的产出有效的标注数据。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性***架构图；

图2是根据本申请的基于层次化迁移学习的预标注方法的一个实施例的流程图；

图3是根据本申请的基于层次化迁移学习的预标注装置的一个实施例的结构示意图；

图4是根据本申请的计算机设备的一个实施例的结构示意图。

附图标记：200、计算机设备；201、存储器；202、处理器；203、网络接口；300、基于层次化迁移学习的预标注装置；301、场景聚类模块；302、类别确定模块；303、第一标注模块；304、第二标注模块。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，***架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的基于层次化迁移学习的预标注方法一般由服务器/终端设备执行，相应地，基于层次化迁移学习的预标注装置一般设置于服务器/终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的基于层次化迁移学习的预标注方法的一个实施例的流程图。所述的基于层次化迁移学习的预标注方法，包括以下步骤：

S1：基于预设的聚类算法对预先接收的多个不同的场景进行聚类，获得聚类结果，其中，所述多个不同的场景属于同一任务。

在本实施例中，通过对多个不同的场景进行聚类，从而实现对场景的分类，确定出相似的场景，便于后续先对相似场景的进行迁移学习,以保证可以捕获到相似场景下的细粒度知识,其中,同一任务指模型对不同场景的任务类型是一样的,比如当前任务是意图识别,则模型对不同场景的任务均为意图识别。

在本实施例中，基于层次化迁移学习的预标注方法运行于其上的电子设备(例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方式预先接收多个不同的场景。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

具体的，所述基于预设的聚类算法对预先接收的多个不同的场景进行聚类，获得聚类结果的步骤包括：

基于无监督K-means算法聚类所述场景向量，获得聚类结果。

在本实施例中，场景文本具体指该场景下的文本数据，例如，在外部机器人与客户对话的场景中，外部机器人与客户对话的内容即为该场景的场景文本。当然，在实际操作过程中，场景文本可以根据实际需要和模型的表现情况进行适应性的选择调整，比如，选取对该场景的描述文本作为场景文本。其中，向量模型为Doc2vec，Doc2vec是一种非监督式算法，可以获得句子/段落/文本的向量表达。通过向量模型将场景文本转化为场景向量，便于通过算法聚类场景向量，进而实现场景聚类。

所述将所述多个不同的场景文本分别输入预先训练的向量模型中，分别获得场景向量的步骤包括：

依次将每个所述场景文本分别输入预先训练的向量模型中的分类记忆网络和词袋网络中，分别获得第一文本特征向量和第二文本特征向量；

在本实施例中，Doc2vec输出的向量表达的主旨相对于其他向量模型更加准确。Doc2vec中包括两种网络，分别为：分类记忆网络(Distributed Memory，DM)和词袋网络(Distributed Bag of Words，DBOW)。通过组装所述第一文本特征向量和第二文本特征向量，获得场景向量。例如，分类记忆网络输出的第一文本特征向量为(p1，p2，p3，p4)，词袋网络输出的第二文本特征向量为(q1，q2，q3，q4)，则场景向量为(p1，p2，p3，p4，q1，q2，q3，q4)。

S2：根据所述聚类结果确定第一类场景和第二类场景，其中，所述第一类场景包括第一场景，所述第一场景中标注数据的数据量大于所述第二类场景中任意场景的标注数据的数据量。

在本实施例中，通过聚类将多个不同的场景划分为不同的类别。根据场景的类别，确定第一类场景和第二类场景。本申请中，第一类场景和第二类场景并不特指场景的某一类别，而是泛指任一类别，在实际应用过程中，可以根据实际需要确定选择的场景的类别，例如，选择对应的场景较多的分类作为第一类场景，或者选择存在预先标识的重要等级高的场景的分类作为第一类场景。其中，重要等级超过预设的等级阈值，则确定该重要等级高。根据场景的聚类结果，确定第一类场景和第二类场景后，便于后续对同一类场景的迁移学习。但需要注意的是，第一类场景中总是存在至少一个场景(本申请指第一场景)的标注数据的数据量要大于第二类场景中任意场景的标注数据的数据量，以保证最初通过第一场景所训练的识别模型不会在后续训练过程中发生较大的改变，且保证第一场景中具有足够的标注数据用于训练识别模型。换言之，由于第一场景中标注数据的数据量较多，适合作为第一个训练识别模型的场景，后续在将通过第一场景训练后的识别模型最初迁移到其他场景中时，只需要其他场景中的少量标注数据对该识别模型进行微调，即可获得较好的识别模型。

S3：基于预设的识别模型对所述第一类场景进行迁移学习，获得第一类场景中每个场景的预标注数据和迁移模型。

在本实施例中，同一类场景中，场景都属于相似场景，通过预先设定的识别模型对第一类场景进行迁移学习，实现模型先对相似的场景进行迁移学习，能够保证识别模型可以捕获相似场景下的细粒度的知识，输出较好的预标注数据。

具体的，所述第一类场景至少包括第一场景和第二场景，所述基于预设的识别模型对所述第一类场景进行迁移学习，获得第一类场景中每个场景的预标注数据和迁移模型的步骤包括：

在本实施例中，使用第一场景中的标注数据作为识别模型的输入，其中，该标注数据是指由相关人员挑选的高质量的已经标注的数据。本申请的识别模型为NLP(NaturalLanguage Processing，自然语言处理)模型。通过第一场景中的高质量标注数据训练识别模型，在意图识别任务中，识别模型的损失函数可以采用交叉熵损失函数，交叉熵损失函数(Cross Entropy Loss)用于表征真实样本标签和预测概率之间的差值，当识别模型的准确度达到预设的准确率阈值时，确定完成训练，获得第一识别模型。此外，由于第一场景中的标注数据用于训练识别模型，第二场景中的标注数据用于调整识别模型，第一场景中的标注数据的数据量需要大于第二场景中的标注数据的数据量，以保证模型在第二场景中不会有过大的改变。通过判断识别模型已经学习的场景个数与所述第一类场景中包含的场景个数是否相等,来确定识别模型是否已经对第一类场景中的所有场景进行了迁移学习,并且是否完成了对各场景的预标注。其中，若第一场景中存在未标注数据，则识别模型在第一场景中训练完成之后，可以直接对第一场景中的未标注数据进行标注。后续对其他场景的预标注，则只需要依次通过各场景中的少量标注数据对识别模型进行调整，即可用于对应场景的预标注，且由于场景相似并且对模型进行了调整，输出的预标注数据质量较高，有效的实现了快速获得不同场景的大量优质的预标注数据。

组合所述固定层和所述调整层，获得所述第二识别模型。

在本实施例中，所述固定层为所述第一识别模型的前n层，所述待调整层为所述第一识别模型的后m层，n，m均为正整数。固定层和待调整层组成了第一识别模型。用第二场景中的标注数据训练所述待调整层，即表示固定第一模型的前几层参数，使用第二场景中的标注数据只训练第一识别模型的后几层参数。本申请通过微调实现获得学习到第二场景下的特征的第二识别模型。通过该方式，解决了第二场景中标注数据不足的问题，且无需大量的第二场景中的标注数据，即可训练出表现较好的第二识别模型，通过第二识别模型又能够实现对第二场景中未标注数据进行高质量的标注，有效提升了数据标注的效率。

需要说明的是：上述所述第一标注结果训练所述第二识别模型，获得第二场景对应的第三识别模型的训练过程，既可以是训练迭代所述第二识别模型的全部参数，也可以是调整所述第二识别模型，即仅训练上述第二识别模型的待调整层。

此外，所述校正所述预标注数据，获得标注结果的步骤包括：

在本实施例中，通过将预标注数据展示在前端页面，通知相关人员针对预标注的数据进行校正，矫正之后产出的即为第二场景下的高质量的标注数据。由于上述预标注的质量较好，故相关人员矫正预标注数据的速度也得到了有效的提升，能够实现快速获得高质量的标注数据。

S4：基于所述迁移模型对所述第二类场景进行迁移学习，获得第二类场景中每个场景的预标注数据。

在本实施例中，识别模型在第一类场景中完成迁移学习后，获得迁移模型。基于迁移模型对第二类场景进行迁移学习

具体的，所述第二类场景至少包括第三场景，所述基于所述迁移模型对所述第二类场景进行迁移学习，获得第二类场景中每个场景的预标注数据的步骤包括：

在本实施例中，通过第三场景中的标注数据调整迁移模型。其中，所述基于所述第三场景中包含的标注数据调整所述迁移模型，获得第一迁移模型的步骤与上述基于所述第二场景中包含的标注数据调整所述第一识别模型，获得第二识别模型的步骤一致，此处不再赘述。需要说明的是：在第一识别模型中，所述固定层为所述第一识别模型的前n层，所述待调整层为所述第一识别模型的后m层。在迁移模型中，所述固定层为迁移模型的前k层，待调整层为迁移模型的后h层。其中，n＝k且m＝h，或n≠k且m≠h。通过将在相似场景中完成迁移学习的模型，输入另一类的场景中，并通过另一类场景中的标注数据对输入的迁移模型进行调整，使得迁移模型可以学习到该场景的特征，进而能够捕获该场景中粗粒度的知识，实现输出的预标注数据相对于未进行调整的模型输出的预标注数据的质量更佳，有效提高了标注的效率，减少了相同任务类型中不同场景下模型设计和开发的成本。

需要说明的是：上述通过所述第二标注结果训练所述第一迁移模型，获得第三场景对应的第二迁移模型的过程，既可以是训练迭代所述第一迁移模型的全部参数，也可以是调整所述第一迁移模型，即仅需要训练上述的第一迁移模型的待调整层即可。

此外，还需要说明的是，本申请可以应用于多种不同的预标注场景中。以意图识别任务为例，该任务类型下可以有礼品赠送对话场景、物品销售对话场景和售后对话场景等。在聚类过程中，礼品赠送对话场景与物品销售对话场景被分类为上述第一类场景，售后对话场景被分类为上述第二类场景。其中，礼品赠送对话场景中包含大量的高质量的意图标注数据，而物品销售对话场景和售后对话场景中只有少量的高质量的意图标注数据，则通过上述本申请的方案，可以有效的获得物品销售对话场景和售后对话场景对应的大量的高质量的意图标注数据。

需要强调的是，为进一步保证上述每个场景的预标注数据的私密和安全性，上述每个场景的预标注数据还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图3，作为对上述图2所示方法的实现，本申请提供了一种基于层次化迁移学习的预标注装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例所述的基于层次化迁移学习的预标注装置300包括：场景聚类模块301、类别确定模块302、第一标注模块303以及第二标注模块304。其中：场景聚类模块301，用于基于预设的聚类算法对预先接收的多个不同的场景进行聚类，获得聚类结果；类别确定模块302，用于根据所述聚类结果确定第一类场景和第二类场景，其中，所述第一类场景包括第一场景，所述第一场景中标注数据的数据量大于所述第二类场景中任意场景的标注数据的数据量；第一标注模块303，用于基于预设的识别模型对所述第一类场景进行迁移学习，获得第一类场景中每个场景的预标注数据和迁移模型；第二标注模块304，用于基于所述迁移模型对所述第二类场景进行迁移学习，获得第二类场景中每个场景的预标注数据。

在本实施例中，本申请在相同任务类型下，对多个不同的场景进行聚类，获得聚类结果，并根据聚类结果实现场景的划分，预设的识别模型先在同一类场景中进行迁移学习，由于场景相似，识别模型能够捕获相似场景下的细粒度的知识，进而识别模型在同一类下的不同场景中能够输出的较好的预标注数据。完成同一类的相似场景的迁移学习后，将获得的迁移模型输入另一类的场景中，依然能够捕获属于同任务类型下，不相似场景中的粗粒度的知识，从而能够解决在模型训练早期高质量的标注数据不足的情况，减少相同任务类型中不同场景下模型设计和开发的成本，提高预标注的效果，保证计算机能够高效的产出有效的标注数据。

所述场景聚类模块301包括接收子模块、输入子模块和聚类子模块。接收子模块用于接收多个不同的场景文本，其中，所述场景文本与所述场景一一对应；输入子模块用于将所述多个不同的场景文本分别输入预先训练的向量模型中，分别获得场景向量；聚类子模块用于基于无监督K-means算法聚类所述场景向量，获得聚类结果。

所述输入子模块包括输入单元和组装单元。输入单元用于依次将每个所述场景文本分别输入预先训练的向量模型中的分类记忆网络和词袋网络中，分别获得第一文本特征向量和第二文本特征向量；组装单元用于组装所述第一文本特征向量和第二文本特征向量，获得所述场景向量。

所述第一类场景至少包括第一场景和第二场景，第一标注模块303包括第一训练子模块、第一调整子模块、第一矫正子模块、第一获得子模块、第一判断子模块、第一相等子模块和第一终止子模块。第一训练子模块用于基于所述第一场景中包含的标注数据训练预设的识别模型，获得第一识别模型，其中，所述第一场景包括对应的标注数据；第一调整子模块用于基于所述第二场景中包含的标注数据调整所述第一识别模型，获得第二识别模型，其中，所述第二场景包括对应的标注数据和未标注数据；第一矫正子模块用于将所述第二场景中包含的未标注数据输入所述第二识别模型中，获得第二场景对应的预标注数据，并校正所述预标注数据，获得第一标注结果；第一获得子模块用于通过所述第一标注结果训练所述第二识别模型，获得第二场景对应的第三识别模型；第一判断子模块用于判断所述识别模型已经学习的场景个数与所述第一类场景中包含的场景个数是否相等；第一相等子模块用于当所述识别模型已经学习的场景个数与所述第一类场景中包含的场景个数相等时，将所述第三识别模型作为所述迁移模型，获得所述迁移模型和第一类场景中每个场景的预标注数据；第一终止子模块用于当所述识别模型已经学习的场景个数与所述第一类场景中包含的场景个数不相等时，通过所述第三识别模型对下一个场景进行学习，直至所述识别模型已经学习的场景个数与所述第一类场景中包含的场景个数相等，获得所述迁移模型和第一类场景中每个场景的预标注数据。

第一调整子模块包括划分单元、训练单元和组合单元。划分单元用于根据预设的划分位置，将所述第一识别模型划分为固定层和待调整层；训练单元用于基于所述第二场景中包含的标注数据训练所述待调整层，获得调整层；组合单元用于组合所述固定层和所述调整层，获得所述第二识别模型。

第一矫正子模块包括展示单元、通知单元和标注单元。展示单元用于将所述第二场景对应的预标注数据展示在预设的前端页面中；通知单元用于向相关人员发送矫正通知，以通知所述相关人员在所述前端页面中矫正所述预标注数据；标注单元用于当接收所述相关人员返回的矫正完成通知后，获取所述相关人员矫正后的预标注数据，作为标注结果。

所述第二类场景至少包括第三场景，第二标注模块304包括第二调整子模块、第二矫正子模块、第二获得子模块、第二判断子模块、第二相等子模块和第二终止子模块。第二调整子模块用于基于所述第三场景中包含的标注数据调整所述迁移模型，获得第一迁移模型，其中，所述第三场景包括对应的标注数据和未标注数据；第二矫正子模块用于通过所述第一迁移模型预标注所述第三场景中包含的未标注数据，获得第三场景对应的预标注数据，并校正所述预标注数据，获得第二标注结果；第二获得子模块用于通过所述第二标注结果训练所述第一迁移模型，获得第三场景对应的第二迁移模型；第二判断子模块用于判断所述迁移模型已经学习的场景个数与所述第二类场景中包含的场景个数是否相等；第二相等子模块用于当迁移模型已经学习的场景个数与所述第二类场景中包含的场景个数否相等时，确定完成对各场景的预标注，获得第二类场景中每个场景的预标注数据；第二终止子模块用于当迁移模型已经学习的场景个数与所述第二类场景中包含的场景个数不相等时，通过所述第二迁移模型对下一个场景进行学习，直至所述迁移模型已经学习的场景个数与所述第二类场景中包含的场景个数相等，获得第二类场景中每个场景的预标注数据。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图4，图4为本实施例计算机设备基本结构框图。

所述计算机设备200包括通过***总线相互通信连接存储器201、处理器202、网络接口203。需要指出的是，图中仅示出了具有组件201-203的计算机设备200，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器201至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器201可以是所述计算机设备200的内部存储单元，例如该计算机设备200的硬盘或内存。在另一些实施例中，所述存储器201也可以是所述计算机设备200的外部存储设备，例如该计算机设备200上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器201还可以既包括所述计算机设备200的内部存储单元也包括其外部存储设备。本实施例中，所述存储器201通常用于存储安装于所述计算机设备200的操作***和各类应用软件，例如基于层次化迁移学习的预标注方法的计算机可读指令等。此外，所述存储器201还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器202在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器202通常用于控制所述计算机设备200的总体操作。本实施例中，所述处理器202用于运行所述存储器201中存储的计算机可读指令或者处理数据，例如运行所述基于层次化迁移学习的预标注方法的计算机可读指令。

所述网络接口203可包括无线网络接口或有线网络接口，该网络接口203通常用于在所述计算机设备200与其他电子设备之间建立通信连接。

在本实施例中，解决在模型训练早期高质量的标注数据不足的情况，提高预标注的效果，保证计算机能够高效的产出有效的标注数据。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的基于层次化迁移学习的预标注方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种基于层次化迁移学习的预标注方法，其特征在于，包括下述步骤：

基于预设的聚类算法对预先接收的多个不同的场景进行聚类，获得聚类结果，其中，所述多个不同的场景属于同一任务；

所述基于预设的聚类算法对预先接收的多个不同的场景进行聚类，获得聚类结果的具体步骤，包括：

基于无监督K-means算法聚类所述场景向量，获得聚类结果；

基于所述迁移模型对所述第二类场景进行迁移学习，获得第二类场景中每个场景的预标注数据；

所述第二类场景至少包括第三场景，所述基于所述迁移模型对所述第二类场景进行迁移学习，获得第二类场景中每个场景的预标注数据的具体步骤，包括：

若相等，则确定完成对各场景的预标注，获得第二类场景中每个场景的预标注数据；

2.根据权利要求1所述的基于层次化迁移学习的预标注方法，其特征在于，所述将所述多个不同的场景文本分别输入预先训练的向量模型中，分别获得场景向量的步骤包括：

3.根据权利要求1所述的基于层次化迁移学习的预标注方法，其特征在于，所述第一类场景至少包括第一场景和第二场景，所述基于预设的识别模型对所述第一类场景进行迁移学习，获得第一类场景中每个场景的预标注数据和迁移模型的步骤包括：

若相等，则将所述第三识别模型作为所述迁移模型，获得所述迁移模型和第一类场景中每个场景的预标注数据；

4.根据权利要求3所述的基于层次化迁移学习的预标注方法，其特征在于，所述基于所述第二场景中包含的标注数据调整所述第一识别模型，获得第二识别模型的步骤包括：

组合所述固定层和所述调整层，获得所述第二识别模型。

5.根据权利要求3所述的基于层次化迁移学习的预标注方法，其特征在于，所述校正所述预标注数据，获得标注结果的步骤包括：

6.一种基于层次化迁移学习的预标注装置，其特征在于，包括：

类别确定模块，用于根据所述聚类结果确定第一类场景和第二类场景，其中，所述第一类场景包括第一场景，所述第一场景中标注数据的数据量大于所述第二类场景中任意场景的标注数据的数据量，所述第二类场景至少包括第三场景；

第二标注模块，用于基于所述迁移模型对所述第二类场景进行迁移学习，获得第二类场景中每个场景的预标注数据；

所述场景聚类模块包括：

接收子模块，用于接收多个不同的场景文本，其中，所述场景文本与所述场景一一对应；

输入子模块，用于将所述多个不同的场景文本分别输入预先训练的向量模型中，分别获得场景向量；

聚类子模块，用于基于无监督K-means算法聚类所述场景向量，获得聚类结果；

所述第二标注模块包括：

第二调整子模块，用于基于所述第三场景中包含的标注数据调整所述迁移模型，获得第一迁移模型，其中，所述第三场景包括对应的标注数据和未标注数据；

第二矫正子模块，用于通过所述第一迁移模型预标注所述第三场景中包含的未标注数据，获得第三场景对应的预标注数据，并校正所述预标注数据，获得第二标注结果；

第二获得子模块，用于通过所述第二标注结果训练所述第一迁移模型，获得第三场景对应的第二迁移模型；

第二判断子模块，用于判断所述迁移模型已经学习的场景个数与所述第二类场景中包含的场景个数是否相等；

第二相等子模块，用于若相等，则确定完成对各场景的预标注，获得第二类场景中每个场景的预标注数据；

第二终止子模块，用于若不相等，则通过所述第二迁移模型对下一个场景进行学习，直至所述迁移模型已经学习的场景个数与所述第二类场景中包含的场景个数相等，获得第二类场景中每个场景的预标注数据。

7.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至5中任一项所述的基于层次化迁移学习的预标注方法的步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至5中任一项所述的基于层次化迁移学习的预标注方法的步骤。