CN111091198A

CN111091198A - 一种数据处理方法及装置

Info

Publication number: CN111091198A
Application number: CN201911189936.2A
Authority: CN
Inventors: 袁松岭; 王晓利; 鲁奇凯; 陈楚城
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-28
Filing date: 2019-11-28
Publication date: 2020-05-01
Anticipated expiration: 2039-11-28
Also published as: CN111091198B

Abstract

本申请提供一种数据处理方法及装置，涉及数据处理技术领域，方法包括：获取第一数据集合、第二数据集合以及第一数据处理模型；基于第一数据处理模型，获得第一向量集合以及第二向量集合；根据设定的迭代条件执行：确定各第二向量与所述第一向量集合之间的相似度，并将满足预设调整条件的相似度对应的第二数据调整为第一数据加入到第一数据集合中，将进行调整的第二数据对应的第二向量作为新增的第一向量加入到第一向量集合中；将标注后的第一数据集合作为第二训练数据集合，训练第一数据处理模型，得到第二数据处理模型；基于第二数据处理模型处理第二应用场景中的数据。提高了迁移学习的效率以及准确率。

Description

一种数据处理方法及装置

技术领域

本发明实施例涉及数据处理技术领域，尤其涉及一种数据处理方法及装置。

背景技术

深度学习中在计算机视觉任务和自然语言处理任务中将预训练的模型作为新模型的起点是一种常用的方法，通常这些预训练的模型在开发神经网络的时候已经消耗了巨大的时间资源和计算资源，迁移学习可以将已习得的强大技能迁移到相关的问题上。

迁移学习(Transfer Learning)是一种机器学习方法，是把一个领域(源领域)的知识，迁移到另外一个领域(目标领域)，使得目标领域能够取得更好的学习效果。

现阶段在迁移学习过程上，更多的是考虑怎么样设计微调模型，但是在迁移学习过程中，还需要对目标领域的数据进行标注，现有技术未能考虑如何挑选最合适的目标领域的数据进行标注，使得迁移学习的效率低，准确性差。

发明内容

本申请实施例提供一种数据处理方法及装置，在迁移学习过程中挑选最合适的目标领域的数据进行标注，以提高迁移学习的效率以及准确性。

一方面，本申请实施例提供一种数据处理方法，所述方法包括：

获取第一数据集合、第二数据集合以及第一数据处理模型，所述第一数据集合中包括已标注的第一数据，所述第一数据处理模型是根据第一训练数据集合训练得到的，所述第一数据处理模型应用于第一应用场景，所述第一数据集合中的第一数据以及所述第二数据集合中的第二数据是针对第二应用场景的待选训练数据，所述第一数据集合、第二数据集合中的数据与所述第一训练数据集合中的数据属性相同；

基于所述第一数据处理模型，获得各个第一数据的第一向量构成的第一向量集合，并获得各个第二数据的第二向量构成的第二向量集合；

根据设定的迭代条件执行：确定各第二向量与所述第一向量集合之间的相似度，并将满足预设调整条件的相似度对应的第二数据调整为第一数据加入到第一数据集合中，将进行调整的第二数据对应的第二向量作为新增的第一向量加入到第一向量集合中；

将迭代终止时的第一数据集合中新增第一数据进行标注，并将标注后的第一数据集合作为第二训练数据集合，训练所述第一数据处理模型，得到第二数据处理模型；

基于所述第二数据处理模型处理所述第二应用场景中的数据。

一方面，本申请实施例提供一种数据处理装置，包括：

获取单元，用于获取第一数据集合、第二数据集合以及第一数据处理模型，所述第一数据集合中包括已标注的第一数据，所述第一数据处理模型是根据第一训练数据集合训练得到的，所述第一数据处理模型应用于第一应用场景，所述第一数据集合中的第一数据以及所述第二数据集合中的第二数据是针对第二应用场景的待选训练数据，所述第一数据集合、第二数据集合中的数据与所述第一训练数据集合中的数据属性相同；

向量化单元，用于基于所述第一数据处理模型，获得各个第一数据的第一向量构成的第一向量集合，并获得各个第二数据的第二向量构成的第二向量集合；

数据调整单元，用于根据设定的迭代条件执行：确定各第二向量与所述第一向量集合之间的相似度，并将满足预设调整条件的相似度对应的第二数据调整为第一数据加入到第一数据集合中，将进行调整的第二数据对应的第二向量作为新增的第一向量加入到第一向量集合中；

训练单元，用于将迭代终止时的第一数据集合中新增第一数据进行标注，并将标注后的第一数据集合作为第二训练数据集合，训练所述第一数据处理模型，得到第二数据处理模型；

处理单元，用于基于所述第二数据处理模型处理所述第二应用场景中的数据。

可选的，所述距离为欧氏距离。

一方面，本申请实施例提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行计算机程序时实现上述任一种数据处理方法的步骤。

一方面，本申请实施例提供了一种计算机可读存储介质，其存储有可由计算机设备执行的计算机程序，当所述程序在计算机设备上运行时，使得所述计算机设备执行上述任一种数据处理方法的步骤。

本申请实施例提供的数据处理方法，通过已标注的第一数据以及未标注的第二数据在已经训练完成的第一数据处理模型中的数据表现，来选择训练第二数据处理模型的第二训练数据集合，具体的，使用第一数据处理模型将第一数据以及第二数据进行向量化，向量化的结果可以认为是第一数据以及第二数据在已经训练完成的第一数据处理模型中的数据表现，然后根据向量化的结果，将能够代表所有数据的部分数据作为第二训练数据集合，将第二训练数据集合进行标注，并通过标注后的第二训练数据集合训练得到第二数据处理模型，实现了将第一数据处理模型迁移到第二数据处理模型中。

在本申请实施例中，选择了可以代表全部数据的第二训练数据集合来进行标注，减少了数据标注的工作量，从而提高了迁移学习的效率以及准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种数据处理方法的应用场景示意图；

图2为本申请实施例提供的一种数据处理方法的流程示意图；

图3为本申请实施例提供的一种标注数据的示意图；

图4为本申请实施例提供的一种代表数据的示意图；

图5为本申请实施例提供的一种标注数据的示意图；

图6为本申请实施例提供的一种标注数据的示意图；

图7为本申请实施例提供的一种数据处理方法的流程示意图；

图8为本申请实施例提供的一种数据处理装置的结构示意图；

图9为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了方便理解，下面对本申请实施例中涉及的名词进行解释：

机器学习(ML，Machine Learning)：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径。机器学习的核心是“使用算法解析数据，从中学习，然后对世界上的某件事情做出决定或预测”。这意味着，与其显式地编写程序来执行某些任务，不如教计算机如何开发一个算法来完成任务。

深度学习(DL，Deep Learning)：是机器学习领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能(AI,Artificial Intelligence)。

人工智能(AI，Artificial Intelligence)：它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用***的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家***等。

计算机视觉：是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。

图像分割：就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。图像分割是图像识别和计算机视觉至关重要的预处理。没有正确的分割就不可能有正确的识别。但是，进行分割仅有的依据是图像中像素的亮度及颜色，由计算机自动处理分割时，将会遇到各种困难。例如，光照不均匀、噪声的影响、图像中存在不清晰的部分，以及阴影等，常常发生分割错误。因此图像分割是需要进一步研究的技术。

自然语言处理(NLP，Natural Language Processing)：是数据科学领域的一个重要的分支，它包含了以一种高效的方式去分析，理解和从文本里提取信息等重要过程。通过利用NLP及其组件，可以组织大量的文本数据，执行大量的自动化任务，并解决各种问题，比如自动摘要，机器翻译，命名实体识别，关系提取，情感分析，语音识别和主题分割等。

迁移学习(Transfer Learning)：是一种机器学习方法，是把一个领域(源领域)的知识，迁移到另外一个领域(目标领域)，使得目标领域能够取得更好的学习效果。通常，源领域数据量充足，而目标领域数据量较小，这种场景就很适合做迁移学习，例如我们要对一个任务进行分类，但是此任务中数据不充足(目标域)，然而却又大量的相关的训练数据(源域)，但是此训练数据与所需进行的分类任务中的测试数据特征分布不同(例如语音情感识别中，一种语言的语音数据充足，然而所需进行分类任务的情感数据却极度缺乏)，在这种情况下如果可以采用合适的迁移学习方法则可以大大提高样本不充足任务的分类识别结果。

在具体实践过程中，本申请的发明人发现，深度学习中需要大量的数据和计算资源且需花费大量时间来训练模型，但在实际中难以满足这些需求，而使用迁移学习则能有效降低数据量、计算量和计算时间，并能定制在新场景的业务需求，所以迁移学习得到广泛应用。

现阶段在迁移学习过程中，更多的是考虑怎么样设计微调迁移模型，很少有考虑到怎样挑选最合适的业务数据来标注。

而在计算机视觉领域或者其他深度学习或者机器学习领域中，在进行迁移学习的过程中，可能会存在需要使用大量数据进行训练，从而完成模型或者数据的迁移。但是在一些应用场景，例如NLP领域或者图像分割领域，由于数据标注的工作量巨大，导致现有技术中在特定业务上，标注数据成本高且耗时，迁移学习的效率低。

基于上述现有技术的缺点，本申请的发明人构思了一种数据处理方法，在本申请中，使用第一数据处理模型将第一数据以及第二数据进行向量化，向量化的结果可以认为是第一数据以及第二数据在已经训练完成的第一数据处理模型中的数据表现，然后根据向量化的结果，将能够代表所有数据的部分数据作为第二训练数据集合，将第二训练数据集合进行标注，并通过标注后的第二训练数据集合训练得到第二数据处理模型，实现了将第一数据处理模型迁移到第二数据处理模型中。

在介绍完本申请实施例的设计思想之后，下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍，需要说明的是，以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施时，可以根据实际需要灵活地应用本申请实施例提供的技术方案。

为进一步说明本申请实施例提供的技术方案，下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤，但基于常规或者无需创造性的劳动在所述方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中，这些步骤的执行顺序不限于本申请实施例提供的执行顺序。

参考图1，其为本申请实施例提供的数据处理方法的应用场景示意图。该应用场景至少包括数据处理设备101以及数据库102，数据处理设备101与数据库102之间可以位于同一局域网中，也可以位于不同的网络中。数据处理设备101与数据库102之间通过有线网络或者无线网络进行连接。

在本申请实施例中，数据处理设备101从数据库102中获取第一数据集合、第二数据集合以及第一数据处理模型，数据处理设备101基于所述第一数据处理模型，获得各个第一数据的第一向量构成的第一向量集合，并获得各个第二数据的第二向量构成的第二向量集合；根据设定的迭代条件执行：确定各第二向量与所述第一向量集合之间的相似度，并将满足预设调整条件的相似度对应的第二数据调整为第一数据加入到第一数据集合中，将进行调整的第二数据对应的第二向量作为新增的第一向量加入到第一向量集合中；将迭代终止时的第一数据集合中新增第一数据进行标注，并将标注后的第一数据集合作为第二训练数据集合，训练第一数据处理模型，得到第二数据处理模型；基于第二数据处理模型处理第二应用场景中的数据。

可选的，在本申请实施例中，数据处理设备101得到第二数据处理模型后，还可以将第二数据处理模型发送至数据库102中，或者将第二数据处理模型发送至应用终端103，所以在本申请实施例中，数据处理方法的应用场景示意图中还包括应用终端103，应用终端103使用第二数据处理模型处理第二应用场景中的数据。

应理解，本申请实施例中的数据处理设备101以及应用终端103包括但不限于桌面计算机、移动电话、移动电脑、平板电脑等电子设备，可以包括服务器，服务器可以是服务器集群，也可以是单个服务器。

具体的场景限定如图1所示，图1中的数据处理设备101为服务器，应用终端103也为服务器，两个服务器之间通过网络进行交互。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

同样的，在本申请实施例中，数据库为云数据库，云数据库是指通过集群应用、网格技术以及分布存储文件***等功能，将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作，共同对外提供数据存储和业务访问功能的一个存储***。在本申请实施例中，各服务器通过云数据库的访问结构访问云数据库。

当然，本申请实施例提供的方法并不限用于图1所示的应用场景中，还可以用于其它可能的应用场景，本申请实施例并不进行限制。对于图1所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述，在此先不过多赘述。

下面结合图1所示的应用场景，对本申请实施例提供的技术方案进行说明。

参考图2，本申请实施例提供一种数据处理方法，包括以下步骤：

步骤S201，获取第一数据集合、第二数据集合以及第一数据处理模型，第一数据集合中包括已标注的第一数据，第一数据处理模型是根据第一训练数据集合训练得到的，第一数据处理模型应用于第一应用场景，第一数据集合中的第一数据以及第二数据集合中的第二数据是针对第二应用场景的待选训练数据，第一数据集合、第二数据集合中的数据与所述第一训练数据集合中的数据属性相同。

在本申请中，第一数据处理模型是应用于第一应用场景中的，而本申请实施例中的数据处理方法是为了将第一数据处理模型迁移到第二应用场景中，所以在本申请实施例中，第一数据集合、第二数据集合中的数据与所述第一训练数据集合中的数据属性相同。

上述数据属性指的是各数据都是图像数据，或者各数据都是语音数据，或者个数据都是视频数据等。

也就是说，若第一应用场景应用于图像处理领域，例如图像分割、图像识别领域，则第二场景也是图像处理领域；若第一应用场景应用于NLP领域，则第二场景也是NLP领域。所以在本申请实施例中，各数据属性是相同的。

可选的，在本申请实施例中，在进行迁移学习过程中，待选的训练数据是第一数据集合以及第二数据集合中所有的数据，当然，第一数据集合以及第二数据集合中所有的数据也可以是待选的训练数据中的部分数据。

在本申请实施例中，第一数据集合中全部的第一数据都是已经标注的，或者第一数据集合中的部分第一数据为已标注的数据。

在本申请实施例中，可以使用人工标注的方法进行标注，也可以使用机器标注的方法进行标注。

在本申请实施例中，第一数据的标注内容是根据需要迁移学习的第二应用场景来确定的，示例性的，第二应用场景是针对人脸图像进行分类的应用场景，则第一数据的标注内容则是针对人脸的标注。

或者，在本申请实时例中，如图3所示，第一数据为图像数据，在图像数据中可以包括人脸部分数据，也可以不仅仅包括人脸部分数据，还可以包括其它类别的图像数据，如图3中的车辆、树木等图像数据，分别对这些不同类别的图像数据进行标注。

步骤S202，基于所述第一数据处理模型，获得各个第一数据的第一向量构成的第一向量集合，并获得各个第二数据的第二向量构成的第二向量集合。

本申请实施的思想是找到能够代表整个待选训练数据的部分训练数据进行训练，从而减少迁移学习后训练模型的工作量，提高迁移学习的效率，所以在本申请实施例中，通过已标注的第一数据和未标注的第二数据在同一第一数据处理模型中的表现，来确定哪些数据可以代表待选训练数据，具体的，在本申请实施例中，已标注的第一数据和未标注的第二数据在同一第一数据处理模型中的表现可以是已标注的第一数据和未标注的第二数据在同一第一数据处理模型中的向量表现，因为向量可以表征第一数据以及第二数据的数据特点，所以通过向量表现来确定第一数据和第二数据之间的关系。

具体的，在本申请实施例中，利用第一数据处理模型将第一数据以及第二数据进行向量化，并将向量化的结果构成集合，即各个第一数据的第一向量构成第一向量集合，各个第二数据的第二向量构成第二向量集合。

在本申请实施例中，由于第一数据处理模型具有多层模型结构，所以还需要通过同一模型结构将第一数据以及第二数据进行向量化。

例如，在本申请实施例中，第一数据处理模型依次由第一层结构、第二层结构以及第三层结构构成，可以通过第一层结构将第一数据以及第二数据进行向量化，即将第一数据以及第二数据输入至第一层结构中，得到的结果为各第一数据的第一向量以及第二数据的第二向量。

在本申请实施例中，将第一数据以及第二数据输入至哪一层结构至少是根据第一数据处理模型的结构以及第二应用场景来决定的，例如，第一数据处理模型的结构中具有卷积神经网络CNN结构，且第二应用场景为图像识别应用场景，则为了能够确定第一数据以及第二数据的在第一数据处理模型中的表现，CNN最后一层卷积层能够更好的体现第一数据以及第二数据的向量特征，所以将第一数据以及第二数据输入至第一数据处理模型中CNN最后一层卷积层，得到第一数据的第一向量以及第二数据的第二向量。

当然，第一数据处理模型的结构还可以是其它结构，可以通过根据第一数据处理模型的结构以及第二应用场景来决定将第一数据以及第二数据输入具体的第一数据处理模型的哪一层结构中，在此不做赘述。

步骤S203，根据设定的迭代条件执行：确定各第二向量与所述第一向量集合之间的相似度，并将满足预设调整条件的相似度对应的第二数据调整为第一数据加入到第一数据集合中，将进行调整的第二数据对应的第二向量作为新增的第一向量加入到第一向量集合中。

具体的，在本申请实施例中，提出了一种迭代的思想，通过多次迭代的方式调整第一向量集合，迭代的基本思想是，将与已标注数据具有一定相似关系，但是又具有一些不同特性的未标注数据进行向量化后，加入到第一向量集合中。

示例性的，在本申请实施例中，如图4所示，各个圆圈范围内的数据为具有相似性的数据，迭代的目的是为了找到各个圆圈中能够代表各个圆圈内其他数据的代表数据，并且这些代表数据与其他圆圈中的代表数据之间存在互异性。

具体的，在图4中，包括三个圆圈范围内的数据，每个圆圈内的圆点表示的是一个数据，圆圈内的三角形表示的是该圆圈内的代表数据，即该数据可以代表整个圆圈内的数据，这些数据具有相同或者相似的特征；每个圆圈内的代表数据，第一代表数据、第二代表数据以及第三代表数据之间存在互异性。

通过各第二向量与第一向量集合之间的相似度来确定哪些数据是具有一定相似度，又具有一定的差异性，也就是说，通过各第二向量与第一向量之间的相似度，来将部分第二数据加入到第一数据集合中。

在本申请实施例中，通过向量与集合之间的距离来确定已标注数据与未标注数据之间的相似性，所以在本申请实施例中，在确定向量与集合之间的距离后，将满足预设调整条件的相似度对应的第二数据调整为第一数据加入到第一数据集合中。

具体的，在本申请实施例中，确定向量与集合之间的距离的方法有多种。一种可选的实施例中，针对一个第二向量，根据该第二向量与第一向量集合中的设定数量各第一向量之间的相似度，确定该第二向量与第一向量集合之间的相似度，第二向量与第一向量集合中的设定数量的各第一向量之间的相似度，可以通过第二向量与第一向量结合中的设定数量的各第一向量之间的距离进行表征。

示例性的，将第二向量与第一向量集合中的第一向量A、第一向量B之间的距离的平均值作为第二向量与第一向量结合中的设定数量的各第一向量之间的相似度。

另一种可选的实施例中，在本申请实施例中，针对第二向量集合中的每个第二向量，首先确定第二向量与第一向量集合之间的集合距离，具体的，确定第二向量与第一向量集合中的每个第一向量之间的距离，并根据第二向量与第一向量集合中的每个第一向量之间的距离来确定第二向量与第一向量集合之间的集合距离。

一种可选的实施例中，在第二向量与第一向量集合中的每个第一向量之间的距离后，可以综合各距离来确定第二向量与第一向量集合之间的集合距离，例如，第一向量之间存在三个向量，分别为A1、A2以及A3，第二向量为B1，则将B1-A1作为第二向量B1与第一向量A1之间的距离，同理，将B1-A2作为第二向量B1与第一向量A2之间的距离，将B1-A3作为第二向量B1与第一向量A3之间的距离；然后通过B1-A1、B1-A2以及B1-A3的距离平均值作为第二向量与第一向量集合之间的集合距离。

另一种可选的实施例中，将第二向量与每个第一向量之间的距离最小值，作为第二向量与第一向量集合之间的集合距离，例如B1-A1的距离大于B1-A2距离大于B1-A3的距离，所以将B1-A3作为第二向量与第一向量集合之间的集合距离。

在确定了第二向量集合中每个第二向量与第一向量集合之间的集合距离后，再将满足预设调整条件的相似度对应的第二数据调整为第一数据加入到第一数据集合中。在本申请实施例中，预设调整条件的相似度可以理解为预设的集合距离，该集合距离可以根据迁移学习的场景进行设置。

可选的，在本申请实施例中，预设调整条件可以根据第二应用场景或者迁移学习的需求来确定的，例如迁移学习的时效性等来设置预设调整条件，该调整条件可以设置为一个设定距离，将集合距离满足设定距离对应的第二数据调整为第一数据加入到第一数据集合中。

一种具体的实施例中，预设调整条件为各集合距离中的最大值，所以将各集合距离中的最大值对应的第二数据调整为第一数据加入到第一数据集合中。具体的，第二向量集合中包括三个向量，分别为B1、B2以及B3，B1与第一向量集合之间的距离为DB1，B2与第一向量集合之间的距离为DB2，B3与第一向量集合之间的距离为DB3，并且DB1大于DB2且大于DB3，所以将DB1对应的第二数据调整为第一数据加入到第一数据集合中，也就是说，将B1对应的第二数据加入到第一数据集合中，并通过向量化得到新增的第一向量，加入到第一向量集合中。

然后继续迭代过程，调整第一数据集合中的第一向量，直到迭代终止。

在本申请实施例中，迭代终止条件可以是迭代次数，也可以是当各集合距离之间的距离之差小于设定阈值时，则停止迭代。

在本申请实施例中，上述向量距离或者集合距离可以用欧氏距离、曼哈顿距离或者余弦相似度来进行表示。

其中，欧式距离的表示方法如公式1所示：

其中A_i，B_i分别为向量的分量。

余弦相似度的具体表示方法如公式2所示：

在本申请实施例中，在不同的应用场景中，可以选择不同的距离表示方法，例如，第一应用场景以及第二应用场景为图像分割应用场景，经过实验可知，使用欧式距离进行距离表示，能够得到更好的效果，所以在图像分割应用场景中，使用欧式距离进行距离表示。

步骤S204，将迭代终止时的第一数据集合中新增第一数据进行标注，并将标注后的第一数据集合作为第二训练数据集合，训练所述第一数据处理模型，得到第二数据处理模型。

具体的，在迭代终止时，得到了更新后的第一数据集合，由于第一数据集合中包括了在初始阶段中的已标注第一数据，还有新增加的未标注的第一数据，所以还需要对未标注的第一数据进行标注，可选的，可以通过机器标注的方式或者人工标注的方式进行标注。

在本申请实施例中，在标注第一数据集合中的未标注第一数据后，将更新后的第一数据集合作为第二训练数据集合，第二训练数据集合中的各数据可以作为待选训练数据的表征数据，利用第二训练数据集合训练第一数据处理模型，得到第二数据处理模型。

步骤S205，基于所述第二数据处理模型处理所述第二应用场景中的数据。

在本申请实施例中，训练后的第二数据处理模型后，利用第二数据处理模型来处理第二应用场景中的数据，例如，第二应用场景为图像分割领域，则第二应用场景中的数据为图像数据，第二应用场景为语音识别领域，则第二应用场景中的数据为语音数据。

为了更好的解释本申请实施例，下面结合一种具体的实施场景描述本申请实施例提供的数据处理方法，在本申请实施例中的方法中，数据处理方法的执行主体为数据处理装置，具体的，第一数据处理模型为图像分割模型，第一数据处理模型的应用场景为人以及自行车的二分类场景，示意性的，第一数据处理模型的训练数据如图5所示，图5的图像数据中包括人以及自行车，并分别进行标注，根据标注后的大量的二分类场景数据训练得到了第一数据处理模型。

在本申请实施例中，使用迁移学习的方法，将第一数据处理模型应用在细胞分割场景中，所以需要选择合适的训练数据训练第一数据处理模型，得到可以应用在细胞分割领域的第二数据处理模型。

具体的，在本申请实施例中，针对细胞分割场景的待选训练数据有5000副图像，需要从5000副图像中选择训练数据进行训练，具体的，如图6所示，将部分图像进行标注，如将50副图像进行标注，标注的内容至少包括图像中的类别信息，图6标注的内容有单核细胞、淋巴细胞、嗜酸性粒细胞、嗜中性粒细胞以及嗜碱性粒细胞。将标注的图像作为第一数据集合，将未标注的图像作为第二数据集合。

在本申请实施例中，具体的迁移学习的步骤如图7所示，第一数据处理模型为CNN模型，则将第一数据集合中的各图像以及第二数据集合中的各图像输入至CNN模型中，并将卷积层的最后一层作为第一数据向量以及第二数据向量。

通过各第一数据向量以及第二数据向量分别构建第一向量集合以及第二向量集合。确定任一个第二向量与第一向量集合中各个向量之间的距离，并将距离最小值，作为该第二向量与第一向量集合之间的距离，并将所有第二向量与第一向量结合之间的距离最大值对应的图像加入到第一数据集合中，并返回确定第一数据向量以及第二数据向量的过程进行迭代。

在迭代终止时，确定第二向量与第一向量集合中各个向量之间的距离之差小于迭代终止阈值时，则将第一数据集合中的图像作为训练数据进行训练，具体的，在本申请实施例中，将第一数据集合中的未标注数据进行标注，标注后的图像数据作为训练数据进行训练，训练后得到细胞分割场景的数据处理模型，并可以针对医学图像进行细胞分割。

基于上述实施例，参阅图8所示，本发明实施例提供一种数据处理装置800，包括：

获取单元801，用于获取第一数据集合、第二数据集合以及第一数据处理模型，第一数据集合中包括已标注的第一数据，第一数据处理模型是根据第一训练数据集合训练得到的，第一数据处理模型应用于第一应用场景，第一数据集合中的第一数据以及第二数据集合中的第二数据是针对第二应用场景的待选训练数据，第一数据集合、第二数据集合中的数据与第一训练数据集合中的数据属性相同；

向量化单元802，用于基于第一数据处理模型，获得各个第一数据的第一向量构成的第一向量集合，并获得各个第二数据的第二向量构成的第二向量集合；

数据调整单元803，用于根据设定的迭代条件执行：根据设定的迭代条件执行：确定各第二向量与所述第一向量集合之间的相似度，并将满足预设调整条件的相似度对应的第二数据调整为第一数据加入到第一数据集合中，将进行调整的第二数据对应的第二向量作为新增的第一向量加入到第一向量集合中；

训练单元804，用于将迭代终止时的第一数据集合中新增第一数据进行标注，并将标注后的第一数据集合作为第二训练数据集合，训练第一数据处理模型，得到第二数据处理模型；

处理单元805，用于基于第二数据处理模型处理第二应用场景中的数据。

可选的，数据调整单元803具体用于：

将该第二向量与各第一向量之间的向量距离的最小值作为该第二向量与第一数据集合之间的集合距离。

可选的，数据调整单元803具体用于：

将各集合距离中的最大值对应的第二数据调整为第一数据加入到第一数据集合中。

可选的，向量化单元802具体用于：

将第一数据集合中每个第一数据输入至第一数据处理模型中，并将设定网络层的结果作为各第一数据的第一向量，将第二数据集合中每个第二数据输入至第二数据处理模型中，将设定网络层的输出结果作为第二各数据的第二向量，根据各第一向量构成第一向量集合，根据各第二向量构成第二向量集合，设定网络层是根据第一数据处理模型的模型结构以及第二应用场景确定的。

可选的，第一数据处理模型为第一图像分割模型，设定网络层为第一图像分割模型中卷积神经网络CNN的最后一层卷积层。

可选的，距离为欧氏距离。

基于相同的技术构思，本申请实施例提供了一种计算机设备，如图9所示，包括至少一个处理器901，以及与至少一个处理器连接的存储器902，本申请实施例中不限定处理器901与存储器902之间的具体连接介质，图9中处理器901和存储器902之间通过总线连接为例。总线可以分为地址总线、数据总线、控制总线等。

在本申请实施例中，存储器902存储有可被至少一个处理器901执行的指令，至少一个处理器901通过执行存储器902存储的指令，可以执行前述的数据处理方法中所包括的步骤。

其中，处理器901是计算机设备的控制中心，可以利用各种接口和线路连接终端设备的各个部分，通过运行或执行存储在存储器902内的指令以及调用存储在存储器902内的数据，从而获得客户端地址。可选的，处理器901可包括一个或多个处理单元，处理器901可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器901中。在一些实施例中，处理器901和存储器902可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器901可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器902作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器902可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器902是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器902还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

基于相同的技术构思，本申请实施例提供了一种计算机可读存储介质，其存储有可由计算机设备执行的计算机程序，当所述程序在计算机设备上运行时，使得所述计算机设备执行数据处理方法的步骤。

上述计算机可读存储介质可以是计算机能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述确定各第二向量与所述第一向量集合之间的相似度包括：

针对每一个第二向量，根据该第二向量与各第一向量之间的向量距离，确定第二向量与所述第一向量集合之间的相似度。

3.根据权利要求2所述的方法，其特征在于，所述根据该第二向量与各第一向量之间的向量距离，确定第二向量与所述第一向量集合之间的相似度，包括：

将该第二向量与各第一向量之间的向量距离的最小值作为该第二向量与所述第一向量集合之间的相似度。

4.根据权利要求1所述的方法，其特征在于，所述将满足预设调整条件的相似度对应的第二数据调整为第一数据加入到第一数据集合中，包括：

将各相似度中的最大值对应的第二数据调整为第一数据加入到第一数据集合中。

5.根据权利要求1所述的方法，其特征在于，所述基于所述第一数据处理模型，获得各个第一数据的第一向量构成的第一向量集合，并获得各个第二数据的第二向量构成的第二向量集合，包括：

将所述第一数据集合中每个第一数据输入至所述第一数据处理模型中，并将设定网络层的输出结果作为各第一数据的第一向量，将所述第二数据集合中每个第二数据输入至所述第二数据处理模型中，将设定网络层的输出结果作为第二各数据的第二向量，根据各第一向量构成所述第一向量集合，根据各第二向量构成所述第二向量集合，所述设定网络层是根据所述第一数据处理模型的模型结构以及所述第二应用场景确定的。

6.根据权利要求5所述的方法，其特征在于，所述第一数据处理模型为第一图像分割模型，所述设定网络层为所述第一图像分割模型中卷积神经网络CNN的最后一层卷积层。

7.根据权利要求1～6任一所述的方法，其特征在于，所述距离为欧氏距离。

8.一种数据处理装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述数据调整单元具体用于：

10.根据权利要求9所述的装置，其特征在于，所述数据调整单元具体用于：

11.根据权利要求8所述的装置，其特征在于，所述数据调整单元具体用于：

12.根据权利要求8所述的装置，其特征在于，所述向量化单元具体用于：

将所述第一数据集合中每个第一数据输入至所述第一数据处理模型中，并将设定网络层的结果作为各第一数据的第一向量，将所述第二数据集合中每个第二数据输入至所述第二数据处理模型中，将设定网络层的输出结果作为第二各数据的第二向量，根据各第一向量构成所述第一向量集合，根据各第二向量构成所述第二向量集合，所述设定网络层是根据所述第一数据处理模型的模型结构以及所述第二应用场景确定的。

13.根据权利要求12所述的装置，其特征在于，所述第一数据处理模型为第一图像分割模型，所述设定网络层为所述第一图像分割模型中卷积神经网络CNN的最后一层卷积层。

14.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1～7任一权利要求所述方法的步骤。

15.一种计算机可读存储介质，其特征在于，其存储有可由计算机设备执行的计算机程序，当所述程序在计算机设备上运行时，使得所述计算机设备执行权利要求1～7任一权利要求所述方法的步骤。