CN114358313A - 数据处理方法及装置 - Google Patents

数据处理方法及装置 Download PDF

Info

Publication number
CN114358313A
CN114358313A CN202210006294.3A CN202210006294A CN114358313A CN 114358313 A CN114358313 A CN 114358313A CN 202210006294 A CN202210006294 A CN 202210006294A CN 114358313 A CN114358313 A CN 114358313A
Authority
CN
China
Prior art keywords
sample
data
target
initial
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210006294.3A
Other languages
English (en)
Inventor
王自越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Bilibili Technology Co Ltd
Original Assignee
Shanghai Bilibili Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Bilibili Technology Co Ltd filed Critical Shanghai Bilibili Technology Co Ltd
Priority to CN202210006294.3A priority Critical patent/CN114358313A/zh
Publication of CN114358313A publication Critical patent/CN114358313A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请提供数据处理方法及装置,所述方法包括:获取第一样本数据和与第一样本数据具有业务关联关系的第二样本数据;根据第一样本数据和第一样本标签训练获得第一业务模型,根据第二样本数据和第二样本标签训练获得第二业务模型;将第一样本数据输入至第二业务模型,并将第二样本数据输入至第一业务模型;获取第二业务模型输出的第一目标数据和第一业务模型输出的第二目标数据;基于第一目标数据和第二目标数据构建训练数据集。通过使用多阶段预训练,以及使用第一业务模型和第二业务模型进行标注,来解决部分标签缺失问题,和数据集之间定义不一致问题,扩充了目标业务模型的训练数据,提高目标业务模型的学习训练效果。

Description

数据处理方法及装置
技术领域
本申请涉及人工智能技术领域,特别涉及数据处理方法。本申请同时涉及数据处理装置,一种计算设备,以及一种计算机可读存储介质。
背景技术
随着人工智能技术的发展,多任务深度学习模型的应用越来越多。例如,在人脸识别领域下,可以基于识别鼻子、眼睛、发型等属性识别出人员身份。在多任务深度学习模型的训练过程中,多任务深度学习模型往往需要大量的具有所有标注标签的数据,但是由于具有所有标注标签的训练数据采集难度大,获取成本高的问题,使得多任务学习模型的训练数据的数量不足,导致模型训练困难、训练效果不好。因此,在多任务学习模型的训练数据数量少的情况下,如何扩充训练数据的数量,从而能够更好地对多任务学习模型进行训练、减少模型训练难度是目前亟需解决的问题。
发明内容
有鉴于此,本申请实施例提供了数据处理方法。本申请同时涉及数据处理装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的训练数据不足、获取成本高的问题。
根据本申请实施例的第一方面,提供了一种数据处理方法,包括:
获取第一样本数据和与所述第一样本数据具有业务关联关系的第二样本数据,其中,所述第一样本数据标注有第一样本标签,所述第二样本数据标注有第二样本标签;
根据所述第一样本数据和所述第一样本标签训练获得第一业务模型,根据所述第二样本数据和所述第二样本标签训练获得第二业务模型;
将所述第一样本数据输入至所述第二业务模型,并将所述第二样本数据输入至所述第一业务模型;
获取所述第二业务模型输出的第一目标数据和所述第一业务模型输出的第二目标数据,其中,所述第一目标数据和所述第二目标数据均标注有第一样本标签和第二样本标签;
基于所述第一目标数据和所述第二目标数据构建训练数据集。
根据本申请实施例的第二方面,提供了另一种数据处理方法,包括:
获取至少两个初始样本集合,其中,每个初始样本集合间具有业务关联关系,每个初始样本集合中的样本数据标注有对应的训练标签;
根据每个初始样本集合训练对应的初始业务模型;
基于预设规则通过每个初始业务模型处理每个初始样本集合;
根据每个初始业务模型的处理结果构建训练数据集。
根据本申请实施例的第三方面,提供了一种数据处理装置,包括:
第一获取模块,被配置为获取第一样本数据和与所述第一样本数据具有业务关联关系的第二样本数据,其中,所述第一样本数据标注有第一样本标签,所述第二样本数据标注有第二样本标签;
训练模块,被配置为根据所述第一样本数据和所述第一样本标签训练获得第一业务模型,根据所述第二样本数据和所述第二样本标签训练获得第二业务模型;
输入模块,被配置为将所述第一样本数据输入至所述第二业务模型,并将所述第二样本数据输入至所述第一业务模型;
第二获取模块,被配置为获取所述第二业务模型输出的第一目标数据和所述第一业务模型输出的第二目标数据,其中,所述第一目标数据和所述第二目标数据均标注有第一样本标签和第二样本标签;
构建模块,被配置为基于所述第一目标数据和所述第二目标数据构建训练数据集。
根据本申请实施例的第四方面,提供了另一种数据处理装置,包括:
获取模块,被配置为获取至少两个初始样本集合,其中,每个初始样本集合间具有业务关联关系,每个初始样本集合中的样本数据标注有对应的训练标签;
训练模块,被配置为根据每个初始样本集合训练对应的初始业务模型;
处理模块,被配置为基于预设规则通过每个初始业务模型处理每个初始样本集合;
构建模块,被配置为根据每个初始业务模型的处理结果构建训练数据集。
根据本申请实施例的第五方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时实现所述数据处理方法的步骤。
根据本申请实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现所述数据处理方法的步骤。
本申请提供的数据处理方法,包括:获取第一样本数据和与所述第一样本数据具有业务关联关系的第二样本数据,其中,所述第一样本数据标注有第一样本标签,所述第二样本数据标注有第二样本标签;根据所述第一样本数据和所述第一样本标签训练获得第一业务模型,根据所述第二样本数据和所述第二样本标签训练获得第二业务模型;将所述第一样本数据输入至所述第二业务模型,并将所述第二样本数据输入至所述第一业务模型;获取所述第二业务模型输出的第一目标数据和所述第一业务模型输出的第二目标数据,其中,所述第一目标数据和所述第二目标数据均标注有第一样本标签和第二样本标签;基于所述第一目标数据和所述第二目标数据构建训练数据集。
本申请一实施例实现了通过将第一样本数据输入至第二业务模型,获取第二业务模型输出的第一目标数据,使得第一目标数据既标注有第一样本标签又标注有第二样本标签,将第二样本数据输入至第一业务模型,获取第一业务模型输出的第二目标数据,使得第二目标数据既标注有第一样本标签又标注有第二样本标签,从而扩大目标业务模型的训练数据集,减少训练数据采集成本和模型训练难度。
附图说明
图1是本申请一实施例提供的一种数据处理方法的流程图;
图2是本申请一实施例提供的一种应用于文本识别模型的数据处理方法的处理流程图;
图3是本申请一实施例提供的第二业务模型的训练架构图;
图4是本申请一实施例提供的另一种数据处理方法的流程图;
图5是本申请一实施例提供的一种数据处理装置的结构示意图;
图6是本申请一实施例提供的另一种数据处理装置的结构示意图;
图7是本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本申请一个或多个实施例涉及的名词术语进行解释。
多任务学习:(Multitask Learning)将多个具有业务关联性的任务放在一起学习,同时学习多个任务。即有多个目标损失函数同时学习即为多任务学习。例如,人脸识别技术中,通常要预测人脸中的眼睛、鼻子、嘴等多个维度的信息,这些多个维度信息的预测任务可以由多个模型进行单任务学习,也可以由一个模型进行多任务学习,多任务学习相较于单任务学习在模型学习方面效果更好,能够更好的训练模型。
多任务学习的目的是使用一个模型输出多种标签,并且模型共享部分权重。在传统的线性学习模型中不存在,但在多任务学习模型中通常存在分支,在分支点之前的属于共享权重,每个不同的任务使用相同的损失函数,在分支点之后每个任务有自己的独立权重,不同的任务可以使用不同的损失函数。
在分支点之前,所有任务共享的都是相同的权重,因此只需要计算一次,比起使用多个单任务学习模型来学习训练,可以节约大量的计算时间,并且大多数的计算时间都是耗费在特征提取上,分支点越靠前,共享的权重越少,分支点越靠后,共享的权重越多。从而通过共享权重,可以达到减少模型的参数量,节约模型空间和计算量的目的。并且,多任务学习时,每个任务之间都具有业务关联性,从而可以达到一个相互监督学习从而提升模型学习效果的目的。
迁移学习:(transfer learning)是一个深度学习中常使用的技巧,他的目的是将一个适应任务A的模型,经过一系列的修改和重新训练,使其能适应B任务,并且能缩短训练时间,甚至有时候能比不使用迁移学习更好。他的原理是在较大的数据集A上面,模型能更好的学习到特征,如果我们只使用B数据集的话,并且B数据集较小的话,模型特征会学习的较差,所以我们可以把A数据集上训练好的模型,保留特征层和权重,将输出层替换成我们想要的输出结,然后再重新训练。
记忆学习:(Learning without Forgetting)是多任务学习的一种加强,目前,记忆学习是通过模型标注来实现。首先学习一种标签,拿来去标注另一种标签,这样做的解释是用模型标注的标签的目的是让模型不忘记之前学习到的效果。
目前,迁移学习在应用到多任务学习时,会出现无法同时学习A和B两种标签的输出,在学习完B之后,模型即会完全失去对A的记忆,无法再使用在A上,这是一种功能性的缺失。并且,多任务学习模型的训练学习需要大量标注所有要输出的标签的数据,例如在人脸识别技术中,如果想要同时输出眼眶和瞳孔的关键点坐标,而现存的常见数据中,只有大量包含眼眶关键点坐标的数据以及大量的包含瞳孔关键点坐标的数据,但是同时包含眼眶关键点坐标和瞳孔关键点坐标的数据较少。此时,会有两种训练方法:
第一种方法:只使用同时包含眼眶关键点坐标和瞳孔关键点坐标的数据进行模型训练,此时会浪费大量只有部分标签的数据。
第二种方法:只使用大量具有部分标签的数据,但是每次只训练部分标签可能会因为数据分布的原因,导致每次只能学习一种标签从而学习效果差。
此外,因为训练数据集的定义还存在区别,所以在使用不同的数据集时,会造成模型无法学习到预期的结果。例如,在包含眼眶关键点坐标的训练数据集中,有部分数据是包含眼眶外部关键点坐标,有部分数据是包含眼眶外部关键点坐标,因此模型无法确定使用哪种定义,导致模型出现的学习效果差的问题。
在记忆学习方法中,目前使用的模型没有使用标注模型,而是使用要作为生产的模型进行标注,这样的缺点是标注并不是我们以目前的数据集可以达到的极限,多任务学习是有可能提升效果,所以使用更接近极限的标签去学习,并且这种方法会因为部分标签是人工标注、部分标签是模型标注,导致定义域不一致,使得模型训练效果变差的问题。
基于此,在本申请中,提供了数据处理方法,本申请同时涉及数据处理装置,计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本申请一实施例提供的一种数据处理方法的流程图,具体包括以下步骤:
步骤102:获取第一样本数据和与所述第一样本数据具有业务关联关系的第二样本数据,其中,所述第一样本数据标注有第一样本标签,所述第二样本数据标注有第二样本标签。
其中,第一样本数据可以理解为模型进行训练时的训练数据,例如,在人脸识别模型中,第一样本数据可以是人脸照片,在垃圾邮件检测模型中,第一样本数据可以是邮件。第一样本标签可以理解为模型预测的事物,利用第一样本标签可以对第一样本数据进行标注。例如,第一样本标签是识别出苹果,第一样本数据是一张包含多个水果的图片,采用第一样本标签对第一样本数据进行标注即为在包含多个水果的图片中标出苹果。又例如,第一样本标签是识别人脸中嘴巴的位置,第一样本数据是一张人脸图片,利用第一样本标签对第一样本数据进行标注即为在人脸图片中标出嘴巴的关键点坐标。
在实际应用中,第一样本标签也可以理解为模型期望输出的正确结果,在模型输出一个预测结果后,可以根据该预测结果与第一样本标签进行比较,判断预测结果是否正确。
第二样本数据可以理解为模型进行训练时的训练数据,第二样本数据和第一样本数据具有业务关联关系,其中,具有业务关联关系是指具有相同业务领域和相似业务任务的关系。例如,在人脸识别业务领域中,第一样本数据、第二样本数据均为包含有人脸信息的图片,第一样本数据为标注出眼睛关键点坐标的图片,第一样本数据对应的业务任务为“识别出眼睛”;第二样本数据为标注出瞳孔关键点坐标的图片,第二样本数据对应的业务任务为“识别出瞳孔”。
第一样本数据和第二样本数据可以是相同的原始文件,例如,以“图A是一张人脸图片”为例,第一样本数据是标注出眼睛关键点坐标的图A,第二样本数据是标注出瞳孔关键点坐标的图A。第一样本数据和第二样本数据也可以是不同的原始文件,以“图A是一张人脸图片、图B是一张全身照片”为例,第一样本数据是标注出瞳孔关键点坐标的图A,第二样本数据是标注出眼睛关键点坐标的图B。
在文本信息识别业务领域中,第一样本数据、第二样本数据均为自然文本,第一样本数据为标注出动词的自然文本,第一样本数据对应的业务任务为“识别出动词”,第二样本数据为标注出名词的自然文本,第二样本数据对应的业务任务为“识别出名词”。
第一样本数据和第二样本数据可以是相同的原始文件,例如,有一段自然文本A,第一样本数据是标注出动词的自然文本A,第二样本数据是标注出名词的自然文本A,第一样本数据和第二样本数据的原始文件均为自然文本A。第一样本数据和第二样本数据也可以是不相同的原始文件,例如,有一段自然文本A和一段自然文本B,第一样本数据是标注出动词的自然文本A,第二样本数据是标注出名词的自然文本B。
第二样本标签与第一样本标签根据任务不同也有所区别,例如,A任务是从人脸中识别出眼睛,第一样本标签即为获取眼睛的关键点坐标,B任务是从人脸中识别出瞳孔,第二样本标签即为获取瞳孔的关键点坐标;又例如,A任务是从自然文本中获取名词,第一样本标签即为识别名词,B任务是从自然文本中获取动词,第二样本标签即为识别出动词。虽然第一样本标签和第二样本标签的任务不同,但是两者的任务具有相似业务关系。
在本申请一具体实施例中,获取第一样本数据,第一样本数据标注有第一样本标签;获取第二样本数据,第二样本数据标注有第二样本标签。其中,第一样本数据为100张标注出嘴巴位置的图片,第二样本数据为100张标注出鼻子位置的图片。
在本申请另一具体实施例中,获取第一样本数据,第一样本数据标注有第一样本标签;获取第二样本数据,第二样本数据标注有第二样本标签。其中,第一样本数据为100封标注有发信时间的邮件,第二样本数据为100封标注有发信地址的邮件。
步骤104:根据所述第一样本数据和所述第一样本标签训练获得第一业务模型,根据所述第二样本数据和所述第二样本标签训练获得第二业务模型。
其中,第一业务模型可以理解为训练好的可以正常处理业务的模型,其可以做到输入第一样本数据输出第一样本标签。例如,第一业务模型为人脸识别模型,目的是识别人脸中的嘴巴位置,则将人脸图片输入至第一业务模型之后,第一业务模型的输出结果是标注出嘴巴位置的人脸图片。
第二业务模型也可以理解为训练好的可以正常梳理业务的模型,其可以做到输入第二样本数据输出第二样本标签。例如,第二业务模型为文本识别模型,目的是检测自然文本中的名词,则将自然文本输入至第二业务模型之后,第二业务模型的输出结果是自然文本中的名词。
在实际应用中,第二业务模型与第一业务模型虽然处理的业务不同,但是两者处理的业务具有关联性。例如,第一业务模型的处理业务是从人脸中识别出嘴巴的位置,第二业务模型的处理业务是从人脸中识别出眼睛的位置。又例如,第一业务模型的处理业务是从自然文本中识别出动词,第二业务模型的处理业务是从自然文本中识别出名词。
在本申请一具体实施例中,沿用上例,将100张标注出嘴巴位置的图片依次输入至第一初始模型,获取第一初始模型输出的预测结果,根据预测结果和第一样本标签计算出第一初始模型的损失值,根据损失值对第一初始模型的参数进行调整,并继续进行输入训练数据,直至调整参数至第一初始模型可以正确的输出预期想要的结果,则此时第一初始模型已经训练成为第一业务模型。将100张标注出鼻子位置的图片依次输入至第二初始模型,获取第二初始模型输出的预测结果,根据预测结果和第二样本标签计算出第二初始模型的损失值,根据损失值对第二初始模型的参数进行调整,直至调整参数至第二初始模型可以正确的输出预期想要的结果,则此时第二初始模型已经训练成为第二业务模型。
步骤106:将所述第一样本数据输入至所述第二业务模型,并将所述第二样本数据输入至所述第一业务模型。
其中,将第一样本数据输入至第二业务模型可以理解为对第一样本数据进行第二样本标签的标注;将第二样本数据输入至第一业务模型可以理解为对第二样本数据进行第一样本标签的标注。
在实际应用中,由于第一样本数据标注有第一样本标签,第二样本数据标注有第二样本标签,但是由于最终的模型训练需要具有所有标签输出的训练数据,可以选择通过人工方式对第一样本数据和第二样本数据进行标注,但这种方式比较浪费人力物力、标注成本高。因此,可以采用模型标注的方式,即将样本标签标注到其他没有标注该样本标签的数据中。
例如,现有A训练数据集标注了a样本标签,B训练数据集标注了b样本标签,对B训练数据集进行a样本标签的标注,生成既标注a样本标签又标注b样本标签的B训练数据集,对A训练数据集进行b样本标签的标志,生成既标注a样本标签又标注b样本标签的A训练数据集。这样即扩充了具有所有标签的训练数据,解决了部分训练数据的资源浪费,同时也解决了只使用部分标签的数据训练模型导致模型训练效果不好的问题。
在本申请一具体实施例中,沿用上例,将100张标注出嘴巴位置的图片依次输入至第二业务模型,获得第二业务模型的输出结果。将100张标注出鼻子位置的图片依次输入至第一业务模型,获得第一业务模型的输出结果。
在本申请另一具体实施例中,沿用上例,将第一样本数据为100封标注有发信时间的邮件输入至第二业务模型中,获得第二业务模型的输出结果,第二业务模型的输出结果为100封邮件各自的发信时间和发信地址。将第二样本数据为100封标注有发信地址的邮件输入至第一业务模型,获得第一业务模型的输出结果,第一业务模型的输出结果为100封邮件各自的发信地址和发信时间。
步骤108:获取所述第二业务模型输出的第一目标数据和所述第一业务模型输出的第二目标数据,其中,所述第一目标数据和所述第二目标数据均标注有第一样本标签和第二样本标签。
其中,第一目标数据可以理解为第二业务模型基于第一样本数据输出的数据,第二目标数据可以理解为第一业务模型基于第二样本数据输出的数据。
在实际应用中,由于第二业务模型已经是训练好的业务模型,因此,可以对输入的训练数据进行业务处理,即对训练数据进行标注,则输出结果第一目标数据既标注有输入的训练数据携带的标签,也标注有第二业务模型标注的标签。第二目标数据同理也标注有两种标签。从而,将两种只有部分标签的训练数据扩充为具有全部标签的训练数据,达到扩充训练数据集的目的,为目标业务模型的训练提供足够的训练数据,解决了因训练数据稀疏导致的训练效果不好的问题。
在本申请一具体实施例中,沿用上例,将100张标注出嘴巴位置的图片依次输入至第二业务模型,获得第二业务模型输出的第一目标数据,第一目标数据为100张既标注出嘴巴位置又标注出鼻子位置的图片;将100张标注出鼻子位置的图片依次输入至第一业务模型,获得第一业务模型输出的第二目标数据,第二目标数据为100张既标注出鼻子位置又标注出嘴巴位置的图片。
在本申请另一具体实施例中,沿用上例,将第一样本数据为100封标注有发信时间的邮件输入至第二业务模型中,获得第二业务模型输出的第一目标数据,第一目标数据为100封标注有发信时间和发信地址的邮件;将第二样本数据为100封标注有发信地址的邮件输入至第一业务模型,获得第一业务模型输出的第二目标数据,第二目标数据为100封标注有发信时间和发信地址的邮件。
步骤110:基于所述第一目标数据和所述第二目标数据构建训练数据集。
其中,训练数据集可以理解为目标业务模型的训练数据。例如,第一目标数据为20张标注有眼睛和嘴巴的图片,第二目标数据为30张标注有眼睛和嘴巴的图片,则训练数据集为50张标注有眼睛和嘴巴的图片,在目标业务模型训练时,即可使用该训练数据集。
在实际应用中,在某些领域中的业务模型,由于领域的特殊性,相关的训练数据收集难度大,因此可以采用本申请提供的数据处理方法,将具有部分标签的训练数据扩充为具有全部标签的训练数据,为业务模型提供足够的训练数据,保证业务模型的训练效果。
在本申请一具体实施例中,沿用上例,将100张标注有嘴巴和鼻子的图片和100张标注有嘴巴和鼻子的图片合并构建成200张标注有鼻子和嘴巴的图片。
在本申请另一具体实施例中,沿用上例,将100封标注有发信时间和发信地址的邮件和100封标注有发信地址和发信时间的邮件合并构建成训练数据集,训练数据集为200封标注有发信地址和发信时间的邮件。
本申请提供的一种数据处理方法,包括:获取第一样本数据和与所述第一样本数据具有业务关联关系的第二样本数据,其中,所述第一样本数据标注有第一样本标签,所述第二样本数据标注有第二样本标签;根据所述第一样本数据和所述第一样本标签训练获得第一业务模型,根据所述第二样本数据和所述第二样本标签训练获得第二业务模型;将所述第一样本数据输入至所述第二业务模型,并将所述第二样本数据输入至所述第一业务模型;获取所述第二业务模型输出的第一目标数据和所述第一业务模型输出的第二目标数据,其中,所述第一目标数据和所述第二目标数据均标注有第一样本标签和第二样本标签;基于所述第一目标数据和所述第二目标数据构建训练数据集。通过先用第一样本数据和第二样本数据分别训练出第一业务模型和第二业务模型,再将第一样本数据输入至第二业务模型,获得第一目标数据,将第二样本数据输入至第一业务模型,获得第二目标数据,将原本只标注有部分标签的第一样本数据和第二样本数据扩充为标注有全部标签的第一目标数据和第二目标数据,利用第一样本数据和第二样本数据扩充目标业务模型的训练数据集,避免了浪费只有部分样本标签的训练数据,同时使得目标业务模型在训练时有足够的训练数据,提高目标业务模型的训练学习效果。
下述结合附图2,以本申请提供的数据处理方法在文本识别模型的应用为例,对所述数据处理方法进行进一步说明。其中,图2示出了本申请一实施例提供的一种应用于文本识别模型的数据处理方法的处理流程图,具体包括以下步骤:
步骤202:获取第一样本数据和与所述第一样本数据具有业务关联关系的第二样本数据,其中,所述第一样本数据标注有第一样本标签,所述第二样本数据包括第二样本参考数据及所述第二样本参考数据对应的第二样本参考标签,第二样本目标数据及所述第二样本目标数据对应的第二样本目标标签。
其中,第二样本目标数据是待扩充的训练数据,第二样本参考数据是与第二样本目标数据定义有所区别的训练数据。例如,第二样本目标数据是获取嘴巴的上嘴唇的坐标点,第二样本参考数据是获取嘴巴的下嘴唇的坐标点。第二样本目标标签和第二样本参考标签的定义也有所区别。
在本申请一具体实施例中,沿用上例,获取第一样本数据,第一样本数据标注有第一样本标签,第一样本数据为30条自然文本语句,其标注有自然文本语句中的名词;获取第二样本数据,第二样本数据为20条自然文本语句,其中有10条第二样本参考数据,标注有自然文本语句中的动词,有10条第二样本目标参考数据,标注有自然文本语句中的中心动词。
步骤204:根据所述第一样本数据和所述第一样本标签训练获得第一业务模型,根据所述第二样本数据和所述第二样本标签训练获得第二业务模型。
根据所述第二样本数据和所述第二样本标签训练获得第二业务模型,还包括:
根据所述第二样本参考数据和所述第二样本参考标签训练获得第二预训练业务模型;
根据所述第二样本目标数据和所述第二样本目标标签训练所述第二预训练业务模型,获得第二业务模型。
其中,第二预训练业务模型可以理解为由参考训练数据和参考标签训练获得的模型,该预训练模型与第二业务模型的标注有所区别。例如,第二预训练业务模型是识别自然文本语句中的动词,将“小明奔跑着回来打开了家门”输入至第二预训练业务模型,第二预训练业务模型的输出结果为“奔跑、打开”,第二业务模型是识别自然文本语句中的中心动词,将“小明奔跑着回来打开了家门”输入至第二业务模型,第二业务模型的输出结果为“打开”。
在实际应用中,可以用定义与第二样本目标数据有所区别的第二样本参考数据去预训练一个业务模型,然后降低学习率再去用这个业务模型去迁移学习第二样本目标数据,得到第二业务模型。因为我们第二次训练的时候使用的是预期定义的数据集,所以最终的模型的标注会符合我们需求的定义。如图3所示,图3是本申请一实施例提供的第二业务模型的训练架构图,其中,先通过第二样本参考数据和第二样本参考标签输入至第二初始业务模型中,训练获得第二预训练业务模型,再通过第二样本目标数据和第二样本目标标签训练第二预训练业务模型获得第二业务模型。
在本申请一具体实施例中,沿用上例,根据第一样本数据为30条自然文本语句和第一样本标签训练获得第一业务模型。根据第二样本参考数据10条自然文本语句和第二样本参考标签训练获得第二业务预训练模型,该第二业务预训练模型只能识别出自然文本语句中的动词,根据第二样本目标数据10条自然文本和第二样本目标标签训练获得第二业务模型,该第二业务模型可以识别出自然文本语句中的中心动词。
在根据所述第二样本目标数据和所述第二样本目标标签训练所述第二预训练业务模型之前,所述方法还包括:
接收参数调整指令;
响应于所述参数调整指令调整所述第二预训练业务模型的目标参数。
其中,参数调整指令可以理解为用户针对模型发出的指令,通过该指令可以调整模型的参数,目标参数可以包括模型的学习率参数、批处理大小(batchsize)等模型参数。
在实际应用中,用户可以通过调整模型的参数来更高效、准确的训练出符合用户预期的模型。
在本申请一具体例中,沿用上例,接收参数调整指令,则响应于参数调整指令调整第二预训练业务模型的目标参数。
具体地,响应于所述参数调整指令调整所述第二预训练业务模型的目标参数,包括:
响应于所述参数调整指令调整所述第二预训练业务模型的学习率参数,用以降低所述第二预训练业务模型的学习率。
其中,学习率参数可以理解为模型的学习效率。学习率(Learning rate)作为监督学习以及深度学习中重要的超参,其决定着目标函数能否收敛到局部最小值以及何时收敛到最小值。合适的学习率能够使目标函数在合适的时间内收敛到局部最小值。
在实际应用中,由于第二预训练模型已经学习第二样本参考数据,因此,在基于第二样本目标数据训练第二与训练模型时,不需要从头开始学习,过高的学习率容易导致模型的损失过高,影响我们之前学习好的结果。
在本申请一具体实施例中,沿用上例,响应于参数调整指令降低第二预训练业务模型的学习率。
步骤206:将所述第一样本数据输入至所述第二业务模型,并将所述第二样本数据输入至所述第一业务模型。
在本申请一具体实施例中,沿用上例,将30条标注有第一样本标签的自然文本语句输入至第二业务模型,将10条标注有第二样本参考标签的自然文本语句和10条标注有第二样本目标参考标签的自然文本语句输入至第一业务模型。
步骤208:获取所述第二业务模型输出的第一目标数据和所述第一业务模型输出的第二目标数据,其中,所述第一目标数据和所述第二目标数据均标注有第一样本标签和第二样本标签。
在本申请一具体实施例中,沿用上例,获取第二业务模型输出的第一目标数据,第一目标数据为30条标注名词和中心动词的自然文本语句,获取第一业务模型输出的第二目标数据,第二目标数据为20条标注中心动词和名词的自然本文语句。
步骤210:基于所述第一目标数据和所述第二目标数据构建训练数据集。
在本申请一具体实施例中,沿用上例,将30条标注名词和中心动词的自然文本语句和20条标注中心动词和名词的自然文本语句构建出50条标注名词和中心动词的自然文本语句。
在基于所述第一目标数据和所述第二目标数据构建训练数据集之后,所述方法还包括:
基于所述训练数据集训练获得目标业务模型。
所述训练数据集包括目标数据,所述目标数据标注有第一样本标签和第二样本标签;
其中,所述目标业务模型可以理解为用户最终想要的业务模型。目标业务模型可以输出具有所有标签的结果。
在实际应用中,训练数据集中包括有由第二业务模型标注生成的第一目标数据和第一业务模型标注生成的第二目标数据,第一目标数据和第二目标数据均标注有第一样本标签和第二样本标签,基于训练数据集可以训练获得目标业务模型。
在本申请一具体实施例中,沿用上例,将第一目标数据和第二目标数据组成的训练数据集输入至目标业务模型中,训练获得目标业务模型。
具体地,基于所述训练数据集训练获得目标业务模型,包括:
将所述目标数据输入至目标业务模型;
获得所述目标业务模型输出的第一预测标签和第二预测标签;
基于所述第一预测标签、第一样本标签、第二预测标签、第二样本标签计算模型损失值;
根据所述模型损失值调整所述目标业务模型的模型参数,并继续训练所述目标业务模型,直至达到模型训练停止条件。
其中,第一预测标签可以理解为目标业务模型在被输入第一目标数据之后的输出结果;第二预测标签可以理解为目标业务模型在被输入第二目标数据之后的输出结果;第一预测标签和第二预测标签可能与用户期望的模型输出结果有所不一致,因此,需要计算出模型损失值,根据模型损失值调整模型参数,从而提高模型的输出正确率。
在本申请一具体实施例中,沿用上例,将50条已经标注有样本标签的自然文本语句输入至目标业务模型中,获得目标业务模型输出的第一预测标签和第二预测标签,根据第一预测标签和第一样本标签、第二预测标签和第二样本标签计算模型的损失值,根据损失值调整模型参数,直至达到模型训练停止条件。
具体地,达到模型训练停止条件,包括:
模型损失值小于预设损失值阈值;和/或
训练轮次达到预设训练轮次。
其中,预设损失值阈值可以理解为用户设定的期望的损失值。小于该预设损失值阈值时,表示当前模型已经训练完成,符合用户期望的标准。
训练轮次可以理解为模型使用样本数据进行训练的次数;预设训练轮次可以理解为用户设定的模型使用样本数据进行训练的次数,在模型使用样本数据达到预设训练轮次之后,模型即停止训练。
在本申请一具体实施例中,以通过损失值小于预设损失值阈值来停止训练目标业务模型为例,预设损失值阈值为0.5,则当计算得到的Loss值小于0.5时,则认定目标业务模型训练完成。
在本申请另一具体实施例中,以预设的训练轮次来停止训练目标业务模型为例,预设的训练轮次为20轮,当样本数据的训练轮次到达20轮后,则认定目标业务模型已经训练完成。
在实际应用中,由于模型标注的训练数据的定义可能与人工标注的定义有所区别,因此,由模型标注的训练数据集训练出的目标业务模型的输出结果可能有所误差,为了进一步提高目标业务模型的输出准确性,在训练数据集中也可以加入由人工标注的具有所有标签的目标训练数据。目的是为了在尽可能的利用多的数据的同时获得模型输出效果更好的目标业务模型,由于目标训练数据是人工标注的,所以通过目标训练数据训练出的业务模型效果会更好,因此,可以将目标训练数据以外的训练数据集作为预训练,获得目标预训练业务模型。训练完成后,再将学习率调小,之后再用训练好的模型去迁移学习具有所有标签的目标训练数据。因为目标训练数据的标注是完备正确的,所以最终模型的输出结果效果会很好,会比因为标签定义不一致或者数据集稀疏的模型输出效果要更好。
在本申请一具体实施例中,基于50条自然文本语句和第一样本标签、第二样本标签训练获得目标预训练业务模型,调整降低目标预训练业务模型的学习率参数,再将现有的人工标注有第一样本标签和第二样本标签的自然文本语句输入至目标预训练业务模型,训练获得输出效果更好、结果更准确的目标业务模型。
本申请提供的一种数据处理方法,包括:获取第一样本数据和与所述第一样本数据具有业务关联关系的第二样本数据,其中,所述第一样本数据标注有第一样本标签,所述第二样本数据包括第二样本参考数据及所述第二样本参考数据对应的第二样本参考标签,第二样本目标数据及所述第二样本目标数据对应的第二样本目标标签,根据所述第一样本数据和所述第一样本标签训练获得第一业务模型,根据所述第二样本数据和所述第二样本标签训练获得第二业务模型,将所述第一样本数据输入至所述第二业务模型,并将所述第二样本数据输入至所述第一业务模型,获取所述第二业务模型输出的第一目标数据和所述第一业务模型输出的第二目标数据,其中,所述第一目标数据和所述第二目标数据均标注有第一样本标签和第二样本标签,基于所述第一目标数据和所述第二目标数据构建训练数据集。通过使用多阶段预训练,以及使用第一业务模型和第二业务模型进行标注,来解决部分标签缺失问题,和数据集之间定义不一致问题,扩充了目标业务模型的训练数据,提高目标业务模型的学习训练效果。
图4示出了根据本申请一实施例提供的另一种数据处理方法的流程图,具体包括以下步骤:
步骤402:获取至少三个初始样本集合,其中,每个初始样本集合间具有业务关联关系,每个初始样本集合中的样本数据标注有对应的训练标签。
其中,三个初始样本集合之间也具有业务关联关系,业务关联关系可以理解为每个初始样本集合是同一种数据类型的关系。例如,初始样本集合A是人脸图片,初始样本集合B是眼睛图片,初始样本集合C是瞳孔图片。训练标签即样本数据对应的样本标签。
在实际应用中,初始样本集合的数量可以是很多,本申请提供的数据处理方法不仅适用于两种不同标签的样本数据,也适用于两种及以上不同标签的样本数据,在获得至少三个初始样本集合的情况下,也可以通过本申请提供的数据处理方法来基于初始样本集合扩充训练数据集。
在本申请一具体实施例中,沿用上例,获取初始样本集合A、初始样本集合B、初始样本集合C。初始样本集合A中包括A样本数据和对应的A训练标签,初始样本集合B中包括B样本数据和对应的B训练标签,初始样本集合C中包括C样本数据和对应的C训练标签。
步骤404:根据每个初始样本集合训练对应的初始业务模型。
其中,所述初始业务模型可以理解为输入一种样本数据,输出一种对应样本数据的样本标签的输出结果。例如,初始业务模型A输入A样本数据,输出结果标注有与A样本数据对应的A训练标签的输出结果。
在实际应用中,本申请提供的数据处理方法,不限于两种标注,其延展性没有限制,按照需要添加初始业务模型数量即可,则根据每个不同的样本数据和其对应的训练标签训练出对应的初始业务模型。
在本申请一具体实施例中,沿用上例,根据A样本数据和A训练标签训练获得初始业务模型A,根据B样本数据和B训练标签训练获得初始业务模型B,根据C样本数据和C训练标签训练获得初始业务模型C。
具体地,根据每个初始样本集合训练对应的初始业务模型,包括:
在所述至少三个初始样本集合中确定目标初始样本集合;
根据所述目标初始样本集合训练对应的目标初始业务模型。
其中,目标初始样本集合可以理解为在多个初始样本集合中选择出的一个初始样本集合。例如,有A、B、C、D,4个初始样本集合,选取初始样本集合A,则初始样本集合A则为目标初始样本集合。目标初始业务模型可以理解为根据目标初始样本集合训练获得的业务模型。
在本申请一具体实施例中,沿用上例,在初始样本集合A、初始样本集合B、初始样本集合C中选取初始样本集合B为目标初始样本集合,根据初始样本集合B中的B样本数据和B训练标签训练获得B初始业务模型,B初始业务模型即为目标初始业务模型。
具体地,对于任意一个初始样本集合训练对应的初始业务模型包括:
在所述至少三个初始样本集合中确定目标初始样本集合;
将所述目标初始样本集合中的目标样本数据输入至目标初始业务模型;
获得所述目标初始业务模型输出的目标预测标签;
基于所述目标预测标签和所述目标样本数据对应的目标训练标签计算模型损失值;
根据所述模型损失值调整所述目标初始业务模型的模型参数,并继续训练所述目标初始业务模型,直至达到模型训练停止条件。
其中,目标初始业务模型可以理解为待训练的业务模型。目标初始业务模型目标样本数据可以理解为目标初始样本集合中的样本数据,目标训练标签可以理解为目标初始样本集合中的训练标签,目标预测标签可以理解为目标初始业务模型的输出结果。
在实际应用中,每个初始业务模型训练的方法相同,只是每个初始业务模型训练时采用的样本数据和训练标签不同。
在本申请一具体实施例中,沿用上例,在初始样本集合A、初始样本集合B、初始样本集合C中确定目标初始样本集合,目标初始样本集合为初始样本集合B。将初始样本集合B中的B样本数据输入至目标初始业务模型,获得目标初始业务模型输出的B目标预测标签,根据B目标预测标签和B目标训练标签计算目标初始业务模型的模型损失值,根据模型损失值调整目标初始业务的模型参数,并继续采用B样本数据对目标初始业务模型进行训练,直至达到模型训练停止条件。
步骤406:基于预设规则通过每个初始业务模型处理每个初始样本集合。
基于预设规则通过每个初始业务模型处理每个初始样本集合,包括:
确定目标初始样本集合;
将所述目标初始样本集合依次输入至除所述目标初始样本集合对应的目标初始业务模型之外的每个初始业务模型,获取每个初始业务模型输出的处理结果。
其中,所述预设规则可以理解为将初始样本集合输入至由其他初始样本集合训练获得的初始业务模型中。
在实际应用中,为了扩充最终的目标业务模型的训练数据,可以基于每个初始样本集合之间互相标注来实现。
在本申请一具体实施例中,通过每个初始样本集合训练对应的初始业务模型之后,获得初始业务模型A、初始业务模型B、初始业务模型C,将初始样本集合A作为目标初始样本集合,将初始样本集合A依次输入至初始业务模型B和初始业务模型C中,获得初始业务模型B输出结果为B+A样本数据,B+A样本数据标注有训练标签A和训练标签B,获得初始业务模型C输出结果C+A样本数据,C+A样本数据标注有训练标签A和训练标签C。
同理,最终可获得由初始业务模型A输出的A+B初始样本集合、A+C初始样本集合,初始业务模型B输出的B+C初始样本集合、B+A初始样本集合,初始业务模型C输出的C+A初始样本集合、C+B初始样本集合。
也可以将A+B初始样本集合输入至初始业务模型C中,获得初始业务模型C输出的C+A+B初始样本集合,将A+C初始样本集合输入至初始业务模型B中,获得初始业务模型B初始的B+A+C初始样本集合。其他两个初始业务模型也可以输出具有三种训练标签的A+B+C初始样本集合。
具体地,将所述目标初始样本集合依次输入至除所述目标初始样本集合对应的目标初始业务模型之外的每个初始业务模型,获取每个初始业务模型输出的处理结果,包括:
确定除所述目标初始样本集合对应的目标初始业务模型之外的初始业务模型的数量n,n≥2;
将所述目标初始样本集合输入至第1个初始业务模型,获得所述第1个初始业务模型输出的第1目标初始样本集合;
将第i-1个初始业务模型输出的第i-1目标初始样本集合输入至第i个初始业务模型,获得第i个初始业务模型输出的第i目标初始样本集合,2≤i≤n;
将i自增1,并确定i是否大于n,若否,则继续执行将第i-1个初始业务模型输出的第i-1目标初始样本集合输入至第i个初始业务模型的操作,若是,获取每个初始业务模型输出的处理结果。
其中,初始业务模型可以理解为除了目标初始业务模型的业务模型。例如,有A、B、C、D四个初始业务模型,确定初始业务模型D为目标初始业务模型,此时初始业务模型的数量为3,分别是初始业务模型A、B、C。
在实际应用中,为了扩充最终的目标业务模型的训练数据,可以选取具有至少两种不同训练标签的样本数据,也可以选择具有全部训练标签的样本数据。
在本申请一具体实施例中,沿用上例,以n=2,i=2为例。则将初始样本集合A输入至初始业务模型B中,获得初始业务模型B输出的B+A初始样本集合。将B+A初始样本集合输入至初始业务模型C中,获得初始业务模型C输出的C+B+A初始样本集合。通过上述相同步骤,可以获得初始业务模型A输出的A+B+C初始样本集合、A+C+B初始样本集合,初始业务模型B输出的B+A+C初始样本集合、B+C+A初始样本集合。
根据上述数据处理方法,可以最大化利用所有初始样本集合,为目标业务模型提供大量的训练数据。
步骤408:根据每个初始业务模型的处理结果构建训练数据集。
在实际应用中,由于生成了多个包含部分标签的初始样本集合和多个包含所有标签的初始样本集合,可根据实际情况选取符合条件的初始样本集合进行训练。
在本申请一具体实施例中,根据A+B+C初始样本集合、A+B+C初始样本集合、B+A+C初始样本集合、B+C+A初始样本集合、C+A+B初始样本集合、C+B+A初始样本集合构建训练数据集。基于训练数据集训练目标业务模型。
在本申请另一具体实施例中,根据A+B初始样本集合、A+C初始样本集合、B+A初始样本集合、B+C初始样本集合、C+A初始样本集合、C+B初始样本集合、A+B+C初始样本集合、A+B+C初始样本集合、B+A+C初始样本集合、B+C+A初始样本集合、C+A+B初始样本集合、C+B+A初始样本集合构建训练数据集。基于训练数据集训练目标业务模型。
本申请提供的一种数据处理方法,包括:获取至少三个初始样本集合,其中,每个初始样本集合间具有业务关联关系,每个初始样本集合中的样本数据标注有对应的训练标签;根据每个初始样本集合训练对应的初始业务模型;基于预设规则通过每个初始业务模型处理每个初始样本集合;根据每个初始业务模型的处理结果构建训练数据集。在具有至少三个初始样本集合的情况下,通过预设规则处理每个初始样本集合,获得多个具有至少两个训练标签的初始样本集合,扩充了目标业务模型的训练数据集,最大化的利用了每个初始样本集合,解决了因训练数据集稀疏而导致模型训练困难的问题。
与上述方法实施例相对应,本申请还提供了数据处理装置实施例,图5示出了本申请一实施例提供的一种数据处理装置的结构示意图。如图5所示,该装置包括:
第一获取模块502,被配置为获取第一样本数据和与所述第一样本数据具有业务关联关系的第二样本数据,其中,所述第一样本数据标注有第一样本标签,所述第二样本数据标注有第二样本标签;
训练模块504,被配置为根据所述第一样本数据和所述第一样本标签训练获得第一业务模型,根据所述第二样本数据和所述第二样本标签训练获得第二业务模型;
输入模块506,被配置为将所述第一样本数据输入至所述第二业务模型,并将所述第二样本数据输入至所述第一业务模型;
第二获取模块508,被配置为获取所述第二业务模型输出的第一目标数据和所述第一业务模型输出的第二目标数据,其中,所述第一目标数据和所述第二目标数据均标注有第一样本标签和第二样本标签;
构建模块510,被配置为基于所述第一目标数据和所述第二目标数据构建训练数据集。
所述训练模块504,进一步被配置为所述第二样本数据包括第二样本参考数据及所述第二样本参考数据对应的第二样本参考标签,第二样本目标数据及所述第二样本目标数据对应的第二样本目标标签;
根据所述第二样本参考数据和所述第二样本参考标签训练获得第二预训练业务模型;
根据所述第二样本目标数据和所述第二样本目标标签训练所述第二预训练业务模型,获得第二业务模型。
所述装置还包括:
调整模块,被配置为接收参数调整指令;
响应于所述参数调整指令调整所述第二预训练业务模型的目标参数
所述调整模块,进一步被配置为响应于所述参数调整指令调整所述第二预训练业务模型的学习率参数,用以降低所述第二预训练业务模型的学习率。
所述装置还包括:
获得模块,被配置为基于所述训练数据集训练获得目标业务模型。
所述获得模块,进一步被配置为将所述目标数据输入至目标业务模型;
获得所述目标业务模型输出的第一预测标签和第二预测标签;
基于所述第一预测标签、第一样本标签、第二预测标签、第二样本标签计算模型损失值;
根据所述模型损失值调整所述目标业务模型的模型参数,并继续训练所述目标业务模型,直至达到模型训练停止条件。
所述获得模块,进一步被配置为模型损失值小于预设损失值阈值;和/或
训练轮次达到预设训练轮次。
本申请提供的一种数据处理装置,包括第一获取模块,被配置为获取第一样本数据和与所述第一样本数据具有业务关联关系的第二样本数据,其中,所述第一样本数据标注有第一样本标签,所述第二样本数据标注有第二样本标签;训练模块,被配置为根据所述第一样本数据和所述第一样本标签训练获得第一业务模型,根据所述第二样本数据和所述第二样本标签训练获得第二业务模型;输入模块,被配置为将所述第一样本数据输入至所述第二业务模型,并将所述第二样本数据输入至所述第一业务模型;第二获取模块,被配置为获取所述第二业务模型输出的第一目标数据和所述第一业务模型输出的第二目标数据,其中,所述第一目标数据和所述第二目标数据均标注有第一样本标签和第二样本标签;构建模块,被配置为基于所述第一目标数据和所述第二目标数据构建训练数据集。通过使用多阶段预训练,以及使用第一业务模型和第二业务模型进行标注,来解决部分标签缺失问题,和数据集之间定义不一致问题,扩充了目标业务模型的训练数据,提高目标业务模型的学习训练效果。
与上述方法实施例相对应,本申请还提供了数据处理装置实施例,图6示出了本申请一实施例提供的另一种数据处理装置的结构示意图。如图6所示,该装置包括:
获取模块602,被配置为获取至少两个初始样本集合,其中,每个初始样本集合间具有业务关联关系,每个初始样本集合中的样本数据标注有对应的训练标签;
训练模块604,被配置为根据每个初始样本集合训练对应的初始业务模型;
处理模块606,被配置为基于预设规则通过每个初始业务模型处理每个初始样本集合;
构建模块608,被配置为根据每个初始业务模型的处理结果构建训练数据集。
所述训练模块604,进一步被配置为:
在所述至少三个初始样本集合中确定目标初始样本集合;根据所述目标初始样本集合训练对应的目标初始业务模型。
所述训练模块604,进一步被配置为:
在所述至少三个初始样本集合中确定目标初始样本集合;
将所述目标初始样本集合中的目标样本数据输入至目标初始业务模型;
获得所述目标初始业务模型输出的目标预测标签;
基于所述目标预测标签和所述目标样本数据对应的目标训练标签计算模型损失值;
根据所述模型损失值调整所述目标初始业务模型的模型参数,并继续训练所述目标初始业务模型,直至达到模型训练停止条件。
所述处理模块606,进一步被配置为:
确定目标初始样本集合;
将所述目标初始样本集合依次输入至除所述目标初始样本集合对应的目标初始业务模型之外的每个初始业务模型,获取每个初始业务模型输出的处理结果。
所述处理模块606,进一步被配置为:
确定除所述目标初始样本集合对应的目标初始业务模型之外的初始业务模型的数量n,n≥2;
将所述目标初始样本集合输入至第1个初始业务模型,获得所述第1个初始业务模型输出的第1目标初始样本集合;
将第i-1个初始业务模型输出的第i-1目标初始样本集合输入至第i个初始业务模型,获得第i个初始业务模型输出的第i目标初始样本集合,2≤i≤n;
将i自增1,并确定i是否大于n,若否,则继续执行将第i-1个初始业务模型输出的第i-1目标初始样本集合输入至第i个初始业务模型的操作,若是,获取每个初始业务模型输出的处理结果。
本申请提供的一种数据处理装置,包括:获取模块,被配置为获取至少两个初始样本集合,其中,每个初始样本集合间具有业务关联关系,每个初始样本集合中的样本数据标注有对应的训练标签;训练模块,被配置为根据每个初始样本集合训练对应的初始业务模型;处理模块,被配置为基于预设规则通过每个初始业务模型处理每个初始样本集合;构建模块,被配置为根据每个初始业务模型的处理结果构建训练数据集。通过预设规则处理每个初始样本集合,获得多个具有至少两个训练标签的初始样本集合,扩充了目标业务模型的训练数据集,最大化的利用了每个初始样本集合,解决了因训练数据集稀疏而导致模型训练困难的问题。
上述为本实施例的数据处理装置的示意性方案。需要说明的是,该数据处理装置的技术方案与上述的数据处理方法的技术方案属于同一构思,数据处理装置的技术方案未详细描述的细节内容,均可以参见上述数据处理方法的技术方案的描述。
图7示出了根据本申请一实施例提供的一种计算设备700的结构框图。该计算设备700的部件包括但不限于存储器710和处理器720。处理器720与存储器710通过总线730相连接,数据库750用于保存数据。
计算设备700还包括接入设备740,接入设备740使得计算设备700能够经由一个或多个网络760通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备740可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本申请的一个实施例中,计算设备700的上述部件以及图7中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图7所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备700可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备700还可以是移动式或静止式的服务器。
其中,处理器720执行所述计算机指令时实现所述的数据处理方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的数据处理方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述数据处理方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该计算机指令被处理器执行时实现如前所述数据处理方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的数据处理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述数据处理方法的技术方案的描述。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (17)

1.一种数据处理方法,其特征在于,包括:
获取第一样本数据和与所述第一样本数据具有业务关联关系的第二样本数据,其中,所述第一样本数据标注有第一样本标签,所述第二样本数据标注有第二样本标签;
根据所述第一样本数据和所述第一样本标签训练获得第一业务模型,根据所述第二样本数据和所述第二样本标签训练获得第二业务模型;
将所述第一样本数据输入至所述第二业务模型,并将所述第二样本数据输入至所述第一业务模型;
获取所述第二业务模型输出的第一目标数据和所述第一业务模型输出的第二目标数据,其中,所述第一目标数据和所述第二目标数据均标注有第一样本标签和第二样本标签;
基于所述第一目标数据和所述第二目标数据构建训练数据集。
2.如权利要求1所述的数据处理方法,其特征在于,所述第二样本数据包括第二样本参考数据及所述第二样本参考数据对应的第二样本参考标签,第二样本目标数据及所述第二样本目标数据对应的第二样本目标标签;
根据所述第二样本数据和所述第二样本标签训练获得第二业务模型,还包括:
根据所述第二样本参考数据和所述第二样本参考标签训练获得第二预训练业务模型;
根据所述第二样本目标数据和所述第二样本目标标签训练所述第二预训练业务模型,获得第二业务模型。
3.如权利要求2所述的数据处理方法,其特征在于,在根据所述第二样本目标数据和所述第二样本目标标签训练所述第二预训练业务模型之前,所述方法还包括:
接收参数调整指令;
响应于所述参数调整指令调整所述第二预训练业务模型的目标参数。
4.如权利要求3所述的数据处理方法,其特征在于,响应于所述参数调整指令调整所述第二预训练业务模型的目标参数,包括:
响应于所述参数调整指令调整所述第二预训练业务模型的学习率参数,用以降低所述第二预训练业务模型的学习率。
5.如权利要求1所述的数据处理方法,其特征在于,在基于所述第一目标数据和所述第二目标数据构建训练数据集之后,所述方法还包括:
基于所述训练数据集训练获得目标业务模型。
6.如权利要求5所述的数据处理方法,其特征在于,所述训练数据集包括目标数据,所述目标数据标注有第一样本标签和第二样本标签;
基于所述训练数据集训练获得目标业务模型,包括:
将所述目标数据输入至目标业务模型;
获得所述目标业务模型输出的第一预测标签和第二预测标签;
基于所述第一预测标签、第一样本标签、第二预测标签、第二样本标签计算模型损失值;
根据所述模型损失值调整所述目标业务模型的模型参数,并继续训练所述目标业务模型,直至达到模型训练停止条件。
7.如权利要求6所述的数据处理方法,其特征在于,达到模型训练停止条件,包括:
模型损失值小于预设损失值阈值;和/或
训练轮次达到预设训练轮次。
8.如权利要求1-7任意一项所述的数据处理方法,其特征在于,所述第一样本数据包括人脸图片;所述第一样本标签包括眼眶关键点坐标;所述第二样本数据包括人脸图片;所述第二样本标签包括瞳孔关键点坐标。
9.一种数据处理方法,其特征在于,包括:
获取至少三个初始样本集合,其中,每个初始样本集合间具有业务关联关系,每个初始样本集合中的样本数据标注有对应的训练标签;
根据每个初始样本集合训练对应的初始业务模型;
基于预设规则通过每个初始业务模型处理每个初始样本集合;
根据每个初始业务模型的处理结果构建训练数据集。
10.如权利要求9所述的数据处理方法,其特征在于,根据每个初始样本集合训练对应的初始业务模型,包括:
在所述至少三个初始样本集合中确定目标初始样本集合;
根据所述目标初始样本集合训练对应的目标初始业务模型。
11.如权利要求10所述的数据处理方法,其特征在于,对于任意一个初始样本集合训练对应的初始业务模型包括:
在所述至少三个初始样本集合中确定目标初始样本集合;
将所述目标初始样本集合中的目标样本数据输入至目标初始业务模型;
获得所述目标初始业务模型输出的目标预测标签;
基于所述目标预测标签和所述目标样本数据对应的目标训练标签计算模型损失值;
根据所述模型损失值调整所述目标初始业务模型的模型参数,并继续训练所述目标初始业务模型,直至达到模型训练停止条件。
12.如权利要求9所述的数据处理方法,其特征在于,基于预设规则通过每个初始业务模型处理每个初始样本集合,包括:
确定目标初始样本集合;
将所述目标初始样本集合依次输入至除所述目标初始样本集合对应的目标初始业务模型之外的每个初始业务模型,获取每个初始业务模型输出的处理结果。
13.如权利要求12所述的数据处理方法,其特征在于,将所述目标初始样本集合依次输入至除所述目标初始样本集合对应的目标初始业务模型之外的每个初始业务模型,获取每个初始业务模型输出的处理结果,包括:
确定除所述目标初始样本集合对应的目标初始业务模型之外的初始业务模型的数量n,n≥2;
将所述目标初始样本集合输入至第1个初始业务模型,获得所述第1个初始业务模型输出的第1目标初始样本集合;
将第i-1个初始业务模型输出的第i-1目标初始样本集合输入至第i个初始业务模型,获得第i个初始业务模型输出的第i目标初始样本集合,2≤i≤n;
将i自增1,并确定i是否大于n,若否,则继续执行将第i-1个初始业务模型输出的第i-1目标初始样本集合输入至第i个初始业务模型的操作,若是,获取每个初始业务模型输出的处理结果。
14.一种数据处理装置,其特征在于,包括:
第一获取模块,被配置为获取第一样本数据和与所述第一样本数据具有业务关联关系的第二样本数据,其中,所述第一样本数据标注有第一样本标签,所述第二样本数据标注有第二样本标签;
训练模块,被配置为根据所述第一样本数据和所述第一样本标签训练获得第一业务模型,根据所述第二样本数据和所述第二样本标签训练获得第二业务模型;
输入模块,被配置为将所述第一样本数据输入至所述第二业务模型,并将所述第二样本数据输入至所述第一业务模型;
第二获取模块,被配置为获取所述第二业务模型输出的第一目标数据和所述第一业务模型输出的第二目标数据,其中,所述第一目标数据和所述第二目标数据均标注有第一样本标签和第二样本标签;
构建模块,被配置为基于所述第一目标数据和所述第二目标数据构建训练数据集。
15.一种数据处理装置,其特征在于,包括:
获取模块,被配置为获取至少两个初始样本集合,其中,每个初始样本集合间具有业务关联关系,每个初始样本集合中的样本数据标注有对应的训练标签;
训练模块,被配置为根据每个初始样本集合训练对应的初始业务模型;
处理模块,被配置为基于预设规则通过每个初始业务模型处理每个初始样本集合;
构建模块,被配置为根据每个初始业务模型的处理结果构建训练数据集。
16.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述计算机指令时实现权利要求1-8或者9-13任意一项所述方法的步骤。
17.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1-8或者9-13任意一项所述方法的步骤。
CN202210006294.3A 2022-01-04 2022-01-04 数据处理方法及装置 Pending CN114358313A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210006294.3A CN114358313A (zh) 2022-01-04 2022-01-04 数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210006294.3A CN114358313A (zh) 2022-01-04 2022-01-04 数据处理方法及装置

Publications (1)

Publication Number Publication Date
CN114358313A true CN114358313A (zh) 2022-04-15

Family

ID=81107013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210006294.3A Pending CN114358313A (zh) 2022-01-04 2022-01-04 数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN114358313A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024114335A1 (zh) * 2022-11-30 2024-06-06 北京猿力未来科技有限公司 主题识别模型的训练方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024114335A1 (zh) * 2022-11-30 2024-06-06 北京猿力未来科技有限公司 主题识别模型的训练方法及装置

Similar Documents

Publication Publication Date Title
WO2020177282A1 (zh) 一种机器对话方法、装置、计算机设备及存储介质
US20210390370A1 (en) Data processing method and apparatus, storage medium and electronic device
CN110598869B (zh) 基于序列模型的分类方法、装置、电子设备
CN114495129B (zh) 文字检测模型预训练方法以及装置
CN110609886A (zh) 一种文本分析方法及装置
CN110807197A (zh) 识别模型的训练方法及装置、风险网站识别方法及装置
CN111813954B (zh) 文本语句中两实体的关系确定方法、装置和电子设备
CN115391499A (zh) 生成多任务生成模型的方法、问答对生成方法和相关装置
Windiatmoko et al. Developing FB chatbot based on deep learning using RASA framework for university enquiries
CN115954001A (zh) 语音识别方法和模型训练方法
CN113610231B (zh) 语言模型训练方法及装置和词组推荐方法及装置
CN110147414B (zh) 一种知识图谱的实体表征方法及装置
CN114358313A (zh) 数据处理方法及装置
WO2024114335A1 (zh) 主题识别模型的训练方法及装置
CN113538079A (zh) 一种推荐模型的训练方法及装置、一种推荐方法及装置
CN116401364A (zh) 语言模型的训练方法、电子设备、存储介质及产品
CN116029303A (zh) 语言表达方式识别方法、装置、电子设备和存储介质
CN115687917A (zh) 样本处理方法以及装置、识别模型训练方法及装置
CN115757723A (zh) 文本处理方法及装置
CN113792121B (zh) 阅读理解模型的训练方法及装置、阅读理解方法及装置
CN114842301A (zh) 一种图像注释模型的半监督训练方法
CN114492410A (zh) 合约信息提取方法及装置
CN113537263A (zh) 二分类模型的训练方法及装置、实体链接方法及装置
CN116108144B (zh) 信息抽取方法及装置
Zhu et al. Overview of semi-supervised learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination