CN111667025A

CN111667025A - 模型的迁移学习方法、装置、电子设备及计算机可读介质

Info

Publication number: CN111667025A
Application number: CN202010618460.6A
Authority: CN
Inventors: 丁茹
Original assignee: Beijing Tongbang Zhuoyi Technology Co ltd
Current assignee: Beijing Tongbang Zhuoyi Technology Co ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-09-15

Abstract

本公开实施例提供一种模型的迁移学习方法、装置、电子设备及计算机可读介质，该方法包括：获取样本集合和源任务，样本集合中每个样本包括多个特征，每个特征包括特征类别，所述源任务为利用初始特征训练堆栈式自编码器对初始特征进行编码，以更低的维度对初始特征进行表达而损失少量信息；以所述样本集合为训练样本，根据所述初始特征类别确定源任务模型；获取目标任务与目标任务的分类标签；以所述样本集合为训练样本，根据所述分类标签对源任务模型进行有监督训练，获得目标任务的目标任务模型。本公开实施例提供的技术方案能够提供一种无需源域标签且能够保证目标域有监督学习效果的迁移学习方法，简化迁移学习的流程。

Description

模型的迁移学习方法、装置、电子设备及计算机可读介质

技术领域

本公开涉及人工智能领域，尤其涉及一种模型的迁移学习方法、装置、电子设备及计算机可读介质。

背景技术

现有的迁移学习技术均为预训练一个特定领域的学习模型，然后利用相关领域的数据直接应用或微调预训练模型以解决相关领域的问题。但是目前的预训练技术均需要数据标签以支持有监督的训练过程，且没有考虑到特征的通用性，也没有考虑到数据本身较强的结构特征，导致迁移过程对目标域的样本数量和特征的选取要求较高，且会耗费过多的学习时间。

因此，需要一种新的模型的迁移学习方法、装置、电子设备及计算机可读介质。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解，因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

有鉴于此，本公开实施例提供一种模型的迁移学习方法、装置、电子设备及计算机可读介质，进而在一定程度上能够克服相关技术中需要数据标签进行预训练，以及对样本数量和特征结构的苛刻限制。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开实施例的第一方面，提出一种模型的迁移学习方法，该方法包括：获取样本集合和源任务，所述样本集合中每个样本包括多个特征，每个所述特征包括特征类别，所述源任务包括初始特征类别；以所述样本集合为训练样本，根据所述初始特征类别确定源任务模型；获取目标任务与所述目标任务的分类标签；以所述样本集合为训练样本，根据所述分类标签对所述源任务模型进行有监督训练，获得所述目标任务的目标任务模型。

在本公开的一种示例性实施例中，所述源任务模型包括第一特征编码器；其中，以所述样本集合为训练样本，根据所述初始特征类别确定源任务模型包括：获取第一编码器；通过所述样本集合中具有初始特征类别的特征对所述第一编码器进行训练，将训练完成的所述第一编码器确定为所述第一特征编码器。

在本公开的一种示例性实施例中，所述初始特征类别包括第一特征类别和第二特征类别，所述源任务模型还包括第二特征编码器；其中，以所述样本集合为训练样本，根据所述初始特征类别确定源任务模型还包括：通过所述第一特征编码器对所述样本集合中具有第一特征类别的所述特征进行处理，将所述第一特征编码器的输出确定为第一编码特征；将所述第一编码特征与所述样本集合中具有第二特征类别的所述特征进行拼接，获得第一拼接特征；获取第二编码器；通过所述第一拼接特征对所述第二编码器进行训练，将训练完成的所述第二编码器确定为所述第二特征编码器；将所述第一特征编码器和所述第二特征编码器确定为所述源任务模型。

在本公开的一种示例性实施例中，通过所述样本集合中具有初始特征类别的特征对所述第一编码器进行训练包括：通过所述样本集合中具有初始特征类别的特征对所述第一编码器的每个编码层分别进行编码器和解码器的训练获得编码层；将训练完成的编码层进行组合，获得所述第一特征编码器。

在本公开的一种示例性实施例中，根据所述目标任务标签调整所述源任务模型，获得目标任务的目标任务模型包括：将所述源任务模型的前m层结构确定为迁移结构，m为大于0的整数；根据所述迁移结构的输出维度和所述分类标签的维度构建目标输出结构；根据所述迁移结构和所述目标输出结构确定所述目标任务模型；根据所述分类标签对所述目标任务模型进行微调，获得训练完成的所述目标任务模型。

在本公开的一种示例性实施例中，所述目标任务还包括目标特征类别；其中，根据所述分类标签调整所述源任务模型，获得目标任务模型包括：若所述目标特征类别具有所述初始特征类别没有包括的特征类别时，则将所述目标特征类别中所述初始特征类别没有包括的特征类别确定为更新特征类别；若所述更新特征类别的特征的数量大于或等于特征数量阈值，则根据所述更新特征类别确定目标编码器；根据所述分类标签的维度构建目标输出结构；根据所述目标编码器和所述目标输出结构确定所述目标任务模型；根据所述目标特征类别的特征和所述分类标签对所述目标任务模型进行微调，获得训练完成的所述目标任务模型。

在本公开的一种示例性实施例中，根据所述更新特征类别确定目标编码器包括：将所述更新特征类别的特征和所述源任务模型的前m层结构的输出进行拼接，获得第二拼接特征，m为大于0的整数；获取第三编码器；通过所述第二拼接特征调整所述第三编码器的参数，将所述源任务模型的前m层结构和训练完成的所述第三编码器确定为所述目标编码器。

在本公开的一种示例性实施例中，根据所述分类标签调整所述源任务模型，获得目标任务模型还包括：若所述更新特征类别的特征的数量小于特征数量阈值，则将所述更新特征类别的特征与所述源任务模型的输出进行拼接，获得目标拼接特征；根据所述分类标签的维度构建目标输出结构；根据所述源任务模型和所述目标输出结构确定所述目标任务模型；根据目标特征类别的特征和所述分类标签对所述目标任务模型进行微调，获得训练完成的所述目标任务模型。

根据本公开实施例的第二方面，提出一种模型的迁移学习装置，该装置包括：源任务获取模块，配置为获取样本集合和源任务，所述样本集合中每个样本包括多个特征，每个所述特征包括特征类别，所述源任务包括初始特征类别；源任务模型模块，配置为以所述样本集合为训练样本，根据所述初始特征类别确定源任务模型；目标任务获取模块，配置为获取目标任务与所述目标任务的分类标签；目标任务模型模块，配置为以所述样本集合为训练样本，根据所述分类标签对所述源任务模型进行有监督训练，获得所述目标任务的目标任务模型。

根据本公开实施例的第三方面，提出一种电子设备，该电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现上述任一项所述的模型的迁移学习方法。

根据本公开实施例的第四方面，提出一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述任一项所述的模型的迁移学习方法。

根据本公开某些实施例提供的模型的迁移学***的学习与挖掘能力。在面对需要迁移的目标任务时，仅需要根据目标任务的分类标签对源任务模型进行微调即可获得目标任务模型，能够简化迁移学习的流程，避免相关的迁移学习技术中对样本数量和特征结构的苛刻要求，降低迁移学习的技术门槛，提高模型的迁移学习的学习能力。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。下面描述的附图仅仅是本公开的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种模型的迁移学习方法及装置的***框图；

图2是根据一示例性实施例示出的一种模型的迁移学习方法的流程图；

图3是根据一示例性实施例示出的一种模型的迁移学习方法的流程图；

图4是根据一示例性实施例示出的一种模型的迁移学习方法的流程图；

图5是根据一示例性实施例示出的一种模型的迁移学习方法的流程图；

图6是根据一示例性实施例示出的一种模型的迁移学习方法的流程图；

图7是根据一示例性实施例示出的一种模型的迁移学习方法的流程图；

图8是根据一示例性实施例示出的编码器的结构图；

图9是根据一示例性实施例示出的编码器的结构图；

图10是根据一示例性实施例示出的一种模型的迁移学习装置的框图；

图11是根据一示例性实施例示出的一种电子设备的框图；

图12是根据一示例性实施例示出一种计算机可读存储介质示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而，示例实施例能够以多种形式实施，且不应被理解为限于在此阐述的实施例；相反，提供这些实施例使得本发明将全面和完整，并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。

所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本发明的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而省略特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。

附图仅为本发明的示意性图解，图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和步骤，也不是必须按所描述的顺序执行。例如，有的步骤还可以分解，而有的步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

下面结合附图对本发明示例实施方式进行详细说明。

图1是根据一示例性实施例示出的一种模型的迁移学习方法及装置的***框图。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所进行操作的模型的迁移学习***提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的模型的迁移学习请求等数据进行分析等处理，并将处理结果(例如目标任务模型--仅为示例)反馈给终端设备。

服务器105可例如获取样本集合和源任务，样本集合中每个样本包括多个特征，每个特征包括特征类别，源任务包括初始特征类别；服务器105可例如以样本集合为训练样本，根据初始特征类别确定源任务模型；服务器105可例如获取目标任务与目标任务的分类标签。服务器105可例如以样本集合为训练样本，根据分类标签对源任务模型进行有监督训练，获得目标任务的目标任务模型。

服务器105可以是一个实体的服务器，还可例如为多个服务器组成，服务器105中的一部分可例如作为本公开中的模型的迁移学习任务提交***，用于获取将要执行模型的迁移学习命令的任务；以及服务器105中的一部分还可例如作为本公开中的模型的迁移学习***，用于获取样本集合和源任务，样本集合中每个样本包括多个特征，每个特征包括特征类别，源任务包括初始特征类别；以样本集合为训练样本，根据初始特征类别确定源任务模型；获取目标任务与目标任务的分类标签；以样本集合为训练样本，根据分类标签对源任务模型进行有监督训练，获得目标任务的目标任务模型。

根据本公开实施例提供的模型的迁移学***的学习与挖掘能力。在面对需要迁移的目标任务时，仅需要根据目标任务的分类标签对源任务模型进行微调即可获得目标任务模型，能够简化迁移学习的流程，避免相关的迁移学习技术中对样本数量和特征结构的苛刻要求，降低迁移学习的技术门槛，提高模型的迁移学习的学习能力。

图2是根据一示例性实施例示出的一种模型的迁移学习方法的流程图。本公开实施例提供的模型的迁移学习方法可以由任意具备计算处理能力的电子设备执行，例如终端设备101、102、103和/或服务器105，在下面的实施例中，以服务器执行所述方法为例进行举例说明，但本公开并不限定于此。本公开实施例提供的模型的迁移学习方法20可以包括步骤S202至S208。

如图2所示，在步骤S202中，获取样本集合和源任务，样本集合中的每个样本包括多个特征，每个特征包括特征类别，源任务包括初始特征类别。

本公开实施例中，样本集合中每个样本的特征可分别为每个样本在不同领域的特征。特征类别用于标识每个特征所属的领域。样本集合中的特征可为根据使用率对备选特征进行排序后，排在前n个的备选特征，n为大于0的整数，以保证样本集合中的特征为具有高使用率的特征。其中，样本集合中的特征可包括源任务所在领域对应的特征类别的特征。初始特征类别可为不同领域对应的特征类别。例如，初始特征类别可包括样本集合中的多个特征所覆盖的特征类别。又例如，初始特征类别可包括源任务所在领域对应的特征类别。优选地，初始特征类别还可包括除源任务所在领域以外的领域对应的特征类别。

在步骤S204中，以样本集合为训练样本，根据初始特征类别确定源任务模型。

本公开实施例中，源任务模型可为编码器模型。其中，可将样本集合中具有初始特征类别的特征对编码器模型进行训练，获得源任务模型。

在步骤S206中，获取目标任务与目标任务的分类标签。

本公开实施例中，分类标签可为样本集合中的样本在目标任务所在领域下的分类标签。

本公开实施例中，优选地，初始特征类别还可包括目标任务所在领域对应特征类别的特征，样本集合中的特征还可包括目标任务所在领域对应的特征类别的特征。例如，样本集合中的特征包括了源任务和目标任务所在领域对应的特征类别的特征，初始特征类别可为样本集合中的特征所覆盖的特征类别。

在步骤S208中，以样本集合为训练样本，根据分类标签对源任务模型进行有监督训练，获得目标任务的目标任务模型。

本公开实施例中，可将样本集合中的样本和分类标签组成样本对，根据该样本对微调源任务模型，获得目标任务模型。微调是指先在源任务上获得预训练模型，然后在目标任务上进一步训练该预训练模型，从而，可以减少对目标标签数据需求的同时，提升模型的性能。

图3是根据一示例性实施例示出的一种模型的迁移学习方法的流程图。本公开实施例提供模型的迁移学习方法30可以包括步骤S302至S306。在该实施例中，源任务模型可包括第一特征编码器。

本公开实施例的步骤S302至步骤S304可以作为步骤S204的替换步骤。

如图3所示，在步骤S302中，获取第一编码器。

本公开实施例中，第一编码器可例如为自编码器，优选地，可为堆栈式自编码器(Stacked AutoEncoder)。堆栈式自编码器也叫深度自动编码器(DeepAutoEncoder)。堆栈式自动编码器是在简单自动编码器的基础上,增加其隐藏层的深度,以获得更好的特征提取能力和训练效果。

在步骤S304中，通过样本集合中具有初始特征类别的特征对第一编码器进行训练，将训练完成的第一编码器确定为第一特征编码器。图8是根据一示例性实施例示出的第一编码器的结构图。如图8所示，第一编码器810可为堆栈式自动编码器。图8示出的初始特征类别可包括第一特征类别801。该第一特征类别801可例如为商城特征类别。其中，可首先对样本集合中第一特征类别的特征进行预处理操作802。预处理操作802中，例如，对数值类特征(图8以X1至X521为例)进行归一化操作，对文本类特征(图8以X1至X32为例)进行嵌入式表示。其中，可将第一特征类别801的特征进行拼接获得第一特征向量，根据第一特征向量调整第一编码器810的参数，确定调整后的第一编码器为第一特征编码器。

如图8所示，在调整第一编码器810时，该第一编码器可包括多层编码层：811、812、813、814等。其中，堆栈式编码器的降维特性能够将高维度的特征表达为各种低维度的特征(图8中以306、144、58、32为例)。可根据源任务模型所选取的特征的具体维度将第一编码器810的前m层确定为第一特征编码器，m为大于0的整数，本公开的技术方案对此并不作特殊限定。

在该实施例中，采用具有初始特征类别的特征调整第一编码器的参数，以便第一编码器能够深度挖掘初始特征类别的特征中的结构与特性，进而使得获得的源任务模型(第一特征编码器)在面对初始特征类别中不同特征类别下的特征时均保持较高水平的学习与挖掘能力。

在示例性实施例中，与前述实施例的区别在于，初始特征类别可包括第一特征类别和第二特征类别，源任务模型还包括第二特征编码器。当初始特征类别的类别数量为a时，源任务模型可包括第一特征编码器、第二特征编码器、…、第a特征编码器，a为大于0的整数。在通过样本集合中具有初始特征类别的特征对第一编码器进行训练时，可通过第一特征编码器对样本集合中具有第一特征类别的特征进行处理，将第一特征编码器的输出确定为第一特征编码；将第一特征编码与样本集合中具有第二特征类别的特征进行拼接，获得第一拼接特征；获取第二编码器；通过第一拼接特征对第二编码器的参数，将训练完成的第二编码器确定为第二特征编码器；将所述第一特征编码器和所述第二特征编码器确定源任务模型。其中，在源任务模型除第一特征编码器和第二特征编码器外还包括第三特征编码器时，第三特征编码器的训练过程与第二特征编码器的训练过程类似，此处不再赘述。

图9是根据一示例性实施例示出的第二编码器的结构图。如图9所示，第二编码器910可为堆栈式自动编码器。该第二编码器可包括多个编码层：911、912、913、914等。第一特征编码901可例如为图8中所示的训练完成的第一编码器对第一特征类别的特征进行编码后获得的编码特征。其中，可对第二特征类别的特征进行预处理操作。预处理操作的具体内容可参考前述图8中的相关描述。

图9所示的第二编码器910的输入可为第一特征编码901与第二特征类别的特征902(包括第二特征类别的数值类特征和文本类特征)进行拼接后获得拼接特征。在该实施例中，通过将第一特征类别的特征与第二特征类别的特征进行融合编码，能够使得获得的源任务模型在面对初始特征类别中不同特征类别下的特征时均保持较高水平的学习与挖掘能力。进而能够适应不同领域的模型的迁移学习并保证其迁移后在目标域的模型有监督学习效果。

在示例性实施例中，步骤S304中可进一步包括以下步骤：

在步骤S3041中，通过所述样本集合中具有初始特征类别的特征对所述第一编码器的每个编码层分别进行编码器和解码器的训练获得编码层。

在步骤S3042中，将训练完成的编码层进行组合，获得所述第一特征编码器。

图4是根据一示例性实施例示出的一种模型的迁移学习方法的流程图。本公开实施例提供模型的迁移学习方法40可以包括步骤S402至S408。

本实施例的步骤S402至步骤S408可以作为步骤S208的替换步骤。

在步骤S402中，将源任务模型的前m层结构确定为迁移结构，m为大于0的整数。

本公开实施例中，m的具体数值可根据目标任务模型的训练效果进行调节，本公开的技术方案对此并不作特殊限定。

在步骤S404中，根据迁移结构的输出维度和分类标签的维度构建目标输出结构。

本公开实施例中，目标输出结构可包括输出层。优选地，目标输出结构还可包括至少一层网络层。目标输出结构的输入维度可与迁移结构的输出维度相同、输出维度可与分类标签的维度相同。

在步骤S406中，根据迁移结构和目标输出结构确定目标任务模型。

本公开实施例中，可将迁移结构和目标输出结构进行组装，获得目标任务模型。

在步骤S408中，根据分类标签对目标任务模型进行微调，获得训练完成的目标任务模型。

本公开实施例中，由于源任务模型在面对初始特征类别中不同特征类别下的特征时均保持较高水平的学习与挖掘能力。在面对需要迁移的目标任务时，仅需要根据目标任务的分类标签对源任务模型中的前m层的迁移结构和目标输出结构进行微调即可获得目标任务模型，能够避免相关的迁移学习技术中对样本数量和特征结构的苛刻要求，降低迁移学习的技术门槛，提高模型的迁移学习的学习能力。

图5是根据一示例性实施例示出的一种模型的迁移学习方法的流程图。本公开实施例提供模型的迁移学习方法50可以包括步骤S502至S510。

本实施例的步骤S502至步骤S510可以作为步骤S208的替换步骤。

在该实施例中，目标任务还包括目标特征类别。

如图5所示，在步骤S502中，若目标特征类别具有初始特征类别没有包括的特征类别时，则将目标特征类别中初始特征类别没有包括的特征类别确定为更新特征类别。

本公开实施例中，初始特征类别中可能没有完全覆盖目标任务特征类别。在该情况下，可将目标任务特征类别中没有收录在初始特征类别的特征类别确定为更新特征类别。

在步骤S504中，若更新特征类别的特征的数量大于或等于特征数量阈值，则根据所述更新特征类别确定目标编码器。

在步骤S506中，根据分类标签的维度构建目标输出结构。

在步骤S508中，根据目标编码器和目标输出结构确定目标任务模型。

在步骤S510中，根据目标特征类别的特征和分类标签对目标任务模型进行微调，获得训练完成的目标任务模型。

本公开实施例提供的模型的迁移学习方法，在目标任务特征类别具有更新特征类别时，根据更新特征类别的特征对源任务模型进行微调，能够在样本数量受限的情况下实现对源任务模型的迁移，获得目标任务模型并保证目标任务模型的有监督学习效果等。

在示例性实施例中，上述实施例还可进一步包括以下步骤。

在步骤S512中，若更新特征类别的特征的数量小于特征数量阈值，则将更新特征类别的特征与源任务模型的输出进行拼接，获得目标拼接特征。

在步骤S514中，根据分类标签的维度构建目标输出结构。

在步骤S516中，根据源任务模型和目标输出结构确定目标任务模型。

在步骤S518中，根据目标特征类别的特征和分类标签对目标任务模型进行微调，获得训练完成的目标任务模型。图6是根据一示例性实施例示出的一种模型的迁移学习方法的流程图。本公开实施例提供模型的迁移学习方法60可以包括步骤S602至S606。

本公开实施例的步骤S602至步骤S606可以作为步骤S504的替换步骤。

如图6所示，在步骤S602中，将更新特征类别的特征和源任务模型的前m层结构的输出进行拼接，获得第二拼接特征，m为大于0的整数。

本公开实施例中，源任务模型的输出可为初始特征类别在源任务模型下的输出。由于目标特征类别与初始特征类别不一致，通过将更新特征类别的特征和源任务模型的输出进行拼接，能够获得目标特征类别所能够对应的第二拼接特征。

在步骤S604中，获取第三编码器。

本公开实施例中，第三编码器可例如但不限于为堆栈式自编码器。

在步骤S606中，通过第二拼接特征调整第三编码器的参数，将源任务模型的前m层结构和训练完成的第三编码器确定为目标编码器。

本公开实施例中，编码器可为堆栈式自编码器。在该实施例中，通过第二拼接特征调整第三编码器的参数，能够在目标特征类别与初始特征类别不一致的情形下，使获得的目标编码器能够适用于目标任务的目标特征类别。其中，m的具体数值可根据目标编码器的训练效果进行调节，本公开的技术方案对此并不作特殊限定。

在示例性实施例中，在更新特征类别包括b个特征类别时，b为大于1的整数，可根据该b个特征类别获取第四编码器、第五编码器、…和第b+2编码器。例如，当b＝2，还可获取第四编码器。在该实施例中，第四编码器的参数调节方式与第三编码器类似。此处不再赘述。

图7是根据一示例性实施例示出的一种模型的迁移学习方法的流程图。本公开实施例提供模型的迁移学习方法70可以包括步骤S702至S710。

如图7所示，在步骤S702中，获取多个特征。

其中，该多个特征可为根据使用率对备选特征进行排序后，排在前n个的备选特征，n为大于0的整数，以保证该多个特征为具有高使用率的特征。

在步骤S704中，根据特征的特征类别对特征进行分类，将分类后的特征整合为样本集合。

在步骤S706中，将样本集合中具有相同特征类别的特征构建堆栈式自编码器。

在步骤S708中，判断样本集合中是否还有未用于构建编码器的特征类别。若是，返回执行步骤S706，否则执行步骤S710。

在步骤S710中，获取目标任务，根据目标任务的分类标签微调堆栈式自编码器，获得目标任务模型。

根据本公开实施例提供的模型的迁移学习方法，从无监督学习的视角出发利用堆栈式自编码器预训练源域模型，对建模场景下的高使用率的特征进行特征表征学习，当进行新的监督学习或者无监督学习任务时，可以利用预训练好的模型进行微调获得对应的模型。避免了相关的迁移学习技术中对样本数量和特征结构的苛刻要求，无需源域的特征标签，降低迁移学习的技术门槛，提高模型的迁移学习的学习能力。

应清楚地理解，本公开描述了如何形成和使用特定示例，但本公开的原理不限于这些示例的任何细节。相反，基于本公开公开的内容的教导，这些原理能够应用于许多其它实施例。

本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由中央处理器(Central Processing Unit，CPU)执行的计算机程序。在该计算机程序被中央处理器CPU执行时，执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中，该存储介质可以是只读存储器，磁盘或光盘等。

此外，需要注意的是，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

下述为本公开装置实施例，可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开方法实施例。

图10是根据一示例性实施例示出的一种模型的迁移学习装置的框图。参照图10，本公开实施例提供的模型的迁移学习装置1000可以包括：源任务获取模块1010、源任务模型模块1020、目标任务获取模块1030和目标任务模型模块1040。

在模型的迁移学习装置1000中，源任务获取模块1010可以配置为获取样本集合和源任务，样本集合中每个样本包括多个特征，每个特征包括特征类别，源任务包括初始特征类别。

源任务模型模块1020可以配置为以样本集合为训练样本，根据初始特征类别确定源任务模型。

目标任务获取模块1030可以配置为获取目标任务与目标任务的分类标签。

目标任务模型模块1040可以配置为以样本集合为训练样本，根据分类标签对源任务模型进行有监督训练，获得目标任务的目标任务模型。

在示例性实施例中，源任务模型可包括第一特征编码器。源任务模型模块1020可以包括第一编码器单元和编码器调整单元。其中，第一编码器单元可以配置为获取第一编码器。编码器调整单元可以配置为通过样本集合中具有初始特征类别的特征对第一编码器进行训练，将训练完成的第一编码器确定为第一特征编码器。

在示例性实施例中，初始特征类别可包括第一特征类别和第二特征类别，源任务模型还包括第二特征编码器。源任务模型模块1020还可包括第一特征编码单元、第一特征拼接单元、第二编码器单元、编码器调整单元和源任务模型单元。其中，第一特征编码单元可以配置为通过第一特征编码器对样本集合中具有第一特征类别的特征进行处理，将第一特征编码器的输出确定为第一编码特征。第一特征拼接单元可以配置为将第一编码特征与样本集合中具有第二特征类别的特征进行拼接，获得第一拼接特征。第二编码器单元可以配置为获取第二编码器。编码器调整单元可以配置为通过第一拼接特征对第二编码器进行训练，将训练完成的第二编码器确定为第二特征编码器；源任务模型单元可以配置为将第一特征编码器和第二特征编码器确定为源任务模型。

在示例性实施例中，编码器调整单元可以包括编码层训练子单元和编码层组合子单元。其中，编码层训练子单元可以配置为通过样本集合中具有初始特征类别的特征对第一编码器的每个编码层分别进行编码器和解码器的训练获得编码层。编码层组合子单元可以配置为将训练完成的编码层进行组合，获得第一特征编码器。

在示例性实施例中，目标任务模型模块1040可以包括迁移结构单元、目标输出结构单元、目标任务模型单元和目标任务模型调整单元。其中，迁移结构单元可以配置为将源任务模型的前m层结构确定为迁移结构，m为大于0的整数。目标输出结构单元可以配置为根据迁移结构的输出维度和分类标签的维度构建目标输出结构。目标任务模型单元可以配置为根据迁移结构和目标输出结构确定目标任务模型。目标任务模型调整单元可以配置为根据分类标签对目标任务模型进行微调，获得训练完成的目标任务模型。

在示例性实施例中，目标任务还可包括目标特征类别。目标任务模型模块1040可以包括特征类别更新单元、目标编码器单元、目标输出结构单元、目标模型组成单元和目标模型微调单元。其中，特征类别更新单元可以配置为若目标特征类别具有初始特征类别没有包括的特征类别时，则将目标任务特征类别中初始特征类别没有包括的特征类别确定为更新特征类别。目标编码器单元可以配置为若更新特征类别的特征的数量大于或等于特征数量阈值，则根据更新特征类别确定目标编码器。目标输出结构单元可以配置为根据分类标签的维度构建目标输出结构。目标模型组成单元可以配置为根据源任务模型、目标编码器和目标输出结构确定目标任务模型。目标模型微调单元可以配置为根据目标特征类别的特征和分类标签对目标任务模型进行微调，获得训练完成的目标任务模型。

在示例性实施例中，目标编码器单元可以包括第二拼接子单元、第三编码器子单元和目标编码器子单元。其中，第二拼接子单元可以配置为将更新特征类别的特征和源任务模型的前m层结构的输出进行拼接，获得第二拼接特征，m为大于0的整数。第三编码器子单元可以配置为获取第三编码器。目标编码器子单元可以配置为通过第二拼接特征调整第三编码器的参数，将训练完成的第三编码器确定为目标编码器。

在示例性实施例中，目标任务模型模块1040还可以包括第三拼接单元、目标输出结构单元、目标任务模型单元和目标模型微调单元。第三拼接单元可以配置为若所述更新特征类别的特征的数量小于特征数量阈值，则将所述更新特征类别的特征与所述源任务模型的输出进行拼接，获得目标拼接特征。目标输出结构单元可以配置为根据所述分类标签的维度构建目标输出结构。目标任务模型单元可以配置为根据所述源任务模型和所述目标输出结构确定所述目标任务模型。目标模型微调单元可以配置为根据目标特征类别的特征和所述分类标签对所述目标任务模型进行微调，获得训练完成的所述目标任务模型。

图11是根据一示例性实施例示出的一种电子设备的框图。

下面参照图11来描述根据本公开的这种实施方式的电子设备200。图11显示的电子设备200仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图11所示，电子设备200以通用计算设备的形式表现。电子设备200的组件可以包括但不限于：至少一个处理单元210、至少一个存储单元220、连接不同***组件(包括存储单元220和处理单元210)的总线230、显示单元240等。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元210执行，使得所述处理单元210执行本说明书上述电子处方流转处理方法部分中描述的根据本公开各种示例性实施方式的步骤。例如，所述处理单元210可以执行如图2，图3，图4，图5，图6，图7中所示的步骤。

所述存储单元220可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)2201和/或高速缓存存储单元2202，还可以进一步包括只读存储单元(ROM)2203。

所述存储单元220还可以包括具有一组(至少一个)程序模块2205的程序/实用工具2204，这样的程序模块2205包括但不限于：操作***、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线230可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备200也可以与一个或多个外部设备300(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备200交互的设备通信，和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口250进行。并且，电子设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备200使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储***等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述方法。

图12示意性示出本公开示例性实施例中一种计算机可读存储介质示意图。

参考图12所示，描述了根据本公开的实施方式的用于实现上述方法的程序产品400，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该计算机可读介质实现如下功能：获取样本集合和源任务，样本集合中每个样本包括多个特征，每个特征包括特征类别，源任务包括初始特征类别；以样本集合为训练样本，根据初始特征类别确定源任务模型；获取目标任务与目标任务的分类标签；以样本集合为训练样本，根据分类标签对源任务模型进行有监督训练，获得目标任务的目标任务模型。

本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中，也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施例的方法。

以上具体地示出和描述了本公开的示例性实施例。应可理解的是，本公开不限于这里描述的详细结构、设置方式或实现方法；相反，本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

Claims

1.一种模型的迁移学习方法，其特征在于，包括：

获取样本集合和源任务，所述样本集合中每个样本包括多个特征，每个所述特征包括特征类别，所述源任务包括初始特征类别；

以所述样本集合为训练样本，根据所述初始特征类别确定源任务模型；

获取目标任务与所述目标任务的分类标签；

以所述样本集合为训练样本，根据所述分类标签对所述源任务模型进行有监督训练，获得所述目标任务的目标任务模型。

2.如权利要求1所述的方法，其特征在于，所述源任务模型包括第一特征编码器；其中，以所述样本集合为训练样本，根据所述初始特征类别确定源任务模型包括：

获取第一编码器；

通过所述样本集合中具有初始特征类别的特征对所述第一编码器进行训练，将训练完成的所述第一编码器确定为所述第一特征编码器。

3.如权利要求2所述的方法，其特征在于，所述初始特征类别包括第一特征类别和第二特征类别，所述源任务模型还包括第二特征编码器；其中，以所述样本集合为训练样本，根据所述初始特征类别确定源任务模型还包括：

通过所述第一特征编码器对所述样本集合中具有第一特征类别的所述特征进行处理，将所述第一特征编码器的输出确定为第一编码特征；

将所述第一编码特征与所述样本集合中具有第二特征类别的所述特征进行拼接，获得第一拼接特征；

获取第二编码器；

通过所述第一拼接特征对所述第二编码器进行训练，将训练完成的所述第二编码器确定为所述第二特征编码器；

将所述第一特征编码器和所述第二特征编码器确定为所述源任务模型。

4.如权利要求2所述的方法，其特征在于，通过所述样本集合中具有初始特征类别的特征对所述第一编码器进行训练包括：

通过所述样本集合中具有初始特征类别的特征对所述第一编码器的每个编码层分别进行编码器和解码器的训练获得编码层；

将训练完成的所述编码层进行组合，获得所述第一特征编码器。

5.如权利要求1所述的方法，其特征在于，根据所述目标任务标签调整所述源任务模型，获得目标任务的目标任务模型包括：

将所述源任务模型的前m层结构确定为迁移结构，m为大于0的整数；

根据所述迁移结构的输出维度和所述分类标签的维度构建目标输出结构；

根据所述迁移结构和所述目标输出结构确定所述目标任务模型；

根据所述分类标签对所述目标任务模型进行微调，获得训练完成的所述目标任务模型。

6.如权利要求1所述的方法，其特征在于，所述目标任务还包括目标特征类别；其中，根据所述分类标签调整所述源任务模型，获得目标任务模型包括：

若所述目标特征类别具有所述初始特征类别没有包括的特征类别时，则将所述目标特征类别中所述初始特征类别没有包括的特征类别确定为更新特征类别；

若所述更新特征类别的特征的数量大于或等于特征数量阈值，则根据所述更新特征类别确定目标编码器；

根据所述分类标签的维度构建目标输出结构；

根据所述目标编码器和所述目标输出结构确定所述目标任务模型；

根据所述目标特征类别的特征和所述分类标签对所述目标任务模型进行微调，获得训练完成的所述目标任务模型。

7.如权利要求6所述的方法，其特征在于，根据所述更新特征类别确定目标编码器包括：

将所述更新特征类别的特征和所述源任务模型的前m层结构的输出进行拼接，获得第二拼接特征，m为大于0的整数；

获取第三编码器；

通过所述第二拼接特征调整所述第三编码器的参数，将所述源任务模型的前m层结构和训练完成的所述第三编码器确定为所述目标编码器。

8.如权利要求6所述的方法，其特征在于，根据所述分类标签调整所述源任务模型，获得目标任务模型还包括：

若所述更新特征类别的特征的数量小于特征数量阈值，则将所述更新特征类别的特征与所述源任务模型的输出进行拼接，获得目标拼接特征；

根据所述分类标签的维度构建目标输出结构；

根据所述源任务模型和所述目标输出结构确定所述目标任务模型；

根据目标特征类别的特征和所述分类标签对所述目标任务模型进行微调，获得训练完成的所述目标任务模型。

9.一种模型的迁移学习装置，其特征在于，包括：

源任务获取模块，配置为获取样本集合和源任务，所述样本集合中每个样本包括多个特征，每个所述特征包括特征类别，所述源任务包括初始特征类别；

源任务模型模块，配置为以所述样本集合为训练样本，根据所述初始特征类别确定源任务模型；

目标任务获取模块，配置为获取目标任务与所述目标任务的分类标签；

目标任务模型模块，配置为以所述样本集合为训练样本，根据所述分类标签对所述源任务模型进行有监督训练，获得所述目标任务的目标任务模型。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。

11.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。