CN110781970A

CN110781970A - 分类器的生成方法、装置、设备及存储介质

Info

Publication number: CN110781970A
Application number: CN201911046719.8A
Authority: CN
Inventors: 刘紫薇; 宋辉; 吕培立; 董井然; 陈守志
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2020-02-11
Anticipated expiration: 2039-10-30
Also published as: CN110781970B

Abstract

本发明提供了一种分类器的生成方法、装置、电子设备及存储介质；方法包括：基于源域的样本以及目标域的样本，构建源域与目标域的最大均值差异；将所述源域与目标域的最大均值差异进行分离，得到分离后的均值差异；根据分离后的均值差异对优化目标进行分解，得到针对源域的变换矩阵；基于源域的样本以及样本对应的标签、目标域的样本、以及针对所述源域的变换矩阵，对目标域的样本进行预测，得到目标域的样本所对应的标签；基于源域的样本、以及目标域的样本所对应的标签，生成对应目标域的分类器。通过本发明，能够将迁移学习中涉及大规模计算量的最大均值差异进行分离，从而降低迁移学习的计算复杂度。

Description

分类器的生成方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术，尤其涉及一种分类器的生成方法、待分类数据的分类方法、装置、电子设备及存储介质。

背景技术

人工智能(Artificial Intelligence，AI)是计算机科学的一个综合技术，通过研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，例如自然语言处理技术以及机器学习/深度学习等几大方向，随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

迁移学习是人工智能领域的重要应用之一，在对话***、人脸识别***、智能硬件等中都有广泛的应用，即迁移学习是这些复杂***的基础组件。

但是，迁移学习中的大规模的计算数据，使得在进行数据迁移的过程中，极大地增加了计算复杂度，导致无法进行正常的迁移学习以及后续基于迁移学习的其他操作。

发明内容

本发明实施例提供一种方法、装置及存储介质，能够将迁移学习中涉及大规模计算量的最大均值差异进行分离，从而降低迁移学习的计算复杂度。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种分类器的生成方法，所述方法包括：

基于源域的样本以及目标域的样本，构建所述源域与所述目标域的最大均值差异；

将所述源域与所述目标域的最大均值差异进行分离，得到分离后的均值差异；

根据所述分离后的均值差异对优化目标进行分解，得到针对所述源域的变换矩阵；

基于所述源域的样本以及样本对应的标签、所述目标域的样本、以及所述针对所述源域的变换矩阵，对所述目标域的样本进行预测，得到所述目标域的样本所对应的标签；

基于所述源域的样本、以及所述目标域的样本所对应的标签，生成对应所述目标域的分类器。

本发明实施例提供一种待分类数据的分类方法，应用于本发明实施例所述的对应目标域的分类器；

所述方法包括：

确定所述目标域中的待分类数据；

通过所述对应目标域的分类器对所述待分类数据进行分类，得到对应所述待分类数据的标签。

本发明实施例提供一种分类器的生成装置，所述装置包括：

构建模块，用于基于源域的样本以及目标域的样本，构建所述源域与所述目标域的最大均值差异；

分离模块，用于对所述源域与所述目标域的最大均值差异进行分离；

处理模块，用于根据分离得到的均值差异对优化目标进行分解，得到针对所述源域的变换矩阵；

预测模块，用于基于所述源域的样本以及样本对应的标签、所述目标域的样本、以及所述针对所述源域的变换矩阵，对所述目标域的样本进行预测，得到所述目标域的样本所对应的标签；

生成模块，用于基于所述源域的样本、以及所述目标域的样本所对应的标签，生成对应所述目标域的分类器。

上述技术方案中，所述构建模块还用于通过映射空间分别对所述源域的样本以及所述目标域的样本进行映射处理，对应得到映射后的源域样本以及映射后的目标域样本；

分别对所述映射后的源域样本以及所述映射后的目标域样本进行均值处理，对应得到所述源域样本的均值以及所述目标域样本的均值，并将所述源域样本的均值与所述目标域样本的均值的差，确定为所述源域与所述目标域的最大均值差异。

上述技术方案中，所述分离模块还用于将矩阵形式的所述最大均值差异进行分离，得到向量形式的分离后的均值差异。

上述技术方案中，所述最大均值差异为N*N的矩阵，其中，所述N为所述源域的样本数量以及目标域的样本数量之和，N为大于2的自然数；

所述分离模块还用于将所述最大均值差异进行矩阵分解，得到两个分离后的均值差异的笛卡尔积；

其中，分离后的均值差异为N*1的向量。

上述技术方案中，所述处理模块还用于将所述源域的样本以及所述目标域的样本进行组合，得到特征矩阵；

根据所述特征矩阵以及所述分离后的均值差异对优化目标进行广义特征值分解，得到针对所述源域的变换矩阵。

上述技术方案中，所述处理模块还用于将所述特征矩阵以及所述分离后的均值差异相乘，得到中间矩阵；

基于所述中间矩阵，对优化目标进行广义特征值分解，得到针对所述源域的变换矩阵。

上述技术方案中，所述构建模块还用于基于源域的第c类样本以及目标域的第c类样本，构建所述源域与所述目标域的第c类样本的最大均值差异，其中，c小于或者等于C，C为所述源域的样本类型的总数，且c、C均为自然数；

所述分离模块还用于将所述源域与所述目标域的第c类样本的最大均值差异进行分离，得到分离后的第c类样本的均值差异；

所述处理模块还用于将C个分离后的样本的均值差异进行求和，得到分离后的均值差异的总和；

根据所述总和对优化目标进行分解，得到针对所述源域的变换矩阵。

上述技术方案中，所述中间矩阵为U_c＝X·e_c，其中，X为所述特征矩阵，e_c为所述分离后的第c类样本的均值差异；

处理模块还用于确定优化目标的表示：

且满足A^TXHX^TA＝I，其中，C为所述源域的样本类型的总数，tr为矩阵的迹，A为变换矩阵，M_c为所述第c类样本的最大均值差异，λ为正则化项系数，H为中心矩阵，I为单位矩阵；

将所述优化目标中的XHX^T替换为

基于

对所述优化目标按照以下公式进行广义特征值分解，得到针对所述源域的变换矩阵A：

其中，为拉格朗日乘子。

上述技术方案中，所述预测模块还用于根据所述源域的样本以及所述针对所述源域的变换矩阵，得到变换后的源域样本；

根据所述变换后的源域样本以及所述源域样本对应的标签，构建所述分类器的分类模型；

通过所述分类模型对所述目标域的样本进行预测，得到所述目标域的样本所对应的标签。

上述技术方案中，所述生成模块还用于基于所述目标域的样本、以及所述目标域的样本所对应的标签对所述分类器进行训练，得到对应所述目标域的分类器。

上述技术方案中，所述源域的样本为第一金融场景中的第一用户行为特征，所述目标域的样本为第二金融场景中的第二用户行为特征；

所述构建模块还用于基于所述第一金融场景中的第一用户行为特征以及所述第二金融场景中的第二用户行为特征，构建所述第一金融场景与所述第二金融场景的最大均值差异；

所述预测模块还用于基于所述第一用户行为特征以及所述第一用户对应的违约标签、所述第二用户行为特征、以及针对所述第一金融场景的变换矩阵，对所述第二金融场景的第二用户进行违约预测，得到所述第二金融场景的第二用户所对应的违约标签；

所述生成模块还用于基于所述第二金融场景的第二用户行为特征、以及所述第二用户所对应的违约标签，生成对应所述第二金融场景的分类器。

本发明实施例提供一种待分类数据的分类装置，所述装置包括：

确定模块，用于确定目标域中的待分类数据；

分类模块，用于通过对应目标域的分类器对所述待分类数据进行分类，得到对应所述待分类数据的标签。

本发明实施例提供一种分类器的生成设备，所述设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的分类器的生成方法。

本发明实施例提供一种待分类数据的分类设备，所述设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的待分类数据的分类方法。

本发明实施例提供一种存储介质，存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的分类器的生成方法，或者实现本发明实施例提供的待分类数据的分类方法。

本发明实施例具有以下有益效果：

通过将涉及大规模计算量的最大均值差异进行分离，从而降低计算复杂度，可以对优化目标进行分解，得到变换矩阵，以便后续进行分类操作；对最大均值差异进行分离解决大矩阵(最大均值差异)连乘的问题，增大了计算机运算环境下可计算的数据规模，从而进行正常的迁移学习，显著提高了迁移学习的性能，适用于各种分类应用场景。

附图说明

图1是本发明实施例提供的分类器的生成***10的应用场景示意图；

图2是本发明实施例提供的分类器的生成设备500的结构示意图；

图3-7是本发明实施例提供的分类器的生成方法的流程示意图；

图8是本发明实施例提供的待分类数据的分类***20的应用场景示意图；

图9是本发明实施例提供的待分类数据的分类设备600的结构示意图；

图10是本发明实施例提供的待分类数据的分类方法的流程示意图；

图11是本发明实施例提供的JDA整个算法流程示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)迁移学习(Transfer Learning)：指利用数据、任务或模型之间的相似性，将在旧领域学习过的模型，应用于新领域的一种学习过程。简单地理解，相似性是迁移的基础，发生迁移的两场景需要有一定相似性，但同时存在差异，导致运用源域数据训练的模型不能直接用于目标域预测。迁移学习用于解决这一类问题，它放宽了机器学习中“训练测试数据服从同分布”假设，在目标域只有少量数据标注(不足以训练一个分类器)的情况下，结合源域(有大量标签样本)，也能训练出一个性能良好的分类器。

2)领域(Domain)：迁移学习中领域由数据和生成这些数据的概率分布组成，一般用D来表示域，P表示一个概率分布。迁移学习中有两个基本领域，分别为：源域(SourceDomain)和目标域(Target Domain)。源域是要迁移的对象，一般有充足的标签样本；目标域是最终期望得到的(需要赋予标签信息)对象。迁移学习是指完成从源域到目标域知识的迁移。

3)任务(Task)：迁移学习中的学习目标，由标签和函数两部分组成。根据源域和目标域有无标签，可以分为归纳式迁移，直推式迁移，以及无监督迁移。源域中有大量标签，目标域中有少量标签(不足以训练分类器)属于归纳式迁移学习范围。

4)最大均值差异(MMD，Maximum Mean Discrepancy)：迁移学习中一种常见的距离衡量方法。它主要用来度量两个不同但相关的分布间差异(源域和目标域之间的差异)。简单地理解，MMD描述的是两个分布映射后的均值之差。

5)图像识别：利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对象的技术，是应用深度学习算法的一种实践应用。图像识别技术一般分为人脸识别与物品识别，人脸识别主要运用在安全检查、身份核验与移动支付中；物品识别主要运用在物品流通过程中，特别是无人货架、智能零售柜等无人零售领域。

6)目标检测：也叫目标提取，是一种基于目标几何和统计特征的图像分割，它将目标的分割和识别合二为一，其准确性和实时性是整个***的一项重要能力。尤其是在复杂场景中，需要对多个目标进行实时处理时，目标自动提取和识别就显得特别重要。随着计算机技术的发展和计算机视觉原理的广泛应用，利用计算机图像处理技术对目标进行实时跟踪研究越来越热门，对目标进行动态实时跟踪定位在智能化交通***、智能监控***、军事目标检测及医学导航手术中手术器械定位等方面具有广泛的应用价值。

7)语音识别：让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。

本发明实施例记载的分类器可以应用于各种分类领域，例如可以是图像识别神经网络、目标检测神经网络、语音识别神经网络、人脸检测神经网络、违约检测等分类领域，即本发明实施例中的分类器并不局限于某种分类领域。

为至少解决相关技术的上述技术问题，本发明实施例提供一种分类器的生成方法、装置、电子设备和存储介质，能够将迁移学***板电脑，台式计算机，移动设备(例如，移动电话，个人数字助理)等各种类型的用户终端，例如手持终端，根据用户在手持终端上输入的源域的样本、源域的样本对应的标签、以及目标域的样本，获得对应目标域的分类器，并向用户提供对应目标域的分类器以便进行后续的分类操作。

作为示例，参见图1，图1是本发明实施例提供的分类器的生成***10的应用场景示意图，终端200通过网络300连接服务器100，网络300可以是广域网或者局域网，又或者是二者的组合。

在一些实施例中，终端200本地执行本发明实施例提供的分类器的生成方法来完成根据用户输入的源域的样本、源域的样本对应的标签、以及目标域的样本，得到对应目标域的分类器，例如，在终端200上安装分类器生成助手，用户在分类器生成助手中，输入源域的样本、源域的样本对应的标签、以及目标域的样本，终端200根据输入的源域的样本、源域的样本对应的标签、以及目标域的样本，得到对应目标域的分类器，并将对应目标域的分类器显示在终端200的显示界面210上，以便用户根据对应目标域的分类器进行图像识别、目标检测、语音识别等应用。

在一些实施例中，终端200也可以通过网络300向服务器100发送用户在终端100上输入的源域的样本、源域的样本对应的标签、以及目标域的样本，并调用服务器100提供的分类器的生成功能，服务器100通过本发明实施例提供的分类器的生成方法获得对应目标域的分类器，例如，在终端200上安装分类器生成助手，用户在分类器生成助手中，输入源域的样本、源域的样本对应的标签、以及目标域的样本，终端通过网络300向服务器100发送源域的样本、源域的样本对应的标签、以及目标域的样本，服务器100接收到该源域的样本、源域的样本对应的标签、以及目标域的样本后，通过对该源域的样本、源域的样本对应的标签、以及目标域的样本进行一系列处理，得到对应目标域的分类器，并返回对应目标域的分类器至分类器生成助手，将对应目标域的分类器显示在终端200的显示界面210上，或者，服务器100直接给出对应目标域的分类器，以便用户根据对应目标域的分类器进行图像识别、目标检测、语音识别等应用。

在一个实施场景中，为了得到针对图像识别的分类器，服务器或者终端可以基于源域的图像样本以及目标域的图像样本，构建源域与目标域的最大均值差异；将源域与目标域的最大均值差异进行分离，得到分离后的均值差异；根据分离后的均值差异对优化目标进行分解，得到针对源域的变换矩阵；基于源域的图像样本以及图像样本对应的标签、目标域的图像样本、以及针对源域的变换矩阵，对目标域的图像样本进行预测，得到目标域的图像样本所对应的标签；基于源域的图像样本、以及目标域的图像样本所对应的标签，生成对应目标域的分类器，以便后续可以根据对应目标域的分类器对目标域的图像进行分类，得到目标域的图像所对应的标签，例如根据对应目标域的分类器对目标域的图像进行分类，得到目标域的图像所对应的标签(小轿车、汽车、公交车等)。通过将最大均值差异进行分离，降低计算复杂度，从而可以对优化目标进行分解，得到变换矩阵，否则计算机在计算过程中出现内存溢出，无法进行迁移学习，也就无法生成对应目标域的分类器，无法识别图像。

在一个实施场景中，为了得到针对目标检测的分类器，服务器或者终端可以基于源域的目标对象样本以及目标域的目标对象样本，构建源域与目标域的最大均值差异；将源域与目标域的最大均值差异进行分离，得到分离后的均值差异；根据分离后的均值差异对优化目标进行分解，得到针对源域的变换矩阵；基于源域的目标对象样本以及目标对象样本对应的标签、目标域的目标对象样本、以及针对源域的变换矩阵，对目标域的目标对象样本进行预测，得到目标域的目标对象样本所对应的标签；基于源域的目标对象样本、以及目标域的目标对象样本所对应的标签，生成对应目标域的分类器，以便后续可以根据对应目标域的分类器对目标域的目标对象进行分类，得到目标域的图像所对应的标签，从而实现目标检测，例如根据对应目标域的分类器对目标域的目标对象进行分类，得到目标域的目标对象所对应的标签(树木、行人、车辆等)，从而检测出行人。通过将最大均值差异进行分离，降低计算复杂度，从而可以对优化目标进行分解，得到变换矩阵，否则计算机在计算过程中出现内存溢出，无法进行迁移学习，也就无法生成对应目标域的分类器，无法识别出目标对象，也就无法实现目标检测。

在一个实施场景中，为了得到针对语音识别的分类器，服务器或者终端可以基于源域的语音样本以及目标域的语音样本，构建源域与目标域的最大均值差异；将源域与目标域的最大均值差异进行分离，得到分离后的均值差异；根据分离后的均值差异对优化目标进行分解，得到针对源域的变换矩阵；基于源域的语音样本以及语音样本对应的标签、目标域的语音样本、以及针对源域的变换矩阵，对目标域的语音样本进行预测，得到目标域的语音样本所对应的标签；基于源域的语音样本、以及目标域的语音样本所对应的标签，生成对应目标域的分类器，以便后续可以根据对应目标域的分类器对目标域的语音进行分类，得到目标域的语音所对应的标签，从而实现语音识别，例如根据对应目标域的分类器对目标域的语音进行分类，得到目标域的语音所对应的标签(小明、小红、小强等)，从而检测出目标域的语音所对应的人。通过将最大均值差异进行分离，降低计算复杂度，从而可以对优化目标进行分解，得到变换矩阵，否则计算机在计算过程中出现内存溢出，无法进行迁移学习，也就无法生成对应目标域的分类器，无法识别出语音。

在一个实施场景中，为了得到针对人脸识别的分类器，服务器或者终端可以基于源域的人脸样本以及目标域的人脸样本，构建源域与目标域的最大均值差异；将源域与目标域的最大均值差异进行分离，得到分离后的均值差异；根据分离后的均值差异对优化目标进行分解，得到针对源域的变换矩阵；基于源域的人脸样本以及人脸样本对应的标签、目标域的人脸样本、以及针对源域的变换矩阵，对目标域的人脸样本进行预测，得到目标域的人脸样本所对应的标签；基于源域的人脸样本、以及目标域的人脸样本所对应的标签，生成对应目标域的分类器，以便后续可以根据对应目标域的分类器对目标域的人脸进行分类，得到目标域的人脸所对应的标签，从而实现人脸识别，例如根据对应目标域的分类器对目标域的人脸进行分类，得到目标域的人脸所对应的标签(小明、小红、小强等)，从而检测出目标域的人脸所对应的人。通过将最大均值差异进行分离，降低计算复杂度，从而可以对优化目标进行分解，得到变换矩阵，否则计算机在计算过程中出现内存溢出，无法进行迁移学习，也就无法生成对应目标域的分类器，无法识别出人脸。

继续说明本发明实施例提供的分类器的生成设备的结构，分类器的生成设备可以是各种终端，例如手机、电脑等，也可以是如图1示出的服务器100。

参见图2，图2是本发明实施例提供的分类器的生成设备500的结构示意图，图2所示的分类器的生成设备500包括：至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。分类器的生成设备500中的各个组件通过总线***540耦合在一起。可理解，总线***540用于实现这些组件之间的连接通信。总线***540除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线***540。

处理器510可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器550包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本发明实施例描述的存储器550旨在包括任意适合类型的存储器。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。

在一些实施例中，存储器550能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作***551，包括用于处理各种基本***服务和执行硬件相关任务的***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块552，用于经由一个或多个(有线或无线)网络接口520到达其他计算设备，示例性的网络接口520包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

显示模块553，用于经由一个或多个与用户接口530相关联的输出装置531(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作***设备和显示内容和信息的用户接口)；

输入处理模块554，用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本发明实施例提供的分类器的生成装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的分类器的生成装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的分类器的生成方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Pro grammable Gate Array)或其他电子元件。

在另一些实施例中，本发明实施例提供的分类器的生成装置可以采用软件方式实现，图2示出了存储在存储器550中的分类器的生成装置555，其可以是程序和插件等形式的软件，并包括一系列的模块，包括构建模块5551、分离模块5552、处理模块5553、预测模块5554以及生成模块5555；其中，构建模块5551、分离模块5552、处理模块5553、预测模块5554以及生成模块5555用于实现本发明实施例提供的分类器的生成方法。

根据上文可以理解，本发明实施例提供的分类器的生成方法可以由各种类型的分类器的生成设备实施，例如智能终端和服务器等。

下面结合本发明实施例提供的服务器的示例性应用和实施，说明本发明实施例提供的分类器的生成方法。参见图3，图3是本发明实施例提供的分类器的生成方法的流程示意图，结合图3示出的步骤进行说明。

在步骤101中，基于源域的样本以及目标域的样本，构建源域与目标域的最大均值差异。

为了对源域和目标域进行迁移学习，需要根据源域的样本以及目标域的样本，构建源域与目标域的最大均值差异，以便后续根据最大均值差异进行生成针对目标域的分类器。

参见图4，图4是本发明实施例提供的一个可选的流程示意图，在一些实施例中，图4示出图3中的步骤101可以通过图4示出的步骤1011至步骤1012实现。

在步骤1011中，通过映射空间分别对源域的样本以及目标域的样本进行映射处理，对应得到映射后的源域样本以及映射后的目标域样本。

为了生成源域与目标域的最大均值差异，可以先通过映射空间分别对源域的样本X_s以及目标域的样本X_t进行映射处理，从而得到映射后的源域样本

以及映射后的目标域样本

其中，表示映射空间。

在步骤1012中，分别对映射后的源域样本以及映射后的目标域样本进行均值处理，对应得到源域样本的均值以及目标域样本的均值，并将源域样本的均值与目标域样本的均值的差，确定为源域与目标域的最大均值差异。

在对源域的样本X_s以及目标域的样本X_t进行映射处理后，可以分别对映射后的源域样本

以及映射后的目标域样本

进行均值处理，分别得到源域样本的均值以及目标域样本的均值，并将源域样本的均值与目标域样本的均值的差，确定为源域与目标域的最大均值差异：

其中，n_s表示源域样本X_s的数量，n_t表示源域样本X_t的数量。

在步骤102中，将源域与目标域的最大均值差异进行分离，得到分离后的均值差异。

由于源域与目标域的最大均值差异是一个大规模的矩阵，为了减少计算量，可以将源域与目标域的最大均值差异进行分离，得到分离后的均值差异，从而避免在计算大矩阵的过程中内存溢出，导致无法进行后续分类操作。

在一些实施例中，将源域与目标域的最大均值差异进行分离，得到分离后的均值差异，包括：将矩阵形式的最大均值差异进行分离，得到向量形式的分离后的均值差异。

由于最大均值差异为矩阵形式的数据，为了减少计算量，可以将矩阵形式的最大均值差异转化为向量形式的分离后的均值差异。

在一些实施例中，将源域与目标域的最大均值差异进行分离，得到分离后的均值差异，包括：将最大均值差异进行矩阵分解，得到两个分离后的均值差异的笛卡尔积。

其中，最大均值差异为N*N的矩阵，分离后的均值差异为N*1的向量，N为源域的样本数量以及目标域的样本数量之和，N为大于2的自然数。

在步骤103中，根据分离后的均值差异对优化目标进行分解，得到针对源域的变换矩阵。

经过分离后的均值差异，可以极大地减小计算量，从而可以分离后的均值差异对优化目标进行分解，得到针对源域的变换矩阵，以便根据针对源域的变换矩阵对目标域的样本进行预测，生成目标域样本对应的标签。

参见图5，图5是本发明实施例提供的一个可选的流程示意图，在一些实施例中，图5示出图3中的步骤103可以通过图5示出的步骤1031至步骤1032实现。

在步骤1031中，将源域的样本以及目标域的样本进行组合，得到特征矩阵。

为了能够根据分离后的均值差异，得到针对源域的变换矩阵，需要对源域的样本以及目标域的样本进行融合，也就是将源域的样本以及目标域的样本进行组合，从而得到包含源域的样本以及目标域的样本的特征矩阵。

在步骤1032中，根据特征矩阵以及分离后的均值差异对优化目标进行广义特征值分解，得到针对源域的变换矩阵。

在得到包含源域的样本以及目标域的样本的特征矩阵后，可以根据特征矩阵以及分离后的均值差异对优化目标进行广义特征值分解，从而得到针对源域的变换矩阵。

在一些实施例中，根据特征矩阵以及分离后的均值差异对优化目标进行广义特征值分解，得到针对源域的变换矩阵，包括：将特征矩阵以及分离后的均值差异相乘，得到中间矩阵；基于中间矩阵，对优化目标进行广义特征值分解，得到针对源域的变换矩阵。

为了减小优化目标中涉及最大均值差异的计算量，可以将特征矩阵以及分离后的均值差异相乘，得到中间矩阵，并根据中间矩阵，计算优化目标，从而得到针对源域的变换矩阵。

参见图6，图6是本发明实施例提供的一个可选的流程示意图，在一些实施例中，图6示出图3中的步骤101-103可以通过图6示出的步骤101D-103D实现。

在步骤101D中，基于源域的第c类样本以及目标域的第c类样本，构建源域与目标域的第c类样本的最大均值差异。

其中，c小于或者等于C，C为源域的样本类型的总数，且c、C均为自然数，并且源域的样本类型与目标域的样本类型相同、即源域与目标域是相似的，例如源域的样本类型为用户违约或者用户未违约，且目标域的样本类型也为用户违约或者用户未违约。

在一些实施例中，通过映射空间分别对源域的第c类样本以及目标域的第c类样本进行映射处理，对应得到映射后的源域的第c类样本以及目标域的第c类样本；分别对映射后的源域的第c类样本以及目标域的第c类样本进行均值处理，对应得到源域的第c类样本的均值以及目标域的第c类样本的均值，并将均值的差，确定为源域的第c类样本与目标域的第c类样本的最大均值差异。

在步骤102D中，将源域与目标域的第c类样本的最大均值差异进行分离，得到分离后的第c类样本的均值差异。

在一些实施例中，将矩阵形式的源域与目标域的第c类样本的最大均值差异进行分离，得到向量形式的分离后的第c类样本的最大均值差异。

在一些实施例中，将第c类样本的最大均值差异进行矩阵分解，得到两个分离后的第c类样本的均值差异的笛卡尔积，其中，第c类样本的最大均值差异为M*M的矩阵，分离后的均值差异为M*1的向量，其中，M为源域的第c类样本数量以及目标域的第c类样本数量之和，M为大于2的自然数。

在步骤103D中，将C个分离后的样本的均值差异进行求和，得到分离后的均值差异的总和；根据总和对优化目标进行分解，得到针对源域的变换矩阵。

将得到的第1类样本的最大均值差异、第2类样本的最大均值差异、……、第c类样本的最大均值差异进行求和，得到分离后的均值差异的总和，并根据总和对优化目标进行分解，得到针对源域的变换矩阵。

在一些实施例中，中间矩阵为U_c＝X·e_c，X为特征矩阵，e_c为分离后的第c类样本的均值差异；基于中间矩阵，对优化目标进行广义特征值分解，得到针对源域的变换矩阵，包括：确定优化目标的表示：

且满足A^TXHX^TA＝I，其中，C为源域的样本类型的总数，tr为矩阵的迹，A为变换矩阵，M_c为第c类样本的最大均值差异，λ为正则化项系数，H为中心矩阵，I为单位矩阵；将优化目标中的XHX^T替换为

基于

对优化目标按照以下公式进行广义特征值分解，得到针对源域的变换矩阵A：

其中，为拉格朗日乘子。

首先确定出优化目标，其中优化目标中的XHX^T为大矩阵连乘，而中间矩阵为U_c＝X·e_c相对于XHX^T为小矩阵，因此，可以将优化目标中的XHX^T替换为

从而基于

可以对优化目标进行广义特征值分解，得到针对源域的变换矩阵A。

在步骤104中，基于源域的样本以及样本对应的标签、目标域的样本、以及针对源域的变换矩阵，对目标域的样本进行预测，得到目标域的样本所对应的标签。

由于源域的样本有对应的标签，而目标域的样本没有对应的标签。因此，需要根据源域的样本以及样本对应的标签、目标域的样本、以及针对源域的变换矩阵，对目标域的样本进行预测，从而得到目标域的样本所对应的标签。

在一些实施例中，基于源域的样本以及样本对应的标签、目标域的样本、以及针对源域的变换矩阵，对目标域的样本进行预测，得到目标域的样本所对应的标签，包括：根据源域的样本以及针对源域的变换矩阵，得到变换后的源域样本；根据变换后的源域样本以及源域样本对应的标签，构建分类器的分类模型；通过分类模型对目标域的样本进行预测，得到目标域的样本所对应的标签。

在得到针对源域的变换矩阵后，可以基于针对源域的变换矩阵对源域的样本进行变换，得到变换后的源域样本。根据变换后的源域样本以及源域样本对应的标签，构建分类器的分类模型、即根据变换后的源域样本以及源域样本对应的标签建模。建模完成后，可以通过分类模型对目标域的样本进行预测，得到目标域的样本属于某类标签的概率，当某类标签的概率大于或者等于设定阈值时，则确定目标域的样本属于某类标签，其中，该标签为伪标签，并不是人工进行定义的标签，设定阈值为用户预先在服务器设定的参考值。

在步骤105中，基于源域的样本、以及目标域的样本所对应的标签，生成对应目标域的分类器。

在对目标域的样本进行预测，得到目标域的样本所对应的标签后，可以根据源域的样本、以及目标域的样本所对应的标签，生成对应目标域的分类器，以便后续对目标域的待分类的数据进行分类。

在一些实施例中，基于源域的样本、以及目标域的样本所对应的标签，生成对应目标域的分类器，包括：基于源域的样本、以及目标域的样本所对应的标签对分类器进行训练，得到对应目标域的分类器。

在得到目标域的样本所对应的标签后，可以通过神经网络的训练方法，基于源域的样本、以及目标域的样本所对应的标签对分类器进行训练，从而得到训练好的对应目标域的分类器，即通过目标域的样本所对应的标签更新源域与目标域的最大均值差异，并根据源域与目标域的最大均值差异迭代求解得到针对源域的变换矩阵，从而完成根据源域的样本、以及目标域的样本所对应的标签对分类器的训练，生成针对目标域的分类器，以便后续对目标域的待分类的数据进行分类，其中，分类器属于神经网络模型。

参见图7，图7是本发明实施例提供的一个可选的流程示意图，图7示出了将分类器的生成方法应用于金融场景中，以对用户进行分类，确定用户是否违约，在一些实施例中，图7示出图3中的步骤101-105可以通过图7示出的步骤101E-105E实现。

在步骤101E中，基于第一金融场景中的第一用户行为特征以及第二金融场景中的第二用户行为特征，构建第一金融场景与第二金融场景的最大均值差异。

为了对第一金融场景和第二金融场景进行迁移学习，需要根据第一金融场景中的第一用户行为特征以及第二金融场景中的第二用户行为特征，构建第一金融场景与第二金融场景的最大均值差异，以便后续根据最大均值差异进行生成针对第一金融场景的分类器。其中，第一用户并不是特指某一个用户，而是第一金融场景中的多个用户，第二用户并不是特指某一个用户，而是第二金融场景中的多个用户。

在步骤102E中，将第一金融场景与第二金融场景的最大均值差异进行分离，得到分离后的均值差异。

由于第一金融场景与第二金融场景的最大均值差异是一个大规模的矩阵，为了减少计算量，可以将第一金融场景与第二金融场景的最大均值差异进行分离，得到分离后的均值差异，从而避免在计算大矩阵的过程中内存溢出，导致无法进行后续是否违约的分类操作。

在步骤103E中，根据分离后的均值差异对优化目标进行分解，得到针对第一金融场景的变换矩阵。

经过分离后的均值差异，可以极大地减小计算量，从而可以分离后的均值差异对优化目标进行分解，得到针对第一金融场景的变换矩阵，以便根据针对第一金融场景的变换矩阵对第二金融场景中的第二用户进行预测，生成第二金融场景中的第二用户对应的违约标签。

在步骤104E中，基于第一用户行为特征以及第一用户对应的违约标签、第二用户行为特征、以及针对第一金融场景的变换矩阵，对第二金融场景的第二用户进行违约预测，得到第二金融场景的第二用户所对应的违约标签。

由于第一用户有对应的违约标签，而第二用户没有对应的违约标签。因此，需要根据第一用户以及第一用户对应的违约标签、第二金融场景中的第二用户行为特征、以及针对第一金融场景的变换矩阵，对第二用户进行预测，从而得到第二金融场景中的第二用户所对应的违约标签(是否违约)。

在步骤105E中，基于第一金融场景的第一用户行为特征、以及第二用户所对应的违约标签，生成对应第二金融场景的分类器。

在对第二金融场景中的第二用户进行预测，得到第二金融场景中的第二用户所对应的违约标签后，可以根据第一金融场景中的第一用户的用户行为特征、以及第二金融场景中的第二用户所对应的标签，生成对应第二金融场景的分类器，以便后续对第二金融场景的用户进行分类。

至此已经结合本发明实施例提供的服务器的示例性应用和实施，说明本发明实施例提供的分类器的生成方法，下面继续说明本发明实施例提供的分类器的生成装置555中各个模块配合实现分类器的生成的方案。

构建模块5551，用于基于源域的样本以及目标域的样本，构建所述源域与所述目标域的最大均值差异；

分离模块5552，用于对所述源域与所述目标域的最大均值差异进行分离；

处理模块5553，用于根据分离得到的均值差异对优化目标进行分解，得到针对所述源域的变换矩阵；

预测模块5554，用于基于所述源域的样本以及样本对应的标签、所述目标域的样本、以及所述针对所述源域的变换矩阵，对所述目标域的样本进行预测，得到所述目标域的样本所对应的标签；

生成模块5555，用于基于所述源域的样本、以及所述目标域的样本所对应的标签，生成对应所述目标域的分类器。

上述技术方案中，所述构建模块5551还用于通过映射空间分别对所述源域的样本以及所述目标域的样本进行映射处理，对应得到映射后的源域样本以及映射后的目标域样本；分别对所述映射后的源域样本以及所述映射后的目标域样本进行均值处理，对应得到所述源域样本的均值以及所述目标域样本的均值，并将所述源域样本的均值与所述目标域样本的均值的差，确定为所述源域与所述目标域的最大均值差异。

上述技术方案中，所述分离模块5552还用于将矩阵形式的所述最大均值差异进行分离，得到向量形式的分离后的均值差异。

上述技术方案中，所述最大均值差异为N*N的矩阵，其中，所述N为所述源域的样本数量以及目标域的样本数量之和，N为大于2的自然数；所述分离模块5552还用于将所述最大均值差异进行矩阵分解，得到两个分离后的均值差异的笛卡尔积；其中，分离后的均值差异为N*1的向量。

上述技术方案中，所述处理模块5553还用于将所述源域的样本以及所述目标域的样本进行组合，得到特征矩阵；根据所述特征矩阵以及所述分离后的均值差异对优化目标进行广义特征值分解，得到针对所述源域的变换矩阵。

上述技术方案中，所述处理模块5553还用于将所述特征矩阵以及所述分离后的均值差异相乘，得到中间矩阵；基于所述中间矩阵，对优化目标进行广义特征值分解，得到针对所述源域的变换矩阵。

上述技术方案中，所述构建模块5551还用于基于源域的第c类样本以及目标域的第c类样本，构建所述源域与所述目标域的第c类样本的最大均值差异，其中，c小于或者等于C，C为所述源域的样本类型的总数，且c、C均为自然数；

所述分离模块5552还用于将所述源域与所述目标域的第c类样本的最大均值差异进行分离，得到分离后的第c类样本的均值差异；

所述处理模块5553还用于将C个分离后的样本的均值差异进行求和，得到分离后的均值差异的总和；根据所述总和对优化目标进行分解，得到针对所述源域的变换矩阵。

上述技术方案中，所述中间矩阵为U_c＝X·e_c，其中，X为所述特征矩阵，e_c为所述分离后的第c类样本的均值差异；处理模块5553还用于确定优化目标的表示：且满足A^TXHX^TA＝I，其中，C为所述源域的样本类型的总数，tr为矩阵的迹，A为变换矩阵，M_c为所述第c类样本的最大均值差异，λ为正则化项系数，H为中心矩阵，I为单位矩阵；将所述优化目标中的XHX^T替换为

基于

其中，

为拉格朗日乘子。

上述技术方案中，所述预测模块5554还用于根据所述源域的样本以及所述针对所述源域的变换矩阵，得到变换后的源域样本；根据所述变换后的源域样本以及所述源域样本对应的标签，构建所述分类器的分类模型；通过所述分类模型对所述目标域的样本进行预测，得到所述目标域的样本所对应的标签。

上述技术方案中，所述生成模块5555还用于基于所述源域的样本、以及所述目标域的样本所对应的标签对所述分类器进行训练，得到对应所述目标域的分类器。

上述技术方案中，所述源域的样本为第一金融场景中的第一用户行为特征，所述目标域的样本为第二金融场景中的第二用户行为特征；所述构建模块5551还用于基于所述第一金融场景中的第一用户行为特征以及所述第二金融场景中的第二用户行为特征，构建所述第一金融场景与所述第二金融场景的最大均值差异；所述预测模块5554还用于基于所述第一用户行为特征以及所述第一用户对应的违约标签、所述第二用户行为特征、以及针对所述第一金融场景的变换矩阵，对所述第二金融场景的第二用户进行违约预测，得到所述第二金融场景的第二用户所对应的违约标签；

所述生成模块5555还用于基于所述第一金融场景的第一用户行为特征、以及所述第二用户所对应的违约标签，生成对应所述第二金融场景的分类器。

基于上述对分类器的生成方法以及结构的说明，接下来对本发明实施例提供的待分类数据的分类设备的示例性应用，作为示例，参见图8，图8是本发明实施例提供的待分类数据的分类***20的应用场景示意图，终端200通过网络300连接服务器100，网络300可以是广域网或者局域网，又或者是二者的组合。

在一些实施例中，终端200本地执行本发明实施例提供的待分类数据的分类方法来完成根据用户输入的目标域中的待分类数据，得到对应待分类数据的标签，例如，在终端200上安装分类助手，用户在分类助手中，输入目标域中的待分类数据，终端200根据输入的目标域中的待分类数据，得到对应待分类数据的标签，并将对应待分类数据的标签显示在终端200的显示界面210上。

在一些实施例中，终端200也可以通过网络300向服务器100发送用户在终端100上输入的目标域中的待分类数据，并调用服务器100提供的待分类数据的分类功能，服务器100通过本发明实施例提供的待分类数据的分类方法获得对应待分类数据的标签，例如，在终端200上安装分类助手，用户在分类助手中，输入目标域中的待分类数据，终端通过网络300向服务器100发送目标域中的待分类数据，服务器100接收到该目标域中的待分类数据后，通过对该目标域中的待分类数据进行分类处理，得到对应待分类数据的标签，并返回对应待分类数据的标签至分类器生成助手，将对应待分类数据的标签显示在终端200的显示界面210上，或者，服务器100直接给出对应待分类数据的标签。

基于上述待分类数据的分类***进行说明。参见图9，图9是本发明实施例提供的待分类数据的分类设备600的结构示意图，图9所示的待分类数据的分类设备600包括：至少一个处理器610、存储器650、至少一个网络接口620和用户接口630。其中，处理器610、存储器650、至少一个网络接口620和用户接口630的功能分别与处理器510、存储器550、至少一个网络接口520和用户接口530的功能类似，即输出装置631、输入装置632的功能与输出装置531、输入装置532的功能类似，操作***651、网络通信模块652、显示模块653、输入处理模块654的功能分别与操作***551、网络通信模块552、显示模块553、输入处理模块554的功能类似，不做赘述。

在另一些实施例中，本发明实施例提供的待分类数据的分类装置可以采用软件方式实现，图9示出了存储在存储器650中的待分类数据的分类装置655，其可以是程序和插件等形式的软件，并包括一系列的模块，包括确定模块6551以及分类模块6552；其中，确定模块6551以及分类模块6552用于实现本发明实施例提供的待分类数据的分类方法。

根据上文可以理解，本发明实施例提供的待分类数据的分类方法可以由各种类型的待分类数据的分类设备实施，例如智能终端和服务器等。

下面结合本发明实施例提供的服务器的示例性应用和实施，说明本发明实施例提供的待分类数据的分类方法。参见图10，图10是本发明实施例提供的待分类数据的分类方法的流程示意图，结合图10示出的步骤进行说明。

在步骤201中，确定目标域中的待分类数据。

在步骤202中，通过对应目标域的分类器对待分类数据进行分类，得到对应待分类数据的标签。

在通过上述分类器的生成方法(基于源域的样本以及目标域的样本，构建源域与目标域的最大均值差异；将源域与目标域的最大均值差异进行分离，得到分离后的均值差异；根据分离后的均值差异对优化目标进行分解，得到针对源域的变换矩阵；基于源域的样本以及样本对应的标签、目标域的样本、以及针对源域的变换矩阵，对目标域的样本进行预测，得到目标域的样本所对应的标签；基于目标域的样本、以及目标域的样本所对应的标签，生成对应目标域的分类器)生成对应目标域的分类器后，可以根据对应目标域的分类器对目标域中的待分类的数据进行分类。因此，可以首先确定出目标域中的待分类数据，然后通过对应目标域的分类器对待分类数据进行分类，得到对应待分类数据的标签。

在一些实施例中，源域为第一金融场景，目标域为第二金融场景，目标域中的待分类数据为第二金融场景中的用户行为特征；确定目标域中的待分类数据，包括：确定目标域中的第二金融场景中的用户行为特征；

通过对应目标域的分类器对待分类数据进行分类，得到对应待分类数据的标签，包括：通过对应第二金融场景的分类器对第二金融场景中的用户行为特征进行分类，得到对应第二金融场景中的用户行为特征的违约标签。

至此已经说明本发明实施例提供的待分类数据的分类方法，下面继续说明本发明实施例提供的待分类数据的分类装置655中各个模块配合实现待分类数据的分类的方案。

确定模块6551，用于确定目标域中的待分类数据；

分类模块6552，用于通过对应目标域的分类器对所述待分类数据进行分类，得到对应所述待分类数据的标签。

这里需要指出的是：以上涉及装置的描述，与上述方法描述是类似的，同方法的有益效果描述，不做赘述，对于本发明实施例所述装置中未披露的技术细节，请参照本发明方法实施例的描述。

下面，将说明本发明实施例在一个实际的应用场景中的示例性应用。

MMD描述的是两分布映射后的均值之差，数学描述如公式(1)所示：

其中，n_s表示源域X_s的样本数量，n_t表示目标域X_t的样本数量，

表示特征映射函数、即将样本特征映射到另一空间(例如使用核矩阵将样本特征映射到再生希尔伯特空间)。在求解MMD距离过程中，将距离平方展开后将出现二次项乘积部分，通过引入核矩阵K和一个MMD矩阵M，将上述距离(公式(1))变换为tr(KL)-λtr(K)进行求解，其中M可表示如下公式(2)：

其中，D_s表示源域(包括源域的样本数据和样本的概率分布)，D_t表示目标域(包括目标域的样本数据和样本的概率分布)。

领域自适应是迁移学习中最广泛的问题之一，它可运用于源域中有样本标签、目标域无标签样本的场景中。实际中，由于缺乏有标签样本，只能找到其他相似场景下的有标签样本替代建模，如果将相似场景下有标签样本建立的模型直接用于目标域预测，时常会出现因两场景下数据分布差异造成预测结果不准确的问题。因此，需要对源域模型进行一定修正，使它能成功用于目标域预测且保持良好的预测性能。联合分布自适应(JDA，JointDistribution Adaptation)是领域自适应中典型方法之一，它由经典方法迁移成分分析(TCA，Trans fer Component Analysis)发展而来。JDA通过特征变换，寻找源域和目标域的公共特征空间，使得两域边缘分布、条件分布差异尽可能小，从而完成从源域到目标域上知识的迁移。JDA的优化总目标是保证方差不变情况下，使得边缘分布和条件分布的MMD距离之和最小，其计算过程如公式(3)所示：

其中，C为源域的样本类型的总数，tr为矩阵的迹，A为变换矩阵，M_c为第c类样本的最大均值差异，λ为正则化项系数，H为中心矩阵，I为单位矩阵，X为特征矩阵。

因目标域缺乏标签信息，计算目标域的条件分布是JDA中的关键技术。可以将类条件概率近似条件概率分布，即P(Y_t|X_t)≈P(X_t|Y_t)，并结合伪标签策略，用源域数据训练分类器，将目标域上的预测结果作为目标域标签，通过不断迭代提高伪标签准确性。

JDA的求解过程与主成分分析(PCA，Principal Component Analysis)类似，通过引入拉格朗日乘子将上述最小值优化问题转化为广义特征值分解求变换矩阵A。利用求解得到的变换矩阵A，将源域和目标域数据映射到公共特征子空间，在公有空间中运用机器学习方法建模并完成预测。JDA整个算法流程如图11所示，其中数据采集为采集源域的样本以及样本对应的标签，数据预处理为对源域以及目标域的数据进行归一化处理，X表示原始特征，A表示矩阵变换，Z_s表示变换后的特征，Y_s表示源域标签，通过目标域预测更新伪标签，该伪标签作用在于MMD迭代求解变换矩阵A，从而实现训练分类器，最终可以实现在目标域上完成分类。其中，JDA找到的特征变换既可以是线性的，也可以是非线性变换，可根据实际需求进行确定。

将JDA方法运用到实际运用中，需要通过广义特征值分解求变换矩阵A，即通过公式(4)求前k个特征值(k为新特征空间维数)：

其中，

为拉格朗日乘子，λ为正则化项系数，M_c可由公式(5)计算得到：

其中，n_c、m_c分别表示源域和目标域中来自第c类的样本数，

M＝M/norm(M)。在特征值分解求解过程中主要涉及计算矩阵XMX^T，其中X是一个w×n矩阵(w表示源域和目标域特征维数，n表示源域与目标域样本数之和)，M是一个n×n方阵，其连乘后结果为w×w矩阵。通常情况下，特征维度将远远小于样本总数、即w＜＜n。

在计算变换矩阵A，会遇到源域和目标域数据量规模较大，X(w×n)和M(n×n)两个较大规模矩阵相乘问题。当样本数增加到一定程度时，XMX^T计算过程中会出现内存溢出导致程序报错，以及JDA算法无法正常运行的情况。

本发明实施例通过将M_c矩阵分解为两个n×1矢量的笛卡尔积，避免了两个较大规模矩阵直接相乘引起的内存溢出问题，增大了单机环境下可计算的数据规模，从而使得在源域和目标域样本数量增多时单机环境下JDA建模求解顺利进行。

以金融风控场景下违约预测为例，生成对违约的预测方案如下所示：

1)方案目标：建立一套评价体系对金融场景A下用户违约概率进行预测。由于金融场景A下的缺少有标签样本，只能搜集到大量无标签样本，另有一个与金融场景A相似金融场景B，可以收集到金融场景B下大量有标签样本。因此，可以利用已有数据训练模型用于金融场景A下违约概率预测，且模型效果需满足一定风控要求。

2)训练环节：收集金融场景A下无标签样本与金融场景B下有标签样本，两场景下样本总数约为10万条。运用联合分布自适应方法建立数学模型，通过减小两场景下数据分布差异提高模型在金融场景A下违约概率预测的准确性。在JDA求解广义特征值分解过程中，按照发明实施例对XMX^T计算过程进行优化，保证求解过程顺利进行，求得变换矩阵A。运用A矩阵，将源域(金融场景B数据)和目标域(金融场景A数据)映射到公有特征子空间，并在新的特征子空间建立逻辑回归模型，实现对金融场景A下违约概率的预测。

3)效果评估：未使用本发明实施例的方法之前，在单机环境下，当金融场景A和金融场景B两场景下样本总数超过一定数量后，时常出现计算过程内存溢出导致程序报错“memory error”。运用本发明实施例的方法优化XMX^T矩阵运算过程后，即使在较大规模数据下也能正常训练JDA+分类器模型，并在测试集上对A场景下违约概率进行预测，发现模型有较高的KS和AUC(用于准确性的判定)。

本发明实施例是利用MMD矩阵M_c特殊形式，将M_c分解成两个n×1矢量的笛卡尔积，如公式(6)所示：

其中，

n_c、m_c分别表示源域和目标域中来自第c类的样本数。

同时，M矩阵及其范数都可以由e_c经过计算得到，如公式(7)、(8)所示：

对矩阵XMX^T进行转化，计算过程如公式(9)所示：

其中，α_c为范数归一化后产生的影响系数。

计算XMX^T的具体步骤如下所示：

设源域数据

目标域数据w表示源域和目标域输入X的特征维数，总样本数n＝n_s+n_t，计算

1)将M_c矩阵分解成两个矢量n×1和1×n的向量积，如公式(10)所示：

其中，

2)计算中间矩阵U_c＝X·e_c(U_c表示形状为w×1向量)，从而得到

3)确定M矩阵范数

(结果为标量)，其中α_ij表示影响系数，其中，

其中，利用矢量e_c性质，即满足等式

再根据和tr(mA+nB)＝m·tr(A)+n·tr(B)，可确定出

4)获得最终结果XMX^T，如公式(11)所示：

本发明实施例中基于矢量分解的大矩阵连乘计算优化方法不仅适用于MMD矩阵连乘计算，还适用于其他可以拆解为两矢量相乘的特殊形式矩阵计算场景。

XMX^T在原来的计算方式下空间复杂度为O(n²)，经过将M矩阵矢量分解后得到X·e·e^T·X^T，X·e·e^T·X^T的空间复杂度变为O(w×n)，其中n表示源域和目标域样本数之和，w表示特征维数，其中，特征维数远远小于样本总数、即w＜＜n。因此，本发明实施例降低了JDA算法的空间复杂度，在一定程度上缓解了计算过程中内存溢出问题。

综上所述，本发明实施例通过将源域与目标域的最大均值差异进行分离，具有以下有益效果：

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种分类器的生成方法，其特征在于，所述方法包括：

将所述源域与所述目标域的最大均值差异进行分离，并根据分离得到的均值差异对优化目标进行分解，得到针对所述源域的变换矩阵；

2.根据权利要求1所述的方法，其特征在于，所述基于源域的样本以及目标域的样本，构建所述源域与所述目标域的最大均值差异，包括：

通过映射空间分别对所述源域的样本以及所述目标域的样本进行映射处理，对应得到映射后的源域样本以及映射后的目标域样本；

分别对所述映射后的源域样本以及所述映射后的目标域样本进行均值处理，对应得到所述源域样本的均值以及所述目标域样本的均值，并

将所述源域样本的均值与所述目标域样本的均值的差，确定为所述源域与所述目标域的最大均值差异。

3.根据权利要求1所述的方法，其特征在于，所述将所述源域与所述目标域的最大均值差异进行分离，包括：

将矩阵形式的所述最大均值差异进行分离，得到向量形式的分离后的均值差异。

4.根据权利要求1或3所述的方法，其特征在于，所述最大均值差异为N*N的矩阵，其中，所述N为所述源域的样本数量以及目标域的样本数量之和，N为大于2的自然数；

所述将所述源域与所述目标域的最大均值差异进行分离，包括：

将所述最大均值差异进行矩阵分解，得到两个分离后的均值差异的笛卡尔积；

其中，分离后的均值差异为N*1的向量。

5.根据权利要求1所述的方法，其特征在于，所述根据分离得到的均值差异对优化目标进行分解，得到针对所述源域的变换矩阵，包括：

将所述源域的样本以及所述目标域的样本进行组合，得到特征矩阵；

6.根据权利要求5所述的方法，其特征在于，所述根据所述特征矩阵以及所述分离后的均值差异对优化目标进行广义特征值分解，得到针对所述源域的变换矩阵，包括：

将所述特征矩阵以及所述分离后的均值差异相乘，得到中间矩阵；

7.根据权利要求1或6所述的方法，其特征在于，所述基于源域的样本以及目标域的样本，构建所述源域与所述目标域的最大均值差异，包括：

基于源域的第c类样本以及目标域的第c类样本，构建所述源域与所述目标域的第c类样本的最大均值差异，其中，c小于或者等于C，C为所述源域的样本类型的总数，且c、C均为自然数；

所述将所述源域与所述目标域的最大均值差异进行分离，得到分离后的均值差异，包括：

将所述源域与所述目标域的第c类样本的最大均值差异进行分离，得到分离后的第c类样本的均值差异；

所述根据所述分离后的均值差异对优化目标进行分解，得到针对所述源域的变换矩阵，包括：

将C个分离后的样本的均值差异进行求和，得到分离后的均值差异的总和；

8.根据权利要求7所述的方法，其特征在于，所述中间矩阵为U_c＝X·e_c，其中，X为所述特征矩阵，e_c为所述分离后的第c类样本的均值差异；

所述基于所述中间矩阵，对优化目标进行广义特征值分解，得到针对所述源域的变换矩阵，包括：

确定优化目标的表示：

将所述优化目标中的XHX^T替换为

基于

其中，

为拉格朗日乘子。

9.根据权利要求1所述的方法，其特征在于，所述基于所述源域的样本以及样本对应的标签、所述目标域的样本、以及所述针对所述源域的变换矩阵，对所述目标域的样本进行预测，得到所述目标域的样本所对应的标签，包括：

根据所述源域的样本以及所述针对所述源域的变换矩阵，得到变换后的源域样本；

10.根据权利要求1所述的方法，其特征在于，所述基于所述源域的样本、以及所述目标域的样本所对应的标签，生成对应所述目标域的分类器，包括：

基于所述源域的样本、以及所述目标域的样本所对应的标签对所述分类器进行训练，得到对应所述目标域的分类器。

11.根据权利要求1所述的方法，其特征在于，所述源域的样本为第一金融场景中的第一用户行为特征，所述目标域的样本为第二金融场景中的第二用户行为特征；

所述基于源域的样本以及目标域的样本，构建所述源域与所述目标域的最大均值差异，包括：

基于所述第一金融场景中的第一用户行为特征以及所述第二金融场景中的第二用户行为特征，构建所述第一金融场景与所述第二金融场景的最大均值差异；

所述基于所述源域的样本以及样本对应的标签、所述目标域的样本、以及所述针对所述源域的变换矩阵，对所述目标域的样本进行预测，得到所述目标域的样本所对应的标签，包括：

基于所述第一用户行为特征以及所述第一用户对应的违约标签、所述第二用户行为特征、以及针对所述第一金融场景的变换矩阵，对所述第二金融场景的第二用户进行违约预测，得到所述第二金融场景的第二用户所对应的违约标签；

所述基于所述源域的样本、以及所述目标域的样本所对应的标签，生成对应所述目标域的分类器，包括：

基于所述第一金融场景的第一用户行为特征、以及所述第二用户所对应的违约标签，生成对应所述第二金融场景的分类器。

12.一种待分类数据的分类方法，其特征在于，应用于如权利要求1至11任一项所述的对应目标域的分类器；

所述方法包括：

确定所述目标域中的待分类数据；

13.一种分类器的生成装置，其特征在于，所述装置包括：

14.一种待分类数据的分类装置，其特征在于，所述装置包括：

确定模块，用于确定目标域中的待分类数据；

15.一种分类器的生成设备，其特征在于，所述设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至11任一项所述的分类器的生成方法。

16.一种存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现权利要求1至11任一项所述的分类器的生成方法，或权利要求12任一项所述的待分类数据的分类方法。