CN110781970A - 分类器的生成方法、装置、设备及存储介质 - Google Patents

分类器的生成方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110781970A
CN110781970A CN201911046719.8A CN201911046719A CN110781970A CN 110781970 A CN110781970 A CN 110781970A CN 201911046719 A CN201911046719 A CN 201911046719A CN 110781970 A CN110781970 A CN 110781970A
Authority
CN
China
Prior art keywords
domain
samples
target
target domain
source domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911046719.8A
Other languages
English (en)
Other versions
CN110781970B (zh
Inventor
刘紫薇
宋辉
吕培立
董井然
陈守志
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911046719.8A priority Critical patent/CN110781970B/zh
Publication of CN110781970A publication Critical patent/CN110781970A/zh
Application granted granted Critical
Publication of CN110781970B publication Critical patent/CN110781970B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种分类器的生成方法、装置、电子设备及存储介质;方法包括:基于源域的样本以及目标域的样本,构建源域与目标域的最大均值差异;将所述源域与目标域的最大均值差异进行分离,得到分离后的均值差异;根据分离后的均值差异对优化目标进行分解,得到针对源域的变换矩阵;基于源域的样本以及样本对应的标签、目标域的样本、以及针对所述源域的变换矩阵,对目标域的样本进行预测,得到目标域的样本所对应的标签;基于源域的样本、以及目标域的样本所对应的标签,生成对应目标域的分类器。通过本发明,能够将迁移学习中涉及大规模计算量的最大均值差异进行分离,从而降低迁移学习的计算复杂度。

Description

分类器的生成方法、装置、设备及存储介质
技术领域
本发明涉及人工智能技术,尤其涉及一种分类器的生成方法、待分类数据的分类方法、装置、电子设备及存储介质。
背景技术
人工智能(Artificial Intelligence,AI)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
迁移学习是人工智能领域的重要应用之一,在对话***、人脸识别***、智能硬件等中都有广泛的应用,即迁移学习是这些复杂***的基础组件。
但是,迁移学习中的大规模的计算数据,使得在进行数据迁移的过程中,极大地增加了计算复杂度,导致无法进行正常的迁移学习以及后续基于迁移学习的其他操作。
发明内容
本发明实施例提供一种方法、装置及存储介质,能够将迁移学习中涉及大规模计算量的最大均值差异进行分离,从而降低迁移学习的计算复杂度。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种分类器的生成方法,所述方法包括:
基于源域的样本以及目标域的样本,构建所述源域与所述目标域的最大均值差异;
将所述源域与所述目标域的最大均值差异进行分离,得到分离后的均值差异;
根据所述分离后的均值差异对优化目标进行分解,得到针对所述源域的变换矩阵;
基于所述源域的样本以及样本对应的标签、所述目标域的样本、以及所述针对所述源域的变换矩阵,对所述目标域的样本进行预测,得到所述目标域的样本所对应的标签;
基于所述源域的样本、以及所述目标域的样本所对应的标签,生成对应所述目标域的分类器。
本发明实施例提供一种待分类数据的分类方法,应用于本发明实施例所述的对应目标域的分类器;
所述方法包括:
确定所述目标域中的待分类数据;
通过所述对应目标域的分类器对所述待分类数据进行分类,得到对应所述待分类数据的标签。
本发明实施例提供一种分类器的生成装置,所述装置包括:
构建模块,用于基于源域的样本以及目标域的样本,构建所述源域与所述目标域的最大均值差异;
分离模块,用于对所述源域与所述目标域的最大均值差异进行分离;
处理模块,用于根据分离得到的均值差异对优化目标进行分解,得到针对所述源域的变换矩阵;
预测模块,用于基于所述源域的样本以及样本对应的标签、所述目标域的样本、以及所述针对所述源域的变换矩阵,对所述目标域的样本进行预测,得到所述目标域的样本所对应的标签;
生成模块,用于基于所述源域的样本、以及所述目标域的样本所对应的标签,生成对应所述目标域的分类器。
上述技术方案中,所述构建模块还用于通过映射空间分别对所述源域的样本以及所述目标域的样本进行映射处理,对应得到映射后的源域样本以及映射后的目标域样本;
分别对所述映射后的源域样本以及所述映射后的目标域样本进行均值处理,对应得到所述源域样本的均值以及所述目标域样本的均值,并将所述源域样本的均值与所述目标域样本的均值的差,确定为所述源域与所述目标域的最大均值差异。
上述技术方案中,所述分离模块还用于将矩阵形式的所述最大均值差异进行分离,得到向量形式的分离后的均值差异。
上述技术方案中,所述最大均值差异为N*N的矩阵,其中,所述N为所述源域的样本数量以及目标域的样本数量之和,N为大于2的自然数;
所述分离模块还用于将所述最大均值差异进行矩阵分解,得到两个分离后的均值差异的笛卡尔积;
其中,分离后的均值差异为N*1的向量。
上述技术方案中,所述处理模块还用于将所述源域的样本以及所述目标域的样本进行组合,得到特征矩阵;
根据所述特征矩阵以及所述分离后的均值差异对优化目标进行广义特征值分解,得到针对所述源域的变换矩阵。
上述技术方案中,所述处理模块还用于将所述特征矩阵以及所述分离后的均值差异相乘,得到中间矩阵;
基于所述中间矩阵,对优化目标进行广义特征值分解,得到针对所述源域的变换矩阵。
上述技术方案中,所述构建模块还用于基于源域的第c类样本以及目标域的第c类样本,构建所述源域与所述目标域的第c类样本的最大均值差异,其中,c小于或者等于C,C为所述源域的样本类型的总数,且c、C均为自然数;
所述分离模块还用于将所述源域与所述目标域的第c类样本的最大均值差异进行分离,得到分离后的第c类样本的均值差异;
所述处理模块还用于将C个分离后的样本的均值差异进行求和,得到分离后的均值差异的总和;
根据所述总和对优化目标进行分解,得到针对所述源域的变换矩阵。
上述技术方案中,所述中间矩阵为Uc=X·ec,其中,X为所述特征矩阵,ec为所述分离后的第c类样本的均值差异;
处理模块还用于确定优化目标的表示:
Figure BDA0002254310630000041
且满足ATXHXTA=I,其中,C为所述源域的样本类型的总数,tr为矩阵的迹,A为变换矩阵,Mc为所述第c类样本的最大均值差异,λ为正则化项系数,H为中心矩阵,I为单位矩阵;
将所述优化目标中的XHXT替换为
Figure BDA0002254310630000042
基于
Figure BDA0002254310630000043
对所述优化目标按照以下公式进行广义特征值分解,得到针对所述源域的变换矩阵A:
Figure BDA0002254310630000044
其中,为拉格朗日乘子。
上述技术方案中,所述预测模块还用于根据所述源域的样本以及所述针对所述源域的变换矩阵,得到变换后的源域样本;
根据所述变换后的源域样本以及所述源域样本对应的标签,构建所述分类器的分类模型;
通过所述分类模型对所述目标域的样本进行预测,得到所述目标域的样本所对应的标签。
上述技术方案中,所述生成模块还用于基于所述目标域的样本、以及所述目标域的样本所对应的标签对所述分类器进行训练,得到对应所述目标域的分类器。
上述技术方案中,所述源域的样本为第一金融场景中的第一用户行为特征,所述目标域的样本为第二金融场景中的第二用户行为特征;
所述构建模块还用于基于所述第一金融场景中的第一用户行为特征以及所述第二金融场景中的第二用户行为特征,构建所述第一金融场景与所述第二金融场景的最大均值差异;
所述预测模块还用于基于所述第一用户行为特征以及所述第一用户对应的违约标签、所述第二用户行为特征、以及针对所述第一金融场景的变换矩阵,对所述第二金融场景的第二用户进行违约预测,得到所述第二金融场景的第二用户所对应的违约标签;
所述生成模块还用于基于所述第二金融场景的第二用户行为特征、以及所述第二用户所对应的违约标签,生成对应所述第二金融场景的分类器。
本发明实施例提供一种待分类数据的分类装置,所述装置包括:
确定模块,用于确定目标域中的待分类数据;
分类模块,用于通过对应目标域的分类器对所述待分类数据进行分类,得到对应所述待分类数据的标签。
本发明实施例提供一种分类器的生成设备,所述设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的分类器的生成方法。
本发明实施例提供一种待分类数据的分类设备,所述设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的待分类数据的分类方法。
本发明实施例提供一种存储介质,存储有可执行指令,用于引起处理器执行时,实现本发明实施例提供的分类器的生成方法,或者实现本发明实施例提供的待分类数据的分类方法。
本发明实施例具有以下有益效果:
通过将涉及大规模计算量的最大均值差异进行分离,从而降低计算复杂度,可以对优化目标进行分解,得到变换矩阵,以便后续进行分类操作;对最大均值差异进行分离解决大矩阵(最大均值差异)连乘的问题,增大了计算机运算环境下可计算的数据规模,从而进行正常的迁移学习,显著提高了迁移学习的性能,适用于各种分类应用场景。
附图说明
图1是本发明实施例提供的分类器的生成***10的应用场景示意图;
图2是本发明实施例提供的分类器的生成设备500的结构示意图;
图3-7是本发明实施例提供的分类器的生成方法的流程示意图;
图8是本发明实施例提供的待分类数据的分类***20的应用场景示意图;
图9是本发明实施例提供的待分类数据的分类设备600的结构示意图;
图10是本发明实施例提供的待分类数据的分类方法的流程示意图;
图11是本发明实施例提供的JDA整个算法流程示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,所涉及的术语“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)迁移学习(Transfer Learning):指利用数据、任务或模型之间的相似性,将在旧领域学习过的模型,应用于新领域的一种学习过程。简单地理解,相似性是迁移的基础,发生迁移的两场景需要有一定相似性,但同时存在差异,导致运用源域数据训练的模型不能直接用于目标域预测。迁移学习用于解决这一类问题,它放宽了机器学习中“训练测试数据服从同分布”假设,在目标域只有少量数据标注(不足以训练一个分类器)的情况下,结合源域(有大量标签样本),也能训练出一个性能良好的分类器。
2)领域(Domain):迁移学习中领域由数据和生成这些数据的概率分布组成,一般用D来表示域,P表示一个概率分布。迁移学习中有两个基本领域,分别为:源域(SourceDomain)和目标域(Target Domain)。源域是要迁移的对象,一般有充足的标签样本;目标域是最终期望得到的(需要赋予标签信息)对象。迁移学习是指完成从源域到目标域知识的迁移。
3)任务(Task):迁移学习中的学习目标,由标签和函数两部分组成。根据源域和目标域有无标签,可以分为归纳式迁移,直推式迁移,以及无监督迁移。源域中有大量标签,目标域中有少量标签(不足以训练分类器)属于归纳式迁移学习范围。
4)最大均值差异(MMD,Maximum Mean Discrepancy):迁移学习中一种常见的距离衡量方法。它主要用来度量两个不同但相关的分布间差异(源域和目标域之间的差异)。简单地理解,MMD描述的是两个分布映射后的均值之差。
5)图像识别:利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对象的技术,是应用深度学习算法的一种实践应用。图像识别技术一般分为人脸识别与物品识别,人脸识别主要运用在安全检查、身份核验与移动支付中;物品识别主要运用在物品流通过程中,特别是无人货架、智能零售柜等无人零售领域。
6)目标检测:也叫目标提取,是一种基于目标几何和统计特征的图像分割,它将目标的分割和识别合二为一,其准确性和实时性是整个***的一项重要能力。尤其是在复杂场景中,需要对多个目标进行实时处理时,目标自动提取和识别就显得特别重要。随着计算机技术的发展和计算机视觉原理的广泛应用,利用计算机图像处理技术对目标进行实时跟踪研究越来越热门,对目标进行动态实时跟踪定位在智能化交通***、智能监控***、军事目标检测及医学导航手术中手术器械定位等方面具有广泛的应用价值。
7)语音识别:让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。
本发明实施例记载的分类器可以应用于各种分类领域,例如可以是图像识别神经网络、目标检测神经网络、语音识别神经网络、人脸检测神经网络、违约检测等分类领域,即本发明实施例中的分类器并不局限于某种分类领域。
为至少解决相关技术的上述技术问题,本发明实施例提供一种分类器的生成方法、装置、电子设备和存储介质,能够将迁移学***板电脑,台式计算机,移动设备(例如,移动电话,个人数字助理)等各种类型的用户终端,例如手持终端,根据用户在手持终端上输入的源域的样本、源域的样本对应的标签、以及目标域的样本,获得对应目标域的分类器,并向用户提供对应目标域的分类器以便进行后续的分类操作。
作为示例,参见图1,图1是本发明实施例提供的分类器的生成***10的应用场景示意图,终端200通过网络300连接服务器100,网络300可以是广域网或者局域网,又或者是二者的组合。
在一些实施例中,终端200本地执行本发明实施例提供的分类器的生成方法来完成根据用户输入的源域的样本、源域的样本对应的标签、以及目标域的样本,得到对应目标域的分类器,例如,在终端200上安装分类器生成助手,用户在分类器生成助手中,输入源域的样本、源域的样本对应的标签、以及目标域的样本,终端200根据输入的源域的样本、源域的样本对应的标签、以及目标域的样本,得到对应目标域的分类器,并将对应目标域的分类器显示在终端200的显示界面210上,以便用户根据对应目标域的分类器进行图像识别、目标检测、语音识别等应用。
在一些实施例中,终端200也可以通过网络300向服务器100发送用户在终端100上输入的源域的样本、源域的样本对应的标签、以及目标域的样本,并调用服务器100提供的分类器的生成功能,服务器100通过本发明实施例提供的分类器的生成方法获得对应目标域的分类器,例如,在终端200上安装分类器生成助手,用户在分类器生成助手中,输入源域的样本、源域的样本对应的标签、以及目标域的样本,终端通过网络300向服务器100发送源域的样本、源域的样本对应的标签、以及目标域的样本,服务器100接收到该源域的样本、源域的样本对应的标签、以及目标域的样本后,通过对该源域的样本、源域的样本对应的标签、以及目标域的样本进行一系列处理,得到对应目标域的分类器,并返回对应目标域的分类器至分类器生成助手,将对应目标域的分类器显示在终端200的显示界面210上,或者,服务器100直接给出对应目标域的分类器,以便用户根据对应目标域的分类器进行图像识别、目标检测、语音识别等应用。
在一个实施场景中,为了得到针对图像识别的分类器,服务器或者终端可以基于源域的图像样本以及目标域的图像样本,构建源域与目标域的最大均值差异;将源域与目标域的最大均值差异进行分离,得到分离后的均值差异;根据分离后的均值差异对优化目标进行分解,得到针对源域的变换矩阵;基于源域的图像样本以及图像样本对应的标签、目标域的图像样本、以及针对源域的变换矩阵,对目标域的图像样本进行预测,得到目标域的图像样本所对应的标签;基于源域的图像样本、以及目标域的图像样本所对应的标签,生成对应目标域的分类器,以便后续可以根据对应目标域的分类器对目标域的图像进行分类,得到目标域的图像所对应的标签,例如根据对应目标域的分类器对目标域的图像进行分类,得到目标域的图像所对应的标签(小轿车、汽车、公交车等)。通过将最大均值差异进行分离,降低计算复杂度,从而可以对优化目标进行分解,得到变换矩阵,否则计算机在计算过程中出现内存溢出,无法进行迁移学习,也就无法生成对应目标域的分类器,无法识别图像。
在一个实施场景中,为了得到针对目标检测的分类器,服务器或者终端可以基于源域的目标对象样本以及目标域的目标对象样本,构建源域与目标域的最大均值差异;将源域与目标域的最大均值差异进行分离,得到分离后的均值差异;根据分离后的均值差异对优化目标进行分解,得到针对源域的变换矩阵;基于源域的目标对象样本以及目标对象样本对应的标签、目标域的目标对象样本、以及针对源域的变换矩阵,对目标域的目标对象样本进行预测,得到目标域的目标对象样本所对应的标签;基于源域的目标对象样本、以及目标域的目标对象样本所对应的标签,生成对应目标域的分类器,以便后续可以根据对应目标域的分类器对目标域的目标对象进行分类,得到目标域的图像所对应的标签,从而实现目标检测,例如根据对应目标域的分类器对目标域的目标对象进行分类,得到目标域的目标对象所对应的标签(树木、行人、车辆等),从而检测出行人。通过将最大均值差异进行分离,降低计算复杂度,从而可以对优化目标进行分解,得到变换矩阵,否则计算机在计算过程中出现内存溢出,无法进行迁移学习,也就无法生成对应目标域的分类器,无法识别出目标对象,也就无法实现目标检测。
在一个实施场景中,为了得到针对语音识别的分类器,服务器或者终端可以基于源域的语音样本以及目标域的语音样本,构建源域与目标域的最大均值差异;将源域与目标域的最大均值差异进行分离,得到分离后的均值差异;根据分离后的均值差异对优化目标进行分解,得到针对源域的变换矩阵;基于源域的语音样本以及语音样本对应的标签、目标域的语音样本、以及针对源域的变换矩阵,对目标域的语音样本进行预测,得到目标域的语音样本所对应的标签;基于源域的语音样本、以及目标域的语音样本所对应的标签,生成对应目标域的分类器,以便后续可以根据对应目标域的分类器对目标域的语音进行分类,得到目标域的语音所对应的标签,从而实现语音识别,例如根据对应目标域的分类器对目标域的语音进行分类,得到目标域的语音所对应的标签(小明、小红、小强等),从而检测出目标域的语音所对应的人。通过将最大均值差异进行分离,降低计算复杂度,从而可以对优化目标进行分解,得到变换矩阵,否则计算机在计算过程中出现内存溢出,无法进行迁移学习,也就无法生成对应目标域的分类器,无法识别出语音。
在一个实施场景中,为了得到针对人脸识别的分类器,服务器或者终端可以基于源域的人脸样本以及目标域的人脸样本,构建源域与目标域的最大均值差异;将源域与目标域的最大均值差异进行分离,得到分离后的均值差异;根据分离后的均值差异对优化目标进行分解,得到针对源域的变换矩阵;基于源域的人脸样本以及人脸样本对应的标签、目标域的人脸样本、以及针对源域的变换矩阵,对目标域的人脸样本进行预测,得到目标域的人脸样本所对应的标签;基于源域的人脸样本、以及目标域的人脸样本所对应的标签,生成对应目标域的分类器,以便后续可以根据对应目标域的分类器对目标域的人脸进行分类,得到目标域的人脸所对应的标签,从而实现人脸识别,例如根据对应目标域的分类器对目标域的人脸进行分类,得到目标域的人脸所对应的标签(小明、小红、小强等),从而检测出目标域的人脸所对应的人。通过将最大均值差异进行分离,降低计算复杂度,从而可以对优化目标进行分解,得到变换矩阵,否则计算机在计算过程中出现内存溢出,无法进行迁移学习,也就无法生成对应目标域的分类器,无法识别出人脸。
继续说明本发明实施例提供的分类器的生成设备的结构,分类器的生成设备可以是各种终端,例如手机、电脑等,也可以是如图1示出的服务器100。
参见图2,图2是本发明实施例提供的分类器的生成设备500的结构示意图,图2所示的分类器的生成设备500包括:至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。分类器的生成设备500中的各个组件通过总线***540耦合在一起。可理解,总线***540用于实现这些组件之间的连接通信。总线***540除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线***540。
处理器510可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器550包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本发明实施例描述的存储器550旨在包括任意适合类型的存储器。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。
在一些实施例中,存储器550能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作***551,包括用于处理各种基本***服务和执行硬件相关任务的***程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块552,用于经由一个或多个(有线或无线)网络接口520到达其他计算设备,示例性的网络接口520包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
显示模块553,用于经由一个或多个与用户接口530相关联的输出装置531(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作***设备和显示内容和信息的用户接口);
输入处理模块554,用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本发明实施例提供的分类器的生成装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的分类器的生成装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的分类器的生成方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Pro grammable Gate Array)或其他电子元件。
在另一些实施例中,本发明实施例提供的分类器的生成装置可以采用软件方式实现,图2示出了存储在存储器550中的分类器的生成装置555,其可以是程序和插件等形式的软件,并包括一系列的模块,包括构建模块5551、分离模块5552、处理模块5553、预测模块5554以及生成模块5555;其中,构建模块5551、分离模块5552、处理模块5553、预测模块5554以及生成模块5555用于实现本发明实施例提供的分类器的生成方法。
根据上文可以理解,本发明实施例提供的分类器的生成方法可以由各种类型的分类器的生成设备实施,例如智能终端和服务器等。
下面结合本发明实施例提供的服务器的示例性应用和实施,说明本发明实施例提供的分类器的生成方法。参见图3,图3是本发明实施例提供的分类器的生成方法的流程示意图,结合图3示出的步骤进行说明。
在步骤101中,基于源域的样本以及目标域的样本,构建源域与目标域的最大均值差异。
为了对源域和目标域进行迁移学习,需要根据源域的样本以及目标域的样本,构建源域与目标域的最大均值差异,以便后续根据最大均值差异进行生成针对目标域的分类器。
参见图4,图4是本发明实施例提供的一个可选的流程示意图,在一些实施例中,图4示出图3中的步骤101可以通过图4示出的步骤1011至步骤1012实现。
在步骤1011中,通过映射空间分别对源域的样本以及目标域的样本进行映射处理,对应得到映射后的源域样本以及映射后的目标域样本。
为了生成源域与目标域的最大均值差异,可以先通过映射空间分别对源域的样本Xs以及目标域的样本Xt进行映射处理,从而得到映射后的源域样本
Figure BDA0002254310630000141
以及映射后的目标域样本
Figure BDA0002254310630000142
其中,表示映射空间。
在步骤1012中,分别对映射后的源域样本以及映射后的目标域样本进行均值处理,对应得到源域样本的均值以及目标域样本的均值,并将源域样本的均值与目标域样本的均值的差,确定为源域与目标域的最大均值差异。
在对源域的样本Xs以及目标域的样本Xt进行映射处理后,可以分别对映射后的源域样本
Figure BDA0002254310630000144
以及映射后的目标域样本
Figure BDA0002254310630000145
进行均值处理,分别得到源域样本的均值以及目标域样本的均值,并将源域样本的均值与目标域样本的均值的差,确定为源域与目标域的最大均值差异:
Figure BDA0002254310630000146
其中,ns表示源域样本Xs的数量,nt表示源域样本Xt的数量。
在步骤102中,将源域与目标域的最大均值差异进行分离,得到分离后的均值差异。
由于源域与目标域的最大均值差异是一个大规模的矩阵,为了减少计算量,可以将源域与目标域的最大均值差异进行分离,得到分离后的均值差异,从而避免在计算大矩阵的过程中内存溢出,导致无法进行后续分类操作。
在一些实施例中,将源域与目标域的最大均值差异进行分离,得到分离后的均值差异,包括:将矩阵形式的最大均值差异进行分离,得到向量形式的分离后的均值差异。
由于最大均值差异为矩阵形式的数据,为了减少计算量,可以将矩阵形式的最大均值差异转化为向量形式的分离后的均值差异。
在一些实施例中,将源域与目标域的最大均值差异进行分离,得到分离后的均值差异,包括:将最大均值差异进行矩阵分解,得到两个分离后的均值差异的笛卡尔积。
其中,最大均值差异为N*N的矩阵,分离后的均值差异为N*1的向量,N为源域的样本数量以及目标域的样本数量之和,N为大于2的自然数。
在步骤103中,根据分离后的均值差异对优化目标进行分解,得到针对源域的变换矩阵。
经过分离后的均值差异,可以极大地减小计算量,从而可以分离后的均值差异对优化目标进行分解,得到针对源域的变换矩阵,以便根据针对源域的变换矩阵对目标域的样本进行预测,生成目标域样本对应的标签。
参见图5,图5是本发明实施例提供的一个可选的流程示意图,在一些实施例中,图5示出图3中的步骤103可以通过图5示出的步骤1031至步骤1032实现。
在步骤1031中,将源域的样本以及目标域的样本进行组合,得到特征矩阵。
为了能够根据分离后的均值差异,得到针对源域的变换矩阵,需要对源域的样本以及目标域的样本进行融合,也就是将源域的样本以及目标域的样本进行组合,从而得到包含源域的样本以及目标域的样本的特征矩阵。
在步骤1032中,根据特征矩阵以及分离后的均值差异对优化目标进行广义特征值分解,得到针对源域的变换矩阵。
在得到包含源域的样本以及目标域的样本的特征矩阵后,可以根据特征矩阵以及分离后的均值差异对优化目标进行广义特征值分解,从而得到针对源域的变换矩阵。
在一些实施例中,根据特征矩阵以及分离后的均值差异对优化目标进行广义特征值分解,得到针对源域的变换矩阵,包括:将特征矩阵以及分离后的均值差异相乘,得到中间矩阵;基于中间矩阵,对优化目标进行广义特征值分解,得到针对源域的变换矩阵。
为了减小优化目标中涉及最大均值差异的计算量,可以将特征矩阵以及分离后的均值差异相乘,得到中间矩阵,并根据中间矩阵,计算优化目标,从而得到针对源域的变换矩阵。
参见图6,图6是本发明实施例提供的一个可选的流程示意图,在一些实施例中,图6示出图3中的步骤101-103可以通过图6示出的步骤101D-103D实现。
在步骤101D中,基于源域的第c类样本以及目标域的第c类样本,构建源域与目标域的第c类样本的最大均值差异。
其中,c小于或者等于C,C为源域的样本类型的总数,且c、C均为自然数,并且源域的样本类型与目标域的样本类型相同、即源域与目标域是相似的,例如源域的样本类型为用户违约或者用户未违约,且目标域的样本类型也为用户违约或者用户未违约。
在一些实施例中,通过映射空间分别对源域的第c类样本以及目标域的第c类样本进行映射处理,对应得到映射后的源域的第c类样本以及目标域的第c类样本;分别对映射后的源域的第c类样本以及目标域的第c类样本进行均值处理,对应得到源域的第c类样本的均值以及目标域的第c类样本的均值,并将均值的差,确定为源域的第c类样本与目标域的第c类样本的最大均值差异。
在步骤102D中,将源域与目标域的第c类样本的最大均值差异进行分离,得到分离后的第c类样本的均值差异。
在一些实施例中,将矩阵形式的源域与目标域的第c类样本的最大均值差异进行分离,得到向量形式的分离后的第c类样本的最大均值差异。
在一些实施例中,将第c类样本的最大均值差异进行矩阵分解,得到两个分离后的第c类样本的均值差异的笛卡尔积,其中,第c类样本的最大均值差异为M*M的矩阵,分离后的均值差异为M*1的向量,其中,M为源域的第c类样本数量以及目标域的第c类样本数量之和,M为大于2的自然数。
在步骤103D中,将C个分离后的样本的均值差异进行求和,得到分离后的均值差异的总和;根据总和对优化目标进行分解,得到针对源域的变换矩阵。
将得到的第1类样本的最大均值差异、第2类样本的最大均值差异、……、第c类样本的最大均值差异进行求和,得到分离后的均值差异的总和,并根据总和对优化目标进行分解,得到针对源域的变换矩阵。
在一些实施例中,中间矩阵为Uc=X·ec,X为特征矩阵,ec为分离后的第c类样本的均值差异;基于中间矩阵,对优化目标进行广义特征值分解,得到针对源域的变换矩阵,包括:确定优化目标的表示:
Figure BDA0002254310630000171
且满足ATXHXTA=I,其中,C为源域的样本类型的总数,tr为矩阵的迹,A为变换矩阵,Mc为第c类样本的最大均值差异,λ为正则化项系数,H为中心矩阵,I为单位矩阵;将优化目标中的XHXT替换为
Figure BDA0002254310630000172
基于
Figure BDA0002254310630000173
对优化目标按照以下公式进行广义特征值分解,得到针对源域的变换矩阵A:
Figure BDA0002254310630000174
其中,为拉格朗日乘子。
首先确定出优化目标,其中优化目标中的XHXT为大矩阵连乘,而中间矩阵为Uc=X·ec相对于XHXT为小矩阵,因此,可以将优化目标中的XHXT替换为
Figure BDA0002254310630000176
从而基于
Figure BDA0002254310630000177
可以对优化目标进行广义特征值分解,得到针对源域的变换矩阵A。
在步骤104中,基于源域的样本以及样本对应的标签、目标域的样本、以及针对源域的变换矩阵,对目标域的样本进行预测,得到目标域的样本所对应的标签。
由于源域的样本有对应的标签,而目标域的样本没有对应的标签。因此,需要根据源域的样本以及样本对应的标签、目标域的样本、以及针对源域的变换矩阵,对目标域的样本进行预测,从而得到目标域的样本所对应的标签。
在一些实施例中,基于源域的样本以及样本对应的标签、目标域的样本、以及针对源域的变换矩阵,对目标域的样本进行预测,得到目标域的样本所对应的标签,包括:根据源域的样本以及针对源域的变换矩阵,得到变换后的源域样本;根据变换后的源域样本以及源域样本对应的标签,构建分类器的分类模型;通过分类模型对目标域的样本进行预测,得到目标域的样本所对应的标签。
在得到针对源域的变换矩阵后,可以基于针对源域的变换矩阵对源域的样本进行变换,得到变换后的源域样本。根据变换后的源域样本以及源域样本对应的标签,构建分类器的分类模型、即根据变换后的源域样本以及源域样本对应的标签建模。建模完成后,可以通过分类模型对目标域的样本进行预测,得到目标域的样本属于某类标签的概率,当某类标签的概率大于或者等于设定阈值时,则确定目标域的样本属于某类标签,其中,该标签为伪标签,并不是人工进行定义的标签,设定阈值为用户预先在服务器设定的参考值。
在步骤105中,基于源域的样本、以及目标域的样本所对应的标签,生成对应目标域的分类器。
在对目标域的样本进行预测,得到目标域的样本所对应的标签后,可以根据源域的样本、以及目标域的样本所对应的标签,生成对应目标域的分类器,以便后续对目标域的待分类的数据进行分类。
在一些实施例中,基于源域的样本、以及目标域的样本所对应的标签,生成对应目标域的分类器,包括:基于源域的样本、以及目标域的样本所对应的标签对分类器进行训练,得到对应目标域的分类器。
在得到目标域的样本所对应的标签后,可以通过神经网络的训练方法,基于源域的样本、以及目标域的样本所对应的标签对分类器进行训练,从而得到训练好的对应目标域的分类器,即通过目标域的样本所对应的标签更新源域与目标域的最大均值差异,并根据源域与目标域的最大均值差异迭代求解得到针对源域的变换矩阵,从而完成根据源域的样本、以及目标域的样本所对应的标签对分类器的训练,生成针对目标域的分类器,以便后续对目标域的待分类的数据进行分类,其中,分类器属于神经网络模型。
参见图7,图7是本发明实施例提供的一个可选的流程示意图,图7示出了将分类器的生成方法应用于金融场景中,以对用户进行分类,确定用户是否违约,在一些实施例中,图7示出图3中的步骤101-105可以通过图7示出的步骤101E-105E实现。
在步骤101E中,基于第一金融场景中的第一用户行为特征以及第二金融场景中的第二用户行为特征,构建第一金融场景与第二金融场景的最大均值差异。
为了对第一金融场景和第二金融场景进行迁移学习,需要根据第一金融场景中的第一用户行为特征以及第二金融场景中的第二用户行为特征,构建第一金融场景与第二金融场景的最大均值差异,以便后续根据最大均值差异进行生成针对第一金融场景的分类器。其中,第一用户并不是特指某一个用户,而是第一金融场景中的多个用户,第二用户并不是特指某一个用户,而是第二金融场景中的多个用户。
在步骤102E中,将第一金融场景与第二金融场景的最大均值差异进行分离,得到分离后的均值差异。
由于第一金融场景与第二金融场景的最大均值差异是一个大规模的矩阵,为了减少计算量,可以将第一金融场景与第二金融场景的最大均值差异进行分离,得到分离后的均值差异,从而避免在计算大矩阵的过程中内存溢出,导致无法进行后续是否违约的分类操作。
在步骤103E中,根据分离后的均值差异对优化目标进行分解,得到针对第一金融场景的变换矩阵。
经过分离后的均值差异,可以极大地减小计算量,从而可以分离后的均值差异对优化目标进行分解,得到针对第一金融场景的变换矩阵,以便根据针对第一金融场景的变换矩阵对第二金融场景中的第二用户进行预测,生成第二金融场景中的第二用户对应的违约标签。
在步骤104E中,基于第一用户行为特征以及第一用户对应的违约标签、第二用户行为特征、以及针对第一金融场景的变换矩阵,对第二金融场景的第二用户进行违约预测,得到第二金融场景的第二用户所对应的违约标签。
由于第一用户有对应的违约标签,而第二用户没有对应的违约标签。因此,需要根据第一用户以及第一用户对应的违约标签、第二金融场景中的第二用户行为特征、以及针对第一金融场景的变换矩阵,对第二用户进行预测,从而得到第二金融场景中的第二用户所对应的违约标签(是否违约)。
在步骤105E中,基于第一金融场景的第一用户行为特征、以及第二用户所对应的违约标签,生成对应第二金融场景的分类器。
在对第二金融场景中的第二用户进行预测,得到第二金融场景中的第二用户所对应的违约标签后,可以根据第一金融场景中的第一用户的用户行为特征、以及第二金融场景中的第二用户所对应的标签,生成对应第二金融场景的分类器,以便后续对第二金融场景的用户进行分类。
至此已经结合本发明实施例提供的服务器的示例性应用和实施,说明本发明实施例提供的分类器的生成方法,下面继续说明本发明实施例提供的分类器的生成装置555中各个模块配合实现分类器的生成的方案。
构建模块5551,用于基于源域的样本以及目标域的样本,构建所述源域与所述目标域的最大均值差异;
分离模块5552,用于对所述源域与所述目标域的最大均值差异进行分离;
处理模块5553,用于根据分离得到的均值差异对优化目标进行分解,得到针对所述源域的变换矩阵;
预测模块5554,用于基于所述源域的样本以及样本对应的标签、所述目标域的样本、以及所述针对所述源域的变换矩阵,对所述目标域的样本进行预测,得到所述目标域的样本所对应的标签;
生成模块5555,用于基于所述源域的样本、以及所述目标域的样本所对应的标签,生成对应所述目标域的分类器。
上述技术方案中,所述构建模块5551还用于通过映射空间分别对所述源域的样本以及所述目标域的样本进行映射处理,对应得到映射后的源域样本以及映射后的目标域样本;分别对所述映射后的源域样本以及所述映射后的目标域样本进行均值处理,对应得到所述源域样本的均值以及所述目标域样本的均值,并将所述源域样本的均值与所述目标域样本的均值的差,确定为所述源域与所述目标域的最大均值差异。
上述技术方案中,所述分离模块5552还用于将矩阵形式的所述最大均值差异进行分离,得到向量形式的分离后的均值差异。
上述技术方案中,所述最大均值差异为N*N的矩阵,其中,所述N为所述源域的样本数量以及目标域的样本数量之和,N为大于2的自然数;所述分离模块5552还用于将所述最大均值差异进行矩阵分解,得到两个分离后的均值差异的笛卡尔积;其中,分离后的均值差异为N*1的向量。
上述技术方案中,所述处理模块5553还用于将所述源域的样本以及所述目标域的样本进行组合,得到特征矩阵;根据所述特征矩阵以及所述分离后的均值差异对优化目标进行广义特征值分解,得到针对所述源域的变换矩阵。
上述技术方案中,所述处理模块5553还用于将所述特征矩阵以及所述分离后的均值差异相乘,得到中间矩阵;基于所述中间矩阵,对优化目标进行广义特征值分解,得到针对所述源域的变换矩阵。
上述技术方案中,所述构建模块5551还用于基于源域的第c类样本以及目标域的第c类样本,构建所述源域与所述目标域的第c类样本的最大均值差异,其中,c小于或者等于C,C为所述源域的样本类型的总数,且c、C均为自然数;
所述分离模块5552还用于将所述源域与所述目标域的第c类样本的最大均值差异进行分离,得到分离后的第c类样本的均值差异;
所述处理模块5553还用于将C个分离后的样本的均值差异进行求和,得到分离后的均值差异的总和;根据所述总和对优化目标进行分解,得到针对所述源域的变换矩阵。
上述技术方案中,所述中间矩阵为Uc=X·ec,其中,X为所述特征矩阵,ec为所述分离后的第c类样本的均值差异;处理模块5553还用于确定优化目标的表示:且满足ATXHXTA=I,其中,C为所述源域的样本类型的总数,tr为矩阵的迹,A为变换矩阵,Mc为所述第c类样本的最大均值差异,λ为正则化项系数,H为中心矩阵,I为单位矩阵;将所述优化目标中的XHXT替换为
Figure BDA0002254310630000222
基于
Figure BDA0002254310630000223
对所述优化目标按照以下公式进行广义特征值分解,得到针对所述源域的变换矩阵A:
Figure BDA0002254310630000224
其中,
Figure BDA0002254310630000225
为拉格朗日乘子。
上述技术方案中,所述预测模块5554还用于根据所述源域的样本以及所述针对所述源域的变换矩阵,得到变换后的源域样本;根据所述变换后的源域样本以及所述源域样本对应的标签,构建所述分类器的分类模型;通过所述分类模型对所述目标域的样本进行预测,得到所述目标域的样本所对应的标签。
上述技术方案中,所述生成模块5555还用于基于所述源域的样本、以及所述目标域的样本所对应的标签对所述分类器进行训练,得到对应所述目标域的分类器。
上述技术方案中,所述源域的样本为第一金融场景中的第一用户行为特征,所述目标域的样本为第二金融场景中的第二用户行为特征;所述构建模块5551还用于基于所述第一金融场景中的第一用户行为特征以及所述第二金融场景中的第二用户行为特征,构建所述第一金融场景与所述第二金融场景的最大均值差异;所述预测模块5554还用于基于所述第一用户行为特征以及所述第一用户对应的违约标签、所述第二用户行为特征、以及针对所述第一金融场景的变换矩阵,对所述第二金融场景的第二用户进行违约预测,得到所述第二金融场景的第二用户所对应的违约标签;
所述生成模块5555还用于基于所述第一金融场景的第一用户行为特征、以及所述第二用户所对应的违约标签,生成对应所述第二金融场景的分类器。
基于上述对分类器的生成方法以及结构的说明,接下来对本发明实施例提供的待分类数据的分类设备的示例性应用,作为示例,参见图8,图8是本发明实施例提供的待分类数据的分类***20的应用场景示意图,终端200通过网络300连接服务器100,网络300可以是广域网或者局域网,又或者是二者的组合。
在一些实施例中,终端200本地执行本发明实施例提供的待分类数据的分类方法来完成根据用户输入的目标域中的待分类数据,得到对应待分类数据的标签,例如,在终端200上安装分类助手,用户在分类助手中,输入目标域中的待分类数据,终端200根据输入的目标域中的待分类数据,得到对应待分类数据的标签,并将对应待分类数据的标签显示在终端200的显示界面210上。
在一些实施例中,终端200也可以通过网络300向服务器100发送用户在终端100上输入的目标域中的待分类数据,并调用服务器100提供的待分类数据的分类功能,服务器100通过本发明实施例提供的待分类数据的分类方法获得对应待分类数据的标签,例如,在终端200上安装分类助手,用户在分类助手中,输入目标域中的待分类数据,终端通过网络300向服务器100发送目标域中的待分类数据,服务器100接收到该目标域中的待分类数据后,通过对该目标域中的待分类数据进行分类处理,得到对应待分类数据的标签,并返回对应待分类数据的标签至分类器生成助手,将对应待分类数据的标签显示在终端200的显示界面210上,或者,服务器100直接给出对应待分类数据的标签。
基于上述待分类数据的分类***进行说明。参见图9,图9是本发明实施例提供的待分类数据的分类设备600的结构示意图,图9所示的待分类数据的分类设备600包括:至少一个处理器610、存储器650、至少一个网络接口620和用户接口630。其中,处理器610、存储器650、至少一个网络接口620和用户接口630的功能分别与处理器510、存储器550、至少一个网络接口520和用户接口530的功能类似,即输出装置631、输入装置632的功能与输出装置531、输入装置532的功能类似,操作***651、网络通信模块652、显示模块653、输入处理模块654的功能分别与操作***551、网络通信模块552、显示模块553、输入处理模块554的功能类似,不做赘述。
在另一些实施例中,本发明实施例提供的待分类数据的分类装置可以采用软件方式实现,图9示出了存储在存储器650中的待分类数据的分类装置655,其可以是程序和插件等形式的软件,并包括一系列的模块,包括确定模块6551以及分类模块6552;其中,确定模块6551以及分类模块6552用于实现本发明实施例提供的待分类数据的分类方法。
根据上文可以理解,本发明实施例提供的待分类数据的分类方法可以由各种类型的待分类数据的分类设备实施,例如智能终端和服务器等。
下面结合本发明实施例提供的服务器的示例性应用和实施,说明本发明实施例提供的待分类数据的分类方法。参见图10,图10是本发明实施例提供的待分类数据的分类方法的流程示意图,结合图10示出的步骤进行说明。
在步骤201中,确定目标域中的待分类数据。
在步骤202中,通过对应目标域的分类器对待分类数据进行分类,得到对应待分类数据的标签。
在通过上述分类器的生成方法(基于源域的样本以及目标域的样本,构建源域与目标域的最大均值差异;将源域与目标域的最大均值差异进行分离,得到分离后的均值差异;根据分离后的均值差异对优化目标进行分解,得到针对源域的变换矩阵;基于源域的样本以及样本对应的标签、目标域的样本、以及针对源域的变换矩阵,对目标域的样本进行预测,得到目标域的样本所对应的标签;基于目标域的样本、以及目标域的样本所对应的标签,生成对应目标域的分类器)生成对应目标域的分类器后,可以根据对应目标域的分类器对目标域中的待分类的数据进行分类。因此,可以首先确定出目标域中的待分类数据,然后通过对应目标域的分类器对待分类数据进行分类,得到对应待分类数据的标签。
在一些实施例中,源域为第一金融场景,目标域为第二金融场景,目标域中的待分类数据为第二金融场景中的用户行为特征;确定目标域中的待分类数据,包括:确定目标域中的第二金融场景中的用户行为特征;
通过对应目标域的分类器对待分类数据进行分类,得到对应待分类数据的标签,包括:通过对应第二金融场景的分类器对第二金融场景中的用户行为特征进行分类,得到对应第二金融场景中的用户行为特征的违约标签。
至此已经说明本发明实施例提供的待分类数据的分类方法,下面继续说明本发明实施例提供的待分类数据的分类装置655中各个模块配合实现待分类数据的分类的方案。
确定模块6551,用于确定目标域中的待分类数据;
分类模块6552,用于通过对应目标域的分类器对所述待分类数据进行分类,得到对应所述待分类数据的标签。
这里需要指出的是:以上涉及装置的描述,与上述方法描述是类似的,同方法的有益效果描述,不做赘述,对于本发明实施例所述装置中未披露的技术细节,请参照本发明方法实施例的描述。
下面,将说明本发明实施例在一个实际的应用场景中的示例性应用。
MMD描述的是两分布映射后的均值之差,数学描述如公式(1)所示:
Figure BDA0002254310630000251
其中,ns表示源域Xs的样本数量,nt表示目标域Xt的样本数量,
Figure BDA0002254310630000252
表示特征映射函数、即将样本特征映射到另一空间(例如使用核矩阵将样本特征映射到再生希尔伯特空间)。在求解MMD距离过程中,将距离平方展开后将出现二次项乘积部分,通过引入核矩阵K和一个MMD矩阵M,将上述距离(公式(1))变换为tr(KL)-λtr(K)进行求解,其中M可表示如下公式(2):
Figure BDA0002254310630000253
其中,Ds表示源域(包括源域的样本数据和样本的概率分布),Dt表示目标域(包括目标域的样本数据和样本的概率分布)。
领域自适应是迁移学习中最广泛的问题之一,它可运用于源域中有样本标签、目标域无标签样本的场景中。实际中,由于缺乏有标签样本,只能找到其他相似场景下的有标签样本替代建模,如果将相似场景下有标签样本建立的模型直接用于目标域预测,时常会出现因两场景下数据分布差异造成预测结果不准确的问题。因此,需要对源域模型进行一定修正,使它能成功用于目标域预测且保持良好的预测性能。联合分布自适应(JDA,JointDistribution Adaptation)是领域自适应中典型方法之一,它由经典方法迁移成分分析(TCA,Trans fer Component Analysis)发展而来。JDA通过特征变换,寻找源域和目标域的公共特征空间,使得两域边缘分布、条件分布差异尽可能小,从而完成从源域到目标域上知识的迁移。JDA的优化总目标是保证方差不变情况下,使得边缘分布和条件分布的MMD距离之和最小,其计算过程如公式(3)所示:
Figure BDA0002254310630000261
其中,C为源域的样本类型的总数,tr为矩阵的迹,A为变换矩阵,Mc为第c类样本的最大均值差异,λ为正则化项系数,H为中心矩阵,I为单位矩阵,X为特征矩阵。
因目标域缺乏标签信息,计算目标域的条件分布是JDA中的关键技术。可以将类条件概率近似条件概率分布,即P(Yt|Xt)≈P(Xt|Yt),并结合伪标签策略,用源域数据训练分类器,将目标域上的预测结果作为目标域标签,通过不断迭代提高伪标签准确性。
JDA的求解过程与主成分分析(PCA,Principal Component Analysis)类似,通过引入拉格朗日乘子将上述最小值优化问题转化为广义特征值分解求变换矩阵A。利用求解得到的变换矩阵A,将源域和目标域数据映射到公共特征子空间,在公有空间中运用机器学习方法建模并完成预测。JDA整个算法流程如图11所示,其中数据采集为采集源域的样本以及样本对应的标签,数据预处理为对源域以及目标域的数据进行归一化处理,X表示原始特征,A表示矩阵变换,Zs表示变换后的特征,Ys表示源域标签,通过目标域预测更新伪标签,该伪标签作用在于MMD迭代求解变换矩阵A,从而实现训练分类器,最终可以实现在目标域上完成分类。其中,JDA找到的特征变换既可以是线性的,也可以是非线性变换,可根据实际需求进行确定。
将JDA方法运用到实际运用中,需要通过广义特征值分解求变换矩阵A,即通过公式(4)求前k个特征值(k为新特征空间维数):
其中,
Figure BDA0002254310630000272
为拉格朗日乘子,λ为正则化项系数,Mc可由公式(5)计算得到:
Figure BDA0002254310630000273
其中,nc、mc分别表示源域和目标域中来自第c类的样本数,
Figure BDA0002254310630000274
M=M/norm(M)。在特征值分解求解过程中主要涉及计算矩阵XMXT,其中X是一个w×n矩阵(w表示源域和目标域特征维数,n表示源域与目标域样本数之和),M是一个n×n方阵,其连乘后结果为w×w矩阵。通常情况下,特征维度将远远小于样本总数、即w<<n。
在计算变换矩阵A,会遇到源域和目标域数据量规模较大,X(w×n)和M(n×n)两个较大规模矩阵相乘问题。当样本数增加到一定程度时,XMXT计算过程中会出现内存溢出导致程序报错,以及JDA算法无法正常运行的情况。
本发明实施例通过将Mc矩阵分解为两个n×1矢量的笛卡尔积,避免了两个较大规模矩阵直接相乘引起的内存溢出问题,增大了单机环境下可计算的数据规模,从而使得在源域和目标域样本数量增多时单机环境下JDA建模求解顺利进行。
以金融风控场景下违约预测为例,生成对违约的预测方案如下所示:
1)方案目标:建立一套评价体系对金融场景A下用户违约概率进行预测。由于金融场景A下的缺少有标签样本,只能搜集到大量无标签样本,另有一个与金融场景A相似金融场景B,可以收集到金融场景B下大量有标签样本。因此,可以利用已有数据训练模型用于金融场景A下违约概率预测,且模型效果需满足一定风控要求。
2)训练环节:收集金融场景A下无标签样本与金融场景B下有标签样本,两场景下样本总数约为10万条。运用联合分布自适应方法建立数学模型,通过减小两场景下数据分布差异提高模型在金融场景A下违约概率预测的准确性。在JDA求解广义特征值分解过程中,按照发明实施例对XMXT计算过程进行优化,保证求解过程顺利进行,求得变换矩阵A。运用A矩阵,将源域(金融场景B数据)和目标域(金融场景A数据)映射到公有特征子空间,并在新的特征子空间建立逻辑回归模型,实现对金融场景A下违约概率的预测。
3)效果评估:未使用本发明实施例的方法之前,在单机环境下,当金融场景A和金融场景B两场景下样本总数超过一定数量后,时常出现计算过程内存溢出导致程序报错“memory error”。运用本发明实施例的方法优化XMXT矩阵运算过程后,即使在较大规模数据下也能正常训练JDA+分类器模型,并在测试集上对A场景下违约概率进行预测,发现模型有较高的KS和AUC(用于准确性的判定)。
本发明实施例是利用MMD矩阵Mc特殊形式,将Mc分解成两个n×1矢量的笛卡尔积,如公式(6)所示:
Figure BDA0002254310630000281
其中,
Figure BDA0002254310630000282
nc、mc分别表示源域和目标域中来自第c类的样本数。
同时,M矩阵及其范数都可以由ec经过计算得到,如公式(7)、(8)所示:
Figure BDA0002254310630000292
对矩阵XMXT进行转化,计算过程如公式(9)所示:
Figure BDA0002254310630000293
其中,αc为范数归一化后产生的影响系数。
计算XMXT的具体步骤如下所示:
设源域数据
Figure BDA0002254310630000294
目标域数据w表示源域和目标域输入X的特征维数,总样本数n=ns+nt,计算
Figure BDA0002254310630000296
1)将Mc矩阵分解成两个矢量n×1和1×n的向量积,如公式(10)所示:
其中,
Figure BDA0002254310630000298
2)计算中间矩阵Uc=X·ec(Uc表示形状为w×1向量),从而得到
Figure BDA0002254310630000299
3)确定M矩阵范数
Figure BDA00022543106300002910
(结果为标量),其中αij表示影响系数,其中,
Figure BDA00022543106300002911
其中,利用矢量ec性质,即满足等式
Figure BDA00022543106300002912
再根据和tr(mA+nB)=m·tr(A)+n·tr(B),可确定出
Figure BDA00022543106300002914
4)获得最终结果XMXT,如公式(11)所示:
Figure BDA00022543106300002915
本发明实施例中基于矢量分解的大矩阵连乘计算优化方法不仅适用于MMD矩阵连乘计算,还适用于其他可以拆解为两矢量相乘的特殊形式矩阵计算场景。
XMXT在原来的计算方式下空间复杂度为O(n2),经过将M矩阵矢量分解后得到X·e·eT·XT,X·e·eT·XT的空间复杂度变为O(w×n),其中n表示源域和目标域样本数之和,w表示特征维数,其中,特征维数远远小于样本总数、即w<<n。因此,本发明实施例降低了JDA算法的空间复杂度,在一定程度上缓解了计算过程中内存溢出问题。
综上所述,本发明实施例通过将源域与目标域的最大均值差异进行分离,具有以下有益效果:
通过将涉及大规模计算量的最大均值差异进行分离,从而降低计算复杂度,可以对优化目标进行分解,得到变换矩阵,以便后续进行分类操作;对最大均值差异进行分离解决大矩阵(最大均值差异)连乘的问题,增大了计算机运算环境下可计算的数据规模,从而进行正常的迁移学习,显著提高了迁移学习的性能,适用于各种分类应用场景。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本发明的保护范围之内。

Claims (16)

1.一种分类器的生成方法,其特征在于,所述方法包括:
基于源域的样本以及目标域的样本,构建所述源域与所述目标域的最大均值差异;
将所述源域与所述目标域的最大均值差异进行分离,并根据分离得到的均值差异对优化目标进行分解,得到针对所述源域的变换矩阵;
基于所述源域的样本以及样本对应的标签、所述目标域的样本、以及所述针对所述源域的变换矩阵,对所述目标域的样本进行预测,得到所述目标域的样本所对应的标签;
基于所述源域的样本、以及所述目标域的样本所对应的标签,生成对应所述目标域的分类器。
2.根据权利要求1所述的方法,其特征在于,所述基于源域的样本以及目标域的样本,构建所述源域与所述目标域的最大均值差异,包括:
通过映射空间分别对所述源域的样本以及所述目标域的样本进行映射处理,对应得到映射后的源域样本以及映射后的目标域样本;
分别对所述映射后的源域样本以及所述映射后的目标域样本进行均值处理,对应得到所述源域样本的均值以及所述目标域样本的均值,并
将所述源域样本的均值与所述目标域样本的均值的差,确定为所述源域与所述目标域的最大均值差异。
3.根据权利要求1所述的方法,其特征在于,所述将所述源域与所述目标域的最大均值差异进行分离,包括:
将矩阵形式的所述最大均值差异进行分离,得到向量形式的分离后的均值差异。
4.根据权利要求1或3所述的方法,其特征在于,所述最大均值差异为N*N的矩阵,其中,所述N为所述源域的样本数量以及目标域的样本数量之和,N为大于2的自然数;
所述将所述源域与所述目标域的最大均值差异进行分离,包括:
将所述最大均值差异进行矩阵分解,得到两个分离后的均值差异的笛卡尔积;
其中,分离后的均值差异为N*1的向量。
5.根据权利要求1所述的方法,其特征在于,所述根据分离得到的均值差异对优化目标进行分解,得到针对所述源域的变换矩阵,包括:
将所述源域的样本以及所述目标域的样本进行组合,得到特征矩阵;
根据所述特征矩阵以及所述分离后的均值差异对优化目标进行广义特征值分解,得到针对所述源域的变换矩阵。
6.根据权利要求5所述的方法,其特征在于,所述根据所述特征矩阵以及所述分离后的均值差异对优化目标进行广义特征值分解,得到针对所述源域的变换矩阵,包括:
将所述特征矩阵以及所述分离后的均值差异相乘,得到中间矩阵;
基于所述中间矩阵,对优化目标进行广义特征值分解,得到针对所述源域的变换矩阵。
7.根据权利要求1或6所述的方法,其特征在于,所述基于源域的样本以及目标域的样本,构建所述源域与所述目标域的最大均值差异,包括:
基于源域的第c类样本以及目标域的第c类样本,构建所述源域与所述目标域的第c类样本的最大均值差异,其中,c小于或者等于C,C为所述源域的样本类型的总数,且c、C均为自然数;
所述将所述源域与所述目标域的最大均值差异进行分离,得到分离后的均值差异,包括:
将所述源域与所述目标域的第c类样本的最大均值差异进行分离,得到分离后的第c类样本的均值差异;
所述根据所述分离后的均值差异对优化目标进行分解,得到针对所述源域的变换矩阵,包括:
将C个分离后的样本的均值差异进行求和,得到分离后的均值差异的总和;
根据所述总和对优化目标进行分解,得到针对所述源域的变换矩阵。
8.根据权利要求7所述的方法,其特征在于,所述中间矩阵为Uc=X·ec,其中,X为所述特征矩阵,ec为所述分离后的第c类样本的均值差异;
所述基于所述中间矩阵,对优化目标进行广义特征值分解,得到针对所述源域的变换矩阵,包括:
确定优化目标的表示:
Figure FDA0002254310620000031
且满足ATXHXTA=I,其中,C为所述源域的样本类型的总数,tr为矩阵的迹,A为变换矩阵,Mc为所述第c类样本的最大均值差异,λ为正则化项系数,H为中心矩阵,I为单位矩阵;
将所述优化目标中的XHXT替换为
基于
Figure FDA0002254310620000033
对所述优化目标按照以下公式进行广义特征值分解,得到针对所述源域的变换矩阵A:
其中,
Figure FDA0002254310620000035
为拉格朗日乘子。
9.根据权利要求1所述的方法,其特征在于,所述基于所述源域的样本以及样本对应的标签、所述目标域的样本、以及所述针对所述源域的变换矩阵,对所述目标域的样本进行预测,得到所述目标域的样本所对应的标签,包括:
根据所述源域的样本以及所述针对所述源域的变换矩阵,得到变换后的源域样本;
根据所述变换后的源域样本以及所述源域样本对应的标签,构建所述分类器的分类模型;
通过所述分类模型对所述目标域的样本进行预测,得到所述目标域的样本所对应的标签。
10.根据权利要求1所述的方法,其特征在于,所述基于所述源域的样本、以及所述目标域的样本所对应的标签,生成对应所述目标域的分类器,包括:
基于所述源域的样本、以及所述目标域的样本所对应的标签对所述分类器进行训练,得到对应所述目标域的分类器。
11.根据权利要求1所述的方法,其特征在于,所述源域的样本为第一金融场景中的第一用户行为特征,所述目标域的样本为第二金融场景中的第二用户行为特征;
所述基于源域的样本以及目标域的样本,构建所述源域与所述目标域的最大均值差异,包括:
基于所述第一金融场景中的第一用户行为特征以及所述第二金融场景中的第二用户行为特征,构建所述第一金融场景与所述第二金融场景的最大均值差异;
所述基于所述源域的样本以及样本对应的标签、所述目标域的样本、以及所述针对所述源域的变换矩阵,对所述目标域的样本进行预测,得到所述目标域的样本所对应的标签,包括:
基于所述第一用户行为特征以及所述第一用户对应的违约标签、所述第二用户行为特征、以及针对所述第一金融场景的变换矩阵,对所述第二金融场景的第二用户进行违约预测,得到所述第二金融场景的第二用户所对应的违约标签;
所述基于所述源域的样本、以及所述目标域的样本所对应的标签,生成对应所述目标域的分类器,包括:
基于所述第一金融场景的第一用户行为特征、以及所述第二用户所对应的违约标签,生成对应所述第二金融场景的分类器。
12.一种待分类数据的分类方法,其特征在于,应用于如权利要求1至11任一项所述的对应目标域的分类器;
所述方法包括:
确定所述目标域中的待分类数据;
通过所述对应目标域的分类器对所述待分类数据进行分类,得到对应所述待分类数据的标签。
13.一种分类器的生成装置,其特征在于,所述装置包括:
构建模块,用于基于源域的样本以及目标域的样本,构建所述源域与所述目标域的最大均值差异;
分离模块,用于对所述源域与所述目标域的最大均值差异进行分离;
处理模块,用于根据分离得到的均值差异对优化目标进行分解,得到针对所述源域的变换矩阵;
预测模块,用于基于所述源域的样本以及样本对应的标签、所述目标域的样本、以及所述针对所述源域的变换矩阵,对所述目标域的样本进行预测,得到所述目标域的样本所对应的标签;
生成模块,用于基于所述源域的样本、以及所述目标域的样本所对应的标签,生成对应所述目标域的分类器。
14.一种待分类数据的分类装置,其特征在于,所述装置包括:
确定模块,用于确定目标域中的待分类数据;
分类模块,用于通过对应目标域的分类器对所述待分类数据进行分类,得到对应所述待分类数据的标签。
15.一种分类器的生成设备,其特征在于,所述设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至11任一项所述的分类器的生成方法。
16.一种存储介质,其特征在于,存储有可执行指令,用于引起处理器执行时,实现权利要求1至11任一项所述的分类器的生成方法,或权利要求12任一项所述的待分类数据的分类方法。
CN201911046719.8A 2019-10-30 2019-10-30 分类器的生成方法、装置、设备及存储介质 Active CN110781970B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911046719.8A CN110781970B (zh) 2019-10-30 2019-10-30 分类器的生成方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911046719.8A CN110781970B (zh) 2019-10-30 2019-10-30 分类器的生成方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110781970A true CN110781970A (zh) 2020-02-11
CN110781970B CN110781970B (zh) 2024-04-26

Family

ID=69387885

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911046719.8A Active CN110781970B (zh) 2019-10-30 2019-10-30 分类器的生成方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110781970B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111724487A (zh) * 2020-06-19 2020-09-29 广东浪潮大数据研究有限公司 一种流场数据可视化方法、装置、设备及存储介质
CN113011513A (zh) * 2021-03-29 2021-06-22 华南理工大学 一种基于通用域自适应的图像大数据分类方法
CN113743678A (zh) * 2021-09-18 2021-12-03 中国银行股份有限公司 一种用户信用评分预测方法及相关设备
CN113822353A (zh) * 2021-09-15 2021-12-21 南京邮电大学 一种基于类相关矩阵特征值分解的域自适应方法
CN117151200A (zh) * 2023-10-27 2023-12-01 成都合能创越软件有限公司 基于半监督训练提升yolo检测模型精度方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160078359A1 (en) * 2014-09-12 2016-03-17 Xerox Corporation System for domain adaptation with a domain-specific class means classifier
US20170147944A1 (en) * 2015-11-24 2017-05-25 Xerox Corporation Adapted domain specific class means classifier
US20170220951A1 (en) * 2016-02-02 2017-08-03 Xerox Corporation Adapting multiple source classifiers in a target domain
CN109034186A (zh) * 2018-06-11 2018-12-18 东北大学秦皇岛分校 建立da-rbm分类器模型的方法
CN110378366A (zh) * 2019-06-04 2019-10-25 广东工业大学 一种基于耦合知识迁移的跨域图像分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160078359A1 (en) * 2014-09-12 2016-03-17 Xerox Corporation System for domain adaptation with a domain-specific class means classifier
US20170147944A1 (en) * 2015-11-24 2017-05-25 Xerox Corporation Adapted domain specific class means classifier
US20170220951A1 (en) * 2016-02-02 2017-08-03 Xerox Corporation Adapting multiple source classifiers in a target domain
CN109034186A (zh) * 2018-06-11 2018-12-18 东北大学秦皇岛分校 建立da-rbm分类器模型的方法
CN110378366A (zh) * 2019-06-04 2019-10-25 广东工业大学 一种基于耦合知识迁移的跨域图像分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘振;杨俊安;刘辉;王伟;: "基于域相关性与流形约束的多源域迁移学习分类算法", 计算机应用研究, no. 02, 28 February 2017 (2017-02-28), pages 351 - 356 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111724487A (zh) * 2020-06-19 2020-09-29 广东浪潮大数据研究有限公司 一种流场数据可视化方法、装置、设备及存储介质
CN111724487B (zh) * 2020-06-19 2023-05-16 广东浪潮大数据研究有限公司 一种流场数据可视化方法、装置、设备及存储介质
CN113011513A (zh) * 2021-03-29 2021-06-22 华南理工大学 一种基于通用域自适应的图像大数据分类方法
CN113822353A (zh) * 2021-09-15 2021-12-21 南京邮电大学 一种基于类相关矩阵特征值分解的域自适应方法
CN113822353B (zh) * 2021-09-15 2024-05-17 南京邮电大学 一种基于类相关矩阵特征值分解的域自适应方法
CN113743678A (zh) * 2021-09-18 2021-12-03 中国银行股份有限公司 一种用户信用评分预测方法及相关设备
CN113743678B (zh) * 2021-09-18 2024-05-31 中国银行股份有限公司 一种用户信用评分预测方法及相关设备
CN117151200A (zh) * 2023-10-27 2023-12-01 成都合能创越软件有限公司 基于半监督训练提升yolo检测模型精度方法及***

Also Published As

Publication number Publication date
CN110781970B (zh) 2024-04-26

Similar Documents

Publication Publication Date Title
CN110781970B (zh) 分类器的生成方法、装置、设备及存储介质
Guo et al. Supplier selection based on hierarchical potential support vector machine
CN108898181B (zh) 一种图像分类模型的处理方法、装置及存储介质
CN110929802A (zh) 基于信息熵的细分类识别模型训练、图像识别方法及装置
CN111125406A (zh) 一种基于自适应聚类学习的视觉关系检测方法
CN113657425A (zh) 基于多尺度与跨模态注意力机制的多标签图像分类方法
Xiao et al. Multi-sensor data fusion for sign language recognition based on dynamic Bayesian network and convolutional neural network
KR20220047228A (ko) 이미지 분류 모델 생성 방법 및 장치, 전자 기기, 저장 매체, 컴퓨터 프로그램, 노변 장치 및 클라우드 제어 플랫폼
US20210264300A1 (en) Systems and methods for labeling data
CN116308754B (zh) 一种银行信贷风险预警***及其方法
US20230385597A1 (en) Multi-granularity perception integrated learning method, device, computer equipment and medium
CN111401473A (zh) 基于注意力机制卷积神经网络的红外目标分类方法
CN114999006A (zh) 基于不确定性估计的多模态情感分析方法、装置及设备
EP4318322A1 (en) Data processing method and related device
Zhang Application of artificial intelligence recognition technology in digital image processing
CN111444802A (zh) 一种人脸识别方法、装置及智能终端
WO2022063076A1 (zh) 对抗样本的识别方法及装置
CN110991247A (zh) 一种基于深度学习与nca融合的电子元器件识别方法
CN114299340A (zh) 模型训练方法、图像分类方法、***、设备及介质
CN114118526A (zh) 一种企业风险预测方法、装置、设备及存储介质
CN116740421A (zh) 基于无监督公共子空间学习模型的遥感图像分类方法和装置
US11921821B2 (en) System and method for labelling data for trigger identification
CN110879821A (zh) 评分卡模型衍生标签生成方法、装置、设备及存储介质
CN113010687B (zh) 一种习题标签预测方法、装置、存储介质以及计算机设备
CN116992937A (zh) 神经网络模型的修复方法和相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40021987

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant