CN114154556A - 样本预测模型的训练方法、装置、电子设备及存储介质 - Google Patents

样本预测模型的训练方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114154556A
CN114154556A CN202111297663.0A CN202111297663A CN114154556A CN 114154556 A CN114154556 A CN 114154556A CN 202111297663 A CN202111297663 A CN 202111297663A CN 114154556 A CN114154556 A CN 114154556A
Authority
CN
China
Prior art keywords
sample
prediction
label
classification
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111297663.0A
Other languages
English (en)
Inventor
赵扬
周红伟
董纪伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongdun Technology Co ltd
Original Assignee
Tongdun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongdun Technology Co ltd filed Critical Tongdun Technology Co ltd
Priority to CN202111297663.0A priority Critical patent/CN114154556A/zh
Publication of CN114154556A publication Critical patent/CN114154556A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种样本预测模型的训练方法、装置、电子设备及存储介质,属于数据处理领域,其中,可以采用已知标签的第一样本训练第一模型,再采用第一模型对未知标签的第二样本进行预测确定第二样本对应的第一预测概率,并根据预置分类阈值、第一预测概率对第二样本进行分类获得伪标签,再基于第一样本与伪标签的第二样本训练样本预测模型,其中,预置分类阈值可以通过将第二预测概率作为分类阈值对第一样本进行分类,并确定符合第一分类条件的分类阈值得到,第二预测概率为第一模型对第一样本的预测概率,由于第一样本为已知标签,因此可以通过第一样本对第一模型的分类性能进行检验,保证了第一模型对第二样本进行分类获得伪标签的质量。

Description

样本预测模型的训练方法、装置、电子设备及存储介质
技术领域
本发明涉及数据处理领域,更具体地,涉及一种样本预测模型的训练方法、装置、电子设备及存储介质。
背景技术
伪标签(Pseudo Labeling)算法是一种通过已知标签样本进行模型训练,并采用训练得到的模型对未知标签样本进行预测,得到该模型输出的预测概率,再根据预测概率确定未知标签样本可能对应的伪标签的算法,通过伪标签算法,能够扩大模型训练中的样本容量,提升模型性能。
目前,伪标签算法中通常在预测标签中选择预测概率较高的作为伪标签,但是,直接选择预测概率较高的预测标签可能导致误报、漏报的问题,使得伪标签的质量差,无法准确获得未知标签样本的分类,影响模型性能。
发明内容
本发明提供了一种样本预测模型的训练方法、装置、电子设备及存储介质,以解决在样本预测方法中采用伪标签算法进行模型训练时,伪标签的质量差,无法准确获得未知标签样本的分类,影响模型性能的问题。
本发明第一方面提供了一种样本预测模型的训练方法,该方法可以包括:
获取已知标签的第一样本,以及未知标签的第二样本;
基于所述第一样本进行模型训练,获得第一模型;
采用所述第一模型对所述第二样本进行预测,获得所述第二样本对应的第一预测概率;
采用第一模型对所述第一样本进行预测确定第二预测概率,并将不同所述第二预测概率作为分类阈值对所述第一样本进行分类,将对所述第一样本的分类符合第一分类条件的所述分类阈值作为预置分类阈值;
根据所述预置分类阈值、所述第一预测概率对所述第二样本进行分类,确定所述第二样本对应的伪标签;
采用已知标签的所述第一样本,以及伪标签的所述第二样本进行模型训练,获得样本预测模型。
可选地,将所述采用第一模型对所述第一样本进行预测确定第二预测概率,并将不同所述第二预测概率作为分类阈值对所述第一样本进行分类,将对所述第一样本的分类符合第一分类条件的所述分类阈值作为预置分类阈值的步骤替换为:
将不同所述第一预测概率作为分类阈值或将预设概率作为所述分类阈值对所述第二样本进行分类,并将对所述第二样本的分类符合第二分类条件的所述分类阈值作为预置分类阈值;
所述根据所述预置分类阈值、所述第一预测概率对所述第二样本进行分类,确定所述第二样本对应的伪标签之后,还包括:
确定目标标签对应的所述第一样本与所述目标标签对应的所述第二样本之间的第一相似度标准差,所述目标标签为所述已知标签与所述伪标签间任一同类标签;
确定所述目标标签对应的所述第一样本之间的第二相似度标准差;
在所述第一相似度标准差小于或等于所述第二相似度标准差的情况下,保留所述伪标签。
可选地,所述将不同所述第二预测概率作为分类阈值对所述第一样本进行分类,将对所述第一样本的分类符合第一分类条件的所述分类阈值作为预置分类阈值,包括:
依次将每一所述第二预测概率作为分类阈值,将所述第二预测概率大于或等于所述分类阈值的第一样本确定为第一预测类样本,将所述第二预测概率小于所述分类阈值的第一样本确定为第二预测类样本;
确定每一所述分类阈值对应的所述第一预测类样本与所述第二预测类样本之间的类间方差;
将所述类间方差的最大值对应的所述分类阈值作为预置分类阈值。
可选地,所述第一样本包括第一已知类样本、第二已知类样本,所述确定每一所述分类阈值对应的所述第一预测类样本与所述第二预测类样本之间的类间方差,包括:
确定所述第一预测类样本在所述第一已知类样本中的第一占比,与所述第一预测类样本对应的第一平均概率;
确定所述第二预测类样本在所述第二已知类样本中的第二占比,与所述第二预测类样本对应的第二平均概率;
根据所述第一占比、所述第二占比、所述第一平均概率与所述第二平均概率,确定所述第一预测类样本与所述第二预测类样本之间的类间方差。
可选地,所述确定目标标签对应的所述第一样本与所述目标标签对应的所述第二样本之间的第一相似度标准差,包括:
根据所述伪标签与所述已知标签,确定所述目标标签对应的每一所述第一样本与所述目标标签对应的每一所述第二样本之间的第一相似度;
确定相同所述第二样本对应所述第一相似度之间的标准差,获得所述第一相似度标准差。
可选地,所述根据所述伪标签与所述已知标签,确定所述目标标签对应的每一所述第一样本与所述目标标签对应的每一所述第二样本之间的第一相似度,包括:
根据所述伪标签与所述已知标签,计算所述目标标签对应的每一所述第一样本与所述目标标签对应的每一所述第二样本之间的标准欧氏距离。
可选地,所述确定所述目标标签对应的所述第一样本之间的第二相似度标准差,包括:
确定所述目标标签对应的所述第一样本两两之间的第二相似度;
确定所述第二相似度之间的标准差,获得所述第二相似度标准差。
可选地,所述将不同所述第二预测概率作为分类阈值对所述第一样本进行分类之前,还包括:
对所述第二预测概率进行去重。
本发明第二方面提供了一种样本预测模型的训练装置,该装置可以包括:
样本获取模块,用于获取已知标签的第一样本,以及未知标签的第二样本;
模型训练模块,用于基于所述第一样本进行模型训练,获得第一模型;
概率预测模块,用于采用所述第一模型对所述第二样本进行预测,获得所述第二样本对应的第一预测概率;
阈值确定模块,用于采用第一模型对所述第一样本进行预测确定第二预测概率,并将不同所述第二预测概率作为分类阈值对所述第一样本进行分类,将对所述第一样本的分类符合第一分类条件的所述分类阈值作为预置分类阈值;
样本标记模块,用于根据所述预置分类阈值、所述第一预测概率对所述第二样本进行分类,确定所述第二样本对应的伪标签;
所述模型训练模块,还用于采用已知标签的所述第一样本,以及伪标签的所述第二样本进行模型训练,获得样本预测模型。
可选地,所述阈值确定模块,还用于将不同所述第一预测概率作为分类阈值或将预设概率作为所述分类阈值对所述第二样本进行分类,并将对所述第二样本的分类符合第二分类条件的所述分类阈值作为预置分类阈值;
可选地,所述装置还包括:
第一相似度标准差模块,用于确定目标标签对应的所述第一样本与所述目标标签对应的所述第二样本之间的第一相似度标准差,所述目标标签为所述已知标签与所述伪标签间任一同类标签;
第二相似度标准差模块,用于确定所述目标标签对应的所述第一样本之间的第二相似度标准差;
伪标签筛选模块,用于在所述第一相似度标准差小于或等于所述第二相似度标准差的情况下,保留所述伪标签。
可选地,阈值确定模块,包括:
预测类样本分类子模块,用于依次将每一所述第二预测概率作为分类阈值,将所述第二预测概率大于或等于所述分类阈值的第一样本确定为第一预测类样本,将所述第二预测概率小于所述分类阈值的第一样本确定为第二预测类样本;
类间方差确定子模块,用于确定每一所述分类阈值对应的所述第一预测类样本与所述第二预测类样本之间的类间方差;
阈值确定子模块,用于将所述类间方差的最大值对应的所述分类阈值作为预置分类阈值。
可选地,所述第一样本包括第一已知类样本、第二已知类样本,所述类间方差确定子模块,包括:
第一平均概率单元,用于确定所述第一预测类样本在所述第一已知类样本中的第一占比,与所述第一预测类样本对应的第一平均概率;
第二平均概率单元,用于确定所述第二预测类样本在所述第二已知类样本中的第二占比,与所述第二预测类样本对应的第二平均概率;
类间方差确定单元,用于根据所述第一占比、所述第二占比、所述第一平均概率与所述第二平均概率,确定所述第一预测类样本与所述第二预测类样本之间的类间方差。
可选地,所述第一相似度标准差模块,包括:
第一相似度子模块,用于根据所述伪标签与所述已知标签,确定所述目标标签对应的每一所述第一样本与所述目标标签对应的每一所述第二样本之间的第一相似度;
第一相似度标准差子模块,用于确定相同所述第二样本对应所述第一相似度之间的标准差,获得所述第一相似度标准差。
所述第一相似度子模块,具体用于根据所述伪标签与所述已知标签,计算所述目标标签对应的每一所述第一样本与所述目标标签对应的每一所述第二样本之间的标准欧氏距离。
可选地,第二相似度标准差模块,包括:
第二相似度子模块,用于确定所述目标标签对应的所述第一样本两两之间的第二相似度;
第二相似度标准差子模块,用于确定所述第二相似度之间的标准差,获得所述第二相似度标准差。
可选地,所述阈值确定模块,还用于对所述第二预测概率进行去重。
本发明第三方面提供了一种电子设备,该电子设备包括:接口,总线,存储器与处理器,所述接口、存储器与处理器通过所述总线相连接,所述存储器用于存储可执行程序,所述处理器被配置为运行所述可执行程序实现如第一方面所述的样本预测模型的训练方法的步骤。
本发明第四方面提供了一种计算机存储介质,该计算机可读存储介质上存储可执行程序,所述可执行程序被处理器运行实现如第一方面所述的样本预测模型的训练方法的步骤。
与相关技术相比,本发明具有以下优点:
本发明实施例中提供一种样本预测模型的训练方法,其中,可以采用已知标签的第一样本训练第一模型,再采用第一模型对未知标签的第二样本进行预测确定第二样本对应的第一预测概率,并根据预置分类阈值、第一预测概率对第二样本进行分类获得伪标签,再基于已知标签的第一样本与伪标签的第二样本训练得到样本预测模型,其中,预置分类阈值可以通过将不同第二预测概率作为分类阈值对第一样本进行分类,并确定分类符合第一分类条件的分类阈值得到,第二预测概率为第一模型对第一样本的预测概率,由于第一样本为已知标签,因此可以通过第一样本对第一模型的分类性能进行检验,使得对第一样本的分类符合第一分类条件的需求,从而保证了第一模型对第二样本进行分类获得伪标签的质量,进而保证了基于伪标签的第二样本进行样本扩充训练模型的模型性能。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例提供的一种样本预测模型的训练方法的步骤流程图;
图2是本发明实施例提供的另一种样本预测模型的训练方法的步骤流程图;
图3是本发明实施例提供的又一种样本预测模型的训练方法的步骤流程图;
图4是本发明实施例提供的一种样本预测模型训练的数据处理过程示意图;
图5是本发明实施例提供的一种样本预测模型的训练装置的结构框图;
图6是本发明实施例提供的另一种样本预测模型的训练装置的结构框图;
图7是本发明实施例提供的又一种样本预测模型的训练装置的结构框图;
图8是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
在本发明的各种实施例中,应理解,下述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图1是本发明实施例提供的一种样本预测模型的训练方法的步骤流程图,该方法可以包括:
步骤101、获取已知标签的第一样本,以及未知标签的第二样本。
本发明实施例中,第一样本指已知标签的样本数据,第二样本指未知标签的样本数据,其中标签指对样本的分类标签,已知标签指样本数据中第一样本的分类已知,未知标签指样本数据中第二样本的分类未知。可选地,根据应用场景不同样本数据可以不同,如在风控场景中,样本数据可以是风控相关业务的客户申请信息,在商品分析场景中,样本数据可以是相关商品的客户购买数据,在图像文字识别场景中,样本数据可以是包括文字、背景的图像数据等,在邮件识别场景中,样本数据可以包括普通邮件、垃圾邮件等数据,其中,样本数据是在预先获得客户个人、机构组织等主体授权的情况下获取的,根据数据源、采集条件等限制样本数据的容量、种类可能不同。以风控场景为例,样本数据可以是客户在申请信贷业务时填报的个人数据、指纹数据、审批数据和贷后数据等,还可以包括客户在第三方的征信数据、多头借贷数据和司法税务数据等。
本发明实施例中,第一样本中可以包括至少两种标签的样本数据,且每一条样本数据的标签已知,如第一样本可以包括黑、白样本,以风控场景为例可以包括逾期客户样本、未逾期客户样本,或者欺诈类客户样本、非欺诈类客户样本,以商品分析场景为例可以包括购买商品A的客户样本,未购买商品A的客户样本等,以图像文字识别场景为例可以包括文字样本数据、背景样本数据等;第二样本中可以包括未知标签的样本数据,即第二样本中样本数据的所属的分类未知,可选地,可以直接获得已打标归类的样本数据作为第一样本,未打标归类的样本数据作为第二样本,也可以对获得样本数据中部分进行打标归类作为第一样本,部分不进行打标归类作为第二样本,本发明实施例对此不作具体限制。
步骤102、基于所述第一样本进行模型训练,获得第一模型。
本发明实施例中,可以基于第一样本进行模型训练,通过模型训练学习第一样本中样本数据与标签之间的关系,从而获得可以预测样本数据对应标签,对样本数据进行分类的第一模型,可选地,可以将第一样本分为训练集、验证集,并根据应用需求选择有监督的机器学习模型在训练集上进行训练,再根据验证集进行模型效果验证,直至模型结果达到预期,获得第一模型,其中,机器学习训练模型可以是逻辑回归、支持向量机、决策树等分类算法,本发明实施例对此不作具体限制。
步骤103、采用所述第一模型对所述第二样本进行预测,获得所述第二样本对应的第一预测概率。
本发明实施例中,第二样本为未知标签的样本数据,可以采用第一模型对第二样本中不同样本数据所属分类、对应标签等的概率进行预测,第一模型可以输出第二样本中不同样本数据对应不同标签、分类的第一预测概率,根据该第一预测概率可以确定第二样本所属的分类、标签。
步骤104、采用第一模型对所述第一样本进行预测确定第二预测概率,并将不同所述第二预测概率作为分类阈值对所述第一样本进行分类,将对所述第一样本的分类符合第一分类条件的所述分类阈值作为预置分类阈值。
本发明实施例中,在获得第一模型后,还可以采用第一模型对第一样本进行预测,从而获得第一模型对第一样本的预测结果为第二预测概率,其中,每一样本数据对应的预测概率表示该样本数据对应标签、分类的概率。可选地,在步骤102中可以将第一样本拆分为训练集、验证集、测试集,其中,训练集、验证集用于模型训练获得第一模型,测试集用于步骤104中通过第一模型进行预测得到第二预测概率。
本发明实施例中,分类阈值是用于区分样本数据分类的阈值,可选地,根据模型训练的方法不同,可以是在样本数据对应的预测概率大于或等于分类阈值的情况下,确定该样本数据为黑样本,在预测概率小于分类阈值的情况下,确定该样本数据为白样本,或者,也可以在样本数据对应的预测概率小于分类阈值的情况下,确定该样本数据为黑样本,在预测概率大于或等于分类阈值的情况下,确定该样本数据为白样本等。
本发明实施例中,可以依次将每一第二预测概率作为分类阈值,将第二样本分类为黑样本、白样本,由于第一样本为已知标签的样本数据,因此,通过将每一第二预测概率作为分类阈值分别对第一样本进行分类,可以不同分类阈值对第一样本的分类效果,其中,第一分类条件可以是根据不同分类阈值对第一样本的分类效果达到预期,不同分类阈值对第一样本的分类效可以根据已知标签对第一样本的分类确定。
步骤105、根据所述预置分类阈值、所述第一预测概率对所述第二样本进行分类,确定所述第二样本对应的伪标签。
本发明实施例中,在确定预置分类阈值后,可以在第一模型对第二样本预测得到的第一预测概率中,根据预置分类阈值对第二样本进行标签分类,从而获第二样本中样本数据更准确、有效的伪标签。
步骤106、采用已知标签的所述第一样本,以及伪标签的所述第二样本进行模型训练,获得样本预测模型。
本发明实施例中,确定第二样本对应的伪标签后,可以采用第一样本、第二样本进行模型训练,充分利用伪标签的第二样本,有效扩充样本容量,提高了样本预测模型对样本数据分类预测的准确性。可选地,可以将已知标签的第一样本与伪标签的第二样本合并,重新拆分训练集、验证集,进行模型训练获得样本预测模型。
本发明实施例中提供一种样本预测模型的训练方法,其中,可以采用已知标签的第一样本训练第一模型,再采用第一模型对未知标签的第二样本进行预测确定第二样本对应的第一预测概率,并根据预置分类阈值、第一预测概率对第二样本进行分类获得伪标签,再基于已知标签的第一样本与伪标签的第二样本训练得到样本预测模型,其中,预置分类阈值可以通过将不同第二预测概率作为分类阈值对第一样本进行分类,并确定分类符合第一分类条件的分类阈值得到,第二预测概率为第一模型对第一样本的预测概率,由于第一样本为已知标签,因此可以通过第一样本对第一模型的分类性能进行检验,使得对第一样本的分类符合第一分类条件的需求,从而保证了第一模型对第二样本进行分类获得伪标签的质量,进而保证了基于伪标签的第二样本进行样本扩充训练模型的模型性能。
图2是本发明实施例提供的另一种样本预测模型的训练方法的步骤流程图,如图2所示,该方法可以包括:
步骤201、获取已知标签的第一样本,以及未知标签的第二样本。
本发明实施例中,步骤201可对应参照前述步骤101的相关描述,为避免重复,在此不再赘述。
步骤202、基于所述第一样本进行模型训练,获得第一模型。
本发明实施例中,步骤202可对应参照前述步骤102的相关描述,为避免重复,在此不再赘述。
步骤203、采用所述第一模型对所述第二样本进行预测,获得所述第二样本对应的第一预测概率。
本发明实施例中,步骤203可对应参照前述步骤103的相关描述,为避免重复,在此不再赘述。
步骤204、将不同所述第一预测概率作为分类阈值或将预设概率作为所述分类阈值对所述第二样本进行分类,并将对所述第二样本的分类符合第二分类条件的所述分类阈值作为预置分类阈值。
本发明实施例中,还可以直接采用第二样本对应的第一预测概率作为分类阈值对第二样本进行分类,可以参考前述步骤104的相关描述,在此不再赘述,也可以采用将预设概率作为分类阈值,其中,预设概率可以是自行设定的任意概率,第二分类条件可以是对第二样本的分类准确度、回归准确度等的评估条件,或者,可以是对第二样本分类后先进行样本预测模型的训练,此时,第二分类条件可以是训练样本预测模型模型性能的评估条件,模型性能可以是样本预测模型的准确率、召回率等,当分类阈值对第二样本的分类符合第二分类条件时可以将该分类阈值作为预置分类阈值。
步骤205、根据所述预置分类阈值、所述第一预测概率对所述第二样本进行分类,确定所述第二样本对应的伪标签。
本发明实施例中,步骤205可对应参照前述步骤105的相关描述,为避免重复,在此不再赘述。
步骤206、确定目标标签对应的所述第一样本与所述目标标签对应的所述第二样本之间的第一相似度标准差,所述目标标签为所述已知标签与所述伪标签间任一同类标签。
本发明实施例中,标准差用于表征数据分布的离散程度,相似度用于表征数据的相似程度,在此基础上,相似度标准差可以表征样本数据之间相似度的离散程度。此时,在采用目标分类阈值对第二样本进行分类确定第二样本对应的伪标签后,可以确定同类标签中第二样本与第一样本之间的第一相似度标准差,其中,同类标签指第二样本的黑样本与第一样本的黑样本,或第二样本的白样本与第一样本的白样本,根据应用场景不同,如在风控场景中主要目的在于识别异常的黑样本,因此,可以对第二样本的黑样本与第一样本的黑样本进行处理,以适应应用需求。
步骤207、确定所述目标标签对应的所述第一样本之间的第二相似度标准差。
本发明实施例中,还可以确定目标标签的分类中,第一样本中的样本数据之间的第二相似度标准差,第二相似度标准差的计算可对应参照前述步骤 206中第一相似度标注差计算的相关描述,为避免重复,在此不再赘述。
本发明实施例中,对第一相似度标签、第二相似度标签的计算顺序不作限定,本领域技术人员可以根据实际需求、处理条件等确定计算方式。
步骤208、在所述第一相似度标准差小于或等于所述第二相似度标准差的情况下,保留所述伪标签。
本发明实施例中,第一相似度标准差可以表征第二样本与第一样本之间相似度的离散程度,第二相似度标准差可以表征第一样本两两之间相似度的离散程度,在此基础上,比较第一相似度标准差、第二相似度标准差可以进一步确定伪标签对第二样本分类后,同标签分类的第二样本、第一样本的相似、离散程度关系,如在第一相似度标准差小于或等于第二相似度标准差的情况下,可以确定同类标签分类的第二样本与第一样本之间相似度的离散程度小于或等于同类标签的第一样本与第一样本之间相似度的离散程度,因此,可以保留伪标签,反之,相似度的离散程度大,则同标签分类的第二样本中可能存在相似度过小的样本,伪标签分类不准确,此时,可以重新进行前述确定伪标签的步骤,或执行其他对样本、参数的调整步骤。
步骤209、采用已知标签的所述第一样本,以及伪标签的所述第二样本进行模型训练,获得样本预测模型。
本发明实施例中,步骤209可以对应参考前述步骤106的相关描述,为避免重复,在此不再赘述。
本发明实施例中提供了另一种样本预测模型的训练方法,其中,可以采用已知标签的第一样本训练第一模型,再采用第一模型对未知标签的第二样本进行预测确定第二样本对应的第一预测概率,并根据预置分类阈值、第一预测概率对第二样本进行分类获得伪标签,再基于已知标签的第一样本与伪标签的第二样本训练得到样本预测模型,其中,预置分类阈值可以通过将不同第一预测概率作为分类阈值或采用预设概率作为分类阈值对第二样本进行分类,并确定分类符合第二分类条件的分类阈值得到,在获得伪标签后可以确定目标标签对应的第一样本与第二样本之间的第一相似度标准差,以及目标标签对应第一样本之间的第二相似度标准差,并根据第一相似度标准差是否小于或等于第二相似度标准差对伪标签进行筛选,目标标签为已知标签与伪标签间任一同类标签,此时,伪标签对第二样本的分类结果使得第一样本与第二样本的同类样本之间相似度的离散程度小于或等于第一样本中两两样本之间相似度的离散程度,使得通过伪标签对第二样本的分类结果与通过已知标签对第一样本的分类结果分布相近,保证了伪标签的质量,进而保证了基于伪标签的第二样本进行样本扩充训练模型的模型性能。
图3是本发明实施例提供的又一种样本预测模型的训练方法,如图3所示,该方法可以包括:
步骤301、获取已知标签的第一样本,以及未知标签的第二样本。
本发明实施例中,步骤301可对应参照前述步骤101的相关描述,为避免重复,在此不再赘述。
本发明实施例中,以风控场景为例,风控场景的线上信贷业务中申请阶段存在个人身份伪造欺诈、中介***、团伙欺诈等风险,由于欺诈风险难以识别,样本积累少,此时,可以获取客户申请信贷业务时留存的个人数据、第三方调用服务数据等,如可以获取客户的身份证号、申请时间、申请设备、申请人联系人、申请人公司名称、申请人公司地址、申请人是否命中高风险名单、申请人历史借贷情况等,进一步地,可以根据客户数据和业务数据对部分客户进行标记,从而获得已知标签的第一样本,未标记的客户作为未知标签的第二样本。
本发明实施例中,可以根据已有的业务策略对客户进行拦截,将拦截到的欺诈客户、贷后首逾客户等风险客户标记为欺诈客户,根据已有的白名单客户、贷后无逾期客户等客户标记为未欺诈客户,获得包括欺诈客户、未欺诈客户的第一样本,在客户数据中去除第一样本即可获得未知标签的灰样本客户数据。
本发明实施例中,可以对第一样本、第二样本进行关键信息提取、数据清洗、处理等,如可以根据业务场景、模型需求进行入模特征的构造、筛选等。
步骤302、基于所述第一样本进行模型训练,获得第一模型。
本发明实施例中,步骤302可对应参照前述步骤102的相关描述,为避免重复,在此不再赘述。
步骤303、采用所述第一模型对所述第二样本进行预测,获得所述第二样本对应的第一预测概率。
本发明实施例中,步骤303可对应参照前述步骤103的相关描述,为避免重复,在此不再赘述。
步骤304、采用第一模型对所述第一样本进行预测确定第二预测概率,并将不同所述第二预测概率作为分类阈值对所述第一样本进行分类,将对所述第一样本的分类符合第一分类条件的所述分类阈值作为预置分类阈值。
本发明实施例中,步骤304可对应参照前述步骤104的相关描述,为避免重复,在此不再赘述。
可选地,所述步骤304包括:
步骤S11、依次将每一所述第二预测概率作为分类阈值,将所述第二预测概率大于或等于所述分类阈值的第一样本确定为第一预测类样本,将所述第二预测概率小于所述分类阈值的第一样本确定为第二预测类样本。
本发明实施例中,可以将依次将每一第二预测概率作为分类阈值,根据分类阈值以及第一样本中各样本数据对应的第二预测概率,对第一样本进行分类,可选地,可以将第二预测概率大于或等于分类阈值的第一样本确定为第一预测类样本,将第二预测概率小于分类阈值的第一样本确定为第二预测类样本。
如,第一样本中包括样本11、样本12、样本13、样本14、样本15,第一模型对第一样本进行预测,分别得到样本11的第二预测概率a1,样本12 的第二预测概率b1,样本13的第二预测概率c1,样本14的第二预测概率 d1,样本15的第二预测概率e1。
此时,依次将a1、b1、c1、d1、e1作为分类阈值,对第一样本进行分类,在a1、b1、c1、d1、e1依次减小的情况下,以a1为分类阈值,则样本 11为第一预测类样本,样本12、样本13、样本14、样本15为第二预测类样本;以b1为分类阈值,则样本11、样本12为第一预测类样本,样本13、样本14、样本15为第二预测类样本,以此类推。
步骤S12、确定每一所述分类阈值对应的所述第一预测类样本与所述第二预测类样本之间的类间方差。
本发明实施例中,类间方差是一种表征样本分类准确率的参数,类间方差越大,表示样本被错误分类的概率越小,可选地,可以分别确定不同分类阈值对第一样本分类后得到的第一预测类样本与第二预测类样本的类间方差,从而确定不同分类阈值对第一样本的分类效果,其中,可以根据第一样本的已知标签确定根据分类阈值对第一样本是否正确分配。
可选地,所述步骤304中将不同所述第二预测概率作为分类阈值对所述第一样本进行分类之前,还包括:
步骤S13、对所述第二预测概率进行去重。
本发明实施例中,依次将每一第二预测概率作为分类阈值,因此,在步骤304中可以对第二预测概率进行去重,避免重复操作,进一步地,还可以对去重后的第二预测概率进行排序,以使步骤304有序执行。
可选地,所述第二样本包括第一已知类样本、第二已知类样本。
本发明实施例中,第一样本可以包括二分类的样本数据,由于第一样本为已知标签的样本数据,因此,可以将第一样本分为第一已知类样本、第二已知类样本的两类样本数据,其中,第一、第二仅用于区别样本数据的标签分类。
可选地,所述步骤S12,包括:
步骤S121、确定所述第一预测类样本在所述第一已知类样本中的第一占比,与所述第一预测类样本对应的第一平均概率。
步骤S122、确定所述第二预测类样本在所述第二已知类样本中的第二占比,与所述第二预测类样本对应的第二平均概率。
本发明实施例中,根据经第一模型预测、分类后在第一样本中确定的第一预测类样本、第二预测类样本,以及第一样本中已知的第一已知类样本、第二已知类样本,可以确定第一预测类样本相对第一已知类样本的第一占比,以及第二预测类样本相对第二已知类样本的第二占比,以及分别确定第一预测类样本对应第一预测概率的第一平均概率,以及第二预测类样本对应第一预测概率的第二平均概率,从而可以表征预测分类与实际分类的关系,以确定预测阈值对第一样本的分类效果。
如,第一样本中样本11、样本12为第一已知类样本,样本13、样本14、样本15为第二已知类样本;在采用第一模型对第一样本预测后,以a1为分类阈值,则样本11为第一预测类样本,样本12、样本13、样本14、样本 15为第二预测类样本,此时,可以确定:
第一占比f0=样本11/(样本11+样本12);
第二占比f1=(样本12+样本13+样本14+样本15)/(样本13+样本14+ 样本15);
第一平均概率p0=a1;
第二平均概率p1=(b1+c1+d1+e1)/4。
步骤S123、根据所述第一占比、所述第二占比、所述第一平均概率与所述第二平均概率,确定所述第一预测类样本与所述第二预测类样本之间的类间方差。
本发明实施例中,在确定不同分类阈值对应的第一占比、第二占比、第一平均概率以及第二平均概率后,可以根据第一占比、第二占比、第一平均概率以及第二平均概率确定采用该分类阈值的类间方差,其中,类间方差是一种用于表征两类数据差别大小的参数,当其中一类数据被错误分配到另一类数据时,会导致类间方差变小。
其中,先采用如下公式(1)计算总平均概率p:
p=f0*p0+f1*p1.......................(1)
其中,p为总平均概率,f0为第一占比样本、f1为第二占比、p0为第一平均概率、p1为第二平均概率。
则,类间方差V采用如下公式(2)计算得到:
Figure 1
步骤S13、将所述类间方差的最大值对应的所述分类阈值作为预置分类阈值。
本发明实施例中,由上述内容可知,类间方差越小则表示第一样本中不同分类之间错误分类的概率越大,因此,在类间方差最大的情况下,分类阈值可以达到对第一样本的有效分类,此时,可以将类间方差的最大值对应的分类阈值作为预置分类阈值,应用到后续对第二样本的分类中。
步骤305、根据所述预置分类阈值、所述第一预测概率对所述第二样本进行分类,确定所述第二样本对应的伪标签。
本发明实施例中,步骤305可对应参照前述步骤105的相关描述,为避免重复,在此不再赘述。
步骤306、确定目标标签对应的所述第一样本与所述目标标签对应的所述第二样本之间的第一相似度标准差,所述目标标签为所述已知标签与所述伪标签间任一同类标签。
本发明实施例中,步骤306可对应参照前述步骤106的相关描述,为避免重复,在此不再赘述。
可选地,所述步骤306,包括:
步骤S21、根据所述伪标签与所述已知标签,确定所述目标标签对应的每一所述第一样本与所述目标标签对应的每一所述第二样本之间的第一相似度。
本发明实施例中,伪标签与已知标签用于区分标签的标记方式,包含标签的种类、数量相同,第一样本根据已知标签分类,第二样本根据伪标签进行分类,此时,可以确定同类标签对应的每一第二样本与每一第一样本之间的第一相似度,可选地,第一相似度可以采用不同方式计算,如可以采用欧式距离、标准欧式距离、余弦相似度、马氏距离等,本发明实施例对计算第一相似度的方式不作具体限制。
可选地,所述步骤S21,具体包括根据所述伪标签与所述已知标签,计算所述目标标签对应的每一所述第一样本与所述目标标签对应的每一所述第二样本之间的标准欧氏距离。
本发明实施例中,可以采用计算第二样本与第一样本之间标准欧式距离的方式计算第二样本与第一样本的相似度,如,对第二样本中的黑样本进行提取获得伪标签集合S(s1,s2,s3...sn),第一样本中的黑样本进行提取获得已知标签集合L(l1,l2,l3...lk)可以采用如下公式(3)计算:
Figure BDA0003335990690000151
其中,xi为伪标签集合中第二样本si的特征序列,yi为已知标签集合中 li的特征序列,si为两个序列分量的标准差,dij为标准欧式距离。
步骤S22、确定相同所述第二样本对应所述第一相似度之间的标准差,获得所述第一相似度标准差。
本发明实施例中,在计算相似度的过程中,同类标签的每一第二样本可获得与每一第一样本对的第一相似度,此时,可以通过同一第二样本对应每一第一样本的第一相似度的离散程度,获得第一相似度标准差,从而每一第二样本可获得对应的第一相似度标准差。
如,通过公式(3),伪标签集合S(s1,s2,s3...sn)中每一第二样本si可以获得与已知标签集合L(l1,l2,l3...lk)的相似度集合Di(di1,di2,di3....dik),此时,可以采用如下公式(4)计算Di的标准差:
Figure BDA0003335990690000152
其中,sdi为第一相似度标准差,d为第一相似度的平均值,di为第一相似度。
步骤307、确定所述目标标签对应的所述第一样本之间的第二相似度标准差。
本发明实施例中,步骤307可对应参照前述步骤207的相关描述,为避免重复,在此不再赘述。
可选地,所述步骤307,包括:
步骤S31、确定所述目标标签对应的所述第一样本两两之间的第二相似度。
本发明实施例中,步骤S31中第二相似度的计算可对应参照前述步骤S21的相关描述,为避免重复,在此不再赘述。
可选地,所述步骤S31,具体包括确定所述目标标签对应的所述第一样本两两之间的第二相似度标准欧式距离。
步骤S32、确定所述第二相似度之间的标准差,获得所述第二相似度标准差。
本发明实施例中,步骤S32中第二相似度标准差的计算可对应参照前述步骤S22的相关描述,为避免重复,在此不再赘述。
本发明实施例中,也可以对第二相似度标准差进行保留,在基于第一样本的后续模型训练、更新中,可以直接获取保留的第二相似度标准差以对伪标签进行筛选。
步骤308、在所述第一相似度标准差小于或等于所述第二相似度标准差的情况下,保留所述伪标签。
本发明实施例中,步骤308可对应参照前述步骤208的相关描述,为避免重复,在此不再赘述。
步骤309、采用已知标签的所述第一样本,以及伪标签的所述第二样本进行模型训练,获得样本预测模型。
本发明实施例中,步骤309可以对应参考前述步骤106的相关描述,为避免重复,在此不再赘述。
本发明实施例中提供一种样本预测模型的训练方法,其中,可以采用已知标签的第一样本训练第一模型,再采用第一模型对未知标签的第二样本进行预测确定第二样本对应的第一预测概率,并根据预置分类阈值、第一预测概率对第二样本进行分类获得伪标签,再基于已知标签的第一样本与伪标签的第二样本训练得到样本预测模型,其中,预置分类阈值可以通过将不同第二预测概率作为分类阈值对第一样本进行分类,并确定分类符合第一分类条件的分类阈值得到,第二预测概率为第一模型对第一样本的预测概率,由于第一样本为已知标签,因此可以通过第一样本对第一模型的分类性能进行检验,使得对第一样本的分类符合第一分类条件的需求,从而保证了第一模型对第二样本进行分类获得伪标签的质量;在获得伪标签后可以确定目标标签对应的第一样本与第二样本之间的第一相似度标准差,以及目标标签对应第一样本之间的第二相似度标准差,并根据第一相似度标准差是否小于或等于第二相似度标准差对伪标签进行筛选,目标标签为已知标签与伪标签间任一同类标签,此时,伪标签对第二样本的分类结果使得第一样本与第二样本的同类样本之间相似度的离散程度小于或等于第一样本中两两样本之间相似度的离散程度,使得通过伪标签对第二样本的分类结果与通过已知标签对第一样本的分类结果分布相近,进一步保证了伪标签的质量,进而保证了基于伪标签的第二样本进行样本扩充训练模型的模型性能。
本发明实施例中,以风控场景为例,提供了一种样本预测模型训练的数据处理过程示意图,如图4所示,在客户个人、机构组织授权的情况下,获取客户的申请信息数据401、第三方数据401、申请结果数据403等数据表,其中,申请信息数据401包括申请ID、申请时间、身份证号、姓名、手机号、公司、家庭住址、联系人电话,第三方数据402包括查询时间、身份证、姓名、涉诉、第三方黑名单、近X个月借贷次数,申请结果数据403包括申请ID、申请结果、原因等,申请结果可以是拒绝、通过;
对申请信息数据401、第三方数据402进行特征加工、整合后获得特征表404,并对申请结果数据403进行处理,获得标签分类表405,其中,特征表404包括申请ID及其对应的特征数据,标签分类表405包括申请ID及其对应的标签分类,标签分类可以包括1、0、未知;
根据标签分类表405对特征表404中不同申请ID的数据进行标记,获得已知标签的第一样本,与未知标签的第二样本,对第一样本进行拆分,获得训练集数据406、验证集数据407以及测试集数据408等数据表,采用训练集数据406、验证集数据407以及测试集数据408进行模型训练,获得第一模型;
采用第一模型对第一样本、第二样本进行概率预测,获得不同预测概率,并计算以第一样本对应不同预测概率为分类阈值的情况下分类后,不同预测分类间第一样本的类间方差409,根据类间方差的最大值确定预置分类阈值;
根据预置分类阈值以及第一模型对第二样本预测的预测概率确定分属伪标签的第二样本,并确定伪标签的第二样本与已知标签的第一样本的相似度410,再确定第一样本中两两之间的相似度,比较各相似度的标准差,确定是否保留伪标签;
根据特征表404以及伪标签的第二样本411进行模型训练获得样本预测模型;
获取未知标签的第三样本412,采用样本预测模型对未知标签的第三样本进行预测,获得预测概率413。
根据该预测概率413对第三样本412进行分类。
本发明实施例中,保证了对未知标签的第二样本标记伪标签的准确性,从而在基于第二样本进行样本扩充后,保证了训练得到的样本预测模型的模型性能,能够实现对未知标签的第三样本更准确的预测。
图5是本发明实施例提供的一种样本预测模型的训练装置50,如图5 所示,该装置可以包括:
样本获取模块501,用于获取已知标签的第一样本,以及未知标签的第二样本;
模型训练模块502,用于基于所述第一样本进行模型训练,获得第一模型;
概率预测模块503,用于采用所述第一模型对所述第二样本进行预测,获得所述第二样本对应的第一预测概率;
阈值确定模块504,用于采用第一模型对所述第一样本进行预测确定第二预测概率,并将不同所述第二预测概率作为分类阈值对所述第一样本进行分类,将对所述第一样本的分类符合第一分类条件的所述分类阈值作为预置分类阈值;
样本标记模块505,用于根据所述预置分类阈值、所述第一预测概率对所述第二样本进行分类,确定所述第二样本对应的伪标签;
所述模型训练模块502,还用于采用已知标签的所述第一样本,以及伪标签的所述第二样本进行模型训练,获得样本预测模型。
本发明实施例中提供一种样本预测模型的训练装置,其中,可以采用已知标签的第一样本训练第一模型,再采用第一模型对未知标签的第二样本进行预测确定第二样本对应的第一预测概率,并根据预置分类阈值、第一预测概率对第二样本进行分类获得伪标签,再基于已知标签的第一样本与伪标签的第二样本训练得到样本预测模型,其中,预置分类阈值可以通过将不同第二预测概率作为分类阈值对第一样本进行分类,并确定分类符合第一分类条件的分类阈值得到,第二预测概率为第一模型对第一样本的预测概率,由于第一样本为已知标签,因此可以通过第一样本对第一模型的分类性能进行检验,使得对第一样本的分类符合第一分类条件的需求,从而保证了第一模型对第二样本进行分类获得伪标签的质量,进而保证了基于伪标签的第二样本进行样本扩充训练模型的模型性能。
图6是本发明实施例提供的另一种样本预测模型的训练装置60,如图6 所示,该装置可以包括:
样本获取模块601,用于获取已知标签的第一样本,以及未知标签的第二样本;
模型训练模块602,用于基于所述第一样本进行模型训练,获得第一模型;
概率预测模块603,用于采用所述第一模型对所述第二样本进行预测,获得所述第二样本对应的第一预测概率;
阈值确定模块604,用于将不同所述第一预测概率作为分类阈值或将预设概率作为所述分类阈值对所述第二样本进行分类,并将对所述第二样本的分类符合第二分类条件的所述分类阈值作为预置分类阈值;
样本标记模块605,用于根据所述预置分类阈值、所述第一预测概率对所述第二样本进行分类,确定所述第二样本对应的伪标签;
第一相似度标准差模块606,用于确定目标标签对应的所述第一样本与所述目标标签对应的所述第二样本之间的第一相似度标准差,所述目标标签为所述已知标签与所述伪标签间任一同类标签;
第二相似度标准差模块607,用于确定所述目标标签对应的所述第一样本之间的第二相似度标准差;
伪标签筛选模块608,用于在所述第一相似度标准差小于或等于所述第二相似度标准差的情况下,保留所述伪标签。
所述模型训练模块602,还用于采用已知标签的所述第一样本,以及伪标签的所述第二样本进行模型训练,获得样本预测模型。
本发明实施例中提供了另一种样本预测模型的训练装置,其中,可以采用已知标签的第一样本训练第一模型,再采用第一模型对未知标签的第二样本进行预测确定第二样本对应的第一预测概率,并根据预置分类阈值、第一预测概率对第二样本进行分类获得伪标签,再基于已知标签的第一样本与伪标签的第二样本训练得到样本预测模型,其中,预置分类阈值可以通过将不同第一预测概率作为分类阈值或采用预设概率作为分类阈值对第二样本进行分类,并确定分类符合第二分类条件的分类阈值得到,在获得伪标签后可以确定目标标签对应的第一样本与第二样本之间的第一相似度标准差,以及目标标签对应第一样本之间的第二相似度标准差,并根据第一相似度标准差是否小于或等于第二相似度标准差对伪标签进行筛选,目标标签为已知标签与伪标签间任一同类标签,此时,伪标签对第二样本的分类结果使得第一样本与第二样本的同类样本之间相似度的离散程度小于或等于第一样本中两两样本之间相似度的离散程度,使得通过伪标签对第二样本的分类结果与通过已知标签对第一样本的分类结果分布相近,保证了伪标签的质量,进而保证了基于伪标签的第二样本进行样本扩充训练模型的模型性能。
图7是本发明实施例提供的又一种样本预测模型的训练装置70,如图7 所示,该装置可以包括:
样本获取模块701,用于获取已知标签的第一样本,以及未知标签的第二样本;
模型训练模块702,用于基于所述第一样本进行模型训练,获得第一模型;
概率预测模块703,用于采用所述第一模型对所述第二样本进行预测,获得所述第二样本对应的第一预测概率;
阈值确定模块704,用于采用第一模型对所述第一样本进行预测确定第二预测概率,并将不同所述第二预测概率作为分类阈值对所述第一样本进行分类,将对所述第一样本的分类符合第一分类条件的所述分类阈值作为预置分类阈值;
样本标记模块705,用于根据所述预置分类阈值、所述第一预测概率对所述第二样本进行分类,确定所述第二样本对应的伪标签;
第一相似度标准差模块706,用于确定目标标签对应的所述第一样本与所述目标标签对应的所述第二样本之间的第一相似度标准差,所述目标标签为所述已知标签与所述伪标签间任一同类标签;
第二相似度标准差模块707,用于确定所述目标标签对应的所述第一样本之间的第二相似度标准差;
伪标签筛选模块708,用于在所述第一相似度标准差小于或等于所述第二相似度标准差的情况下,保留所述伪标签。
所述模型训练模块702,还用于采用已知标签的所述第一样本,以及伪标签的所述第二样本进行模型训练,获得样本预测模型。
可选地,阈值确定模块704,包括:
预测类样本分类子模块7041,用于依次将每一所述第二预测概率作为分类阈值,将所述第二预测概率大于或等于所述分类阈值的第一样本确定为第一预测类样本,将所述第二预测概率小于所述分类阈值的第一样本确定为第二预测类样本;
类间方差确定子模块7042,用于确定每一所述分类阈值对应的所述第一预测类样本与所述第二预测类样本之间的类间方差;
阈值确定子模块7043,用于将所述类间方差的最大值对应的所述分类阈值作为预置分类阈值。
可选地,所述第一样本包括第一已知类样本、第二已知类样本,所述类间方差确定子模块7042,包括:
第一平均概率单元,用于确定所述第一预测类样本在所述第一已知类样本中的第一占比,与所述第一预测类样本对应的第一平均概率;
第二平均概率单元,用于确定所述第二预测类样本在所述第二已知类样本中的第二占比,与所述第二预测类样本对应的第二平均概率;
类间方差确定单元,用于根据所述第一占比、所述第二占比、所述第一平均概率与所述第二平均概率,确定所述第一预测类样本与所述第二预测类样本之间的类间方差。
可选地,所述第一相似度标准差模块706,包括:
第一相似度子模块7061,用于根据所述伪标签与所述已知标签,确定所述目标标签对应的每一所述第一样本与所述目标标签对应的每一所述第二样本之间的第一相似度;
第一相似度标准差子模块7062,用于确定相同所述第二样本对应所述第一相似度之间的标准差,获得所述第一相似度标准差。
所述第一相似度子模块,具体用于根据所述伪标签与所述已知标签,计算所述目标标签对应的每一所述第一样本与所述目标标签对应的每一所述第二样本之间的标准欧氏距离。
可选地,第二相似度标准差模块707,包括:
第二相似度子模块7071,用于确定所述目标标签对应的所述第一样本两两之间的第二相似度;
第二相似度标准差子模块7072,用于确定所述第二相似度之间的标准差,获得所述第二相似度标准差。
可选地,所述阈值确定模块704,还用于对所述第二预测概率进行去重。
本发明实施例中提供一种样本预测模型的训练装置,其中,可以采用已知标签的第一样本训练第一模型,再采用第一模型对未知标签的第二样本进行预测确定第二样本对应的第一预测概率,并根据预置分类阈值、第一预测概率对第二样本进行分类获得伪标签,再基于已知标签的第一样本与伪标签的第二样本训练得到样本预测模型,其中,预置分类阈值可以通过将不同第二预测概率作为分类阈值对第一样本进行分类,并确定分类符合第一分类条件的分类阈值得到,第二预测概率为第一模型对第一样本的预测概率,由于第一样本为已知标签,因此可以通过第一样本对第一模型的分类性能进行检验,使得对第一样本的分类符合第一分类条件的需求,从而保证了第一模型对第二样本进行分类获得伪标签的质量;在获得伪标签后可以确定目标标签对应的第一样本与第二样本之间的第一相似度标准差,以及目标标签对应第一样本之间的第二相似度标准差,并根据第一相似度标准差是否小于或等于第二相似度标准差对伪标签进行筛选,目标标签为已知标签与伪标签间任一同类标签,此时,伪标签对第二样本的分类结果使得第一样本与第二样本的同类样本之间相似度的离散程度小于或等于第一样本中两两样本之间相似度的离散程度,使得通过伪标签对第二样本的分类结果与通过已知标签对第一样本的分类结果分布相近,进一步保证了伪标签的质量,进而保证了基于伪标签的第二样本进行样本扩充训练模型的模型性能。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
图8是本发明实施例提供的一种电子设备的结构示意图,如图8所示,所述电子设备80包括:接口801,总线802,存储器803与处理器804,所述接口801、存储器803与处理器804通过所述总线802相连接,所述存储器803用于存储可执行程序,所述处理器804被配置为运行所述可执行程序实现如图1至图4任一所述的样本预测模型的训练方法的步骤。
本发明实施例还提供了一种计算机存储介质,所述计算机可读存储介质上存储可执行程序,所述可执行程序被处理器运行实现如图1至图4任一所述的样本预测模型的训练方法的步骤。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (10)

1.一种样本预测模型的训练方法,其特征在于,所述方法包括:
获取已知标签的第一样本,以及未知标签的第二样本;
基于所述第一样本进行模型训练,获得第一模型;
采用所述第一模型对所述第二样本进行预测,获得所述第二样本对应的第一预测概率;
采用第一模型对所述第一样本进行预测确定第二预测概率,并将不同所述第二预测概率作为分类阈值对所述第一样本进行分类,将对所述第一样本的分类符合第一分类条件的所述分类阈值作为预置分类阈值;
根据所述预置分类阈值、所述第一预测概率对所述第二样本进行分类,确定所述第二样本对应的伪标签;
采用已知标签的所述第一样本,以及伪标签的所述第二样本进行模型训练,获得样本预测模型。
2.根据权利要求1所述的方法,其特征在于,将所述采用第一模型对所述第一样本进行预测确定第二预测概率,并将不同所述第二预测概率作为分类阈值对所述第一样本进行分类,将对所述第一样本的分类符合第一分类条件的所述分类阈值作为预置分类阈值的步骤替换为:
将不同所述第一预测概率作为分类阈值或将预设概率作为所述分类阈值对所述第二样本进行分类,并将对所述第二样本的分类符合第二分类条件的所述分类阈值作为预置分类阈值;
所述根据所述预置分类阈值、所述第一预测概率对所述第二样本进行分类,确定所述第二样本对应的伪标签之后,还包括:
确定目标标签对应的所述第一样本与所述目标标签对应的所述第二样本之间的第一相似度标准差,所述目标标签为所述已知标签与所述伪标签间任一同类标签;
确定所述目标标签对应的所述第一样本之间的第二相似度标准差;
在所述第一相似度标准差小于或等于所述第二相似度标准差的情况下,保留所述伪标签。
3.根据权利要求1所述的方法,其特征在于,所述将不同所述第二预测概率作为分类阈值对所述第一样本进行分类,将对所述第一样本的分类符合第一分类条件的所述分类阈值作为预置分类阈值,包括:
依次将每一所述第二预测概率作为分类阈值,将所述第二预测概率大于或等于所述分类阈值的第一样本确定为第一预测类样本,将所述第二预测概率小于所述分类阈值的第一样本确定为第二预测类样本;
确定每一所述分类阈值对应的所述第一预测类样本与所述第二预测类样本之间的类间方差;
将所述类间方差的最大值对应的所述分类阈值作为预置分类阈值。
4.根据权利要求3所述的方法,其特征在于,所述第一样本包括第一已知类样本、第二已知类样本,所述确定每一所述分类阈值对应的所述第一预测类样本与所述第二预测类样本之间的类间方差,包括:
确定所述第一预测类样本在所述第一已知类样本中的第一占比,与所述第一预测类样本对应的第一平均概率;
确定所述第二预测类样本在所述第二已知类样本中的第二占比,与所述第二预测类样本对应的第二平均概率;
根据所述第一占比、所述第二占比、所述第一平均概率与所述第二平均概率,确定所述第一预测类样本与所述第二预测类样本之间的类间方差。
5.根据权利要求2所述的方法,其特征在于,所述确定目标标签对应的所述第一样本与所述目标标签对应的所述第二样本之间的第一相似度标准差,包括:
根据所述伪标签与所述已知标签,确定所述目标标签对应的每一所述第一样本与所述目标标签对应的每一所述第二样本之间的第一相似度;
确定相同所述第二样本对应所述第一相似度之间的标准差,获得所述第一相似度标准差。
6.根据权利要求5所述的方法,其特征在于,所述根据所述伪标签与所述已知标签,确定所述目标标签对应的每一所述第一样本与所述目标标签对应的每一所述第二样本之间的第一相似度,包括:
根据所述伪标签与所述已知标签,计算所述目标标签对应的每一所述第一样本与所述目标标签对应的每一所述第二样本之间的标准欧氏距离。
7.根据权利要求2所述的方法,其特征在于,所述确定所述目标标签对应的所述第一样本之间的第二相似度标准差,包括:
确定所述目标标签对应的所述第一样本两两之间的第二相似度;
确定所述第二相似度之间的标准差,获得所述第二相似度标准差。
8.一种样本预测模型的训练装置,其特征在于,所述装置包括:
样本获取模块,用于获取已知标签的第一样本,以及未知标签的第二样本;
模型训练模块,用于基于所述第一样本进行模型训练,获得第一模型;
概率预测模块,用于采用所述第一模型对所述第二样本进行预测,获得所述第二样本对应的第一预测概率;
阈值确定模块,用于采用第一模型对所述第一样本进行预测确定第二预测概率,并将不同所述第二预测概率作为分类阈值对所述第一样本进行分类,将对所述第一样本的分类符合第一分类条件的所述分类阈值作为预置分类阈值;
样本标记模块,用于根据所述预置分类阈值、所述第一预测概率对所述第二样本进行分类,确定所述第二样本对应的伪标签;
所述模型训练模块,还用于采用已知标签的所述第一样本,以及伪标签的所述第二样本进行模型训练,获得样本预测模型。
9.一种电子设备,所述电子设备包括:接口,总线,存储器与处理器,所述接口、存储器与处理器通过所述总线相连接,所述存储器用于存储可执行程序,所述处理器被配置为运行所述可执行程序实现如权利要求1~7任一所述的样本预测模型的训练方法的步骤。
10.一种计算机存储介质,所述计算机可读存储介质上存储可执行程序,所述可执行程序被处理器运行实现如权利要求1~7任一所述的样本预测模型的训练方法的步骤。
CN202111297663.0A 2021-11-03 2021-11-03 样本预测模型的训练方法、装置、电子设备及存储介质 Pending CN114154556A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111297663.0A CN114154556A (zh) 2021-11-03 2021-11-03 样本预测模型的训练方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111297663.0A CN114154556A (zh) 2021-11-03 2021-11-03 样本预测模型的训练方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114154556A true CN114154556A (zh) 2022-03-08

Family

ID=80459237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111297663.0A Pending CN114154556A (zh) 2021-11-03 2021-11-03 样本预测模型的训练方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114154556A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114978616A (zh) * 2022-05-06 2022-08-30 支付宝(杭州)信息技术有限公司 风险评估***的构建方法及装置、风险评估方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114978616A (zh) * 2022-05-06 2022-08-30 支付宝(杭州)信息技术有限公司 风险评估***的构建方法及装置、风险评估方法及装置
CN114978616B (zh) * 2022-05-06 2024-01-09 支付宝(杭州)信息技术有限公司 风险评估***的构建方法及装置、风险评估方法及装置

Similar Documents

Publication Publication Date Title
TW201730766A (zh) 異常訪問檢測方法及設備
CN109816200B (zh) 任务推送方法、装置、计算机设备和存储介质
WO2021164232A1 (zh) 用户识别方法、装置、设备及存储介质
CN109801151B (zh) 财务造假风险监控方法、装置、计算机设备和存储介质
CN111460250A (zh) 用于画像的数据的清洗方法、装置、介质及电子设备
CN111145006A (zh) 基于用户画像的汽车金融反欺诈模型训练方法和装置
US10423817B2 (en) Latent fingerprint ridge flow map improvement
CN114298176A (zh) 一种欺诈用户检测方法、装置、介质及电子设备
CN111818198A (zh) 域名检测方法、域名检测装置和设备以及介质
CN115186303B (zh) 一种基于大数据云平台的金融签章安全管理方法及***
CN112487284A (zh) 银行客户画像生成方法、设备、存储介质及装置
CN112418167A (zh) 图像的聚类方法、装置、设备和存储介质
CN111833175A (zh) 基于knn算法的互联网金融平台申请欺诈行为检测方法
CN111445058A (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN112990989B (zh) 价值预测模型输入数据生成方法、装置、设备和介质
CN114154556A (zh) 样本预测模型的训练方法、装置、电子设备及存储介质
CN113011961B (zh) 公司关联信息风险监测方法、装置、设备及存储介质
CN112035775B (zh) 基于随机森林模型的用户识别方法、装置和计算机设备
CN113887214A (zh) 基于人工智能的意愿推测方法、及其相关设备
CN113988226B (zh) 数据脱敏有效性验证方法、装置、计算机设备及存储介质
CN112926989B (zh) 一种基于多视图集成学习的银行贷款风险评估方法及设备
CN115801309A (zh) 基于大数据的计算机终端接入安全验证方法及***
CN111931229B (zh) 一种数据识别方法、装置和存储介质
CN114266643A (zh) 基于融合算法的企业挖掘方法、装置、设备及存储介质
CN112712423A (zh) 疑似非法集资项目判断方法、装置、计算机设备与存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination