CN118013421A

CN118013421A - 分类模型训练方法、分类方法、装置和设备

Info

Publication number: CN118013421A
Application number: CN202410186760.XA
Authority: CN
Inventors: 刘庆富; 陆颂华; 郑凯鑫; 王晓平; 毛宇星
Original assignee: Haitong Securities Co ltd
Current assignee: Haitong Securities Co ltd
Priority date: 2024-02-20
Filing date: 2024-02-20
Publication date: 2024-05-10

Abstract

本申请提供了一种分类模型训练方法、分类方法、装置和设备。该分类模型训练方法包括：响应于训练指令，基于预先建立的风险文本集计算至少一个样本对象对应的交互风险指标值；根据各交互风险指标值，将样本对象划分为预设数量个集群；基于样本对象的原始特征信息进行所有样本对象的群体关联，得到各样本对象对应的优化特征信息；原始特征信息为预先采集得到；将携带有样本对象所在集群对应集群标签的优化特征信息输入初始的集成分类模型，得到训练完成的集成分类模型。本申请的方法能够丰富用于描述样本对象的特征，使得最终训练得到的集成分类模型的预测结果更准确。

Description

分类模型训练方法、分类方法、装置和设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种分类模型训练方法、分类方法、装置和设备。

背景技术

上市公司的财务欺诈行为会对投资者、资本市场甚至社会环境造成严重的不良影响，因此，对财务欺诈的有效识别是投资者、中介机构和监管部门共同关注的重要课题。然而，对财务欺诈识别的分析研究存在诸多局限性。

常见的财务欺诈识别、风险识别方法因为缺少有效的识别指标，对应的风险识别结果往往不够准确，从而无法实现有效的风险识别。

发明内容

本申请提供一种分类模型训练方法、分类方法、装置和设备，用以解决现有技术中风险识别准确度低的问题。

第一方面，本申请提供一种分类模型训练方法，包括：

响应于训练指令，基于预先建立的风险文本集计算至少一个样本对象对应的交互风险指标值；

根据各所述交互风险指标值，将所述样本对象划分为预设数量个集群；

基于所述样本对象的原始特征信息进行所有所述样本对象的群体关联，得到各所述样本对象对应的优化特征信息；所述原始特征信息为预先采集得到；

将携带有所述样本对象所在集群对应集群标签的优化特征信息输入初始的集成分类模型，得到训练完成的集成分类模型。

在其中一个实施例中，所述响应于训练指令，基于预先建立的风险文本集计算至少一个样本对象对应的交互风险指标值，包括：

响应于所述训练指令，获取所述训练指令对应样本对象的媒体文本信息；

将所述媒体文本信息与所述风险文本集中的风险词汇进行比对，基于所述媒体文本信息中出现所述风险词汇的频率计算所述交互风险指标值。

在其中一个实施例中，所述训练指令携带有时期标签；

所述响应于所述训练指令，获取所述训练指令对应样本对象的媒体文本信息，包括：

根据所述时期标签确定所述训练指令对应的目标时间段；

获取所述目标时间段内所述样本对象的媒体文本信息。

在其中一个实施例中，所述根据各所述交互风险指标值，将所述样本对象划分为预设数量个集群，包括：

将所述交互风险指标值与依次排列的预设数量个指标值范围进行比对匹配；所述指标值范围与所述集群一一对应；

根据所述交互风险指标值符合的指标值范围，确定所述交互风险指标值对应的集群。

在其中一个实施例中，所述基于所述样本对象的原始特征信息进行所有所述样本对象的群体关联，得到各所述样本对象对应的优化特征信息，包括：

基于各所述样本对象的原始特征信息，构建两两所述样本对象之间的相似度信息；

根据所述相似度信息，建立任一样本对象与其余所有样本对象的群体关联结构；

针对所述群体关联结构形成的至少一个分布群体，根据各所述分布群体内样本对象的原始特征信息，处理得到所述样本对象对应的群体特征信息；所述分布群体包含至少一个所述样本对象；

将所述原始特征信息和所述群体特征信息作为所述优化特征信息。

在其中一个实施例中，所述将携带有所述样本对象所在集群对应集群标签的优化特征信息输入初始的集成分类模型，得到训练完成的集成分类模型之前，包括：

根据各所述样本对象所在集群，生成所述优化特征信息对应的集群标签；

从至少一个学习算法中确定出目标学习算法，并采用所述目标学习算法得到初始的集成分类模型；所述集成分类模型通过集成至少两个底层模型得到。

在其中一个实施例中，所述将携带有所述样本对象所在集群对应集群标签的优化特征信息输入初始的集成分类模型，得到训练完成的集成分类模型，包括：

按照预设比例，将携带有所述集群标签的优化特征信息分为训练集和测试集；

将所述训练集输入初始的集成分类模型，得到初次训练得到的集成分类模型；

将所述测试集输入初次训练得到的集成分类模型，得到各所述样本对象的初次分类结果；

根据所述初次分类结果，处理得到所述目标学习算法的预测均值；

根据所述初次分类结果和所述集群标签，计算各所述样本对象对应的预测标准差，形成所述目标学习算法对应的预测标准差集合；

从所述预测标准差集合中，选取出预设迭代数量个预测标准差对应的优化特征信息加入所述训练集中，形成新的训练集；所述优化特征信息携带有根据所述预测均值生成的初次分类标签；

将新的训练集输入初次训练得到的集成分类模型，得到二次训练得到的集成分类模型，以此类推进行训练集的迭代更新，直到最新的训练集满足预设条件，则采用最新的训练集和所述测试集得到训练完成的集成分类模型。

在其中一个实施例中，所述按照预设比例，将携带有所述集群标签的优化特征信息分为训练集和测试集之后，还包括：

根据所述训练集中的优化特征信息和所述测试集中的优化特征信息，计算得到样本差值；

所述从所述预测标准差集合中，选取出预设迭代数量个预测标准差对应的优化特征信息加入所述训练集中，形成新的训练集之后，还包括：

根据新的训练集中的优化特征信息和原始的训练集中的优化特征信息，计算得到迭代差值；

所述将新的训练集输入初次训练得到的集成分类模型，得到二次训练得到的集成分类模型，以此类推进行训练集的迭代更新，直到最新的训练集满足预设条件，则采用最新的训练集和所述测试集得到训练完成的集成分类模型，包括：

将新的训练集输入初次训练得到的集成分类模型，得到二次训练得到的集成分类模型，以此类推进行训练集的迭代更新，当最新的训练集对应的迭代差值达到所述样本差值时，采用最新的训练集和所述测试集得到训练完成的集成分类模型。

第二方面，本申请还提供了一种分类方法，包括：

响应于分类指令，采集所述分类指令对应目标对象的原始特征信息；

将所述目标对象的原始特征信息输入采用如权利要求1-9中任一项所述的分类模型训练方法训练得到的集成分类模型，得到分类结果。

第三方面，本申请还提供了一种分类模型训练装置，包括：

计算模块，用于响应于训练指令，基于预先建立的风险文本集计算至少一个样本对象对应的交互风险指标值；

划分模块，用于根据各所述交互风险指标值，将所述样本对象划分为预设数量个集群；

关联模块，用于基于所述样本对象的原始特征信息进行所有所述样本对象的群体关联，得到各所述样本对象对应的优化特征信息；所述原始特征信息为预先采集得到；

训练模块，用于将携带有所述样本对象所在集群对应集群标签的优化特征信息输入初始的集成分类模型，得到训练完成的集成分类模型。

第四方面，本申请还提供了一种分类装置，包括：

采集模块，用于响应于分类指令，采集所述分类指令对应目标对象的原始特征信息；

分类模块，用于将所述目标对象的原始特征信息输入采用如权利要求1-9中任一项所述的分类模型训练方法训练得到的集成分类模型，得到分类结果。

第五方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一实施例所述的分类模型训练方法或分类方法。

第六方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例所述的分类模型训练方法或分类方法。

第七方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序产品被处理器执行时实现上述任一实施例所述的分类模型训练方法或分类方法。

上述分类模型训练方法、分类方法、装置和设备，能够基于交互风险指标值将样本对象进行集群划分，以对各个样本对象的状态异常可能性进行粗分类，随后，针对不同的维度，基于样本对象的原始特征信息进行样本对象的群体关联，从而获取反映相似样本对象之间相互作用关系的关联特征，从而丰富用于描述样本对象的特征，使得对样本对象的描述更贴切；并且，采用集成分类模型作为原始模型，能够增加模型的集成和动态调节能力，使得最终训练得到的集成分类模型的预测结果更准确。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为一个实施例中分类模型训练方法或分类方法的应用环境图；

图2为一个实施例中分类模型训练方法的流程示意图；

图3为一个实施例中分类模型训练方法的流程示意图；

图4为一个实施例中分类模型训练方法的流程示意图；

图5为一个实施例中分类模型训练方法的流程示意图；

图6为一个实施例中分类模型训练方法的流程示意图；

图7为一个实施例中分类模型训练方法的流程示意图；

图8为一个实施例中分类模型训练方法的流程示意图；

图9为一个实施例中分类模型训练方法的流程示意图；

图10为一个实施例中分类模型训练装置的结构示意图；

图11为一个实施例中分类方法的流程示意图；

图12为一个实施例中分类装置的结构示意图；

图13为一个实施例中计算机设备的内部结构图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

本申请实施例提供的分类模型训练方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。

例如，分类模型训练方法应用于终端102，终端102在接收到训练指令后，能够从服务器104的数据存储***中获取预先建立的风险文本集，随后基于风险文本集计算至少一个样本对象对应的交互风险指标值；终端102根据各交互风险指标值，将样本对象划分为预设数量个集群；并基于样本对象的原始特征信息进行所有样本对象的群体关联，得到各样本对象对应的优化特征信息；原始特征信息为预先采集得到；最后终端102将携带有样本对象所在集群对应集群标签的优化特征信息输入初始的集成分类模型，得到训练完成的集成分类模型。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。第一服务器104和第二服务器108可以用独立的服务器或者是多个服务器组成的服务器集群来实现。第一终端102和第一服务器104、第一服务器104和第二终端106、第一服务器104和第二服务器108可以通过有线或无线通信方式进行直接或间接的连接，例如通过网络连接。

又例如，风险预测方法应用于服务器104，终端102在接收到训练指令时，将训练指令发送给服务器104，随后服务器104根据训练指令，从数据存储***中获取预先建立的风险文本集，并基于风险文本集计算至少一个样本对象对应的交互风险指标值；服务器104根据各交互风险指标值，将样本对象划分为预设数量个集群；并基于样本对象的原始特征信息进行所有样本对象的群体关联，得到各样本对象对应的优化特征信息；原始特征信息为预先采集得到；最后服务器104将携带有样本对象所在集群对应集群标签的优化特征信息输入初始的集成分类模型，得到训练完成的集成分类模型。可以理解的是，数据存储***可为独立的存储设备，或者该数据存储***位于服务器104上，或者该数据存储***位于另一终端上。

需要说明的是，终端102与服务器104之间的网络通信适用于不同的网络制式，例如，可以适用于全球移动通讯(Global System of Mobile communication，简称GSM)、码分多址(Code Division Multiple Access，简称CDMA)、宽带码分多址(Wideband CodeDivision Multiple Access，简称WCDMA)、时分同步码分多址(Time Division-Synchronous Code Division Multiple Access，简称TD-SCDMA)、长期演进(Long TermEvolution，简称LTE)***及未来的5G等网络制式。可选的，上述通信***可以为5G通信***中高可靠低时延通信(Ultra-Reliable and Low Latency Communications，URLLC)传输的场景中的***。

故而，可选的，上述基站可以是GSM或CDMA中的基站(Base Transceiver Station，简称BTS)和/或基站控制器，也可以是WCDMA中的基站(NodeB，简称NB)和/或无线网络控制器(Radio Network Controller，简称RNC)，还可以是LTE中的演进型基站(EvolutionalNode B，简称eNB或eNodeB)，或者中继站或接入点，或者未来5G网络中的基站(gNB)等，本申请在此并不限定。

上述终端102可以是无线终端也可以是有线终端。无线终端可以是指向用户提供语音和/或其他业务数据连通性的设备，具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。无线终端可以经无线接入网(Radio Access Network，简称RAN)与一个或多个核心网设备进行通信，无线终端可以是移动终端，如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机，例如，可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置，它们与无线接入网交换语言和/或数据。再例如，无线终端还可以是个人通信业务(Personal Communication Service，简称PCS)电话、无绳电话、会话发起协议(Session Initiation Protocol，简称SIP)话机、无线本地环路(Wireless Local Loop，简称WLL)站、个人数字助理(Personal Digital Assistant，简称PDA)等设备。无线终端也可以称为***、订户单元(Subscriber Unit)、订户站(Subscriber Station)，移动站(MobileStation)、移动台(Mobile)、远程站(Remote Station)、远程终端(Remote Terminal)、接入终端(Access Terminal)、用户终端(User Terminal)、用户代理(User Agent)、用户设备(User Device or User Equipment)，在此不作限定。可选的，上述终端设备还可以是智能手表、平板电脑等设备。

在一个实施例中，提供了一种分类模型训练方法，本实施例以该分类模型训练方法应用于终端进行举例说明，可以理解的是，该分类模型训练方法也可以应用于服务器，还可以应用于包括终端和服务器的***，并通过终端和服务器的交互实现。如图2所示，该分类模型训练方法包括：

步骤202、响应于训练指令，基于预先建立的风险文本集计算至少一个样本对象对应的交互风险指标值。

训练指令指的是对初始的分类模型进行训练的指令。作为示例，初始的分类模型可以是如逻辑回归、决策树、支持向量机、神经网络等。本实施例中的训练指令可以是工作人员通过终端的人机交互界面发出的，又或者，训练指令可以按照既定规则自动生成，例如按照一定的频率触发，本实施例对接收训练指令的方式以及训练指令的生成方式在此不作限定。

风险文本集指的是包含有至少一个风险词汇的集合。风险词汇表示在不同维度指示一个对象异常状态相关的词汇。作为示例，风险文本集例如可以包含：财务，会计，审计，税款，账目，资产，负债，收入，利润，业绩，偿付，现金流，预算，开支，经营，债务，资金，贷款，费用，融资，投资，报表，财报，披露等与对象的交互状态相关的风险文本集；或造假，作假，涉嫌，指控，失实，爆出，虚假，弄虚作假，捏造，炒作，不实，隐瞒，利益输送，爆料，起底，查出，不属实，篡改，黑幕，舞弊，欺诈，疑点，违反，虚报，揭露，纠纷，举报，偷工减料，虚增，虚减等与对象在经营过程中的诚信状态相关的风险文本集。

样本对象指的可以是具备经营能力、与其他对象交互能力的独立实体。

交互风险指标值用于指示样本对象的异常状态可能性，交互风险指标值越高，则代表样本对象的状态异常可能性越高，交互风险指标值越低，则代表样本对象的状态异常可能性越低。

作为示例，终端可以采集样本对象的相关文本信息，并将样本对象的相关文本信息中出现风险文本集中风险词汇的次数作为交互风险指标值。

步骤204、根据各交互风险指标值，将样本对象划分为预设数量个集群。

集群用于指示样本对象的状态异常可能性的一个区间，处于同一集群内的样本对象对应的状态异常可能性相近。

终端将样本对象的交互风险指标值进行划分，实际是按照各个样本对象的状态出现异常的可能性，将所有样本对象进行分类。

步骤206、基于样本对象的原始特征信息进行所有样本对象的群体关联，得到各样本对象对应的优化特征信息；原始特征信息为预先采集得到。

原始特征信息指的是能够反映样本对象多维度的基本情况的特征。作为示例，原始特征信息按照类型划分，可以包括样本对象的财务因子、公司治理因子、市场因子、情绪因子等。

群体关联指的是基于样本对象多维度的基本情况的特征，在同一维度内基本情况相近的样本对象之间建立联系的处理方式。

建立样本对象间的群体关联使得每一个样本对象能够基于不同维度被分配至不同的相似群体内，从而建立起同一维度内特征相似的样本对象之间的关联，这使得各个样本对象能够进一步被挖掘出用于体现群体关联关系的特征。

优化特征信息指的是在各个样本对象的原始特征信息的基础上，增加上述体现群体关联关系的特征后得到的、用于描述各个样本对象的基本情况、以及体现不同维度对应的相似群体内样本对象的彼此影响情况的相关信息。

建立样本对象间的群体关联能够在基础的特征信息上，体现出同一群体内其余相似样本对象对当前样本对象的影响，从而丰富用于描述样本对象的特征，使得对样本对象的描述更贴切。

步骤208、将携带有样本对象所在集群对应集群标签的优化特征信息输入初始的集成分类模型，得到训练完成的集成分类模型。

集群标签可以为字母、字符或数字中的至少一种组成，集群标签可以用于对应的一个集群。

集群标签可以预先生成的，且集群标签与集群的映射关系是一一对应的，服务器的数据存储***中预先存储有至少一种集群标签与集群的一一映射关系。

在本实施例中，终端在步骤204中将样本对象划分为预设数量个集群后，可以直接获取各个集群对应的集群标签标记在样本对象对应的原始特征信息上，随后在步骤206中，终端在根据原始特征信息生成优化特征信息时，优化特征信息上也相应携带上了原始特征信息上标记的集群标签，最后终端将携带有集群标签的优化特征信息输入集成分类模型，完成模型训练，得到训练完成的集成分类模型。

集成分类模型指的是采用至少两个底层模型拼接而成的分类模型。作为示例，本实施例中的集成分类模型可以采用18个底层模型进行多类学习算法预测，这18个底层模型可以报考包括2种判别分析方法(LDA和QDA)、2种定性响应回归(Logit和Probit)、1种贝叶斯分类(NaiveBayes)、3种决策树算法(Tree-ID3、Tree-C4.5和Tree-CART)、3种人工神经网络方法(ANN1、ANN2和ANN3)、3种支持向量机模型(SVM-Lin、SVM-Poly和SVM-RBF)、4种距离度量学习算法(KNN、NCA、ITML和LMNN)。

上述分类模型训练方法中，终端在接收到训练指令后，能够计算样本对象的交互风险指标值，并基于交互风险指标值将样本对象进行集群划分，以对各个样本对象的状态异常可能性进行粗分类，随后，针对不同的维度，基于样本对象的原始特征信息进行样本对象的群体关联，从而获取反映相似样本对象之间相互作用关系的关联特征，从而丰富用于描述样本对象的特征，使得对样本对象的描述更贴切；并且，采用至少两个底层模型集成得到的集成分类模型作为原始模型，能够增加模型的集成和动态调节能力，使得最终训练得到的集成分类模型的预测结果更准确。

如图3所示，在一些可选的实施例中，步骤202包括：

步骤2022、响应于训练指令，获取训练指令对应样本对象的媒体文本信息；

步骤2024、将媒体文本信息与风险文本集中的风险词汇进行比对，基于媒体文本信息中出现风险词汇的频率计算交互风险指标值。

媒体文本信息指的是通过各种媒体形式传播的文本内容，包括文字、图片、音频、视频等形式的信息。这些信息可以通过报纸、杂志、电视、广播、互联网等媒体渠道传播，用于传达各种信息、观点或故事。其中，媒体文本信息可以按照传播渠道或按照文本发布时间分为多份。

其中，如图4所示，在一些可选的实施例中，训练指令携带有时期标签；

步骤2022包括：

步骤20222、根据时期标签确定训练指令对应的目标时间段；

步骤20224、获取目标时间段内样本对象的媒体文本信息。

本实施例中，时期标签可以为字母、字符或数字中的至少一种组成，时期标签可以用于标识特定的一个时间段。

时期标签与时间段的映射关系是一一对应的，服务器的数据存储***中预先存储有至少一种时期标签与时间段的一一映射关系。

在本实施例中，终端在接收到训练指令后，首先获取训练指令携带的时期标签，随后从上述映射关系中直接查询到与时期标签匹配的时间段作为训练指令对应的目标时间段，并进一步获取目标时间段内产生的样本对象的媒体文本信息。

工作人员可以通过删除、修改、新增训练指令携带的时期标签的方式，实现对产生媒体文本信息的目标时间段的控制。

在此基础上，终端可以按照目标时间段，进行媒体文本信息的采集。

又或者，终端可以通过多渠道采集所有能够采集到的、与风险文本集中的风险词汇存在重叠的基础媒体文本信息，并提取出所有基础媒体文本信息对应的基础对象。

随后，终端通过多渠道采集各个样本对象相关的、在各种媒体形式传播的文本内容作为媒体文本信息，随后将媒体文本信息与风险文本集中的每一个风险词汇进行比对，并记录每个样本对象的媒体文本信息中出现风险词汇的次数，最后根据基础媒体文本信息、基础对象和每个样本对象的媒体文本信息中出现风险词汇的次数计算交互风险指标值。

步骤2024可以采用如下公式计算得到交互风险指标值：

其中，FSFP_it表示第i个样本对象在目标时间段t内的交互风险指标值；M_it表示采集到的基础媒体文本信息，j表示媒体文本信息的份数；N_it表示第i个样本对象在目标时间段t内产生的媒体文本信息；(ATF×IIF)_itj表示第i个样本对象在目标时间段t内的第j份媒体文本信息对应的总词频-逆个体频率(Aggregated term frequency-inverseindividual frequency,ATF-IIF)，ATF表示第i个样本对象在目标时间段t内的第j份媒体文本信息出现风险文本集中风险词汇的频率的总和，IIF为预设年度产生的样本对象的数值与所有基础对象的数值的比值。

如图5所示，在一些可选的实施例中，步骤204包括：

步骤2042、将交互风险指标值与依次排列的预设数量个指标值范围进行比对匹配；指标值范围与集群一一对应；

步骤2044、根据交互风险指标值符合的指标值范围，确定交互风险指标值对应的集群。

终端在计算得到各个样本对象的交互风险指标值后，将样本对象的交互风险指标值与各个指标值范围进行比对，并将符合的指标值范围对应的集群作为当前样本对象对应的集群。

又或者，终端也可以将交互风险指标值与依次排列的预设数量个指标值阈值进行比对匹配，并根据交互风险指标值达到的指标值阈值确定对应的集群。其中，指标值阈值可以根据所有样本对象的交互风险指标值的均值确定。

作为示例，终端可以将交互风险指标值为0的样本对象归为“无风险样本”这一集群，将交互风险指标值大于0、但未达到上述均值的样本对象归为“低风险样本”这一集群，将交互风险指标值达到上述均值的样本对象归为“高风险样本”这一集群。

如图6所示，在一些可选的实施例中，步骤206包括：

步骤2062、基于各样本对象的原始特征信息，构建两两样本对象之间的相似度信息；

步骤2064、根据相似度信息，建立任一样本对象与其余所有样本对象的群体关联结构；

步骤2066、针对群体关联结构形成的至少一个分布群体，根据各分布群体内样本对象的原始特征信息，处理得到样本对象对应的群体特征信息；分布群体包含至少一个样本对象；

步骤2068、将原始特征信息和群体特征信息作为优化特征信息。

需要说明的是，本申请涉及的原始特征信息用以表示常见、常规的样本对象在多维度上的基础情况，本申请对原始特征信息包含的具体信息内容、获取原始特征信息的方式不做限制，对本领域技术人员而言，应当能够意识到凡涉及本申请中根据原始特征信息进行群体关联、以扩展特征信息的内容，即使对原始特征信息包含的具体信息内容、获取原始特征信息的方式做出了同等替换和显而易见的变化，相应方案也均应包含在本申请的保护范围内。

在步骤2062中，终端能够对各样本对象的原始特征信息进行分词与磁转特征向量处理后，计算两两样本对象之间的余弦相似度，得到两两样本对象之间的关联情况，并随后在步骤2064中采用复杂网络群体检测算法进行群体识别，得到最终的群体关联结构。

作为示例，终端能够对各样本对象的原始特征信息中包含的年度报告的文本数据进行分词与磁转特征向量处理。

在步骤2066中，例如可以计算当前分布群体中所有样本对象的交互风险指标值的群体均值，并将每个样本对象的交互风险指标值与群体均值的差值作为群体特征信息中的群体比较风险因子；又或者，可以获取当前分布群体中所有样本对象的风险预防措施的加权平均值，该加权平均值可以是预先设置的。

在另一种实施例中，目标时间段例如可以包含至少两个预设周期的跨度，则终端还能够获取各样本对象当前一个跨度周期的交互风险指标值与前一个跨度周期的交互风险指标值之间的周期差值。

如图7所示，在一些可选的实施例中，步骤208之前，包括：

步骤2071、根据各样本对象所在集群，生成优化特征信息对应的集群标签；

步骤2072、从至少一个学习算法中确定出目标学习算法，并采用目标学习算法得到初始的集成分类模型；集成分类模型通过集成至少一个底层模型得到。

如上，集群标签可以是字母、字符或数字中的至少一种组成，集群标签可以用于对应的一个集群，集群标签可以预先生成的，且集群标签与集群的映射关系是一一对应的，终端能够根据样本对象对应的集群，匹配到对应的集群标签标记在样本对象上。

终端可以利用堆叠泛化和自适应学习这两种元学习算法对至少两个底层模型进行集成，并从K个机器学习算法中确定出一个作为目标学习算法k，其中，k∈K，从而根据目标学习算法k处理得到底层模型，即初始的集成分类模型M_k0。

如图8所示，在一些可选的实施例中，步骤208包括：

步骤2081、按照预设比例，将携带有集群标签的优化特征信息分为训练集和测试集；

步骤2082、将训练集输入初始的集成分类模型，得到初次训练得到的集成分类模型；

步骤2083、将测试集输入初次训练得到的集成分类模型，得到各样本对象的初次分类结果；

步骤2084、根据初次分类结果，处理得到目标学习算法的预测均值；

步骤2085、根据初次分类结果和集群标签，计算各样本对象对应的预测标准差，形成目标学习算法对应的预测标准差集合；

步骤2086、从预测标准差集合中，选取出预设迭代数量个预测标准差对应的优化特征信息加入训练集中，形成新的训练集；优化特征信息携带有根据预测均值生成的初次分类标签；

步骤2087、将新的训练集输入初次训练得到的集成分类模型，得到二次训练得到的集成分类模型，以此类推进行训练集的迭代更新，直到最新的训练集满足预设条件，则采用最新的训练集和测试集得到训练完成的集成分类模型。

预设比例例如可以是7:3。

作为示例，在原始特征信息可以包含至少两个预设周期的特征信息的基础上，优化特征信息同样可以包含至少两个预设周期的特征信息，又或者，可以采用留一法进行测试集和训练集的交叉验证划分选取，以其中一个预设周期的样本对象的优化特征信息作为验证集，而剩余预设周期的样本对象的优化特征信息作为训练集。

本实施例中，步骤2081中可以将N份优化特征信息分为训练集和测试集，其中训练集包含M份优化特征信息，标记为其中,Z_m表示训练集中的第m份优化特征信息，y_m表示训练集中优化特征信息携带的集群标签，测试集包含N-M份优化特征信息，标记为/>其中,Z_n表示测试集中的第m份优化特征信息，y_n表示测试集中优化特征信息携带的集群标签。

将训练集中的M份优化特征信息输入初始的集成分类模型M_k0，得到初次训练得到的集成分类模型M_k1，随后将测试集中N-M份优化特征信息输入初次训练得到的集成分类模型M_k1，得到测试集相应的预测结果集合作为初次分类结果，其中/>

随后在步骤2084中，终端根据初次分类结果处理得到目标学习算法的预测均值

进一步的，终端在步骤2085中根据初次分类结果和测试集中N-M份优化特征信息的集群标签y_n，计算各样本对象对应的预测标准差/>得到目标学习算法对应的预测标准差集合/>/>

随后，从预测集合差集合中挑选出预设迭代数量个预测标准差，其中，预设迭代数量可以根据优化特征信息的总数量N和训练集中的优化特征信息的总数量M确定，预设迭代数量例如可以是随后从预测集合差集合中挑选出d个预测标准差组成特征集X₁(n)，特征集X₁(n)可以表示为：

随后将该特征集X(n)和上述预测均值组成新的数据集V₁加入训练集中，形成新的训练集/>数据集V₁可以表示为：

其中，

将新的训练集输入初次训练得到的集成分类模型M_k1，得到二次训练得到的集成分类模型M_k2，相应的得到第二次分类结果/>预测均值/>和预测标准差集合/>以及新的数据集V₂，以此类推进行训练集的迭代更新，直到进行q次迭代后得到的最新的训练集V_q满足预设条件，则采用最新的训练集V_q和测试集/>得到训练完成的集成分类模型。

如图9所示，在一些可选的实施例中，步骤2081之后，还包括：

步骤901、根据训练集中的优化特征信息和测试集中的优化特征信息，计算得到样本差值；

步骤2086之后，还包括：

步骤902、根据新的训练集中的优化特征信息和原始的训练集中的优化特征信息，计算得到迭代差值。

步骤2087包括：

步骤2087a、将新的训练集输入初次训练得到的集成分类模型，得到二次训练得到的集成分类模型，以此类推进行训练集的迭代更新，当最新的迭代差值达到样本差值时，采用最新的训练集和测试集得到训练完成的集成分类模型。

在步骤2081后，可以首先计算训练集中的样本数量M与所有样本数量N的差值，即M-N作为样本差值。

在步骤2086后，在第一次进行训练集中样本数量的更新、即获取到数据集V₁后，可以计算新的训练集中的样本数量M+d与所有样本数量N的差值作为迭代样本差值，即d。

在步骤2087a中，在训练集的迭代更新过程中，最新的迭代差值可以根据第q次迭代后获取到的数据集V_q计算得到，即dq，当dq>M-N时，终端可以结束迭代，并采用最新的训练集V_q和测试集得到训练完成的集成分类模型。

上述分类模型训练方法，能够基于交互风险指标值将样本对象进行集群划分，以对各个样本对象的状态异常可能性进行粗分类，随后，针对不同的维度，基于样本对象的原始特征信息进行样本对象的群体关联，从而获取反映相似样本对象之间相互作用关系的关联特征，从而丰富用于描述样本对象的特征，使得对样本对象的描述更贴切；并且，采用至少两个底层模型集成得到的集成分类模型作为原始模型，能够增加模型的集成和动态调节能力，使得最终训练得到的集成分类模型的预测结果更准确。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的分类模型训练方法的分类模型训练装置。该分类模型训练装置所提供的解决问题的实现方案与上述分类模型训练方法中所记载的实现方案相似，故下面所提供的一个或多个装置实施例中的具体限定可以参见上文中对于分类模型训练方法的限定，在此不再赘述。

在一个实施例中，如图10所示，提供了一种分类模型训练装置1000，包括计算模块1002、划分模块1004、关联模块1006和训练模块1008：

计算模块1002用于响应于训练指令，基于预先建立的风险文本集计算至少一个样本对象对应的交互风险指标值；

划分模块1004用于根据各交互风险指标值，将样本对象划分为预设数量个集群；

关联模块1006用于基于样本对象的原始特征信息进行所有样本对象的群体关联，得到各样本对象对应的优化特征信息；原始特征信息为预先采集得到；

训练模块1008用于将携带有样本对象所在集群对应集群标签的优化特征信息输入初始的集成分类模型，得到训练完成的集成分类模型。

在一些可选的实施例中，计算模块1002还被配置为：

响应于训练指令，获取训练指令对应样本对象的媒体文本信息；

将媒体文本信息与风险文本集中的风险词汇进行比对，基于媒体文本信息中出现风险词汇的频率计算交互风险指标值。

在一些可选的实施例中，训练指令携带有时期标签；

计算模块1002还被配置为：

根据时期标签确定训练指令对应的目标时间段；

获取目标时间段内样本对象的媒体文本信息。

在一些可选的实施例中，划分模块1004还被配置为：

将交互风险指标值与依次排列的预设数量个指标值范围进行比对匹配；指标值范围与集群一一对应；

根据交互风险指标值符合的指标值范围，确定交互风险指标值对应的集群。

在一些可选的实施例中，关联模块1006还被配置为：

基于各样本对象的原始特征信息，构建两两样本对象之间的相似度信息；

根据相似度信息，建立任一样本对象与其余所有样本对象的群体关联结构；

针对群体关联结构形成的至少一个分布群体，根据各分布群体内样本对象的原始特征信息，处理得到样本对象对应的群体特征信息；分布群体包含至少一个样本对象；

将原始特征信息和群体特征信息作为优化特征信息。

在一些可选的实施例中，训练模块1008还被配置为：

根据各样本对象所在集群，生成优化特征信息对应的集群标签；

从至少一个学习算法中确定出目标学习算法，并采用目标学习算法得到初始的集成分类模型；集成分类模型通过集成至少一个底层模型得到。

在一些可选的实施例中，训练模块1008还被配置为：

按照预设比例，将携带有集群标签的优化特征信息分为训练集和测试集；

将训练集输入初始的集成分类模型，得到初次训练得到的集成分类模型；

将测试集输入初次训练得到的集成分类模型，得到各样本对象的初次分类结果；

根据初次分类结果，处理得到目标学习算法的预测均值；

根据初次分类结果和集群标签，计算各样本对象对应的预测标准差，形成目标学习算法对应的预测标准差集合；

从预测标准差集合中，选取出预设迭代数量个预测标准差对应的优化特征信息加入训练集中，形成新的训练集；优化特征信息携带有根据预测均值生成的初次分类标签；

将新的训练集输入初次训练得到的集成分类模型，得到二次训练得到的集成分类模型，以此类推进行训练集的迭代更新，直到最新的训练集满足预设条件，则采用最新的训练集和测试集得到训练完成的集成分类模型。

在一些可选的实施例中，训练模块1008还被配置为：

根据新的训练集中的优化特征信息和测试集中的优化特征信息，计算得到新的训练集与测试集的迭代样本差值；

以及

将新的训练集输入初次训练得到的集成分类模型，得到二次训练得到的集成分类模型，以此类推进行训练集的迭代更新，当最新的训练集对应的迭代差值达到样本差值时，采用最新的训练集和测试集得到训练完成的集成分类模型。

上述分类模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，如图11所示，提供了一种分类方法，该分类方法包括：

步骤1102、响应于分类指令，采集分类指令对应目标对象的原始特征信息；

步骤1104、将目标对象的原始特征信息输入采用分类模型训练方法训练得到的集成分类模型，得到分类结果。

分类指令指的是对一个对象状态异常的可能性程度进行分类的指令。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的分类方法的分类装置。该分类装置所提供的解决问题的实现方案与上述分类方法中所记载的实现方案相似，故下面所提供的一个或多个装置实施例中的具体限定可以参见上文中对于分类方法的限定，在此不再赘述。

在一个实施例中，如图12所示，提供了一种分类装置1200，包括：

采集模块1202、用于响应于分类指令，采集分类指令对应目标对象的原始特征信息；

分类模块1204、用于将目标对象的原始特征信息输入采用上述任一实施例所述的分类模型训练方法训练得到的集成分类模型，得到分类结果。

上述分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图13所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过***总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到***总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种分类模型训练方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述分类模型训练方法的各个步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序产品被处理器执行时实现上述分类模型训练方法的各个步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种分类模型训练方法，其特征在于，包括:

2.根据如权利要求1所述的方法，其特征在于，所述响应于训练指令，基于预先建立的风险文本集计算至少一个样本对象对应的交互风险指标值，包括：

3.根据如权利要求1所述的方法，其特征在于，所述训练指令携带有时期标签；

根据所述时期标签确定所述训练指令对应的目标时间段；

获取所述目标时间段内所述样本对象的媒体文本信息。

4.根据如权利要求1所述的方法，其特征在于，所述根据各所述交互风险指标值，将所述样本对象划分为预设数量个集群，包括：

5.根据如权利要求1所述的方法，其特征在于，所述基于所述样本对象的原始特征信息进行所有所述样本对象的群体关联，得到各所述样本对象对应的优化特征信息，包括：

6.根据如权利要求1所述的方法，其特征在于，所述将携带有所述样本对象所在集群对应集群标签的优化特征信息输入初始的集成分类模型，得到训练完成的集成分类模型之前，包括：

7.根据如权利要求6所述的方法，其特征在于，所述将携带有所述样本对象所在集群对应集群标签的优化特征信息输入初始的集成分类模型，得到训练完成的集成分类模型，包括：

8.根据如权利要求7所述的方法，其特征在于，所述按照预设比例，将携带有所述集群标签的优化特征信息分为训练集和测试集之后，还包括：

9.一种分类方法，其特征在于，包括：

将所述目标对象的原始特征信息输入采用如权利要求1-8中任一项所述的分类模型训练方法训练得到的集成分类模型，得到分类结果。

10.一种分类模型训练装置，其特征在于，包括：

11.一种分类装置，其特征在于，包括：

分类模块，用于将所述目标对象的原始特征信息输入采用如权利要求1-8中任一项所述的分类模型训练方法训练得到的集成分类模型，得到分类结果。

12.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的分类模型训练方法或权利要求10中所述的分类方法的步骤。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的分类模型训练方法或权利要求9中所述的分类方法的步骤。

14.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至8中任一项所述的分类模型训练方法或权利要求9中所述的分类方法的步骤。