CN112686423A

CN112686423A - 基于机器学习的信托产品收益率预测方法及装置

Info

Publication number: CN112686423A
Application number: CN202011407647.8A
Authority: CN
Inventors: 王灵芝; 樊昕晔; 高慧岩; 王鹏; 田江; 向小佳; 丁永建; 李璠
Original assignee: Everbright Technology Co ltd
Current assignee: Everbright Technology Co ltd
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2021-04-20

Abstract

本发明提供了一种基于机器学习的信托产品收益率预测方法及装置，该方法包括：获取信托数据；基于业务领域确定备选字段，并根据该备选字段对该信托数据进行业务筛选和数据预处理；将经过该业务筛选与该数据预处理的该信托数据中的变量输入逐步回归模型，对该逐步回归模型进行训练；将经过该数据预处理的待预测的信托数据输入训练完成的该逐步回归模型进行结果预测，得到与该待预测的信托数据相匹配的信托产品收益率的预测值。通过本发明，解决了类型差异化的信托产品定价趋同、信托产品的预测收益率与实际收益率差异较大以及难以针对不同类型或时间段的数据选择核心指标的问题，体现不同类型的信托产品的区别、提升模型的预测准确率。

Description

基于机器学习的信托产品收益率预测方法及装置

技术领域

本发明实施例涉及数据处理领域，具体而言，涉及一种基于机器学习的信托产品收益率预测方法及装置。

背景技术

信托产品是一种为投资者提供了低风险、稳定收入回报的金融理财产品。信托品种在产品设计上非常多样，各自都会有不同的特点。各个信托品种在风险和收益潜力方面可能会有很大的分别。

现阶段，不同信托产品差异性较大，很难基于一个模型来囊括多样化产品下的复杂价格模式。相关技术中考量的信托产品数量较少，类型也较为单一，使得拟合的模型不具有市场普遍性。

在真实信托业务场景之下，模型的存在极大地给予相应从业人员权威的参考和技术的便利。但相关技术中基于回归模型的讨论和分析也只是简单地将所有变量代入回归模型公式进行计算，并没有根据变量的重要性进行筛选。

针对相关技术中存在的类型差异化的信托产品定价趋同、信托产品的预测收益率与实际收益率差异较大以及难以针对不同类型或时间段的数据选择核心指标的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种基于机器学习的信托产品收益率预测方法及装置，以至少解决相关技术中存在的类型差异化的信托产品定价趋同、信托产品的预测收益率与实际收益率差异较大以及难以针对不同类型或时间段的数据选择核心指标的问题。

根据本发明的一个实施例，提供了一种基于机器学习的信托产品收益率预测方法，包括：获取信托数据；基于业务领域确定备选字段，并根据所述备选字段对所述信托数据进行业务筛选和数据预处理；将经过所述业务筛选与所述数据预处理的所述信托数据中的变量输入逐步回归模型，对所述逐步回归模型进行训练；将经过所述数据预处理的待预测的信托数据输入训练完成的所述逐步回归模型进行结果预测，得到与所述待预测的信托数据相匹配的信托产品收益率的预测值。

在一个示例性实施例中，所述基于业务领域确定备选字段，并根据所述备选字段对所述信托数据进行业务筛选，可以包括：基于至少以下之一业务领域确定所述备选字段：房地产、基础建设、金融类、工商企业、消费金融；根据所述备选字段对所述信托数据进行业务筛选，以保留或剔除部分信托数据。

在一个示例性实施例中，根据所述备选字段对所述信托数据进行数据预处理，可以包括：统计所述信托数据中的数据缺失比例，将所述数据缺失比例大于预定值的变量予以删除，并将所述数据缺失比例小于所述预定值的变量进行填补；检测所述信托数据的变量中的异常值，并修正不符合预定标准的所述异常值。

在一个示例性实施例中，根据所述备选字段对所述信托数据进行数据预处理，还可以包括：对经过缺失值填补和异常值修正的所述信托数据中的所述变量进行数值型转换；分解经过数值型转换的所述变量中的时间变量，得出影响信托产品收益率的时间颗粒度。

在一个示例性实施例中，至少可以通过以下之一填补方式将所述数据缺失比例小于所述预定值的变量进行填补：人工填写、特殊值填充、平均值填充、热卡填充、K最近邻法、回归填充、EM方法。

在一个示例性实施例中，至少可以通过以下之一模型检测所述信托数据的变量中的异常值：均方差、箱型图、孤立森林。

在一个示例性实施例中，至少可以选用以下之一方式将经过所述业务筛选与所述数据预处理的所述信托数据中的变量输入逐步回归模型：前向逐步回归、后向逐步回归、双向逐步回归。

在一个示例性实施例中，在对所述逐步回归模型进行训练之后，还可以包括：当后输入的变量使之前输入的变量不显著时，停止将变量输入逐步回归模型，完成所述逐步回归模型的训练；或，当所述逐步回归模型既没有显著的变量选入所述回归方程，也没有不显著的变量从所述回归方程中被删除时，完成所述逐步回归模型的训练。

在一个示例性实施例中，在得到与所述待预测的信托数据相匹配的信托产品收益率的预测值之后，还可以包括：将所述信托产品收益率的预测值与原始业务层面依据多个指标计算的均值进行比对，对所述信托产品收益率的预测值进行评价。

根据本发明的另一个实施例，提供了一种基于机器学习的信托产品收益率预测装置，包括：获取模块，用于获取信托数据；处理模块，用于基于业务领域确定备选字段，并根据所述备选字段对所述信托数据进行业务筛选和数据预处理；训练模块，用于将经过所述业务筛选与所述数据预处理的所述信托数据中的变量输入逐步回归模型，对所述逐步回归模型进行训练；预测模块，用于将经过所述数据预处理的待预测的信托数据输入训练完成的所述逐步回归模型进行结果预测，得到与所述待预测的信托数据相匹配的信托产品收益率的预测值。

在一个示例性实施例中，所述处理模块，还可以包括：删除填补单元，用于统计所述信托数据中的数据缺失比例，将所述数据缺失比例大于预定值的变量予以删除，并将所述数据缺失比例小于所述预定值的变量进行填补；检测单元，用于检测所述信托数据的变量中的异常值，并修正不符合预定标准的所述异常值。

在一个示例性实施例中，所述处理模块，还可以包括：转换单元，用于对经过缺失值填补和异常值修正的所述信托数据中的所述变量进行数值型转换；分解单元，用于分解经过数值型转换的所述变量中的时间变量，得出影响信托产品收益率的时间颗粒度。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明的上述实施例，由于根据预先选定的业务领域确定备选字段对信托数据进行业务筛选，可以解决相关技术中存在的类型差异化的信托产品定价趋同的问题，另外，由于可以将待预测的信托数据输入通过机器学习训练完成的逐步回归模型进行结果预测，可以解决相关技术中信托产品的预测收益率与实际收益率差异较大的问题，再者，由于通过逐步回归模型拟合数据进行核心指标选择，可以解决难以针对不同类型或时间段的数据选择核心指标的问题，达到体现不同类型的信托产品的区别、提升模型的预测准确率的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种基于机器学习的信托产品收益率预测方法的计算机终端的硬件结构框图；

图2是根据本发明实施例的基于机器学习的信托产品收益率预测方法的流程图；

图3是根据本发明实施例的基于机器学习的信托产品收益率预测装置的结构框图；

图4是根据本发明另一实施例的基于机器学习的信托产品收益率预测装置的结构框图；

图5是根据本发明可选实施例的基于逐步回归的信托定价方法的流程图；

图6是根据本发明可选实施例的缺失值分布的示意图；

图7是根据本发明可选实施例的基于Heatmap的缺失原因剖析的示意图；

图8是根据本发明可选实施例的基于正态分布的异常值检测的示意图；

图9是根据本发明可选实施例的基于箱型图的异常值检测的示意图；

图10是根据本发明可选实施例的基于双向逐步回归的逐步回归模型的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语 “第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了更好的理解本发明实施例以及可选实施例的技术方案，以下对本发明实施例以及可选实施例中可能出现的应用场景进行说明，但不用于限定以下场景的应用。

本申请实施例所提供的方法实施例可以在计算机终端、服务器或者类似的运算装置中执行。以运行在计算机终端上为例，图1是本发明实施例的一种基于机器学习的信托产品收益率预测方法的计算机终端的硬件结构框图。如图1所示，计算机终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，在一个示例性实施例中，上述计算机终端还可以包括用于通信功能的传输设备 106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述计算机终端的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的基于机器学习的信托产品收益率预测方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104 可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的有线或无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过宽带网络与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(RadioFrequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于上述计算机终端的基于机器学习的信托产品收益率预测方法，图2是根据本发明实施例的基于机器学习的信托产品收益率预测方法的流程图，如图2所示，该流程包括如下步骤：

步骤S201，获取信托数据。

步骤S202，基于业务领域确定备选字段，并根据所述备选字段对所述信托数据进行业务筛选和数据预处理。

步骤S203，将经过所述业务筛选与所述数据预处理的所述信托数据中的变量输入逐步回归模型，对所述逐步回归模型进行训练。

步骤S204，将经过所述数据预处理的待预测的信托数据输入训练完成的所述逐步回归模型进行结果预测，得到与所述待预测的信托数据相匹配的信托产品收益率的预测值。

在本实施例中，步骤S202可以包括：基于至少以下之一业务领域确定所述备选字段：房地产、基础建设、金融类、工商企业、消费金融；根据所述备选字段对所述信托数据进行业务筛选，以保留或剔除部分信托数据。

在本实施例中，步骤S202可以包括：统计所述信托数据中的数据缺失比例，将所述数据缺失比例大于预定值的变量予以删除，并将所述数据缺失比例小于所述预定值的变量进行填补；检测所述信托数据的变量中的异常值，并修正不符合预定标准的所述异常值。

在本实施例中，步骤S202还可以包括：对经过缺失值填补和异常值修正的所述信托数据中的所述变量进行数值型转换；分解经过数值型转换的所述变量中的时间变量，得出影响信托产品收益率的时间颗粒度。

在本实施例中，至少可以通过以下之一填补方式将所述数据缺失比例小于所述预定值的变量进行填补：人工填写、特殊值填充、平均值填充、热卡填充、K最近邻法、回归填充、EM方法。

在本实施例中，至少可以通过以下之一模型检测所述信托数据的变量中的异常值：均方差、箱型图、孤立森林。

在本实施例中，至少可以选用以下之一方式将经过所述业务筛选与所述数据预处理的所述信托数据中的变量输入逐步回归模型：前向逐步回归、后向逐步回归、双向逐步回归。

在本实施例的步骤S203之后，还可以包括：当后输入的变量使之前输入的变量不显著时，停止将变量输入逐步回归模型，完成所述逐步回归模型的训练；或，当所述逐步回归模型既没有显著的变量选入所述回归方程，也没有不显著的变量从所述回归方程中被删除时，完成所述逐步回归模型的训练。

在本实施例的步骤S204之后，还可以包括：将所述信托产品收益率的预测值与原始业务层面依据多个指标计算的均值进行比对，对所述信托产品收益率的预测值进行评价。

通过上述步骤，由于根据预先选定的业务领域确定备选字段对信托数据进行业务筛选，可以解决相关技术中存在的类型差异化的信托产品定价趋同的问题，另外，由于可以将待预测的信托数据输入通过机器学习训练完成的逐步回归模型进行结果预测，可以解决相关技术中信托产品的预测收益率与实际收益率差异较大的问题，再者，由于通过逐步回归模型拟合数据进行核心指标选择，可以解决难以针对不同类型或时间段的数据选择核心指标的问题，达到体现不同类型的信托产品的区别、提升模型的预测准确率的效果。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如 ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

在本实施例中还提供了一种基于机器学习的信托产品收益率预测装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”和“单元”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图3是根据本发明实施例的基于机器学习的信托产品收益率预测装置的结构框图，如图3所示，该装置包括获取模块10、处理模块20、训练模块30和预测模块40。

所述获取模块10，用于获取信托数据。

所述处理模块20，用于基于业务领域确定备选字段，并根据所述备选字段对所述信托数据进行业务筛选和数据预处理。

所述训练模块30，用于将经过所述业务筛选与所述数据预处理的所述信托数据中的变量输入逐步回归模型，对所述逐步回归模型进行训练。

所述预测模块40，用于将经过所述数据预处理的待预测的信托数据输入训练完成的所述逐步回归模型进行结果预测，得到与所述待预测的信托数据相匹配的信托产品收益率的预测值。

图4是根据本发明另一实施例的基于机器学习的信托产品收益率预测装置的结构框图，如图4所示，该装置除包括图3所示的所有模块外，所述处理模块20，还包括删除填补单元21、检测单元22、转换单元23和分解单元24。

所述删除填补单元21，用于统计所述信托数据中的数据缺失比例，将所述数据缺失比例大于预定值的变量予以删除，并将所述数据缺失比例小于所述预定值的变量进行填补。

所述检测单元22，用于检测所述信托数据的变量中的异常值，并修正不符合预定标准的所述异常值。

所述转换单元23，用于对经过缺失值填补和异常值修正的所述信托数据中的所述变量进行数值型转换。

所述分解单元24，用于分解经过数值型转换的所述变量中的时间变量，得出影响信托产品收益率的时间颗粒度。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

为了便于对本发明所提供的技术方案的理解，下面将结合具体场景的实施例进行详细阐述。

本实施例提出的信托定价模型依托的是真实业务场景下的海量数据，由于信托产品本身的差异性，需考虑不同产品所属的领域差异，并针对不同类型采用不同策略。其中，信托产品定价指的是基于信托产品收益率的定价方式。这里将所有产品分成房地产、基础建设、金融类、工商企业、消费金融等五个主要领域，分别进行数据预处理、特征工程和模型构建。在拓宽模型应用范围的同时，模型采用逐步回归模型来拟合数据，优点在于可以针对不同类型，不同时间段的个性化数据智能地选择核心指标。

本实施例采用的逐步回归模型，着重考虑在涉及大量变量下模型的计算高效性和结果可解释性。当模型可以自主剔除无关变量时，计算所需要的时间和占用的资源会大大释放，使得一些中小企业也具备相应的硬件计算条件。可解释性在于剔除无关变量后极大化呈现出真正影响信托产品收益率的核心因素，将业务人员的关注点聚焦化，从而能够重点分析其内在因果关系。

本实施例提出的定价模型填补了信托产品领域缺乏权威性，普适性和智能化方法的缺口。

相关技术中普遍存在如下问题：

首先，不对信托产品进行类别划分，仅仅是将这一千多个产品“一视同仁”的代入模型的问题。

其次，所选择的模型选择的指标简单，数量较少，模型无法实现较高的可决系数，效果难以让人满意。

另外，模型并未使用原始变量来预测，而是使用诸如信托贷款收益率、信托投资收率等来反应信托产品收益率。这种以收益率反应收益率的模型看似具有理论依据，实则缺少落地价值，因为信托公司提供的多为描述其产品的原始数据，只有利用到这些最原始的未经计算的数据，才能更好地反应信托产品本身所带来的收益率。

最后，相关技术中建立的针对房地产这一特殊领域的模型无法适用于非房地产类信托产品，范围的狭隘性凸显相关技术的结论的局限性。

本实施例针对这一系列缺点提出了解决策略，所属模型将业务场景扩大到信托产品常见的五大领域，针对不同领域各自选取50个左右的指标，分别构建不同模型。所选取的指标不仅有原始指标，也有经过加工的变量。

本实施例的信托定价模型结合了业务领域的专家经验和建议，与算法领域的机器学习思路和模型，整个流程涉及业务筛选，数据预处理，模型构建，结果预测，效果比对五大模块。其中，机器学习是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论，机器学习与推断统计学联系尤为密切，也被称为统计学习理论。

图5是根据本发明可选实施例的基于逐步回归的信托定价方法的流程图，如图5所示，该流程包括如下步骤：

步骤S501，业务筛选。

在本实施例的步骤S501中，由于元数据的维度较大，直接将高纬多笔数据作为训练集构建模型，极有可能导致有偏估计，所以首先要基于业务进行变量筛选。由于所涉及的信托领域较多，包括房地产、基础建设、金融类、工商企业、消费金融等五大领域，需要与相应专家共同确定备选字段。

步骤S502，特征工程，即前文所述的数据预处理。

在本实施例的步骤S502中，经过业务筛选后的字段需要经过处理后才可成为模型的输入，因为回归模型不允许必要字段存在空缺，并要求所有输入为数值型，训练集和测试集的自变量集要保持一致。针对这几点要求，本实施例模型的预处理阶段包含缺失值填充，异常值检测，数值型转换，时间提取三个部分。

步骤S502.1，缺失值填充。

在本实施例的步骤S502.1中，可以将缺失值的分布可视化，以房地产数据为例，图6是根据本发明可选实施例的缺失值分布的示意图，如图 6所示，各列分别代表不同变量，各行表示每笔数据的缺失情况。白色部分为缺失数据，黑色部分为存在数据。最右侧的曲线表明数据集的完整性分布，并标出了最小和最大的点。依照图6可以很好地定位缺失值的位置，方便了与上游数据供给方的沟通。

定位缺失值后，还需要分析造成缺失的原因，原因可能是多方面的，例如：有些信息暂时无法获取；有些信息因为一些人为因素而丢失；有些对象的某个或某些属性是不可用的；获取这些信息的代价太大。

图7是根据本发明可选实施例的基于Heatmap的缺失原因剖析的示意图，如图7所示，还可以使用Heatmap从另一角度剖析缺失原因。图中横纵坐标分别表示各变量，相关性的取值范围为[-1，1]。两变量的相关性等于-1表示一个变量出现，则另一个变量一定不出现；相关性等于0表示两变量各自出现与否与对方没有关系；相关性等于1表示一个变量出现，另一个变量一定出现。基于相关性分析可以联系业务场景解释缺失值出现的原因，并规避类似情况的发生。

针对缺失值的处理考虑两种基本思路：删除或填充。经过业务分析和模型评估，最终决定对于数据缺失比例大于等于80％的变量予以删除，剩余情况下的缺失值采取填充方式。

在本实施例的步骤S502.1中，可以包括如下填充方式：

(1)人工填写。这个方法产生的数据偏离最小，是填充效果最好的一种。当数据规模很大、空值很多的时候，该方法是极其低效的。

(2)特殊值填充。将空值作为一种特殊的属性值来处理，它不同于其他的任何属性值。如所有的空值都用“unknown”填充。这样将形成另一个概念，可能导致严重的数据偏离，一般不使用。

(3)平均值填充。如果空值是数值属性，就使用该属性在其他所有对象的取值的平均值来填充该缺失的属性值；如果空值是非数值属性，就根据统计学中的众数原理，用该属性在其他所有对象出现频率最高的值来补齐该缺失的属性值。

(4)热卡填充。对于一个包含空值的对象，热卡填充法在完整数据中找到一个与它最相似的对象，然后用这个相似对象的值来进行填充，不同的问题选用不同的标准来对相似进行判定。

(5)K最近邻法。先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本，将这K个值加权平均来估计该样本的缺失数据。

(6)回归填充。基于完整的数据集，建立回归方程。对于包含空值的对象，将已知属性值代入方程来估计未知属性值，以此估计值来进行填充。

(7)EM方法。在缺失类型为随机缺失的条件下，假设模型对于完整的样本是正确的，通过观测数据的边际分布可以对未知参数进行极大似然估计。它一个重要前提：适用于大样本。有效样本的数量足够以保证ML 估计值是渐近无偏的并服从正态分布。但是这种方法可能会陷入局部极值，收敛速度也不是很快，并且计算很复杂。

步骤S502.2，异常值检测。

在本实施例的步骤S502.2中，在训练机器学习算法或应用统计技术时，错误值或异常值可能是一个严重的问题，它们通常会造成测量误差或异常***条件的结果，因此不具有描述底层***的特征。所以在进行下一步分析之前，就应该进行异常值处理。

本实施例考虑了许多异常值检测的方法，具体选择时需与业务部门商榷。

在本实施例的步骤S502.2中，可以使用均方差进行异常值检测。图8 是根据本发明可选实施例的基于正态分布的异常值检测的示意图，如图8 所示，在统计学中，如果一个数据分布近似正态，那么大约68％的数据值会在均值的一个标准差范围内，大约95％会在两个标准差范围内，大约 99.7％会在三个标准差范围内。因此如果有任何数据点超过标准差的3倍，那么这些点很有可能是异常值或离群点。

在本实施例的步骤S502.2中，还可以使用箱型图进行异常值检测。图9是根据本发明可选实施例的基于箱型图的异常值检测的示意图，如图 9所示，数据通过其四分位数形成的图形进行描述，这是一种非常简单但有效的可视化离群点的方法。考虑把上下触须作为数据分布的边界，离群点被定义为低于箱形图下触须(或Q1-1.5x IQR)或高于箱形图上触须 (或Q3+1.5x IQR)的观测值。

另外，在本实施例的步骤S502.2中，还可以使用孤立森林进行异常值检测。前述方法都在试图寻找数据的常规区域，然后将任何在此定义区域之外的点都视为离群点或异常值。孤立森林的工作方式不同，它明确地隔离异常值，而不是通过给每个数据点分配一个分数来分析和构造正常的点和区域。它利用了这样一个事实：异常值只是少数，并且它们具有与正常实例非常不同的属性值。孤立森林会输出序列中每个数据点的预测结果，如果结果是-1，说明这个特定数据点是离群点；如果是1，就说明该数据点不是离群点。

步骤S502.3，数值型转换。

在本实施例的步骤S502.3中，表1是根据本发明可选实施例的基于独热编码的数值型转换的示意图，如表1所示，机器学习中的回归模型要求对分类变量做数值化处理，本实施例选择独热编码完成此操作。独热编码是采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。

表1

使用独热编码的优势在于：在回归算法中特征之间距离的计算或相似度的计算是十分重要的，而常用的距离或相似度的计算都是在欧式空间的相似度计算。独热编码将离散特征的取值扩展到了欧式空间，离散特征的某个取值就对应欧式空间的某个点。

步骤S502.4，时间抽取。

在本实施例的步骤S502.4中，时间数据本身蕴含了较多信息，可以将一条时间数据解析成多个数值变量，例如年、月、日、季度、是否为周末等，这样分解时间变量可以剖析出真正影响信托产品收益率的时间颗粒度。

步骤S503，模型构建。

在本实施例的步骤S503中，模型选用逐步回归模型，其基本思想是将变量逐个引入模型，每引入一个解释变量后都要进行F检验，并对已经选入的解释变量逐个进行t检验，当原来引入的解释变量由于后面解释变量的引入变得不再显著时，则将其删除。以确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程，直到既没有显著的解释变量选入回归方程，也没有不显著的解释变量从回归方程中剔除为止。以保证最后所得到的解释变量集是最优的。

在本实施例的步骤S503中，具体操作方法可以有三种：

前向逐步回归(Forward Selection)：首先模型中只有一个单独解释因变量变异最大的自变量，之后尝试将加入另一自变量，看加入后整个模型所能解释的因变量变异是否显著增加；这一过程反复迭代，直到没有自变量再符合加入模型的条件。

后向逐步回归(Backward Elimination)：与前向逐步回归相反，此时所有变量均放入模型，之后尝试将其中一个自变量从模型中剔除，看整个模型解释因变量的变异是否有显著变化，之后将使解释量减少最少的变量剔除；此过程不断迭代，直到没有自变量符合剔除的条件。

双向逐步回归(Bidirectional Elimination)：这种方法相当于将前两种结合起来。可以想象如果采用第一种方法，每加入一个自变量，可能会使已存在于模型中的变量单独对因变量的解释度减小，当其的作用不显著时，则可将其从模型中剔除。而第三种方法不是一味的增加变量，而是增加一个后对整个模型中的所有变量进行检验，剔除作用不显著的变量，最终尽可能得到一个最优的变量组合。

在本实施例的步骤S503中，可以使用双向逐步回归模式下的逐步回归。图10是根据本发明可选实施例的基于双向逐步回归的逐步回归模型的示意图，如图10所示，可以先将Y对各个X_i单独回归，计算各个R² _i，以R² _i最大者作为逐步回归的基础，逐个将其他X_i加入到模型进行回归。之后用F检验新加入的X_i的显著性。当F检验改善显著时，如果对先引入的变量的显著性无影响的话，则保留此变量，但是，如果使先引入的变量的参数发生明显变化，或者t检验不显著时，则出现多重共线性，此时，在共线性最高的两个变量中，舍弃对Y影响较小、经济意义相对较小的一个，保留另外一个。当F检验改善不显著时，对多余变量进行剔除。尽可能选取变量群中的最优组合，以实现回归模型的较高可决系数。

在本实施例的步骤S503之后，可以包括：结果预测。

在本实施例的步骤S503之后，具体而言，模型构建完成后，对预测测试集中信托产品的收益率时，同样需要对测试数据进行与训练集一样的数据预处理操作，以达到输入值与模型相匹配的程度。预处理阶段结束后，直接代入训练好的模型便可得到不同信托产品收益率的预测值。

模型的最终预测收益率还需经过专家评审和投票，方可决定该预测值是否需要微调或被直接使用。

步骤S504，效果评估。

在本实施例的步骤S504中，模型还融合了原始业务层面依据多重指标计算的均值，将其作为基准线来对比信托产品收益率。在本实施例的步骤S504中，具体而言，可以使用之前的数据对预定时间内的数据值进行预测。在预定时间到来时，可以统计本段时间内的真实数据结果，并将所预测的数据值和该真实数据结果进行比对。在本实施例中，该比对结果往往显示所预测的数据值接近该真实结果。

在本实施例的步骤S504中，具体而言，可以使用之前原有的传统统计方法与本实施例的机器学习模型进行效果比较。基于多次比较结果，可以得出本实施例的机器学习模型效果较原有的传统统计方法效果显著。其主要体现在本实施例的机器学习模型定价个性化，降低各业务类型的同质化倾向，可以解决相关技术中存在的类型差异化的信托产品定价趋同的问题。

综上所述，在本实施例的步骤S504中，基于均值结果和回归结果的比较，进一步从业务层面肯定预测数值的合理性与正确性。

本实施例将信托产品类型细分为房地产、基础建设、金融类、工商企业、消费金融等五个领域，而非混杂在一起构建唯一模型，很好地避免了类型差异化产品定价趋同的现象。简单而言，当只使用唯一模型去代表多个领域，这样会产生两个问题：其一在于为了将数据拟合进入模型，只能选取多个领域之间共性的变量，这样做无法体现各类型产品的特殊性质；其二在于两个来自于不同领域的信托产品，本质上有很大的差异，但当只选取共性化指标时，这两个产品最终的预测收益率是趋同的。

另外，本实施例运用机器学习多种数据预处理方法，将来源不同的信托产品进行数据清洗，和特征工程的转化；同时运用逐步回归自动化地筛选指标。

再者，本实施例的各领域的模型变量选择不仅经过了智能化的筛选，还兼顾了严格的业务考量和专家评审。

最后，与相关技术中常见的模型进行对比，本实施例的模型针对类型差异化产品，首先判断产品类型，而后采用对应的分支回归模型；而非像相关技术中常见的模型一样不考虑产品类型，均使用同一套模型。

另一方面，相关技术中常见的模型使用的变量数量极少，只考虑了常见的指标；而且所选的指标并不能很好地区分不同类型的信托产品，这样会使得本质上有很大差异的不同类型信托产品，在收益率上没有区分度。本实施例的模型对不同领域使用不同变量，且变量数量大约为相关技术中常见的模型的7至9倍。

对于本实施例中的模型所使用的多指标，不仅仅可以很好地体现出不同类型的信托产品的区别，更重要的是可以极大程度提升模型的效果，且逐步回归模型可以自行选择重要的变量，不需人力的参与。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1，获取信托数据；

S2，基于业务领域确定备选字段，并根据所述备选字段对所述信托数据进行业务筛选和数据预处理；

S3，将经过所述业务筛选与所述数据预处理的所述信托数据中的变量输入逐步回归模型，对所述逐步回归模型进行训练；

S4，将经过所述数据预处理的待预测的信托数据输入训练完成的所述逐步回归模型进行结果预测，得到与所述待预测的信托数据相匹配的信托产品收益率的预测值。

在一个示例性实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

在一个示例性实施例中，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取信托数据；

在一个示例性实施例中，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，在一个示例性实施例中，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于机器学习的信托产品收益率预测方法，其特征在于，包括：

获取信托数据；

基于业务领域确定备选字段，并根据所述备选字段对所述信托数据进行业务筛选和数据预处理；

将经过所述业务筛选与所述数据预处理的所述信托数据中的变量输入逐步回归模型，对所述逐步回归模型进行训练；

将经过所述数据预处理的待预测的信托数据输入训练完成的所述逐步回归模型进行结果预测，得到与所述待预测的信托数据相匹配的信托产品收益率的预测值。

2.根据权利要求1所述的方法，其特征在于，所述基于业务领域确定备选字段，并根据所述备选字段对所述信托数据进行业务筛选，包括：

基于至少以下之一业务领域确定所述备选字段：房地产、基础建设、金融类、工商企业、消费金融；

根据所述备选字段对所述信托数据进行业务筛选，以保留或剔除部分信托数据。

3.根据权利要求1所述的方法，其特征在于，根据所述备选字段对所述信托数据进行数据预处理，包括：

统计所述信托数据中的数据缺失比例，将所述数据缺失比例大于预定值的变量予以删除，并将所述数据缺失比例小于所述预定值的变量进行填补；

检测所述信托数据的变量中的异常值，并修正不符合预定标准的所述异常值。

4.根据权利要求3所述的方法，其特征在于，根据所述备选字段对所述信托数据进行数据预处理，还包括：

对经过缺失值填补和异常值修正的所述信托数据中的所述变量进行数值型转换；

分解经过数值型转换的所述变量中的时间变量，得出影响信托产品收益率的时间颗粒度。

5.根据权利要求3所述的方法，其特征在于，至少通过以下之一填补方式将所述数据缺失比例小于所述预定值的变量进行填补：

人工填写、特殊值填充、平均值填充、热卡填充、K最近邻法、回归填充、EM方法。

6.根据权利要求3所述的方法，其特征在于，至少通过以下之一模型检测所述信托数据的变量中的异常值：

均方差、箱型图、孤立森林。

7.根据权利要求1所述的方法，其特征在于，至少选用以下之一方式将经过所述业务筛选与所述数据预处理的所述信托数据中的变量输入逐步回归模型：

前向逐步回归、后向逐步回归、双向逐步回归。

8.根据权利要求1所述的方法，其特征在于，在对所述逐步回归模型进行训练之后，还包括：

当后输入的变量使之前输入的变量不显著时，停止将变量输入逐步回归模型，完成所述逐步回归模型的训练；或，

当所述逐步回归模型既没有显著的变量选入所述回归方程，也没有不显著的变量从所述回归方程中被删除时，完成所述逐步回归模型的训练。

9.根据权利要求1所述的方法，其特征在于，在得到与所述待预测的信托数据相匹配的信托产品收益率的预测值之后，还包括：

将所述信托产品收益率的预测值与原始业务层面依据多个指标计算的均值进行比对，对所述信托产品收益率的预测值进行评价。

10.一种基于机器学习的信托产品收益率预测装置，其特征在于，包括：

获取模块，用于获取信托数据；

处理模块，用于基于业务领域确定备选字段，并根据所述备选字段对所述信托数据进行业务筛选和数据预处理；

训练模块，用于将经过所述业务筛选与所述数据预处理的所述信托数据中的变量输入逐步回归模型，对所述逐步回归模型进行训练；

预测模块，用于将经过所述数据预处理的待预测的信托数据输入训练完成的所述逐步回归模型进行结果预测，得到与所述待预测的信托数据相匹配的信托产品收益率的预测值。

11.根据权利要求10所述的装置，其特征在于，所述处理模块，还包括：

删除填补单元，用于统计所述信托数据中的数据缺失比例，将所述数据缺失比例大于预定值的变量予以删除，并将所述数据缺失比例小于所述预定值的变量进行填补；

检测单元，用于检测所述信托数据的变量中的异常值，并修正不符合预定标准的所述异常值。

12.根据权利要求11所述的装置，其特征在于，所述处理模块，还包括：

转换单元，用于对经过缺失值填补和异常值修正的所述信托数据中的所述变量进行数值型转换；

分解单元，用于分解经过数值型转换的所述变量中的时间变量，得出影响信托产品收益率的时间颗粒度。

13.一种计算机可读存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至9任一项中所述的方法。

14.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至9任一项中所述的方法。