CN109741172B

CN109741172B - 信贷预警方法、装置、***及存储介质

Info

Publication number: CN109741172B
Application number: CN201811604944.4A
Authority: CN
Inventors: 童华; 王琰; 肖靖益
Original assignee: Xiamen Qixing Tonglian Technology Co ltd
Current assignee: Xiamen Qixing Tonglian Technology Co ltd
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2021-03-23
Anticipated expiration: 2038-12-26
Also published as: CN109741172A

Abstract

本发明实施例公开一种基于深度强化学习的信贷预警方法，包括：根据历史统计信息，构造状态预测模型；其中，所述状态预测模型包括对行业状态和区域状态的预测；根据所述状态预测模型进行模拟，生成回报值预测网络；通过所述回报值预测网络，基于预测的行业状态、以及区域状态对预定客户进行信用升级或降级动作。本发明能引入评论等外部信息，避免纯手工预警带来的高成本、低效率等问题。

Description

信贷预警方法、装置、***及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种信贷预警方法、装置、***及存储介质。

背景技术

随着小微企业的发展，为将资金有效引入实体经济，包括P2P网络贷款、民间借贷在内的小额信贷得到突飞猛进的增长。由于小额信贷起步较晚、客户规模小，因此存在较为严重的发展不规范和管理不完善等问题，特别是企业风险管理及客户信用风险量化评价等方面存在较大的不足。

对于小微企业在内的小额信贷客户，影响其还贷能力的一个重要因素是经营风险。经营风险指的是企业在经营过程中，因各种不确定性因素存在所导致的实际收益与预期收益的差异。传统的客户风险量化评价与管理一直都是以结构化数据，即财务比率、市场交易数据等定量信息为基础。这种信息存在更新频率低、时滞严重等问题，难以实时预测和管理信用违约。需要引入互联网中存在的大量公开文本信息，如公司报告、新闻报道、论文及微博等。这些信息的频率更高，是对财务数据、市场交易数据等定量信息的有益补充。特别是小额信贷客户，其信息不对称问题更显凸出，财务数据的可信度很低，难以获得公开的定量数据来评价其信用状况，需要从其他渠道获取相关信息。

一方面，互联网上存在着大量与这些企业的财务状况、产品特征与评价、所有者行为与活动等内部因素相关的定性文本信息。另一方面，小微企业的经营容易受宏观经济环境、行业市场环境等外部因素的影响，而这些外部因素的信息在互联网上也可以比较容易地找到。因此，可以通过引入互联网信息，结合机器学习技术，通过自然语言处理，提高对包括小微企业在内的小额信贷客户的违约风险感知能力，减少信贷公司或银行的损失。从而，改变小额贷款发放多依赖于贷前调查，贷后管理薄弱、客户违约预警机制不健全的状况。特别是当前，小额信贷业务多由农村商业银行、小额贷款公司的机构承担，这些机构普遍存在员工人数较少、员工的信贷业务基础知识有所欠缺、业务能力与信贷专业技能普遍不高，以及缺乏风险评估与风险管理方面专业性人才等问题。通过信息技术的引入和信息服务的购买，构建客户违约预警技术，对于推动小额信贷业务的发展具有重要作用。

发明内容

本发明的第一方面，提供一种基于深度强化学习的信贷预警方法，其包括：

根据历史统计信息，构建状态预测模型；其中，所述状态预测模型包括对行业状态和区域状态的预测；

所述根据历史统计信息构建状态预测模型的步骤包括：

根据影响因素，包括时间、区域、行业，从互联网爬取客户所在区域和所在行业信息，选取若干个与所述影响因素最相似的历史时刻；

根据每个区域、行业的相似时刻的历史评价值，以相似度为权重进行加权计算，得到特定时刻观测值；

根据所述特定时刻观测值，构建所述状态预测模型；

根据所述状态预测模型进行模拟，生成回报值预测网络；所述生成回报值预测网络步骤包括：

A1：以随机的方式获取初始回报值预测网络Q*(S，a，θ-)，并将所述初始回报值预测网络的样本池设为空集；S表示状态集，a表示动作集，θ-表示回报值预测网络的参数；

A2：开始一个新的时段；

A3：当需要对预定客户进行中期预警评估时，所述初始回报值预测网络Q*(S，a，θ-)基于t时刻状态S_t生成对所述预定客户的升级或降级的动作a_t；某一个时刻的动作定义为一个标量，对应升级或降级的级别数；

A4：被执行升级或降级动作的所述预定客户转换成t+1时刻状态S_t+1，同时获得一个t时刻的即时回报r_t，从而生成一个新样本(S_t,a_t,S_t+1,r_t)，并将所述新样本放入所述样本池；即在S_t状态下，采取a_t动作，***转到S_t+1状态后，***得到一个回报r_t；

A5：通过抽取所述样本池中的小批量数据进行训练，修改网络参数，令

其中，θ+是更新后的网络参数，而θ-为更新前的网络参数，γ表示时间衰减因子；

A6：返回至步骤A3，直至所述时段结束；

A7：记录所述时段的模拟次数；

A8：当所述模拟次数达到预定阈值时，结束所述状态预测模型的训练过程，并输出最终回报值预测网络；

通过所述回报值预测网络，基于预测的行业状态、以及区域状态对预定客户进行信用升级或降级动作。

进一步地，所述对预定客户进行信用升级或降级动作的步骤包括：

获取所述预定客户的第一信用值；其中，所述第一信用值为所述预定客户的当前信用值；

在所述第一信用值的基础上进行数值增加或减少以完成信用升级或降级动作。

进一步地，在所述对预定客户进行信用升级或降级动作的步骤之后，还包括：

所述预定客户的第一信用值被数值增加或减少之后，形成第二信用值；

当所述第二信用值小于预警信用值时，标记所述预定客户为预警客户。

进一步地，还包括：

通过互联网获取环境状态；

根据环境状态，对所述预定客户的环境进行观测以获得环境观测值；其中，所述环境状态包括区域状态、行业状态以及客户自身状态；所述区域状态包括所在区域状态、相关区域状态以及无关区域状态；所述行业状态包括本行业状态、相关行业状态以及无关行业状态；所述预定客户的第一信用值被数值增加或减少时使用所述环境观测值。

在本发明的第二方面中，提供一种基于深度强化学习的信贷预警装置，其包括：

预测模型构建模块，用于根据历史统计信息构建状态预测模型；其中，所述状态预测模型包括对行业状态和区域状态的预测；所述根据历史统计信息构建状态预测模型的步骤包括：

根据所述特定时刻观测值，构建所述状态预测模型；

回报值预测网络生成模块，用于根据所述状态预测模型进行模拟并生成回报值预测网络；所述生成回报值预测网络步骤包括：

A2：开始一个新的时段；

A6：返回至步骤A3，直至所述时段结束；

A7：记录所述时段的模拟次数；

信用动作模块，用于通过所述回报值预测网络，基于预测的行业状态、以及区域状态对预定客户进行信用升级或降级动作。

在本发明的第三方面中，提供一种基于深度强化学习的信贷预警***，其包括：

数据存储器和处理器，所述存储器存储响应于接收到访问服务的请求，所述处理器用于：

根据所述特定时刻观测值，构建所述状态预测模型；

A2：开始一个新的时段；

A6：返回至步骤A3，直至所述时段结束；

A7：记录所述时段的模拟次数；

A8：当所述模拟次数达到预定阈值时，结束所述状态预测模型的训练过程，并输出最终回报值预测网络；信用动作模块，用于通过所述回报值预测网络，基于预测的行业状态、以及区域状态对预定客户进行信用升级或降级动作。

在本发明的第四方面中，提供一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述本发明第一方面中所述的方法。

本发明的有益之处在于，由于小额信贷客户的抗风险能力弱，还贷能力受外界变化影响较大，本发明拟通过针对性从互联网爬取客户所在区域和所在行业信息，构建基于***环境信息的深度强化学习的小额信贷客户违约预警***。通过自然语言处理技术，将环境信息转成正负面评价值，据此设定各种状态，并将状态变化设定为行动，考虑状态信息和动作信息，执行动作与状态的交互，实现目标回报最大化，从而完成客户预警模型的训练，提高客户预警的准确率，减少信贷企业的损失。

首先，我们将根据互联网的信息，将描述信息分为自身所在行业、相关行业、无关行业、所在县市、相关县市和无关县市等维度，根据评价的正负面，每个维度取值为{-1,0,1}三个。将当前时间片中的网上描述信息映射到这些维度中，加上客户的预警级别，构成状态。在强化学习模型中，随着时间的推移，状态的变化会导致客户预警级别变化，客户预警级别的变化则构成动作。随着动作的变化，客户贷款就可能从低风险变成高风险，从而成为预警对象。自然，误报和漏报都不是希望看到的，因此将回报函数设为误报指标和漏报指标的组合。

这么做具有以下优点：(1)能引入评论等外部信息，避免纯手工预警带来的高成本、低效率等问题；(2)违约是一个终止行为，在过程当中很难得到相关信息，通过强化学习的延迟回报概念，可以学得将正回报或者负回报分配给之前的状态，从而进行过程监控；(3)通过强化学习的多次试错，有助于还原互联网评论和企业经营之间的关联性，通过与环境的不断交互，获得最佳的预警级别调整策略，从而提高预警准确性和及时性。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施方式中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中信贷预警方法的***性框架图；

图2是本发明实施例中信贷预警方法的流程示意图；

图3是本发明实施例中回报值预测网络的训练流程图；

图4是本发明实施例中信贷预警装置的结构示意图；

图5是本发明实施例中信贷预警***的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明第一实施例：

参见图1和图2，图1是本发明实施例中信贷预警方法的***性框架图，图2是本发明实施例中信贷预警方法的流程示意图。如图1所示，本发明实施例中的信贷预警方法主要分为离线学习和在线调级两部分。首先，根据历史的统计信息，训练状态预测模型。然后，预测行业状态I-model和区域状态Z-model.并根据所预测的状态进行模拟，从而学得回报值预测网络。在线调级阶段，利用学得的回报值预测网络和行业状态I-model及区域状态Z-model，对企业信用等级进行调整。

更具体地，在状态预测模型的训练中，首先根据影响因素，包括时间、区域、行业等，选取若干个最相似的历史时刻；其次，根据每个区域、行业相似时刻的历史评价值，以相似度作为权重，进行加权计算，得到特定时刻观测值。基于该特定时刻观测值，结合从环境信息中获取的各种状态集合，生成行业状态预测器I-model和区域状态预测器Z-model。环境信息中的环境状态包括区域状态、行业状态和客户自身状态。可以理解，状态是由一连串相互交错的观测到的环境状态和对应时刻的行动构成。即t时刻的状态S_t＝{O_t-l1,a_t-l1,...,O_t-1,a_t-1,O_t,t}，其中l1代表时间间隔的长度。

区域状态由所在区域(如企业所在县)、相关区域状态(如企业所在市的其他区域)和无关区域(如市外区域)状态构成；行业状态同样可分为本行业、相关行业(包括竞品行业和上下游行业)和无关行业；客户自身状态包括客户当前预警级别等。所述用户预警级别可以是一个离散值构成的集合，初始为中间值，随着对客户的中期预警评估进行升级或降级。当达到最低值时，则认为应该预警。除了客户当前预警级别外，其他各细分维度都可以用一个对应正负面状态的标量表示，该值可通过对爬取到的网页进行自然语言处理获得。更具体地，可以通过互联网中的新闻站点、评论网站等爬取与指定用户对应县区、行业，以及对其评价等相关网页，根据环境状态中的信息，构造对应的区域状态和行业状态。

为了训练和评估预警调级模型，根据区域预测器Z-model和行业预测器I-model，生成***模拟器。预测器的目的是分别预测每个区域和每个行业的正负面评价值。例如，根据历史统计信息，如相关评价数量，生成各时刻的正负面评价值分布，然后使用泊松分布进行模拟，得到各区域或行业的正负面评价值。

回报值预测网络的构建中，参见图3，包括：

A1：以随机的方式获取初始回报值预测网络Q*(S，a，θ-)，并将所述初始回报值预测网络的样本池设为空集；S表示状态集，a表示动作集，θ-表示回报值预测网络的参数

A2：开始一个新的时段；

A3：当需要对预定用户进行中期预警评估时，所述初始回报值预测网络Q*(S，a，θ-)基于第一状态S_t生成对所述预定客户的升级或降级的动作a_t；某一个时刻的动作定义为一个标量，对应升级或降级的级别数；其中，要求a_t＝argmax_a∈AQ*(S,a,θ-)。此处，引入一个基于[0,1]范围内的概率参数ε，根据该概率参数，可以从a中随机选出的动作取代a_t。其中，ε的具体值可以通过对数据进一步探索分析得到；

A4：被执行升级或降级动作的所述预定客户转换成t+1时刻状态S_t+1，同时获得一个t时刻的即时回报r_t。从而生成一个新样本(S_t,a_t,S_t+1,r_t)，并将所述新样本放入所述样本池；即在S_t状态下，采取a_t动作，***转到S_t+1状态后，***得到一个回报r_t，根据所定义的回报函数确定；***的目的是最小化一个时段内的客户违约造成损失；即在S_t状态下，采取a_t动作，***转到S_t+1状态后，***得到一个回报r_t；

其中，θ⁺更新后的网络参数，而θ^-为更新前的网络参数；

A6：返回至步骤A3，直至所述时段结束；时段可以用E表示，一个时段指一段时间，默认是贷款时长。时段可以划分为时刻，通过时段的划分，基于深度强化学***均损失率乘以贷款数量计算得出。平均损失率与发现的迟早相关，发现越早则损失越小，因此将平均损失率视为(该用户贷款到期日期减去该用户实际违约日期)的负相关函数。回报函数是L_f和L_m的加权函数，具体权重可通过超参数优化计算得出。

A7：记录所述时段的模拟次数；

A8：当所述模拟次数达到预定阈值时，结束所述状态预测模型的训练过程，并输出最终回报值预测网络。

进一步地，预测模型可以由由(S,a,T,R,π,γ)六部分构成。其中，S代表状态集合；a代表动作集合；T是一个转移概率，表示在S_t状态下，采取动作a_t，转移到S_t+1状态的概率，即S×a×S→T；R代表在特定状态下，通过采取一动作转到下一状态的即时回报，即S×a×S→R；π是一个策略，表示在特点状态下采取某动作的概率，即S×a×S→π；而γ是时间衰减因子。

动作具有的长期回报用U_t表示，U_t＝r_t+γ×r_t+1+γ²×r_t+2+...+γ^te-t×r_te。其中，te代表时段结束对应的时刻。

最优的长期回报函数用Q*(S_t,a_t)表示，Q*(S_t,a_t)＝max_πE_π[Ut|S_t,a_t,π]，E表示求期望值，该公式表示在给定状态S_t下，找到基于各策略采取动作a_t所获得回报的最大期望值。由于状态空间和动作空间都很大，引入一个深度神经网络进行估计。这样，最优的长期回报函数就变成Q*(S,a,θ)：S×a→Q*，其中，θ表示神经网络的参数。

如上所述，可以理解，在本发明的实施例中，信贷预警方法包括：

S1，根据历史统计信息，构造状态预测模型；其中，所述状态预测模型包括对行业状态和区域状态的预测；

S2，根据所述状态预测模型进行模拟，生成回报值预测网络；

S3，通过所述回报值预测网络，基于预测的行业状态、以及区域状态对预定客户进行信用升级或降级动作。

进一步地，所述对预定客户进行信用升级或降级动作的步骤包括：获取所述预定客户的第一信用值；其中，所述第一信用值为所述预定客户的当前信用值；在所述第一信用值的基础上进行数值增加或减少以完成信用升级或降级动作。在所述对预定客户进行信用升级或降级动作的步骤之后，还包括：所述预定客户的第一信用值被数值增加或减少之后，形成第二信用值；当所述第二信用值小于预警信用值时，标记所述预定用户为预警用户。

进一步地，所述根据历史统计信息构建状态预测模型的步骤包括：根据影响因素，选取若干个与所述影响因素最相似的历史时刻；根据每个区域、行业的相似时刻的历史评价值，以相似度为权重进行加权计算，得到特定时刻的观测值；根据所述观测值，构件所述状态预测模型。

所述信贷预警方法还包括：通过互联网获取环境状态；根据环境状态，对所述预定客户的环境进行观测以获得环境观测值；其中，所述环境状态包括区域状态、行业状态以及客户自身状态；所述区域状态包括所在区域状态、相关区域状态以及无关区域状态；所述行业状态包括本行业状态、相关行业状态以及无关行业状态；所述预定客户的第一信用值被数值增加或减少时使用所述环境观测值。

本发明第二实施例：

图4是本发明实施例中信贷预警装置的结构示意图，主要包括：

预测模型构造模块10，用于根据历史统计信息构造状态预测模型；其中，所述状态预测模型包括对行业状态和区域状态的预测；

回报值预测网络生成模块20，用于根据所述状态预测模型进行模拟并生成回报值预测网络；

信用动作模块30，用于通过所述回报值预测网络，基于预测的行业状态、以及区域状态对预定客户进行信用升级或降级动作。

所述回报值预测网络生成模块20还用于：

A1：以随机的方式获取初始回报值预测网络Q*(S，a，θ-)，并将所述初始回报值预测网络的样本池设为空集；A2：开始一个新的时段；A3：当需要对预定用户进行中期预警评估时，所述初始回报值预测网络Q*(S，a，θ-)基于第一状态S_t生成对所述预定客户的升级或降级的动作a_t；某一个时刻的动作定义为一个标量，对应升级或降级的级别数；A4：被执行升级或降级动作的所述预定客户转换成t+1时刻状态S_t+1，同时获得一个t时刻的即时回报r_t。从而生成一个新样本(S_t,a_t,S_t+1,r_t)，并将所述新样本放入所述样本池；即在S_t状态下，采取a_t动作，***转到S_t+1状态后，***得到一个回报r_t，根据所定义的回报函数确定；***的目的是最小化一个时段内的客户违约造成损失；即在S_t状态下，采取a_t动作，***转到S_t+1状态后，***得到一个回报r_t；A5：通过抽取所述样本池中的小批量数据进行训练，修改网络参数，令

Q*(S_t+1,a_t+1,θ^-)；其中，θ⁺更新后的网络参数，而θ^-为更新前的网络参数；A6：返回至步骤A3，直至所述时段结束；A7：记录所述时段的模拟次数；A8：当所述模拟次数达到预定阈值时，结束所述状态预测模型的训练过程，并输出最终回报值预测网络。

本发明第三实施例：

图5是本发明实施例中信贷预警***的结构示意图，其包括数据存储器和处理器，所述存储器存储响应于接收到访问服务的请求，所述处理器用于：根据历史统计信息构造状态预测模型；其中，所述状态预测模型包括对行业状态和区域状态的预测；根据所述状态预测模型进行模拟并生成回报值预测网络；通过所述回报值预测网络，基于预测的行业状态、以及区域状态对预定客户进行信用升级或降级动作。

本发明第四实施例：

在本发明的第四实施例中，提供一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述本发明第一实施例中所述的方法。

示例性地，所述计算机程序可以被分割成一个或多个模块，所述一个或者多个模块被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述实现信贷预警的***中的执行过程。

所述***可包括，但不仅限于，处理器、存储器、显示器。本领域技术人员可以理解，所述示意图仅仅是实现信贷预警的***的示例，并不构成对信贷预警的***的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如实现信贷预警的***还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述实现信贷预警的***的控制中心，利用各种接口和线路连接整个所述实现信贷预警的***的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现信贷预警的***的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、文字转换功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、文字消息数据等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述实现信贷预警方法的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一个计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种基于深度强化学习的信贷预警方法，其特征在于，包括：

所述根据历史统计信息构建状态预测模型的步骤包括：

根据所述特定时刻观测值，构建所述状态预测模型；

A2：开始一个新的时段；

其中，θ⁺是更新后的网络参数，而θ^-为更新前的网络参数，γ表示时间衰减因子；

A6：返回至步骤A3，直至所述时段结束；

A7：记录所述时段的模拟次数；

2.根据权利要求1所述的信贷预警方法，其特征在于，所述对预定客户进行信用升级或降级动作的步骤包括：

3.根据权利要求2所述的信贷预警方法，其特征在于，在所述对预定客户进行信用升级或降级动作的步骤之后，还包括：

4.根据权利要求3所述的信贷预警方法，其特征在于，还包括：

通过互联网获取环境状态；

5.一种基于深度强化学习的信贷预警装置，其特征在于，包括：

根据所述特定时刻观测值，构建所述状态预测模型；

A2：开始一个新的时段；

A6：返回至步骤A3，直至所述时段结束；

A7：记录所述时段的模拟次数；

6.一种基于深度强化学习的信贷预警***，其特征在于，包括：

根据所述特定时刻观测值，构建所述状态预测模型；

A2：开始一个新的时段；

A6：返回至步骤A3，直至所述时段结束；

A7：记录所述时段的模拟次数；

7.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至4任一项中所述的方法。