CN110415462A

CN110415462A - Atm设备加钞优化方法及装置

Info

Publication number: CN110415462A
Application number: CN201910700928.3A
Authority: CN
Inventors: 唐杰聪; 蔡为彬; 王亚新; 杜姗
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2019-07-31
Filing date: 2019-07-31
Publication date: 2019-11-05
Anticipated expiration: 2039-07-31
Also published as: CN110415462B

Abstract

本发明提供了一种ATM设备加钞优化方法及装置，ATM设备加钞优化方法包括：获取所述ATM设备的当前清机周期内的交易数据、地理位置、所述地理位置的天气预报数据、钞箱容量、现金余额及剩余清机天数；根据所述ATM设备的目标清机周期内的法定假日、所述当前清机周期内的交易数据、所述地理位置、所述目标清机周期内的天气预报数据、钞箱容量、现金余额、剩余清机天数，基于预设的模拟环境模型及加钞计划优化模型，生成所述ATM设备加钞操作。本发明提供的ATM设备加钞优化方法及装置可以快速提供考虑全局成本的加钞计划，降低了银行的运营支出，为银行实物现金用量管理提供更智能、更精准、更高效的管理手段。

Description

ATM设备加钞优化方法及装置

技术领域

本发明涉及人工智能领域技术领域，具体涉及金融行业的大数据分析领域，特别是涉及一种ATM设备加钞计划优化方法及装置。

背景技术

ATM自助柜员机是商业银行为客户提供自助存取现金的设备。银行相关业务人员需根据业务量及其相关管理要求，估算每台ATM设备存放现金额度，为所管辖设备制定现金加钞计划，进行备钞和现金调拨。现有技术中，ATM现金管理主要依靠业务专家的人工经验来估算加钞金额、制定现金加钞计划。由于现金加钞计划的制定所考虑的是全局成本最优且现金加钞计划相互影响，现金加钞计划不仅需要满足所管辖ATM现金需求与清机管理要求，还要平衡当天的立即加钞成本和下一清机周期内的未来加钞成本。这导致现金加钞计划的好坏程度的评估复杂度极大，人工经验无法从大量可行的现金加钞计划中挑选出较优的现金加钞计划。

发明内容

针对现有技术中的问题，本发明提供的ATM设备加钞优化方法及装置可以快速提供考虑全局成本的加钞计划，降低了银行的运营支出，为银行实物现金用量管理提供更智能、更精准、更高效的管理手段。

为解决上述技术问题，本发明提供以下技术方案：

第一方面，本发明提供一种ATM设备加钞优化方法，包括：

获取所述ATM设备的当前清机周期内的交易数据、地理位置、所述地理位置的天气预报数据、钞箱容量、现金余额及剩余清机天数；

根据所述ATM设备的目标清机周期内的法定假日、所述当前清机周期内的交易数据、所述地理位置、所述目标清机周期内的天气预报数据、钞箱容量、现金余额、剩余清机天数，基于预设的模拟环境模型及加钞计划优化模型，生成所述ATM设备加钞操作。

优选地，所述交易数据包括所述ATM设备的流水数据、发薪日及还款日。

优选地，ATM设备加钞优化方法还包括：

获取所述ATM设备的历史清机周期内的交易数据、地理位置、历史清机周期内的天气数据、钞箱容量、现金余额、剩余清机天数、清机周期以及预先获取的ATM设备目标清机周期内的预测现金用量；

对所述ATM设备的历史清机周期内的交易数据、地理位置、历史清机周期内的天气数据、钞箱容量、现金余额、剩余清机天数、清机周期以及预先获取的ATM设备目标清机周期内的预测现金用量进行预处理；

根据预处理之后的所述ATM设备的历史清机周期内的交易数据、地理位置、历史清机周期内的天气数据、钞箱容量、现金余额、剩余清机天数、清机周期以及预先获取的ATM设备目标清机周期内的预测现金用量，利用监督学习算法构建所述模拟环境模型，其中，所述模拟环境模型用于生成所述加钞计划优化模型所需的训练数据。

优选地，所述根据预处理之后的所述ATM设备的历史清机周期内的交易数据、地理位置、历史清机周期内的天气数据、钞箱容量、现金余额、剩余清机天数、清机周期以及预先获取的ATM设备目标清机周期内的预测现金用量，利用监督学习算法构建所述模拟环境模型，包括：

通过改变所述ATM设备现金余额及剩余清机天数，利用所述监督学习算法及所述模拟环境模型生成多个模拟环境下的模拟环境结果。

优选地，所述预处理包括：数据清理、数据集成、数据归约及数据变换。

优选地，ATM设备加钞优化方法还包括：

根据多个模拟环境模型生成不同模拟环境下的训练数据；

根据不同模拟环境下的训练数据利用强化学习算法生成所述加钞计划优化模型，其中所述强化学习算法包括：DQN算法，DDPG算法、IMPALA算法、A2C算法及GA3C算法。

优选地，ATM设备加钞操作包括：所述ATM设备加钞日期及加钞金额。

第二方面，本发明提供一种ATM设备加钞优化装置，该装置包括：

数据获取第一单元，用于获取所述ATM设备的当前清机周期内的交易数据、地理位置、所述地理位置的天气预报数据、钞箱容量、现金余额及剩余清机天数；

加钞操作生成单元，用于根据所述ATM设备的目标清机周期内的法定假日、所述当前清机周期内的交易数据、所述地理位置、所述目标清机周期内的天气预报数据、钞箱容量、现金余额、剩余清机天数，基于预设的模拟环境模型及加钞计划优化模型，生成所述ATM设备加钞操作。

优选地，ATM设备加钞优化装置还包括：

数据获取第二单元，用于获取所述ATM设备的历史清机周期内的交易数据、地理位置、历史清机周期内的天气数据、钞箱容量、现金余额、剩余清机天数、清机周期以及预先获取的ATM设备目标清机周期内的预测现金用量；

预处理单元，用于对所述ATM设备的历史清机周期内的交易数据、地理位置、历史清机周期内的天气数据、钞箱容量、现金余额、剩余清机天数、清机周期以及预先获取的ATM设备目标清机周期内的预测现金用量进行预处理；

环境模型构建单元，用于根据预处理之后的所述ATM设备的历史清机周期内的交易数据、地理位置、历史清机周期内的天气数据、钞箱容量、现金余额、剩余清机天数、清机周期以及预先获取的ATM设备目标清机周期内的预测现金用量，利用监督学习算法构建所述模拟环境模型，其中，所述模拟环境模型用于生成所述加钞计划优化模型所需的训练数据。

优选地，环境模型构建单元具体用于通过改变所述ATM设备现金余额及剩余清机天数，利用所述监督学习算法及所述模拟环境模型生成多个模拟环境下的模拟环境结果。

优选地，所述预处理单元具体用于数据清理、数据集成、数据归约及数据变换。

优选地，ATM设备加钞优化装置还包括：

训练数据生成单元，用于根据多个模拟环境模型生成不同模拟环境下的训练数据；

加钞模型生成单元，用于根据不同模拟环境下的训练数据利用强化学习算法生成所述加钞计划优化模型，其中所述强化学习算法包括：DQN算法，DDPG算法、IMPALA算法、A2C算法及GA3C算法。

第三方面，本发明提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现ATM设备加钞优化方法的步骤。

第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现ATM设备加钞优化方法的步骤。

从上述描述可知，本发明一种ATM设备加钞优化方法及装置，该方法包括模拟环境的建立、强化学习模型的训练、强化学习模型的现金加钞计划生成、***定期的评价反馈。具体地，进行ATM加钞规划前，需要使用模拟环境模型建立模拟环境。加钞计划优化模型在强化学习模型训练时不断与模拟环境进行交互，产生大量训练数据的同时进行模型的更新训练。训练直到通过评估，模型训练过程结束。

综上，本发明提供的ATM设备加钞优化方法综合考虑加钞的运输成本、清钞成本、现金占款成本、ATM管理要求设计出合适的加钞成本计算方式，利用强化学***衡即时成本和未来成本，自动完成ATM现金加钞计划的制定工作，提供较优的现金加钞计划，有效提升银行现金用量管理的精准度和工作效率，从而降低银行库存现金总量和运维成本，大幅减少业务人员工作负担，提升网点现金服务保障率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的实施例中ATM设备加钞优化方法流程示意图一；

图2为本发明的实施例中交易数据组成示意图；

图3为本发明的实施例中ATM设备加钞优化方法流程示意图二；

图4为本发明的实施例中预处理组成示意图；

图5为本发明的实施例中ATM设备加钞优化方法流程示意图三；

图6为本发明的实施例中ATM设备加钞操作组成示意图；

图7为本发明的具体应用实例中ATM设备加钞优化方法的流程示意图；

图8为本发明的具体应用实例中模拟环境模型与加钞计划优化模型交互示意图；

图9为本发明的具体应用实例中ATM设备加钞优化方法中步骤S5的流程示意图；

图10为本发明的具体应用实例中ATM设备加钞优化装置的结构示意图一；

图11为本发明的具体应用实例中ATM设备加钞优化装置的结构示意图二；

图12为本发明的具体应用实例中ATM设备加钞优化装置的结构示意图三；

图13为本发明的实施例中的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的实施例提供一种ATM设备加钞优化方法的具体实施方式，参见图1该方法10具体包括如下内容：

步骤100：获取所述ATM设备的当前清机周期内的交易数据、地理位置、所述地理位置的天气预报数据、钞箱容量、现金余额及剩余清机天数。

可以理解的是，清机就是清空ATM设备中的钞箱。主要通过与先与后台对账，在将钞箱拿回结算支行清点。清机还包括取流水纸，取吞卡等。一般情况都是做清机加钞，取旧钞箱，换新钞箱，换流水纸等。

需要指出的是，当前清机周期可以为未来一天、一周、一个月等多个周期。步骤100中的交易数据包括ATM设备的流水数据、发薪日及还款日。

步骤200：根据所述ATM设备的目标清机周期内的法定假日、所述当前清机周期内的交易数据、所述地理位置、所述目标清机周期内的天气预报数据、钞箱容量、现金余额、剩余清机天数，基于预设的模拟环境模型及加钞计划优化模型，生成所述ATM设备加钞操作。

可以理解的是，所述模拟环境模型用于生成所述加钞计划优化模型所需的训练数据，模拟环境模型采用TSP近似算法(近似算法Prim算法、如Hopfield神经网络算法、遗传算法、模拟退火法、蚁群算法、禁忌搜索算法及贪婪算法)进行计算。

在将所述ATM设备的目标清机周期内的法定假日、所述当前清机周期内的交易数据、所述地理位置、所述目标清机周期内的天气预报数据、钞箱容量、现金余额、剩余清机天数通过预设的模拟环境模型处理之后，生成不同模拟环境下的训练数据，并将其输入至加钞计划优化模型中，最终生成所述ATM设备加钞操作。

本发明提供的ATM设备加钞优化方法综合考虑加钞的运输成本、清钞成本、现金占款成本、ATM管理要求设计出合适的加钞成本计算方式，利用强化学***衡即时成本和未来成本，自动完成ATM现金加钞计划的制定工作，提供较优的现金加钞计划，有效提升银行现金用量管理的精准度和工作效率，从而降低银行库存现金总量和运维成本，大幅减少业务人员工作负担，提升网点现金服务保障率。

一实施例中，参见图2，所述交易数据包括所述ATM设备的流水数据、发薪日及还款日。

可以理解的是，所述交易数据包括所述ATM设备的流水数据、发薪日及还款日。

一实施例中，参见图3，ATM设备加钞优化方法还包括：

步骤300：获取所述ATM设备的历史清机周期内的交易数据、地理位置、历史清机周期内的天气数据、钞箱容量、现金余额、剩余清机天数、清机周期以及预先获取的ATM设备目标清机周期内的预测现金用量。

步骤400：对所述ATM设备的历史清机周期内的交易数据、地理位置、历史清机周期内的天气数据、钞箱容量、现金余额、剩余清机天数、清机周期以及预先获取的ATM设备目标清机周期内的预测现金用量进行预处理。

步骤400中的预处理包括数据清理、数据集成、数据归约及数据变换。

步骤500：根据预处理之后的所述ATM设备的历史清机周期内的交易数据、地理位置、历史清机周期内的天气数据、钞箱容量、现金余额、剩余清机天数、清机周期以及预先获取的ATM设备目标清机周期内的预测现金用量，利用监督学习算法构建所述模拟环境模型。其中，所述模拟环境模型用于生成所述加钞计划优化模型所需的训练数据。

可以理解的是，模拟环境模型可以为加钞计划优化模型提供大量高质量的可用训练数据。另外，监督学习算法是指利用一组已知类别的样本调整分类器的参数，使其达到所要求性能的过程，也称为监督训练或有教师学习。具体地，监督学习算法是从标记的训练数据来推断一个功能的机器学习任务。训练数据包括一套训练示例。在监督学习中，每个实例都是由一个输入对象(通常为矢量)和一个期望的输出值(也称为监督信号)组成。监督学习算法是分析该训练数据，并产生一个推断的功能，其可以用于映射出新的实例。一个最佳的方案将允许该算法来正确地决定那些看不见的实例的类标签。这就要求学习算法是在一种“合理”的方式从一种从训练数据到看不见的情况下形成。

一实施例中，步骤500也可以不通过监督学习算法来实现，即直接利用根据预处理之后的所述ATM设备的历史清机周期内的交易数据、地理位置、历史清机周期内的天气数据、钞箱容量、现金余额、剩余清机天数、清机周期以及预先获取的ATM设备目标清机周期内的预测现金用量生成模拟环境模型。具体地，修改模拟环境模型的初始状态(ATM现金余额和剩余清机周期)，根据交易数据使模拟环境模型重新计算有历史数据的相应时间，以获取模型环境模型针对不同的环境下(不同的加钞计划)，会有怎么样的结果(成本消耗)。在具体实施时，采用真实交易数据结合人工增加噪声的方式模拟预测。其中噪声的模拟是根据历史上监督学习模型预测效果的均值偏差和方差得到的。

可以理解的是，这种方法避免了对监督学习模型的直接依赖，降低了耦合性，可以使监督学习模型在多次优化后的结果直接用于强化学习模型。避免每次修改监督学习模型后强化学习模型的需要新训练，(监督学习模型指ATM现金预测用量)。

一实施例中，步骤500具体为：通过改变所述ATM设备现金余额及剩余清机天数，利用所述监督学习算法及所述模拟环境模型生成多个模拟环境下的模拟环境结果。

可以理解的是，模拟环境模型负责整合数据构建模拟环境。ATM交易信息、ATM清机周期、ATM钞箱容量为客观的ATM使用环境数据，在模拟环境中需要确保不改变。模拟环境模块通过设置不同的ATM现金余额、ATM剩余清机天数，可以模拟出不同的ATM加钞规划环境。

一实施例中，参见图4，所述预处理包括：数据清理、数据集成、数据归约及数据变换。

一实施例中，参见图5，ATM设备加钞优化方法还包括：

步骤600：根据多个模拟环境模型生成不同模拟环境下的训练数据。

步骤700：根据不同模拟环境下的训练数据利用强化学习算法生成所述加钞计划优化模型。

可以理解的是，步骤700中的强化学习算法是一种试错学习算法。在强化学习算法应用的任务中，指导信息很少，而且往往是在事后才给出。由于任务中执行了某个动作后无法直接判断它是否为合适的动作，监督学习的方法无法解决这类问题。而在强化学习算法中，模型可以不断与环境进行交互，通过试错的方式来获得最佳策略。其中所述强化学习算法包括：DQN算法，DDPG算法、IMPALA算法、A2C算法及GA3C算法。

一实施例中，参见图6，ATM设备加钞操作包括：所述ATM设备加钞日期及加钞金额。

具体地，加钞操作是指需要什么时间进行加钞以及确定加钞金额。

从上述描述可知，本发明一种ATM设备加钞优化方法，该方法包括模拟环境的建立、强化学习模型的训练、强化学习模型的现金加钞计划生成、***定期的评价反馈。具体地，进行ATM加钞规划前，需要使用模拟环境模型建立模拟环境。加钞计划优化模型在强化学习模型训练时不断与模拟环境进行交互，产生大量训练数据的同时进行模型的更新训练。训练直到通过评估，模型训练过程结束。

为进一步地说明本方案，本发明提供ATM设备加钞优化方法的具体应用实例，该具体应用实例具体包括如下内容20，参见图7。

S0：获取数据。

所需数据包括ATM交易信息、ATM钞箱容量、ATM现金余额、ATM剩余清机天数、ATM清机周期以及ATM现金预测模型对ATM未来1天、2天、3天、4天、5天、6天、7天、8天共八个清机周期的预测现金需求量等影响现金加钞计划制定的数据。并分别对8项预测现金需求量进行数据处理求出各项数据的方差，同时计算各项数据与真实值的平均误差，用于模拟环境中的噪声。

S1：构建模拟环境模型。

具体地，通过预处理之后的的ATM设备的历史清机周期内的交易数据、地理位置、历史清机周期内的天气数据、钞箱容量、现金余额、剩余清机天数、清机周期以及预先获取的ATM设备目标清机周期内的预测现金用量，利用监督学习算法构建所述模拟环境模型。具体地，保持业务外部客观数据，如ATM交易数据、日期等不变，通过修改业务内部数据，如ATM现金余额、ATM剩余清机天数等，构建模拟环境。可以理解的是，模拟环境可以为模型训练装置提供大量高质量的可用训练数据。

可以理解的是，模拟环境模型负责给加钞计划优化模型提供模拟环境的当前状态。加钞计划优化模型训练过程中，需要模拟环境模型提供数据支持。对模拟环境的状态信息进行汇总计算，最终把加钞计划优化模型所需环境状态信息传出，环境状态信息包括ATM清机周期、现金加钞计划的加钞路线长度、ATM钞箱容量以及当天ATM现金余额减去1天、2天、3天、4天、5天、6天、7天、8天共八个清机周期的预测现金需求量所得到的ATM未来8天每天的预测现金余额等。其中，现金加钞计划的加钞路线长度计算属于TSP问题，精确算法时间复杂度极高、难以短时间内获得准确的加钞路线长度。因此，模拟环境模型采用近似算法Prim算法进行计算。由于预测现金需求量的模拟方式是通过统计ATM交易信息计算真实现金需求、再结合历史预测方差(当前余额结合将来8天的历史交易数据计算得到)与误差加入噪声(步骤S0中获得)所获得，模拟环境模型每一轮的模拟可生成的数据量比原始可用数据长度少8天。

S2：获取加钞操作成本计算公式。

具体地，与业务人员交互，获取成本影响因素的权重，确定成本使用加权平均的方式计算。需要指出的是，训练模型时，每一次的与虚拟环境的交互后，都需要计算成本代价，成本代价由业务人员所设置的成本影响因素的权重与模拟环境模型中反馈的成本影响因素加权平均所得。其中，成本影响因素包括但不限于加钞路线长度，加钞次数，点钞处理费用、现金占款、缺钞次数、清机周期。

S3：利用强化学习算法生成并训练加钞计划优化模型。

这里以棋类游戏为例阐述强化学习算法原理，计算机棋手开始时并不知道下一步棋是对是错，更不知道哪步棋是整盘棋局制胜的关键，但是根据比赛结果可以知道走出这步棋(指棋局的最后一步)之后，结果是输还是赢，如果这样走最后的结果是胜利，那么算法(计算机棋手)就学习记忆，如果最后输了，那么算法就学习以后不再像这盘棋这样走棋。

根据不同模拟环境下的训练数据利用DDPG算法生成所述加钞计划优化模型。DQN是一种model free(无环境模型)，off-policy(产生行为的策略和进行评估的策略不一样)的强化学习算法。DDPG(Deep Deterministic Policy Gradient)算法也是model free,off-policy或on-policy的，且同样使用了深度神经网络用于函数近似。但与DQN不同的是，DQN只能解决离散且维度不高的action spaces的问题，这一点请回忆DQN的神经网络的输出。而DDPG可以解决连续动作空间问题。另外，DQN是value based方法，即只有一个值函数网络，而DDPG是actor-critic方法，即既有值函数网络(critic)，又有策略网络(actor)。可以理解的是，强化学习是一个反复迭代的过程，每一次迭代要解决两个问题：给定一个策略求值函数，和根据值函数来更新策略。

DDPG中使用一个神经网络来近似值函数，此值函数网络又称critic网络，它的输入是action与observation[a,s]，输出是Q(s,a)；另外使用一个神经网络来近似策略函数，此policy网络又称actor网络，它的输入是observation ss，输出是action a.

具体地，actor:a＝π(s；θ)a＝π(s；θ)

target actor:a＝π(s；θ-)a＝π(s；θ-)

需要说明的是，上式中的“-”的是上一回合更新的actor网络的参数。其中“回合”指的是算法更新target网络的轮次，使用算法是会设置一个值，每当actor和critic网络迭代一定次数后，会把他们的参数值覆盖一次target网络的参数，这时target网络与当前actor和critic网络一致。

两个网络之间的联系如下所述：首先环境会给出一obs，智能体根据actor网络(后面会讲到在此网络基础上增加噪声)做出决策action，环境收到此action后会给出一个奖励Rew，及新的obs。这个过程是一个step。此时根据Rew去更新critic网络，然后沿critic建议的方向去更新actor网络。接着进入下一个step。如此循环下去，直到训练出了一个好的actor网络。

与DQN一样，DDPG中也使用了target网络来保证参数的收敛。假设critic网络为Q(s,a；ω)Q(s,a；ω)，它对应的target critic网络为Q(s,a；ω-)Q(s,a；ω-)。actor网络为π(s；θ)π(s；θ)，它对应的target actor网络为π(s；θ-)π(s；θ-)。

critic网络用于值函数近似。

targett＝Rt+1+γQ(St+1,π(St+1；θ-)；ω-)targett＝Rt+1+γQ(St+1,π(St+1；θ-)；ω-)

Loss＝1NN∑t＝1(targett-Q(St,at；ω))2Loss＝1N∑t＝1N(targett-Q(St,at；ω))2

然后使用梯度下降法进行更新。注意，actor和critic都使用了target网络来计算target。actor网络用于参数化策略。这里涉及到强化学习中一个非常重要的概念：策略梯度Policy Gradient。

在训练过程中，加钞计划优化模型与模拟环境模型交互，在交互的过程中产生大量训练数据。同时每次交互后需要评估交互动作，即现金加钞操作成本。不断更新加钞计划优化模型的内部参数。每进行一定轮次的模型训练时，在模拟环境中模拟强化加钞计划优化模型的实际使用状况。经过模拟环境的一轮完整交互后，统计当轮交互的评估因素。若评估因素通过预设的评估条件则结束训练，否则继续训练。训练中可选择使用经验回放计算，以保证训练速度的同时，减少与模拟环境模型的交互。

参见图8，在模型训练过程中模拟环境模型与加钞计划优化模型交互过程如下：

①加钞计划优化模型需要向模拟环境模型获取Observation环境状态信息。

②加钞计划优化模型把环境状态信息输入模拟环境模型得到Action现金加钞计划。

③模拟环境模型通过环境更新接收现金加钞计划对环境进行更新。

④环境更新结束后，模拟环境模型的环境反馈模块重新统计计算环境状态。

⑤继续执行①的同时加钞计划优化模型的动作成本评估模块评估本次现金加钞计划的Reward成本。

S4：生成ATM设备加钞计划。

加钞计划优化模型在真实环境(真实数据)中生成现金加钞计划。具体地，获取真实环境数据，将其输入至加钞计划优化模型，以生成现金加钞计划。

S5：评价加钞计划。

每隔预设时间间隔对当前加钞计划优化模型预测效果进行评价和反馈。根据反馈决定是否调整训练。具体地，参见图9，步骤S5包括：

步骤S501，获取从上次评价反馈到现在的所有预测数据。

步骤S502，统计业务人员所关注的评估因素进行评估。

步骤S503，获取业务人员对当前评估因素结果的经验评价，同时允许业务人员提供另一份主观模型评价表。

步骤S504，统计的客观评估因素效果、业务人员的主观评价表及经验评价。定期对当前加钞计划优化模型预测效果进行评价，当有任意一项较差时，根据评价高低修改评价阈值(更加严格一些)，并使用全量数据进行继续训练。可以理解的是，加钞计划优化模型随时间变化而处的环境不断变化，故当评价结果较好时，仍需使用全量数据进行训练。

基于同一发明构思，本申请实施例还提供了ATM设备加钞优化装置，可以用于实现上述实施例所描述的方法，如下面的实施例。由于ATM设备加钞优化装置解决问题的原理与ATM设备加钞优化方法相似，因此ATM设备加钞优化装置的实施可以参见ATM设备加钞优化方法实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的***较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本发明的实施例提供一种能够实现ATM设备加钞优化方法的ATM设备加钞优化装置的具体实施方式，参见图10，ATM设备加钞优化装置具体包括如下内容：

数据获取第一单元10，用于获取所述ATM设备的当前清机周期内的交易数据、地理位置、所述地理位置的天气预报数据、钞箱容量、现金余额及剩余清机天数；

加钞操作生成单元20，用于根据所述ATM设备的目标清机周期内的法定假日、所述当前清机周期内的交易数据、所述地理位置、所述目标清机周期内的天气预报数据、钞箱容量、现金余额、剩余清机天数，基于预设的模拟环境模型及加钞计划优化模型，生成所述ATM设备加钞操作。

优选地，参见图11，ATM设备加钞优化装置还包括：

数据获取第二单元30，用于获取所述ATM设备的历史清机周期内的交易数据、地理位置、历史清机周期内的天气数据、钞箱容量、现金余额、剩余清机天数、清机周期以及预先获取的ATM设备目标清机周期内的预测现金用量；

预处理单元40，用于对所述ATM设备的历史清机周期内的交易数据、地理位置、历史清机周期内的天气数据、钞箱容量、现金余额、剩余清机天数、清机周期以及预先获取的ATM设备目标清机周期内的预测现金用量进行预处理；

环境模型构建单元50，用于根据预处理之后的所述ATM设备的历史清机周期内的交易数据、地理位置、历史清机周期内的天气数据、钞箱容量、现金余额、剩余清机天数、清机周期以及预先获取的ATM设备目标清机周期内的预测现金用量，利用监督学习算法构建所述模拟环境模型，其中，所述模拟环境模型用于生成所述加钞计划优化模型所需的训练数据。

优选地，参见图12，ATM设备加钞优化装置还包括：

训练数据生成单元60，用于根据多个模拟环境模型生成不同模拟环境下的训练数据；

加钞模型生成单元70，用于根据不同模拟环境下的训练数据利用强化学习算法生成所述加钞计划优化模型，其中所述强化学习算法包括：DQN算法，DDPG算法、IMPALA算法、A2C算法及GA3C算法。

从上述描述可知，本发明一种ATM设备加钞优化装置，该方法包括模拟环境的建立、强化学习模型的训练、强化学习模型的现金加钞计划生成、***定期的评价反馈。具体地，进行ATM加钞规划前，需要使用模拟环境模型建立模拟环境。加钞计划优化模型在强化学习模型训练时不断与模拟环境进行交互，产生大量训练数据的同时进行模型的更新训练。训练直到通过评估，模型训练过程结束。

综上，本发明提供的ATM设备加钞优化装置综合考虑加钞的运输成本、清钞成本、现金占款成本、ATM管理要求设计出合适的加钞成本计算方式，利用强化学***衡即时成本和未来成本，自动完成ATM现金加钞计划的制定工作，提供较优的现金加钞计划，有效提升银行现金用量管理的精准度和工作效率，从而降低银行库存现金总量和运维成本，大幅减少业务人员工作负担，提升网点现金服务保障率。

本申请的实施例还提供能够实现上述实施例中的ATM设备加钞优化方法中全部步骤的一种电子设备的具体实施方式，参见图13，电子设备具体包括如下内容：

处理器(processor)1201、存储器(memory)1202、通信接口(CommunicationsInterface)1203和总线1204；

其中，处理器1201、存储器1202、通信接口1203通过总线1204完成相互间的通信；通信接口1203用于实现服务器端设备、记录设备以及用户端设备等相关设备之间的信息传输。

处理器1201用于调用存储器1202中的计算机程序，处理器执行计算机程序时实现上述实施例中的ATM设备加钞优化方法中的全部步骤，例如，处理器执行计算机程序时实现下述步骤：

步骤100：获取所述ATM设备的当前清机周期内的交易数据、地理位置、所述地理位置的天气预报数据、钞箱容量、现金余额及剩余清机天数；

从上述描述可知，本申请实施例中的电子设备，该方法包括模拟环境的建立、强化学习模型的训练、强化学习模型的现金加钞计划生成、***定期的评价反馈。具体地，进行ATM加钞规划前，需要使用模拟环境模型建立模拟环境。加钞计划优化模型在强化学习模型训练时不断与模拟环境进行交互，产生大量训练数据的同时进行模型的更新训练。训练直到通过评估，模型训练过程结束。

本申请的实施例还提供能够实现上述实施例中的ATM设备加钞优化方法中全部步骤的一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的ATM设备加钞优化方法的全部步骤，例如，处理器执行计算机程序时实现下述步骤：

从上述描述可知，本申请实施例中的计算机可读存储介质，该方法包括模拟环境的建立、强化学习模型的训练、强化学习模型的现金加钞计划生成、***定期的评价反馈。具体地，进行ATM加钞规划前，需要使用模拟环境模型建立模拟环境。加钞计划优化模型在强化学习模型训练时不断与模拟环境进行交互，产生大量训练数据的同时进行模型的更新训练。训练直到通过评估，模型训练过程结束。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于硬件+程序类实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

虽然本申请提供了如实施例或流程图的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种ATM设备加钞优化方法，其特征在于，包括：

2.根据权利要求1所述的ATM设备加钞优化方法，其特征在于，所述交易数据包括所述ATM设备的流水数据、发薪日及还款日。

3.根据权利要求2所述的ATM设备加钞优化方法，其特征在于，还包括：

4.根据权利要求3所述的ATM设备加钞优化方法，其特征在于，所述根据预处理之后的所述ATM设备的历史清机周期内的交易数据、地理位置、历史清机周期内的天气数据、钞箱容量、现金余额、剩余清机天数、清机周期以及预先获取的ATM设备目标清机周期内的预测现金用量，利用监督学习算法构建所述模拟环境模型，包括：

5.根据权利要求3所述的ATM设备加钞优化方法，其特征在于，所述预处理包括：数据清理、数据集成、数据归约及数据变换。

6.根据权利要求4所述的ATM设备加钞优化方法，其特征在于，还包括：

根据多个模拟环境模型生成不同模拟环境下的训练数据；

7.根据权利要求1所述的ATM设备加钞优化方法，其特征在于，ATM设备加钞操作包括：所述ATM设备加钞日期及加钞金额。

8.一种ATM设备加钞优化装置，其特征在于，包括：

9.根据权利要求8所述的ATM设备加钞优化装置，其特征在于，所述交易数据包括所述ATM设备的流水数据、发薪日及还款日。

10.根据权利要求9所述的ATM设备加钞优化装置，其特征在于，还包括：

11.根据权利要求10所述的ATM设备加钞优化装置，其特征在于，环境模型构建单元具体用于通过改变所述ATM设备现金余额及剩余清机天数，利用所述监督学习算法及所述模拟环境模型生成多个模拟环境下的模拟环境结果。

12.根据权利要求10所述的ATM设备加钞优化装置，其特征在于，所述预处理单元具体用于数据清理、数据集成、数据归约及数据变换。

13.根据权利要求11所述的ATM设备加钞优化装置，其特征在于，还包括：

14.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7任一项所述ATM设备加钞优化方法的步骤。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至7任一项所述ATM设备加钞优化方法的步骤。