CN112947080A

CN112947080A - 一种基于场景参数变换的智能决策模型性能评估***

Info

Publication number: CN112947080A
Application number: CN202110158335.6A
Authority: CN
Inventors: 张旭辉; 陆婷婷; 费智婷; 顾鑫; 常诚; 张尧; 王�华; 吴新峰; 赵婧; 邓志均; 古月
Original assignee: China Academy of Launch Vehicle Technology CALT
Current assignee: China Academy of Launch Vehicle Technology CALT
Priority date: 2021-02-04
Filing date: 2021-02-04
Publication date: 2021-06-11
Anticipated expiration: 2041-02-04
Also published as: CN112947080B

Abstract

一种基于场景参数变换的智能决策模型性能评估***，包括：场景参数构建子***，用于提取场景参数，生成场景参数列表；场景参数变换子***，根据所述场景参数列表，确定序贯试验参数列表、敏感因素、敏感因素影响趋势、极值参数；评价指标构建及计算子***，用于确定智能决策模型的性能评价指标，基于所述序贯试验参数列表，确定智能决策模型的性能评价指标的评价结果；评估结论生成子***，根据所述敏感因素、敏感因素影响趋势、极值参数、智能决策模型的性能评价指标的评价结果，给出评估结论。本发明实现了对应用于飞行器博弈对抗场景下的智能决策模型性能的自动化评估，提高了智能决策模型的评估效率和评估准确性，缩短了评估需要消耗的时间。

Description

一种基于场景参数变换的智能决策模型性能评估***

技术领域

本发明涉及一种基于场景参数变换的智能决策模型性能评估***，属于智能评估技术领域。

背景技术

随着人工智能技术在航天领域的逐步发展和进步，其在飞行器博弈对抗问题中得到了广泛应用，基于深度学习、强化学习、博弈论等人工智能技术所构建的飞行器智能决策模型，能够有效提升飞行器博弈对抗决策的准确性、有效性和鲁棒性。如何对飞行器博弈对抗问题中的智能决策模型的效果和性能进行全面有效的评估、给出可信可靠的评估结论，并指导飞行器智能决策模型的迭代优化，对于智能技术在飞行器博弈对抗问题中的落地应用至关重要。

当前，针对人工智能模型评估问题的研究可以分为两类：一是感知识别模型的性能评估，二是智能决策模型的性能评估。对于感知识别模型的性能评估问题，已经构建了通用的性能度量指标，并且针对特定领域形成了一套用于泛化性评估的通用测试数据集，文献《机器学习》(P28-P37,周志华著,清华大学出版社)提出利用错误率、精度、查准率、查全率、F1、ROC、AUC等指标度量感知识别模型的性能，ILSVRC国际计算机识别识别竞赛提供了多种图像分类、目标检测、场景分类数据集用于对感知识别模型进行验证，但由于感知识别模型通常解决的都是有标签的分类问题，飞行器智能决策模型所处理的无标签决策问题截然不同，所以，感知识别模型的性能评估方法无法用于解决飞行器智能决策模型的评估问题。对于智能决策模型的性能评估问题，目前主要依赖于人机对抗的方式，缺少有效的自动化评估方法，无法用于解决飞行器智能决策模型的评估问题。

为此，需要针对飞行器博弈对抗问题，设计一种全自动的飞行器智能决策模型评估方法，构建飞行器智能决策模型评估***，为飞行器智能决策模型在实际应用中效能提供评估依据。

发明内容

本发明要解决的技术问题是：克服现有技术的不足，提供了一种基于场景参数变换的智能决策模型性能评估***，包括：场景参数构建子***，用于提取场景参数，生成场景参数列表；场景参数变换子***，根据所述场景参数列表，确定序贯试验参数列表、敏感因素、敏感因素影响趋势、极值参数；评价指标构建及计算子***，用于确定智能决策模型的性能评价指标，基于所述序贯试验参数列表，确定智能决策模型的性能评价指标的评价结果；评估结论生成子***，根据所述敏感因素、敏感因素影响趋势、极值参数、智能决策模型的性能评价指标的评价结果，给出评估结论。本发明实现了对应用于飞行器博弈对抗场景下的智能决策模型性能的自动化评估，提高了智能决策模型的评估效率和评估准确性，缩短了评估需要消耗的时间。

本发明目的通过以下技术方案予以实现：

一种基于场景参数变换的智能决策模型性能评估***，包括：

场景参数构建子***，用于提取场景参数，生成场景参数列表；

场景参数变换子***，根据所述场景参数列表，确定序贯试验参数列表、敏感因素、敏感因素影响趋势、极值参数；

评价指标构建及计算子***，用于确定智能决策模型的性能评价指标，基于所述序贯试验参数列表，确定智能决策模型的性能评价指标的评价结果；

评估结论生成子***，根据所述敏感因素、敏感因素影响趋势、极值参数、智能决策模型的性能评价指标的评价结果，给出评估结论。

上述的评估***，场景参数构建子***包括：

场景参数提取模块，用于提取场景参数；

场景参数分析模块，用于确定场景参数特点；场景参数特点包括参数维数多变和参数维数固定；

场景参数生成模块，用于生成场景参数列表。

上述的评估***，场景参数分析模块根据所述提取的场景参数、场景参数特点，生成场景参数列表。

上述的评估***，场景参数变换子***包括：

参数预处理模块，用于消除场景参数列表中参数维数多变的影响；

初始试验设计模块，利用参数预处理后的场景参数列表进行初始试验设计，获得初始试验设计参数列表；

序贯试验设计模块，根据初始试验设计参数列表，获取精度满足要求的统计模型和序贯试验参数列表；

模型精度预测模块，用于生成训练数据集和测试数据集，建立能够表征智能决策模型性能与场景参数关系的预测模型，完成对所构建的预测模型的精度进行分析；

模型敏感性分析模块，用于对场景关键参数的敏感性分析，得到敏感因素、敏感因素影响趋势、极值参数。

上述的评估***，序贯试验设计模块中，当统计模型不满足精度要求时，利用扩充均匀方法生成序贯试验设计方案，通过迭代获得精度满足要求的统计模型。

上述的评估***，评价指标构建及计算子***包括：

评价指标构建模块，用于确定智能决策模型的性能评价指标；

评价指标计算模块，用于计算性能评价指标。

上述的评估***，评估结论生成子***包括：

敏感参数评估结论生成模块，根据所述的敏感因素、敏感因素影响趋势、极值参数，获得智能决策模型的敏感因素、敏感因素影响趋势、极值参数，用于智能决策模型的迭代训练和优化；

性能评估结论生成模块，根据智能决策模型的性能评价指标的评价结果，获得评估结论。

一种基于场景参数变换的智能决策模型性能评估方法，包括：

提取场景参数，生成场景参数列表；

根据所述场景参数列表，确定序贯试验参数列表、敏感因素、敏感因素影响趋势、极值参数；

确定智能决策模型的性能评价指标，基于所述序贯试验参数列表，确定智能决策模型的性能评价指标的评价结果；

根据所述敏感因素、敏感因素影响趋势、极值参数、智能决策模型的性能评价指标的评价结果，给出评估结论。

上述的评估方法，确定序贯试验参数列表、敏感因素、敏感因素影响趋势、极值参数过程中：

首先消除场景参数列表中参数维数多变的影响；

然后利用参数预处理后的场景参数列表进行初始试验设计，获得初始试验设计参数列表；

然后根据初始试验设计参数列表，获取精度满足要求的统计模型和序贯试验参数列表；

然后生成训练数据集和测试数据集，建立能够表征智能决策模型性能与场景参数关系的预测模型，完成对所构建的预测模型的精度进行分析；

对场景关键参数的敏感性分析，得到敏感因素、敏感因素影响趋势、极值参数。

上述的评估方法，序贯试验设计模块中，当统计模型不满足精度要求时，利用扩充均匀方法生成序贯试验设计方案，通过迭代获得精度满足要求的统计模型。

本发明相比于现有技术具有如下有益效果：

(1)本发明实现了智能决策模型效能自动化评估，提高了智能决策模型评估的效率和精准度。

(2)本发明实现了利用有限场景覆盖大量不可穷举场景的问题，为智能决策模型性能评估提供数量有限但覆盖性全面的测试场景，有效节约了智能决策模型的评估时间。

(3)本发明提出了一套智能决策模型性能评价指标体系，并在此基础上提出了智能决策模型基本评价流程，为智能决策模型的有效评估提供依据。

附图说明

图1为本发明评估***工作流程图；

图2为场景参数构建子***流程图；

图3为场景参数列表典型示例；

图4为场景参数变换子***流程图；

图5为预处理后场景参数列表典型示例；

图6为初始试验设计模块流程图；

图7为初始试验参数列表的典型示例；

图8为序贯试验设计模块流程图；

图9为模型精度预测模块流程图；

图10为模型敏感性分析模块流程图；

图11为评价指标构建及计算子***流程图；

图12为性能评估结论生成模块基本流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的实施方式作进一步详细描述。

如图1所示，一种基于场景参数变换的智能决策模型性能评估***，包括场景参数构建子***、场景参数变换子***、评价指标构建及计算子***、评估结论生成子***四个部分。

场景参数构建子***通过对智能决策模型的应用场景(飞行器博弈对抗场景)进行场景参数提取，得到对智能决策模型性能影响较大的场景参数(例如，飞行器数量、飞行器位置、飞行器速度、飞行器身份、飞行器颜色、飞行器形状)，完成对场景参数的特点分析，形成场景参数列表，作为后续子***的重要输入。

场景参数变换子***通过对场景参数构建子***传递的场景参数列表进行变换处理，得到序贯试验参数列表、敏感因素、敏感因素影响趋势、极值参数，作为后续子***的重要输入。

评价指标构建及计算子***完成智能决策模型的性能评价指标的构建，并给出具体的计算方法，结合场景参数变换子***传递的序贯试验参数列表，完成智能决策模型性能评价指标的计算。

评估结论生成子***根据场景参数变换子***得到的敏感因素、敏感因素影响趋势、极值参数以及评价指标构建及计算子***得到的评价指标计算结果，得到智能决策模型评估结论。

如图2所示，场景参数构建子***包括场景参数提取模块、场景参数分析模块、场景参数生成模块。

(1a)、场景参数提取模块：该模块以智能决策模型的应用场景(飞行器博弈对抗场景)为输入，从中提取出所有对智能决策模型性能有所影响的n个场景参数(例如，飞行器数量、飞行器位置、飞行器速度、飞行器身份、飞行器颜色、飞行器形状)，并将这n个场景参数简称为“场景关键参数”，记为p₁,...,p_n，并分别得到p₁,...,p_n的具体取值。

(1b)、场景参数分析模块：该模块以场景参数提取模块得到的n个场景关键参数p₁,...,p_n作为输入，根据这n个场景关键参数的具体取值，得到这n个场景关键参数的取值特点：参数维数多变、参数维数固定。其中，参数维数多变是指某些关键参数的维数受到另外一些关键参数的影响，例如，关键参数p2＝1时，关键参数p1的维数为1，关键参数p2≠1时，关键参数p2的维数是2，那么，关键参数p1具有参数维数多变的特点。

(1c)、场景参数生成模块：该模块以场景参数分析模块得到的场景关键参数的取值特点作为输入，构建并输出场景参数列表，所得到的场景参数列表的典型示例形式如图3所示，包含场景关键参数名称、参数取值特点两类信息。

如图4所示，场景参数变换子***负责根据场景参数构建子***得到的场景参数列表进行试验设计，通过场景参数变换的方式，分别得到序贯试验参数列表、敏感因素、敏感因素影响趋势、极值参数。场景参数变换子***包括参数预处理、初始试验设计、序贯试验设计、模型精度预测、模型敏感性分析5个模块。

(2a)、参数预处理模块

该模块根据输入场景参数列表中各场景关键参数的参数取值特点，完成对输入场景参数列表中各参数的预先处理，得到预处理后参数列表，具体的参数预处理方式如下：

(2aa)、针对具有“参数维数多变”特点的场景关键参数的处理步骤：将具有该特点的参数拆分为k个新参数(k为该参数维数的最大值)，并且将拆分得到的新参数分别赋值为原参数的每一维取值，当原参数某些维无取值时，则相应的新参数取值设置为空。例如，场景关键参数p1具有参数维数多变的特点，其维数受到场景关键参数p2的影响，当场景关键参数p2＝1时，场景关键参数p1的维数为1，场景关键参数p2＝2时，场景关键参数p2的维数是2，那么，利用以上方法可以将场景关键参数p1处理成新参数z1、z2，其中，z1和z2分别取值为p1的第一维取值和第二维取值，并且，p2取值为1时，z2的取值为空。

(2ab)、针对具有“参数维数固定”特点的场景关键参数的处理步骤：对具有该特点的参数不做处理，直接利用新的参数表征原参数。例如，场景关键参数p2具有参数维数固定的特点，那么，直接利用z3表征p2。

(2ac)、经过(2aa)、(2ab)两个步骤，输出预处理后场景参数列表，包括预处理后的关键参数名称、参数类型(包括离散取值、连续取值)、参数取值，其典型示例形式如图5所示。

(2b)、初始试验设计模块

初始试验设计模块主要利用参数预处理模块得到的预处理后场景参数列表(包括Q个参数z1,...,zQ)进行初始试验设计，得到初始试验参数列表和相应的响应因子。初始试验设计模块流程图如图6所示，该模块包括初始试验参数列表生成、响应因子获取2个步骤。

(2ba)、初始试验参数列表生成：以参数预处理模块得到的预处理后场景参数列表(包括Q个参数z1,...,zQ)作为输入，基于均匀设计方法完成初始试验参数列表生成，得到初始试验参数列表。初始试验参数列表包括Q个参数z1,...,zQ的M组典型取值，初始试验参数列表的典型示例形式如图7所示，包括试验序号、参数取值。

(2bb)、响应因子获取：基于仿真推演平台，分别根据初始试验参数列表中的每一行试验序号所对应的各参数取值组合进行场景参数配置，完成飞行器博弈对抗，统计智能决策模型的任务完成率(飞行器博弈对抗胜率)，作为初始试验参数列表各行试验序号所对应的响应因子参数取值，记为y1,...,yM。

(2c)、序贯试验设计模块

如图8所示，序贯试验设计模块包括3个步骤：

(2ca)、将初始试验设计输出的初始试验参数列表赋值给序贯试验参数列表，根据序贯试验参数列表和初始试验设计输出的响应因子参数取值，利用Logistic回归模型构建统计模型。

(2cb)、判断所构建的统计模型是否满足精度要求，如果满足精度要求(统计模型误差＜5％)，则输出统计模型和序贯试验参数列表，如果不满足精度要求(模型误差≥5％)，则利用扩充均匀方法完成序贯试验设计方案的生成，并将所得到的序贯试验设计方案赋值给序贯试验参数列表，基于飞行器博弈对抗仿真推演平台得到序贯设计方案中每一个试验项对应的响应因子数据(序贯试验响应因子)。

(2cc)、以序贯试验参数列表和序贯试验响应因子为输入，重复(2ca)、(2cb)两个步骤，直到得到精度满足要求(模型误差<5％)的统计模型，输出统计模型和序贯试验参数列表。

(2d)、模型精度预测模块

如图9所示，模型精度预测模块包括3个步骤：

(2da)、将序贯试验设计模块输出的序贯试验参数列表和序贯试验响应因子组合为试验数据集，并将该数据集按照7:3的比例进行分割，得到训练数据集和测试数据集。

(2db)、基于训练数据集，利用Logisitc回归方法构建描述响应因子与场景关键参数关系的预测模型。

(2dc)、基于测试数据集，计算预测模型在测试数据集上的预测误差。

(2dd)、输出预测模型、预测误差。

(2e)、模型敏感性分析模块

该模块基于模型精度预测模块输出的预测模型，完成对场景关键参数的敏感性分析，为智能决策模型的改进和迭代训练优化提供支撑。如图10所示，模型敏感性分析模块主要包括3个步骤：

(2ea)、对于模型精度预测模块输出的预测模型，利用Bonferroni同时检验方法得到所有场景关键参数p1,p2,...,pQ的p-value取值：p-value_p1,p-value_p2,...,p-value_pQ；

(2eb)、根据p-value_p1,p-value_p2,...,p-value_pQ的取值大小，得到p1,p2,...,pQ的敏感性，p-value值越大的参数敏感性越高，例如，p-value_p1<p-value_p2<,...,<p-value_pQ，那么，p1,p2,...,pQ的敏感性依次降低；

(2ec)、依次计算预测模型对场景关键参数p1,p2,...,pQ的梯度取值，记为g_p1,g_p2,...,g_pQ，利用所得到的梯度取值，得到敏感因素影响趋势以及极值参数，如果某个场景关键参数对应的梯度取值为正，则该场景关键参数对预测模型的影响趋势为正，如果该梯度取值为负，则该场景关键参数对预测模型的影响趋势为负，如果某个场景关键参数对应的梯度取值为所有场景关键参数梯度取值中最小或者最大，那么，这个场景关键参数为极值参数。例如，场景关键参数p1、p2、p3、p4的梯度取值g_p1<g_p2<g_p3<g_p4，且g_p1<0、g_p2<0、g_p3>0、g_p4>0，那么，场景关键参数p1、p2对预测模型的影响趋势为负，场景关键参数p3、p4对预测模型的影响趋势为正，并且，场景关键参数p1、p4为极值参数。

如图11所示，评价指标构建及计算子***主要完成对能够衡量智能决策模型性能的指标体系的构建，并明确各个评价指标的具体含义及计算方法。评价指标构建及计算子***包括评价指标构建模块和评价指标计算模块。

(3a)、评价指标构建模块

该模块负责构建智能决策模型的性能评价指标，并明确各评价指标的具体含义以及相应的描述参数，所构建的智能决策模型的性能评价指标主要包括泛化性、稳健性和决策速度。

(3aa)、泛化性：该指标用于衡量智能决策模型对新场景的适应能力，利用智能决策模型在应用场景下的平均任务完成率(例如：博弈对抗胜率)λ_test描述智能决策模型的泛化性。

(3ab)、稳健性：该指标用于衡量智能决策模型在不同场景条件下的决策性能稳健性，利用智能决策模型在应用场景下的累积奖赏值的平均值γ描述智能决策模型的稳健性。

(3ac)、决策速度：该指标用于衡量智能决策模型决策的快慢，利用智能决策模型在应用场景下的的平均决策时间t描述智能决策模型的决策速度。

(3b)、评价指标计算模块

该模块负责完成对泛化性、稳健性和决策速度3个评价指标的描述参数的计算。

(3ba)、泛化性的描述参数λ_test计算步骤如下：首先，获取场景参数变换子***输出的序贯试验参数列表(包括n1个试验序列)；然后，利用飞行器博弈对抗仿真推演平台，分别在这n1个试验序列所对应的n1个场景配置下进行博弈对抗推演，得到智能决策模型在n1个场景配置下的任务完成率(例如：博弈对抗胜率)，记为λ_{test_i}(i＝1,...,n1)；最后，计算n1个场景下的任务完成率的均值λ_test，得到λ_test＝(λ_{test_1}+...+λ_{test_n1})/n1。

(3bb)、稳健性的描述参数γ计算步骤如下：首先，获取场景参数变换子***输出的序贯试验参数列表(包括n1个试验序列)；然后，利用飞行器博弈对抗仿真推演平台，分别在这n1个试验序列所对应的n1个场景配置下进行博弈对抗推演，得到智能决策模型在n1个场景配置下的累积奖赏值，记为γ_i(i＝1,...,n1)；最后，计算n1个场景下的累积奖赏值的标准差，得到γ：

(3bc)、决策速度的描述参数t计算步骤如下：首先，获取场景参数变换子***输出的序贯试验参数列表(包括n1个试验序列)；然后，利用飞行器博弈对抗仿真推演平台，分别在这n1个试验序列所对应的n1个场景配置下进行博弈对抗推演，得到智能决策模型在n1个场景配置下的的运行时间，记为t_i(i＝1,...,n2)；最后，计算n1个场景下的运行时间的均值，得到t＝(t₁+...+t_n1)/n1。

评估结论生成子***根据场景参数变换子***以及评价指标构建子***的输出结果，得到智能决策模型的参数评估结论和智能决策模型的性能评估结论。评估结论生成子***包括敏感参数评估结论生成模块和性能评估结论生成模块。

(4a)、敏感参数评估结论生成模块：根据场景参数变换子***传递的智能决策模型的敏感因素、敏感因素影响趋势、极值参数输出结果，得到智能决策模型的敏感因素、敏感因素影响趋势、极值参数，为智能决策模型的迭代训练和优化提供支撑。

(4b)、性能评估结论生成模块：如图12所示，该模块根据评价指标构建及计算子***计算得到的智能决策模型的性能评价指标的计算结果，得到智能决策模型的性能评估结论，包括泛化性评估结论生成、稳健性评估结论生成以及决策速度评估结论生成3个子模块：

(4ba)、泛化性评估结论生成子模块的具体步骤如下：首先，从外部的智能决策模型的训练***获取智能决策模型在训练环境下的任务完成率λ_train；然后，从评价指标构建及计算子***获取泛化性的描述参数λ2_test；最后，通过比较λ_train和λ2_test的取值得到一致性评估结论：

①如果|λ_test-λ_train|≤t1_hresh(t1_hresh推荐取值为1％)，则认为智能决策模型具备较好的泛化性性能，其中，|λ_test-λ_train|表示λ_test和λ_train差值的绝对值；

②否则，则认为智能决策模型不具备泛化性性能。

(4bb)、稳健性评估结论生成子模块的具体步骤如下：首先，从评价指标构建及计算子***获取稳健性的描述参数γ；然后，通过比较γ与阈值t2_thresh(t2_hresh推荐取值为0.2)的关系得到稳健性评估结论：

①如果γ≤t2_thresh，则认为智能决策模型具备较好的稳健性性能；

②否则，认为智能决策模型不具备稳健性性能。

(4bc)、决策速度评估结论生成子模块的具体步骤如下：首先，从评价指标构建及计算子***获取决策速度的描述参数t；然后，通过比较t与阈值t3_thresh(t3_hresh推荐取值为1s)的关系得到决策速度评估结论：

①如果t≤t3_thresh，则认为智能决策模型具备较快的决策速度；

②否则，认为智能决策模型不具备较快的决策速度。

基于上述评估***的，本发明实施例还提供一种基于场景参数变换的智能决策模型性能评估方法，包括如下步骤：

提取场景参数，生成场景参数列表；

本发明说明书中未作详细描述的内容属本领域技术人员的公知技术。

本发明虽然已以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改，因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰，均属于本发明技术方案的保护范围。

Claims

1.一种基于场景参数变换的智能决策模型性能评估***，其特征在于，包括：

2.根据权利要求1所述的评估***，其特征在于，场景参数构建子***包括：

场景参数提取模块，用于提取场景参数；

场景参数生成模块，用于生成场景参数列表。

3.根据权利要求2所述的评估***，其特征在于，场景参数分析模块根据所述提取的场景参数、场景参数特点，生成场景参数列表。

4.根据权利要求1所述的评估***，其特征在于，场景参数变换子***包括：

5.根据权利要求4所述的评估***，其特征在于，序贯试验设计模块中，当统计模型不满足精度要求时，利用扩充均匀方法生成序贯试验设计方案，通过迭代获得精度满足要求的统计模型。

6.根据权利要求1所述的评估***，其特征在于，评价指标构建及计算子***包括：

评价指标计算模块，用于计算性能评价指标。

7.根据权利要求1所述的评估***，其特征在于，评估结论生成子***包括：

8.一种基于场景参数变换的智能决策模型性能评估方法，其特征在于，包括：

提取场景参数，生成场景参数列表；

9.根据权利要求8所述的评估方法，其特征在于，确定序贯试验参数列表、敏感因素、敏感因素影响趋势、极值参数过程中：

首先消除场景参数列表中参数维数多变的影响；

10.根据权利要求9所述的评估***，其特征在于，序贯试验设计模块中，当统计模型不满足精度要求时，利用扩充均匀方法生成序贯试验设计方案，通过迭代获得精度满足要求的统计模型。