CN114912623A - 用于模型解释的方法及装置 - Google Patents
用于模型解释的方法及装置 Download PDFInfo
- Publication number
- CN114912623A CN114912623A CN202210369552.4A CN202210369552A CN114912623A CN 114912623 A CN114912623 A CN 114912623A CN 202210369552 A CN202210369552 A CN 202210369552A CN 114912623 A CN114912623 A CN 114912623A
- Authority
- CN
- China
- Prior art keywords
- data
- adjustment
- feature
- predicted
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000012549 training Methods 0.000 claims abstract description 186
- 238000010801 machine learning Methods 0.000 claims abstract description 77
- 239000000523 sample Substances 0.000 claims description 242
- 238000005259 measurement Methods 0.000 claims description 20
- 239000013074 reference sample Substances 0.000 claims description 20
- 238000012986 modification Methods 0.000 claims description 19
- 230000004048 modification Effects 0.000 claims description 19
- 238000006243 chemical reaction Methods 0.000 claims description 16
- 238000011524 similarity measure Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 230000008859 change Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Feedback Control In General (AREA)
Abstract
本说明书实施例提供用于模型解释的方法及装置。该方法包括:将待预测数据提供给机器学习模型得到预测结果,该机器学习模型包括基于训练样本集训练出的非线性机器学习模型;根据该预测结果,确定该待预测数据中的第一特征集中的各个特征所对应的特征贡献度;基于所确定出的待预测数据的特征贡献度以及该训练样本集中的各个训练样本的对应特征的特征贡献度,从该训练样本集中确定该待预测数据的相似样本集;以及基于该相似样本集,生成针对该机器学习模型的第一解释信息。
Description
技术领域
本说明书实施例涉及人工智能技术领域,具体地,涉及用于模型解释的方法及装置。
背景技术
随着人工智能技术的飞速发展,机器学习模型的应用也越来越广泛。训练后的机器学习模型可以针对新数据进行预测,得到预测分数或分类结果。然而在实际业务场景中,只有预测分数或分类结果往往不足以支持模型的使用者进行决策;对于模型开发人员通常也只能使用一些通用评价指标来判断模型的预测结果,却不能实际解释模型为何会输出这样的结果。由此,如何对机器学习模型进行有效地解释成为机器学习领域需要解决的技术问题。
发明内容
提供本发明内容以便介绍一组概念,这组概念将在以下的具体实施方式中做进一步描述。本发明内容并非旨在标识所保护主题的关键特征或必要特征,也不旨在用于限制所保护主题的范围。
根据本说明书实施例的一个方面,提供一种用于模型解释的方法,包括:将待预测数据提供给机器学习模型得到预测结果,所述机器学习模型包括基于训练样本集训练出的非线性机器学习模型;根据所述预测结果,确定所述待预测数据中的第一特征集中的各个特征所对应的特征贡献度;基于所确定出的待预测数据的特征贡献度以及所述训练样本集中的各个训练样本的对应特征的特征贡献度,从所述训练样本集中确定所述待预测数据的相似样本集;以及基于所述相似样本集,生成针对所述机器学习模型的第一解释信息。
可选地,在上述方面的一个示例中,所述基于所确定出的待预测数据的特征贡献度以及所述训练样本集中的各个训练样本的对应特征的特征贡献度,从所述训练样本集中确定所述待预测数据的相似样本集包括:基于所确定出的待预测数据的特征贡献度以及所述训练样本集中的各个训练样本的对应特征的特征贡献度,计算所述待预测数据与各个训练样本之间的相似性度量;以及根据所述待预测数据与各个训练样本之间的相似性度量,从所述训练样本集中确定所述待预测数据的相似样本集。
可选地,在上述方面的一个示例中,所述训练样本集中的各个训练样本的特征贡献度按照二叉搜索树存储,以及所述基于所确定出的待预测数据的特征贡献度以及所述训练样本集中的各个训练样本的对应特征的特征贡献度,从所述训练样本集中确定所述待预测数据的相似样本集包括:对所述二叉搜索树进行搜索,以搜索出与所述待预测数据的特征贡献度匹配的叶子结点;将所述匹配的叶子结点所对应的训练样本确定为准相似样本;确定所述准相似样本与所述待预测数据之间的相似性度量;自所述匹配的叶子结点起对所述二叉搜索树进行回溯搜索,以生成回溯结果,所述回溯结果用于指示所述二叉搜索树中未被搜索的结点中是否存在所对应的训练样本的相似性度量比所述准相似样本更大的结点;基于所述回溯结果和所述准相似样本,确定所述待预测数据的相似样本集。
可选地,在上述方面的一个示例中,所述训练样本和所述待预测数据的所对应的特征贡献度分别以向量形式表征。
可选地,在上述方面的一个示例中,所述第一解释信息包括下述解释信息中的至少一种:基于训练样本的预测结果解释信息;训练样本标签数据调整提示信息;和针对所述待训练数据的特征调整建议信息。
可选地,在上述方面的一个示例中,所述第一解释信息包括所述特征调整建议信息,所述特征调整建议信息包括建议调整特征以及对应调整值,以及所述基于所述相似样本集,生成针对所述机器学习模型的第一解释信息,包括:从所述相似样本集中选取标签数据符合预设选取条件的训练样本作为目标样本集;根据所述目标样本集中的训练样本的第二特征集中的各个特征的特征值,生成所述待预测数据的对应特征的调整值取值集;根据所生成的各个特征的调整值取值集,确定所述待预测数据中的建议调整特征以及对应的调整值;根据所确定的建议调整特征以及对应的调整值,生成特征调整建议信息。
可选地,在上述方面的一个示例中,所述根据所生成的各个特征的调整值取值集,确定所述待预测数据中的建议调整特征以及对应的调整值包括:根据所生成的各个特征的调整值取值集对所述待预测数据中的特征的特征值进行调整,生成候选调整预测数据集;将所述候选调整预测数据集中的各个候选调整预测数据提供给所述机器学习模型,得到各个候选调整预测数据的预测结果;根据各个候选调整预测数据的预测结果,确定所述待预测数据中的建议调整特征以及对应的调整值。
可选地,在上述方面的一个示例中,所述根据各个候选调整预测数据的预测结果,确定所述待预测数据中的建议调整特征以及对应的调整值,包括:确定各个候选调整预测数据的预测结果与所述待预测数据的预测结果之间的预测结果差异;确定各个候选调整预测数据与所述待预测数据之间的特征差异;计算各个候选调整预测数据的预测结果差异与特征差异的比值,作为各个候选调整预测数据的修改转化率;从各个候选调整预测数据中选取修改转化率最大的候选调整预测数据作为第一目标调整预测数据;根据所述第一目标调整预测数据,确定所述建议调整特征以及对应的调整值。
可选地,在上述方面的一个示例中,所述根据所述目标样本集中的训练样本的第二特征集中的各个特征的特征值,生成所述待预测数据的对应特征的调整值取值集包括:从所述目标样本集中选取与所述待预测数据的相似性度量最大的训练样本作为参考样本;根据所述参考样本的所述第二特征集中的各个特征的特征值和所述待预测数据的对应特征的特征值,生成所述待预测数据的对应特征的调整值取值集;以及所述根据各个候选调整预测数据的预测结果,确定所述待预测数据中的建议调整特征以及对应的调整值包括:从各个候选调整预测数据中选取预测结果符合预设期望的候选调整预测数据作为第一调整预测数据集;将所述第一调整预测数据集中相对于所述待预测数据改动最小的调整预测数据确定为第二目标调整预测数据;以及根据所述第二目标调整预测数据,确定所述建议调整特征以及对应的调整值。
可选地,在上述方面的一个示例中,所述第二特征集为所述第一特征集的子集。
可选地,在上述方面的一个示例中,所述特征调整建议信息还包括所述参考样本中与所述建议调整特征对应的特征值。
可选地,在上述方面的一个示例中,所述方法还包括:基于所述待预测数据中的第一特征集中的各个特征所对应的特征贡献度,生成针对所述机器学习模型的第二解释信息,其中,所述第二解释信息用于示出与特征对机器学习模型的模型预测贡献度相关的解释信息。
根据本说明书的实施例的另一方面,提供一种用于模型解释的装置,包括:预测结果生成单元,被配置为将待预测数据提供给机器学习模型得到预测结果,所述机器学习模型包括基于训练样本集训练出的非线性机器学习模型;特征贡献生成单元,被配置为根据所述预测结果,确定所述待预测数据中的第一特征集中的各个特征所对应的特征贡献度;相似样本确定单元,被配置为基于所确定出的待预测数据的特征贡献度以及所述训练样本集中的各个训练样本的对应特征的特征贡献度,从所述训练样本集中确定所述待预测数据的相似样本集;解释信息生成单元,被配置为基于所述相似样本集,生成针对所述机器学习模型的第一解释信息。
可选地,在上述方面的一个示例中,所述相似样本确定单元按照下述方式确定所述待预测数据的相似样本集:基于所确定出的待预测数据的特征贡献度以及所述训练样本集中的各个训练样本的对应特征的特征贡献度,计算所述待预测数据与各个训练样本之间的相似性度量;以及根据所述待预测数据与各个训练样本之间的相似性度量,从所述训练样本集中确定所述待预测数据的相似样本集。
可选地,在上述方面的一个示例中,所述第一解释信息包括所述特征调整建议信息,所述特征调整建议信息包括建议调整特征以及对应调整值,以及所述解释信息生成单元,包括:样本选取子单元,被配置为从所述相似样本集中选取标签数据符合预设选取条件的训练样本作为目标样本集;取值集生成子单元,被配置为根据所述目标样本集中的训练样本的第二特征集中的各个特征的特征值,生成所述待预测数据的对应特征的调整值取值集;调整信息确定子单元,被配置为根据所生成的各个特征的调整值取值集,确定所述待预测数据中的建议调整特征以及对应的调整值;建议信息生成子单元,被配置为根据所确定的建议调整特征以及对应的调整值,生成特征调整建议信息。
可选地,在上述方面的一个示例中,所述调整信息确定子单元,包括:候选集生成模块,被配置为根据所生成的各个特征的调整值取值集对所述待预测数据中的特征的特征值进行调整,生成候选调整预测数据集;候选预测结果生成模块,被配置为将所述候选调整预测数据集中的各个候选调整预测数据提供给所述机器学习模型,得到各个候选调整预测数据的预测结果;调整信息确定模块,被配置为根据各个候选调整预测数据的预测结果,确定所述待预测数据中的建议调整特征以及对应的调整值。
可选地,在上述方面的一个示例中,所述调整信息确定模块按照下述方式确定所述待预测数据中的建议调整特征以及对应的调整值:确定各个候选调整预测数据的预测结果与所述待预测数据的预测结果之间的预测结果差异;确定各个候选调整预测数据与所述待预测数据之间的特征差异;计算各个候选调整预测数据的预测结果差异与特征差异的比值,作为各个候选调整预测数据的修改转化率;从各个候选调整预测数据中选取修改转化率最大的候选调整预测数据作为第一目标调整预测数据;根据所述第一目标调整预测数据,确定所述建议调整特征以及对应的调整值。
可选地,在上述方面的一个示例中,所述取值集生成子单元按照下述方式生成所述待预测数据的对应特征的调整值取值集:从所述目标样本集中选取与所述待预测数据的相似性度量最大的训练样本作为参考样本;根据所述参考样本的所述第二特征集中的各个特征的特征值和所述待预测数据的对应特征的特征值,生成所述待预测数据的对应特征的调整值取值集;以及所述调整信息确定模块按照下述方式确定所述待预测数据中的建议调整特征以及对应的调整值:从各个候选调整预测数据中选取预测结果符合预设期望的候选调整预测数据作为第一调整预测数据集;将所述第一调整预测数据集中相对于所述待预测数据改动最小的调整预测数据确定为第二目标调整预测数据;以及根据所述第二目标调整预测数据,确定所述建议调整特征以及对应的调整值。
根据本说明书实施例的另一方面,还提供一种电子设备,包括:至少一个处理器,与所述至少一个处理器耦合的存储器,以及存储在所述存储器上的计算机程序,所述至少一个处理器执行所述计算机程序来实现如上述任一所述的方法。
根据本说明书实施例的另一方面,还提供一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一所述的方法。
根据本说明书实施例的另一方面,还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上任一所述的方法。
附图说明
通过参照下面的附图,可以实现对于本说明书内容的本质和优点的进一步理解。在附图中,类似组件或特征可以具有相同的附图标记。
图1示出了根据本说明书的实施例的用于模型解释的方法及装置的示例性架构。
图2示出了根据本说明书的实施例的用于模型解释的方法的流程图。
图3a示出了根据本说明书的实施例的待预测数据的相似样本集的确定过程的一个示例的示意图。
图3b示出了根据本说明书的实施例的2维二叉搜索树的一个示例。
图3c示出了根据本说明书的实施例的回溯搜索过程的一个示例的示意图。
图3d示出了根据本说明书的实施例的基于回溯结果和准相似样本确定待预测数据的相似样本集过程的一个示例的示意图。
图4示出了根据本说明书的实施例的第一解释信息的生成过程的一个示例的流程图。
图5示出了根据本说明书的实施例的待预测数据中的建议调整特征以及对应的调整值的确定过程的一个示例的流程图。
图6示出了根据本说明书的实施例的待预测数据中的建议调整特征以及对应的调整值的确定过程的又一个示例的流程图。
图7示出了根据本说明书的实施例的待预测数据中的建议调整特征以及对应的调整值的确定过程的再一个示例的流程图。
图8a示出了根据本说明书实施例的用于模型解释的装置的一个示例的方框图。
图8b示出了根据本说明书实施例的用于模型解释的装置中解释信息生成单元的一个示例的方框图。
图9示出了根据本说明书的实施例的用于模型解释的电子设备的示意图。
具体实施方式
现在将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本说明书内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。例如,所描述的方法可以按照与所描述的顺序不同的顺序来执行,以及各个步骤可以被添加、省略或者组合。另外,相对一些示例所描述的特征在其它例子中也可以进行组合。
如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义,无论是明确的还是隐含的。除非上下文中明确地指明,否则一个术语的定义在整个说明书中是一致的。
在本说明书中,术语“机器学习”是指基于对数据的初步认识以及学习目的的分析,选择合适的数学模型,拟定超参数,并输入训练样本,依据一定的策略,运用合适的学习算法对模型进行训练,最后运用训练好的模型对数据进行分析预测。
在本说明书中,术语“训练样本”在监督学习中通常包括特征数据和标签数据(又称“导师信号”)。上述特征数据可以用于输入待训练的机器学习模型,上述标签数据通常指上述待训练的机器学习模型的期望输出。
下面将结合附图来详细描述根据本说明书实施例的用于模型解释的方法和装置。
图1示出了根据本说明书实施例的用于模型解释的方法及装置的示例性架构100。
在图1中,网络110被应用于在终端设备120和模型解释服务器130之间进行互连。
网络110可以是能够对网络实体进行互连的任何类型的网络。网络110可以是单个网络或各种网络的组合。在覆盖范围方面,网络110可以是局域网(LAN)、广域网(WAN)等。在承载介质方面,网络110可以是有线网络、无线网络等。在数据交换技术方面,网络110可以是电路交换网络、分组交换网络等。
终端设备120可以是能够连接到网络110、访问网络110上的服务器或网站、处理数据或信号等的任何类型的电子计算设备。例如,终端设备120可以是台式计算机、笔记本电脑、平板电脑、智能电话等。尽管在图1中仅示出了一个终端设备,但是应当理解,可以有不同数量的终端设备连接到网络110。
在一种实施方式中,终端设备120可以由用户使用。终端设备120可以包括可为用户提供模型解释服务的模型解释客户端122。在一些情况下,模型解释客户端122可以与模型解释服务器130进行交互。例如,模型解释客户端122可以将用户输入的消息传送到模型解释服务器130,并且从模型解释服务器130接收与上述消息相关联的响应。然而,应当理解,在其它情况下,模型解释客户端122也可以在本地生成对用户输入的消息的响应,而不是与模型解释服务器130进行交互。在本文中,“消息”可以指任何输入信息,例如来自用户输入的待预测数据、用户选择的待解释的机器学习模型等。
模型解释服务器130可以连接到模型解释数据库140。模型解释数据库140可以包括用于支持模型解释服务器130生成响应的信息,例如用于训练上述机器学习模型的训练样本集。
应当理解,图1中所示的所有网络实体都是示例性的,根据具体的应用需求,架构100中可以涉及任何其它网络实体。
图2示出了根据本说明书的实施例的用于模型解释的方法200的流程图。
如图2所示,在210,将待预测数据提供给机器学习模型得到预测结果。其中,上述机器学习模型可以包括基于训练样本集训练出的非线性机器学习模型。上述待预测数据和机器学习模型可以包括根据实际业务场景而使用的各种数据和模型。
在本实施例中,机器学习模型可以包括各种黑盒模型,其可以包括但不限于以下至少一项:树模型(例如决策树、随机森林、XGBoost等),基于人工神经网络(ArtificialNeutral Network,ANN)的模型,深度学习模型。作为示例,上述待预测数据可以是根据线上业务应急预案、包含所投放的广告的网页远程视频等原始数据经过特征处理后所得到的多维特征。相应地,上述机器学习模型可以是用于区分线上业务应急预案是否过期的模型、用于预测广告转化率的模型、用于识别远程视频画面中是否出现异常场景的模型等。
需要说明的是,上述待预测数据可以是利用特征工程而得到的多维特征。可选地,上述待预测数据也可以是由上述机器学习模型的特征提取层进行特征提取所得到的多维特征。
在220,根据预测结果,确定待预测数据中的第一特征集中的各个特征所对应的特征贡献度。其中,上述特征贡献度可以用于表征上述待预测数据中的特征对于上述预测结果的贡献。可选地,上述特征贡献度可以是正数或负数,也可以是0。当特征贡献度是正数时,通常意味着该特征的特征值对上述预测结果的生成起到了促进作用。当特征贡献度是负数时,通常意味着该特征的特征值对上述预测结果的生成起到了阻碍作用。上述特征贡献度的绝对值用于表征该特征对于生成上述预测结果的贡献的大小。作为示例,上述特征贡献度可以基于包括但不限于LIME(Local Interpretable Model-AgnosticExplanations,模型无关的局部解释)方法、SHAP(SHapley Additive exPlanations,沙普利加和解释)方法、ICE(Individual Conditional Expectation,个体条件期望图)方法中的至少一种方法计算得到。
需要说明的是,SHAP方法的思想源自美国洛杉矶加州大学教授罗伊德·夏普利(Lloyd Shapley)提出的用于解决合作博弈的贡献和收益分配问题的Shapley值方法。对于多人合作获得收益问题,每个人的Shapley值量化了该人在团队合作中对收益的贡献,所有人的Shapley值之和便是这次合作获得的收益。SHAP方法将“模型基于样本特征给出预测”这件事看作一次团队合作,预测结果是合作收益,样本特征是团队成员,这样就可以基于Shapley值计算方法为每个样本计算贡献值。所有样本的贡献值加上一个常量,等于模型的预测结果。对于一个训练好的模型,这个常量的值是固定的。SHAP方法给出的样本贡献值有正有负,分别标志着该特征值是提升还是降低了预测结果。从而,上述特征贡献度例如可以是SHAP值。可选地,对于机器学习模型属于树模型的场景,还可以使用Tree SHAP方式计算特征贡献度,从而提升SHAP值的计算效率。
在本实施例中,上述第一特征集可以根据实际应用场景而确定。作为示例,上述第一特征集可以包括上述待预测数据中的全部特征。作为又一示例,上述第一特征集可以包括特征贡献度的绝对值最大的前K个特征(其中K为正整数)。作为再一示例,上述第一特征集可以包括特征贡献度的绝对值大于预设贡献度阈值的特征。
作为示例,应用SHAP方法,可以为上述待预测数据中的各个特征计算特征贡献度。可选地,还可以从中选取上述第一特征集中的部分特征所对应的特征贡献度。
在230,基于所确定出的待预测数据的特征贡献度以及训练样本集中的各个训练样本的对应特征的特征贡献度,从训练样本集中确定待预测数据的相似样本集。其中,上述训练样本集中的各个训练样本的对应特征的特征贡献度可以通过与确定上述待预测数据的特征贡献度类似的方式而预先确定。
在本实施例中,根据所确定出的待预测数据的特征贡献度以及训练样本集中的各个训练样本的对应特征的特征贡献度,可以通过各种方式从训练样本集中确定待预测数据的相似样本集。
在本实施例的一些可选的实现方式中,上述待预测数据的相似样本集的确定过程230可以进一步包括:
在231,基于所确定出的待预测数据的特征贡献度以及训练样本集中的各个训练样本的对应特征的特征贡献度,计算待预测数据与各个训练样本之间的相似性度量。其中,上述相似性度量可以用于表征相近程度。上述相似性度量可以包括但不限于以下至少一项:相关系数,相似系数,距离。可以理解的是,距离越大,相似性度量越小;距离越小,相似性度量越大。
在232,根据待预测数据与各个训练样本之间的相似性度量,从训练样本集中确定待预测数据的相似样本集。作为示例,可以从上述训练样本集中选取对应的相似性度量最大的N个(N为正整数)训练样本作为所确定的待预测数据的相似样本集。作为又一示例,可以从上述训练样本集中选取对应的相似性度量大于预设相似性阈值的训练样本作为所确定的待预测数据的相似样本集。
基于上述可选的实现方式,提供了根据训练样本集中的各个训练样本的对应特征的特征贡献度与待预测数据的特征贡献度之间的相似性度量确定相似样本集的方法。与单纯使用输入数据(例如待预测数据或训练样本的特征数据)的特征的特征值进行相似性度量相比,采用特征贡献度相当于不仅考虑了输入数据本身的特点,还结合了机器学习模型本身的预测行为(为不同的特征赋予不同的权重),而且能够保证相似的输入可以得到相似的输出,从而提高了判定训练样本与待预测数据相似性度量的合理性。
图3a示出了根据本说明书的实施例的待预测数据的相似样本集的确定过程300的一个示例的示意图。在图3a的示例中,训练样本集中的各个训练样本的特征贡献度按照二叉搜索树存储。其中,上述二叉搜索树可以包括kd-Tree(k-dimensional树)。
图3b示出了根据本说明书的实施例的2维二叉搜索树的一个示例。其中,上述二叉搜索树的每个结点可以与上述训练样本集中的每个训练样本一一对应。上述每个结点可以对应于上述训练样本集中各训练样本的对应特征的特征贡献度。作为示例,根结点(7,2)可以用于表征上述训练样本集中的一个训练样本(例如“训练样本5”)的特征1(例如x1)、特征2(例如x2)的特征贡献度分别为7,2。同理,根结点的左侧子结点(5,4)可以用于表征上述训练样本集中的另一个训练样本(例如“训练样本8”)的特征1(例如x1)、特征2(例如x2)的特征贡献度分别为5,4。图3b中的x1,x2可以分别用于表征在二叉搜索树进行中值比较的当前维度。
如图3a所示,在310,对二叉搜索树进行搜索,以搜索出与待预测数据的特征贡献度匹配的叶子结点。作为示例,待预测数据所对应的特征贡献度可以是(2,4.5)。可以将上述(2,4.5)从根结点开始,按照与结点中相应维度上的值的比较结果向下访问,直至到达叶子结点。具体地,在x1维度,2小于7,从而访问根结点的左子树,即与(5,4)进行比较。而后,在x2维度,4.5大于4,从而继续访问右子树,到达叶子结点(4,7)。将上述叶子结点(4,7)作为与待预测数据的特征贡献度匹配的叶子结点。
在320,将匹配的叶子结点所对应的训练样本确定为准相似样本。
在330,确定准相似样本与待预测数据之间的相似性度量。可以计算所确定出的待预测数据的特征贡献度以及上述准相似样本的对应特征的特征贡献度之间的相似性度量(例如(2,4.5)与(4,7)之间的距离3.20)作为上述准相似样本与待预测数据之间的相似性度量。
在340,自匹配的叶子结点起对二叉搜索树进行回溯搜索,以生成回溯结果。其中,上述回溯结果可以用于指示上述二叉搜索树中未被搜索的结点中是否存在所对应的训练样本的相似性度量比上述准相似样本更大的结点。作为示例,首先回溯到上述叶子结点的父结点(5,4),判断在该父结点的其他子结点空间中是否有距离(2,4.5)更近的数据点。具体地,可以以(2,4.5)为圆心,以3.20为半径做超球面(此处为圆形),如图3c所示,可见该圆与超平面x2=4交割,即空间中存在距离(2,4.5)更近的数据点。
在350,基于回溯结果和准相似样本,确定待预测数据的相似样本集。当回溯结果用于指示上述二叉搜索树中未被搜索的结点中存在所对应的训练样本的相似性度量比上述准相似样本更大的结点时,进入该结点继续进行如前述步骤310、320类似的搜索过程,并更新上述准相似样本。当回溯结果用于指示上述二叉搜索树中未被搜索的结点中不存在所对应的训练样本的相似性度量比上述准相似样本更大的结点时,将此时的准相似样本确定为待预测数据的相似样本集中的训练样本。可选地,还可以按照所确定的相似性度量继续选取相似性度量最大的若干个训练样本,形成上述相似样本集。
作为示例,由于上述圆与超平面x2=4交割,因而进入(5,4)结点的左子树,即与(2,3)进行比较。此时,搜索路径结点可以包括(7,2)和(2,3)。由于(2,3)与(2,4.5)之间的距离1.5比(2,4.5)与(5,4)之间的距离更近,因而准相似样本更新为与(2,3)对应的训练样本。如图3d所示,继续以(2,4.5)为圆心,以1.5为半径画圆,可见该圆与超平面x1=7并不交割,因而无需访问根结点的右子树。从而可以将与(2,3)对应的训练样本确定为待预测数据的相似样本集中的训练样本。
基于前述,本方案可以将训练样本集中的各个训练样本的特征贡献度按照二叉搜索树存储,并且利用二叉搜索树进行基于特征贡献度的相似性搜索,以确定待预测数据的相似样本集。不仅能够提高判定训练样本与待预测数据相似性度量的合理性,还通过将kd-Tree引入样本的特征贡献度的相似性搜索来提升搜索的效率,更适于本方案的多次查询场景,为技术方案的实际应用提供技术基础。
在本实施例的一些可选的实现方式中,上述训练样本和上述待预测数据的所对应的特征贡献度可以分别以向量形式表征。其中,上述向量中的每个元素可以用于表征训练样本或上述待预测数据的一个特征所对应的特征贡献度。
回到图2,在240处,基于相似样本集,生成针对机器学习模型的第一解释信息。其中,上述第一解释信息可以用于表征各种基于上述相似样本集对上述机器学习模型所生成的预测结果进行解释的信息,即归因于相似训练样本的解释信息。
在本实施例的一些可选的实现方式中,上述第一解释信息可以包括下述解释信息中的至少一种:基于训练样本的预测结果解释信息;训练样本标签数据调整提示信息;和针对待训练数据的特征调整建议信息。
在本实施例中,上述基于训练样本的预测结果解释信息可以用于表征输出上述待预测数据对应的预测结果是由于训练过程中从上述相似样本集中学习到相似的特征贡献。作为示例,上述基于训练样本的预测结果解释信息中可以包括上述相似样本集中的训练样本的样本信息和上述待预测数据对应的预测结果(例如“0”、“1”、“0.97”等)。上述样本信息可以包括特征数据和样本标识(例如“ID:707”)中的至少一项以及对应的标签数据(例如“label:0”)。
在本实施例中,上述训练样本标签数据调整提示信息可以用于指示核实上述相似样本集中的训练样本的标签数据是否正确。其中,上述样本标签数据调整提示信息中可以包括上述相似样本集中的训练样本的样本信息和上述待预测数据对应的预测结果。上述样本信息可以包括特征数据和样本标识中的至少一项以及对应的标签数据。
需要说明的是,例如在模型开发人员使用待预测数据对机器学习模型进行测试时,当认为输出的预测结果不正确时,可以根据训练样本标签数据调整提示信息的指引,检查相似样本集中的训练样本的标签数据是否正确。从而,可以在常规的基于大数据进行机器学习模型训练的模型调试方法的基础上,创造性地将模型输出的预测结果不正确归因到训练样本本身的构建上(即可能是由于训练数据的标签数据错误而引起),从而提示用户有针对性地对相似样本集的标签数据进行复核。例如,用户可以由此发现标注错误的样本,以对样本进行修正。再例如,如果用户经过复核认为标注正确,则说明机器学习模型对某特征的分辨粒度不够,后续可以将待预测数据与实际结果作为新的训练样本补入训练样本集,以提高机器学习模型对相似样本集中的样本与待预测数据之间存在区别的特征的识别度。尤其适用于训练样本的数目不大、主要由人工进行样本标注的应用场景,具备极强的实用性。
在本实施例中,上述针对待训练数据的特征调整建议信息可以用于表征能够提升预测结果的表现的特征修改建议。上述特征调整建议信息中可以包括建议调整特征的标识(例如“特征1”或“更新时间”)和对应调整值(例如“调高0.6”或“调至3”)。
图4示出了根据本说明书的实施例的第一解释信息的生成过程400的一个示例的流程图。其中,上述第一解释信息可以包括上述特征调整建议信息。上述特征调整建议信息可以包括建议调整特征以及对应调整值。
在410,从相似样本集中选取标签数据符合预设选取条件的训练样本作为目标样本集。其中,上述预设选取条件可以根据实际应用场景而设定。作为示例,在分类场景中,上述预设选取条件可以是与期望分类结果一致(例如标签为“0”)。作为又一示例,在回归场景中,上述预设选取条件可以是标签数据大于预设值(例如0.7)。
在420,根据目标样本集中的训练样本的第二特征集中的各个特征的特征值,生成待预测数据的对应特征的调整值取值集。在此,可以通过各种方式生成待预测数据的对应特征的调整值取值集。其中,上述第二特征集中可以包括训练样本的全部特征或部分特征。可选地,上述第二特征集中可以包括上述第一特征集中的全部特征或部分特征。作为示例,对于上述第二特征集中的每个特征,可以将上述目标样本集中各训练样本的该特征对应的特征值作为该特征的调整值取值集中的元素。作为又一示例,对于上述第二特征集中的每个特征,还可以首先分别确定该特征在上述目标样本集中各训练样本的该特征对应的特征值中最大、最小的值作为该特征的最大调整值和最小调整值。而后,根据所确定的最大调整值(例如8)和最小调整值(例如2)以及预先设定的调整步长(例如0.5),可以生成该特征的调整值取值集(例如2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8)。
在430,根据所生成的各个特征的调整值取值集,确定待预测数据中的建议调整特征以及对应的调整值。根据实际应用场景,可以通过各种方式确定待预测数据中的建议调整特征以及对应的调整值。作为示例,可以根据实际业务场景选取方便进行调整的特征作为建议调整特征,从上述建议调整特征对应的调整值取值集中选取对应的取值作为对应的调整值。
在440,根据所确定的建议调整特征以及对应的调整值,生成特征调整建议信息。其中,上述特征调整建议信息可以用于表征建议参照上述对应的调整值所指示的调整幅度对上述建议调整特征进行调整。
基于前述,本方案可以根据目标样本集中的训练样本的第二特征集中的各个特征的特征值,生成待预测数据的对应特征的调整值取值集,进而确定待预测数据中的建议调整特征以及对应的调整值,从而实现了特征调整建议信息的合理生成。
图5示出了根据本说明书的实施例的待预测数据中的建议调整特征以及对应的调整值的确定过程500的一个示例的流程图。
在510,根据所生成的各个特征的调整值取值集对待预测数据中的特征的特征值进行调整,生成候选调整预测数据集。具体地,可以从所生成的各个特征的调整值取值集中选取一个或多个特征对应的取值对待预测数据中的特征的特征值进行替换,从而形成候选调整预测数据集。
在520,将候选调整预测数据集中的各个候选调整预测数据提供给机器学习模型,得到各个候选调整预测数据的预测结果。
在530,根据各个候选调整预测数据的预测结果,确定待预测数据中的建议调整特征以及对应的调整值。根据实际应用场景,可以通过各种方式确定待预测数据中的建议调整特征以及对应的调整值。作为示例,可以选取预测结果符合调整目标(例如输出分类结果从“0”变成“1”,输出回归结果大于0.7等)的候选调整预测数据,将选取出来的候选调整预测数据与上述待预测数据进行比较,以确定待预测数据中的建议调整特征以及对应的调整值。
基于前述,本方案可以根据所生成的各个特征的调整值取值集对待预测数据中的特征的特征值进行调整,生成候选调整预测数据集,进而得到各个候选调整预测数据的预测结果,再根据各个候选调整预测数据的预测结果确定待预测数据中的建议调整特征以及对应的调整值,从而丰富了特征调整建议信息的生成方式,并且有助于根据实际业务需求生成相适应的特征调整建议信息。
基于图5所示的方法,图6示出了根据本说明书的实施例的待预测数据中的建议调整特征以及对应的调整值的确定过程600的一个示例的流程图。
在610,确定各个候选调整预测数据的预测结果与待预测数据的预测结果之间的预测结果差异。作为示例,上述预测结果差异可以是两者之差的绝对值(例如回归场景)。作为又一示例,在分类场景的树模型中,上述预测结果差异可以预先设定(例如二分类场景中若预测结果相同则为0.05,若预测结果不同则为0.8)。
在620,确定各个候选调整预测数据与待预测数据之间的特征差异。根据实际应用场景,可以通过各种方式确定各个候选调整预测数据与待预测数据之间的特征差异。作为示例,上述特征差异可以是候选调整预测数据相对于待预测数据所进行调整的特征的个数。作为又一示例,上述特征差异可以是候选调整预测数据相对于待预测数据所进行调整的特征的特征值的最大变化值。作为再一示例,上述特征差异可以是候选调整预测数据的特征向量与上述待预测数据的特征向量之间的距离。从而,上述特征差异例如可以用表示。其中,可以用于表征该候选调整预测数据的特征向量。x可以用于表征待预测数据的特征向量。可选地,上述特征差异例如还可以用表示。其中,σ可以用于表征该候选调整预测数据相对于待预测数据所进行调整的特征在其对应的调整值取值集中的标准差。可选地,若调整了不止一个特征,上述σ可以为根据所调整的多个特征的标准差计算得到的平均值。基于上述正规化方式,可以消除因所调整的不同特征的取值范围相差过大而引起的不准确。
在630,计算各个候选调整预测数据的预测结果差异与特征差异的比值,作为各个候选调整预测数据的修改转化率。在此,修改转化率越大,意味着可以通过较小的调整取得预测结果的较大改变。
在640,从各个候选调整预测数据中选取修改转化率最大的候选调整预测数据作为第一目标调整预测数据。
在650,根据第一目标调整预测数据,确定建议调整特征以及对应的调整值。具体地,可以将上述第一目标调整预测数据与上述待预测数据进行比较,以确定待预测数据中的建议调整特征以及对应的调整值。作为示例,可以将上述第一目标调整预测数据相对于待预测数据所进行调整的特征的确定为建议调整特征。可以将上述第一目标调整预测数据的建议调整特征的特征值确定为上述对应的调整值。也可以将上述第一目标调整预测数据的建议调整特征的特征值与上述待预测数据相应特征的特征值之间的差值确定为上述对应的调整值。
基于前述,本方案可以根据所确定的预测结果差异和特征差异进一步计算修改转化率,进而根据修改转化率最大的候选调整预测数据确定待预测数据中的建议调整特征以及对应的调整值,从而进一步丰富了特征调整建议信息的生成方式,并且有助于根据实际业务需求生成相适应的特征调整建议信息。
基于图4所示的方法,图7示出了根据本说明书的实施例的待预测数据中的建议调整特征以及对应的调整值的确定过程700的一个示例的流程图。
在710,从相似样本集中选取标签数据符合预设选取条件的训练样本作为目标样本集。
在720,从目标样本集中选取与待预测数据的相似性度量最大的训练样本作为参考样本。
在730,根据参考样本的第二特征集中的各个特征的特征值和待预测数据的对应特征的特征值,生成待预测数据的对应特征的调整值取值集。在此,可以通过各种方式生成待预测数据的对应特征的调整值取值集。作为示例,对于上述第二特征集中的每个特征,可以将上述参考样本和上述待预测数据的该特征对应的特征值分别作为该特征的调整值取值集对应的区间的两个端点。而后,可以根据预先设定的调整步长或随机生成处于上述区间的数值作为上述调整值取值集中的元素。
在740,根据所生成的各个特征的调整值取值集对待预测数据中的特征的特征值进行调整,生成候选调整预测数据集。
在750,将候选调整预测数据集中的各个候选调整预测数据提供给机器学习模型,得到各个候选调整预测数据的预测结果。
在760,从各个候选调整预测数据中选取预测结果符合预设期望的候选调整预测数据作为第一调整预测数据集。在此,预测结果符合预设期望例如可以是输出分类结果从“0”变成“1”或输出回归结果大于0.7等。
在770,将第一调整预测数据集中相对于待预测数据改动最小的调整预测数据确定为第二目标调整预测数据。在此,“相对于待预测数据改动最小”可以根据实际应用场景来确定。作为示例,“相对于待预测数据改动”可以参考如图6所描述的前述实施例中“特征差异”的相关描述,此处不再赘述。
在780,根据第二目标调整预测数据,确定建议调整特征以及对应的调整值。在此,可以通过各种方式确定建议调整特征以及对应的调整值。作为示例,可以参考如图6所描述的前述实施例中步骤650的相关描述,只需将“第一目标调整预测数据”替换为上述“第二目标调整预测数据”,此处不再赘述。
在790,根据所确定的建议调整特征以及对应的调整值,生成特征调整建议信息。
上述步骤710、740、750和790可以分别与前述实施例中的步骤410、510、520和440及其可选的实现方式一致,上文针对步骤410、510、520和440及其可选的实现方式的描述也适用于步骤710、740、750和790,此处不再赘述。
基于前述,本方案可以根据目标样本集中与待预测数据的相似性度量最大的训练样本的各个特征的特征值和待预测数据的对应特征的特征值,生成待预测数据的对应特征的调整值取值集,而后通过从各个候选调整预测数据中选取预测结果符合预设期望的候选调整预测数据,进而根据所选取的候选调整预测数据中相对于待预测数据改动最小的调整预测数据确定待预测数据中的建议调整特征以及对应的调整值,从而实现了以与待预测数据的相似性度量最大的训练样本作为参考进行特征调整,生成符合调整目标的特征调整建议信息。
在本实施例的一些可选的实现方式中,上述第二特征集可以为上述第一特征集的子集。具体地,上述第二特征集可以与上述第一特征集相同。可选地,上述第二特征集也可以只包括上述第一特征集中的部分特征,例如特征贡献度的绝对值最大的M(M为正整数,M小于K)个特征。从而,通过仅调整对预测结果影响较大的特征,可以有效地提高计算效率。
可选地,基于上述可选的实现方式,上述特征调整建议信息还可以包括上述参考样本中与上述建议调整特征对应的特征值。从而,通过将上述参考样本中与上述建议调整特征对应的特征值与建议调整特征的对应调整值一同提供,可以满足多种业务需求。例如,当建议调整特征(例如“特征1”)的对应调整值为“0.865”,而参考样本中“特征1”的特征值为“1.5”时,若技术人员希望对预测结果(例如当前为0.7)进行进一步提升,就可以尝试将“特征1”调整为“1.0”(通常介于建议调整特征的对应调整值与参考样本中与上述建议调整特征对应的特征值之间)。从而为后续对机器学习模型的进一步优化或预测结果的有效提升提供更为充足的依据。
在本实施例的一些可选的实现方式中,上述方法还可以包括:
在450,基于待预测数据中的第一特征集中的各个特征所对应的特征贡献度,生成针对机器学习模型的第二解释信息。其中,上述第二解释信息可以用于示出与特征对机器学习模型的模型预测贡献度相关的解释信息。作为示例,上述第二解释信息可以包括上述待预测数据中的第一特征集中的各个特征的特征信息。其中,上述特征信息可以包括特征名称、特征值和特征贡献度。
基于上述可选的实现方式,本方案可以进而将基于待预测数据中的第一特征集中的各个特征所对应的特征贡献度所生成的第二解释信息提供给用户。例如,在机器学习模型训练场景中,模型开发人员可以通过上述第二解释信息判断模型是否真正学习到了我们想让它学习到的信息,从而有助于对模型的优化调整。再例如,在机器学习模型应用场景中,模型使用者可以基于自身经验判断模型根据其所呈现的各特征的贡献大小来输出的预测结果是否准确,从而可以对模型的预测能力有更直观的认识。
利用图1-图7中公开的用于模型解释的方法,可以将训练样本集中的训练样本的对应特征的特征贡献度与待预测数据的特征贡献度之间的相似性作为相似样本集的确定依据。与单纯使用输入数据(例如待预测数据或训练样本的特征数据)的特征的特征值作为相似性比较的依据相比,采用特征贡献度相当于不仅考虑了输入数据本身的特点,还结合了机器学习模型本身的预测行为(为不同的特征赋予不同的权重),而且能够保证相似的输入可以得到相似的输出,从而提高了判定训练样本与待预测数据相似性度量的合理性。
此外,利用上述方法,可以基于相似样本集生成针对机器学习模型的第一解释信息,通过第一解释信息所传达的对于机器学习模型的解释,可以针对多种应用场景实现解释模型为何会输出这样的预测结果、提示确认标签数据是否正确、为特征调整提供建议等丰富的技术效果,为提高模型预测结果的可信性、发现样本之间潜在的共性、优化模型等提供技术基础。通常,修改模型的工作具有较高的技术门槛。而根据本说明书的用于模型解释的方法所得到的第一解释信息,可以在自动机器学习(Automated machine learning,AutoML)等自动调参生成模型技术的基础上,有效地降低了诸如理解模型预测逻辑、调整样本标签、修改特征以影响模型输出结果等技术门槛,为机器学习模型的进一步发展与应用提供技术基础。
图8a示出了根据本说明书实施例的用于模型解释的装置800的一个示例的方框图。该装置实施例可以与图2-图7所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图8a所示,用于模型解释的装置包括预测结果生成单元810、特征贡献生成单元820、相似样本确定单元830和解释信息生成单元840。
预测结果生成单元810被配置为将待预测数据提供给机器学习模型得到预测结果。其中,上述机器学习模型包括基于训练样本集训练出的非线性机器学习模型。预测结果生成单元810的操作可以参考上面参照图2描述的210的操作。
特征贡献生成单元820被配置为根据预测结果,确定待预测数据中的第一特征集中的各个特征所对应的特征贡献度。特征贡献生成单元820的操作可以参考上面参照图2描述的220的操作。
相似样本确定单元830被配置为基于所确定出的待预测数据的特征贡献度以及训练样本集中的各个训练样本的对应特征的特征贡献度,从训练样本集中确定待预测数据的相似样本集。相似样本确定单元830的操作可以参考上面参照图2描述的230的操作。
在一个示例中,相似样本确定单元830可以按照下述方式确定待预测数据的相似样本集:基于所确定出的待预测数据的特征贡献度以及训练样本集中的各个训练样本的对应特征的特征贡献度,计算待预测数据与各个训练样本之间的相似性度量;以及根据待预测数据与各个训练样本之间的相似性度量,从训练样本集中确定待预测数据的相似样本集。相似样本确定单元830的上述操作可以参考上面参照图2描述的231、232的操作。
解释信息生成单元840被配置为基于相似样本集,生成针对机器学习模型的第一解释信息。解释信息生成单元840的操作可以参考上面参照图2描述的240的操作。
在一个示例中,上述第一解释信息可以包括特征调整建议信息。上述特征调整建议信息可以包括建议调整特征以及对应调整值。图8b示出了根据本说明书实施例的用于模型解释的装置800中解释信息生成单元840的一个示例的方框图。解释信息生成单元840可以包括:样本选取子单元841,被配置为从相似样本集中选取标签数据符合预设选取条件的训练样本作为目标样本集;取值集生成子单元842,被配置为根据目标样本集中的训练样本的第二特征集中的各个特征的特征值,生成待预测数据的对应特征的调整值取值集;调整信息确定子单元843,被配置为根据所生成的各个特征的调整值取值集,确定待预测数据中的建议调整特征以及对应的调整值;建议信息生成子单元844,被配置为根据所确定的建议调整特征以及对应的调整值,生成特征调整建议信息。解释信息生成单元840的操作可以参考上面参照图4描述的第一解释信息的生成过程400的操作。
在一个示例中,调整信息确定子单元843可以包括:候选集生成模块(图中未示出),被配置为根据所生成的各个特征的调整值取值集对待预测数据中的特征的特征值进行调整,生成候选调整预测数据集;候选预测结果生成模块(图中未示出),被配置为将候选调整预测数据集中的各个候选调整预测数据提供给机器学习模型,得到各个候选调整预测数据的预测结果;调整信息确定模块(图中未示出),被配置为根据各个候选调整预测数据的预测结果,确定待预测数据中的建议调整特征以及对应的调整值。调整信息确定子单元843的操作可以参考上面参照图5描述的建议调整特征以及对应的调整值的确定过程500的操作。
在一个示例中,调整信息确定模块可以按照下述方式确定待预测数据中的建议调整特征以及对应的调整值:确定各个候选调整预测数据的预测结果与待预测数据的预测结果之间的预测结果差异;确定各个候选调整预测数据与待预测数据之间的特征差异;计算各个候选调整预测数据的预测结果差异与特征差异的比值,作为各个候选调整预测数据的修改转化率;从各个候选调整预测数据中选取修改转化率最大的候选调整预测数据作为第一目标调整预测数据;根据第一目标调整预测数据,确定建议调整特征以及对应的调整值。调整信息确定模块的操作可以参考上面参照图6描述的建议调整特征以及对应的调整值的确定过程600的操作。
在一个示例中,取值集生成子单元842可以按照下述方式生成待预测数据的对应特征的调整值取值集:从目标样本集中选取与待预测数据的相似性度量最大的训练样本作为参考样本;根据参考样本的第二特征集中的各个特征的特征值和待预测数据的对应特征的特征值,生成待预测数据的对应特征的调整值取值集;以及调整信息确定模块可以按照下述方式确定待预测数据中的建议调整特征以及对应的调整值:从各个候选调整预测数据中选取预测结果符合预设期望的候选调整预测数据作为第一调整预测数据集;将第一调整预测数据集中相对于待预测数据改动最小的调整预测数据确定为第二目标调整预测数据;以及根据第二目标调整预测数据,确定建议调整特征以及对应的调整值。取值集生成子单元842和调整信息确定模块的操作可以参考上面参照图7描述的720、730、760、770、780的操作。
在本实施例的一些可选的实现方式中,上述训练样本集中的各个训练样本的特征贡献度可以按照二叉搜索树存储。相似样本确定单元830可以按照下述方式确定待预测数据的相似样本集:对二叉搜索树进行搜索,以搜索出与待预测数据的特征贡献度匹配的叶子结点;将匹配的叶子结点所对应的训练样本确定为准相似样本;确定准相似样本与待预测数据之间的相似性度量;自匹配的叶子结点起对二叉搜索树进行回溯搜索,以生成回溯结果,回溯结果用于指示二叉搜索树中未被搜索的结点中是否存在所对应的训练样本的相似性度量比准相似样本更大的结点;基于回溯结果和准相似样本,确定待预测数据的相似样本集。
在本实施例的一些可选的实现方式中,上述训练样本和待预测数据的所对应的特征贡献度可以分别以向量形式表征。
在本实施例的一些可选的实现方式中,上述第一解释信息可以包括下述解释信息中的至少一种:基于训练样本的预测结果解释信息;训练样本标签数据调整提示信息;和针对待训练数据的特征调整建议信息。
在本实施例的一些可选的实现方式中,上述第二特征集可以为上述第一特征集的子集。
在本实施例的一些可选的实现方式中,上述特征调整建议信息还可以包括上述参考样本中与建议调整特征对应的特征值。
在本实施例的一些可选的实现方式中,该用于模型解释的装置还可以包括:第二解释信息生成单元(图中未示出),被配置为基于待预测数据中的第一特征集中的各个特征所对应的特征贡献度,生成针对机器学习模型的第二解释信息。其中,第二解释信息可以用于示出与特征对机器学习模型的模型预测贡献度相关的解释信息。
本说明书实施例的用于模型解释的装置可以采用硬件实现,也可以采用软件或者硬件和软件的组合来实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的处理器将存储器中对应的计算机程序指令读取到内存中运行形成的。在本说明书实施例中,用于模型解释的装置例如可以利用电子设备实现。
图9示出了根据本说明书的实施例的用于模型解释的电子设备900的示意图。如图9所示,电子设备900可以包括至少一个处理器910、存储器(例如,非易失性存储器)920、内存930和通信接口940,并且至少一个处理器910、存储器920、内存930和通信接口940经由总线950连接在一起。至少一个处理器910执行在存储器中存储或编码的至少一个计算机可读指令(即,上述以软件形式实现的元素)。
在一个实施例中,在存储器中存储计算机可执行指令,其当执行时使得至少一个处理器910:将待预测数据提供给机器学习模型得到预测结果,机器学习模型包括基于训练样本集训练出的非线性机器学习模型;根据预测结果,确定待预测数据中的第一特征集中的各个特征所对应的特征贡献度;基于所确定出的待预测数据的特征贡献度以及训练样本集中的各个训练样本的对应特征的特征贡献度,从训练样本集中确定待预测数据的相似样本集;以及基于相似样本集,生成针对机器学习模型的第一解释信息。
应该理解,在存储器中存储的计算机可执行指令当执行时使得至少一个处理器910进行本说明书的各个实施例中以上结合图1-8描述的各种操作和功能。
根据一个实施例,提供了一种比如机器可读介质(例如,非暂时性机器可读介质)的程序产品。机器可读介质可以具有指令(即,上述以软件形式实现的元素),该指令当被机器执行时,使得机器执行本说明书的各个实施例中以上结合图1-8描述的各种操作和功能。具体地,可以提供配有可读存储介质的***或者装置,在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该***或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。
在这种情况下,从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。
本说明书各部分操作所需的计算机程序代码可以用任意一种或多种程序语言编写,包括面向对象编程语言,如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB、NET以及Python等,常规程序化编程语言如C语言、Visual Basic 2003、Perl、COBOL2002、PHP以及ABAP,动态编程语言如Python、Ruby和Groovy,或者其他编程语言等。该程序编码可以在用户计算机上运行,或者作为独立的软件包在用户计算机上运行,或者部分在用户计算机上运行另一部分在远程计算机运行,或者全部在远程计算机或服务器上运行。在后一种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或者在云计算环境中,或者作为服务使用,比如软件即服务(SaaS)。
可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地,可以由通信网络从服务器计算机上或云上下载程序代码。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
上述各流程和各***结构图中不是所有的步骤和单元都是必须的,可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的,可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构,也可以是逻辑结构,即,有些单元可能由同一物理实体实现,或者,有些单元可能分由多个物理实体实现,或者,可以由多个独立设备中的某些部件共同实现。
在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”,并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。
以上结合附图详细描述了本说明书的实施例的可选实施方式,但是,本说明书的实施例并不限于上述实施方式中的具体细节,在本说明书的实施例的技术构思范围内,可以对本说明书的实施例的技术方案进行多种简单变型,这些简单变型均属于本说明书的实施例的保护范围。
本说明书内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本说明书内容。对于本领域普通技术人员来说,对本说明书内容进行的各种修改是显而易见的,并且,也可以在不脱离本说明书内容的保护范围的情况下,将本文所定义的一般性原理应用于其它变型。因此,本说明书内容并不限于本文所描述的示例和设计,而是与符合本文公开的原理和新颖性特征的最广范围相一致。
Claims (21)
1.一种用于模型解释的方法,包括:
将待预测数据提供给机器学习模型得到预测结果,所述机器学习模型包括基于训练样本集训练出的非线性机器学习模型;
根据所述预测结果,确定所述待预测数据中的第一特征集中的各个特征所对应的特征贡献度;
基于所确定出的待预测数据的特征贡献度以及所述训练样本集中的各个训练样本的对应特征的特征贡献度,从所述训练样本集中确定所述待预测数据的相似样本集;以及
基于所述相似样本集,生成针对所述机器学习模型的第一解释信息。
2.如权利要求1所述的方法,其中,所述基于所确定出的待预测数据的特征贡献度以及所述训练样本集中的各个训练样本的对应特征的特征贡献度,从所述训练样本集中确定所述待预测数据的相似样本集包括:
基于所确定出的待预测数据的特征贡献度以及所述训练样本集中的各个训练样本的对应特征的特征贡献度,计算所述待预测数据与各个训练样本之间的相似性度量;以及
根据所述待预测数据与各个训练样本之间的相似性度量,从所述训练样本集中确定所述待预测数据的相似样本集。
3.如权利要求1所述的方法,其中,所述训练样本集中的各个训练样本的特征贡献度按照二叉搜索树存储,以及
所述基于所确定出的待预测数据的特征贡献度以及所述训练样本集中的各个训练样本的对应特征的特征贡献度,从所述训练样本集中确定所述待预测数据的相似样本集包括:
对所述二叉搜索树进行搜索,以搜索出与所述待预测数据的特征贡献度匹配的叶子结点;
将所述匹配的叶子结点所对应的训练样本确定为准相似样本;
确定所述准相似样本与所述待预测数据之间的相似性度量;
自所述匹配的叶子结点起对所述二叉搜索树进行回溯搜索,以生成回溯结果,所述回溯结果用于指示所述二叉搜索树中未被搜索的结点中是否存在所对应的训练样本的相似性度量比所述准相似样本更大的结点;
基于所述回溯结果和所述准相似样本,确定所述待预测数据的相似样本集。
4.如权利要求2或3所述的方法,其中,所述训练样本和所述待预测数据的所对应的特征贡献度分别以向量形式表征。
5.如权利要求1所述的方法,其中,所述第一解释信息包括下述解释信息中的至少一种:
基于训练样本的预测结果解释信息;
训练样本标签数据调整提示信息;和
针对所述待训练数据的特征调整建议信息。
6.如权利要求5所述的方法,其中,所述第一解释信息包括所述特征调整建议信息,所述特征调整建议信息包括建议调整特征以及对应调整值,以及
所述基于所述相似样本集,生成针对所述机器学习模型的第一解释信息,包括:
从所述相似样本集中选取标签数据符合预设选取条件的训练样本作为目标样本集;
根据所述目标样本集中的训练样本的第二特征集中的各个特征的特征值,生成所述待预测数据的对应特征的调整值取值集;
根据所生成的各个特征的调整值取值集,确定所述待预测数据中的建议调整特征以及对应的调整值;
根据所确定的建议调整特征以及对应的调整值,生成特征调整建议信息。
7.如权利要求6所述的方法,其中,所述根据所生成的各个特征的调整值取值集,确定所述待预测数据中的建议调整特征以及对应的调整值包括:
根据所生成的各个特征的调整值取值集对所述待预测数据中的特征的特征值进行调整,生成候选调整预测数据集;
将所述候选调整预测数据集中的各个候选调整预测数据提供给所述机器学习模型,得到各个候选调整预测数据的预测结果;
根据各个候选调整预测数据的预测结果,确定所述待预测数据中的建议调整特征以及对应的调整值。
8.如权利要求7所述的方法,其中,所述根据各个候选调整预测数据的预测结果,确定所述待预测数据中的建议调整特征以及对应的调整值,包括:
确定各个候选调整预测数据的预测结果与所述待预测数据的预测结果之间的预测结果差异;
确定各个候选调整预测数据与所述待预测数据之间的特征差异;
计算各个候选调整预测数据的预测结果差异与特征差异的比值,作为各个候选调整预测数据的修改转化率;
从各个候选调整预测数据中选取修改转化率最大的候选调整预测数据作为第一目标调整预测数据;
根据所述第一目标调整预测数据,确定所述建议调整特征以及对应的调整值。
9.如权利要求7所述的方法,其中,所述根据所述目标样本集中的训练样本的第二特征集中的各个特征的特征值,生成所述待预测数据的对应特征的调整值取值集包括:
从所述目标样本集中选取与所述待预测数据的相似性度量最大的训练样本作为参考样本;
根据所述参考样本的所述第二特征集中的各个特征的特征值和所述待预测数据的对应特征的特征值,生成所述待预测数据的对应特征的调整值取值集;以及
所述根据各个候选调整预测数据的预测结果,确定所述待预测数据中的建议调整特征以及对应的调整值包括:
从各个候选调整预测数据中选取预测结果符合预设期望的候选调整预测数据作为第一调整预测数据集;
将所述第一调整预测数据集中相对于所述待预测数据改动最小的调整预测数据确定为第二目标调整预测数据;以及
根据所述第二目标调整预测数据,确定所述建议调整特征以及对应的调整值。
10.如权利要求6到9中任一所述的方法,其中,所述第二特征集为所述第一特征集的子集。
11.如权利要求10所述的方法,其中,所述特征调整建议信息还包括所述参考样本中与所述建议调整特征对应的特征值。
12.如权利要求1所述的方法,其中,所述方法还包括:
基于所述待预测数据中的第一特征集中的各个特征所对应的特征贡献度,生成针对所述机器学习模型的第二解释信息,其中,所述第二解释信息用于示出与特征对机器学习模型的模型预测贡献度相关的解释信息。
13.一种用于模型解释的装置,包括:
预测结果生成单元,被配置为将待预测数据提供给机器学习模型得到预测结果,所述机器学习模型包括基于训练样本集训练出的非线性机器学习模型;
特征贡献生成单元,被配置为根据所述预测结果,确定所述待预测数据中的第一特征集中的各个特征所对应的特征贡献度;
相似样本确定单元,被配置为基于所确定出的待预测数据的特征贡献度以及所述训练样本集中的各个训练样本的对应特征的特征贡献度,从所述训练样本集中确定所述待预测数据的相似样本集;
解释信息生成单元,被配置为基于所述相似样本集,生成针对所述机器学习模型的第一解释信息。
14.如权利要求13所述的装置,其中,所述相似样本确定单元按照下述方式确定所述待预测数据的相似样本集:
基于所确定出的待预测数据的特征贡献度以及所述训练样本集中的各个训练样本的对应特征的特征贡献度,计算所述待预测数据与各个训练样本之间的相似性度量;以及
根据所述待预测数据与各个训练样本之间的相似性度量,从所述训练样本集中确定所述待预测数据的相似样本集。
15.如权利要求14所述的装置,其中,所述第一解释信息包括所述特征调整建议信息,所述特征调整建议信息包括建议调整特征以及对应调整值,以及
所述解释信息生成单元,包括:
样本选取子单元,被配置为从所述相似样本集中选取标签数据符合预设选取条件的训练样本作为目标样本集;
取值集生成子单元,被配置为根据所述目标样本集中的训练样本的第二特征集中的各个特征的特征值,生成所述待预测数据的对应特征的调整值取值集;
调整信息确定子单元,被配置为根据所生成的各个特征的调整值取值集,确定所述待预测数据中的建议调整特征以及对应的调整值;
建议信息生成子单元,被配置为根据所确定的建议调整特征以及对应的调整值,生成特征调整建议信息。
16.如权利要求15所述的装置,其中,所述调整信息确定子单元,包括:
候选集生成模块,被配置为根据所生成的各个特征的调整值取值集对所述待预测数据中的特征的特征值进行调整,生成候选调整预测数据集;
候选预测结果生成模块,被配置为将所述候选调整预测数据集中的各个候选调整预测数据提供给所述机器学习模型,得到各个候选调整预测数据的预测结果;
调整信息确定模块,被配置为根据各个候选调整预测数据的预测结果,确定所述待预测数据中的建议调整特征以及对应的调整值。
17.如权利要求16所述的装置,其中,所述调整信息确定模块按照下述方式确定所述待预测数据中的建议调整特征以及对应的调整值:
确定各个候选调整预测数据的预测结果与所述待预测数据的预测结果之间的预测结果差异;
确定各个候选调整预测数据与所述待预测数据之间的特征差异;
计算各个候选调整预测数据的预测结果差异与特征差异的比值,作为各个候选调整预测数据的修改转化率;
从各个候选调整预测数据中选取修改转化率最大的候选调整预测数据作为第一目标调整预测数据;
根据所述第一目标调整预测数据,确定所述建议调整特征以及对应的调整值。
18.如权利要求16所述的装置,其中,所述取值集生成子单元按照下述方式生成所述待预测数据的对应特征的调整值取值集:
从所述目标样本集中选取与所述待预测数据的相似性度量最大的训练样本作为参考样本;
根据所述参考样本的所述第二特征集中的各个特征的特征值和所述待预测数据的对应特征的特征值,生成所述待预测数据的对应特征的调整值取值集;以及
所述调整信息确定模块按照下述方式确定所述待预测数据中的建议调整特征以及对应的调整值:
从各个候选调整预测数据中选取预测结果符合预设期望的候选调整预测数据作为第一调整预测数据集;
将所述第一调整预测数据集中相对于所述待预测数据改动最小的调整预测数据确定为第二目标调整预测数据;以及
根据所述第二目标调整预测数据,确定所述建议调整特征以及对应的调整值。
19.一种电子设备,包括:至少一个处理器,与所述至少一个处理器耦合的存储器,以及存储在所述存储器上的计算机程序,所述至少一个处理器执行所述计算机程序来实现如权利要求1-12中任一所述的方法。
20.一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-12中任一所述的方法。
21.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行来实现如权利要求1-12中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210369552.4A CN114912623A (zh) | 2022-04-08 | 2022-04-08 | 用于模型解释的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210369552.4A CN114912623A (zh) | 2022-04-08 | 2022-04-08 | 用于模型解释的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114912623A true CN114912623A (zh) | 2022-08-16 |
Family
ID=82762530
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210369552.4A Pending CN114912623A (zh) | 2022-04-08 | 2022-04-08 | 用于模型解释的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114912623A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024060906A1 (zh) * | 2022-09-20 | 2024-03-28 | 腾讯科技(深圳)有限公司 | 联邦学习***的数据处理方法、装置、计算机及可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109800889A (zh) * | 2019-01-22 | 2019-05-24 | 深圳魔数智擎科技有限公司 | 特征对机器学习模型的输出结果的贡献评估方法 |
CN111353626A (zh) * | 2018-12-21 | 2020-06-30 | 阿里巴巴集团控股有限公司 | 数据的审核方法、装置及设备 |
CN113326900A (zh) * | 2021-06-30 | 2021-08-31 | 深圳前海微众银行股份有限公司 | 联邦学习模型的数据处理方法、装置及存储介质 |
CN113378033A (zh) * | 2020-03-09 | 2021-09-10 | 北京沃东天骏信息技术有限公司 | 一种推荐模型的训练方法和装置 |
CN114021718A (zh) * | 2021-11-04 | 2022-02-08 | 北京香侬慧语科技有限责任公司 | 模型行为可解释性方法、***、介质及设备 |
-
2022
- 2022-04-08 CN CN202210369552.4A patent/CN114912623A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111353626A (zh) * | 2018-12-21 | 2020-06-30 | 阿里巴巴集团控股有限公司 | 数据的审核方法、装置及设备 |
CN109800889A (zh) * | 2019-01-22 | 2019-05-24 | 深圳魔数智擎科技有限公司 | 特征对机器学习模型的输出结果的贡献评估方法 |
CN113378033A (zh) * | 2020-03-09 | 2021-09-10 | 北京沃东天骏信息技术有限公司 | 一种推荐模型的训练方法和装置 |
CN113326900A (zh) * | 2021-06-30 | 2021-08-31 | 深圳前海微众银行股份有限公司 | 联邦学习模型的数据处理方法、装置及存储介质 |
CN114021718A (zh) * | 2021-11-04 | 2022-02-08 | 北京香侬慧语科技有限责任公司 | 模型行为可解释性方法、***、介质及设备 |
Non-Patent Citations (2)
Title |
---|
THI-THU-HUONG LE: "Classification and Explanation for Intrusion Detection System Based on Ensemble Trees and SHAP Method", 《SENSORS》, 28 January 2022 (2022-01-28) * |
倪政: "基于随机森林的兴农卡农户用信预测模型及应用研究", 《中国优秀硕士学位论文全文数据库(经济与管理科学辑)》, 15 January 2020 (2020-01-15) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024060906A1 (zh) * | 2022-09-20 | 2024-03-28 | 腾讯科技(深圳)有限公司 | 联邦学习***的数据处理方法、装置、计算机及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110069709B (zh) | 意图识别方法、装置、计算机可读介质及电子设备 | |
US20180314975A1 (en) | Ensemble transfer learning | |
CN111611390B (zh) | 一种数据处理方法及装置 | |
Wang et al. | A survey on temporal knowledge graph completion: Taxonomy, progress, and prospects | |
CN116308551A (zh) | 基于数字金融ai平台的内容推荐方法及*** | |
CN115631008B (zh) | 商品推荐方法、装置、设备及介质 | |
CN111161238A (zh) | 图像质量评价方法及装置、电子设备、存储介质 | |
Liu et al. | [Retracted] Deep Learning and Collaborative Filtering‐Based Methods for Students’ Performance Prediction and Course Recommendation | |
CN114912623A (zh) | 用于模型解释的方法及装置 | |
CN108304568B (zh) | 一种房地产公众预期大数据处理方法及*** | |
CN114328942A (zh) | 关系抽取方法、装置、设备、存储介质和计算机程序产品 | |
CN116467466A (zh) | 基于知识图谱的编码推荐方法、装置、设备及介质 | |
CN113516182B (zh) | 视觉问答模型训练、视觉问答方法和装置 | |
US20230042683A1 (en) | Identifying and transforming text difficult to understand by user | |
CN117010480A (zh) | 模型训练方法、装置、设备、存储介质及程序产品 | |
CN113191527A (zh) | 一种基于预测模型进行人口预测的预测方法及装置 | |
US12008589B2 (en) | Discovering causal relationships in mixed datasets | |
CN118093839B (zh) | 基于深度学习的知识运营问答对话处理方法及*** | |
Kaur et al. | A Hybrid Classification Model for Prediction of Academic Performance of Students: An EDM Application | |
US20240185090A1 (en) | Assessment of artificial intelligence errors using machine learning | |
US20230252419A1 (en) | Systems and methods for predictive scoring | |
Ben Abdallah et al. | Online consumer review spam detection based reinforcement learning and neural network | |
Liu et al. | Improved Double‐Layer Structure Multilabel Classification Model via Optimal Sequence and Attention Mechanism | |
Yu | Exploring Entity Relationship in Pairwise Ranking: Adaptive Sampler and Beyond | |
Wang et al. | DSDRec: Next POI recommendation using deep semantic extraction and diffusion model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |