CN114868124A

CN114868124A - 控制方法、信息处理装置以及控制程序

Info

Publication number: CN114868124A
Application number: CN202080087277.6A
Authority: CN
Inventors: 樋口裕二; 清水俊也; 森川郁也
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2022-08-05
Also published as: JP7381942B2; EP4092555A1; JPWO2021144943A1; WO2021144943A1; US20220301288A1; EP4092555A4

Abstract

使学习完毕模型的攻击耐性的评价精度提高。存储部(11)存储分类模型(13)和转换模型(14)，分类模型根据图像数据计算置信度，转换模型是将与图像数据相比维数较小的特征值转换为图像数据的模型，且被生成为使得与图像数据的集合对应的特征值的集合遵循概率分布(15)。处理部(12)基于概率分布(15)提取特征值(16)。处理部(12)使用转换模型(14)将特征值(16)转换为图像数据(17)，使用分类模型(13)计算与图像数据(17)对应的置信度(18)。处理部(12)基于概率分布(15)以及特征值(16)，将输入至转换模型(14)的特征值从特征值(16)更新为特征值(19)，使得置信度比置信度(18)高。

Description

控制方法、信息处理装置以及控制程序

技术领域

本发明涉及控制方法、信息处理装置以及控制程序。

背景技术

存在通过机器学习生成预测所输入的图像中的物体的类别的分类模型，并将生成的分类模型用于图像识别的情况。在生成分类模型的机器学习中，准备将样本图像与表示该样本图像所属的类别的教师标签建立了对应关系的训练数据。能够使用该训练数据，来生成输出表示输入的图像属于特定的类别的可能性的置信度的分类模型。分类模型有可能是卷积神经网络(CNN：Convolutional Neural Network)等多层神经网络。

作为对通过机器学习生成的分类模型的安全上的威胁，讨论了模型逆向攻击。分类模型在其性质上，在输入了与训练数据中包含的样本图像类似的图像的情况下，作为正确答案类别的置信度输出非常高的置信度的情况较多。在模型逆向攻击中，利用该性质，通过探索特定的类别的置信度非常高的输入的图像，来推断训练数据中包含的样本图像。在个人信息等应当保护的秘密信息包含于训练数据的情况下，存在秘密信息被推断而泄漏的风险。

此外，作为利用机器学习的安全技术，提出了将网络的通信量数据输入至神经网络，根据在神经网络内计算出的特征向量来判定入侵类型的入侵探测***。

专利文献1：日本特开2018－67304号公报

在运用通过机器学习生成的分类模型时，存在希望试行模型逆向攻击来评价分类模型的攻击耐性。作为简单的评价方法，考虑如下方法，即，反复进行生成输入的图像，访问评价对象的分类模型并计算特定的类别的置信度，对图像的像素值进行微修正使得置信度变高，来评价是否能够重现正确答案的样本图像。

然而，在反复进行像素值的微修正的简单的评价方法中，对分类模型的访问次数非常多而计算量较大。另外，由于图像是维数较大而自由度较高的数据，因此取决于最初输入的初始图像，陷入与正确答案的样本图像不类似的局部解的情况也较多。因此，存在难以在现实的分析时间的范围内精度较好地评价分类模型的攻击耐性这一问题。

发明内容

在一个方面中，本发明的目的在于提供使学习完毕模型的攻击耐性的评价精度提高的控制方法、信息处理装置以及控制程序。

在一个方式中，提供计算机所执行的控制方法。获取分类模型和转换模型，分类模型根据输入的图像数据计算表示输入的图像数据属于特定的类别的可能性的置信度，转换模型是将与输入的图像数据相比维数较小的输入的特征值转换为输入的图像数据的模型，且被生成为使得与图像数据的集合对应的特征值的集合遵循特定的概率分布，基于特定的概率分布提取第一特征值，使用转换模型将第一特征值转换为第一图像数据，使用分类模型计算出与第一图像数据对应的第一置信度，基于特定的概率分布以及第一特征值，将输入至转换模型的特征值从第一特征值更新为第二特征值，使得通过分类模型计算的置信度比第一置信度高。

另外，在一个方式中，提供具有存储部和处理部的信息处理装置。另外，在一个方式中，提供使计算机执行的控制程序。

在一个方面中，学习完毕模型的攻击耐性的评价精度提高。

通过与表示作为本发明的例子优选的实施方式的附图相关联的以下的说明，本发明的上述以及其它目的、特征以及优点变得清楚。

附图说明

图1是对第一实施方式的信息处理装置的例子进行说明的图。

图2是示出第二实施方式的信息处理装置的硬件例的图。

图3是示出分类模型的输入输出例的图。

图4是示出变分自编码器的例子的图。

图5是示出训练数据推断的第一例的图。

图6是示出训练数据推断的第二例的图。

图7是示出训练数据推断的第三例的图。

图8是示出训练数据推断的第四例的图。

图9是示出概率分布的裁剪例的图。

图10是示出信息处理装置的功能例的框图。

图11是示出概率分布的信息的例子的图。

图12是示出向量表的例子的图。

图13是示出训练数据推断的第一过程例的流程图。

图14是示出训练数据推断的第一过程例的流程图(后半部分)。

图15是示出训练数据推断的第二过程例的流程图。

图16是示出训练数据推断的第二过程例的流程图(后半部分)。

具体实施方式

以下，参照附图，对本实施方式进行说明。

[第一实施方式]

对第一实施方式进行说明。

图1是对第一实施方式的信息处理装置的例子进行说明的图。

第一实施方式的信息处理装置10评价通过机器学习生成的学习完毕模型的攻击耐性。在对学习完毕模型的攻击中包含模型逆向攻击。模型逆向攻击通过对学习完毕模型赋予各种输入数据并监视学习完毕模型的输出，从而推断机器学习中使用的训练数据。训练数据的重现度根据受到模型逆向攻击的学习完毕模型而不同。信息处理装置10通过试行模型逆向攻击，来确认训练数据的重现度，评价学习完毕模型的攻击耐性。信息处理装置10也可以是客户端装置也可以是服务器装置。信息处理装置10也能够称为计算机、控制装置、分析装置、评价装置、机器学习装置等。

信息处理装置10具有存储部11以及处理部12。存储部11也可以是RAM(RandomAccess Memory，随机存取存储器)等易失性半导体存储器，也可以是HDD(Hard DiskDrive，硬盘驱动器)、闪存等非易失性存储设备。处理部12例如是CPU(Central ProcessingUnit，中央处理单元)、GPU(Graphics Processing Unit，图形处理单元)、DSP(DigitalSignal Processor，数字信号处理器)等处理器。然而，处理部12也可以包含ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(FieldProgrammable Gate Array，现场可编程门阵列)等特定用途的电子电路。处理器执行存储于RAM等存储器(也可以是存储部11)的程序。也存在将多个处理器的集合称为“多处理器”或者简称为“处理器”的情况。

存储部11存储分类模型13以及转换模型14。

分类模型13是评价对象的学习完毕模型，根据图像数据计算置信度。图像数据也可以是多个像素值排列为格子状的张量形式数据。置信度是示出输入的图像数据属于特定的类别(图像分类)的可能性的数值。分类模型13也可以计算与多个类别对应的多个置信度。某类别的置信度也可以是示出输入的图像数据属于多个类别中的该类别的相对的似然性的概率。多个类别的置信度的合计值也可以为1，各类别的置信度也可以为0以上且1以下的实数。某类别的置信度越高，输入的图像数据属于该类别的可能性越高。

分类模型13例如用于面部识别、文字识别等图像识别。分类模型13包含经过机器学习来决定值的参数。分类模型13也可以是CNN等多层神经网络，也可以包含对连接节点间的边缘分配的权重作为参数。分类模型13的生成中使用的训练数据将样本图像数据与示出该样本图像数据所属的类别的教师标签建立对应关系。例如，样本图像数据是面部照片数据，教师标签是正确答案的面部识别结果。另外，例如，样本图像数据是手写文字数据，教师标签是正确答案的文字识别结果。

这里，训练数据存在包含个人信息等应当保护的秘密信息的情况。例如，存在面部照片数据与该人物的姓名的对应关系是应当保护的个人信息的情况。分类模型13由于表示在各种样本图像数据与教师标签之间成立的一般的关系，因此并不直接提供各个秘密信息。然而，在输入了样本图像数据的情况下，分类模型13存在输出非常大的数值作为正确答案类别的置信度的情况。这会给予攻击者用于推断样本图像数据的提示。因此，存在模型逆向攻击成功而训练数据中包含的秘密信息泄漏的风险。

此外，信息处理装置10对模型逆向攻击的试行能够作为即使不了解分类模型13的内部构造也成立的黑盒攻击来进行。因此，信息处理装置10也可以不保持分类模型13本身，只要能够访问分类模型13即可。例如，信息处理装置10也可以向公开了分类模型13的其它的信息处理装置发送图像数据，从其它的信息处理装置接收与图像数据对应的置信度。

转换模型14将特征值转换为图像数据。转换模型14所输出的图像数据能够输入至分类模型13。输入的特征值与图像数据相比维数较小。例如，特征值是48维的向量。转换模型14也可以是多层神经网络。另外，转换模型14也可以由信息处理装置10生成，也可以从其它的信息处理装置取得。

这里，转换模型14被生成为使得与各种图像数据的集合对应的特征值的集合遵循特定的概率分布15。概率分布15也可以是正态分布。例如，概率分布15是由特定的平均向量以及方差协方差矩阵规定的多变量正态分布。概率分布15对一个特征值分配根据概率密度函数计算的一个概率密度。某特征值的概率密度也能够说表示从该特征值转换的图像数据的出现概率。一般而言，越接***均则概率密度越大，越远离平均则概率密度越小。

转换模型14也可以是变分自编码器(VAE：Variational Auto Encoder)中包含的解码器。例如，信息处理装置10收集与分类模型13的机器学***均以及方差的节点，因此经过编码器计算的特征值的集合符合特定的概率分布的情况较多。

处理部12如以下那样，对分类模型13试行模型逆向攻击。处理部12基于概率分布15提取特征值16(第一特征值)。特征值16也可以根据概率分布15所示的概率密度随机地提取。例如，处理部12生成0以上且1以下的随机数，求出累积概率与随机数一致的特征值。由此，概率密度越高的特征值被提取的可能性越高，概率密度越低的特征值被提取的可能性越低。

处理部12通过将特征值16输入至转换模型14，从而将特征值16转换为图像数据17。处理部12通过将图像数据17输入至分类模型13，从而计算与图像数据17对应的置信度18。在分类模型13计算多个类别的置信度的情况下，决定一个设为推断样本图像数据的对象的类别。对象的类别也可以由用户指定。此外，转换模型14结合至分类模型13的前级。在模型逆向攻击的试行中，转换模型14与分类模型13被作为一体运用，也可以不明确地取出作为中间数据的图像数据17。因此，能够将结合转换模型14与分类模型13后的模型视为一个模型，来试行模型逆向攻击。

处理部12基于概率分布15、特征值16、以及置信度18，提取特征值19(第二特征值)，并将特征值16更新为特征值19。以通过分类模型13计算的置信度比置信度18高的方式提取特征值19。处理部12也可以使用最速下降法等梯度法的探索算法。例如，处理部12将置信度的变化量或者对应于置信度的指标值的变化量相对于特征值的变化量的比率计算为梯度，根据计算出的梯度和特征值16决定特征值19。此时，也可以将与特征值16对应的概率密度作为权重系数乘以置信度18来求出指标值。由此，优先沿概率密度变高的方向探索特征值，能够抑制出现概率较低的图像数据的生成。

处理部12将特征值19输入至转换模型14。处理部12通过反复进行特征值的更新、图像数据的生成、以及置信度的计算，来探索置信度变高的特征值。处理部12将从置信度足够高的特征值转换的图像数据视为基于模型逆向攻击的样本图像数据的推断结果。此外，处理部12也可以根据概率分布15，提取不同的多个特征值作为初始值，对这多个特征值分别反复执行。

如上述那样，处理部12代替直接探索置信度变高的图像数据，而探索遵循概率分布15的特征空间上的特征值。在使用梯度法的探索算法的情况下，代替计算置信度的梯度作为针对图像数据的像素值的梯度，而计算置信度的梯度作为针对特征空间的特征值的梯度。

此外，基于第一实施方式的信息处理装置10的控制方法也能够表现如下。信息处理装置10根据分布来从值集合提取某个值，上述值集合以特定的分布包含对应于多个图像数据的特征的多个值且多个值的每一个中包含的变量与多个图像数据的每一个中包含的变量相比较少。信息处理装置10取得将提取出的某个值设为向分类推断模型的输入值的情况的分类推断模型的分类推断结果中包含的分类的置信度中的特定的分类的置信度。信息处理装置10基于分布和某个值，生成在设为向分类推断模型的输入值的情况下分类推断模型的分类推断结果中包含的特定的分类的置信度比取得的置信度高的值。“分类推断模型”例如与在分类模型13的前级结合转换模型14后的模型对应。“特定的分布”例如与概率分布15对应。“变量”例如与向量中包含的各维的要素对应。“某个值”例如与特征值16对应。“特定的分类的置信度”例如与置信度18对应。“比取得的置信度高的值”例如与特征值19对应。

根据第一实施方式的信息处理装置10，基于概率分布15提取特征值16，经过转换模型14以及分类模型13计算置信度18。然后，将输入至转换模型14的特征值从特征值16更新为特征值19，使得通过分类模型13计算的置信度比置信度18高。

通过利用与图像数据相比维数较小且具有特定的概率分布的特征空间，与直接修正图像数据的像素的情况相比能够使探索效率化，能够减少将图像数据输入至分类模型13的访问次数。另外，能够减少生成与训练数据中包含的样本图像数据明显不类似的图像数据并输入至分类模型13的可能性，能够减少陷入局部解而样本图像数据的推断失败的可能性。因此，能够高效地对分类模型13试行模型逆向攻击，能够精度较好地评价样本图像数据的最大的重现度。其结果是，能够使分类模型13的攻击耐性的评价精度提高。

[第二实施方式]

接下来，对第二实施方式进行说明。

第二实施方式的信息处理装置对通过机器学习生成的分类模型试行试行模型逆向攻击，评价分类模型的攻击耐性。第二实施方式的信息处理装置也可以是客户端装置，也可以是服务器装置。

图2是示出第二实施方式的信息处理装置的硬件例的图。

第二实施方式的信息处理装置100具有CPU101、RAM102、HDD103、图像接口104、输入接口105、介质读取器106以及通信接口107。信息处理装置100所具有的这些单元连接于总线。信息处理装置100与第一实施方式的信息处理装置10对应。CPU101与第一实施方式的处理部12对应。RAM102或者HDD103与第一实施方式的存储部11对应。

CPU101是执行程序的命令的处理器。CPU101将存储于HDD103的程序、数据的至少一部分加载至RAM102，并执行程序。CPU101也可以具备多个处理器核，信息处理装置100也可以具备多个处理器。存在将多个处理器的集合称为“多处理器”或者简称为“处理器”的情况。

RAM102是暂时存储CPU101所执行的程序、CPU101用于运算的数据的易失性半导体存储器。信息处理装置100也可以具备RAM以外的种类的存储器，也可以具备多个存储器。

HDD103是存储OS(Operating System，操作***)、中间件、应用程序软件等软件的程序、以及数据的非易失性存储设备。信息处理装置100也可以具备闪存、SSD(Solid StateDrive，固态驱动器)等其它的种类的存储设备，也可以具备多个存储设备。

图像接口104根据来自CPU101的命令，将图像输出至连接于信息处理装置100的显示装置111。作为显示装置111能够使用CRT(Cathode Ray Tube，阴极射线管)显示器、液晶显示器(LCD：Liquid Crystal Display)、有机EL(OEL：Organic Electro-Luminescence)显示器、投影仪等任意种类的显示装置。也可以在信息处理装置100连接有打印机等显示装置111以外的输出设备。

输入接口105从连接于信息处理装置100的输入设备112接收输入信号。作为输入设备112，能够使用鼠标、触摸面板、触摸板、键盘等任意种类的输入设备。也可以在信息处理装置100连接有多个种类的输入设备。

介质读取器106是读取记录于记录介质113的程序、数据的读取装置。作为记录介质113，能够使用软盘(FD：Flexible Disk)、HDD等磁盘、CD(Compact Disc，压缩盘)、DVD(Digital Versatile Disc，数字通用盘)等光盘、半导体存储器等任意种类的记录介质。介质读取器106例如将从记录介质113读取出的程序、数据复制至RAM102、HDD103等其它的记录介质。读取出的程序例如被CPU101执行。此外，记录介质113也可以是便携式记录介质，存在用于程序、数据的分发的情况。另外，存在将记录介质113、HDD103称为计算机可读取的记录介质的情况。

通信接口107连接于网络114，经由网络114与其它的信息处理装置通信。通信接口107也可以是连接于交换机、路由器等有线通信装置的有线通信接口，也可以是连接于基站、访问点等无线通信装置的无线通信接口。

接下来，对分类模型进行说明。

图3是示出分类模型的输入输出例的图。

通过机器学习生成分类模型141。分类模型141是接收图像142并输出置信度数据143的学习完毕模型。分类模型141是将图像142分类为任意类别的模型，用于图像识别。在第二实施方式中主要假定根据人物的面部照片判定人物的姓名的面部识别。

图像142是排列为格子状的像素值的集合。像素值是示出像素(pixel)的亮度的数值。图像142表现为作为多维阵列的张量。在图像142是单色图像的情况下，图像142表现为作为具有规定的高度和规定的宽度的二维阵列的二阶张量。在图像142是彩色图像的情况下，图像142表现为作为具有规定的高度、规定的宽度、以及相当于RGB(Red Green Blue，红绿蓝)的三个通道的三维阵列的三阶张量。输入至分类模型141的图像142的高度以及宽度被预先调整为规定的高度以及宽度。向分类模型141输入相当于高度×宽度×通道数的个数的像素值。该高度×宽度×通道数是输入的维数。

置信度数据143是列举了与多个类别对应的多个置信度的输出数据。多个类别是作为图像种类的待分类类别的候补。在面部识别的情况下，多个类别是不同的人物的姓名。某类别的置信度是示出图像142属于该类别的似然性的数值。置信度越高意味着图像142属于该类别的可能性越高，置信度越低意味着图像142属于该类别的可能性越低。各类别的置信度是0以上且1以下的实数。多个类别的置信度的合计值为1。例如，对于作为面部照片的图像142，判定为Alice的置信度为0.80，Bob的置信度为0.10，Carol的置信度为0.10。在该情况下，图像142中的人物为Alice的可能性较高。

分类模型141例如是卷积神经网络(CNN)等多层神经网络。一般而言，卷积神经网络包含一个以上的卷积层、一个以上的池化层以及一个以上的全连接层。

卷积层在输入张量与被称为核(kernel)的滤波器之间进行乘积和运算，生成被称为特征图的输出张量。在典型的卷积层中，核的高度以及宽度比输入张量小，输出张量的高度以及宽度与输入张量相同或比输入张量小。卷积层将核层叠于输入张量，在层叠的核的要素与输入张量的要素之间分别计算积，并将积相加。相加值成为与核的中心所重叠的输入张量的要素对应的输出张量的要素。卷积层在输入张量上偏移核并且反复乘积和运算。

池化层将输入张量中的连续的多个(例如，2×2＝四个)的要素合成为一个要素，而生成与输入张量相比高度以及宽度较小的输出张量。在池化运算中，存在从多个要素中选择最大值的最大池化、计算多个要素的平均的平均池化等。全连接层计算一个数值作为输入张量的全部的要素的加权和。

上述的卷积运算、池化运算以及全连接运算被实现为多层神经网络。多层神经网络包含接收输入数据的输入层、输出输出数据的输出层、以及位于输入层与输出层之间的一个以上的中间层。在一个层中列举相当于神经元的节点，在邻接的层的节点间形成相当于突触的边缘。对边缘分配权重。边缘的权重是经过机器学习计算出的参数。

在分类模型141的学习中，使用包含多组样本图像与示出类别的教师标签的组的训练数据。教师标签由用户赋予。在面部识别的情况下，使用赋予了各个人物的姓名的面部照片的集合作为训练数据。

在分类模型141是多层神经网络的情况下，例如，在边缘的权重的计算中使用误差逆传播法。在误差逆传播法中，对输入层的节点输入样本图像的像素值，将上一层的节点的输出值乘以权重并输入至下一层的节点的过程从输入层朝向输出层反复进行。比较输出层的输出值与教师标签并计算误差。然后，从靠近输出层的一方开始按顺序计算误差相对于边缘的权重的梯度(偏微分)，基于误差的梯度更新权重。误差的梯度从输出层朝向输入层反向传播。对训练数据中包含的大量样本图像反复进行样本图像的输入、误算的计算、以及权重的更新。这样，根据训练数据生成分类模型141。

然而，在用于分类模型141的生成的训练数据中，存在包含个人信息等应当保护的秘密信息的情况。例如，存在面部照片与姓名的组是应当保护的个人信息的情况。就这一点，根据训练数据生成的分类模型141仅输出与输入的图像对应的置信度，并不直接提供训练数据中包含的样本图像与教师标签的组。因此，若隐藏训练数据，则即使公开分类模型141，秘密信息也不会立即泄漏。

然而，存在通过对分类模型141进行模型逆向攻击，从而能够基于特定的类别的置信度来推断与该类别对应的样本图像的情况。这是由于，在机器学习的性质上，若将训练数据中包含的样本图像本身输入至分类模型141，则从分类模型141输出的正确答案类别的置信度非常高。若基于模型逆向攻击的样本图像的重现度较高，则存在与该样本图像相关的秘密信息泄漏的风险。

基于模型逆向攻击的样本图像的重现度取决于分类模型141的模型构造、训练数据的量、分类模型141要预测的事件的性质等各种重要因素。因此，信息处理装置100在公开分类模型141前，评价分类模型141的模型逆向攻击的耐性。

信息处理装置100对分类模型141试行模型逆向攻击，评价最大能够将与特定的类别对应的样本图像重现到什么程度，来评价分类模型141的攻击耐性。在重现度较低的情况下，分类模型141的攻击耐性较高(脆弱性较小)，在重现度较高的情况下，分类模型141的攻击耐性较低(脆弱性较大)。在评价为攻击耐性较低的情况下，考虑在公开分类模型141时，进行降低秘密信息的泄漏风险的措施。例如，考虑降低分类模型141所输出的置信度的分辨率(有效位数)、不输出置信度而仅输出置信度最大的类别名等对策。

但是，问题是如何试行模型逆向攻击。在第二实施方式中，考虑到攻击者不能够得到分类模型141的状况，假定不使用分类模型141的内部构造的信息而对分类模型141的输入输出进行分析的黑盒攻击。这是由于，存在不分发分类模型141本身，而将分类模型141的功能作为服务在网络上公开的情况。

作为以黑盒攻击为前提的简单的攻击方法，考虑以下方法，即，将某图像输入至分类模型141来取得特定的类别的置信度，更新图像使得置信度变高的过程反复进行，直到置信度足够高为止。在使用最速下降法等梯度法的探索算法的情况下，计算置信度相对于图像的像素值的梯度(以像素值对置信度进行偏微分后的值)，根据梯度更新像素值。

然而，在上述的简单的攻击方法中，由于图像的维数较大而自由度较高，因此为了实现足够高的置信度，更新图像的次数变多，将图像输入至分类模型141的访问的次数变多。例如，存在对分类模型141的访问次数达到数亿次的情况，即使每一次访问的所需时间为1毫秒，也可能至推断完成为止需要数日。另外，在最初输入的初始图像是纯白的图像、纯黑的图像等与所希望的样本图像性质不同的图像的情况下，存在更新后的图像收敛至局部解的情况。因此，存在将置信度极大化后的图像与样本图像大幅不同，而模型逆向攻击失败的情况。

对于该问题，信息处理装置100利用变分自编码器来试行模型逆向攻击。信息处理装置100高效地评价模型逆向攻击最大能够以什么程度的重现度推断训练数据的样本图像。因此，分类模型141的攻击耐性的评价精度提高。以下，对第二实施方式中使用的变分自编码器进行说明。

图4是示出变分自编码器的例子的图。

变分自编码器151是一种自编码器。自编码器是以输入数据与输出数据相等的方式通过机器学习生成多层神经网络。自编码器将输入数据压缩为与输入数据相比维数较小的向量，并根据向量复原输出数据。然而，变分自编码器151被生成为向量的集合遵循特定的概率分布。变分自编码器151包含编码器152以及解码器153。

编码器152接收图像157的输入。编码器152是包含多个层的多层神经网络。编码器152的输出的维数比编码器152的输入的维数小。例如，编码器152的各层的维数从输入朝向输出逐级减少。解码器153输出图像158。图像158的高度以及宽度与图像157相同。图像158理想上与图像157相同。解码器153是包含多个层的多层神经网络。解码器153的输出的维数比解码器153的输入的维数大。例如，解码器153的各层的维数从输入朝向输出逐级增加。

这里，在编码器152与解码器153之间，计算向量155。向量155是以低维表现图像157的特征的向量。向量155的维数例如为48维。也存在将向量155称为潜在变量、特征量、特征向量等的情况。向量155映射于潜在空间154。潜在空间154是48维空间等向量空间。

若将同种的图像的集合(例如，面部照片的集合、手写文字的集合)输入至编码器152，与这些图像的集合对应的向量的集合在潜在空间154中具有正态分布等特定的概率分布。潜在空间154的概率分布例如是将向量155设为概率变量，由特定的平均向量以及方差协方差矩阵规定的多变量正态分布。但是，也可以假定正态分布以外的概率分布。向量的集合中的特定的向量的出现概率通过由概率密度函数计算的概率密度来近似。通常，越接***均向量的向量的概率密度越大，越远离平均向量的向量的概率密度越小。

由于向量155遵循特定的概率分布，因此编码器152对输入的图像157计算相当于平均向量(μ)的数值和相当于方差协方差矩阵(Σ)的数值。根据通过编码器152计算出的数值所表示的概率分布，进行提取向量155的取样。例如，根据平均向量为零向量(0)且方差协方差矩阵为单位矩阵I的标准正态分布N(0，I)，生成随机数156(随机数ε)。随机数156是根据标准正态分布所示的概率密度随机地提取出的随机数。将方差协方差矩阵Σ乘以随机数ε来求出偏差，通过将平均向量μ与偏差相加来计算向量155。

在基于机器学习的变分自编码器151的生成中，收集与用于分类模型141的机器学习的样本图像相同或者同种的图像。在能够得到训练数据本身的情况下，也可以使用训练数据中包含的样本图像。然而，在实际的模型逆向攻击中，由于攻击者不能够得到训练数据，因此从攻击耐性评价的观点来看优选使用与样本图像同种的图像。例如，在分类模型141进行面部认证的情况下，信息处理装置100收集在互联网上公开的面部照片。另外，例如，在分类模型141进行文字识别的情况下，信息处理装置100收集在互联网上公开的手写文字。

信息处理装置100通过将收集到的图像用作变分自编码器151的输入图像以及输出图像，从而决定变分自编码器151中包含的参数。由此，决定编码器152以及解码器153中包含的边缘的权重。边缘的权重例如通过上述的误差逆传播法更新。

若决定了参数，则信息处理装置100将用于变分自编码器151的生成的图像的集合再次输入编码器152，计算与该图像的集合对应的向量的集合。然后，信息处理装置100根据向量的集合计算平均向量和方差协方差矩阵。平均向量是对每个维将向量的要素平均化而成的向量。方差协方差矩阵是一边的长度为维数的正方矩阵。方差协方差矩阵的对角分量表示各维的要素的方差。方差协方差矩阵的非对角分量表示不同的两个维之间的要素的协方差。

信息处理装置100将绘制了与各种图像对应的向量的潜在空间154的整体视为遵循对应于该平均向量以及方差协方差矩阵的概率分布。假定的概率分布例如是多变量正态分布。这样，通过生成变分自编码器151，能够得到输入遵循特定的概率分布的解码器153。如以下说明的那样，信息处理装置100代替直接探索置信度较高的图像，而探索潜在空间154的向量。

接下来，对作为模型逆向攻击的训练数据推断方法进行说明。以下，作为训练数据推断方法举出四种例子。

图5是示出训练数据推断的第一例的图。

在第一训练数据推断方法中，信息处理装置100根据在变分自编码器151生成时计算出的概率分布，从潜在空间154提取向量集合161。信息处理装置100以概率密度越高的向量越容易提取而概率密度越低的向量越难提取的方式，随机地提取多个向量。向量集合161例如包含16个向量。

信息处理装置100将向量集合161中包含的向量分别输入至解码器153，生成与向量集合161对应的图像集合162。图像集合162例如包含16张图像。信息处理装置100将图像集合162中包含的图像分别输入至分类模型141，生成置信度数据163。置信度数据163对图像集合162中包含的图像分别包含置信度的列。置信度的列是与多个类别对应的多个置信度。

信息处理装置100关注于特定的一个类别，从置信度数据163提取关注的类别的置信度。关注的类别在模型逆向攻击的试行时预先决定一个。例如，由用户指定关注的类别。信息处理装置100对图像集合162中包含的每个图像计算以像素值为基准的置信度的梯度、即以像素值对置信度进行偏微分后的值。置信度的梯度示出使像素值少量变化时的置信度的变化量。信息处理装置100基于梯度以置信度变高的方式更新图像的像素值。例如，信息处理装置100将梯度乘以规定的学习率λ来计算更新量，使像素值变化更新量。

但是，人工地变更了像素值的图像有可能不是自然的图像。因此，信息处理装置100将变更了像素值的图像输入至噪声滤波器164，从图像除去噪声。噪声滤波器164例如是噪声除去自编码器(DAE：Denoising Auto Encoder)。噪声除去自编码器将附加了噪声的图像作为输入图像，将未附加噪声的原本的图像作为输出图像，通过机器学习生成的自编码器。进一步地，信息处理装置100将通过了噪声滤波器164的图像输入至锐化滤波器165。锐化滤波器165是拉普拉斯滤波器等强调边缘的图像滤波器。这是由于，通过了噪声滤波器164的图像容易成为模糊的图像。

利用通过了锐化滤波器165的图像，来更新图像集合162。信息处理装置100执行反复进行基于分类模型141的置信度数据163的生成、和图像集合162的更新的循环。信息处理装置100也可以在循环的迭代次数达到规定次数时停止循环。另外，信息处理装置100也可以在最大的置信度超过阈值时停止循环。另外，信息处理装置100也可以在置信度不再上升时停止循环。

信息处理装置100将与到目前为止计算出的置信度中的最大的置信度对应的图像作为与关注的类别对应的样本图像的推断结果输出。然而，信息处理装置100也可以从置信度较大的一方起输出多个图像，也可以输出置信度超过阈值的全部的图像。

在第一训练数据推断方法中，通过根据概率分布从潜在空间154提取向量集合161从而决定图像集合162的初始值。因此，抑制将明显与样本图像不类似的无关图像输入至分类模型141。因此，能够减少对分类模型141的访问次数而缩短探索时间，并且最终能够到达接近样本图像的图像的可能性变高。

图6是示出训练数据推断的第二例的图。

在第二训练数据推断方法中，信息处理装置100执行与第一训练数据推断方法相同的处理作为内侧循环。即，信息处理装置100生成向量集合161，使用解码器153将向量集合161转换为图像集合162，使用分类模型141根据图像集合162生成置信度数据163。然后，信息处理装置100以置信度变高的方式更新图像集合162。

这里，每当内侧循环的迭代次数达到规定次数，信息处理装置100就执行外侧循环。作为外侧循环，信息处理装置100将图像集合162中包含的最新的图像分别输入至编码器152，生成与图像集合162对应的向量集合166。由于图像集合162中包含的图像已更新，因此向量集合166与向量集合161不同。但是，向量集合166中包含的向量的个数与向量集合161相同，例如为16个。

信息处理装置100基于向量集合166和置信度数据163，生成评价值数据167。评价值数据167示出向量集合166中包含的向量各自的评价值。信息处理装置100也可以将关注的类别的置信度本身用作评价值。另外，信息处理装置100也可以将概率分布所示的向量的概率密度设为正则化项，将置信度与正则化项的积用作评价值。通过将概率密度设为正则化项，从而与出现概率较高的自然的图像对应的向量的评价容易变高，与出现概率较低的不自然的图像对应的向量的评价容易变低。另外，信息处理装置100也可以如后述那样，对正则化项设定上限值，将比上限值大的概率密度裁剪至上限值并用作正则化项。

信息处理装置100基于计算出的评价值更新向量集合161。例如，信息处理装置100将向量集合166中包含的向量按评价值的降序排序，从评价值较高的一方起选择规定个或者规定比例的向量，删除未选择的向量。或者，信息处理装置100从向量集合166随机地选择规定个或者规定比例的向量，使得各向量以评价值的比的概率被选择。这里选择出的向量的集合成为下一向量集合161。在该情况下，向量集合161中包含的向量的个数减少。在外侧循环的重复期间，也可以使向量的个数逐级地减少。

另外，信息处理装置100也可以代替删除的向量，而从潜在空间154提取新的向量并追加至向量集合161。在外侧循环的重复期间，也可以通过与删除的量对应地补充新的向量，从而将向量集合161中包含的向量的个数保持不变。信息处理装置100也可以从未删除而保留的向量的附近提取新的向量。例如，信息处理装置100定义以保留的向量为中心的标准偏差较小的概率分布，根据该概率分布随机地提取新的向量。也可以从向量集合166删除一半向量，从保留的向量的附近一个一个地提取新的向量。

若外侧循环的迭代次数达到阈值，则训练数据推断完成。信息处理装置100将与到目前为止计算出的置信度(或者，评价值)中的最大的置信度(或者，评价值)对应的图像作为样本图像的推断结果输出。然而，信息处理装置100也可以从置信度(或者，评价值)较大的一方起输出多个图像，也可以输出置信度(或者，评价值)超过阈值的全部的图像。

在第二训练数据推断方法中，在中途阶段，与评价值较小的向量对应的图像的更新被中止。因此，抑制能够到达样本图像的可能性较低的不必要的图像探索。另外，存在代替中止了图像的更新的向量，而追加评价值较高的向量的附近向量作为初始值的情况。因此，能够减少对分类模型141的访问次数而缩短探索时间，并且最终能够到达接近样本图像的图像的可能性变高。

图7是示出训练数据推断的第三例的图。

第三训练数据推断方法与第一训练数据推断方法相同地进行单循环的探索。然而，在探索中更新的探索对象代替图像集合162而成为向量集合161。在第三训练数据推断方法中，图像集合162是从解码器153传递至分类模型141的中间数据，没有除此以外的用途。因此，能够将在分类模型141的前级结合解码器153而成的模型虚拟地视为一个模型。该虚拟的模型接收潜在空间154的向量作为输入，输出与输入的向量对应的置信度。

信息处理装置100生成向量集合161，使用解码器153将向量集合161转换为图像集合162，使用分类模型141根据图像集合162生成置信度数据163。将解码器153与分类模型141结合而成的模型也可以说根据向量集合161生成置信度数据163。

信息处理装置100对向量集合161中包含的每个向量，计算以向量的要素为基准的置信度的梯度、即以向量的要素对置信度进行偏微分后的值。置信度的梯度示出使向量的要素少量变化时的置信度的变化量。然而，信息处理装置100也可以将概率分布所示的向量的概率密度设为正则化项，计算置信度与正则化项的积的梯度。另外，信息处理装置100也可以如后述那样，对正则化项设定上限值，将比上限值大的概率密度裁剪至上限值并用作正则化项。信息处理装置100基于梯度更新向量，使得置信度变高。例如，信息处理装置100将梯度乘以规定的学习率λ来计算更新量，使向量的要素变化更新量。

信息处理装置100也可以在循环的迭代次数达到规定次数时停止循环。另外，信息处理装置100也可以在最大的置信度(或者，置信度与正则化项的积)超过阈值时停止循环。另外，信息处理装置100也可以在置信度(或者，置信度与正则化项的积)不再上升时停止循环。信息处理装置100将与具有到目前为止计算出的置信度(或者，置信度与正则化项的积)中的最大的置信度(或者，置信度与正则化项的积)的向量对应的图像作为样本图像的推断结果输出。但是，信息处理装置100也可以输出与从置信度(或者，置信度与正则化项的积)较大的一方起的多个向量对应的图像，也可以输出与置信度(或者，置信度与正则化项的积)超过阈值的全部的向量对应的图像。

在第三训练数据推断方法中，探索空间代替作为像素值的集合的图像空间，而成为与图像空间相比维数较小的潜在空间154。因此，能够减少对分类模型141的访问次数而缩短探索时间。另外，通过利用具有特定的概率分布的潜在空间154，从而抑制将不相关的图像输入至分类模型141，最终能够到达接近样本图像的图像的可能性变高。

图8是示出训练数据推断的第四例的图。

在第四训练数据推断方法中，信息处理装置100执行与第三训练数据推断方法相同的处理作为内侧循环。即，信息处理装置100生成向量集合161，使用解码器153将向量集合161转换为图像集合162，使用分类模型141根据图像集合162生成置信度数据163。然后，信息处理装置100以置信度(或者，置信度与正则化项的积)变高的方式更新向量集合161。

这里，每当内侧循环的迭代次数达到规定次数，信息处理装置100就与第三训练数据推断方法相同地执行外侧循环。但是，由于探索对象不是图像集合162而是向量集合161，因此可以不使用编码器152。即，信息处理装置100基于向量集合161和置信度数据163，生成评价值数据167。评价值数据167示出向量集合161中包含的向量各自的评价值。评价值也可以是置信度本身，也可以是置信度与正则化项的积。正则化项也可以是向量的概率密度，也可以是将概率密度以规定的上限值裁剪而成的。

信息处理装置100基于计算出的评价值更新向量集合161。例如，信息处理装置100从评价值较高的一方起选择规定个或者规定比例的向量，并删除未选择的向量。或者，信息处理装置100从向量集合161中随机地选择规定个或者规定比例的向量，使得各向量以评价值的比的概率被选择，并删除未选择的向量。信息处理装置100也可以代替删除的向量，而从潜在空间154提取新的向量并追加至向量集合161。例如，信息处理装置100从未删除而保留的向量的附近提取新的向量。也可以从向量集合161删除一半的向量，从保留的向量的附近一个一个地提取新的向量。

内侧循环的迭代次数例如为4次。外侧循环的迭代次数例如为3次～6次。若外侧循环的迭代次数达到阈值，则训练数据推断完成。信息处理装置100将与到目前为止计算出的置信度(或者，评价值)中的最大的置信度(或者，评价值)对应的图像作为样本图像的推断结果输出。但是，信息处理装置100也可以从置信度(或者，评价值)较大的一方起输出多个图像，也可以输出置信度(或者，评价值)超过阈值的全部的图像。

接下来，对与置信度相乘的正则化项补充说明。

图9是示出概率分布的裁剪例的图。

由将向量作为概率变量的概率分布171规定向量的概率密度。一般而言，越接***均的向量的概率密度越大，越远离平均的向量的概率密度越小。与离平均非常远的向量对应的图像是与分类模型141所假定的输入远远不同的图像的情况较多。例如，在分类模型141进行面部识别的情况下，与离平均非常远的向量对应的图像不表示人物的面部的情况较多。另外，在分类模型141进行文字识别的情况下，与离平均非常远的向量对应的图像不表示手写文字的情况较多。

因此，通过将概率密度用作正则化项，并将置信度乘以正则化项，从而优先沿接近概率分布171的平均的方向进行探索。由此，能够抑制探索与分类模型141所假定的输入远远不同的图像。

但是，与过于接***均的向量对应的图像成为将各种类别的特征平均化后的“平均图像”。平均图像与对应于特定的类别的样本图像不同，并不符合模型逆向攻击的目的。与此相对，若将概率密度本身用作正则化项，则即使向量在一定程度上接***均后，也优先沿进一步接***均的方向进行探索，而存在过于接***均的情况。

因此，考虑对概率分布171设定上限值172，使用上限值172来裁剪正则化项。在概率密度为上限值172以下的情况下，将原本的概率密度用作正则化项，在概率密度超过上限值172的情况下，将上限值172用作正则化项。即，将正则化项限制为上限值172以下。由此，能够抑制向量过于接近概率分布171的平均。上限值172也可以由用户指定，也可以信息处理装置100根据概率分布171自动地决定，如将3Σ(标准偏差Σ的3倍)下的概率密度设为上限值172等。

接下来，对信息处理装置100的功能进行说明。

图10是示出信息处理装置的功能例的框图。

信息处理装置100具有分类模型存储部121、图像存储部122、VAE存储部123以及分析结果存储部124。例如使用RAM102或者HDD103的存储区域来实现这些存储部。另外，信息处理装置100具有VAE生成部131、训练数据推断部132以及分析结果显示部138。例如使用CPU101所执行的程序来实现这些处理部。

分类模型存储部121存储学习完毕的分类模型141。可以由信息处理装置100生成分类模型141，也可以由其它的信息处理装置生成分类模型141。但是，在模型逆向攻击的试行时，能够访问分类模型141即可，也可以信息处理装置100不保持分类模型141本身。例如，信息处理装置100也可以将图片发送至公开了分类模型141的功能的其它的信息处理装置，并从其它的信息处理装置接收置信度。

图像存储部122存储与分类模型141的输入同种的图像的集合。存储于图像存储部122的图像例如从互联网收集。例如，在分类模型141是面部识别模型的情况下，收集面部照片。在分类模型141是文字识别模型的情况下，收集手写文字。

VAE存储部123存储学习完毕的变分自编码器151。变分自编码器151包含学习完毕的编码器152以及解码器153。变分自编码器151在信息处理装置100中生成。但是，在对应于分类模型141的输入的种类的变分自编码器151已经存在的情况下，也可以信息处理装置100获得学习完毕的变分自编码器151。另外，VAE存储部123存储示出在编码器152与解码器153之间计算的向量的概率分布的信息。另外，VAE存储部123存储示出对向量的概率分布设定的概率密度的上限值的信息。

分析结果存储部124存储示出分类模型141的模型逆向攻击耐性的分析结果。在分析结果中，包含作为对分类模型141的机器学习中使用的样本图像推断出的结果的一张以上的推断图像。

VAE生成部131将存储于图像存储部122的图像用作变分自编码器151的输入以及输出，通过机器学***均向量和方差协方差矩阵确定概率分布。

训练数据推断部132对存储于分类模型存储部121的分类模型141试行模型逆向攻击。训练数据推断部132通过模型逆向攻击来推断分类模型141的机器学习中使用的样本图像，并将包含推断图像的分析结果储存于分析结果存储部124。此时，训练数据推断部132执行上述的四种训练数据推断方法的任意一种。训练数据推断部132具有编码部133、解码部134、置信度计算部135、向量选择部136以及图像更新部137。

编码部133将图像输入至存储于VAE存储部123的编码器152，计算与输入的图像对应的向量。在第二训练数据推断方法中使用编码部133。解码部134将向量输入至存储于VAE存储部123的解码器153，生成与输入的向量对应的图像。置信度计算部135将图像输入至分类模型141，计算与输入的图像对应的置信度。从分类模型141输出与多个类别对应的多个置信度。但是，在模型逆向攻击中，使用与关注的一个类别对应的一个置信度。关注的类别由用户指定。

向量选择部136设定概率分布的上限值，将示出上限值的信息储存于VAE存储部123。另外，向量选择部136基于存储于VAE存储部123的概率分布的信息，从潜在空间154提取向量的初始值。在第三训练数据推断方法以及第四训练数据推断方法中，向量选择部136使用置信度计算部135所计算的置信度来计算梯度，基于梯度更新向量。在第二训练数据推断方法以及第四训练数据推断方法中，向量选择部136计算向量的评价值，基于评价值进行向量的删除、追加。

图像更新部137使用置信度计算部135所计算的置信度来计算梯度，基于梯度更新图像。在图像的更新中，使用预先准备的噪声滤波器164以及锐化滤波器165。在第一训练数据推断方法以及第二训练数据推断方法中使用图像更新部137。

分析结果显示部138使存储于分析结果存储部124的分析结果显示于显示装置111。例如，分析结果显示部138使推断图像显示于显示装置111。此外，信息处理装置100也可以将分析结果输出至其它的输出设备，也可以将分析结果发送至其它的信息处理装置。

图11是示出概率分布的信息的例子的图。

VAE存储部123存储平均向量125、方差协方差矩阵126以及概率密度上限127作为关于潜在空间154的概率分布的信息。

平均向量125表示多变量正态分布的平均。平均向量125是将各种图像输入至编码器152并计算出的各种向量的平均。方差协方差矩阵126是示出多变量正态分布的方差的矩阵。方差协方差矩阵126是一边的长度等于向量的维数的正方矩阵。方差协方差矩阵126的对角分量示出根据上述的各种向量计算的各维的方差。方差协方差矩阵126的非对角分量示出根据上述的各种向量计算的不同的两个维的协方差。此外，通过将用于变分自编码器151的生成的图像输入至编码器152从而计算的向量被假定为遵循多变量正态分布。

概率密度上限127是与通过平均向量125以及方差协方差矩阵126确定的多变量正态分布的概率密度的最大值相比较小的上限值。概率密度上限127也可以由用户指定，也可以根据已确定的多变量正态分布自动地决定。例如，采用与位于离平均3Σ(标准偏差的3倍)的位置的向量对应的概率密度作为概率密度上限127。

图12是示出向量表的例子的图。

向量表128由向量选择部136保持。向量表128将向量、置信度、概率密度、以及评价值建立对应。登记至向量表128的向量是最新的向量集合161或者向量集合166中包含的向量。置信度是通过分类模型141计算的特定的类别的置信度。概率密度是通过平均向量125以及方差协方差矩阵126确定的潜在空间154的概率分布中的概率密度。评价值是置信度与正则化项的积。正则化项例如是将概率密度以概率密度上限127裁剪而成的。在概率密度为概率密度上限127以下的情况下，概率密度成为正则化项。在概率密度超过概率密度上限127的情况下，概率密度上限127成为正则化项。

接下来，对训练数据推断的过程进行说明。首先，对上述的第四训练数据推断方法的过程进行说明。第三训练数据推断方法由于是省略了第四训练数据推断方法的外侧循环的方法，因此省略说明。之后，对上述的第二训练数据推断方法的过程进行说明。第一训练数据推断方法由于是省略了第二训练数据推断方法的外侧循环的方法，因此省略说明。

图13是示出训练数据推断的第一过程例的流程图。

(S10)VAE生成部131收集与分类模型141的输入同种的图像。作为图像的种类，可举出面部照片、手写文字等。VAE生成部131例如使用从互联网搜索并收集图像的爬虫程序。

(S11)VAE生成部131使用在步骤S10中收集到的图像，通过机器学习生成变分自编码器151。机器学习是将收集到的图像分配为变分自编码器151的输入以及输出的无监督学习。变分自编码器151包含编码器152以及解码器153。

(S12)VAE生成部131通过将在步骤S10中收集到的图像输入至在步骤S11中生成的编码器152，来计算向量的集合。向量的维数例如为48维。VAE生成部131对向量的集合进行统计处理，计算示出潜在空间154的概率分布的平均向量125以及方差协方差矩阵126。作为向量的概率分布，例如假定多变量正态分布。

(S13)向量选择部136决定概率密度上限127。概率密度上限127是与在步骤S12中确定的概率分布的概率密度的最大值相比较小的值。例如，向量选择部136计算离平均向量125标准偏差的规定倍的位置上的概率密度，采用该概率密度作为概率密度上限127。

(S14)向量选择部136选择分类模型141输出置信度的多个类别中的作为模型逆向攻击的对象的对象类别。对象类别例如由信息处理装置100的用户指定。

(S15)向量选择部136根据在步骤S12中计算出的平均向量125以及方差协方差矩阵126所示的概率分布，从潜在空间154随机地提取n个向量。例如设为n＝16。

(S16)解码部134从n个向量中选择一个向量。

(S17)解码部134将在步骤S16中选择的向量输入至在步骤S11中生成的解码器153来转换为图像。置信度计算部135将转换的图像输入至分类模型141，计算多个类别的置信度。

(S18)向量选择部136基于步骤S12的概率分布，计算在步骤S16中选择的向量的概率密度。向量选择部136将计算出的概率密度与在步骤S13中决定的概率密度上限127比较，决定与向量对应的正则化项。在概率密度为概率密度上限127以下的情况下正则化项是概率密度，在概率密度超过概率密度上限127的情况下正则化项是概率密度上限127。

(S19)向量选择部136提取在步骤S17中计算出的多个类别的置信度中的在步骤S14中选择的对象类别的置信度。向量选择部136计算提取出的置信度与在步骤S18中决定的正则化项的积，并以向量作为基准来计算置信度与正则化项的积的梯度。例如通过使向量的各维的要素少量变化来计算梯度。

(S20)向量选择部136使用在步骤S19中计算出的梯度来更新在步骤S16中选择的向量。例如，向量选择部136使向量变化梯度乘以规定的学习率而得的量。

(S21)解码部134判断是否在步骤S16中选择了全部n个向量。在选择了全部的向量的情况下进入步骤S22，在存在未选择的向量的情况下返回步骤S16。

图14是示出训练数据推断的第一过程例的流程图(后半部分)。

(S22)向量选择部136判断是否已重复L次步骤S16～S21的向量更新、即内侧循环。例如，L＝4。在向量更新的连续迭代次数达到L次的情况下进入步骤S23，在连续迭代次数不足L次的情况下返回步骤S16。在步骤S16中，再次执行一个一个地选择n个向量。

(S23)向量选择部136判断是否已重复K次以下的步骤S24～S27的向量替换、即外侧循环。例如，K＝3～6。在向量替换的迭代次数达到K次的情况下进入步骤S28，在迭代次数不足K次的情况下进入步骤S24。

(S24)向量选择部136对最新的n个向量分别计算评价值。评价值是置信度与正则化项的积。以与上述的步骤S17～S19相同的方法计算置信度与正则化项的积。

(S25)向量选择部136基于在步骤S24中计算出的评价值，将最新的n个向量按评价值的降序排序。

(S26)向量选择部136删除最新的n个向量中的评价值较低的一半的向量(后n/2个向量)。

(S27)向量选择部136从潜在空间154提取评价值较高的一半的向量(前n/2个向量)的附近的n/2个新的向量。例如，向量选择部136以前n/2个向量各自为中心定义范围较小的(标准偏差较小的)概率分布。向量选择部136根据该概率分布随机提取新的向量。将前n/2个向量与追加的n/2个向量合并，准备n个向量。然后，进入步骤S16。

(S28)向量选择部136选择置信度或者评价值较高的向量。预先设定使用置信度作为基准值还是使用评价值作为基准值。例如，向量选择部136选择置信度或者评价值最大的向量。

(S29)解码部134将在步骤S28中选择的向量输入至解码器153，生成根据选择的向量转换出的图像作为推断图像。推断图像是推断为与指定的类别对应的样本图像的图像。

(S30)分析结果显示部138将推断图像显示于显示装置111。

此外，在第三训练数据推断方法的情况下，省略步骤S23～S27。在步骤S22为“是”时，进入步骤S28。

图15是示出训练数据推断的第二过程例的流程图。

(S40)VAE生成部131收集与分类模型141的输入同种的图像。

(S41)VAE生成部131使用在步骤S10中收集到的图像，通过机器学习生成变分自编码器151。变分自编码器151包含编码器152以及解码器153。

(S42)VAE生成部131通过将在步骤S40中收集到的图像输入至在步骤S41中生成的编码器152，来计算向量的集合。VAE生成部131对向量的集合进行统计处理，计算示出潜在空间154的概率分布的平均向量125以及方差协方差矩阵126。

(S43)向量选择部136决定概率密度上限127。

(S44)向量选择部136选择分类模型141输出置信度的多个类别中的作为模型逆向攻击的对象的对象类别。

(S45)向量选择部136根据在步骤S42中计算出的平均向量125以及方差协方差矩阵126所示的概率分布，从潜在空间154随机地提取n个向量。例如，设为n＝16。

(S46)解码部134将在步骤S45中提取出的n个向量分别输入至在步骤S41中生成的解码器153，转换为n个图像。

(S47)置信度计算部135从n个图像中选择一个图像。

(S48)置信度计算部135将在步骤S47中选择的图像输入至分类模型141，计算多个类别的置信度。

(S49)图像更新部137提取在步骤S48中计算出的多个类别的置信度中的在步骤S44中选择的对象类别的置信度。图像更新部137以图像为基准计算置信度的梯度。例如通过使在步骤S47中选择的图像的各像素值少量变化来计算梯度。

(S50)图像更新部137使用在步骤S49中计算出的梯度更新在步骤S47中选择的图像。例如，图像更新部137使像素值变化梯度乘以规定的学习率而得的量。将更新后的图像输入至噪声滤波器164除去噪声，并进一步输入至锐化滤波器165锐化。

(S51)置信度计算部135判断是否在步骤S47中选择了全部n个图像。在选择了全部的图像的情况下进入步骤S52，在存在未选择的图像的情况下返回步骤S47。

图16是示出训练数据推断的第二过程例的流程图(后半部分)。

(S52)向量选择部136判断是否已重复L次步骤S47～S51的图像更新、即，内侧循环。在图像更新的连续迭代次数达到L次的情况下进入步骤S53，在连续迭代次数不足L次的情况下返回步骤S47。在步骤S47中，再次一个一个地选择n个图像。

(S53)向量选择部136判断是否已重复K次如下的步骤S54～S60的向量替换、即外侧循环。在向量替换的迭代次数达到K次的情况下进入步骤S61，在迭代次数不足K次的情况下进入步骤S54。

(S54)编码部133将最新的n个图像分别输入至在步骤S41中生成的编码器152，转换为n个向量。

(S55)向量选择部136基于步骤S42的概率分布，计算在步骤S54中转换出的n个向量各自的概率密度。向量选择部136将计算出的概率密度与在步骤S43中决定的概率密度上限127比较，决定与n个向量分别对应的正则化项。在概率密度为概率密度上限127以下的情况下正则化项是概率密度，在概率密度超过概率密度上限127的情况下正则化项是概率密度上限127。

(S56)向量选择部136对n个向量分别计算评价值。评价值是置信度与在步骤S55中计算出的正则化项的积。

(S57)向量选择部136基于在步骤S56中计算出的评价值，将n个向量按评价值的降序排序。

(S58)向量选择部136删除n个向量中的评价值较低的一半的向量(后n/2个向量)。

(S59)向量选择部136从潜在空间154提取评价值较高的一半的向量(前n/2个向量)的附近的n/2个新的向量。将前n/2个向量与追加的n/2个向量合并，成为n个向量。

(S60)解码部134将步骤S59的n个向量分别输入至解码器153，转换为n个图像。然后，进入步骤S47。

(S61)图像更新部137选择置信度或者评价值较高的图像作为推断图像。预先设定使用置信度作为基准值还是使用评价值作为基准值。例如，图像更新部137选择置信度或者评价值最大的图像。

(S62)分析结果显示部138将推断图像显示于显示装置111。

此外，在第一训练数据推断方法的情况下，省略步骤S53～S60。在步骤S52为“是”时，进入步骤S61。

根据第二实施方式的信息处理装置100，对学习完毕的分类模型141试行模型逆向攻击，确认以什么程度的重现度推断分类模型141的机器学习中使用的样本图像。因此，在训练数据中包含有个人信息等秘密信息的情况下，能够在分类模型141公开前评价其攻击耐性。因此，能够抑制不希望信息泄漏，能够使关于分类模型141的安全提高。

另外，根据与分类模型141的输入同种的图像生成变分自编码器151，使用变分自编码器151中包含的解码器153来生成输入至分类模型141的初始图像。解码器153的输入的向量具有正态分布等特定的概率分布。因此，通过根据概率分布选择向量，能够生成自然的初始图像作为分类模型141的输入。因此，能够减少探索收敛所需要的分类模型141的访问次数，并且最终能够到达接近样本图像的图像的可能性变高。

另外，在一个方式中，探索空间被从图像空间变更为向量空间，代替计算置信度相对于图像的梯度并直接更新图像，而计算置信度相对于向量的梯度并更新向量。向量空间与图像空间相比维数较小。因此，能够减少分类模型141的访问次数。另外，在一个方式中，将评价值较低的向量在中途从候补除去，代替其而向候补追加评价值较高的向量的附近向量。因此，能够抑制能够到达样本图像的可能性较低的不必要的探索，而减少分类模型141的访问次数。

另外，在一个方式中，代替置信度本身而使用将置信度乘以向量的概率密度而得的指标值。因此，能够抑制提高置信度的探索陷入局部解，而作为分类模型141的输入探索不自然的图像的情况。另外，在一个方式中，设定概率密度的上限值，将以上限值裁剪概率密度后的概率密度乘以置信度。因此，能够抑制探索过度地接***均的图像，而能够到达接近与特定的类别对应的样本图像的图像的可能性变高。其结果是，能够在现实的时间内对分类模型141高效地试行模型逆向攻击，能够使分类模型141的攻击耐性的评价精度提高。

对于上述内容，仅表示本发明的原理。进一步地，对本领域技术人员来说能够进行多种变形、变更，本发明并不限于在上述内容中示出、说明的正确的结构以及应用例，对应的全部的变形例以及等同物可视为基于附加的权利要求及其等同物的本发明的范围。

附图标记的说明

10 信息处理装置

11 存储部

12 处理部

13 分类模型

14 转换模型

15 概率分布

16、19 特征值

17 图像数据

18 置信度

Claims

1.一种控制方法，由计算机进行：

获取分类模型和转换模型，上述分类模型根据输入的图像数据计算表示上述输入的图像数据属于特定的类别的可能性的置信度，上述转换模型是将与上述输入的图像数据相比维数较小的输入的特征值转换为上述输入的图像数据的模型，且被生成为使得与图像数据的集合对应的特征值的集合遵循特定的概率分布，

基于上述特定的概率分布提取第一特征值，

使用上述转换模型将上述第一特征值转换为第一图像数据，使用上述分类模型计算出与上述第一图像数据对应的第一置信度，

基于上述特定的概率分布以及上述第一特征值，将输入至上述转换模型的特征值从上述第一特征值更新为第二特征值，使得通过上述分类模型计算出的置信度比上述第一置信度高。

2.根据权利要求1所述的控制方法，其中，

上述计算机还生成包含将上述输入的图像数据转换为上述输入的特征值的编码器、和将上述输入的特征值转换为上述输入的图像数据的解码器的变分自编码器，将上述解码器用作上述转换模型。

3.根据权利要求1所述的控制方法，其中，

在向上述第二特征值的更新中，使用上述特定的概率分布所示的与上述第一特征值对应的第一概率密度来计算权重系数，基于上述第一置信度与上述权重系数的积来决定上述第二特征值。

4.根据权利要求3所述的控制方法，其中，

上述计算机还设定与上述特定的概率分布所示的概率密度的最大值相比较小的上限值，

在向上述第二特征值的更新中，在上述第一概率密度为上述上限值以下的情况下，将上述第一概率密度用作上述权重系数，在上述第一概率密度超过上述上限值的情况下，将上述上限值用作上述权重系数。

5.根据权利要求1所述的控制方法，其中，

提取包含上述第一特征值的多个第一特征值，上述多个第一特征值被更新为包含上述第二特征值的多个第二特征值，

上述计算机还基于从上述多个第二特征值分别计算出的第二置信度，计算上述多个第二特征值各自的评价值，基于上述评价值，选择上述多个第二特征值中的至少一个第二特征值，提取位于从上述至少一个第二特征值起规定范围内的其它的第二特征值，并作为输入至上述转换模型的特征值追加。

6.一种信息处理装置，其中，具有：

存储部，存储分类模型和转换模型，上述分类模型根据输入的图像数据计算表示上述输入的图像数据属于特定的类别的可能性的置信度，上述转换模型是将与上述输入的图像数据相比维数较小的输入的特征值转换为上述输入的图像数据的模型，且被生成为使得与图像数据的集合对应的特征值的集合遵循特定的概率分布；以及

处理部，基于上述特定的概率分布提取第一特征值，使用上述转换模型将上述第一特征值转换为第一图像数据，使用上述分类模型计算出与上述第一图像数据对应的第一置信度，基于上述特定的概率分布以及上述第一特征值，将输入至上述转换模型的特征值从上述第一特征值更新为第二特征值，使得通过上述分类模型计算的置信度比上述第一置信度高。

7.一种控制程序，使计算机执行：

基于上述特定的概率分布提取第一特征值，

基于上述特定的概率分布以及上述第一特征值，将输入至上述转换模型的特征值从上述第一特征值更新为第二特征值，使得通过上述分类模型计算的置信度比上述第一置信度高。

8.一种控制方法，由计算机进行：

从以特定的分布包含对应于多个图像数据的特征的多个值且上述多个值的每一个中包含的变量与上述多个图像数据的每一个中包含的变量相比较少的值集合，根据上述分布来提取某个值，

获取将提取出的上述某个值作为向分类推断模型的输入值的情况的上述分类推断模型的分类推断结果中包含的分类的置信度中的特定的分类的置信度，

基于上述分布和上述某个值，生成在作为向上述分类推断模型的输入值的情况下上述分类推断模型的分类推断结果中包含的上述特定的分类的置信度比获取的上述置信度高的值。