发明内容
本发明的目的在于提供一种基于人工智能的数据安全防护方法及***,以改善上述的问题。
本申请实施例是这样实现的:
第一方面,本申请实施例提供了一种基于人工智能的数据安全防护方法,应用于数据安全防护服务器,所述方法包括:
获取待处理业务交互数据集;
将所述待处理业务交互数据集加载至预设的数据安全防护网络,并通过所述数据安全防护网络对所述待处理业务交互数据集进行数据隐私描述数组提取,得到所述待处理业务交互数据集的数据隐私描述数组,依据所述数据隐私描述数组进行隐私内容种类推理,得到所述待处理业务交互数据集的隐私内容种类识别结果;
基于所述待处理业务交互数据集的隐私内容种类识别结果,通过预设的数据防护映射关系,调取与所述隐私内容种类识别结果对应的防护策略;
基于所述防护策略对所述待处理业务交互数据集进行安全防护;
其中,所述数据安全防护网络是通过实际模板和模拟模板协同调试得到的,所述数据安全防护网络被配置为对模拟隐私内容种类和实际隐私内容种类进行识别;当对包含新的隐私内容种类的业务交互数据集进行识别前,所述方法包括对数据安全防护网络进行优化的步骤,包括:
获取新调试模板,所述新调试模板对应的新隐私内容种类未包含于全部所述实际隐私内容种类;
将所述新调试模板加载到所述数据安全防护网络,依据所述数据安全防护网络提取所述新调试模板的数据隐私描述数组;
确定描述数组值域中和各个模拟隐私内容种类各自对应的目标参考描述数组,并通过所述数据隐私描述数组和每一目标参考描述数组之间的预设计算结果,确定与所述新调试模板对应的目标模拟隐私内容种类;
将所述目标模拟隐私内容种类替换为所述新隐私内容种类。
可选地,所述方法还包括所述数据安全防护网络的调试过程,包括:
获取实际模板和模拟模板,所述模拟模板为通过所述实际模板生成获得;
采取拟调试的数据安全防护网络对所述实际模板进行推理,通过推理获得的第一推理结果确定所述实际模板对应于第一目标隐私内容种类的第一误差值,所述第一目标隐私内容种类包括所述实际模板对应的目标实际隐私内容种类以及与所述实际模板对应的目标模拟隐私内容种类;
通过所述拟调试的数据安全防护网络对所述模拟模板进行推理,通过推理获得的第二推理结果确定所述模拟模板对应于第二目标隐私内容种类的第二误差值,所述第二目标隐私内容种类包括分别与所述模拟模板对应的目标实际隐私内容种类和目标模拟隐私内容种类;
通过所述第一误差值和第二误差值生成目标误差算法,采用所述目标误差算法对所述拟调试的数据安全防护网络进行优化调试直到符合预设的调试截止要求,得到调试好的数据安全防护网络。
可选地,所述采用所述目标误差算法对所述拟调试的数据安全防护网络进行优化调试,包括:
采用所述目标误差算法对所述拟调试的数据安全防护网络进行多次优化调试,在每次优化调试后,获取当前优化调试对应的偏导向量,通过所述偏导向量的逆向传递对描述数组值域中各个隐私内容种类对应的参考描述数组进行优化;其中,末次优化调试结束时获得的各个隐私内容种类对应的参考描述数组为各个隐私内容种类的目标参考描述数组;
所述采取拟调试的数据安全防护网络对所述实际模板进行推理,通过推理获得的第一推理结果确定所述实际模板对应于第一目标隐私内容种类的第一误差值,包括:
采取拟调试的数据安全防护网络提取所述实际模板的数据隐私描述数组,并通过所述实际模板的数据隐私描述数组进行推理,得到所述实际模板对应于全部隐私内容种类的第一置信度;
通过所述第一置信度和所述实际模板对应的目标实际隐私内容种类,确定所述实际模板对应于所述目标实际隐私内容种类的第一基础误差值;
通过所述第一置信度获取所述实际模板对应的除开所述目标实际隐私内容种类之外的其余隐私内容种类的第一虚设置信度;
通过所述第一虚设置信度获取所述实际模板对应于所对应的目标模拟隐私内容种类的第一模拟误差值;
通过所述第一基础误差值和所述第一模拟误差值获取所述实际模板对应于第一目标隐私内容种类的第一误差值。
可选地,所述通过所述第一置信度获取所述实际模板对应的除开所述目标实际隐私内容种类之外的其余隐私内容种类的第一虚设置信度,包括:
通过所述实际模板对应的目标实际隐私内容种类,确定与所述实际模板对应的归一数组,所述归一数组的维数和预设隐私内容种类的数目一致;
对与所述实际模板对应的归一数组进行取反操作,得到与所述实际模板对应的归一反数组;
通过所述第一置信度和与所述实际模板对应的所述归一反数组,确定所述实际模板对应的除开所述目标实际隐私内容种类之外的其余隐私内容种类的第一虚设置信度;
所述通过所述第一虚设置信度获取所述实际模板对应于所对应的目标模拟隐私内容种类的第一模拟误差值,包括:
确定与所述实际模板对应的目标模拟隐私内容种类;
通过所述第一虚设置信度和所述目标模拟隐私内容种类对应的模拟隐私内容种类注释信息,确定所述实际模板对应于所述目标模拟隐私内容种类的第一模拟误差值。
可选地,所述确定与所述实际模板对应的目标模拟隐私内容种类,包括:
确定描述数组值域中和各模拟隐私内容种类各自对应的第一参考描述数组,所述第一参考描述数组为当前调试中和每一模拟隐私内容种类对应的参考描述数组;
分别获取所述实际模板的数据隐私描述数组和每一第一参考描述数组的矢量间距;
将最小矢量间距对应的第一参考描述数组指示的模拟隐私内容种类确定为和所述实际模板对应的目标模拟隐私内容种类。
可选地,所述通过所述拟调试的数据安全防护网络对所述模拟模板进行推理,通过推理获得的第二推理结果确定所述模拟模板对应于第二目标隐私内容种类的第二误差值,包括:
通过所述拟调试的数据安全防护网络提取所述模拟模板的数据隐私描述数组,并通过所述模拟模板的数据隐私描述数组进行推理,得到所述模拟模板对应于全部隐私内容种类的第二置信度;
确定用于生成所述模拟模板的一个或多个实际模板,并通过与所述一个或多个实际模板对应的目标模拟隐私内容种类,确定所述模拟模板对应的目标模拟隐私内容种类;
通过所述第二置信度和所述模拟模板对应的目标模拟隐私内容种类,确定所述模拟模板对应于所述目标模拟隐私内容种类的第二基础误差值;
通过所述第二置信度获取所述模拟模板对应的除开所述目标模拟隐私内容种类之外的其余隐私内容种类的第二虚设置信度;
通过所述第二虚设置信度获取所述模拟模板对应于所对应的目标实际隐私内容种类的第二模拟误差值;
通过所述第二基础误差值和所述第二模拟误差值获取所述模拟模板对应于第二目标隐私内容种类的第二误差值。
可选地,所述通过所述第二置信度获取所述模拟模板对应的除开所述目标模拟隐私内容种类之外的其余隐私内容种类的第二虚设置信度,包括:
通过与所述模拟模板对应的目标实际隐私内容种类,确定与所述模拟模板对应的归一数组;
对与所述模拟模板对应的归一数组进行取反操作,得到与所述模拟模板对应的归一反数组;
通过所述第二置信度和与所述模拟模板对应的所述归一反数组,确定所述实际模板对应的除开所述目标实际隐私内容种类之外的其余隐私内容种类的第一虚设置信度;
所述通过所述第二虚设置信度获取所述模拟模板对应于所对应的目标实际隐私内容种类的第二模拟误差值,包括:
确定与所述模拟模板对应的目标实际隐私内容种类;
通过所述第二虚设置信度和与所述目标实际隐私内容种类对应的实际隐私内容种类注释信息,确定所述模拟模板对应于所述目标实际隐私内容种类的第二模拟误差值。
可选地,所述确定与所述模拟模板对应的目标实际隐私内容种类,包括:
确定描述数组值域中和各实际隐私内容种类各自对应的第二参考描述数组,所述第二参考描述数组为当前调试中与实际隐私内容种类对应的参考描述数组;
分别获取所述模拟模板的数据隐私描述数组和每一第二参考描述数组的矢量间距;
将最小矢量间距对应的第二参考描述数组指示的实际隐私内容种类确定为和所述模拟模板对应的目标实际隐私内容种类。
可选地,所述通过所述数据隐私描述数组和每一目标参考描述数组之间的预设计算结果,确定与所述新调试模板对应的目标模拟隐私内容种类,包括:
确定所述数据隐私描述数组和每一目标参考描述数组间的矢量间距;
将最小矢量间距对应的目标参考描述数组指示的模拟隐私内容种类确定为和所述新调试模板对应的目标模拟隐私内容种类。
另一方面,本申请实施例提供一种数据安全防护***,包括互相通信的数据安全防护服务器和客户端,所述数据安全防护服务器包括处理器和存储器,所述存储器存储有计算机程序,当所述处理器执行所述计算机程序时,实现以上所述的方法。
本申请实施例提供的基于人工智能的数据安全防护方法及***,采用数据安全防护网络获取待处理业务交互数据集的数据隐私描述数组,推理得到隐私内容种类识别结果,并基于待处理业务交互数据集的隐私内容种类识别结果,通过预设的数据防护映射关系,调取与隐私内容种类识别结果对应的防护策略进行防护,识别准确高效,提高了数据安全防护的效率。此外,通过实际模板和模拟模板协同调试得到数据安全防护网络,同时,在获取新调试模板,新隐私内容种类不对应现有实际隐私内容种类时,通过调试完成的数据安全防护网络提取数据隐私描述数组,将该数据隐私描述数组与通过调试得到的各个模拟隐私内容种类的目标参考描述数组进行预设计算,以通过计算结果确定新调试模板对应的目标模拟隐私内容种类,将目标模拟隐私内容种类替换为新隐私内容种类,以此完成对该新隐私内容种类的数据识别能力。基于此,当获取到新的隐私内容种类时,不对已有数据安全防护网络反复进行冗余地调试,取而代之,仅将事先留存的一模拟隐私内容种类更换成新种类,如此以加速数据安全防护网络的更新。另外,引入新隐私内容种类,仅更新对应的模拟隐私内容种类,对已有隐私内容种类不构成影响,数据安全防护网络仍保留已有数据的识别性能。
在后面的描述中,将部分地陈述其他的特征。在检查后面内容和附图时,本领域的技术人员将部分地发现这些特征,或者可以通过生产或运用了解到这些特征。通过实践或使用后面所述详细示例中列出的方法、工具和组合的各个方面,当前申请中的特征可以被实现和获得。
具体实施方式
下面结合本申请实施例中的附图对本申请实施例进行描述。本申请实施例的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释,而非旨在限定本申请。
本申请实施例中基于人工智能的数据安全防护方法的执行主体为数据安全防护服务器,例如单个网络服务器、多个网络服务器组成的服务器组或于云计算的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,数据安全防护服务器可单独运行来实现本申请,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本申请。其中,计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。数据安全防护服务器与客户端通信连接,以构成本申请实施例提供的数据安全防护***。
请参照图1,本申请实施例提供的基于人工智能的数据安全防护方法包括如下步骤:
101:获取待处理业务交互数据集。
待处理业务交互数据集是需要配置对应的隐私防护策略的数据,例如是客户终端和数据安全防护服务器之间的交互数据,如企业办公数据、互联网交易平台私密数据等,对于不同的业务交互数据,其私密程度可能不同,需要采取的安全防护措施可能不同,因此需要对业务交互数据集的隐私内容种类进行识别。
102:将待处理业务交互数据集加载至预设的数据安全防护网络,并通过数据安全防护网络对待处理业务交互数据集进行数据隐私描述数组提取,得到待处理业务交互数据集的数据隐私描述数组,依据数据隐私描述数组进行隐私内容种类推理,得到待处理业务交互数据集的隐私内容种类识别结果。
数据安全防护网络可以是基于任意可能实现的机器学习网络架构建立得到,例如CNN、VGG、RNN、DNN、LSTM、Transformer等。其具体的调试过程在后文进行详细介绍。通过数据安全防护网络对待处理业务交互数据集进行数据隐私描述数组提取,以获取到能够表征待处理业务交互数据的隐私特征的矢量信息,数据隐私描述数组可以是由一维向量组成,或者由二维矩阵组成,具体形式与业务交互数据的具体内容有关,其具体的维数和业务交互数据的数据量有关,此处不做限定。待处理业务交互数据集的隐私内容种类识别结果可以是基于事先设定得到的隐私内容种类中对应的识别结果,例如隐私内容种类可以根据私密等级进行划分,如一级、二级、三级等,也可以根据具体的业务类型进行划分,例如在电商交易中,隐私内容种类可以包括商品咨询内容、商品评价内容、交易地址内容、联系方式内容,进一步地,每一个隐私内容种类可以细分为多个私密等级,如商品咨询内容一级,商品咨询内容二级。在本申请实施例中,不同的级别和不同的隐私内容种类都对应不同的防护策略,例如等级越高,防护策略的防护等级越高。可以理解,本申请实施例对隐私内容种类的类型和粒度不做限定,其具体的种类是可以随业务交互数据的内容而不断变化的,例如增加新的种类。
103:基于待处理业务交互数据集的隐私内容种类识别结果,通过预设的数据防护映射关系,调取与隐私内容种类识别结果对应的防护策略。
本申请实施例中,预先建立有不同的隐私内容种类和防护策略的映射关系,当获得隐私内容识别结果时,直接调取和识别得到的隐私内容识别结果对应的防护策略即可,防护策略例如是设置不同等级的数据访问权限、隐藏对应部分的交互数据、分层存储等,具体的策略可根据实际需要进行适配,防护的方式可以是通用的数据防护方式,此处不做限定。
104:基于防护策略对待处理业务交互数据集进行安全防护。
基于上述步骤101~104,本申请实施例通过数据安全防护网络获取待处理业务交互数据集的数据隐私描述数组,推理得到隐私内容种类识别结果,并基于待处理业务交互数据集的隐私内容种类识别结果,通过预设的数据防护映射关系,调取与隐私内容种类识别结果对应的防护策略进行防护,识别准确高效,提高了数据安全防护的效率。
下面介绍上述数据安全防护网络的调试过程,其是通过实际模板和模拟模板协同调试得到的,数据安全防护网络可以对模拟隐私内容种类和实际隐私内容种类进行识别。
本申请实施例中,在对数据安全防护网络进行调试前,预先配置多个实际隐私内容种类和多个模拟隐私内容种类。实际隐私内容种类是实际模板对应的真实种类。模拟隐私内容种类没有实际意义,是虚拟的种类,基于此,模拟隐私内容种类能够在后面和任意包含真实含义的种类进行结合,将模拟隐私内容种类变更成该种类。每一模拟隐私内容种类在描述数组值域(可理解是对应的特征空间)具有相应空间占用,用以对应后续可能产生的新种类,为了对数据安全防护网络进行调试以及提高数据安全防护网络对未知数据的适应性,本申请实施例同时采用现有模板数据(实际模板)和模拟的模板数据(模拟模板)进行调试。模拟模板可以是通过现有的模板数据获取的,或通过先验数据生成的。例如,一个模拟模板可以是至少一个实际模板生成获得,如模拟模板是对实际模板进行数据更改得到。
可选地,服务器获取数据安全防护网络,数据安全防护网络预设有至少一个实际隐私内容种类,以及至少一个模拟隐私内容种类。
数据安全防护网络能够对实际模板进行推理,以推理其对应哪一实际隐私内容种类,针对模拟模板,数据安全防护网络可对其进行推理以得到对应的隐私内容种类。调试完成的数据安全防护网络可以识别的模拟隐私内容种类,可用于和新隐私内容种类进行融合更换,以将预设的模拟隐私内容种类作为新引入的隐私内容种类。在上述步骤102中提及,隐私内容种类涉及的具体种类是可以随业务交互数据的内容而不断变化的,例如增加新的种类,那么,当需要增加新的隐私内容种类,以便数据安全防护网络能够对包含新的隐私内容种类的业务交互数据集进行识别,本申请实施例提供的方法还包括对数据安全防护网络更新的过程,具体包括:
10:获取新调试模板,新调试模板对应的新隐私内容种类未包含于全部实际隐私内容种类。
本申请实施例中,当获取调试完成的数据安全防护网络后,出现新隐私内容种类时,数据安全防护服务器获取新调试模板,对调试完成的数据安全防护网络进行优化,以令数据安全防护网络可以对该新隐私内容种类进行推理识别。数据安全防护服务器获取新调试模板时,还获取新调试模板对应的新隐私内容种类。例如,新调试模板包含新隐私内容种类的种类注释信息,新隐私内容种类表示具有真实意义的种类,新调试模板为任意与现有的实际隐私内容种类不同的隐私内容种类,新调试模板的数量为至少一个。
20:将新调试模板加载到数据安全防护网络,依据数据安全防护网络提取新调试模板的数据隐私描述数组。
在调试完成数据安全防护网络,可对各模拟隐私内容种类进行识别时,不用重复对数据安全防护网络进行调试,取而代之,依据新调试模板对调试完成的数据安全防护网络进行优化,如此可以令该数据安全防护网络可以识别新隐私内容种类。其中,基于新调试模板对调试完成的数据安全防护网络进行优化,即通过该新调试模板将事先占据的模拟隐私内容种类更换为具有真实意义的新隐私内容种类。具体而言,数据安全防护服务器将新调试模板加载到数据安全防护网络进行正向传递,依据数据安全防护网络提取新调试模板的数据隐私描述数组,若新调试模板为多个,则数据安全防护服务器通过数据安全防护网络分别对各个新调试模板进行描述数组的提取,以此获得各个新调试模板分别对应的数据隐私描述数组。
30:确定描述数组值域中和各个模拟隐私内容种类各自对应的目标参考描述数组,并通过数据隐私描述数组和每一目标参考描述数组之间的预设计算结果,确定与新调试模板对应的目标模拟隐私内容种类。
本申请实施例中,模拟隐私内容种类对应的参考描述数组是描述数组值域中相应模拟隐私内容种类的中心,各模拟隐私内容种类对应的目标参考描述数组例如是通过多次优化调试获取到的。实际隐私内容种类也包含对应的参考描述数组,具体为描述数组值域中相应实际隐私内容种类的中心,每一种类对应的目标参考描述数组可以通过对应种类的至少一个模板数据的数据隐私描述数组获取。在数据安全防护网络的调试过程中,每一种类均产生一个中心,数据安全防护网络将和每一隐私内容种类对应的模板数据的数据隐私描述数组推理分布于对应的中心周围,如此,数据安全防护网络就可以对模板数据对应的隐私内容种类产生较高的推理置信度。
举例而言,事先设置2个实际隐私内容种类,实际隐私内容种类A、实际隐私内容种类B,同时留下两个模拟隐私内容种类,模拟隐私内容种类C和模拟隐私内容种类D。在网络调试前,所有的隐私内容种类的中心可以任意定义。通过持续优化调试,各个隐私内容种类的中心将随着更改,当数据安全防护网络调试好之后,每一隐私内容种类的中心确定下来,则获得各个隐私内容种类的目标参考描述数组。当模板数据的数据隐私描述数组投影(即进行关联映射)至描述数组值域中的一空间位置时,数据安全防护服务器可以通过该空间位置和每一个中心的位置,评估是否属于某隐私内容种类的描述数组值域的区间内,从而识别该模板数据是否对应该隐私内容种类。
举例而言,获取到至少一个新调试模板的数据隐私描述数组后,针对每个新调试模板,数据安全防护服务器通过该新调试模板的数据隐私描述数组在描述数组值域的位置和各个模拟隐私内容种类分别对应的目标参考描述数组在描述数组值域的位置,通过两位置间的预设计算结果(例如差值)确定该新调试模板的数据隐私描述数组和哪一模拟隐私内容种类的中心距离最小,确定和该新调试模板相对应的目标模拟隐私内容种类。其中,数据安全防护服务器通过数据隐私描述数组和每一参考描述数组之间的预设计算结果确定与新调试模板对应的目标模拟隐私内容种类,包括:数据安全防护服务器通过数据隐私描述数组和每一目标参考描述数组的矢量间距(向量间的距离),将最小间距的模拟隐私内容种类确定为和新调试模板对应的目标模拟隐私内容种类。
作为一种实施方式,针对对应相同新隐私内容种类的多个新调试模板,数据安全防护服务器各自确定每一新调试模板的数据隐私描述数组和每个模拟隐私内容种类的目标参考描述数组的矢量间距,并对确定获得的多个矢量间距进行加权求和,以得到和每个模拟隐私内容种类的目标参考描述数组的最终矢量间距,基于该最终的矢量间距,将间距最小的模拟隐私内容种类确定为与新调试模板对应的目标模拟隐私内容种类。
作为一种实施方式,针对对应相同新隐私内容种类的多个新调试模板,数据安全防护服务器各自提取各新调试模板的数据隐私描述数组,各个新调试模板的数据隐私描述数组在描述数组值域中形成一描述数组分布,针对每一模拟隐私内容种类,数据安全防护服务器获取对应于每一模拟隐私内容种类的所有模板数据的描述数组分布。之后,数据安全防护服务器确定新隐私内容种类的描述数组分布和每一个模拟隐私内容种类的描述数组分布间的预设计算结果(例如差值),从而确定新隐私内容种类和哪一模拟隐私内容种类的间距最小,将间距最小的模拟隐私内容种类确定为和新调试模板对应的目标模拟隐私内容种类。例如,确定新隐私内容种类的描述数组分布和每一个模拟隐私内容种类的描述数组分布之之间的预设计算结果,可以是计算描述数组分布之间的共性系数,描述数组分布之间的共性系数例如是通过新隐私内容种类的各个新调试模板的数据隐私描述数组各自和每个模拟隐私内容种类的所有模板数据的数据隐私描述数组的矢量间距,进行加权求和获取到。
40:将目标模拟隐私内容种类替换为新隐私内容种类。
如此,数据安全防护网络就可以实现对新隐私内容种类的推理识别,具体而言,当确定和新调试模板对应的目标模拟隐私内容种类后,数据安全防护服务器将该目标模拟隐私内容种类赋予至该新调试模板对应的新隐私内容种类,例如,数据安全防护服务器将该目标模拟隐私内容种类替换为新隐私内容种类,如此令数据安全防护网络可以对新隐私内容种类进行推理识别,不再需要对数据安全防护网络反复进行调试,完成对新隐私内容种类的推理识别。
在以上网络调试过程中,采用实际模板和模拟模板进行协同调试得到数据安全防护网络,此外在获得新调试模板,同时该新隐私内容种类未包含于现有的实际隐私内容种类时,通过调试完成的数据安全防护网络提取数据隐私描述数组,将该数据隐私描述数组与通过调试得到的各个模拟隐私内容种类的目标参考描述数组进行对比,以通过计算结果确定该新调试模板对应的目标模拟隐私内容种类,那么将该目标模拟隐私内容种类替换为该新隐私内容种类,后面就能够对该新隐私内容种类的数据进行识别。基于此,当获取到新的隐私内容种类时,不对已有数据安全防护网络反复进行冗余地调试,仅将事先留存的模拟隐私内容种类更换成新种类,如此以加速数据安全防护网络的更新。进一步地,因为事先设置有模拟隐私内容种类,在添加新隐私内容种类后,仅对对应的模拟隐私内容种类进行优化完善,不更改已有隐私内容种类的分布情况,这样数据安全防护网络在更新时也能保留对已有数据的识别能力。
本申请实施例提供的基于人工智能的数据安全防护方法,数据安全防护网络对现有数据保持识别能力的前提下,只对新引入数据进行调试,令数据安全防护网络对新数据具有泛化性。
举例而言,设定隐私内容种类Va、隐私内容种类Vb和隐私内容种类Vc,每一隐私内容种类在描述数组值域中各自占用对应的空间,若对模板数据提取获取的数据隐私描述数组位于某一空间,则数据安全防护网络输出模板数据包含该空间对应的隐私内容种类的推理识别结果。对于网络推理识别性能的调试中,隐私内容种类的数量是维持不变的,为提升精确度,每一隐私内容种类占用的空间共同组成描述数组值域。但是对于上述的增量学习,网络在对新数据进行学习的过程中,数据安全防护网络的推理分布将产生改变,如此,数据安全防护网络更加倾向于对当下的数据进行识别,但是对现有的数据识别的准确性产生偏差,也就是说,新隐私内容种类的产生,当下已经被全然占用的描述数组值域不能同时兼备现有隐私内容种类和新隐私内容种类,若通过新的模板数据反复进行冗余地调试,调试后的数据安全防护网络则需要放弃部分现有隐私内容种类对应于描述数组值域的空间,接着将该空间赋予新隐私内容种类,如此造成已有模板数据的推理结果不准确。基于此,确保数据安全防护网络对新数据进行增量学习且维持现有数据识别能力,是在新隐私内容种类出现时需要解决的技术问题。
基于上述技术问题的背景,本申请实施例通过在一开始的调试过程中,将部分描述数组值域空间留存下来,换言之,在一开始的网络调试过程中,加入部分模拟类别,每一模拟类别对应一模拟隐私内容种类,每个模拟类别对应描述数组值域中部分空间。其中,描述数组值域除现有的隐私内容种类Va、隐私内容种类Vb和隐私内容种类Vc占用的空间外,还留存部分空间,以为后续可能出现的新隐私内容种类留位,如果后续产生新隐私内容种类,将留存的空间赋予新隐私内容种类。如此,新隐私内容种类不和现有隐私内容种类争夺描述数组值域空间,且可以加速对新隐私内容种类的推理识别。延续上述技术路线,以下对数据安全防护网络通过实际模板和模拟模板协同调试的过程进行介绍。
作为一种实施方式,包括如下步骤:
100:获取实际模板和模拟模板,其中,模拟模板为通过实际模板生成获得。
本申请实施例中,针对实际模板的来源不做限定,但是其是基于法律法规允许的范围内获取得到的,数据安全防护服务器再通过获取的实际模板生成至少一个模拟模板。通过实际模板和模拟模板协同对数据安全防护网络进行优化调试,每次优化调试都调用实际模板和模拟模板。每次优化调试中,加载至数据安全防护网络的模板数不做限定。基于此,对拟调试的数据安全防护网络进行多次优化调试,获得调试完成的数据安全防护网络,通过实际模板和模拟模板协同调试得到的数据安全防护网络,可以同时对实际隐私内容种类和模拟隐私内容种类进行推理识别。以下通过单次调试中对一实际模板和一模拟模板的处理过程进行介绍,然而,在通常调试中,单次的调试涉及多个实际模板和多个模拟模板,针对每次优化调试加载的每个实际模板和模拟模板,数据安全防护服务器依据数据安全防护网络完成相同的过程。
200:采取拟调试的数据安全防护网络对实际模板进行推理,通过推理获得的第一推理结果确定实际模板对应于第一目标隐私内容种类的第一误差值,第一目标隐私内容种类包括实际模板对应的目标实际隐私内容种类以及与实际模板对应的目标模拟隐私内容种类。
其中,针对实际模板,数据安全防护服务器采取拟调试的数据安全防护网络,提取实际模板的数据隐私描述数组,同时通过该数据隐私描述数组进行推理,得到该实际模板是哪一实际隐私内容种类的推理识别结果,推理识别结果包含该实际模板分别对应各个隐私内容种类的置信度。例如,数据安全防护服务器可以通过由全连接网络和分类网络构成的分类器进行推理,得到涵盖各个置信度结果的推理识别结果,此处将对实际模板进行推理获取的推理结果视作第一推理结果。其中,第一推理结果的维度和预设隐私内容种类的数量相同。比如,设定M个实际隐私内容种类和N个模拟隐私内容种类,针对加载的实际模板i,数据安全防护服务器采取拟调试的数据安全防护网络提取实际模板i的数据隐私描述数组array(i),并通过该数据隐私描述数组array(i)进行推理得到第一推理结果为[T1,T2,T3,……,Tn,F1,F2,F3,……,Fn]。其中,T1,T2,T3,……,Tn代表实际模板i分别和每一个实际隐私内容种类比较而言,是否为相应的实际隐私内容种类,比如,C1=0代表实际模板i不是实际隐私内容种类Va;C2=1代表实际模板i是实际隐私内容种类Vb。F1,F2,F3,……,Fn代表实际模板i分别和每一个模拟隐私内容种类比较而言,是否是相应的模拟隐私内容种类。那么针对实际模板,数据安全防护服务器通过拟调试的数据安全防护网络对其推理得到的实际隐私内容种类和实际模板自身对应的目标实际隐私内容种类,就能确定实际模板对应于目标实际隐私内容种类的误差值。比如针对实际模板i,通过第一推理结果g(i)和该实际模板i自身对应的实际隐私内容种类j,可以确定实际模板对应于目标实际隐私内容种类的误差值L(g(i),j)。误差值越小,第一推理结果中涵盖的各个推理置信度的最大值对应于该目标实际隐私内容种类的可信度越高,推理结果越精准。除实际隐私内容种类外,还包括模拟隐私内容种类,模拟隐私内容种类本质上不包含任何模板数据,那么需要将实际模板引入对模拟隐私内容种类的误差值确定中,实际模板为某一实际隐私内容种类,在确定该实际模板和模拟隐私内容种类的误差值时,将其对应的实际隐私内容种类略去,防止其扰动。基于此,数据安全防护服务器通过对实际模板推理得到的推理结果变换获得的第一推理结果,以及该实际模板实际对应的目标实际隐私内容种类,在遮挡实际模板对应的目标实际隐私内容种类后,模拟实际模板不对应目标实际隐私内容种类,而对应其余隐私内容种类的推理识别结果。通过对应其余隐私内容种类的推理结果,之后假定该实际模板是某一模拟隐私内容种类来确定误差值,将实际模板引入模拟隐私内容种类的调试。
数据安全防护服务器在各个模拟隐私内容种类中,确定其中一个模拟隐私内容种类作为和实际模板相对应的目标模拟隐私内容种类。比如针对实际模板i,数据安全防护服务器确定和实际模板i相对应的目标模拟隐私内容种类j。通过模拟的实际模板是其余隐私内容种类的推理结果和与实际模板相对应的目标模拟隐私内容种类,确定实际模板对应于目标模拟隐私内容种类的误差值。针对实际模板,数据安全防护服务器采取拟调试的数据安全防护网络,通过推理得到的第一推理结果确定实际模板对应于其对应的目标实际隐私内容种类的误差值,并通过第一推理结果确定实际模板对应于和其对应的目标模拟隐私内容种类的误差值,生成实际模板对应于第一目标隐私内容种类的第一误差值。
300:采取拟调试的数据安全防护网络对模拟模板进行推理,通过推理获得的第二推理结果确定模拟模板对应于第二目标隐私内容种类的第二误差值,第二目标隐私内容种类包括分别与模拟模板对应的目标实际隐私内容种类和目标模拟隐私内容种类。
仅采用实际模板对模拟隐私内容种类进行调试,将造成模板样本分布泛化性不够,基于此,本申请实施例还通过生成的模拟模板对拟调试的数据安全防护网络进行调试。作为一种实施方式,针对模拟模板,数据安全防护服务器采取拟调试的数据安全防护网络,提取模拟模板的数据隐私描述数组,并通过数据隐私描述数组进行推理得到模拟模板是哪一种隐私内容种类的推理识别结果。因为模拟模板自身也是生成的,没有实际对应的隐私内容种类。则与实际模板对应于实际隐私内容种类的误差值相同,数据安全防护服务器先确定和模拟模板对应的目标模拟隐私内容种类,以确定模拟模板对应的目标模拟隐私内容种类的误差值。其中,与模拟模板对应的目标模拟隐私内容种类可以是通过用于生成模拟模板的至少一个实际模板对应的目标实际隐私内容种类得到。作为一种实施方式,在步骤200,数据安全防护服务器得到与实际模板相对应的目标模拟隐私内容种类,在本骤300中,数据安全防护服务器可通过该和实际模板相对应的目标模拟隐私内容种类,确定和模拟模板对应的目标模拟隐私内容种类。比如数据安全防护服务器将和实际模板相对应的目标模拟隐私内容种类确定为和模拟模板对应的目标模拟隐私内容种类。或者,数据安全防护服务器通过用于生成该模拟模板的多个实际模板分别对应的目标模拟隐私内容种类,整合得到和模拟模板对应的目标模拟隐私内容种类。
可以理解,因为模拟模板自身没有实际对应的有意义隐私内容种类,因而需将模拟模板带入实际隐私内容种类的误差值确定过程。数据安全防护服务器在确定该模拟模板的目标模拟隐私内容种类后,将其对应的目标模拟隐私内容种类遮挡,模拟模板不是该目标模拟隐私内容种类,而是其余隐私内容种类的推理识别结果,通过该其余隐私内容种类的推理识别结果,之后假定该模拟模板是一实际隐私内容种类,以此确定误差值,以将模拟模板带入实际隐私内容种类的调试过程。那么,数据安全防护服务器在各实际隐私内容种类中,将其中一实际隐私内容种类确定为和该模拟模板相对应的目标实际隐私内容种类。
400:通过第一误差值和第二误差值生成目标误差算法,采用目标误差算法对拟调试的数据安全防护网络进行优化调试直到符合预设的调试截止要求,得到调试好的数据安全防护网络。
调试截止要求例如是调试的次数满足次数阈值,调试的目标误差算法的误差值不再发生改变或达到最低。通过针对实际模板的第一误差值和针对模拟模板的第二误差值,数据安全防护服务器生成目标误差算法,通过该目标误差算法对拟调试的数据安全防护网络进行优化调试。作为一种实施方式,目标误差算法可以通过第一误差值和第二误差值进行相加得到。在对数据安全防护网络进行优化调试时,可将目标误差算法的目标误差值最小作为最终目标进行调试,符合调试戒指要求即不再优化调试,得到调试好的数据安全防护网络。或者,目标误差算法通过第一误差值和第二误差值整合获得,如以目标误差算法最小为目标对数据安全防护网络进行调试时,为第一误差值和第二误差值匹配对应的阈值,如果第一误差值和第二误差值都小于匹配的阈值,则数据安全防护服务器确定符合调试截止要求,不再优化调试,得到调试好的数据安全防护网络。
基于上述过程,可以令调试完成的数据安全防护网络不仅对各个实际隐私内容种类进行精确地推理识别,还可以维持对实际隐私内容种类的推理识别分布,完成对模拟隐私内容种类的推理识别。
作为一种实施方式,采用目标误差算法对拟调试的数据安全防护网络进行优化调试,具体可以包括:采用目标误差算法对拟调试的数据安全防护网络进行多次优化调试,在每次优化调试后,获取当前优化调试对应的偏导向量,并通过偏导向量的逆向传递对描述数组值域中各个隐私内容种类对应的参考描述数组进行优化;其中,末次优化调试结束时获得的各个隐私内容种类对应的参考描述数组为各个隐私内容种类最终的参考描述数组。
其中,数据安全防护服务器采用目标误差算法对拟调试的数据安全防护网络进行多次优化调试。每次优化调试后,数据安全防护服务器获取当前优化调试对应的偏导向量(梯度),并通过偏导向量进行逆向传递,以对拟调试的数据安全防护网络进行参变量的优化。在逆向传递时,数据安全防护服务器对描述数组值域中每个隐私内容种类(包括每一实际隐私内容种类和每一模拟隐私内容种类)分别对应的参考描述数组进行优化。换言之每次优化调试时,各隐私内容种类的中心是通过上次优化调试对中心进行优化得到的位置。那么,多次优化调试完成时,数据安全防护服务器将末次优化调试得到的各个隐私内容种类对应的参考描述数组确定为各个隐私内容种类的参考描述数组,即确定好的中心。
本申请实施例中,一开始的网络调试过程中已经加入了部分模拟类别,便于为后面新隐私内容种类进行空间的留存,然而加入模拟类别却没有相应的模板数据,则在网络调试时,生成新的误差值函数,职称虚无的模板数据的模拟隐私内容种类。所以本申请实施例中,提供的新误差值函数,可对实际模板和模拟模板同时进行调试,数据安全防护网络的误差值函数包括通过实际模板生成的第一误差值函数和通过模拟模板生成的第二误差值函数。
对于第一误差值函数,作为一种实施方式,采取拟调试的数据安全防护网络对实际模板进行推理,通过推理获得的第一推理结果确定实际模板对应于第一目标隐私内容种类的第一误差值,包括:采取拟调试的数据安全防护网络提取实际模板的数据隐私描述数组,并通过实际模板的数据隐私描述数组进行推理,得到实际模板对应于全部隐私内容种类的第一置信度;通过第一置信度和实际模板对应的目标实际隐私内容种类,确定实际模板对应于目标实际隐私内容种类的第一基础误差值;通过第一置信度获取实际模板对应的除开目标实际隐私内容种类之外的其余隐私内容种类的第一虚设置信度;通过第一虚设置信度获取实际模板对应于所对应的第一模拟误差值;通过第一基础误差值和第一模拟误差值获取实际模板对应于第一目标隐私内容种类的第一误差值。
其中,针对实际模板,数据安全防护服务器采取拟调试的数据安全防护网络提取实际模板的数据隐私描述数组,通过该数据隐私描述数组进行推理得到该实际模板相对于全部隐私内容种类的第一置信度,所有隐私内容种类包括所有实际隐私内容种类和所有模拟隐私内容种类,第一置信度即实际模板的推理识别结果。
为方便描述,实际模板对应的实际隐私内容种类视作目标实际隐私内容种类,目标实际隐私内容种类是确定的。通过第一置信度和确定的目标实际隐私内容种类,数据安全防护服务器可确定实际模板相对于目标实际隐私内容种类的误差值,即第一基础误差值。
例如,第一基础误差值为L(g(i),j),可依据交叉熵误差函数进行计算,g(i)为第一置信度,j为实际模板对应的目标实际隐私内容种类。
以上采用模拟实际模板不是目标实际隐私内容种类,而是其余隐私内容种类的场景,生成实际模板对应于第一目标隐私内容种类的第一误差值,可以将实际模板加入模拟隐私内容种类的调试过程。每一隐私内容种类可以配置相应的种类注释信息,比如实际隐私内容种类Va的种类注释信息为1,实际隐私内容种类Vb的种类注释信息为2……模拟隐私内容种类Va的种类注释信息为5,模拟隐私内容种类Vb的种类注释信息为6等。上述确定过程中j为种类注释信息的数值。
通过第一置信度,再确定实际模板对应的除开目标实际隐私内容种类之外的其余隐私内容种类的第一虚设置信度。例如,数据安全防护服务器通过第一置信度的相反值,获取实际模板对应的除开目标实际隐私内容种类之外的其余隐私内容种类的第一虚设置信度。作为一种实施方式,通过第一置信度获取实际模板对应的除开目标实际隐私内容种类之外的其余隐私内容种类的第一虚设置信度,包括:通过实际模板对应的目标实际隐私内容种类,确定与实际模板对应的归一数组(例如二值化后的数组),归一数组的维数和预设隐私内容种类的数目一致;对与实际模板对应的归一数组进行取反操作,例如逆向计算,得到与实际模板对应的归一反数组;通过第一置信度和与实际模板对应的归一反数组,确定实际模板对应的除开目标实际隐私内容种类之外的其余隐私内容种类的第一虚设置信度。
例如,通过实际模板本身对应的目标实际隐私内容种类,确定与实际模板对应的归一数组。归一数组的维数和预设隐私内容种类的数目一致,比如设定有M个实际隐私内容种类和N个模拟隐私内容种类,则归一数组的维数等于M+N。
例如,针对实际模板本身对应的目标实际隐私内容种类j,进行独热编码得到二值化的归一数组array(j),例如[0;0;0;1;1;1]。再对该归一数组进行取反操作,得到归一反数组。例如基于1-array(j)计算得到归一反数组,表征遮挡目标实际隐私内容种类后,实际模板相对于其余隐私内容种类的置信度,例如归一数组[0;0;0;1;1;1]的归一反数组为[1;1;1;0;0;0]。通过第一置信度和归一反数组确定实际模板对应的除开目标实际隐私内容种类之外的其余隐私内容种类的第一虚设置信度。例如,第一虚设置信度的获取过程可以是:
M(g(i),j)=g(i)⊗(1-array(j))
M(g(i),j)为遮挡目标实际隐私内容种类j后通过第一置信度g(i)和归一反数组1-array(j)得到的第一虚设置信度。
基于此获得第一虚设置信度后,通过第一虚设置信度获取实际模板对应于目标模拟隐私内容种类的第一模拟误差值。
作为一种实施方式,通过第一虚设置信度获取实际模板对应于所对应的目标模拟隐私内容种类的第一模拟误差值,具体可以包括:确定与实际模板对应的目标模拟隐私内容种类;通过第一虚设置信度和目标模拟隐私内容种类对应的模拟隐私内容种类注释信息,确定实际模板对应于模拟隐私内容种类的第一模拟误差值。
例如,数据安全防护服务器先获取与实际模板对应的目标模拟隐私内容种类,因为实际模板对应于目标实际隐私内容种类,其不是任一模拟隐私内容种类,则数据安全防护服务器在各模拟隐私内容种类中选择一模拟隐私内容种类确定为与实际模板对应的目标模拟隐私内容种类。可以依据各个注释信息将与目标实际隐私内容种类的种类注释信息最接近的模拟隐私内容种类确定为和实际模板对应的目标模拟隐私内容种类。作为一种实施方式,可以在描述数组值域中确定实际模板最可能属于的模拟隐私内容种类的空间,确定和实际模板对应的目标模拟隐私内容种类。基于此,通过第一虚设置信度和目标模拟隐私内容种类对应的模拟隐私内容种类注释信息,确定实际模板对应于模拟隐私内容种类的第一模拟误差值。
以上过程采用与实际模板对应的目标模拟隐私内容种类和目标模拟隐私内容种类对应的模拟隐私内容种类注释信息,确定实际模板对应于目标模拟隐私内容种类的第一模拟误差值,以克服模拟隐私内容种类未包含模板数据的难题。最后通过第一基础误差值和第一模拟误差值生成实际模板对应第一目标隐私内容种类的第一误差值。第一误差值例如是第一基础误差值和第一模拟误差值相加的结果。
以上过程基于对实际模板获取未存在模拟隐私内容种类时,自身的第一基础误差值,同时获取存在模拟隐私内容种类时,相对于模拟隐私内容种类的第一模拟误差值,共同确定为实际模板的误差值,可以帮助网络在数据学习过程中,兼顾对已有数据的识别能力和对模拟隐私内容种类的推理识别。
获取和实际模板对应的目标模拟隐私内容种类的过程中,可以通过各个模拟隐私内容种类的参考描述数组(中心)进行评估。作为一种实施方式,获取和实际模板对应的目标模拟隐私内容种类,具体可以包括:确定描述数组值域中和各模拟隐私内容种类各自对应的第一参考描述数组;第一参考描述数组为当前调试中和每一模拟隐私内容种类对应的参考描述数组;分别获取实际模板的数据隐私描述数组和每一第一参考描述数组的矢量间距;将最小矢量间距对应的第一参考描述数组指示的模拟隐私内容种类确定为和实际模板对应的目标模拟隐私内容种类。例如,在描述数组值域中分别获取当前优化调试过程中和每一模拟隐私内容种类对应的参考描述数组,视作第一参考描述数组,基于提取到的实际模板的数据隐私描述数组,获取其和每一模拟隐私内容种类对应的第一参考描述数组的矢量间距,将最小矢量间距对应的第一参考描述数组指示的模拟隐私内容种类确定为和实际模板对应的目标模拟隐私内容种类。
例如,基于如下公式获取与实际模板对应的目标模拟隐私内容种类:
J’=argmaxFmnH(i)+x
其中,H(i)为实际模板i的数据隐私描述数组,Fmn为各模拟隐私内容种类的第一参考描述数组;argmaxFmnH(i)是确定与实际模板i最近似的模拟隐私内容种类的过程,从而确定和实际模板i对应的目标模拟隐私内容种类J’;x为预设的全部隐私内容种类的总数。
以上过程通过实际模板的数据隐私描述数组在描述数组值域中和各个模拟隐私内容种类的参考描述数组间的预设计算结果,将最近似的模拟隐私内容种类确定为目标模拟隐私内容种类,可以最大化提升网络调试的精确度。
上述完成实际模板生成的第一误差值的过程,但是仅采用实际模板调试模拟隐私内容种类,可能让模拟隐私内容种类分布缺乏泛化性,不能较好地对新数据的隐私内容种类进行推理识别。基于此,本申请实施例提供另外的误差值函数,通过模拟模板调试已有的实际种类。作为一种实施方式,采取拟调试的数据安全防护网络对模拟模板进行推理,通过推理获得的第二推理结果确定模拟模板对应于第二目标隐私内容种类的第二误差值,具体可以包括:采取拟调试的数据安全防护网络提取模拟模板的数据隐私描述数组,通过模拟模板的数据隐私描述数组进行推理,得到模拟模板对应于全部隐私内容种类的第二置信度;确定用于生成模拟模板的一个或多个实际模板,通过与一个或多个实际模板对应的目标模拟隐私内容种类,确定模拟模板对应的目标模拟隐私内容种类;通过第二置信度和模拟模板对应的目标模拟隐私内容种类,确定模拟模板对应于目标模拟隐私内容种类的第二基础误差值;通过第二置信度获取模拟模板对应的除开目标模拟隐私内容种类之外的其余隐私内容种类的第二虚设置信度;通过第二虚设置信度获取模拟模板对应于所对应的目标实际隐私内容种类的第二模拟误差值;通过第二基础误差值和第二模拟误差值获取模拟模板对应于第二目标隐私内容种类的第二误差值。
例如,针对模拟模板,采取拟调试的数据安全防护网络提取模拟模板的数据隐私描述数组,通过该数据隐私描述数组进行推理得到模拟模板对应于全部隐私内容种类的第二置信度,全部隐私内容种类包括全部实际隐私内容种类和全部模拟隐私内容种类,第二置信度是模拟模板的推理识别结果。
因为模拟模板不是任一隐私内容种类,则需确定和模拟模板对应的模拟隐私内容种类,作为模拟模板的目标模拟隐私内容种类。数据安全防护服务器确定用于生成模拟模板的一个或多个实际模板,通过与一个或多个实际模板对应的目标模拟隐私内容种类,确定模拟模板对应的目标模拟隐私内容种类。例如通过用于生成模拟模板的一个实际模板,将前述获取到的和实际模板对应的目标模拟隐私内容种类确定为模拟模板对应的目标模拟隐私内容种类。或者通过用于生成该模拟模板的多个实际模板,将各实际模板分别对应的目标模拟隐私内容种类整合得到模拟模板对应的目标模拟隐私内容种类。例如,将各实际模板分别对应的目标模拟隐私内容种类的种类注释信息加权求和获得模拟模板对应的目标模拟隐私内容种类的种类注释信息,确定模拟模板对应的目标模拟隐私内容种类。那么,通过第二置信度和模拟模板对应的目标模拟隐私内容种类,数据安全防护服务器确定了模拟模板对应于目标模拟隐私内容种类的第二基础误差值。
以上基于模拟模拟模板不是目标模拟隐私内容种类,而是其余隐私内容种类的场景,生成模拟模板对应于第二目标隐私内容种类的第二误差值,如此将模拟模板加入实际隐私内容种类的调试中。
通过第二置信度确定模拟模板对应的除开目标模拟隐私内容种类之外的其余隐私内容种类的第二虚设置信度。例如,数据安全防护服务器通过第二置信度取反,确定模拟模板对应的除开目标模拟隐私内容种类之外的其余隐私内容种类的第二虚设置信度。
作为一种实施方式,通过第二置信度获取模拟模板对应的除开目标模拟隐私内容种类之外的其余隐私内容种类的第二虚设置信度,具体可以包括:通过与模拟模板对应的目标实际隐私内容种类,确定与模拟模板对应的归一数组;对与模拟模板对应的归一数组进行取反操作,得到与模拟模板对应的归一反数组;通过第二置信度和与模拟模板对应的归一反数组,确定实际模板对应的除开目标实际隐私内容种类之外的其余隐私内容种类的第一虚设置信度。
例如,数据安全防护服务器通过模拟模板的目标模拟隐私内容种类,确定与模拟模板对应的归一数组。
例如,数据安全防护服务器针对模拟模板的目标模拟隐私内容种类j’进行独热编码得到归一数组。然后对归一数组进行取反操作得到归一反数组。数据安全防护服务器通过第二置信度和归一反数组确定模拟模板对应的除开目标模拟隐私内容种类之外的其余隐私内容种类的第二虚设置信度。以上通过确定和模拟模板对应的归一数组,对归一数组进行取反操作模拟模拟模板不是目标模拟隐私内容种类,而是其余隐私内容种类的场景,可以将模拟模板带入实际隐私内容种类的调试过程。基于此,获得第二虚设置信度后,数据安全防护服务器通过第二虚设置信度获取实际模板对应于目标模拟隐私内容种类的第二模拟误差值。作为一种实施方式,通过第二虚设置信度获取模拟模板对应于目标实际隐私内容种类的第二模拟误差值,具体可以包括:确定与模拟模板对应的目标实际隐私内容种类;通过第二虚设置信度和与目标实际隐私内容种类对应的实际隐私内容种类注释信息,确定模拟模板对应于所对应的目标实际隐私内容种类的第二模拟误差值。例如,数据安全防护服务器先确定和模拟模板对应的目标实际隐私内容种类,因为模拟模板不对应任一隐私内容种类,则数据安全防护服务器在各个实际隐私内容种类中选取一个实际隐私内容种类确定为和模拟模板对应的目标实际隐私内容种类。
数据安全防护服务器依据各个注释信息将和目标模拟隐私内容种类的种类注释信息最近似的实际隐私内容种类确定为和模拟模板对应的目标实际隐私内容种类。作为一种实施方式,数据安全防护服务器在描述数组值域中确定模拟模板最大概率属于的实际隐私内容种类的空间,以确定和模拟模板对应的目标实际隐私内容种类。基于此,数据安全防护服务器通过第二虚设置信度和目标实际隐私内容种类对应的实际隐私内容种类注释信息确定模拟模板对应于目标实际隐私内容种类的第二模拟误差值。以上采用和模拟模板对应的目标实际隐私内容种类以及目标实际隐私内容种类对应的实际隐私内容种类注释信息,获取模拟模板对应于目标实际隐私内容种类的第二模拟误差值,以克服模拟模板不对应任意隐私内容种类的难题。数据安全防护服务器最后通过第二基础误差值和第二模拟误差值获取模拟模板对应于第二目标隐私内容种类的第二误差值,例如第二误差值为第二基础误差值与第二模拟误差值的相加结果。
以上采用对模拟模板确定其假定为某一目标模拟隐私内容种类时的第二基础误差值,以及假定是某一目标实际隐私内容种类时的第二模拟误差值,共同确定为模拟模板的误差值,可以帮助网络在对数据进行学习时兼顾已有数据的推理识别和对模拟隐私内容种类的推理识别。
在获取和模拟模板对应的目标实际隐私内容种类的过程中,可以通过各实际隐私内容种类的参考描述数组进行评估。那么,作为一种实施方式,获取和模拟模板对应的目标实际隐私内容种类,具体可以包括:确定描述数组值域中和各实际隐私内容种类各自对应的第二参考描述数组,其中,第二参考描述数组为当前调试中与实际隐私内容种类对应的参考描述数组;分别获取模拟模板的数据隐私描述数组和每一第二参考描述数组的矢量间距;将最小矢量间距对应的第二参考描述数组指示的实际隐私内容种类确定为和模拟模板对应的目标实际隐私内容种类。
例如,数据安全防护服务器在描述数组值域分别获取当前优化调试时和每一实际隐私内容种类对应的参考描述数组,视作第二参考描述数组。数据安全防护服务器依据提取的模拟模板的数据隐私描述数组,获取其和每一实际隐私内容种类对应的第二参考描述数组的矢量间距,将最小矢量间距对应的第二参考描述数组指示的实际隐私内容种类确定为和模拟模板对应的目标实际隐私内容种类。
通过模拟模板的数据隐私描述数组在描述数组值域中和各个实际隐私内容种类的参考描述数组之之间的预设计算结果,将最近似的实际隐私内容种类确定为目标实际隐私内容种类,可以最大化提升网络调试的精确度。这样就生成了通过模拟模板的第二误差值,可通过第一误差值和第二误差值生成最后的目标误差算法。通过生成的目标误差算法对数据安全防护网络进行优化调试,在采用目标误差算法对拟调试的数据安全防护网络进行优化调试时,还需通过逆向传递对网络进行优化。获得调试完成的数据安全防护网络后,对于新隐私内容种类不再需要调试,可依据新的模板对数据安全防护网络进行优化。
作为一种实施方式,通过数据隐私描述数组和每一目标参考描述数组之间的预设计算结果,确定与新调试模板对应的目标模拟隐私内容种类,具体可以包括:确定数据隐私描述数组和每一目标参考描述数组间的矢量间距;将最小矢量间距对应的目标参考描述数组指示的模拟隐私内容种类确定为和新调试模板对应的目标模拟隐私内容种类。例如,数据安全防护服务器在描述数组值域中确定各个模拟隐私内容种类的参考描述数组,即调试后各模拟隐私内容种类的中心。通过新调试模板的数据隐私描述数组,数据安全防护服务器获取新调试模板的数据隐私描述数组和每一模拟隐私内容种类的参考描述数组的矢量间距,将最小矢量间距对应的参考描述数组指示的模拟隐私内容种类确定为和新调试模板对应的目标模拟隐私内容种类。
作为一种实施方式,对于对应相同新隐私内容种类的多个新调试模板,数据安全防护服务器分别提取各新调试模板的数据隐私描述数组,各新调试模板的数据隐私描述数组在描述数组值域中形成描述数组分布。针对每个模拟隐私内容种类可获得对应于每个模拟隐私内容种类的所有模板数据的描述数组分布。之后,数据安全防护服务器可获取新隐私内容种类的描述数组分布和每一个模拟隐私内容种类的描述数组分布间的预设计算结果,如此确定新隐私内容种类和哪一模拟隐私内容种类最近似,将最近似的模拟隐私内容种类确定为与新调试模板对应的目标模拟隐私内容种类。采用获取共性系数或矢量间距确定和新调试模板最近似的目标模拟隐私内容种类,可将分布最接近的模拟隐私内容种类确定为新隐私内容种类,不需对数据安全防护网络反复进行冗余地调试,完成对新隐私内容种类的数据的推理识别。且可以让数据安全防护网络对现有实际隐私内容种类的模板数据的推理识别能力维持下去。
作为一种实施方式,新隐私内容种类具有时间效应,经过一定时间后可能不再需要对新隐私内容种类进行推理识别,为了不让新隐私内容种类占用模拟隐私内容种类引起硬件消耗,可将新隐私内容种类清理,同时将数据安全防护网络中和新隐私内容种类关联的数据清洗掉,将替换为该新隐私内容种类的目标模拟隐私内容种类进行复原,变为不对应实际数据的模拟隐私内容种类,再次变成留存的模拟隐私内容种类,为后续新隐私内容种类提供推理识别基础。
本申请实施例提供的数据安全防护网络的网络架构,在前述已经说明,可以是任意可行的机器学习网络的架构,例如其可以是通过多个CON(卷积单元)和FC(全连接单元)组成的残差网络。其中,CON的个数和每个CON的输出尺寸,不做限定。
综上所述,本申请实施例提供的基于人工智能的数据安全防护方法及***,采用数据安全防护网络获取待处理业务交互数据集的数据隐私描述数组,推理得到隐私内容种类识别结果,并基于待处理业务交互数据集的隐私内容种类识别结果,通过预设的数据防护映射关系,调取与隐私内容种类识别结果对应的防护策略进行防护,识别准确高效,提高了数据安全防护的效率。此外,通过实际模板和模拟模板协同调试得到数据安全防护网络,同时,在获取新调试模板,新隐私内容种类不对应现有实际隐私内容种类时,通过调试完成的数据安全防护网络提取数据隐私描述数组,将该数据隐私描述数组与通过调试得到的各个模拟隐私内容种类的目标参考描述数组进行预设计算,以通过计算结果确定新调试模板对应的目标模拟隐私内容种类,将目标模拟隐私内容种类替换为新隐私内容种类,以此完成对该新隐私内容种类的数据识别能力。基于此,当获取到新的隐私内容种类时,不对已有数据安全防护网络反复进行冗余地调试,取而代之,仅将事先留存的一模拟隐私内容种类更换成新种类,如此以加速数据安全防护网络的更新。另外,引入新隐私内容种类,仅更新对应的模拟隐私内容种类,对已有隐私内容种类不构成影响,数据安全防护网络仍保留已有数据的识别性能。
基于与图1中所示方法相同的原理,本申请实施例中还提供了一种数据安全防护装置10,如图2所示,该装置10包括:
数据获取模块11,用于获取待处理业务交互数据集;
网络调用模块12,用于将所述待处理业务交互数据集加载至预设的数据安全防护网络,并通过所述数据安全防护网络对所述待处理业务交互数据集进行数据隐私描述数组提取,得到所述待处理业务交互数据集的数据隐私描述数组,依据所述数据隐私描述数组进行隐私内容种类推理,得到所述待处理业务交互数据集的隐私内容种类识别结果;
策略调取模块13,用于基于所述待处理业务交互数据集的隐私内容种类识别结果,通过预设的数据防护映射关系,调取与所述隐私内容种类识别结果对应的防护策略;
安全防护模块14,用于基于所述防护策略对所述待处理业务交互数据集进行安全防护;
网络调试模块15,用于对数据安全防护网络进行调试。其中,所述数据安全防护网络是通过实际模板和模拟模板协同调试得到的,所述数据安全防护网络被配置为对模拟隐私内容种类和实际隐私内容种类进行识别;当对包含新的隐私内容种类的业务交互数据集进行识别前,所述方法包括对数据安全防护网络进行优化的步骤,包括:获取新调试模板,所述新调试模板对应的新隐私内容种类未包含于全部所述实际隐私内容种类;将所述新调试模板加载到所述数据安全防护网络,依据所述数据安全防护网络提取所述新调试模板的数据隐私描述数组;确定描述数组值域中和各个模拟隐私内容种类各自对应的目标参考描述数组,并通过所述数据隐私描述数组和每一目标参考描述数组之间的预设计算结果,确定与所述新调试模板对应的目标模拟隐私内容种类;将所述目标模拟隐私内容种类替换为所述新隐私内容种类。
上述实施例从虚拟模块的角度介绍了数据安全防护装置10,下述从实体模块的角度介绍一种数据安全防护服务器,具体如下所示:
本申请实施例提供了一种数据安全防护服务器,如图3所示,数据安全防护服务器100包括:处理器101和存储器103。其中,处理器101和存储器103相连,如通过总线102相连。可选地,数据安全防护服务器100还可以包括收发器104。需要说明的是,实际应用中收发器104不限于一个,该数据安全防护服务器100的结构并不构成对本申请实施例的限定。
处理器101可以是CPU,通用处理器,GPU,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器101也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线102可包括一通路,在上述组件之间传送信息。总线102可以是PCI总线或EISA总线等。总线102可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器103可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器103用于存储执行本申请方案的应用程序代码,并由处理器101来控制执行。处理器101用于执行存储器103中存储的应用程序代码,以实现前述任一方法实施例所示的内容。
本申请实施例提供了一种数据安全防护服务器,本申请实施例中的数据安全防护服务器包括:一个或多个处理器;存储器;一个或多个计算机程序,其中一个或多个计算机程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序被处理器执行时,实现上述方法。本申请所提供的技术方案,采用数据安全防护网络获取待处理业务交互数据集的数据隐私描述数组,推理得到隐私内容种类识别结果,并基于待处理业务交互数据集的隐私内容种类识别结果,通过预设的数据防护映射关系,调取与隐私内容种类识别结果对应的防护策略进行防护,识别准确高效,提高了数据安全防护的效率。此外,通过实际模板和模拟模板协同调试得到数据安全防护网络,同时,在获取新调试模板,新隐私内容种类不对应现有实际隐私内容种类时,通过调试完成的数据安全防护网络提取数据隐私描述数组,将该数据隐私描述数组与通过调试得到的各个模拟隐私内容种类的目标参考描述数组进行预设计算,以通过计算结果确定新调试模板对应的目标模拟隐私内容种类,将目标模拟隐私内容种类替换为新隐私内容种类,以此完成对该新隐私内容种类的数据识别能力。基于此,当获取到新的隐私内容种类时,不对已有数据安全防护网络反复进行冗余地调试,取而代之,仅将事先留存的一模拟隐私内容种类更换成新种类,如此以加速数据安全防护网络的更新。另外,引入新隐私内容种类,仅更新对应的模拟隐私内容种类,对已有隐私内容种类不构成影响,数据安全防护网络仍保留已有数据的识别性能。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当计算机程序在处理器上运行时,使得处理器可以执行前述方法实施例中相应的内容。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。