CN112613045B

CN112613045B - 一种目标数据的数据水印嵌入方法及***

Info

Publication number: CN112613045B
Application number: CN202011375206.4A
Authority: CN
Inventors: 于鹏飞; 石聪聪; 陈磊
Original assignee: State Grid Smart Grid Research Institute Co ltd
Current assignee: State Grid Smart Grid Research Institute Co ltd
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2023-06-06
Anticipated expiration: 2040-11-30
Also published as: CN112613045A

Abstract

本发明公开了一种目标数据的数据水印嵌入方法及***，所述方法包括S1将待嵌入数据水印的目标数据划分为多个内容块在每个内容块中嵌入数据水印；S2采用预先设置的数据相似度评估模型对嵌入数据水印后的数据条目进行数据条目相似度评估；S3基于组成内容块的所有数据天目的数据条目相似度进行内容块数据水印相似度评估，当各内容块数据水印相似度均满足第一阈值范围时执行S4，否则调整内容块中数据水印的嵌入比例和/或位置执行S2；S4基于组成目标数据的所有内容块的数据水印相似度计算所述目标数据整体的相似度，通过调整数据水印的嵌入比例和/或位置得到嵌入数据水印的目标数据。最终实现数据水印嵌入后的高隐蔽性和高仿真性。

Description

一种目标数据的数据水印嵌入方法及***

技术领域

本发明涉及数据水印领域，具体涉及一种目标数据的数据水印嵌入方法及***。

背景技术

随着数字经济的不断发展，不同部门、不同地区、不同数据主体间的信息交流逐步增加，数据在各个环节间以结构化数据的形式流转、重组、使用越来越频繁。数据在动态环境中使用，发生数据泄露事件的风险巨大，一旦发生数据泄露，就需要能够准确的定位责任环节，以追溯相关人员的安全责任，并针对性的加强薄弱环节的安全管控。

数据水印技术是为解决上述数据泄露之后责任追溯问题的有效技术手段之一。数据水印是对数据内容本身添加额外冗余的标识信息，通过高仿真实数据内容，并参入标识信息，以关联和记录相关责任环节，一旦数据泄露，即可根据事先添加的水印信息进行定位。而高仿真、高隐蔽性是数据水印有效的关键指标，避免被恶意用户发现并破坏。数据水印高仿真、高隐蔽性的实现需要目标数据在数据水印添加前后的相似度必须达到用户不易发现的阈值，因此如何在目标数据中嵌入数据水印达到数据水印嵌入后的高隐蔽性和高仿真性亟需解决。

发明内容

为了解决现有技术中所存在的上述不足，本发明提供了一种目标数据的数据水印嵌入方法，包括：

S1将待嵌入数据水印的目标数据划分为多个内容块，在每个内容块的数据条目中嵌入数据水印；

S2采用预先设置的数据相似度评估模型对嵌入数据水印后的数据条目进行数据条目相似度评估；

S3基于组成内容块的所有数据条目的数据条目相似度进行内容块数据水印相似度评估，当各内容块数据水印相似度均满足第一阈值范围时，执行S4，否则调整不满足第一阈值范围的内容块中数据水印的嵌入比例和/或位置，执行S2；

S4基于组成目标数据的所有内容块的数据水印相似度计算所述目标数据整体的相似度，当所述目标数据整体的相似度满足第二阈值范围时，完成数据水印的嵌入，否则调整一个或多个内容块中数据水印的嵌入比例和/或位置，执行S2。

优选的，调整数据水印的嵌入比例和/或位置，包括：

当数据条目中包含单一类型字段时，调整数据水印的嵌入比例；

当数据条目中包含多种类型字段时，调整数据水印的嵌入比例和/或位置。

优选的，所述调整数据水印的嵌入比例，包括：

当内容块数据水印相似度>第一阈值范围中的最大值时，则减小在所述内容块数据的数据条目中嵌入数据水印的比例至预设比例；

当内容块数据水印相似度<第一阈值范围中的最小值时，则增加在所述内容块数据的数据条目中嵌入数据水印的比例至预设比例；

当目标数据的整体相似度>第二阈值范围中的最大值时，则减小一个或多个内容块中嵌入数据水印的比例至预设比例；

当目标数据的整体相似度<第二阈值范围中的最小值时，则增加一个或多个内容块中嵌入数据水印的比例至预设比例。

优选的，所述调整数据水印的嵌入位置，包括：

去除数据条目中原有数据水印，按照预设比例分别向数据条目中各种类型字段嵌入与字段类型匹配的数据水印；

对嵌入与字段类型匹配的数据水印后的数据条目进行数据条目相似度评估，选择数据条目相似度最大的字段所在位置作为嵌入数据水印的最优位置，并在最优位置处嵌入数据水印。

优选的，所述数据条目中的字段类型包括如下任一种或多种：

数值字段、文本字段和自然语言字段。

优选的，在所述数据条目中嵌入数据水印，包括：

当所述数据条目中包括数值字段时，在所述数值字段中嵌入数值型的数据水印；

当所述数据条目中包括文本字段时，在所述文本字段中嵌入字符文本型的数据水印；

当所述数据条目中包括自然语言字段时，在所述自然语言字段中嵌入自然语言型的数据水印。

优选的，所述采用预先设置的数据相似度评估模型对嵌入数据水印后的数据条目进行数据条目相似度评估，包括：

当所述数据条目的数值字段中嵌入数值型的数据水印时，对所述数据水印嵌入前后的数值进行解构分词，并通过欧几里得距离向量数据相似度评估模型进行数据条目相似度评估；

当所述数据条目的文本字段中嵌入字符文本型的数据水印时，对所述数据水印嵌入前后的ASCII码值进行解构，并通过余弦向量数据相似度评估模型进行数据条目相似度评估；

当所述数据条目的自然语言字段中嵌入自然语言型的数据水印，对所述数据水印嵌入前后的自然语言字段应用空间向量模型进行解构分词，并对解构分词结果通过余弦向量数据相似度评估模型进行数据条目相似度评估。

优选的，按下式进行内容块数据水印相似度评估：

式中：δ表示内容块数据水印相似度；N表示内容块中数据条目的总数量；C_i表示第i个数据条目的数据条目相似度。

优选的，按下式评估所述目标数据整体的相似度：

/>

式中：θ表示目标数据整体的相似度；M表示目标数据中内容块的总数量；δ_i表示第i个内容块的内容块数据水印相似度。

基于同一发明构思，本发明还提供了一种目标数据的数据水印嵌入***，包括：

嵌入模块，用于将待嵌入数据水印的目标数据划分为多个内容块，在每个内容块中嵌入数据水印；

数据条目相似度评估模块，用于采用预先设置的数据相似度评估模型对嵌入数据水印后的数据条目进行数据条目相似度评估；

内容块相似度评估模块，用于基于组成内容块的所有数据条目的数据条目相似度进行内容块数据水印相似度评估，当各内容块数据水印相似度均满足第一阈值范围时，执行整体相似度评估模块，否则调整不满足第一阈值范围的内容块中数据水印的嵌入比例和/或位置，执行所述数据条目相似度评估模块；

整体相似度评估模块，用于基于组成目标数据的所有内容块的数据水印相似度计算所述目标数据整体的相似度，当所述目标数据整体的相似度满足第二阈值范围时，完成数据水印的嵌入，否则调整一个或多个内容块中数据水印的嵌入比例和/或位置，执行所述数据条目相似度评估模块。

优选的，所述数据条目相似度评估模块，具体用于：

与现有技术相比，本发明的有益效果为：

本发明提供的技术方案，S1将待嵌入数据水印的目标数据划分为多个内容块，在每个内容块的数据条目中嵌入数据水印；S2采用预先设置的数据相似度评估模型对嵌入数据水印后的数据条目进行数据条目相似度评估；S3基于组成内容块的所有数据条目的数据条目相似度进行内容块数据水印相似度评估，当各内容块数据水印相似度均满足第一阈值范围时，执行S4，否则调整不满足第一阈值范围的内容块中数据水印的嵌入比例和/或位置，执行S2；S4基于组成目标数据的所有内容块的数据水印相似度计算所述目标数据整体的相似度，当所述目标数据整体的相似度满足第二阈值范围时，完成数据水印的嵌入，否则调整一个或多个内容块中数据水印的嵌入比例和/或位置，执行S2。本发明依次根据数据条目、内容块和数据整体的数据水印相似度评估结果，动态的调整嵌入内容块的数据水印，以最终实现数据水印嵌入后的高隐蔽性和高仿真性。

附图说明

图1为本发明提供的一种目标数据的数据水印嵌入方法流程图；

图2为本发明实施例提供的一种目标数据的数据水印嵌入***示意图。

具体实施方式

为了更好地理解本发明，下面结合说明书附图和实例对本发明的内容做进一步的说明。

实施例1：如图1所示，为满足上述现有技术中的迫切需求，本发明提供了一种目标数据的数据水印嵌入方法，包括：

其中，调整数据水印的嵌入比例和/或位置，包括：

本发明依次根据数据条目、内容块和数据整体的数据水印相似度评估结果，通过动态的调整嵌入目标数据的数据水印，使嵌入数据水印后的内容块相似度和目标数据整体的相似度分别满足设置的阈值范围，以最终实现数据水印嵌入后的高隐蔽性和高仿真性。

本实施例中S1将待嵌入数据水印的目标数据划分为多个内容块，在每个内容块的数据条目中嵌入数据水印，包括：

对于组成内容块的各数据条目，根据数据条目中的字段类型，选择对应类型的数据水印并嵌入，为了提高数据水印嵌入的信息容量，目标数据中数据水印嵌入的比例为100％。

具体包括：

S2采用预先设置的数据相似度评估模型对嵌入数据水印后的数据条目进行数据条目相似度评估，即根据不同的数据水印嵌入算法，选择合适的数据相似度评估模型，进行数据水印条目的相似度评估，包括：

本实施例中的相似度指对于某一类型的数据，经数据水印嵌入后，其数据类型特征应不发生变化，如果发生变化，其数据水印条目的相似度评估结果为0。

例如手机号码类型的数据，现有的手机号码为11位，其中前3位表示网络识别号，第4～7位表示地区编码，第8～11位表示用户号码，在数据水印嵌入后，应仍然符合手机号码的数据类型特征。

(1)对于数值型的数据水印嵌入后，应对数据水印嵌入前后的数值，进行解构分词，并通过欧几里得距离向量数据相似度评估模型进行相似度评估，评估结果为D。

例如手机号码类型的数据，数据水印嵌入前后的值分别为P和P’，经过结构分词，每一位数字都应是独立的单位，即P＝{N1、N2、……、N11}，P’＝{N’1、N’2、……、N’11}；然后带入欧几里得数据相似度评估模型，计算相似度

(2)对于字符文本型的数据水印嵌入后，应对数据水印嵌入前后的ASCII码值解构，并通过余弦向量数据相似度评估模型进行相似度评估，评估结果为C。

例如微信账号类型的数据，数据水印嵌入前后的值分别为Pi和Pi’，经过ASCII码值解构，每一位数字都应是独立的单位，即P＝{N1、N2、……、Nn}，P’＝{N’1、N’2、……、N’n}；然后带入余弦数据相似度评估模型，计算相似度

(3)对于自然语言类型的数据水印嵌入后，应用空间向量模型对数据水印嵌入前后的进行解构分词，并对解构分词结果通过余弦向量数据相似度评估模型进行数据相似度评估。

电力业务涉及到自然语言的数据具有显著的专业特征，如检修地址、扩装地址等地址类数据；运行术语、电气量术语等电力专业术语数据；面向居民的姓名等等，可形成电力业务自然语言数据特色分词库。

对添加数据水印前后的电力业务涉及到自然语言的数据经分词处理，得到的向量表达式为O＝{O1、O2、……、On}和O’＝{O’1、O’2、……、O’n}，带入余弦数据相似度评估模型，计算相似度

S3基于组成内容块的所有数据条目的数据条目相似度进行内容块数据水印相似度评估，当各内容块数据水印相似度均满足第一阈值范围时，执行S4，否则调整不满足第一阈值范围的内容块中数据水印的嵌入比例和/或位置，执行S2，包括：

根据组成内容块的所有数据条目的数据条目相似度进行二级相似度计算，即内容块数据水印相似度。内容块的大小根据具体业务场景由用户设定，例如为了查阅方便，内容块的大小可以被设置成20行、50行、或者100行。

以内容块大小为N行的数据为例，按照S2中提供的方法进行数据水印条目的相似度评估，评估结果记为C，那么该内容块全部嵌入数据水印后的二级相似度为

判断各内容块的数据水印相似度是否满足第一阈值范围，当各内容块数据水印相似度均满足第一阈值范围时，执行S4，否则调整不满足第一阈值范围的内容块中数据水印的嵌入比例和/或位置，执行S2，

本实施例中对内容块相似度不满足阈值范围时采取的方法进行具体介绍：

方法一、动态的调整数据水印添加的比例，包括：

上述过程具体包括：当某数据内容块全部嵌入数据水印的二级相似度超过了第一阈值范围中的最大值，可通过降低数据水印的嵌入比例，保证数据水印嵌入前后的二级相似度，例如数据水印的嵌入比例可以设置为50％、30％或者20％等等。

当某数据内容块嵌入数据水印后的二级相似度小于第一阈值范围中的最小值，可通过提高数据水印的嵌入比例，尽可能的提高数据水印嵌入容量，例如数据水印的嵌入比例可以设置为20％、30％或者50％等等。

当组成给内容块的数据条目中包含多种字段类型时，可以采用方法二、动态的调整数据水印添加的位置，包括：

本实施例中调整数据水印添加的位置，具体包括：当某数据内容块中的数据条目既包括了数值，又包括了文本、自然语言，可以先按照固定的数据水印的嵌入比例，分别在数值字段，或者文本字段，或者自然语言字段添加数据水印，并按照S2提供的方法分别计算嵌入字段，或者文本，或者自然语言数据水印后的条目相似度，选择条目相似度最大的位置作为水印添加最优位置，并删除该条目中添加的原始数据谁赢，根据条目相似度计算二级相似度，以实现在保障嵌入数据水印后的二级相似度满足阈值的前提下，尽可能的提高数据水印嵌入容量。

S4基于组成目标数据的所有内容块的数据水印相似度计算所述目标数据整体的相似度，当所述目标数据整体的相似度满足第二阈值范围时，完成数据水印的嵌入，否则调整一个或多个内容块中数据水印的嵌入比例和/或位置，执行S2，包括：

当嵌入数据水印后的二级相似度满足阈值范围，同时尽可能的提高数据水印嵌入容量后，根据所有内容块的二级相似度计算数据水印嵌入目标数据整体的相似度，即三级相似度，当三级相似度满足第二阈值范围时，完成数据水印的嵌入，否则调整一个或多个内容块中数据水印的嵌入比例和/或位置，执行S2。

当三级相似度不满足第二阈值范围时，可以通过下列调整比例的方式进行动态调整：

即当目标数据的整体相似度不满足第二阈值范围时，则需要调整一个或多个内容块中嵌入数据水印的比例至预设比例。

当三级相似度不满足第二阈值范围时，且要调整的内容块中，组成内容块的数据条目含有多种类型的字段时，可以调整数据水印嵌入数据条目中的位置使三级相似度满足第二阈值范围，从而完成数据水印的嵌入过程。

本实施例以将某个目标数据整体分割成M个大小的内容块为例，在各内容块中嵌入数据水印后进行数据水印条目的相似度评估，然后基于数据水印条目的相似度评估内容块的相似度，评估结果记为δ，那么该目标数据的内容块全部嵌入数据水印后的三级相似度为

如果θ超过了设定的第二阈值范围的最大值时，调整数据水印的嵌入比例和/或位置，提高δ值进而提高θ值，最终提高数据水印嵌入数据整体后的相似度。

如果θ距离设定的第二阈值范围的最小值较大时，调整数据水印的嵌入比例和/或位置，提高数据水印嵌入比例，以实现在保障嵌入数据水印后的三级相似度的前提下，尽可能的提高数据水印嵌入容量。

本发明实施例为了达到数据水印嵌入目标数据后实现高隐蔽性和高仿真性这一目的，根据不同的数据水印算法的相似度评估结果，选择合适的水印添加的比例、分布策略，以最终实现数据水印嵌入后的高隐蔽性和高仿真性。

实施例2：基于同一发明构思，本发明还提供了一种目标数据的数据水印嵌入***，如图2所示包括：

该***一方面通过数据相似度评估模型进行数据水印条目、数据水印嵌入内容块、数据水印嵌入数据整体的相似度评估，另一方面根据评估结果，动态的调整水印添加的比例、分布位置，以满足用户设定的流转数据的相似度阈值，整体保障数据水印嵌入的隐蔽性和高仿真性。

实施例中，所述***还包括调整模块，用于调整数据水印的嵌入比例和/或位置。

所述调整模块包括：

第一调整单元，用于当数据条目中包含单一类型字段时，调整数据水印的嵌入比例；

第二调整单元，用于当数据条目中包含多种类型字段时，调整数据水印的嵌入比例和/或位置。

所述调整模块还包括：比例调整单元，具体用于：

所述调整模块还包括：位置调整单元，具体用于：

实施例中，所述数据条目中的字段类型包括如下任一种或多种：

数值字段、文本字段和自然语言字段。

实施例中，所述嵌入模块具体用于：

实施例中，数据条目相似度评估模块，具体用于：

实施例中，按下式进行内容块数据水印相似度评估：

实施例中，按下式评估所述目标数据整体的相似度：

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本发明的实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均包含在申请待批的本发明的权利要求范围之内。

Claims

1.一种目标数据的数据水印嵌入方法，其特征在于，包括：

S2采用预先设置的数据相似度评估模型对嵌入数据水印前的数据条目和嵌入数据水印后的数据条目，进行数据条目相似度评估；

S3基于嵌入数据水印前的组成内容块的所有数据条目的数据条目和嵌入数据水印后的组成内容块的所有数据条目的数据条目，进行内容块数据水印相似度评估，当各内容块数据水印相似度均满足第一阈值范围时，执行S4，否则调整不满足第一阈值范围的内容块中数据水印的嵌入比例和/或位置，执行S2；

S4基于嵌入数据水印前的组成目标数据的所有内容块的数据整体，和嵌入数据水印后的组成目标数据的所有内容块的数据整体，进行目标数据整体的相似度计算，当所述目标数据整体的相似度满足第二阈值范围时，完成数据水印的嵌入，否则调整一个或多个内容块中数据水印的嵌入比例和/或位置，执行S2。

2.如权利要求1所述的方法，其特征在于，调整数据水印的嵌入比例和/或位置，包括：

3.如权利要求2所述的方法，其特征在于，所述调整数据水印的嵌入比例，包括：

4.如权利要求2所述的方法，其特征在于，所述调整数据水印的嵌入位置，包括：

5.如权利要求2或4任一项所述的方法，其特征在于，所述数据条目中的字段类型包括如下任一种或多种：

数值字段、文本字段和自然语言字段。

6.如权利要求5所述的方法，其特征在于，在所述数据条目中嵌入数据水印，包括：

7.如权利要求1所述的方法，其特征在于，所述采用预先设置的数据相似度评估模型对嵌入数据水印后的数据条目进行数据条目相似度评估，包括：

8.如权利要求1所述的方法，其特征在于，按下式进行内容块数据水印相似度评估：

9.如权利要求1所述的方法，其特征在于，按下式评估所述目标数据整体的相似度：

10.一种目标数据的数据水印嵌入***，其特征在于，包括：

嵌入模块，用于将待嵌入数据水印的目标数据划分为多个内容块，在每个内容块的数据条目中嵌入数据水印；

数据条目相似度评估模块，用于对嵌入数据水印前的数据条目，和嵌入数据水印后的数据条目，进行数据条目相似度评估；

内容块相似度评估模块，用于对嵌入数据水印前的组成内容块的所有数据条目的数据条目，和嵌入数据水印后的组成内容块的所有数据条目的数据条目，进行内容块数据水印相似度评估，当各内容块数据水印相似度均满足第一阈值范围时，执行整体相似度评估模块，否则调整不满足第一阈值范围的内容块中数据水印的嵌入比例和/或位置，执行所述数据条目相似度评估模块；

整体相似度评估模块，用于对嵌入数据水印前的基于组成目标数据的所有内容块的数据整体，和嵌入数据水印后的组成目标数据的所有内容块的数据整体，进行整体相似度评估，当数据整体的相似度满足第二阈值范围时，完成数据水印的嵌入，否则调整一个或多个内容块中数据水印的嵌入比例和/或位置，执行所述数据条目相似度评估模块。

11.如权利要求10所述的***，其特征在于，所述数据条目相似度评估模块，具体用于：