CN114553811B - 基于时间戳调制和载体选择的高容量行为隐写方法 - Google Patents
基于时间戳调制和载体选择的高容量行为隐写方法 Download PDFInfo
- Publication number
- CN114553811B CN114553811B CN202210015282.7A CN202210015282A CN114553811B CN 114553811 B CN114553811 B CN 114553811B CN 202210015282 A CN202210015282 A CN 202210015282A CN 114553811 B CN114553811 B CN 114553811B
- Authority
- CN
- China
- Prior art keywords
- mapping
- keywords
- blog
- secret
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/06—Message adaptation to terminal or network requirements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/06—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols the encryption apparatus using shift registers or memories for block-wise or stream coding, e.g. DES systems or RC4; Hash functions; Pseudorandom sequence generators
- H04L9/0618—Block ciphers, i.e. encrypting groups of characters of a plain text message using fixed encryption transformation
- H04L9/0631—Substitution permutation network [SPN], i.e. cipher composed of a number of stages or rounds each involving linear and nonlinear transformations, e.g. AES algorithms
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/32—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials
- H04L9/3297—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols including means for verifying the identity or authority of a user of the system or for message authentication, e.g. authorization, entity authentication, data integrity or data verification, non-repudiation, key authentication or verification of credentials involving time stamps, e.g. generation of time stamps
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Storage Device Security (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明属于通信技术领域,公开一种基于时间戳调制和载体选择的高容量行为隐写方法,包括:在传递秘密信息时,首先将秘密信息映射为一组高频关键字并分组,然后在社交网络平台寻找含有该分组的关键词博文,接着根据关键词在博文中的位置调制行为的时间戳,最后根据能够确定关键词在博文中的位置时间戳产生行为,并将关键词博文发布至社交网络,进而实现隐蔽通信。本发明方法中的秘密信息由博文携带,映射的关键词位置由时间戳确定,不修改博文内容,保证了博文的自然性;将时间戳映射到关键词,将行为隐写从比特级别提升到单词级别。
Description
技术领域
本发明属于通信技术领域,尤其涉及一种基于时间戳调制和载体选择的高容量行为隐写方法。
背景技术
隐写术是一种在公开的信道上传递秘密数据,而不被第三方感知的通信技术。社交网络因用户在地域上分布广泛、使用场景丰富和数据量庞大等特点,成为隐写的理想载体。它允许发送者与接收者不建立点对点的信道来实现隐蔽通信,通信行为难以引起第三方的特别关注,保证了通信的隐蔽性与接收双方的安全性。因而,研究针对社交网络的隐写方法,具有重要的理论意义与现实价值,它引起了本领域学者的广泛关注。
基于社交网络隐写方法的载体有图像、文本、音频、视频、行为等。根据嵌入的原理不同,隐写可以分为载体选择,载体修改和载体合成。基于社交网络载体选择隐写包含图像选择,文本选择隐写和视频的载体选择隐写等。他们的嵌入原理是根据载体的属性设计相应的属性值,发送秘密信息时以秘密信息为驱动力,致力于通过构建的载体数据库寻找符合秘密信息的载体。其特点是不修改载体数据,能够有效抵抗隐写分析的攻击,但嵌入容量较低仍是该类方法目前面临的挑战。基于社交网络的载体修改隐写分为图像修改隐写,文本修改隐写、音频修改隐写及视频修改隐写。它们利用人类眼睛或耳朵的掩蔽特性和数字载体的冗余特性,通过轻微地修改社交网络载体将秘密信息嵌入到载体中。该类方法的特点是嵌入容量较高,部分方法的鲁棒性及抗检测性拥有良好的性能,但随着机器学习的发展载体修改隐写可能面临着新的威胁。基于社交网络的载体生成隐写分为图像生成式隐写[文献1:Yue Yin,Hanzhou Wu,and Xinpeng Zhang.Neural visual social comment onimage-text content.IETE Technical Review,38(1):100–111,2021.]、文本生成式隐写[文献2:Zhongliang Yang,Xiaoqing Guo,Ziming Chen,Yongfeng Huang,and YujinZhang.Rnnstega:Linguistic steganography based on recurrent neuralnetworks.IEEE Transactions on Information Forensics and Security,14(5):1280–1295,2018.]、音频生成式隐写等。早期的生成式方法符合统计特征,但由于算法与计算力的限制,导致内容不符合常识、容易被识破。随着人工神经网络的发展与算力的提升,生成的载密多媒体统计特征和内容更加自然,其质量得到显著提升。然而,近期Yang等人指出生成的隐写文本质量越好,隐蔽性不一定越高[文献3:Zhongliang Yang,Siyu Zhang,YutingHu,Zhiwen Hu,and Yongfeng Huang.Vae-stega:linguistic steganography based onvariational auto-encoder.IEEE Transactions on Information Forensics andSecurity,16:880–895,2020.],这引起了部分专家学者的担忧。
近年来,社交网络得到了高速发展。学者们意识到社交网络不仅存在庞大的多媒体数据还拥有丰富的行为,比如点赞、转发、发布、评论和分享,开始尝试利用社交行为实现隐蔽通信。Nechta[文献4:Ivan Nechta.Steganography in social networks.InProceedings of the 2017Siberian Symposium on Data Science and Engineering,pages 33–35,2017.]等人提出一种通过加好友的行为来进行隐蔽通信的方法。Wu等人[文献5:Hanzhou Wu,Wei Wang,Jing Dong,and Hongxia Wang.New graph-theoreticapproach to social steganography.In Proceedings of the 2019IS&T InternationalSymposium on Electronic Imaging:Media Watermarking,Security,and Forensics,pages 539–1–539–6,2019.][文献6:Hanzhou Wu,Limengnan Zhou,Junchen Li,andXinpeng Zhang.Securing graph steganography over social networks viainteraction remapping.In Proceedings of the 6th International Conference onArtificial Intelligence and Security,pages 303–312,2020.]通过构建图结构在社交网络上进行隐蔽通信。该类方法不修改载体内容,鲁棒性较高,隐蔽性较强,但嵌入容量仍有待提高。
发明内容
本发明针对当前的社交网络隐写方法在嵌入容量方面还存在一定的局限性的问题,提出一种基于时间戳调制和载体选择的高容量行为隐写方法。
为了实现上述目的,本发明采用以下技术方案:
一种基于时间戳调制和载体选择的高容量行为隐写方法,包括:
在传递秘密信息时,首先将秘密信息映射为一组高频关键字并分组,然后在社交网络平台寻找含有该分组的关键词博文,接着根据关键词在博文中的位置调制行为的时间戳,最后根据能够确定关键词在博文中的位置时间戳产生行为,并将关键词博文发布至社交网络,进而实现隐蔽通信。
进一步地,包括:
步骤1:首先结合秘密单词与公开词频表生成自建词频表,接着通过自建词频表与公开的高频表构建映射关系表,最后,将秘密信息中的单词、即秘密关键词经秘钥置乱后的映射关系表转换生成映射关键词,通过各映射关键词组成映射关键词表;
步骤2:与社交网络进行自动化交互,测量一段时间内行为是否存在时延,并获得最大的行为时延;
步骤3:根据在每个博文中设定的初始关键词数量,从映射关键词表中取出一组词作为映射分组,在社交网络中动态地检索包含该映射分组的博文作为映射博文;如果找不到包含映射分组的映射博文则缩短初始关键词数量,继续检索;如果检索到,则保存该博文的链接,并根据初始关键词数量从映射关键词表中取出下一组映射分组继续检索,直至映射关键词表中的映射关键词被全部检索完为止;
步骤4:通过时间戳隐藏映射关键词位置时,发送者首先从所有映射分组中提取所有映射关键词的位置组成映射位置序列,并将映射位置序列转为位置二进制字符串;然后,根据普通博文的时间戳和载密行为的时间戳所能够负载二进制的长度对位置二进制字符串进行分割;最后,根据分割的二进制字符串调制时间戳序列、即载密时间戳序列;所述普通博文指社交网络上能够被检索的博文,其时间戳已经存在,不再受行为时延的影响;
步骤5:发送者账号在载密时间戳对应的时间与映射博文、普通博文进行互动,生成载密行为,将秘密信息发布至社交网络;
步骤6:根据发送者共享的映射关系表和账号信息,接收者从社交网络对应账号提取一段时间内的互动行为数据;
步骤7:通过互动行为数据提取时间戳信息时,根据秘钥和标识字段识别载密时间戳;
步骤8:根据载密时间戳确定映射博文中关键词的位置,使用映射关系表将对应位置的映射关键词转为秘密关键词;
步骤9:依次合并秘密关键词,得到秘密信息。
进一步地,所述映射关系表的构建过程如下:
首先初始化一个值为0的计数器,获取由常用的秘密关键词组成的词频表Tf中秘密关键词在公开的词频表Tw中的索引位置,并将该关键词与Tw对应索引位置的关键词作为一组关系加入到映射关系表Mr中;重复以上步骤可完成常用秘密关键词追加到Mr中,每追加一次,计数器递增1;接着,获取位于Tw却不位于Tf中的关键词,将该关键词与Tw中计数器所在位置的关键词作为一组关系追加到Mr中。
进一步地,所述步骤3包括:
首先从映射关键词表Tm中取li个映射关键词;接着,在社交网络中寻找包含该li个映射关键词的映射博文;若没有找到,则将上轮寻找的关键词数量减1继续寻找;如果找到了一个博文,则将关键词数量设为li继续寻找,直至所有的映射关键词都隐藏在找到的映射博文中;如果一篇映射博文中关键词的实际数量lr=0时仍未找到,则表示检索失败。
进一步地,所述载密行为的时间戳所能够负载二进制的长度lt通过下式得出:
lv=(10b-1)/(dmax+1) (2)
其中b表示时间戳的最后b个数字编码位置信息,dmax表示一段时间内的最大行为时延,lv表示实际能够用来编码信息的数量。
进一步地,所述普通博文的时间戳所能够负载二进制的长度lo通过下式得出:
其中tc表示发送者将要发送秘密信息时的时间戳;ts表示社交网络一个博文的时间戳,当ts是此社交网络最早的时间戳时,lo取到最大值。
与现有技术相比,本发明具有的有益效果:
针对当前的行为隐写在嵌入容量方面还存在一定的局限性的问题,本发明提出一种基于时间戳调制和载体选择的高容量行为隐写方法,在传递秘密信息时,本发明方法首先将秘密信息映射为一组高频关键字并分组,其次在社交网络平台寻找含有该分组的关键词博文,接着根据关键词在博文中的位置调制行为的时间戳,最后根据能够确定关键词在博文中的位置时间戳产生行为,并将关键词博文发布至社交网络,进而实现隐蔽通信。在提取秘密信息时,接收者利用共享的秘钥、社交网络账号提取秘密信息。该方法的秘密信息由博文携带,映射的关键词位置由时间戳确定,不修改博文内容,保证了博文的自然性;将时间戳映射到关键词,大大提高了嵌入容量。经过主流社交网络平台的实测,与现有社交网络典型行为隐写方法相比,嵌入容量提升了29.23-51.47倍,与生成式文本隐写相比,嵌入容量提升了16.26%-23.94%。另外,本发明使用自适应检索映射博文算法,保证了秘密信息发送的成功率。
附图说明
图1为本发明实施例一种基于时间戳调制和载体选择的高容量行为隐写方法的基本流程图;
图2为本发明实施例生成载密时间戳序列的示意图;
图3为本发明实施例检索到的博文示例图;
图4为本发明实施例鲁棒性分析实验结果;
图5为本发明实施例嵌入容量分析实验结果;
图6为本发明实施例发送一条完整秘密信息各分组携带的比特数;
图7为本发明实施例发送相同比特各方法所产生的行为数量;
图8为本发明实施例参数li的选择实验结果。
具体实施方式
下面结合附图和具体的实施例对本发明做进一步的解释说明:
为了实现社交网络行为的大容量信息隐藏,同时保证行为及行为携带内容的自然性,我们采用了一种将行为的时间属性与载体选择相结合的隐蔽通信方法、即基于时间戳调制和载体选择的高容量行为隐写方法。该方法将秘密信息转换为高频的映射关键词,自适应地在社交网络中检索符合条件的关键词博文,根据行为时延动态地使用行为属性指向关键词在博文中的位置,进而大幅度提高行为隐写的嵌入容量。
本发明在传递秘密信息时,首先将秘密信息映射为一组高频关键字并分组,然后在社交网络平台寻找含有该分组的关键词博文,接着根据关键词在博文中的位置调制行为的时间戳,最后根据能够确定关键词在博文中的位置时间戳产生行为,并将关键词博文发布至社交网络,进而实现隐蔽通信。
具体地,一种基于时间戳调制和载体选择的高容量行为隐写方法,共有9个步骤,如图1所示,Step 1-5属于嵌入过程,Step 6-9属于提取过程:
Step1:映射秘密信息。该步骤的目的是将秘密信息中的单词映射为一组映射关键词。首先结合常用的秘密单词与公开词频表生成一个名为自建词频表的表。接着通过自建词频表与公开的高频表结合,构建一个名为映射关系表的表。秘密信息中的单词称为秘密关键词。最后,将秘密关键词经秘钥置乱后的映射关系表转换生成映射关键词,映射关键词形成的表称为映射关键词表。
Step2:测量行为时延。测量行为时延的目的是解决社交网络行为的延迟对行为时间戳造成的影响。与社交网络进行自动化交互,测量一段时间内行为是否存在时延并获得最大的行为时延。
Step3:自适应检索映射博文。该步骤的目的是找到一组可以涵盖所有秘密的博文。根据在每个博文中设定的初始关键词数量,从映射关键词表中取出一组词,该组词称为映射分组。在社交网络中动态地检索包含该映射分组的博文,该博文称为映射博文。如果找不到包含映射分组的映射博文则缩短初始关键词数量,继续检索。如果检索到,则保存该博文的链接,并根据初始关键词数量从映射关键词表中取出下一组映射分组继续检索,直至映射关键词表中的映射关键词被全部检索为止。
Step4:生成载密时间戳序列。生成载密时间戳序列的目的是在时间戳中隐藏映射关键词在映射博文中的位置。社交网络上能够被检索的博文,其时间戳已经存在,不再受行为时延的影响,该博文称为普通博文。为了隐藏映射关键词位置,发送者与映射博文、普通博文在特定的时间戳产生的互动行为称为载密行为。映射关键词在映射博文中的位置由普通博文的时间戳和载密行为的时间戳共同指定,其示意图如图2所示。在图2中,彩色字体(即t1,t2,t4,t5,t7,t8等)表示载密行为的时间戳,黑色字体表示普通博文的时间戳(即t3,t6,t9等)。通过时间戳隐藏映射关键词位置时,发送者首先从所有映射分组中提取所有映射关键字的位置组成映射位置序列,并将映射位置序列转为位置二进制字符串。其次,根据普通博文的时间戳和载密行为的时间戳所能够负载二进制的长度对位置二进制字符串进行分割。最后,根据分割的二进制字符串调制时间戳序列,该序列称为载密时间戳序列。载密时间戳序列中有两种时间戳,一种时间戳是普通博文的时间戳,它们已在社交网络中存在的,一种时间戳是载密行为的时间戳,它们还未发生。
Step5:生成载密行为。生成载密行为的目的是将秘密信息发布至社交网络。发送者账号在载密时间戳对应的时间与映射博文、普通博文进行互动,生成载密行为,将秘密信息发布至社交网络。
以下为秘密信息的提取步骤:
Step6:提取互动行为数据。提取互动行为数据的目的是从发送者共享的账号中提取数据,为了提取秘密关键词做准备。根据发送者共享的映射关系表和账号等信息,接收者从社交网络对应账号提取一段时间内的互动行为数据,该数据包含发布的博文、转发的博文、评论和点赞等行为。
Step7:提取时间戳。提取时间戳的目的是为了获得关键词位置。通过互动行为数据提取时间戳信息时,根据秘钥和标识字段识别载密时间戳。
Step8:提取秘密关键词。根据载密时间戳确定映射关键词博文中关键词的位置,使用映射关系表将对应位置的映射关键词转为秘密关键词。本步骤是Step4的逆过程。
Step9:合并秘密信息分组。依次合并秘密关键词,得到秘密信息。
本方法主要有3个关键步骤,分别是:映射秘密信息、自适应检索映射博文和生成载密时间戳序列,接下来将依次介绍关键步骤的细节。
(1)映射秘密信息
在传递秘密信息时,如果直接使用博文携带秘密关键词将产生两个问题。第一,秘密关键词未必是常用的词,甚至在公开词频表中也不包含某些偏僻的秘密关键词,若在博文中直接出现可能导致异常。第二,非常用关键词在社交网络中出现的概率较低可能不易被检索。为此,我们将采取两个措施来解决这两个问题。一方面,将常用的秘密关键词与公开的词频表相结合构建一个自建词频表,也就是说自建词频表包含了秘密关键词和公开词频表。另一方面,在自建词频表与公开词频表间构建映射关系,其原则是常用的秘密关键词映射为公开词频表中的高频词,自建词频表中那部分公开词频表的高频词映射到公开词频表中的高频词。这样,秘密关键词不会直接出现在博文中,第一个问题得到了解决;秘密关键词被映射为高频词,易于在社交网络中被检索,第二个问题得到了解决。
发送者拟发送的秘密关键词表Ts通过置乱后的映射关系表Mv被转换为映射关键词表Tm的过程可形式化为:
Tm=Mv(Ts,k,Mr) (1)
公式1中,k表示秘钥,Mr表示映射关系表。
自建词频表由常用的秘密关键词组成的词频表Tf和公开的词频表Tw构成,Mr的构建过程如算法1所示。
算法1映射关系表生成算法
算法1的输入是公开词频表Tw和秘密关键词组成的词频表Tf,输出是映射关系表Mr。该算法首先初始化一个值为0的计数器,获取Tf中秘密关键词在Tw中的索引位置,并将该关键词与Tw对应索引位置的关键词作为一组关系加入到映射关系表Mr中。重复以上步骤可完成常用秘密关键词追加到Mr中,每追加一次,计数器递增1。接着,获取位于Tw却不位于Tf中的关键词,将该关键词与Tw中计数器所在位置的关键词作为一组关系追加到Mr。通过算法1可以发现,自建词频表中少量的低频次被忽略。
(2)自适应检索映射博文
在社交网络上检索映射分组时,设定的初始关键词数量li。使用算法2可自适应地确定一篇映射博文中关键词的实际数量lr。
算法2自适应检索映射博文算法
算法2首先从映射关键词表Tm中取li个映射关键词。接着,在社交网络中寻找包含这li个映射关键词的映射博文。若没有找到,则将上轮寻找的关键词数量减1继续寻找。如果找到了一个博文,则将关键词数量设为li继续寻找,直至所有的映射关键词都隐藏在找到的映射博文中。如果lr=0时仍未找到,则表示检索失败,这种情况几乎不会发生。当本步骤无法在社交网络中找到同时包含li个映射博文时,此时该博文中映射关键词的实际数量lr<li。
值得注意的是,li的设定会影响检索效率。当li设置的过大时,同时包含li个映射关键词的博文可能无法在社交网络中被检索,这将导致关键词数量不断减小,每减小一次就会消耗一次的时间。
(3)生成载密时间戳序列
在本实施例中普通博文的时间戳和互动行为的时间戳被用来隐藏映射关键词的位置。本步骤主要聚焦于3个有关于时间戳的问题。第一,影响时间戳中的秘密信息不能被正确提取的因素。第二,时间戳能够携带的信息量。第三,秘密信息被转换为时间戳的过程。
首先,我们来考虑第一个问题。生活中经常出现这样的情况:当我们访问某个网站时,可能需要等待短暂的时间,才能够看到页面的内容。实际上,在社交网络发布博文时,可能需要等待一会,这个博文才能被其它用户看到,即使这段时间非常短暂。这种情况就是行为时延,它可能导致秘密信息不能被正确地嵌入到行为的时间戳中。例如,某发送者拟传递一个十进制数字2,在时间戳1635150139时开始隐藏信息。那么,在1635150141时评论了某个用户的博文就能将2发送出去。然而,评论的行为因为一系列请求被延迟,在时间戳1635150142时才被社交网络记录。当接收提取秘密信息时,将1635150142与1635150139相减得到了3。此时,接收提取到了错误的秘密信息。为了解决此问题,发送者在发送秘密信息前,需要测量社交网络在一段时间内的最大的行为延迟dmax。在发送秘密信息时,将秘密信息转化为十进制并乘以dmax+1就能防止秘密数据出现错误。具体分析可见后续鲁棒性分析部分。
lv=(10b-1)/(dmax+1) (2)
公式2中的b表示时间戳的最后b个数字编码位置信息,dmax表示一段时间内的最大行为时延,lv表示实际能够用来编码信息的数量。
此外,普通博文的时间戳to是确定的,它能够携带的比特长度为lo,其计算公式如下:
tc表示发送者将要发送秘密信息时的时间戳,ts表示某社交网络一个博文的时间戳,当ts是此社交网络最早的时间戳时,to取到最大值。对于Twitter来说,当ts为是Twitter平台第一篇博文的时间戳时,lo能取到最大值。发送者控制的账号与映射博文进行互动的时间戳记为tm,与普通博文交互的时间记为tb。普通博文已有的时间戳记为to。如果对应到图2中,tm,tb,to可以分别是t1,t2,t3。
于是,发送者在社交网络上与一个映射博文和普通博文进行互动就能够传送秘密信息,这两个行为能够用于编码映射关键词位置的比特数ls为:
算法3载密时间戳生成算法
最后,一个载密时间戳生成算法被给出,如算法3所示,这里的输入参数Sp表示映射分组,St表示生成的时间戳序列,n表示发送者的账号数量。该算法根据给出的tc,ts等计算出不同类型的时间戳所能隐藏的信息量,并最终生成一个载密时间戳序列。
算法3的目的是将秘密信息生成一系列载密的时间戳。它首先获取用户设置的初始化参数,计算用户生成的行为与普通博文时间戳所能携带秘密信息的大小。接着,获取秘密映射关键词在检索到的映射博文中的位置。然后,将十进制的位置信息转为二进制数据并拼接成二进制字符串。最后将二进制字符串根据规则与时间戳进行运算得到十进制序列。
为更好的理解本发明,使用一个的例子简要描述秘密信息的嵌入和提取过程。假设传递的秘密信息为“This is a secret message.”,他们映射关键词分别为“can”、“a”、“good”、“not”、“search”和“.”,它们构成一个映射分组。tc=1633017600,ts=1577808000,b=3,d=2。这意味着开始计算的时间戳为1577808000,当前时间戳为1633017600,发送者产生行为的时间戳最后3位被用来隐藏关键词位置信息。由公式2,3,4,5计算,lo=25,lt=8,ls=41。在社交网络上搜索含有该映射分组的映射博文,其中一个结果如图3所示。映射关键词在该博文中的位置分别是9,19,27,13,22,30。
将位置转换为二进制,并被分割成3组,每组长度分别为8,25,8,再将其转为十进制。tm=tc+37*(dmax+1)=1633017711,to=tm-7183027=1625835084,tb=tm+192*(dmax+1)=1633018687。计算过程及数据如表1所示。因此,发送秘密信息时,发送者转发在2021-10-01 00:01:51转发图3左边的载密博文,即可将关键词发送出去,在2021-10-01 00:09:36与图3右侧的博文互动即可将关键词的位置发送出去。对应到图2中,tm相当于t1,tb相当于t2,to相当于t3。秘密信息提取时发送的逆过程,在此不再赘述。
表1发送秘密信息时的计算过程
对本发明方法的鲁棒性及嵌入容量进行分析:
嵌入容量、鲁棒性是衡量隐写方法性能的重要指标。嵌入容量是指每个行为所携带的比特数,鲁棒性是指载密数据受到攻击者或信道攻击仍能成功通信的特性。本实施例将从这两个方面分析提出方法的性能。
(a)鲁棒性
本发明除了使用文本来隐藏映射关键词外,还使用了时间戳来隐藏关键词所在的位置。一般来说,文本数据在社交网络上能稳定存在,除空白字符外的文本内容并不会被修改。本方法威胁鲁棒性的因素来源于时间戳,因为它要求预期行为执行的时间与社交网络所记录的时间相同,而实际上难以满足这个条件。这里的行为时延指某行为发出后在信道传输、服务器处理、存储和响应的时间总和。例如,在Weibo发布一篇含有图像的博文,发送者在2021-10-01 00:00:00发布一篇博文,发送请求经服务器处理,在该平台显示的发布时间是2021-10-01 00:00:01,那么就有了1秒行为时延。
图4中(a)是Weibo、Twitter和Facebook在某段时间内的行为的执行情况,实线表示执行某行为的时间,虚线表示执行某行为的预期时间,可以发现实际时间与预期时间大多数情况下并不重合,这表明行为时延大多数情况下是存在的。在图4中(b)是实际时间与预期时间做差得到的,它表明该段时间内最大时延dmax=2。
若传输秘密信息时出现行为时延将导致关键词位置出现偏差,造成秘密信息无法正确提取。为了解决该问题,本实施例使用时间冗余控制机制,先测试一段时间内的行为时延,得到该段时间内的最大值dmax;其次,将传递的数据乘以dmax+1即可抵抗时延造成的影响。例如,发送方传递的秘密数据为47,dmax=2,当前时间戳tc=1635150139,那么等到时间戳为1635150141时可以执行某行为。即使该行为延时了2秒,执行的时间被社交网络记录为1635150143,提取者将该时间戳除以3向下取值,得到的值仍然为47。因此,本方法在文本内容与时间戳上的鲁棒性能都能得到保证。
(b)嵌入容量
嵌入容量的大小受多方面因素的影响,它与时间戳时候的后b位,普通博文时间戳lo,最大行为时延dmax等变量有关。有两个问题需要在本节解决,第一个问题是各变量取值的合适值或范围时什么。对于b而言,若b≤2则将导致频繁操作,引起行为异常;若b过大,虽能编码较多的信息但会消耗过多的时间。此外,为了能够让lo尽可能取到最大值且使本方法适用于主流社交网络,Facebook、Twitter和Weibo等主流社交网络在2011年已拥有大量用户与博文数据,因此起始时间可以设置为2011-01-01 00:00:00,对应的时间戳为ts=1293811200。假定当前时间是2021-10-01 00:00:00,那么tc=1633017600,根据公式4,lo=28。由鲁棒性分析,dmax应该大于等于2。
表2不同时延下的嵌入容量
<![CDATA[d<sub>max</sub>]]> | <![CDATA[l<sub>v</sub>]]> | <![CDATA[log<sub>2</sub> l<sub>v</sub>]]> | <![CDATA[l<sub>t</sub>]]> | <![CDATA[l<sub>s</sub>]]> | <![CDATA[l<sub>i</sub>]]> |
0 | 999.00 | 9.96 | 9 | 46 | 7 |
1 | 499.50 | 8.96 | 8 | 44 | 7 |
2 | 333.33 | 8.38 | 8 | 44 | 7 |
3 | 249.75 | 7.96 | 7 | 42 | 7 |
4 | 199.80 | 7.64 | 7 | 42 | 7 |
5 | 166.50 | 7.38 | 7 | 42 | 7 |
6 | 142.71 | 7.16 | 7 | 42 | 7 |
7 | 124.88 | 6.96 | 6 | 40 | 6 |
表2给出不同dmax时,lv、log2lv、和ls对应的值,它表明当dmax=1/2$(dmax=1或dmax=2)时,ls的值相同;当dmax=3/4/5/6时,ls相同。时延dmax相同时,ls相同意味着传递的比特数量相同。
另一个问题是几个比特能够表示一个位置。为了回答这个问题,我们首先从Twitter上爬取了10,731,668条博文数据,从中选择了300,000条博文数据并将其分为3组,每组100,000条;接着,将每条博文进行分词,统计博文中单词的数量;最后,统计每组博文中关键词出现的频数,相应的实验结果如图5所示。图5表明绝大多数博文单词数量x∈[1,60],由26=64知,使用6比特就能表示0-63,共64个位置,这能够满足在博文中索引位置的需求。据此,表2最后一列给出了li的值。
剩余部分分布在[61,67]。记X为博文中关键词数量,pi是关键词数量为i的概率,其期望E(X)由下式所示:
由式6计算的结果已标注到图5中。通过计算3次实验的平均值,每篇博文平均携带单词数量在22.67个,通过此数值可计算平均嵌入容量。假设每个单词平均含有个字母,那么平均嵌入容量为实际的嵌入容量取决于传递的秘密信息,实验数据可见后续嵌入容量对比实验。
为验证本发明效果,进行如下实验:
在本部分,我们设计了几组实验来评估所提出方法在嵌入容量和行为数量方面的性能并对初始关键词数量li进行了实验与评估。
实验中,我们使用《独立宣言》作为秘密信息,Kaggle词频库作为公开词频库。
利用Twint在Twitter上爬取了10,731,668条博文数据,数据中包含了用户名、博文、创建时间等字段。Twint是Github上一款爬虫工具,它能够精确地在指定的时间段内通过关键词获取博文、评论和关注者等信息,我们利用它作为面向社交网络检索博文的工具。图4说明,dmax应该大于等于2。因此,实验是在dmax=2下进行的。
(a)嵌入容量对比实验
考虑到在社交网络中的行为时延dmax、映射博文携带的初始关键词数量li会对嵌入容量造成影响,我们首先设计了一组关键词数量变化的对比实验,测试单一变量对嵌入容量会造成的影响,其结果如图6所示。接着,我们选择一组参数,与现有的行为隐写工作进行对比,以验证本方法嵌入容量的性能,其数据如表3所示。最后,我们提出的方法与生成式文本隐写方法在嵌入容量上进行了对比。
在图6对应的实验中,秘密信息通过算法2将被分为多组映射分组进行传送,承载它的每个载密博文能够传输比特量如图6所示,从中我们可以观察到秘密信息发送过程中分组携带的信息量所能达到最大值,最小值及平均值。
当li=7时,每组平均携带164.95比特,最高能携带328.00比特数据,最低能携带40.00比特数据;当li=9时,最大值、和平均值均会提高,分别为352.00比特和167.23比特。图6表明li在一定范围时,随着li的提升,分组携带信息量会逐渐提升。
为了验证本方法嵌入容量的性能,我们实现了文献4,5和6等行为隐写方法并与我们的方法进行对比。在li=7时,把独立宣言作为秘密信息,使用本方法共需要发送317次,每50次计算一次平均值得到相应的嵌入容量,相应的实验数据如表3所示。当n=7,发送第101个至150个映射博文时,文献4,5和6和我们的方法平均嵌入容量分别为2.32,2.55,1.82,92.08比特。当发送者时间控制的账号数量$n$增加时,所对比方法的嵌入容量存在下降的趋势,这是行为数量增加导致的,而$n$的变化对我们所提出的方法不存在影响。根据实验结果,将本方法嵌入容量的最大值除以对比方法的最小值得到嵌入容量提升的最大倍数,将本方法嵌入容量的最小值除以对比方法的最大值得到嵌入容量提升的最小倍数。表3表明,本方法在嵌入容量的性能高于所对比的方法,比所对比方法提高了29.23-51.47倍。
表3 dmax=2,li=7时所对比行为隐写方法的嵌入容量(bit)
我们还与生成式文本隐写方法进行了比较。文本生成式隐写的嵌入容量是每个单词携带的比特数量。为此我们根据嵌入容量分析,每篇博文平均含22.67个单词可得到该方法在不同参数下相应的嵌入容量。文献1指出,当文献2在每单词携带4bit时,被识别的概率达到了0.8,为此我们4bpw以下进行对比实验,实验结果如表4所示。
表4与生成式隐写的嵌入容量对比(bit)
当文献2提出方法每个单词携带3bit时,每个博文可以携带68.01比特。对于我们的方法,在dmax=2,li=7时,每次可以传送83.60比特。随着li的提升,嵌入容量会提升,但检索效率会下降;当dmax增大时,嵌入容量会减小。当文献2提出方法每个单词携带4bit时,嵌入容量会超过我们的方法,但是它有着高达0.8的概率被识破,而我们的方法使用的是自然文本,不存在该风险。文献2每单词携带3个比特时较为安全,每个博文可以携带68.01比特,与其对比提升了16.26%-23.94%。因此,两组对比实验表明我们的方法在嵌入容量上更具优越性。
(b)行为数量对比实验
同一用户在社交网络上进行频繁、大量地操作可能会引起行为异常,因此传递一条秘密信息产生的行为个数越少越好。为此,我们设计了一组对比实验,发送相同长度的信息测试所对比方法在行为数量上的性能。
图7中(a),当发送16比特信息时,文献4,5,6和本发明提出的方法需要产生的行为数量分别为10、10、13和2。值得注意的是所对比方法的行为数量随着发送信息的不同会产生波动。图7中(a)能够提供具体的实验数据,而通过图7中(b)我们可以观察到随着传递比特数的增加各方法的行为数量的趋势。图7中(b)表明,随着传递比特数的增加本方法的行为数量低于所对比方法产生的行为数量。
(c)参数li的选择
发送秘密信息时,映射博文中关键词的初始关键词数量为li,当包含li个关键词的博文未被检索到时,映射关键词序列会被缩短,再继续搜索合适的博文。考虑到重复搜索会影响发送效率,我们设计了一组发送成功率对比实验,指导发送者设置合适的li,以高效的方式实现隐蔽通信,相应的实验结果如图8所示,在映射博文中实际的关键词数量lr小于3%的数值没有在图中标出。
图8中不同颜色表示不同的lr,每个颜色所占的比例表示映射博文中映射关键词的实际数量为lr时被成功发送的概率。当li=7时,lr为4发送的成功率是29.02%,当li为7时,包含6个以内关键词的映射博文被成功发送的概率是87%,发送7个关键词成功的概率是13%;当lr=4时,映射博文更容易被检索。同时,针对不同的li,将其不同lr的成功率相加都等于100%,这说明秘密信息总能够被成功发送。
综上,针对当前的行为隐写在嵌入容量方面还存在一定的局限性的问题,本发明提出一种基于时间戳调制和载体选择的高容量行为隐写方法,在传递秘密信息时,本发明方法首先将秘密信息映射为一组高频关键字并分组,其次在社交网络平台寻找含有该分组的关键词博文,接着根据关键词在博文中的位置调制行为的时间戳,最后根据能够确定关键词在博文中的位置时间戳产生行为,并将关键词博文发布至社交网络,进而实现隐蔽通信。在提取秘密信息时,接收者利用共享的秘钥、社交网络账号提取秘密信息。该方法的秘密信息由博文携带,映射的关键词位置由时间戳确定,不修改博文内容,保证了博文的自然性;将时间戳映射到关键词,大大提高了嵌入容量。经过主流社交网络平台的实测,与现有社交网络典型行为隐写方法(文献4、5、6)相比,嵌入容量提升了29.23-51.47倍,与生成式文本隐写(文献2)相比,嵌入容量提升了16.26%-23.94%。另外,本发明使用自适应检索映射博文算法,保证了秘密信息发送的成功率。
以上所示仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (3)
1.一种基于时间戳调制和载体选择的高容量行为隐写方法,其特征在于,包括:
在传递秘密信息时,首先将秘密信息映射为一组高频关键字并分组,然后在社交网络平台寻找含有该分组的关键词博文,接着根据关键词在博文中的位置调制行为的时间戳,最后根据能够确定关键词在博文中的位置时间戳产生行为,并将关键词博文发布至社交网络,进而实现隐蔽通信;
该方法具体包括:
步骤1:首先结合秘密单词与公开词频表生成自建词频表,接着通过自建词频表与公开的高频表构建映射关系表,最后,将秘密信息中的单词、即秘密关键词经秘钥置乱后的映射关系表转换生成映射关键词,通过各映射关键词组成映射关键词表;
步骤2:与社交网络进行自动化交互,测量一段时间内行为是否存在时延,并获得最大的行为时延;
步骤3:根据在每个博文中设定的初始关键词数量,从映射关键词表中取出一组词作为映射分组,在社交网络中动态地检索包含该映射分组的博文作为映射博文;如果找不到包含映射分组的映射博文则缩短初始关键词数量,继续检索;如果检索到,则保存该博文的链接,并根据初始关键词数量从映射关键词表中取出下一组映射分组继续检索,直至映射关键词表中的映射关键词被全部检索完为止;
步骤4:通过时间戳隐藏映射关键词位置时,发送者首先从所有映射分组中提取所有映射关键词的位置组成映射位置序列,并将映射位置序列转为位置二进制字符串;然后,根据普通博文的时间戳和载密行为的时间戳所能够负载二进制的长度对位置二进制字符串进行分割;最后,根据分割的二进制字符串调制时间戳序列、即载密时间戳序列;所述普通博文指社交网络上能够被检索的博文,其时间戳已经存在,不再受行为时延的影响;
步骤5:发送者账号在载密时间戳对应的时间与映射博文、普通博文进行互动,生成载密行为,将秘密信息发布至社交网络;
步骤6:根据发送者共享的映射关系表和账号信息,接收者从社交网络对应账号提取一段时间内的互动行为数据;
步骤7:通过互动行为数据提取时间戳信息时,根据秘钥和标识字段识别载密时间戳;
步骤8:根据载密时间戳确定映射博文中关键词的位置,使用映射关系表将对应位置的映射关键词转为秘密关键词;
步骤9:依次合并秘密关键词,得到秘密信息;
所述映射关系表的构建过程如下:
首先初始化一个值为0的计数器,获取由常用的秘密关键词组成的词频表Tf中秘密关键词在公开的词频表Tw中的索引位置,并将该关键词与Tw对应索引位置的关键词作为一组关系加入到映射关系表Mr中;重复以上步骤可完成常用秘密关键词追加到Mr中,每追加一次,计数器递增1;接着,获取位于Tw却不位于Tf中的关键词,将该关键词与Tw中计数器所在位置的关键词作为一组关系追加到Mr中;
所述步骤3包括:
首先从映射关键词表Tm中取li个映射关键词;接着,在社交网络中寻找包含该li个映射关键词的映射博文;若没有找到,则将上轮寻找的关键词数量减1继续寻找;如果找到了一个博文,则将关键词数量设为li继续寻找,直至所有的映射关键词都隐藏在找到的映射博文中;如果一篇映射博文中关键词的实际数量lr=0时仍未找到,则表示检索失败。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210015282.7A CN114553811B (zh) | 2022-01-07 | 2022-01-07 | 基于时间戳调制和载体选择的高容量行为隐写方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210015282.7A CN114553811B (zh) | 2022-01-07 | 2022-01-07 | 基于时间戳调制和载体选择的高容量行为隐写方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114553811A CN114553811A (zh) | 2022-05-27 |
CN114553811B true CN114553811B (zh) | 2023-04-28 |
Family
ID=81669173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210015282.7A Active CN114553811B (zh) | 2022-01-07 | 2022-01-07 | 基于时间戳调制和载体选择的高容量行为隐写方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114553811B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201420052D0 (en) * | 2014-11-11 | 2014-12-24 | Univ Surrey | Hiding information in a digital environment |
CN110188200A (zh) * | 2019-05-27 | 2019-08-30 | 哈尔滨工程大学 | 一种使用社交上下文特征的深度微博情感分析方法 |
CN110392050A (zh) * | 2019-07-18 | 2019-10-29 | 北京理工大学 | 一种基于时间戳的存储隐通道的构建方法 |
CN111327786A (zh) * | 2020-02-26 | 2020-06-23 | 中国科学技术大学 | 基于社交网络平台的鲁棒隐写方法 |
CN112052471A (zh) * | 2020-09-17 | 2020-12-08 | 青岛大学 | 一种基于社交网络空间的信息隐藏方法 |
CN113051916A (zh) * | 2021-04-23 | 2021-06-29 | 东南大学 | 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117171743A (zh) * | 2017-05-30 | 2023-12-05 | 赛姆普蒂夫技术公司 | 在内核模式下对隐写术的实时检测和防护 |
-
2022
- 2022-01-07 CN CN202210015282.7A patent/CN114553811B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201420052D0 (en) * | 2014-11-11 | 2014-12-24 | Univ Surrey | Hiding information in a digital environment |
CN110188200A (zh) * | 2019-05-27 | 2019-08-30 | 哈尔滨工程大学 | 一种使用社交上下文特征的深度微博情感分析方法 |
CN110392050A (zh) * | 2019-07-18 | 2019-10-29 | 北京理工大学 | 一种基于时间戳的存储隐通道的构建方法 |
CN111327786A (zh) * | 2020-02-26 | 2020-06-23 | 中国科学技术大学 | 基于社交网络平台的鲁棒隐写方法 |
CN112052471A (zh) * | 2020-09-17 | 2020-12-08 | 青岛大学 | 一种基于社交网络空间的信息隐藏方法 |
CN113051916A (zh) * | 2021-04-23 | 2021-06-29 | 东南大学 | 一种社交网络中基于情感偏移感知的交互式微博文本情感挖掘方法 |
Non-Patent Citations (3)
Title |
---|
Hanlin Liu;Jingju Liu;Xuehu Yan. Social Network Behavior-Oriented Audio Steganography Scheme.《2018 Eighth International Conference on Instrumentation & Measurement, Computer, Communication and Control (IMCCC)》.2018,全文. * |
Xiangyang Luo;Daoshun Wang;Ping Wang;Fenlin Liu.Secret Key Estimation for Image Sequential Steganograph in Transform Domain.《IEEE GLOBECOM 2007 - IEEE Global Telecommunications Conference》.2007,全文. * |
娄嘉鹏;张萌;付鹏;张开.一种基于TCP协议的网络隐蔽传输方案设计.信息网络安全.2016,(01),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN114553811A (zh) | 2022-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sala et al. | Sharing graphs using differentially private graph models | |
Xiang et al. | Linguistic steganalysis using the features derived from synonym frequency | |
Feng et al. | Satar: A self-supervised approach to twitter account representation learning and its application in bot detection | |
CN108768986A (zh) | 一种加密流量分类方法及服务器、计算机可读存储介质 | |
Gkoulalas-Divanis et al. | Modern privacy-preserving record linkage techniques: An overview | |
EP3614645B1 (en) | Embedded dga representations for botnet analysis | |
Hu et al. | Loan default analysis with multiplex graph learning | |
CN111797409B (zh) | 一种大数据中文文本无载体信息隐藏方法 | |
CN103164698A (zh) | 指纹库生成方法及装置、待测文本指纹匹配方法及装置 | |
CN103995804A (zh) | 基于多模态信息融合与图聚类的跨媒体话题检测方法、装置 | |
CN113779355B (zh) | 基于区块链的网络谣言溯源取证方法及*** | |
CN111027081B (zh) | 基于特征映射的文本无载体信息隐藏方法 | |
CN114553811B (zh) | 基于时间戳调制和载体选择的高容量行为隐写方法 | |
CN111629027B (zh) | 一种基于区块链的可信文件储存处理的方法 | |
CN112348041B (zh) | 日志分类、日志分类训练方法及装置、设备、存储介质 | |
Liu et al. | To deliver more information in coverless information hiding | |
Wang et al. | A privacy-preserving cross-media retrieval on encrypted data in cloud computing | |
Peng et al. | Federated meta embedding concept stock recommendation | |
Guan et al. | A novel coverless text steganographic algorithm based on polynomial encryption | |
Xiong | Data Service Outsourcing and privacy protection in Mobile internet | |
Zhang et al. | Federated model decomposition with private vocabulary for text classification | |
Wu et al. | Text coverless information hiding method based on hybrid tags | |
Xiang | Deep Learning‐Based Fake Information Detection and Influence Evaluation | |
KR20210024748A (ko) | Gan을 이용한 문서형 악성코드 탐지 장치 및 방법 | |
Yu et al. | Generative Text Secret Sharing with Topic‐Controlled Shadows |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |