CN103425639A - 一种基于信息指纹的相似信息识别方法 - Google Patents

一种基于信息指纹的相似信息识别方法 Download PDF

Info

Publication number
CN103425639A
CN103425639A CN2013104024655A CN201310402465A CN103425639A CN 103425639 A CN103425639 A CN 103425639A CN 2013104024655 A CN2013104024655 A CN 2013104024655A CN 201310402465 A CN201310402465 A CN 201310402465A CN 103425639 A CN103425639 A CN 103425639A
Authority
CN
China
Prior art keywords
information
recognition methods
information fingerprint
word
methods based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013104024655A
Other languages
English (en)
Inventor
戴森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGZHOU YIHUBAIYING NETWORK TECHNIQUE CO Ltd
Original Assignee
GUANGZHOU YIHUBAIYING NETWORK TECHNIQUE CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGZHOU YIHUBAIYING NETWORK TECHNIQUE CO Ltd filed Critical GUANGZHOU YIHUBAIYING NETWORK TECHNIQUE CO Ltd
Priority to CN2013104024655A priority Critical patent/CN103425639A/zh
Publication of CN103425639A publication Critical patent/CN103425639A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Collating Specific Patterns (AREA)

Abstract

本发明公开了一种基于信息指纹的相似信息识别方法,该方法首先对文档的文本进行中文分词,然后统计词频,取出词频靠前的词,作为特征值;再根据提取出来的特征值计算出文档的信息指纹,最后比对两篇文档的信息指纹,若比对结果大于阀值,则判断为相似文章。该方法可避免现有技术中需要根据两篇文档中的所有信息对应进行计算比较,大大减低计算复杂度。由于文档的信息指纹具有唯一性,在多篇文档判断相似性时,只需相互间比对信息指纹即可,可有效提高工作效率。

Description

一种基于信息指纹的相似信息识别方法
技术领域
本发明涉及一种基于信息指纹的相似信息识别方法。
背景技术
现有的重复信息识别方法主要是对信息进行md5编码,然后比对两条信息的md5值,如果完全一样,则这两条信息是一样的,值不同则不一样。现有相似信息识别方法主要是,对两条信息按字符进行切分,按顺序对字符进行比对,根据位置完全一致的字符的百分比,得出两条信息之间的相似度。
现有判断重复信息技术的主要缺点是只能判断字符串完全一样的信息,如果两个相同的信息,一个加了个空格或其它字符,程序就会判断为不是重复信息,精确度不高。现有相似信息识别方法主要缺点是每次比较都要将切分的字符串进行对比,计算量大,在大数据的环境下性能很低。
发明内容
本发明的目的是提供一种精确度高、适用于大数据环境下的相似信息识别方法。
本发明所述的基于信息指纹的相似信息识别方法包括以下步骤:
对文档的文本进行中文分词;
统计词频,取出词频靠前的词,作为特征值;
根据提取出来的特征值计算出文档的信息指纹;
比对两篇文档的信息指纹,若比对结果大于阀值,则判断为相似文章。
本发明所述的基于信息指纹的相似信息识别方法,采用提取词频靠前的词语作为特征值来计算信息指纹,从而去判断文档是否相似的方法,相比现有的重复信息识别方法,若在其中一篇文档中加入少量的字符,对判断的结果也不会产生影响,可提高判断的准确度。另外,由于文档的信息指纹具有唯一性,在多篇文档判断相似性时,只需相互间比对信息指纹即可,可改善现有相似信息识别方法计算量大,在大数据环境下性能低效的缺点。
附图说明
图1为本发明基于信息指纹的相似信息识别方法流程图。
图2为本发明文档信息指纹的计算步骤流程图。
具体实施方式
如图1所示的基于信息指纹的相似信息识别方法,包括以下步骤:
对文档的文本进行中文分词;
统计词频,取出词频靠前的词,作为特征值;
根据提取出来的特征值计算出文档的信息指纹;
比对两篇文档的信息指纹,若比对结果大于阀值,则判断为相似文章。
其中抽取作为特征值的词语的数量为15-25时,可基本满足识别方法的性能要求,通过大量的抽样试验计算发现,取词为20个时为最优选择。
计算文档的信息指纹的步骤如图2所示,包括:
对提取出来的特征值分别进行64位的polynomials哈希运算,得出64位
哈希值;
对64位的哈希值进行运算,如果这个哈希值的第i位是1,则该位等于特
的权重,如果哈希值的第i位是0.则该位等于特征权重的负数;
该特征的权重数值上等于该词出现的次数;
完成所有特征值的处理后,对所有特征值按列对应进行相加,得出一串64位的数字,最后将正数对应的位设为1,负数对应的位设为0,就得到了64位的01值数组,即该条信息的信息指纹。
选取64位哈希运算的原因是当使用64位时,可产生的组合为2的64次方,已经满足本发明对重复率的要求,选32位的话重复率还是会比较高,128位时位数太长,会影响计算性能,所以折中选择64位的哈希运算。
在比对两篇文档的信息指纹时采用同或运算或者异或运算,根据运算结果0或1出现的次数,可快速判断两文档的相似度。
在比对两篇文档的信息指纹采用异或运算时,统计出结果中1出现的个数,如果是零次,这表示这两条信息完全一样。1出现的次数越多,表示两条信息越不同。另外,本方法在进行判断时,选取的阀值为3。若1出现的次数少于等于3时,可判断为相似信息。
在比对两篇文档的信息指纹采用同或运算时,统计出结果中0出现的个数,如果是零次,这表示这两条信息完全一样。0出现的次数越多,表示两条信息越不同。判断时,选取的阀值为3。若0出现的次数少于等于3时,可判断为相似信息。

Claims (7)

1.一种基于信息指纹的相似信息识别方法,其特征在于:所述的方法包括以下步骤:
对文档的文本进行中文分词;
统计词频,取出词频靠前的词,作为特征值;
根据提取出来的特征值计算出文档的信息指纹;
比对两篇文档的信息指纹,若比对结果大于阀值,则判断为相似文章。
2.根据权利要求1所述的基于信息指纹的相似信息识别方法,其特征在于,计算文档的信息指纹包括以下步骤:
对提取出来的特征值分别进行64位的polynomials哈希运算,得出64位的哈希值;
对64位的哈希值进行运算,如果这个哈希值的第i位是1,则该位等于特征的权重;如果哈希值的第i位是0.则该位等于特征权重的负数;
完成所有特征值的处理后,对所有特征值按列对应进行相加,得出一串64位的数字,最后将正数对应的位设为1,负数对应的位设为0,就得到了64位的01值数组。
3.根据权利要求2所述的基于信息指纹的相似信息识别方法,其特征在于,特征的权重数值上等于该词出现的次数。
4.根据权利要求1所述的基于信息指纹的相似信息识别方法,其特征在于,抽取作为特征值的词语的数量为15-25个。
5.根据权利要求1所述的基于信息指纹的相似信息识别方法,其特征在于,抽取作为特征值的词语的数量为20个。
6.根据权利要求1所述的基于信息指纹的相似信息识别方法,其特征在于,比对两篇文档的信息指纹时采用同或逻辑运算。
7.根据权利要求1所述的基于信息指纹的相似信息识别方法,其特征在于,比对两篇文档的信息指纹时采用异或逻辑运算。
CN2013104024655A 2013-09-06 2013-09-06 一种基于信息指纹的相似信息识别方法 Pending CN103425639A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013104024655A CN103425639A (zh) 2013-09-06 2013-09-06 一种基于信息指纹的相似信息识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013104024655A CN103425639A (zh) 2013-09-06 2013-09-06 一种基于信息指纹的相似信息识别方法

Publications (1)

Publication Number Publication Date
CN103425639A true CN103425639A (zh) 2013-12-04

Family

ID=49650403

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013104024655A Pending CN103425639A (zh) 2013-09-06 2013-09-06 一种基于信息指纹的相似信息识别方法

Country Status (1)

Country Link
CN (1) CN103425639A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260878A (zh) * 2015-09-23 2016-01-20 成都网安科技发展有限公司 辅助定密方法和装置
CN105681046A (zh) * 2016-02-29 2016-06-15 郑州悉知信息科技股份有限公司 Ugc指纹签名确定方法、装置及ugc去重方法、装置
CN105844118A (zh) * 2016-04-15 2016-08-10 宝利九章(北京)数据技术有限公司 用于数据泄露防护的方法和***
CN105844214A (zh) * 2016-03-02 2016-08-10 华南理工大学 一种基于比特空间的多路径深度编码的信息指纹提取方法
CN105893859A (zh) * 2016-04-15 2016-08-24 宝利九章(北京)数据技术有限公司 用于数据泄露防护的方法和***
CN105956482A (zh) * 2016-04-15 2016-09-21 宝利九章(北京)数据技术有限公司 用于数据泄露防护的方法和***
CN105955978A (zh) * 2016-04-15 2016-09-21 宝利九章(北京)数据技术有限公司 用于数据泄露防护的方法和***
CN106649214A (zh) * 2016-10-21 2017-05-10 天津海量信息技术股份有限公司 互联网信息内容相似定义方法
CN106649257A (zh) * 2016-09-21 2017-05-10 联动优势科技有限公司 一种语义段的转换方法及装置
CN106873964A (zh) * 2016-12-23 2017-06-20 浙江工业大学 一种改进的SimHash代码相似度检测方法
CN107368472A (zh) * 2017-07-26 2017-11-21 成都科来软件有限公司 一种可迭代优化的文档分析结果的保存方法
CN108282328A (zh) * 2018-02-02 2018-07-13 沈阳航空航天大学 一种基于同态加密的密文统计方法
CN109145080A (zh) * 2018-07-26 2019-01-04 新华三信息安全技术有限公司 一种文本指纹获得方法及装置
CN110019642A (zh) * 2017-08-06 2019-07-16 北京国双科技有限公司 一种相似文本检测方法及装置
CN110134761A (zh) * 2019-04-16 2019-08-16 深圳壹账通智能科技有限公司 判决文书信息检索方法、装置、计算机设备和存储介质
CN110891010A (zh) * 2018-09-05 2020-03-17 百度在线网络技术(北京)有限公司 用于发送信息的方法和装置
CN112733523A (zh) * 2020-12-30 2021-04-30 深信服科技股份有限公司 文档发送方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8140505B1 (en) * 2005-03-31 2012-03-20 Google Inc. Near-duplicate document detection for web crawling
CN103123618A (zh) * 2011-11-21 2013-05-29 北京新媒传信科技有限公司 文本相似度获取方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8140505B1 (en) * 2005-03-31 2012-03-20 Google Inc. Near-duplicate document detection for web crawling
CN103123618A (zh) * 2011-11-21 2013-05-29 北京新媒传信科技有限公司 文本相似度获取方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MIN LU等: "Rank hash similarity for fast similarity", 《INFORMATION PROCESSING & MANAGEMENT》, vol. 49, no. 1, 31 January 2013 (2013-01-31), pages 158 - 168 *
段飞: "相似网页识别算法的研究与实现", 《中国优秀硕士学位论文全文数据库》, 15 September 2011 (2011-09-15) *
胡可云等: "《数据挖掘理论与应用》", 30 April 2008, article "数据挖掘理论与应用", pages: 124-125 *
董博等: "基于多SimHash指纹的近似文本检测", 《小型微型计算机***》, vol. 32, no. 11, 30 November 2011 (2011-11-30), pages 2152 - 2157 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260878A (zh) * 2015-09-23 2016-01-20 成都网安科技发展有限公司 辅助定密方法和装置
CN105681046A (zh) * 2016-02-29 2016-06-15 郑州悉知信息科技股份有限公司 Ugc指纹签名确定方法、装置及ugc去重方法、装置
CN105844214B (zh) * 2016-03-02 2019-06-21 华南理工大学 一种基于比特空间的多路径深度编码的信息指纹提取方法
CN105844214A (zh) * 2016-03-02 2016-08-10 华南理工大学 一种基于比特空间的多路径深度编码的信息指纹提取方法
CN105844118B (zh) * 2016-04-15 2020-02-21 量子创新(北京)信息技术有限公司 用于数据泄露防护的方法和***
CN105893859A (zh) * 2016-04-15 2016-08-24 宝利九章(北京)数据技术有限公司 用于数据泄露防护的方法和***
CN105955978A (zh) * 2016-04-15 2016-09-21 宝利九章(北京)数据技术有限公司 用于数据泄露防护的方法和***
CN105955978B (zh) * 2016-04-15 2019-07-02 宝利九章(北京)数据技术有限公司 用于数据泄露防护的方法和***
CN105956482A (zh) * 2016-04-15 2016-09-21 宝利九章(北京)数据技术有限公司 用于数据泄露防护的方法和***
CN105844118A (zh) * 2016-04-15 2016-08-10 宝利九章(北京)数据技术有限公司 用于数据泄露防护的方法和***
CN105956482B (zh) * 2016-04-15 2019-06-04 宝利九章(北京)数据技术有限公司 用于数据泄露防护的方法和***
CN105893859B (zh) * 2016-04-15 2019-05-03 宝利九章(北京)数据技术有限公司 用于数据泄露防护的方法和***
CN106649257A (zh) * 2016-09-21 2017-05-10 联动优势科技有限公司 一种语义段的转换方法及装置
CN106649257B (zh) * 2016-09-21 2019-06-18 联动优势科技有限公司 一种语义段的转换方法及装置
CN106649214A (zh) * 2016-10-21 2017-05-10 天津海量信息技术股份有限公司 互联网信息内容相似定义方法
CN106873964A (zh) * 2016-12-23 2017-06-20 浙江工业大学 一种改进的SimHash代码相似度检测方法
CN107368472B (zh) * 2017-07-26 2021-01-05 成都科来软件有限公司 一种可迭代优化的文档分析结果的保存方法
CN107368472A (zh) * 2017-07-26 2017-11-21 成都科来软件有限公司 一种可迭代优化的文档分析结果的保存方法
CN110019642A (zh) * 2017-08-06 2019-07-16 北京国双科技有限公司 一种相似文本检测方法及装置
CN108282328A (zh) * 2018-02-02 2018-07-13 沈阳航空航天大学 一种基于同态加密的密文统计方法
CN109145080A (zh) * 2018-07-26 2019-01-04 新华三信息安全技术有限公司 一种文本指纹获得方法及装置
CN109145080B (zh) * 2018-07-26 2021-01-01 新华三信息安全技术有限公司 一种文本指纹获得方法及装置
CN110891010A (zh) * 2018-09-05 2020-03-17 百度在线网络技术(北京)有限公司 用于发送信息的方法和装置
CN110134761A (zh) * 2019-04-16 2019-08-16 深圳壹账通智能科技有限公司 判决文书信息检索方法、装置、计算机设备和存储介质
CN112733523A (zh) * 2020-12-30 2021-04-30 深信服科技股份有限公司 文档发送方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN103425639A (zh) 一种基于信息指纹的相似信息识别方法
CN109241274B (zh) 文本聚类方法及装置
CN103123618B (zh) 文本相似度获取方法和装置
US10645105B2 (en) Network attack detection method and device
CN103679012A (zh) 一种可移植可执行文件的聚类方法和装置
CN105574156B (zh) 文本聚类方法、装置及计算设备
CN103324632B (zh) 一种基于协同学习的概念识别方法及装置
CN104636319A (zh) 一种文本去重方法和装置
US20180143979A1 (en) Method for segmenting and indexing features from multidimensional data
CN102081598A (zh) 一种检测文本重复的方法
KR20170004983A (ko) 라인 분할 방법
CN104572872A (zh) 一种基于极值的数据去重分块方法
CN101604408B (zh) 一种检测器的生成和检测方法
CN104685493A (zh) 用于监视文本信息的字典创建装置、用于监视文本信息的字典创建方法和用于监视文本信息的字典创建程序
CN104346411B (zh) 对多个稿件进行聚类的方法和设备
CN114266251A (zh) 恶意域名检测方法、装置、电子设备及存储介质
CN109472020A (zh) 一种特征对齐中文分词方法
CN102346830B (zh) 基于梯度直方图的病毒检测方法
CN103246640B (zh) 一种检测重复文本的方法及装置
CN104751459B (zh) 多维特征的相似性度量优化方法及图像匹配方法
CN102364458B (zh) 一种文件摘要的提取方法
CN115941281A (zh) 一种基于双向时间卷积神经网络与多头自注意力机制的异常网络流量检测方法
Tang et al. An optimization algorithm of Chinese word segmentation based on dictionary
CN110737748B (zh) 一种文本去重方法及***
CN103336806A (zh) 一种基于词出现间距的内在与外在模式熵差的关键词排序方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20131204