CN106599242A - 一种基于相似度计算的网页变更监测方法和*** - Google Patents

一种基于相似度计算的网页变更监测方法和*** Download PDF

Info

Publication number
CN106599242A
CN106599242A CN201611182671.XA CN201611182671A CN106599242A CN 106599242 A CN106599242 A CN 106599242A CN 201611182671 A CN201611182671 A CN 201611182671A CN 106599242 A CN106599242 A CN 106599242A
Authority
CN
China
Prior art keywords
web page
page contents
webpage
module
judge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611182671.XA
Other languages
English (en)
Other versions
CN106599242B (zh
Inventor
刘坤朋
郑杭
练军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
FUJIAN LIUREN NETWORK SECURITY Co Ltd
Original Assignee
FUJIAN LIUREN NETWORK SECURITY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by FUJIAN LIUREN NETWORK SECURITY Co Ltd filed Critical FUJIAN LIUREN NETWORK SECURITY Co Ltd
Priority to CN201611182671.XA priority Critical patent/CN106599242B/zh
Publication of CN106599242A publication Critical patent/CN106599242A/zh
Application granted granted Critical
Publication of CN106599242B publication Critical patent/CN106599242B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/554Detecting local intrusion or implementing counter-measures involving event detection and direct action
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Virology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明的一种基于相似度计算的网页变更监测方法和***,使用网络爬虫技术将网页内容保存到本地,在设定的时间间隔再次获取网页内容,利用模糊哈希算法与本地保存的页面内容相似度进行比较。可以自定义网页内容属性,内容不会改变的网页内容,监测步骤较为简洁,监测效率高。对于内容可改变的网页内容,进一步进行差异分析,识别字符或者图片的篡改,可以第一时间准确识别网页内容是被篡改还是正常的更新,提高网页内容的安全性。

Description

一种基于相似度计算的网页变更监测方法和***
技术领域
本发明涉及一种网页信息监测技术,具体地说涉及一种基于相似度计算的网页变更监测方法和***。
背景技术
保证用户正常浏览网页的一项关键内容是防止网站侧发布的网页(页面) 被黑客篡改。所谓篡改,区别于合法的网页内容修改(刷新),是指网页内容的变化不符合网站管理员或者用户所请求网页的预期。随着互联网信息***式增长,每一天互联网中的网页都面临着被篡改的风险。如不能及时发现网页被篡改将给网站和用户带来不可估量的损失。
网页被黑客篡改的方式主要有:黑客可能攻破网站,直接对该发布的网页内容进行修改。现有技术中检测网页被篡改的方案为::利用扫描器对网站进行周期性监测,具体为:安装扫面器软件,周期性获取访问被监测网页的URL(Uniform Resoure Locator,统一资源***),按照某种算法设置基准页面,并将被监测网页的页面与基准页面相比较,得出被监测网页中被修改的页面元素占该网页所有页面元素的比例,并根据该比例与预先设置的比例阈值判断页面是否被修改,该比例小于比例阈值认为被监测网站未被篡改,否则认为被监测网页被篡改。或者,预先设置某些敏感词,判断被监测网页中包括此类敏感词时,则认为页面被黑客篡改。由于现有的网站动态网页技术很多,因此现有的技术方案很难准确识别网页是被篡改还是正常内容刷新,不可避免地存在误检和漏检。
发明内容
为此,本发明所要解决的技术问题在于现有技术中实时监测网页无法准确识别网页是被篡改还是正常的更新内容。
为解决上述技术问题,本发明所采用的技术方案:
一种基于相似度计算的网页变更监测方法,包含以下步骤:
S1:将网络中的网页内容通过使用网络爬虫存储至本地存储设备, 计算网页内容的模糊哈希值;
S2:判断所述网页内容属于第一网页类型还是属于第二网页类型,并作出相应标记,第一网页类型为网页内容不会发生变化的网页,第二网页类型为网页内容会发生变化的网页;
S3:在设定的时间间隔后再次从网络中爬取所述网页内容,并计算此刻网页内容的模糊哈希值;
S4:计算步骤S3中获得的模糊哈希值与步骤S1中获得的模糊哈希值的相似度,相似度的取值范围为0-100;
S5:判断所述网页内容所属网页类型,若所述网页内容属于第一网页内容,则进行步骤S6;若所述网页内容属于第二网页内容,则进行步骤S7;
S6:判断相似度的取值是否为100,是,则进行步骤S61;否,则进行步骤S62;
S61:结束所述网页内容的监测;
S62:发出警告,结束所述网页内容的监测;
S7:判断相似度的取值是否为100,是,则结束所述网页内容的监测;否,则进行步骤S71;
S71:利用DIFF工具找出所述网页内容相比初始状态的差异;
S72:判断差异是否由于图片变化引起,是,则进行步骤S8;否,则进行步骤S9;
S8:将图片内容与恶意内容特征进行匹配,检测图片中是否有异常内容;是,则进行步骤S81;否,则进行步骤S82;
S81:发出警告,结束所述网页内容的监测;
S82:结束所述网页内容的监测;
S9:与敏感词库进行匹配,若匹配到敏感词,则发出警告。
步骤S9中,还包含与木马特征库进行匹配,若匹配到木马特征,则发出警告。
所述步骤S8中调用图片识别算法对图片内容进行识别,将图片内容与恶意内容特征进行匹配,检测图片中是否有异常内容;是,则进行步骤S81;否则进行步骤S82。
一种基于相似度计算的网页变更监测***,包含以下模块:
初始采集模块:将网络中的网页内容通过使用网络爬虫存储至本地存储设备, 计算网页内容的模糊哈希值;
判断模块:判断所述网页内容属于第一网页类型还是属于第二网页类型,并作出相应标记,第一网页类型为网页内容不会发生变化的网页,第二网页类型为网页内容会发生变化的网页;
实时采集模块:在设定的时间间隔后再次从网络中爬取所述网页内容,并计算此刻网页内容的模糊哈希值;
计算模块:计算实时采集模块中获得的模糊哈希值与初始采集模块中获得的模糊哈希值的相似度,相似度的取值范围为0-100;
网页判断模块:判断所述网页内容所属网页类型,若所述网页内容属于第一网页内容,则转入第一判断模块;若所述网页内容属于第二网页内容,则转入第二判断模块;
第一判断模块:判断相似度的取值是否为100,是,则结束所述网页内容的监测;否,则转入第一警告模块;
第一警告模块:发出警告,结束所述网页内容的监测;
第二判断模块:判断相似度的取值是否为100,是,则转入第一终止模块;否,则转入差异分析模块;
第一终止模块:结束所述网页内容的监测;
差异分析模块:利用DIFF工具找出所述网页内容相比初始状态的差异;
第三判断模块:判断差异是否由于图片变化引起,是,则转入第一匹配模块;否,则准入第二匹配模块;
第一匹配模块:将图片内容与恶意内容特征进行匹配,检测图片中是否有异常内容;是,则转入第二警告模块;否,则转入第二终止模块;
第二警告模块:发出警告,结束所述网页内容的监测;
第二终止模块:结束所述网页内容的监测;
第二匹配模块:与敏感词库进行匹配,若匹配到敏感词,则发出警告。
所述第二匹配模块还包含与木马特征库进行匹配,若匹配到木马特征,则发出警告。
第三判断模块中调用图片识别算法对图片内容进行识别,判断差异是否由于图片变化引起,是,则转入第一匹配模块;否,则准入第二匹配模块。
本发明的上述技术方案相比现有技术具有以下优点。
本发明的一种基于相似度计算的网页变更监测方法和***,使用网络爬虫技术将网页内容保存到本地,在设定的时间间隔再次获取网页内容,利用模糊哈希算法与本地保存的页面内容相似度进行比较。可以自定义网页内容属性,内容不会改变的网页内容,监测步骤较为简洁,监测效率高。对于内容可改变的网页内容,进一步进行差异分析,识别字符或者图片的篡改,可以第一时间准确识别网页内容是被篡改还是正常的更新,提高网页内容的安全性。
附图说明
为了使本发明的内容更容易被清楚的理解,下面根据本发明的具体实施例并结合附图,对本发明作进一步详细的说明,其中,
图1为本发明一种基于相似度计算的网页变更监测方法的流程图;
图2为本发明一种基于相似度计算的网页变更监测***的结构框图。
图中附图标记表示为:1-初始采集模块;2-判断模块;3-实时采集模块;4-计算模块;5-网页判断模块;6-第一判断模块;61-第一警告模块;7-第二判断模块;71-第一终止模块;72-差异分析模块;8-第三判断模块;81-第一匹配模块;82-第二匹配模块;811-第二警告模块;812-第二终止模块。
具体实施方式
一种基于相似度计算的网页变更监测方法,如图1所示,包含以下步骤:
S1:将网络中的网页内容通过使用网络爬虫存储至本地存储设备, 计算网页内容的模糊哈希值。模糊哈希值主要是利用模糊哈希算法,可以调用ssdeep工具。模糊哈希算法又叫基于内容分割的分片哈希算法(context triggered piecewise hashing, CTPH),主要用于文件的相似性比较。2006年,Jesse Kornblum提出CTPH,并给出一个名为spamsum的算法实例。随后,Jason Sherman开发了ssdeep工具(http://ssdeep.sourceforge.net/)。该算法在本发明中可以用于恶意代码检测,也可以用于漏洞挖掘等。模糊哈希的主要原理是,使用一个弱哈希计算文件局部内容,在特定条件下对文件进行分片,然后使用一个强哈希对文件每片计算哈希值,取这些值的一部分并连接起来,与分片条件一起构成一个模糊哈希结果。使用一个字符串相似性对比算法判断两个模糊哈希值的相似度有多少,从而判断两个文件的相似程度。对文件的部分变化(包括在多处修改、增加、删除部分内容),使用模糊哈希均能发现与源文件的相似关系,是目前判断相似性较好的一种方法。
S2:判断所述网页内容属于第一网页类型还是属于第二网页类型,并作出相应标记,第一网页类型为网页内容不会发生变化的网页,第二网页类型为网页内容会发生变化的网页。可与人工进行分类,也可以利用现有技术中的网页内容识别与分类技术(诸如中国专利文献201210299843.7、201210376933.1等记载)对网页内容进行分类。
S3:在设定的时间间隔后再次从网络中爬取所述网页内容,并计算此刻网页内容的模糊哈希值。
步骤S1和S3中模糊哈希值的计算过程如下:
用一个弱哈希算法对所述网页内容的文件分片。具体方法为:
在文件中读取一部分内容,用弱哈希算法Alder-32进行计算,以滚动哈希的方式得到一个4字节的哈希值。所谓滚动哈希是指,比如原来已经计算了abcdef的哈希值h1,接下来要计算bcdefg的哈希值,不需要完全重新计算,只需要h1–X(a) + Y(g)即可。其中X、Y是两个函数,即只需要相应增减差量对哈希值的影响即可。这种哈希可以大大加快分片判断的速度。
设定分片值n,由它来控制分片条件。n的值根据文件长度、文件内容等确定。确定原则和方法如下:
n的值始终取2的整数次方,这样Alder-32哈希值除以n的余数接近于均匀分布。仅当余数等于n-1时分片,就相当于只有差不多1/n的情况下会分片。也就是说,对一个文件,窗口每移动一次,就有1/n的可能要分片。如果某一次分的片数太小,那就减小n的值,使每次分片的可能性增加,增大片数。而如果觉得分的片太多,就增大n的值,使每次分片的可能性减少,降低片数。每次将n除以或者乘以2,进行调整,使最终的片数尽可能在32到64之间。由于分片的可能性差不多是1/n,所以每次运行ssdeep时,第一次尝试的n值就是一个接近于文件长度/64的值。
当Alder-32哈希值除以n的余数恰好等于n-1时,就在当前位置分片;否则,不分片,窗口往后滚动一个字节,然后再次计算Alder-32哈希值并判断,如此继续。
用一个强哈希算法对S101中得到的每个片计算哈希值。可使用Fowler-Noll-Vohash哈希算法。
压缩哈希值。对每一个文件分片,计算得到一个哈希值以后,可以选择将结果压缩短。具体为:取哈希结果的最低6位,并用一个ASCII字符表示出来,作为这个分片的最终哈希值的结果。
连接哈希值。将每片压缩后的哈希值连接到一起,即得到该文件的模糊哈希值。如果分片值n对不同文件不同,还应该将n纳入模糊哈希值中,具体做法是直接把n追加在原哈希值最后,作为哈希值的一部分。
S4:计算步骤S3中获得的模糊哈希值与步骤S1中获得的模糊哈希值的相似度,相似度的取值范围为0-100。步骤S4中相似度的计算过程如下:所述网页内容的模糊哈希值是一个字符串,设为s1、s2。将s1到s2的加权编辑距离作为评价其相似性的依据;加权编辑距离是指,先判断从s1变为s2,最少需要多少步操作(包括***、删除、修改),然后对不同操作给出一个权值。***、删除、修改的权值分别设为:0.2、0.3、0.5。最后,将结果加起来,即得到加权编辑距离。
将这个距离除以s1和s2的长度和,以将绝对结果变为相对结果,再映射到0-100的一个整数值上,其中,100表示两个字符串完全一致,而0表示完全不相似;该结果即可以用来判断两个网页内容的相似程度。
S5:判断所述网页内容所属网页类型,若所述网页内容属于第一网页内容,则进行步骤S6;若所述网页内容属于第二网页内容,则进行步骤S7。
S6:判断相似度的取值是否为100,是,则进行步骤S61;否,则进行步骤S62。
S61:结束所述网页内容的监测。
S62:发出警告,结束所述网页内容的监测。
S7:判断相似度的取值是否为100,是,则结束所述网页内容的监测;否,则进行步骤S71。
S71:利用DIFF工具找出所述网页内容相比初始状态的差异。
S72:判断差异是否由于图片变化引起,是,则进行步骤S8;否,则进行步骤S9。
S8:将图片内容与恶意内容特征进行匹配,检测图片中是否有异常内容;是,则进行步骤S81;否,则进行步骤S82。
S81:发出警告,结束所述网页内容的监测。
S82:结束所述网页内容的监测。
S9:与敏感词库进行匹配,若匹配到敏感词,则发出警告。如变化部分是字符串,用正则表达式方式与预设的敏感词库进行匹配,如匹配到敏感词,则进行警告。
步骤S9中,还包含与木马特征库进行匹配,若匹配到木马特征,则发出警告。 也是利用正则表达式方式与预设的木马特征库进行匹配。
所述步骤S8中调用图片识别算法对图片内容进行识别,将图片内容与恶意内容特征进行匹配,检测图片中是否有异常内容;是,则进行步骤S81;否则进行步骤S82。
一种基于相似度计算的网页变更监测***,包含以下模块:
初始采集模块1:将网络中的网页内容通过使用网络爬虫存储至本地存储设备, 计算网页内容的模糊哈希值。模糊哈希值主要是利用模糊哈希算法,可以调用ssdeep工具。
判断模块2:判断所述网页内容属于第一网页类型还是属于第二网页类型,并作出相应标记,第一网页类型为网页内容不会发生变化的网页,第二网页类型为网页内容会发生变化的网页。可与人工进行分类,也可以利用现有技术中的网页内容识别与分类技术(诸如中国专利文献201210299843.7、201210376933.1等记载)对网页内容进行分类。
实时采集模块3:在设定的时间间隔后再次从网络中爬取所述网页内容,并计算此刻网页内容的模糊哈希值。
初始采集模块1和实时采集模块3中模糊哈希值的计算过程如下:
用一个弱哈希算法对所述网页内容的文件分片。具体方法为:
在文件中读取一部分内容,用弱哈希算法Alder-32进行计算,以滚动哈希的方式得到一个4字节的哈希值。所谓滚动哈希是指,比如原来已经计算了abcdef的哈希值h1,接下来要计算bcdefg的哈希值,不需要完全重新计算,只需要h1–X(a) + Y(g)即可。其中X、Y是两个函数,即只需要相应增减差量对哈希值的影响即可。这种哈希可以大大加快分片判断的速度。
设定分片值n,由它来控制分片条件。n的值根据文件长度、文件内容等确定。确定原则和方法如下:
n的值始终取2的整数次方,这样Alder-32哈希值除以n的余数接近于均匀分布。仅当余数等于n-1时分片,就相当于只有差不多1/n的情况下会分片。也就是说,对一个文件,窗口每移动一次,就有1/n的可能要分片。如果某一次分的片数太小,那就减小n的值,使每次分片的可能性增加,增大片数。而如果觉得分的片太多,就增大n的值,使每次分片的可能性减少,降低片数。每次将n除以或者乘以2,进行调整,使最终的片数尽可能在32到64之间。由于分片的可能性差不多是1/n,所以每次运行ssdeep时,第一次尝试的n值就是一个接近于文件长度/64的值。
当Alder-32哈希值除以n的余数恰好等于n-1时,就在当前位置分片;否则,不分片,窗口往后滚动一个字节,然后再次计算Alder-32哈希值并判断,如此继续。
用一个强哈希算法对S101中得到的每个片计算哈希值。可使用Fowler-Noll-Vohash哈希算法。
压缩哈希值。对每一个文件分片,计算得到一个哈希值以后,可以选择将结果压缩短。具体为:取哈希结果的最低6位,并用一个ASCII字符表示出来,作为这个分片的最终哈希值的结果。
连接哈希值。将每片压缩后的哈希值连接到一起,即得到该文件的模糊哈希值。如果分片值n对不同文件不同,还应该将n纳入模糊哈希值中,具体做法是直接把n追加在原哈希值最后,作为哈希值的一部分。
计算模块4:计算实时采集模块中获得的模糊哈希值与初始采集模块中获得的模糊哈希值的相似度,相似度的取值范围为0-100计算模块4中相似度的计算过程如下:所述网页内容的模糊哈希值是一个字符串,设为s1、s2。将s1到s2的加权编辑距离作为评价其相似性的依据;加权编辑距离是指,先判断从s1变为s2,最少需要多少步操作(包括***、删除、修改),然后对不同操作给出一个权值。***、删除、修改的权值分别设为:0.2、0.3、0.5。最后,将结果加起来,即得到加权编辑距离。
网页判断模块5:判断所述网页内容所属网页类型,若所述网页内容属于第一网页内容,则转入第一判断模块6;若所述网页内容属于第二网页内容,则转入第二判断模块7。
第一判断模块6:判断相似度的取值是否为100,是,则结束所述网页内容的监测;否,则转入第一警告模块61。
第一警告模块61:发出警告,结束所述网页内容的监测。
第二判断模块7:判断相似度的取值是否为100,是,则转入第一终止模块71;否,则转入差异分析模块72。
第一终止模块71:结束所述网页内容的监测。
差异分析模块72:利用DIFF工具找出所述网页内容相比初始状态的差异。
第三判断模块8:判断差异是否由于图片变化引起,是,则转入第一匹配模块81;否,则准入第二匹配模块82。
第一匹配模块81:将图片内容与恶意内容特征进行匹配,检测图片中是否有异常内容;是,则转入第二警告模块811;否,则转入第二终止模块812。
第二警告模块811:发出警告,结束所述网页内容的监测。
第二终止模块812:结束所述网页内容的监测。
第二匹配模块82:与敏感词库进行匹配,若匹配到敏感词,则发出警告。
所述第二匹配模块82还包含与木马特征库进行匹配,若匹配到木马特征,则发出警告。
第三判断模块8中调用图片识别算法对图片内容进行识别,判断差异是否由于图片变化引起,是,则转入第一匹配模块81;否,则准入第二匹配模块82。
本发明的一种基于相似度计算的网页变更监测方法和***,使用网络爬虫技术将网页内容保存到本地,在设定的时间间隔再次获取网页内容,利用模糊哈希算法与本地保存的页面内容相似度进行比较。可以自定义网页内容属性,内容不会改变的网页内容,监测步骤较为简洁,监测效率高。对于内容可改变的网页内容,进一步进行差异分析,识别字符或者图片的篡改,可以第一时间准确识别网页内容是被篡改还是正常的更新,提高网页内容的安全性。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims (6)

1.一种基于相似度计算的网页变更监测方法,其特征在于,包含以下步骤:
S1:将网络中的网页内容通过使用网络爬虫存储至本地存储设备, 计算网页内容的模糊哈希值;
S2:判断所述网页内容属于第一网页类型还是属于第二网页类型,并作出相应标记,第一网页类型为网页内容不会发生变化的网页,第二网页类型为网页内容会发生变化的网页;
S3:在设定的时间间隔后再次从网络中爬取所述网页内容,并计算此刻网页内容的模糊哈希值;
S4:计算步骤S3中获得的模糊哈希值与步骤S1中获得的模糊哈希值的相似度,相似度的取值范围为0-100;
S5:判断所述网页内容所属网页类型,若所述网页内容属于第一网页内容,则进行步骤S6;若所述网页内容属于第二网页内容,则进行步骤S7;
S6:判断相似度的取值是否为100,是,则进行步骤S61;否,则进行步骤S62;
S61:结束所述网页内容的监测;
S62:发出警告,结束所述网页内容的监测;
S7:判断相似度的取值是否为100,是,则结束所述网页内容的监测;否,则进行步骤S71;
S71:利用DIFF工具找出所述网页内容相比初始状态的差异;
S72:判断差异是否由于图片变化引起,是,则进行步骤S8;否,则进行步骤S9;
S8:将图片内容与恶意内容特征进行匹配,检测图片中是否有异常内容;是,则进行步骤S81;否,则进行步骤S82;
S81:发出警告,结束所述网页内容的监测;
S82:结束所述网页内容的监测;
S9:与敏感词库进行匹配,若匹配到敏感词,则发出警告。
2.根据权利要求1所述的一种基于相似度计算的网页变更监测方法,其特征在于,步骤S9中,还包含与木马特征库进行匹配,若匹配到木马特征,则发出警告。
3.根据权利要求2所述的一种基于相似度计算的网页变更监测方法,其特征在于,所述步骤S8中调用图片识别算法对图片内容进行识别,将图片内容与恶意内容特征进行匹配,检测图片中是否有异常内容;是,则进行步骤S81;否则进行步骤S82。
4.一种基于相似度计算的网页变更监测***,其特征在于,包含以下模块:
初始采集模块:将网络中的网页内容通过使用网络爬虫存储至本地存储设备, 计算网页内容的模糊哈希值;
判断模块:判断所述网页内容属于第一网页类型还是属于第二网页类型,并作出相应标记,第一网页类型为网页内容不会发生变化的网页,第二网页类型为网页内容会发生变化的网页;
实时采集模块:在设定的时间间隔后再次从网络中爬取所述网页内容,并计算此刻网页内容的模糊哈希值;
计算模块:计算实时采集模块中获得的模糊哈希值与初始采集模块中获得的模糊哈希值的相似度,相似度的取值范围为0-100;
网页判断模块:判断所述网页内容所属网页类型,若所述网页内容属于第一网页内容,则转入第一判断模块;若所述网页内容属于第二网页内容,则转入第二判断模块;
第一判断模块:判断相似度的取值是否为100,是,则结束所述网页内容的监测;否,则转入第一警告模块;
第一警告模块:发出警告,结束所述网页内容的监测;
第二判断模块:判断相似度的取值是否为100,是,则转入第一终止模块;否,则转入差异分析模块;
第一终止模块:结束所述网页内容的监测;
差异分析模块:利用DIFF工具找出所述网页内容相比初始状态的差异;
第三判断模块:判断差异是否由于图片变化引起,是,则转入第一匹配模块;否,则准入第二匹配模块;
第一匹配模块:将图片内容与恶意内容特征进行匹配,检测图片中是否有异常内容;是,则转入第二警告模块;否,则转入第二终止模块;
第二警告模块:发出警告,结束所述网页内容的监测;
第二终止模块:结束所述网页内容的监测;
第二匹配模块:与敏感词库进行匹配,若匹配到敏感词,则发出警告。
5.根据权利要求4所述的一种基于相似度计算的网页变更监测***,其特征在于,所述第二匹配模块还包含与木马特征库进行匹配,若匹配到木马特征,则发出警告。
6.根据权利要求5所述的一种基于相似度计算的网页变更监测***,其特征在于,第三判断模块中调用图片识别算法对图片内容进行识别,判断差异是否由于图片变化引起,是,则转入第一匹配模块;否,则准入第二匹配模块。
CN201611182671.XA 2016-12-20 2016-12-20 一种基于相似度计算的网页变更监测方法和*** Active CN106599242B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611182671.XA CN106599242B (zh) 2016-12-20 2016-12-20 一种基于相似度计算的网页变更监测方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611182671.XA CN106599242B (zh) 2016-12-20 2016-12-20 一种基于相似度计算的网页变更监测方法和***

Publications (2)

Publication Number Publication Date
CN106599242A true CN106599242A (zh) 2017-04-26
CN106599242B CN106599242B (zh) 2019-03-26

Family

ID=58600081

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611182671.XA Active CN106599242B (zh) 2016-12-20 2016-12-20 一种基于相似度计算的网页变更监测方法和***

Country Status (1)

Country Link
CN (1) CN106599242B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301355A (zh) * 2017-06-20 2017-10-27 深信服科技股份有限公司 一种网页篡改监测方法及装置
CN107612908A (zh) * 2017-09-15 2018-01-19 杭州安恒信息技术有限公司 网页篡改监测方法及装置
CN108021692A (zh) * 2017-12-18 2018-05-11 北京天融信网络安全技术有限公司 一种监控网页的方法、服务器及计算机可读存储介质
CN108540466A (zh) * 2018-03-31 2018-09-14 甘肃万维信息技术有限责任公司 基于网页篡改监控报警***
CN108595583A (zh) * 2018-04-18 2018-09-28 平安科技(深圳)有限公司 动态图表类页面数据爬取方法、装置、终端及存储介质
CN108809943A (zh) * 2018-05-14 2018-11-13 苏州闻道网络科技股份有限公司 网站监控方法及其装置
CN109241779A (zh) * 2018-08-27 2019-01-18 浙江每日互动网络科技股份有限公司 一种检测页面篡改的方法
CN109495471A (zh) * 2018-11-15 2019-03-19 东信和平科技股份有限公司 一种对web攻击结果判定方法、装置、设备及可读存储介质
CN109740094A (zh) * 2018-12-27 2019-05-10 上海掌门科技有限公司 页面监测方法、设备和计算机存储介质
CN110034921A (zh) * 2019-04-18 2019-07-19 成都信息工程大学 基于带权模糊hash的webshell检测方法
CN110598478A (zh) * 2019-09-19 2019-12-20 腾讯科技(深圳)有限公司 基于区块链的证据校验方法、装置、设备和存储介质
CN110659439A (zh) * 2019-09-23 2020-01-07 杭州迪普科技股份有限公司 一种黑链防护方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571791A (zh) * 2011-12-31 2012-07-11 奇智软件(北京)有限公司 一种分析网页内容是否被篡改的方法及***
CN102682098A (zh) * 2012-04-27 2012-09-19 北京神州绿盟信息安全科技股份有限公司 检测网页内容变更的方法及装置
CN102779245A (zh) * 2011-05-12 2012-11-14 李朝荣 基于图像处理技术的网页异常检测方法
CN103279475A (zh) * 2013-04-11 2013-09-04 广东电网公司信息中心 一种web应用***内容变更的检测方法及***
CN105678193A (zh) * 2016-01-06 2016-06-15 杭州数梦工场科技有限公司 一种防篡改的处理方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779245A (zh) * 2011-05-12 2012-11-14 李朝荣 基于图像处理技术的网页异常检测方法
CN102571791A (zh) * 2011-12-31 2012-07-11 奇智软件(北京)有限公司 一种分析网页内容是否被篡改的方法及***
CN102682098A (zh) * 2012-04-27 2012-09-19 北京神州绿盟信息安全科技股份有限公司 检测网页内容变更的方法及装置
CN103279475A (zh) * 2013-04-11 2013-09-04 广东电网公司信息中心 一种web应用***内容变更的检测方法及***
CN105678193A (zh) * 2016-01-06 2016-06-15 杭州数梦工场科技有限公司 一种防篡改的处理方法和装置

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301355A (zh) * 2017-06-20 2017-10-27 深信服科技股份有限公司 一种网页篡改监测方法及装置
CN107301355B (zh) * 2017-06-20 2021-07-02 深信服科技股份有限公司 一种网页篡改监测方法及装置
CN107612908B (zh) * 2017-09-15 2020-06-05 杭州安恒信息技术股份有限公司 网页篡改监测方法及装置
CN107612908A (zh) * 2017-09-15 2018-01-19 杭州安恒信息技术有限公司 网页篡改监测方法及装置
CN108021692A (zh) * 2017-12-18 2018-05-11 北京天融信网络安全技术有限公司 一种监控网页的方法、服务器及计算机可读存储介质
CN108021692B (zh) * 2017-12-18 2022-03-11 北京天融信网络安全技术有限公司 一种监控网页的方法、服务器及计算机可读存储介质
CN108540466A (zh) * 2018-03-31 2018-09-14 甘肃万维信息技术有限责任公司 基于网页篡改监控报警***
CN108595583A (zh) * 2018-04-18 2018-09-28 平安科技(深圳)有限公司 动态图表类页面数据爬取方法、装置、终端及存储介质
CN108809943B (zh) * 2018-05-14 2021-05-14 苏州闻道网络科技股份有限公司 网站监控方法及其装置
CN108809943A (zh) * 2018-05-14 2018-11-13 苏州闻道网络科技股份有限公司 网站监控方法及其装置
CN109241779A (zh) * 2018-08-27 2019-01-18 浙江每日互动网络科技股份有限公司 一种检测页面篡改的方法
CN109495471A (zh) * 2018-11-15 2019-03-19 东信和平科技股份有限公司 一种对web攻击结果判定方法、装置、设备及可读存储介质
CN109495471B (zh) * 2018-11-15 2021-07-02 东信和平科技股份有限公司 一种对web攻击结果判定方法、装置、设备及可读存储介质
CN109740094A (zh) * 2018-12-27 2019-05-10 上海掌门科技有限公司 页面监测方法、设备和计算机存储介质
CN110034921A (zh) * 2019-04-18 2019-07-19 成都信息工程大学 基于带权模糊hash的webshell检测方法
CN110034921B (zh) * 2019-04-18 2022-04-15 成都信息工程大学 基于带权模糊hash的webshell检测方法
CN110598478A (zh) * 2019-09-19 2019-12-20 腾讯科技(深圳)有限公司 基于区块链的证据校验方法、装置、设备和存储介质
CN110598478B (zh) * 2019-09-19 2024-06-07 腾讯科技(深圳)有限公司 基于区块链的证据校验方法、装置、设备和存储介质
CN110659439A (zh) * 2019-09-23 2020-01-07 杭州迪普科技股份有限公司 一种黑链防护方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN106599242B (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
CN106599242A (zh) 一种基于相似度计算的网页变更监测方法和***
US20130276126A1 (en) Website scanning device and method
CN107038173B (zh) 应用查询方法和装置、相似应用检测方法和装置
US20140067784A1 (en) Webpage information detection method and system
CN103077250B (zh) 一种网页内容抓取方法及装置
JP5254443B2 (ja) 通信システムの画像またはマルチメディアビデオ画像に使用される監視方法
CN106991072A (zh) 在线自学习事件检测模型更新方法及装置
CN103634593B (zh) 摄像机移动检测方法和***
CN112788066A (zh) 物联网设备的异常流量检测方法、***及存储介质
KR101598343B1 (ko) 정체 시공간 패턴 자동인식 시스템 및 그 방법
CN112532624A (zh) 一种黑链检测方法、装置、电子设备及可读存储介质
CN109302383B (zh) 一种url监控方法及装置
CN107426136B (zh) 一种网络攻击的识别方法和装置
CN104679768A (zh) 从文档中提取关键词的方法和设备
US9753928B1 (en) System and method for identifying delimiters in a computer file
CN116956080A (zh) 一种数据处理方法、装置以及存储介质
CN112257546B (zh) 一种事件预警方法、装置、电子设备及存储介质
CN111488621A (zh) 一种篡改网页检测方法、***及电子设备和存储介质
CN111382432A (zh) 一种恶意软件检测、分类模型生成方法及装置
CN109670153A (zh) 一种相似帖子的确定方法、装置、存储介质及终端
CN113378161A (zh) 一种安全检测方法、装置、设备及存储介质
CN113746780B (zh) 基于主机画像的异常主机检测方法、装置、介质和设备
CN108881154A (zh) 网页被篡改检测方法、装置及***
CN111460448A (zh) 一种恶意软件家族检测方法及装置
CN111083705A (zh) 群发诈骗短信检测方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant