CN108563963A - 网页篡改检测方法、装置、设备及计算机可读存储介质 - Google Patents

网页篡改检测方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN108563963A
CN108563963A CN201810338580.3A CN201810338580A CN108563963A CN 108563963 A CN108563963 A CN 108563963A CN 201810338580 A CN201810338580 A CN 201810338580A CN 108563963 A CN108563963 A CN 108563963A
Authority
CN
China
Prior art keywords
sectional drawing
sensitive content
sensitive
page
tamper detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810338580.3A
Other languages
English (en)
Inventor
马长春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN201810338580.3A priority Critical patent/CN108563963A/zh
Publication of CN108563963A publication Critical patent/CN108563963A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种网页篡改检测方法,包括:获取被保护网页的页面截图;从页面截图中获取包含敏感信息的敏感内容截图;判断所述敏感内容截图与预先存储的标准敏感内容截图是否一致;若否,则判定所述被保护页面被篡改。可见,在本方案中,通过对被保护页面的页面截图,获取该页面的敏感内容截图,并将敏感内容截图与预存的标准敏感内容截图的对比,来确定该页面的敏感内容是否被篡改,从而可及时发现被篡改的敏感内容,避免由于敏感内容被篡改带来的损失;本发明还公开了一种网页篡改检测装置、设备及计算机可读存储介质,同样可实现上述技术效果。

Description

网页篡改检测方法、装置、设备及计算机可读存储介质
技术领域
本发明涉及网页篡改检测技术领域,更具体地说,涉及一种网页篡改检测方法、装置、设备及计算机可读存储介质。
背景技术
目前,在网站的某些页面上会存在一些敏感内容,例如联系电话/支付地址等。这些敏感信息是公开的,很容易受到其他人的恶意篡改,进而会对网站主造成巨大的伤害。例如:2017/07/21CoinDash平台ICO融资700万美元被洗劫,原因是网站内的支付地址被改为黑客的地址。可以看出,敏感信息被篡改会造成很严重的问题。
因此,如何及时发现被篡改的敏感内容,避免由于敏感内容被篡改带来的损失,是本领域技术人员需要解决的问题。
发明内容
本发明的目的在于提供一种网页篡改检测方法、装置、设备及计算机可读存储介质,以实现及时发现被篡改的敏感内容,避免由于敏感内容被篡改带来的损失。
为实现上述目的,本发明实施例提供了如下技术方案:
一种网页篡改检测方法,包括:
获取被保护网页的页面截图;
从页面截图中获取包含敏感信息的敏感内容截图;
判断所述敏感内容截图与预先存储的标准敏感内容截图是否一致;
若否,则判定所述被保护页面被篡改。
其中,所述从页面截图中获取包含敏感信息的敏感内容截图,包括:
对所述页面截图进行切分,生成包括所有连通子图的集合;
去除所述集合中的背景子图,保留前景子图;
将切割位置相邻且风格相近的前景子图合并,生成待识别的局部截图;
按照预定识别算法识别所述待识别的局部截图,确定包含敏感信息的敏感内容截图。
其中,所述按照预定识别算法识别所述待识别的局部截图,确定包含敏感信息的敏感内容截图包括:
利用OCR文本识别技术将所述待识别的局部截图转换为文字信息,并利用文本分类算法判断文字信息中是否包含敏感内容;
若包含敏感内容,则将所述敏感内容所在的待识别的局部截图作为敏感内容截图。
其中,所述判断所述敏感内容截图与预先存储的标准敏感内容截图是否一致,若否,则判定所述被保护页面被篡改,包括:
判断预先存储的标准敏感内容截图中是否存在与所述敏感内容截图位置一致的目标标准敏感内容截图;
若不存在,则判定所述被保护页面被篡改;
若存在,则判断所述目标标准敏感内容截图的内容与所述述敏感内容截图的内容是否一致;
若不一致,则判定所述被保护页面被篡改。
其中,判定所述被保护页面被篡改之后,还包括:
按照预存的提醒方式,向管理员发送篡改提示信息。
一种网页篡改检测装置,包括:
页面截图获取模块,用于获取被保护网页的页面截图;
敏感内容截图获取模块,用于从页面截图中获取包含敏感信息的敏感内容截图;
判断模块,用于判断所述敏感内容截图与预先存储的标准敏感内容截图是否一致;若否,则判定所述被保护页面被篡改。
其中,所述敏感内容截图获取模块包括:
切分单元,用于对所述页面截图进行切分,生成包括所有连通子图的集合;
筛选单元,用于去除所述集合中的背景子图,保留前景子图;
合并单元,用于将切割位置相邻且风格相近的前景子图合并,生成待识别的局部截图;
识别单元,用于按照预定识别算法识别所述待识别的局部截图,确定包含敏感信息的敏感内容截图。
其中,所述识别单元包括:
文字转换子单元,用于利用OCR文本识别技术将所述待识别的局部截图转换为文字信息;
判断子单元,用于利用文本分类算法判断文字信息中是否包含敏感内容;
敏感内容截图确定子单元,用于在文字信息中包含敏感内容时,将所述敏感内容所在的待识别的局部截图作为敏感内容截图。
其中,所述判断模块包括:
第一判断单元,用于判断预先存储的标准敏感内容截图中是否存在与所述敏感内容截图位置一致的目标标准敏感内容截图;若不存在,则判定所述被保护页面被篡改;
第二判断单元,用于存在与所述敏感内容截图位置一致的目标标准敏感内容截图时,判断所述目标标准敏感内容截图的内容与所述述敏感内容截图的内容是否一致;若不一致,则判定所述被保护页面被篡改。
其中,本方案还包括:
提示模块,用于按照预存的提醒方式,向管理员发送篡改提示信息。
一种网页篡改检测设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述网页篡改检测方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述网页篡改检测方法的步骤。
通过以上方案可知,本发明实施例提供的一种网页篡改检测方法,包括:获取被保护网页的页面截图;从页面截图中获取包含敏感信息的敏感内容截图;判断所述敏感内容截图与预先存储的标准敏感内容截图是否一致;若否,则判定所述被保护页面被篡改。
可见,在本方案中,通过对被保护页面的页面截图,获取该页面的敏感内容截图,并将敏感内容截图与预存的标准敏感内容截图的对比,来确定该页面的敏感内容是否被篡改,从而可及时发现被篡改的敏感内容,避免由于敏感内容被篡改带来的损失;本发明还公开了一种网页篡改检测装置、设备及计算机可读存储介质,同样可实现上述技术效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种网页篡改检测方法流程示意图;
图2为本发明实施例公开的另一种网页篡改检测方法流程示意图;
图3为本发明实施例公开的一种网页篡改检测装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种网页篡改检测方法、装置、设备及计算机可读存储介质,以实现及时发现被篡改的敏感内容,避免由于敏感内容被篡改带来的损失。
参见图1,本发明实施例提供的一种网页篡改检测方法,包括:
S101、获取被保护网页的页面截图;
具体的,在本实施例中,获取被保护网页的页面截图可以理解为在检测阶段获取的,进而,在检测阶段获取被保护网页的页面截图可以通过设置检测间隔,即每隔预定时间间隔便执行S101-S103,对被保护页面进行一次检测。
需要说明的是,预设的时间间隔可为用户预先设置的检测间隔,例如:60s、120s等,也就是说,若间隔时间为60s,那么***会每间隔60s重新执行S101-S103,以防止被保护网页被篡改;当然,该时间间隔可以根据实际情况进行设定,若被保护页面的重要等级较高,则可设定时间间隔短一些,相反,则可设置长一些。
在本实施例中,被保护网页也就是被保护的页面的URL,可以由用户手工指定来确定,也可以由用户指定域名后,通过爬虫获取站点内的网页,再通过S102来判断是否存在敏感内容截图,如果网页内存在敏感信息,则确定为被保护的网页。进一步,确定被保护页面的URL后,需要获取被保护页面的页面截图,具体来说,可以使用脚本驱动浏览器访问被保护的URL,从而保存整个页面的截图。
S102、从页面截图中获取包含敏感信息的敏感内容截图;
具体的,页面截图中包括被保护页面的所有内容,包括图片、链接、文字等信息。在获取敏感内容截图时,可以由用户指定,也可以通过算法识别,识别算法可以使用OCR技术配合机器学习中的自然语言处理技术,从而可以识别敏感内容所在的区域,并保存该区域的敏感内容截图。可以理解的是,本方案中的识别算法只要能识别敏感信息就可以,在此并不具体限定。
S103、判断所述敏感内容截图与预先存储的标准敏感内容截图是否一致;若否,则判定所述被保护页面被篡改。
具体的,若敏感内容截图与预先存储的标准敏感内容截图是一致,则可以说明敏感内容未被修改,本方案中的标准敏感内容截图,为在初始阶段预先获取的标准敏感内容截图,该标准敏感内容截图所记载的敏感信息以及敏感信息所在的网页位置均是正确的,因此,在检测阶段获取的敏感内容截图可以与标准敏感内容截图进行对比,从而来判定被保护网页是否被篡改。
需要说明的是,在初始阶段获取标准敏感内容截图的手段,可以与检测阶段获取敏感内容截图的手段一致,也可以不一致;具体来说,在初始阶段获取标准敏感内容截图的手段可以为用户指定,在检测阶段获取敏感内容截图的手段可以通过算法识别,同样的,在初始阶段获取标准敏感内容截图的手段可以为通过一种算法识别,在检测阶段获取敏感内容截图的手段可以通过另一种算法识别,只要能实现初始阶段及检测阶段的敏感内容截图的对比便可,具体使用的手段在本方案中并不具体限定。
可以理解的是,本方案中的标准敏感内容截图可以为网页在初始公开时所生成的敏感内容截图,但是,如果被保护页面执行了修改操作,则需要重新更新该标准敏感内容截图,从而保证标准敏感内容截图的准确定,在对网页进行篡改检测时可以更精准;如果新增被保护页面,则会实时生成与新增被保护页面对应的标准敏感内容截图,在检测阶段时,也会增加对新增被保护页面的检测;如果被保护页面被删除,则与删除的被保护页面对应的标准敏感内容截图也会被删除,同样的,在检测阶段则不需要对已被删除的被保护页面检测。
综上可见,在本方案中,通过对被保护页面的页面截图,获取该页面的敏感内容截图,并将敏感内容截图与预存的标准敏感内容截图的对比,来确定该页面的敏感内容是否被篡改,从而可及时发现被篡改的敏感内容,避免由于敏感内容被篡改带来的损失。
参见图2,为本发明实施例提供的另一种网页篡改检测方法,包括:
S201、获取被保护网页的页面截图;
S202、对所述页面截图进行切分,生成包括所有连通子图的集合;
S203、去除所述集合中的背景子图,保留前景子图;
S204、将切割位置相邻且风格相近的前景子图合并,生成待识别的局部截图;
S205、按照预定识别算法识别所述待识别的局部截图,确定包含敏感信息的敏感内容截图;
S206、判断所述敏感内容截图与预先存储的标准敏感内容截图是否一致;若否,则判定所述被保护页面被篡改。
在本实施例中,S201、S205与上一实施例中的S101、S103相对应,在此不再赘述。本方案对页面截图进行处理,获取包含敏感信息的敏感内容截图时,首先,需要对页面截图进行前景背景识别,以过滤掉背景部分。本方案中的前景为包括页面信息的部分,例如图片、文字等信息;本方案中的背景为不包括页面信息的部分,具体来说可以为空白区域。本方案过去背景部分具体可以包括以下内容:
首先将页面截图进行二值化处理,按照连通性,将图片切分为不同区域,生成不同区域的子图的集合。在原图像中,对不同子图区域计算熵值,熵值大于预定阈值的判定为是前景子图,否则,则判定为背景子图,进行删除。熵的计算公式为:
pij=f(i,j)/N2…………………………(1)
其中,本方案中的熵值是在一维熵的基础上引入能够反映灰度分布空间特征的特征量j来组成图像的二维熵。选择图像的邻域灰度均值作为灰度分布的空间特征量,与图像的像素灰度i组成特征二元组,记为(i,j),其中i表示像素的灰度值(0<=i<=255),j表示邻域灰度均值(0<=j<=255),公式(1)能反应某像素位置上的灰度值与其周围像素灰度分布的综合特征,其中f(i,j)为特征二元组(i,j)出现的频数,N为图像的尺度。
再次,对去除背景部分的前景子图进行合并,在合并时将大小相近、位置相邻且风格相近的块合并为大的矩形截图,生成本方案中的待识别的局部截图;其中,风格相近的块具体可以理解为内容相似的块。
再次,使用分类引擎对待识别的局部截图进行判断,判断是否携带敏感信息。具体来说,按照预定识别算法识别所述待识别的局部截图,确定包含敏感信息的敏感内容截图包括:
利用OCR文本识别技术将所述待识别的局部截图转换为文字信息,并利用文本分类算法判断文字信息中是否包含敏感内容;
若包含敏感内容,则将所述敏感内容所在的待识别的局部截图作为敏感内容截图。
可以理解的是,分类过程可以使用OCR计算将图片信息转化为文字信息,再利用文本分类算法进行分类,文本分类算法包括正则匹配、词袋模型、LSTM等。也可以直接使用图片进行分类,例如利用训练好的CNN网络进行分类。识别携带敏感信息的敏感内容截图后,保存该敏感内容截图,截图包括敏感内容及其周围的区域,周围区域用于后续定位使用。
基于上述任意方法实施例,在本实施例中,判断所述敏感内容截图与预先存储的标准敏感内容截图是否一致,若否,则判定所述被保护页面被篡改,包括:
判断预先存储的标准敏感内容截图中是否存在与所述敏感内容截图位置一致的目标标准敏感内容截图;若不存在,则判定所述被保护页面被篡改;
若存在,则判断所述目标标准敏感内容截图的内容与所述述敏感内容截图的内容是否一致;若不一致,则判定所述被保护页面被篡改。
具体的,判断敏感内容截图与预先存储的标准敏感内容截图是否一致时,可以首先判断敏感内容截图的位置是否发生改变,位置发生改变包括原先没有敏感内容截图的位置出现敏感内容截图,原先有敏感内容截图的位置,现在没有敏感内容截图;如果位置发生了变化,则说明敏感内容被修改。进一步的,如果敏感内容截图的位置没有发生改变,则检查敏感内容截图的敏感信息的具体内容是否发生改变,从而来判定被保护页面是否被篡改。
进一步,如果敏感内容截图的敏感信息发生了变化则认为发生了篡改,因此在本方案中,若判定被保护的URL已被篡改之后,还包括:按照预存的提醒方式,向管理员发送篡改提示信息。这里的提醒方式可以为邮件/短信/电话等方式,相应的,***中会存储提醒方式的具体信息,如邮件地址、短信收件人、电话联系人等,进而通知管理员被保护页面的敏感信息已被篡改,尽快采取处理措施,避免带来损失。
下面对本发明实施例提供的网页篡改检测装置进行介绍,下文描述的网页篡改检测装置与上文描述的网页篡改检测方法可以相互参照。
参见图3,本发明实施例提供的一种网页篡改检测装置,包括:
页面截图获取模块100,用于获取被保护网页的页面截图;
敏感内容截图获取模块200,用于从页面截图中获取包含敏感信息的敏感内容截图;
判断模块300,用于判断所述敏感内容截图与预先存储的标准敏感内容截图是否一致;若否,则判定所述被保护页面被篡改。
其中,所述敏感内容截图获取模块200包括:
切分单元,用于对所述页面截图进行切分,生成包括所有连通子图的集合;
筛选单元,用于去除所述集合中的背景子图,保留前景子图;
合并单元,用于将切割位置相邻且风格相近的前景子图合并,生成待识别的局部截图;
识别单元,用于按照预定识别算法识别所述待识别的局部截图,确定包含敏感信息的敏感内容截图。
其中,所述识别单元包括:
文字转换子单元,用于利用OCR文本识别技术将所述待识别的局部截图转换为文字信息;
判断子单元,用于利用文本分类算法判断文字信息中是否包含敏感内容;
敏感内容截图确定子单元,用于在文字信息中包含敏感内容时,将所述敏感内容所在的待识别的局部截图作为敏感内容截图。
基于上述实施例,所述判断模块300包括:
第一判断单元,用于判断预先存储的标准敏感内容截图中是否存在与所述敏感内容截图位置一致的目标标准敏感内容截图;若不存在,则判定所述被保护页面被篡改;
第二判断单元,用于存在与所述敏感内容截图位置一致的目标标准敏感内容截图时,判断所述目标标准敏感内容截图的内容与所述述敏感内容截图的内容是否一致;若不一致,则判定所述被保护页面被篡改。
基于上述实施例,本实施例还包括:
提示模块,用于按照预存的提醒方式,向管理员发送篡改提示信息。
本发明还公开了一种网页篡改检测设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述网页篡改检测方法的步骤。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述网页篡改检测方法的步骤。
具体的,该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
综上可见,相比对整个页面做缓存,计算页面的偏差量来判断页面是否被篡改的方式,在本方案中仅仅对包含敏感信息的敏感内容截图进行检测判断,从而避免由于网页频繁变化,造成大量的误报,进而避免通过计算页面的偏差的方式带来的偏差允许量,减少漏报现象,从而及时发现被篡改的敏感内容,避免由于敏感内容被篡改带来的损失。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (12)

1.一种网页篡改检测方法,其特征在于,包括:
获取被保护网页的页面截图;
从页面截图中获取包含敏感信息的敏感内容截图;
判断所述敏感内容截图与预先存储的标准敏感内容截图是否一致;
若否,则判定所述被保护页面被篡改。
2.根据权利要求1所述的网页篡改检测方法,其特征在于,所述从页面截图中获取包含敏感信息的敏感内容截图,包括:
对所述页面截图进行切分,生成包括所有连通子图的集合;
去除所述集合中的背景子图,保留前景子图;
将切割位置相邻且风格相近的前景子图合并,生成待识别的局部截图;
按照预定识别算法识别所述待识别的局部截图,确定包含敏感信息的敏感内容截图。
3.根据权利要求2所述的网页篡改检测方法,其特征在于,所述按照预定识别算法识别所述待识别的局部截图,确定包含敏感信息的敏感内容截图包括:
利用OCR文本识别技术将所述待识别的局部截图转换为文字信息,并利用文本分类算法判断文字信息中是否包含敏感内容;
若包含敏感内容,则将所述敏感内容所在的待识别的局部截图作为敏感内容截图。
4.根据权利要求3所述的网页篡改检测方法,其特征在于,所述判断所述敏感内容截图与预先存储的标准敏感内容截图是否一致,若否,则判定所述被保护页面被篡改,包括:
判断预先存储的标准敏感内容截图中是否存在与所述敏感内容截图位置一致的目标标准敏感内容截图;
若不存在,则判定所述被保护页面被篡改;
若存在,则判断所述目标标准敏感内容截图的内容与所述述敏感内容截图的内容是否一致;
若不一致,则判定所述被保护页面被篡改。
5.根据权利要求1至4中任意一项所述的网页篡改检测方法,其特征在于,判定所述被保护页面被篡改之后,还包括:
按照预存的提醒方式,向管理员发送篡改提示信息。
6.一种网页篡改检测装置,其特征在于,包括:
页面截图获取模块,用于获取被保护网页的页面截图;
敏感内容截图获取模块,用于从页面截图中获取包含敏感信息的敏感内容截图;
判断模块,用于判断所述敏感内容截图与预先存储的标准敏感内容截图是否一致;若否,则判定所述被保护页面被篡改。
7.根据权利要求6所述的网页篡改检测装置,其特征在于,所述敏感内容截图获取模块包括:
切分单元,用于对所述页面截图进行切分,生成包括所有连通子图的集合;
筛选单元,用于去除所述集合中的背景子图,保留前景子图;
合并单元,用于将切割位置相邻且风格相近的前景子图合并,生成待识别的局部截图;
识别单元,用于按照预定识别算法识别所述待识别的局部截图,确定包含敏感信息的敏感内容截图。
8.根据权利要求7所述的网页篡改检测装置,其特征在于,所述识别单元包括:
文字转换子单元,用于利用OCR文本识别技术将所述待识别的局部截图转换为文字信息;
判断子单元,用于利用文本分类算法判断文字信息中是否包含敏感内容;
敏感内容截图确定子单元,用于在文字信息中包含敏感内容时,将所述敏感内容所在的待识别的局部截图作为敏感内容截图。
9.根据权利要求8所述的网页篡改检测装置,其特征在于,所述判断模块包括:
第一判断单元,用于判断预先存储的标准敏感内容截图中是否存在与所述敏感内容截图位置一致的目标标准敏感内容截图;若不存在,则判定所述被保护页面被篡改;
第二判断单元,用于存在与所述敏感内容截图位置一致的目标标准敏感内容截图时,判断所述目标标准敏感内容截图的内容与所述述敏感内容截图的内容是否一致;若不一致,则判定所述被保护页面被篡改。
10.根据权利要求6至9中任意一项所述的网页篡改检测装置,其特征在于,还包括:
提示模块,用于按照预存的提醒方式,向管理员发送篡改提示信息。
11.一种网页篡改检测设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至5任一项所述网页篡改检测方法的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述网页篡改检测方法的步骤。
CN201810338580.3A 2018-04-16 2018-04-16 网页篡改检测方法、装置、设备及计算机可读存储介质 Pending CN108563963A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810338580.3A CN108563963A (zh) 2018-04-16 2018-04-16 网页篡改检测方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810338580.3A CN108563963A (zh) 2018-04-16 2018-04-16 网页篡改检测方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN108563963A true CN108563963A (zh) 2018-09-21

Family

ID=63535266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810338580.3A Pending CN108563963A (zh) 2018-04-16 2018-04-16 网页篡改检测方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN108563963A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740094A (zh) * 2018-12-27 2019-05-10 上海掌门科技有限公司 页面监测方法、设备和计算机存储介质
CN109901968A (zh) * 2019-01-31 2019-06-18 阿里巴巴集团控股有限公司 一种自动化页面数据校验方法和装置
CN110059468A (zh) * 2019-04-02 2019-07-26 阿里巴巴集团控股有限公司 一种小程序风险识别方法和装置
CN110222515A (zh) * 2019-04-19 2019-09-10 深圳法大大网络科技有限公司 防篡改检测方法、装置及服务器、计算机可读存储介质
CN111159775A (zh) * 2019-12-11 2020-05-15 中移(杭州)信息技术有限公司 网页篡改检测方法、***、装置及计算机可读存储介质
CN111401416A (zh) * 2020-03-05 2020-07-10 支付宝(杭州)信息技术有限公司 异常网站的识别方法、装置和异常对抗行为的识别方法
CN112995110A (zh) * 2019-12-17 2021-06-18 深信服科技股份有限公司 一种恶意事件信息的获取方法、装置及电子设备
CN114064790A (zh) * 2021-11-12 2022-02-18 盐城金堤科技有限公司 关系图谱是否正常加载的判断方法及其装置
CN117290845A (zh) * 2023-11-27 2023-12-26 央视国际网络有限公司 网页篡改的检测方法、装置及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156490A (zh) * 2014-09-01 2014-11-19 北京奇虎科技有限公司 基于文字识别检测可疑钓鱼网页的方法及装置
CN104217160A (zh) * 2014-09-19 2014-12-17 中国科学院深圳先进技术研究院 一种中文钓鱼网站检测方法及***
CN106293365A (zh) * 2015-05-20 2017-01-04 广州爱九游信息技术有限公司 一种获取页面内容的方法及装置
CN107301355A (zh) * 2017-06-20 2017-10-27 深信服科技股份有限公司 一种网页篡改监测方法及装置
CN107911360A (zh) * 2017-11-13 2018-04-13 哈尔滨工业大学(威海) 一种被黑网站检测方法及***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104156490A (zh) * 2014-09-01 2014-11-19 北京奇虎科技有限公司 基于文字识别检测可疑钓鱼网页的方法及装置
CN104217160A (zh) * 2014-09-19 2014-12-17 中国科学院深圳先进技术研究院 一种中文钓鱼网站检测方法及***
CN106293365A (zh) * 2015-05-20 2017-01-04 广州爱九游信息技术有限公司 一种获取页面内容的方法及装置
CN107301355A (zh) * 2017-06-20 2017-10-27 深信服科技股份有限公司 一种网页篡改监测方法及装置
CN107911360A (zh) * 2017-11-13 2018-04-13 哈尔滨工业大学(威海) 一种被黑网站检测方法及***

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740094A (zh) * 2018-12-27 2019-05-10 上海掌门科技有限公司 页面监测方法、设备和计算机存储介质
CN109901968A (zh) * 2019-01-31 2019-06-18 阿里巴巴集团控股有限公司 一种自动化页面数据校验方法和装置
CN110059468A (zh) * 2019-04-02 2019-07-26 阿里巴巴集团控股有限公司 一种小程序风险识别方法和装置
CN110059468B (zh) * 2019-04-02 2023-09-26 创新先进技术有限公司 一种小程序风险识别方法和装置
CN110222515A (zh) * 2019-04-19 2019-09-10 深圳法大大网络科技有限公司 防篡改检测方法、装置及服务器、计算机可读存储介质
CN111159775A (zh) * 2019-12-11 2020-05-15 中移(杭州)信息技术有限公司 网页篡改检测方法、***、装置及计算机可读存储介质
CN112995110A (zh) * 2019-12-17 2021-06-18 深信服科技股份有限公司 一种恶意事件信息的获取方法、装置及电子设备
CN111401416A (zh) * 2020-03-05 2020-07-10 支付宝(杭州)信息技术有限公司 异常网站的识别方法、装置和异常对抗行为的识别方法
CN111401416B (zh) * 2020-03-05 2022-10-21 支付宝(杭州)信息技术有限公司 异常网站的识别方法、装置和异常对抗行为的识别方法
CN114064790A (zh) * 2021-11-12 2022-02-18 盐城金堤科技有限公司 关系图谱是否正常加载的判断方法及其装置
CN117290845A (zh) * 2023-11-27 2023-12-26 央视国际网络有限公司 网页篡改的检测方法、装置及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN108563963A (zh) 网页篡改检测方法、装置、设备及计算机可读存储介质
US10805346B2 (en) Phishing attack detection
CN107239666B (zh) 一种对医疗影像数据进行脱敏处理的方法及***
US10943106B2 (en) Recognizing text in image data
CN107437038B (zh) 一种网页篡改的检测方法及装置
CN111917740B (zh) 一种异常流量告警日志检测方法、装置、设备及介质
CN108366058B (zh) 防止广告运营商流量劫持的方法、装置、设备及存储介质
CN109325414A (zh) 证件信息的提取方法、装置和文本信息的提取方法
CN111476227A (zh) 基于ocr的目标字段识别方法、装置及存储介质
CN104751093B (zh) 用于获取宿主设备显示的图像识别码的方法和装置
CN106713579B (zh) 一种电话号码识别方法及装置
CN111563495A (zh) 一种图像中字符的识别方法、装置及电子设备
CN112231484A (zh) 一种新闻评论审核方法、***、装置和存储介质
JP6795195B2 (ja) 文字種推定システム、文字種推定方法、および文字種推定プログラム
CN109756467B (zh) 一种钓鱼网站的识别方法及装置
CN111462388A (zh) 一种票据检验方法、装置、终端设备及存储介质
CN107391543B (zh) 一种无线热点的类型识别方法和装置
CN105868757A (zh) 一种图像文字中的文字定位方法及装置
US9332031B1 (en) Categorizing accounts based on associated images
CN115688107B (zh) 一种涉诈app检测***和方法
CN112214737A (zh) 以图片为主的欺诈网页的识别方法、***、装置和介质
KR102643368B1 (ko) 인공지능 기반의 개인정보 보호를 위한 자동 문서 처리 방법 및 서버
CN111062377B (zh) 一种题号检测方法、***、存储介质及电子设备
CN108520185A (zh) 检测网页篡改的方法、装置、设备及计算机可读存储介质
CN112070092A (zh) 一种验证码参数的获取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180921

RJ01 Rejection of invention patent application after publication