CN111563276A - 一种网页篡改检测方法、检测***及相关设备 - Google Patents

一种网页篡改检测方法、检测***及相关设备 Download PDF

Info

Publication number
CN111563276A
CN111563276A CN201910074337.XA CN201910074337A CN111563276A CN 111563276 A CN111563276 A CN 111563276A CN 201910074337 A CN201910074337 A CN 201910074337A CN 111563276 A CN111563276 A CN 111563276A
Authority
CN
China
Prior art keywords
word
word vector
webpage
detected
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910074337.XA
Other languages
English (en)
Other versions
CN111563276B (zh
Inventor
杨荣海
王大伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN201910074337.XA priority Critical patent/CN111563276B/zh
Publication of CN111563276A publication Critical patent/CN111563276A/zh
Application granted granted Critical
Publication of CN111563276B publication Critical patent/CN111563276B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种网页篡改检测方法、检测***及相关设备,用于提高检测效率及检测精度。本发明实施例方法包括:获取待检测网页的主题词汇,并基于预设的词向量模型生成每一个主题词汇的词向量;判断所述待检测网页中是否存在可疑文本;若存在可疑文本,则计算每一个主题词汇的词向量分别与各个可疑文本的语义距离,所有的语义距离构成第一集合;判断所述第一集合中最小的语义距离是否大于第一阈值,若大于,则判定所述待检测网页为篡改网页,若小于,则判定待检测网页为正常网页。

Description

一种网页篡改检测方法、检测***及相关设备
技术领域
本发明涉及网络安全检测领域,尤其涉及一种网页篡改检测方法、检测***及相关设备。
背景技术
网页篡改是指攻击者将已存在的网页部分或全部修改为恶意内容或在站点创建新的网页并写入恶意内容。网页篡改不仅影响了网站的正常运营,而且会向公众传播大量非法信息,危害巨大。
目前针对网页篡改的检测主要是基于关键词匹配,根据命中词语的词频信息,判定网页是否被篡改。现有方案主要是利用关键词的词频及分布来检测网页是否被篡改,但是这些方案会对部分客户场景造成误报,譬如客户网站的业务是游戏或者新闻媒体等,其网页可能包含敏感词,现有方法容易误报。
发明内容
本发明实施例提供了一种网页篡改检测方法、检测***及相关设备,用于提高检测效率及检测精度。
本发明实施例第一方面提供了一种网页篡改检测方法,其包括:
获取待检测网页的主题词汇,并基于预设的词向量模型生成每一个主题词汇的词向量;
判断所述待检测网页中是否存在可疑文本;
若存在可疑文本,则计算每一个主题词汇的词向量分别与各个可疑文本的语义距离,所有的语义距离构成第一集合;
判断所述第一集合中最小的语义距离是否大于第一阈值,若大于,则判定所述待检测网页为篡改网页,若小于,则判定待检测网页为正常网页。
可选的,作为一种可能的实施方式,本发明实施例中,所述判断待检测网页中是否存在可疑文本,包括:
建立敏感词库,并基于词向量模型生成所述敏感词库中每一个敏感词汇的词向量,所有的敏感词汇的词向量构成第二集合;
对待检测网页所属的每一个待检测文本进行分词处理,所有待检测文本中的分词构成第三集合;
基于词向量模型生成所述第三集合中每一个分词的词向量;
判断所述第三集合中是否存在目标分词,所述目标分词对应的词向量与所述第二集合中的各个词向量的最小空间距离小于第二阈值;
若存在所述目标分词,则确定所述目标分词所在的待检测文本为可疑文本。
可选的,作为一种可能的实施方式,本发明实施例中的网页篡改检测方法还包括:
采集训练文本;
判断所述训练文本中的是否存在词向量模型中没有保存过的新词汇;
若存在新词汇,则采用所述新词汇所在的训练文本重新训练词向量模型,并生成对应新词汇的目标词向量;
判断所述第二集合中是否存在第一词向量,所述第一词向量与所述目标词向量的空间距离小于第三阈值;
若存在所述第一词向量,则将所述目标词向量对应的新词汇加入所述敏感词库。
可选的,作为一种可能的实施方式,本发明实施例中,所述计算每一个主题词汇的词向量分别与各个可疑文本的语义距离,包括:
进行独立距离运算,所述独立距离运算包括:计算第一主题词汇的词向量与一个可疑文本中各个分词的词向量的空间距离,取最小的空间距离作为所述第一主题词汇与对应的可疑文本的语义距离;
重复所述独立距离运算,得到每一个主题词汇的词向量分别与各个可疑文本的语义距离。
本发明实施例第二方面提供了一种检测***,运用于网页篡改检测,其包括:
获取模块,用于获取待检测网页的主题词汇,并基于预设的词向量模型生成每一个主题词汇的词向量;
第一判断模块,用于判断所述待检测网页中是否存在可疑文本;
计算模块,若存在可疑文本,则用于计算每一个主题词汇的词向量分别与各个可疑文本的语义距离,所有的语义距离构成第一集合;
处理模块,用于判断所述第一集合中最小的语义距离是否大于第一阈值,若大于,则判定所述待检测网页为篡改网页,若小于,则判定待检测网页为正常网页。
可选的,作为一种可能的实施方式,本发明实施例中,所述第一判断模块包括:
建立单元,用于建立敏感词库,并基于词向量模型生成所述敏感词库中每一个敏感词汇的词向量,所有的敏感词汇的词向量构成第二集合;
分词单元,用于对待检测网页所属的每一个待检测文本进行分词处理,所有待检测文本中的分词构成第三集合;
生成单元,基于词向量模型生成所述第三集合中每一个分词的词向量;
判断单元,判断所述第三集合中是否存在目标分词,所述目标分词对应的词向量与所述第二集合中的各个词向量的最小空间距离小于第二阈值;
处理单元,若存在所述目标分词,则确定所述目标分词所在的待检测文本为可疑文本。
可选的,作为一种可能的实施方式,本发明实施例中的检测***还包括:
采集模块,用于采集训练文本;
第二判断模块,用于判断所述训练文本中的是否存在词向量模型中没有保存过的新词汇;
训练模块,若存在新词汇,则采用所述新词汇所在的训练文本重新训练词向量模型,并生成对应新词汇的目标词向量;
第三判断模块,用于判断所述第二集合中是否存在第一词向量,所述第一词向量与所述目标词向量的空间距离小于第三阈值;
更新模块,若存在所述第一词向量,则将所述目标词向量对应的新词汇加入所述敏感词库。
可选的,作为一种可能的实施方式,本发明实施例中,所述计算模块,包括:
计算单元,用于进行独立距离运算,所述独立距离运算包括:计算第一主题词汇的词向量与一个可疑文本中各个分词的词向量的空间距离,取最小的空间距离作为所述第一主题词汇与对应的可疑文本的语义距离;
控制单元,用于重复所述独立距离运算,得到每一个主题词汇的词向量分别与各个可疑文本的语义距离。
本发明实施例第三方面提供了一种计算机装置,所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如第一方面及第一方面任一种可能的实施方式中的步骤。
本发明实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如第一方面及第一方面任一种可能的实施方式中的步骤。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例中,检测***可以将待检测网页中的文本划分为多个待检测文本,并判断各个待检测文本是否为可疑文本,只对可疑文本进行进一步检测,提高了检测的效率。此外,检测***可以获取待检测网页的主题词汇,并基于预设的词向量模型生成每一个主题词汇的词向量,并计算每一个主题词汇的词向量分别与各个可疑文本的语义距离,并基于最小语义距离判定待检测网页是否有被篡改,基于待检测网页的主题识别可疑文本是否被篡改,当主题词汇与可疑文本的最小的语义距离不大于第一阈值时,判定待检测网页为正常网页,可以避免误报。
附图说明
图1为本发明实施例中一种网页篡改检测方法的一个实施例示意图;
图2为本发明实施例中一种网页篡改检测方法的另一个实施例示意图;
图3为本发明实施例中一种网页篡改检测方法的另一个实施例示意图;
图4为本发明实施例中一种检测***的一个实施例示意图;
图5为本发明实施例中一种检测***的另一个实施例示意图;
图6为本发明实施例中一种检测***的另一个实施例示意图;
图7为本发明实施例中一种检测***的另一个实施例示意图;
图8为本发明实施例中一种计算机装置的一个实施例示意图。
具体实施方式
本发明实施例提供了一种网页篡改检测方法、检测***及相关设备,用于提高检测效率及检测精度。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
网页篡改是指攻击者将已存在的网页部分或全部修改为恶意内容或在站点创建新的网页并写入恶意内容。网页篡改不仅影响了网站的正常运营,而且会向公众传播大量非法信息,危害巨大。目前针对网页篡改的检测主要是基于关键词匹配,根据命中词语的词频信息,判定网页是否被篡改。现有方案主要是利用关键词的词频及分布来检测网页是否被篡改。上述方案可归类为基于关键词的技术,其存在以下几个问题:无法处理易误报样本,譬如客户网站的业务是游戏或者新闻媒体等,其网页可能包含敏感词,现有方法容易误报。关键词抗干扰能力差,容易被绕过。为逃避检测,黑客会定期研发新的黑词,比如将“***”变成“六he采”。关键词技术难以应对未收录黑词。无法避免数据噪声干扰,网页数据和普通的文本数据存在较大的差异性。网页数据中的文本凌乱而不规律,包含的内容具有分散性,基本的关键词、统计特征、概率模型等方案,会受到数据中的噪声干扰,导致效果受到削弱。
针对上述方案的不足,本发明提出了一种篡改网页检测方法。本发明实施例中首先根据语义相似性,判断待检测网页中是否含有与敏感词语义相近的可疑文本。然后进行上下文分析,判断可疑文本与网站业务主题的距离。若主题相近,则认为该可疑文本是网站自身业务,从而减少业务误判。本发明实施例能够根据客户的网站主题,自适应不同客户的业务场景,大幅度降低对客户业务的误报。进一步的,本发明实施例还可以通过收集样本学习,通过半自动的敏感词扩展机制,从而能够及时获取新型敏感词。
为了便于理解,下面对本发明实施例中的具体流程进行描述,请参阅图1,本发明实施例中一种网页篡改检测方法的一个实施例可包括:
101、获取待检测网页的主题词汇,并基于预设的词向量模型生成每一个主题词汇的词向量;
实际运用中,每个站点的文本都有不同的主题,检测***可以基于用户的输入获取主题词汇,也可以采用自动提取网页的主题词汇。具体的,在过滤掉预置的停用词之后,检测***可以采用文件***遍历技术或爬虫程序根据既定的目标,定时访问互联网上的网页与相关的链接并下载网页内容,其中,抓取目标可以为待检测站点上所有相关的网页,也可以根据需要大范围的抓取,具体可以根据管理人员的需求进行设置。
在获取到待检测站点所属的所有文本过滤掉预置的停用词之后,检测***可以采用TF-IDF(term frequency-inverse document frequency)技术来提取待检测站点的所属的文本的主题词汇,其原理为:一篇M个词的文章中目标词汇出现N次,则该汇词的词频计算参照TF公式:TF=N/M,逆向文本词频是用于衡量词汇权重的指数,可由公式:IDF=log(D/Dw)计算得到,其中D为待检测站点的文本总数,Dw为出现过目标词汇的文本数,Dw越大则目标词汇在越多的文档中出现,对应的目标词汇的权重越小,通过计算目标词汇的词频与逆向文本词频的乘积即可得到目标词汇的加权词频,将加权词频超过预置阀值或加权词频排名超过预置排名的目标词汇作为待检测站点所属的文本的主题词汇。
可以理解的是,本发明实施例中还可以采用其他的方式提取待检测站点所属的文本的主题词汇,例如采用Text Rank算法计算对应文本的主题词汇,还可以将相似站点的主题词汇进行简单的预处理之后,替代为待检测站点的主题词汇,例如不同地区的政府机关在其官网上公布相同的政策文本时,可以将该文本主题词汇中的行政地区名替换为发布该待检测站点的行政地区即可得到对应的主题词汇,具体的主题词汇提取方式此处不做限定。
基于预设的词向量模型生成每一个主题词汇的词向量,具体的词向量模型是收集大量的黑白文本语料,如中文维基、恶意网页等,提取出网页文本、分词,以进行词向量训练而成。词向量模型可以将词语映射到高维的向量空间,具体的词向量模型原理为现有技术,例如word2vec等技术,此处不做赘述。
102、判断待检测网页中是否存在可疑文本;
实际运用中,现有的检测方案中是针对有序而规律的短语、句子、段落、文章等常规文本。然而本发明实施例中考虑到如下问题:网页文本是由不规律的、长短不一的小文本所构成的,这些文本可能来自于网页的标题、超链接、展示内容等,也可能包含一些诸如html注释等噪声信息,这使得传统的基于统计的算法难以在这些零散的文本中找到篡改内容。为了克服上述难题,本发明实施例中,检测***将根据网页自身的排版情况,将待检测网页中的文本划分为多个待检测文本,并判断待检测网页中的多个待检测文本是否存在可疑文本。
具体判断待检测文本是否为可疑文本的方法,可以参照现有技术中基于关键词匹配,根据命中词语的词频信息,判断待检测文本是否为可疑文本,还可以是其他方式,例如,采用神经网络模型进行识别,具体此处不做限定。
103、计算每一个主题词汇的词向量分别与各个可疑文本的语义距离,所有的语义距离构成第一集合;
若待检测网页中存在可疑文本,则需要进一步识别是否存在误报。具体的,本发明实施例中,检测***可以计算每一个主题词汇的词向量分别与各个可疑文本的语义距离,所有的语义距离构成第一集合,基于语义距离判断是否存在误报。
具体的,计算每一个主题词汇的词向量分别与各个可疑文本的语义距离可以采用多种方式,例如可以基于现有技术中的神经网络模型,也可以根据主题词汇的词向量与可疑文本中各个分词的词向量之间的空间距离计算语义距离,或其他现有方式进行计算,具体的计算方式此处不做限定。
可选的,作为一种可能的实施方式,本发明实施例中,计算每一个主题词汇的词向量分别与各个可疑文本的语义距离的步骤可包括:
进行独立距离运算,独立距离运算包括:计算第一主题词汇的词向量与一个可疑文本中各个分词的词向量的空间距离,取最小的空间距离作为第一主题词汇与对应的可疑文本的语义距离;重复独立距离运算,得到每一个主题词汇的词向量分别与各个可疑文本的语义距离。
例如,待检测网页包含10个主题词汇,2个可疑文本,每一个可疑文本中包含10个分词,计算每一个主题词汇的词向量分别与各个可疑文本的语义距离的步骤可包括:计算第一个主题词汇的词向量与第一个可疑文本的10个分词的词向量之间的空间距离,共10个空间距离,选取这10个空间距离中最小的空间距离作为第一个主题词汇与第一个可疑文本的语义距离,重复上述过程即可计算每一个主题词汇的词向量分别与各个可疑文本的语义距。
104、判断第一集合中最小的语义距离是否大于第一阈值,若大于,则判定待检测网页为篡改网页,若小于,则判定待检测网页为正常网页。
在计算每一个主题词汇的词向量分别与各个可疑文本的语义距离之后,检测***可以判断第一集合中最小的语义距离是否大于第一阈值,若大于,则判定待检测网页为篡改网页,若小于,则判定待检测网页为正常网页。
具体的,假设敏感词过滤模块筛选出N个可疑文本,网站有M个主题词。一种可行的计算的方法如下:
计算每个可疑文本Ni与M个主题词的最小语义距离:Di=min[d(Ni,M0),d(Ni,M1)…d(Ni,Mm)],其中d(Ni,Mm)为第i个可疑文本与第m个可疑文本之间的语义距离;计算N个可疑文本与M个主题词的最小语义距离:Dmin=min(D0,D,1…Dm)。
本发明实施例中,检测***可以将待检测网页中的文本划分为多个待检测文本,并判断各个待检测文本是否为可疑文本,只对可疑文本进行进一步检测,提高了检测的效率。此外,检测***可以获取待检测网页的主题词汇,并基于预设的词向量模型生成每一个主题词汇的词向量,并计算每一个主题词汇的词向量分别与各个可疑文本的语义距离,并基于最小语义距离判定待检测网页是否有被篡改,基于待检测网页的主题识别可疑文本是否被篡改,当主题词汇与可疑文本的最小的语义距离不大于第一阈值时,判定待检测网页为正常网页,可以避免误报。
在上述图1所示的实施例的基础上,下面将对本发明实施例中可以文本的检测方式进行说明。请参阅图2,本发明实施例的一种网页篡改检测方法的另一个实施例可包括:
201、获取待检测网页的主题词汇,并基于预设的词向量模型生成每一个主题词汇的词向量;
本发明实施例中的步骤201与上述图1所示的步骤101中描述的内容类似,具体请参阅步骤101,此处不做赘述。
202、建立敏感词库,并基于词向量模型生成敏感词库中每一个敏感词汇的词向量,所有的敏感词汇的词向量构成第二集合;
可疑文本的检测可以基于敏感词进行检测,在此之前,需要建立敏感词库,具体的敏感词库可以基于用户设置的敏感词汇建立敏感词库,也可以基于互联网自动采集已有的敏感词库,具体此处不做限定。检测***可以基于词向量模型生成敏感词库中每一个敏感词汇的词向量,所有的敏感词汇的词向量构成第二集合。
203、对待检测网页所属的每一个待检测文本进行分词处理,所有待检测文本中的分词构成第三集合;
在获取到待检测网页所属的各个待检测文本之后,检测***可以每一个待检测文本进行分词处理,所有待检测文本中的分词构成第三集合,具体的分词处理过程可以参照现有技术,此处不做赘述。
204、基于词向量模型生成第三集合中每一个分词的词向量;
205、判断第三集合中是否存在目标分词;
在得到可疑文本的所有分词的词向量之后,检测***可以判断第三集合中是否存在目标分词,目标分词对应的词向量与第二集合中的各个词向量的最小空间距离小于第二阈值,若存在目标分词,则确定目标分词所在的待检测文本为可疑文本,若不存在这样的目标分词,则可以判定待检测网页不存在可疑文本。
206、计算每一个主题词汇的词向量分别与各个可疑文本的语义距离,所有的语义距离构成第一集合;
207、判断第一集合中最小的语义距离是否大于第一阈值,若大于,则判定待检测网页为篡改网页,若小于,则判定待检测网页为正常网页。
本发明实施例中的步骤206至207与上述图1所示的步骤103至104中描述的内容类似,具体请参阅步骤103至104,此处不做赘述。
本发明实施例中,检测***可以将待检测网页中的文本划分为多个待检测文本,并判断各个待检测文本是否为可疑文本,只对可疑文本进行进一步检测,提高了检测的效率。此外,检测***可以获取待检测网页的主题词汇,并基于预设的词向量模型生成每一个主题词汇的词向量,并计算每一个主题词汇的词向量分别与各个可疑文本的语义距离,并基于最小语义距离判定待检测网页是否有被篡改,基于待检测网页的主题识别可疑文本是否被篡改,当主题词汇与可疑文本的最小的语义距离不大于第一阈值时,判定待检测网页为正常网页,可以避免误报。
在上述图2所示的实施例的基础上,实际运用中,为逃避检测,恶意用户会定期研发新的黑词,比如将“***”变成“六he采”,为了应对提高检测***对新词的反应速度,本发明实施例中还可以对敏感词库进行更新。请参阅图3,在图2所示的实施例的基础上,本发明实施例中一种网页篡改检测方法的另一个实施例还可进一步包括:
301、采集训练文本;
为了对新的恶意词汇进行检测,本发明实施例中的检测***需要采集新的训练文本对词向量模型进行训练,这些训练文本可以是篡改(黑)网页中提取的,也可以是正常(白)网页中提取的,甚至可以是没有标签的黑白网页集合中提取的,具体此处不做限定。
302、判断训练文本中的是否存在词向量模型中没有保存过的新词汇;
训练完成的词向量模型中保存的词汇是固定的,可以识别的词汇数量也是固定的,为了提高检测范围,需要检测***判断训练文本中的是否存在词向量模型中没有保存过的新词汇,若存在新词汇,则执行步骤303,否则结束流程。
303、采用新词汇所在的训练文本重新训练词向量模型,并生成对应新词汇的目标词向量;
若训练样本中存在新词汇,采用新词汇所在的训练文本重新训练词向量模型,并生成对应新词汇的目标词向量。
304、判断第二集合中是否存在第一词向量;
由于敏感词出现在相似的上下文,因此敏感词在向量空间中距离很近,基于这一特性,本发明实施例中的检测***可以判断敏感词汇库中的各个敏感词汇对应的词向量组成的第二集合中是否存在第一词向量,该第一词向量与新词汇对应的目标词向量的空间距离小于第三阈值,若存在第一词向量,则说明新词汇与敏感词库中的某一个敏感词汇的语义相似,可以执行步骤305,将目标词向量对应的新词汇加入敏感词库
305、将目标词向量对应的新词汇加入敏感词库。
本发明实施例中,可以基于已有的敏感词库,自动的将与已有的敏感词语义相近的词汇加入敏感词库,扩大了网页篡改检测的范围,缩短了对新的敏感词汇反应时间,及时跟进攻击技术的演化。
可以理解的是,在本发明的各种实施例中,上述各步骤的序号的大小并不意味着执行顺序的先后,各步骤的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
上述实施例对本发明实施例中的网页篡改检测方法进行了描述,下面将对本发明实施例中的检测***进行描述,请参阅图4,本发明实施例中,一种检测***的一个实施例可包括:
获取模块401,用于获取待检测网页的主题词汇,并基于预设的词向量模型生成每一个主题词汇的词向量;
第一判断模块402,用于判断待检测网页中是否存在可疑文本;
计算模块403,若存在可疑文本,则用于计算每一个主题词汇的词向量分别与各个可疑文本的语义距离,所有的语义距离构成第一集合;
处理模块404,用于判断第一集合中最小的语义距离是否大于第一阈值,若大于,则判定待检测网页为篡改网页,若小于,则判定待检测网页为正常网页。
本发明实施例中,检测***可以将待检测网页中的文本划分为多个待检测文本,并判断各个待检测文本是否为可疑文本,只对可疑文本进行进一步检测,提高了检测的效率。此外,检测***可以获取待检测网页的主题词汇,并基于预设的词向量模型生成每一个主题词汇的词向量,并计算每一个主题词汇的词向量分别与各个可疑文本的语义距离,并基于最小语义距离判定待检测网页是否有被篡改,基于待检测网页的主题识别可疑文本是否被篡改,当主题词汇与可疑文本的最小的语义距离不大于第一阈值时,判定待检测网页为正常网页,可以避免误报。
可选的,作为一种可能的实施方式,请参阅图5,本发明实施例中的第一判断模块402包括:
建立单元4021,用于建立敏感词库,并基于词向量模型生成敏感词库中每一个敏感词汇的词向量,所有的敏感词汇的词向量构成第二集合;
分词单元4022,用于对待检测网页所属的每一个待检测文本进行分词处理,所有待检测文本中的分词构成第三集合;
生成单元4023,基于词向量模型生成第三集合中每一个分词的词向量;
判断单元4024,判断第三集合中是否存在目标分词,目标分词对应的词向量与第二集合中的各个词向量的最小空间距离小于第二阈值;
处理单元4025,若存在目标分词,则确定目标分词所在的待检测文本为可疑文本。
可选的,作为一种可能的实施方式,请参阅图6,本发明实施例中的检测***还包括:
采集模块405,用于采集训练文本;
第二判断模块406,用于判断训练文本中的是否存在词向量模型中没有保存过的新词汇;
训练模块407,若存在新词汇,则采用新词汇所在的训练文本重新训练词向量模型,并生成对应新词汇的目标词向量;
第三判断模块408,用于判断第二集合中是否存在第一词向量,第一词向量与目标词向量的空间距离小于第三阈值;
更新模块409,若存在第一词向量,则将目标词向量对应的新词汇加入敏感词库。
可选的,作为一种可能的实施方式,请参阅图7,本发明实施例中的计算模块,包括:
计算单元4031,用于进行独立距离运算,独立距离运算包括:计算第一主题词汇的词向量与一个可疑文本中各个分词的词向量的空间距离,取最小的空间距离作为第一主题词汇与对应的可疑文本的语义距离;
控制单元4032,用于重复独立距离运算,得到每一个主题词汇的词向量分别与各个可疑文本的语义距离。
上面从模块化功能实体的角度对本发明实施例中的检测***进行了描述,下面从硬件处理的角度对本发明实施例中的计算机装置进行描述:
本发明实施例还提供了一种计算机装置8,如图8所示,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该计算机装置8一般指服务器等处理能力较强的计算机设备。
参考图8,计算机装置8包括:电源810、存储器820、处理器830、有线或无线网络接口840以及存储在存储器中并可在处理器上运行的计算机程序。处理器执行计算机程序时实现上述各个网页篡改检测方法实施例中的步骤,例如图1所示的步骤101至104。或者,处理器执行计算机程序时实现上述各装置实施例中各模块或单元的功能。
本发明的一些实施例中,处理器具体用于实现如下步骤:
获取待检测网页的主题词汇,并基于预设的词向量模型生成每一个主题词汇的词向量;
判断待检测网页中是否存在可疑文本;
若存在可疑文本,则计算每一个主题词汇的词向量分别与各个可疑文本的语义距离,所有的语义距离构成第一集合;
判断第一集合中最小的语义距离是否大于第一阈值,若大于,则判定待检测网页为篡改网页,若小于,则判定待检测网页为正常网页。
可选的,本发明的一些实施例中,处理器还可以用于实现如下步骤:
建立敏感词库,并基于词向量模型生成敏感词库中每一个敏感词汇的词向量,所有的敏感词汇的词向量构成第二集合;
对待检测网页所属的每一个待检测文本进行分词处理,所有待检测文本中的分词构成第三集合;
基于词向量模型生成第三集合中每一个分词的词向量;
判断第三集合中是否存在目标分词,目标分词对应的词向量与第二集合中的各个词向量的最小空间距离小于第二阈值;
若存在目标分词,则确定目标分词所在的待检测文本为可疑文本。
可选的,本发明的一些实施例中,处理器还可以用于实现如下步骤:
采集训练文本;
判断训练文本中的是否存在词向量模型中没有保存过的新词汇;
若存在新词汇,则采用新词汇所在的训练文本重新训练词向量模型,并生成对应新词汇的目标词向量;
判断第二集合中是否存在第一词向量,第一词向量与目标词向量的空间距离小于第三阈值;
若存在第一词向量,则将目标词向量对应的新词汇加入敏感词库。
可选的,本发明的一些实施例中,处理器还可以用于实现如下步骤:
进行独立距离运算,独立距离运算包括:计算第一主题词汇的词向量与一个可疑文本中各个分词的词向量的空间距离,取最小的空间距离作为第一主题词汇与对应的可疑文本的语义距离;
重复独立距离运算,得到每一个主题词汇的词向量分别与各个可疑文本的语义距离。
计算机装置8可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。示例性的,计算机程序可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器中,并由处理器执行。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在计算机装置中的执行过程。
本领域技术人员可以理解,图8中示出的结构并不构成对计算机装置8的限定,计算机装置8可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,例如计算机装置还可以包括输入输出设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器是计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本发明还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,可以实现如下步骤:
获取待检测网页的主题词汇,并基于预设的词向量模型生成每一个主题词汇的词向量;
判断待检测网页中是否存在可疑文本;
若存在可疑文本,则计算每一个主题词汇的词向量分别与各个可疑文本的语义距离,所有的语义距离构成第一集合;
判断第一集合中最小的语义距离是否大于第一阈值,若大于,则判定待检测网页为篡改网页,若小于,则判定待检测网页为正常网页。
可选的,本发明的一些实施例中,处理器还可以用于实现如下步骤:
建立敏感词库,并基于词向量模型生成敏感词库中每一个敏感词汇的词向量,所有的敏感词汇的词向量构成第二集合;
对待检测网页所属的每一个待检测文本进行分词处理,所有待检测文本中的分词构成第三集合;
基于词向量模型生成第三集合中每一个分词的词向量;
判断第三集合中是否存在目标分词,目标分词对应的词向量与第二集合中的各个词向量的最小空间距离小于第二阈值;
若存在目标分词,则确定目标分词所在的待检测文本为可疑文本。
可选的,本发明的一些实施例中,处理器还可以用于实现如下步骤:
采集训练文本;
判断训练文本中的是否存在词向量模型中没有保存过的新词汇;
若存在新词汇,则采用新词汇所在的训练文本重新训练词向量模型,并生成对应新词汇的目标词向量;
判断第二集合中是否存在第一词向量,第一词向量与目标词向量的空间距离小于第三阈值;
若存在第一词向量,则将目标词向量对应的新词汇加入敏感词库。
可选的,本发明的一些实施例中,处理器还可以用于实现如下步骤:
进行独立距离运算,独立距离运算包括:计算第一主题词汇的词向量与一个可疑文本中各个分词的词向量的空间距离,取最小的空间距离作为第一主题词汇与对应的可疑文本的语义距离;
重复独立距离运算,得到每一个主题词汇的词向量分别与各个可疑文本的语义距离。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种网页篡改检测方法,其特征在于,包括:
获取待检测网页的主题词汇,并基于预设的词向量模型生成每一个主题词汇的词向量;
判断所述待检测网页中是否存在可疑文本;
若存在可疑文本,则计算每一个主题词汇的词向量分别与各个可疑文本的语义距离,所有的语义距离构成第一集合;
判断所述第一集合中最小的语义距离是否大于第一阈值,若大于,则判定所述待检测网页为篡改网页,若小于,则判定待检测网页为正常网页。
2.根据权利要求1所述的方法,其特征在于,所述判断待检测网页中是否存在可疑文本,包括:
建立敏感词库,并基于词向量模型生成所述敏感词库中每一个敏感词汇的词向量,所有的敏感词汇的词向量构成第二集合;
对待检测网页所属的每一个待检测文本进行分词处理,所有待检测文本中的分词构成第三集合;
基于词向量模型生成所述第三集合中每一个分词的词向量;
判断所述第三集合中是否存在目标分词,所述目标分词对应的词向量与所述第二集合中的各个词向量的最小空间距离小于第二阈值;
若存在所述目标分词,则确定所述目标分词所在的待检测文本为可疑文本。
3.根据权利要求2所述的方法,其特征在于,还包括:
采集训练文本;
判断所述训练文本中的是否存在词向量模型中没有保存过的新词汇;
若存在新词汇,则采用所述新词汇所在的训练文本重新训练词向量模型,并生成对应新词汇的目标词向量;
判断所述第二集合中是否存在第一词向量,所述第一词向量与所述目标词向量的空间距离小于第三阈值;
若存在所述第一词向量,则将所述目标词向量对应的新词汇加入所述敏感词库。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述计算每一个主题词汇的词向量分别与各个可疑文本的语义距离,包括:
进行独立距离运算,所述独立距离运算包括:计算第一主题词汇的词向量与一个可疑文本中各个分词的词向量的空间距离,取最小的空间距离作为所述第一主题词汇与对应的可疑文本的语义距离;
重复所述独立距离运算,得到每一个主题词汇的词向量分别与各个可疑文本的语义距离。
5.一种检测***,运用于网页篡改检测,其特征在于,包括:
获取模块,用于获取待检测网页的主题词汇,并基于预设的词向量模型生成每一个主题词汇的词向量;
第一判断模块,用于判断所述待检测网页中是否存在可疑文本;
计算模块,若存在可疑文本,则用于计算每一个主题词汇的词向量分别与各个可疑文本的语义距离,所有的语义距离构成第一集合;
处理模块,用于判断所述第一集合中最小的语义距离是否大于第一阈值,若大于,则判定所述待检测网页为篡改网页,若小于,则判定待检测网页为正常网页。
6.根据权利要求5所述的检测***,其特征在于,所述第一判断模块包括:
建立单元,用于建立敏感词库,并基于词向量模型生成所述敏感词库中每一个敏感词汇的词向量,所有的敏感词汇的词向量构成第二集合;
分词单元,用于对待检测网页所属的每一个待检测文本进行分词处理,所有待检测文本中的分词构成第三集合;
生成单元,基于词向量模型生成所述第三集合中每一个分词的词向量;
判断单元,判断所述第三集合中是否存在目标分词,所述目标分词对应的词向量与所述第二集合中的各个词向量的最小空间距离小于第二阈值;
处理单元,若存在所述目标分词,则确定所述目标分词所在的待检测文本为可疑文本。
7.根据权利要求6所述的检测***,其特征在于,还包括:
采集模块,用于采集训练文本;
第二判断模块,用于判断所述训练文本中的是否存在词向量模型中没有保存过的新词汇;
训练模块,若存在新词汇,则采用所述新词汇所在的训练文本重新训练词向量模型,并生成对应新词汇的目标词向量;
第三判断模块,用于判断所述第二集合中是否存在第一词向量,所述第一词向量与所述目标词向量的空间距离小于第三阈值;
更新模块,若存在所述第一词向量,则将所述目标词向量对应的新词汇加入所述敏感词库。
8.根据权利要求5至7中任一项所述的检测***,其特征在于,所述计算模块,包括:
计算单元,用于进行独立距离运算,所述独立距离运算包括:计算第一主题词汇的词向量与一个可疑文本中各个分词的词向量的空间距离,取最小的空间距离作为所述第一主题词汇与对应的可疑文本的语义距离;
控制单元,用于重复所述独立距离运算,得到每一个主题词汇的词向量分别与各个可疑文本的语义距离。
9.一种计算机装置,其特征在于,所述计算机装置包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至4中任意一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1至4中任意一项所述方法的步骤。
CN201910074337.XA 2019-01-25 2019-01-25 一种网页篡改检测方法、检测***及相关设备 Active CN111563276B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910074337.XA CN111563276B (zh) 2019-01-25 2019-01-25 一种网页篡改检测方法、检测***及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910074337.XA CN111563276B (zh) 2019-01-25 2019-01-25 一种网页篡改检测方法、检测***及相关设备

Publications (2)

Publication Number Publication Date
CN111563276A true CN111563276A (zh) 2020-08-21
CN111563276B CN111563276B (zh) 2024-04-09

Family

ID=72074130

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910074337.XA Active CN111563276B (zh) 2019-01-25 2019-01-25 一种网页篡改检测方法、检测***及相关设备

Country Status (1)

Country Link
CN (1) CN111563276B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112532624A (zh) * 2020-11-27 2021-03-19 深信服科技股份有限公司 一种黑链检测方法、装置、电子设备及可读存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102117339A (zh) * 2011-03-30 2011-07-06 曹晓晶 针对不安全网页文本的过滤监管方法
CN102201048A (zh) * 2010-03-24 2011-09-28 日电(中国)有限公司 对文档集合进行主题级别隐私保护的方法和***
CN102790762A (zh) * 2012-06-18 2012-11-21 东南大学 基于url分类的钓鱼网站检测方法
CN103324615A (zh) * 2012-03-19 2013-09-25 哈尔滨安天科技股份有限公司 基于搜索引擎优化的钓鱼网站探测方法及***
CN103927480A (zh) * 2013-01-14 2014-07-16 腾讯科技(深圳)有限公司 一种恶意网页的识别方法、装置和***
US8850570B1 (en) * 2008-06-30 2014-09-30 Symantec Corporation Filter-based identification of malicious websites
CN106685936A (zh) * 2016-12-14 2017-05-17 深圳市深信服电子科技有限公司 网页篡改的检测方法及装置
CN106778357A (zh) * 2016-12-23 2017-05-31 北京神州绿盟信息安全科技股份有限公司 一种网页篡改的检测方法及装置
CN107437038A (zh) * 2017-08-07 2017-12-05 深信服科技股份有限公司 一种网页篡改的检测方法及装置
CN107515877A (zh) * 2016-06-16 2017-12-26 百度在线网络技术(北京)有限公司 敏感主题词集的生成方法和装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8850570B1 (en) * 2008-06-30 2014-09-30 Symantec Corporation Filter-based identification of malicious websites
CN102201048A (zh) * 2010-03-24 2011-09-28 日电(中国)有限公司 对文档集合进行主题级别隐私保护的方法和***
CN102117339A (zh) * 2011-03-30 2011-07-06 曹晓晶 针对不安全网页文本的过滤监管方法
CN103324615A (zh) * 2012-03-19 2013-09-25 哈尔滨安天科技股份有限公司 基于搜索引擎优化的钓鱼网站探测方法及***
CN102790762A (zh) * 2012-06-18 2012-11-21 东南大学 基于url分类的钓鱼网站检测方法
CN103927480A (zh) * 2013-01-14 2014-07-16 腾讯科技(深圳)有限公司 一种恶意网页的识别方法、装置和***
CN107515877A (zh) * 2016-06-16 2017-12-26 百度在线网络技术(北京)有限公司 敏感主题词集的生成方法和装置
CN106685936A (zh) * 2016-12-14 2017-05-17 深圳市深信服电子科技有限公司 网页篡改的检测方法及装置
CN106778357A (zh) * 2016-12-23 2017-05-31 北京神州绿盟信息安全科技股份有限公司 一种网页篡改的检测方法及装置
CN107437038A (zh) * 2017-08-07 2017-12-05 深信服科技股份有限公司 一种网页篡改的检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赖清楠;陈诗洋;马皓;张蓓;: "基于机器学习的批量网页篡改检测方法", vol. 44, no. 11, pages 21 - 25 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112532624A (zh) * 2020-11-27 2021-03-19 深信服科技股份有限公司 一种黑链检测方法、装置、电子设备及可读存储介质
CN112532624B (zh) * 2020-11-27 2023-09-05 深信服科技股份有限公司 一种黑链检测方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN111563276B (zh) 2024-04-09

Similar Documents

Publication Publication Date Title
Nouh et al. Understanding the radical mind: Identifying signals to detect extremist content on twitter
CN107437038B (zh) 一种网页篡改的检测方法及装置
US20190034632A1 (en) Method and system for static behavior-predictive malware detection
TW201926106A (zh) 統一資源定位符(url)攻擊檢測方法、裝置以及電子設備
CN104156490A (zh) 基于文字识别检测可疑钓鱼网页的方法及装置
CN110909531B (zh) 信息安全的甄别方法、装置、设备及存储介质
EP3703329B1 (en) Webpage request identification
EP3933636A1 (en) Webpage tampering detection method and related apparatus
CN112686036B (zh) 风险文本识别方法、装置、计算机设备及存储介质
CN111538816B (zh) 基于ai识别的问答方法、装置、电子设备及介质
CN109104421B (zh) 一种网站内容篡改检测方法、装置、设备及可读存储介质
CN107463844B (zh) Web木马检测方法及***
Liu et al. An efficient multistage phishing website detection model based on the CASE feature framework: Aiming at the real web environment
CN110705250A (zh) 一种用于识别聊天记录中目标内容的方法与***
Wu et al. TrackerDetector: A system to detect third-party trackers through machine learning
CN112016317A (zh) 基于人工智能的敏感词识别方法、装置及计算机设备
CN116719997A (zh) 政策信息推送方法、装置及电子设备
CN108563713B (zh) 关键词规则生成方法及装置和电子设备
CN112818206B (zh) 一种数据分类方法、装置、终端及存储介质
CN112380537A (zh) 一种检测恶意软件的方法、装置、存储介质和电子设备
CN109670304A (zh) 恶意代码家族属性的识别方法、装置及电子设备
CN111563276B (zh) 一种网页篡改检测方法、检测***及相关设备
CN111797904A (zh) 网页页面特征的篡改检测方法及装置
Luz et al. Data preprocessing and feature extraction for phishing URL detection
CN113742785A (zh) 一种网页分类方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant