CN111198995B - 一种恶意网页识别方法 - Google Patents

一种恶意网页识别方法 Download PDF

Info

Publication number
CN111198995B
CN111198995B CN202010012212.7A CN202010012212A CN111198995B CN 111198995 B CN111198995 B CN 111198995B CN 202010012212 A CN202010012212 A CN 202010012212A CN 111198995 B CN111198995 B CN 111198995B
Authority
CN
China
Prior art keywords
layer
malicious
embedding
url link
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010012212.7A
Other languages
English (en)
Other versions
CN111198995A (zh
Inventor
廖永建
王勇
王栋
吴宇
梁艺宽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010012212.7A priority Critical patent/CN111198995B/zh
Publication of CN111198995A publication Critical patent/CN111198995A/zh
Application granted granted Critical
Publication of CN111198995B publication Critical patent/CN111198995B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种恶意网页识别方法,包括如下步骤:步骤1,获取恶意网页数据集,并通过数据预处理得到恶意网页的训练集和测试集;步骤2,利用Char‑CNN模型获取训练集和测试集的字符级嵌入;步骤3,构建BiLSTM‑Attention神经网络模型;步骤4,利用训练集及其字符级嵌入,以及静态词嵌入训练步骤3构建的BiLSTM‑Attention神经网络模型;步骤5,利用测试集及其字符级嵌入,以及静态词嵌入验证步骤4训练好的BiLSTM‑Attention神经网络模型;步骤6,经过步骤5验证后,将训练好的BiLSTM‑Attention神经网络模型用于对用户访问的网页数据进行恶意网页识别。本发明采用基于attention机制的双向长短时记忆循环神经网络,同时还使用字符级嵌入与静态词嵌入相结合的方法,实现了恶意网页识别的目的。

Description

一种恶意网页识别方法
技术领域
本发明涉及互联网安全技术领域,尤其是一种恶意网页识别方法。
背景技术
近年来随着互联网行业不断发展,网络已经成为了人们生活中不可缺少的一部分。但与此同时,利用互联网的恶意犯罪活动也在不断的增长。利用恶意网页来进行钓鱼攻击,推广垃圾广告,引导下载恶意软件等操作是互联网犯罪的主要活动。根据<<全球中文钓鱼网站现状统计分析报告(2016年>>和中国反钓鱼联盟近年来的报告可知中国是受到恶意网页困扰比例最大的国家,并且恶意网页数量在逐年快速增长。如何快速有效的识别恶意网页,已经成为有待解决的网络空间安全问题之一。
传统的识别恶意网页方法通常为基于黑名单技术的识别方法。也是现在在工业界应用最多的方法。黑名单技术是维护一个恶意域名列表,如果访问的域名不在恶意域名列表内,那么浏览器将认为这是一个正常的域名,如果在列表内,那么则认为是一个恶意域名。这种方法的优点在于技术实现简单,而且可以准确识别已经确认的恶意网页。但缺点在于不能识别以前未出现过的恶意域名,而且需要技术人员一直维护恶意域名列表。
近年来随着机器学习技术的发展,有越来越多的人将机器学习技术应用于恶意网页检测。利用人工从url链接提取url长度,是否为https链接,域名长度等等特征,又或者利用蜜罐技术检测网页的内容,检测是否有恶意脚本,检测网站上的图片是否为违规图片等等,然后再基于机器学习算法如svm,随机森林等算法进行分类。但这种方法非常依赖于网络安全方面的专家,需要对恶意网页方面非常熟悉的人来对恶意网页数据集进行人工特征提取。人工提取的特征对于最后分类结果的好坏影响非常大。
发明内容
本发明所要解决的技术问题是:针对上述存在的问题,提供一种恶意网页识别方法,该方法利用字符级嵌入和双向长短时记忆循环神经网络(Bi LSTM)直接对URL链接进行分类,从而达到识别恶意网页的目的。
本发明采用的技术方案如下:
一种恶意网页识别方法,包括如下步骤:
步骤1,获取恶意网页数据集,并通过数据预处理得到恶意网页的训练集和测试集;
步骤2,利用Char-CNN模型获取训练集和测试集的字符级嵌入;
步骤3,构建BiLSTM-Attention神经网络模型;
步骤4,利用训练集及其字符级嵌入,以及静态词嵌入训练步骤3构建的BiLSTM-Attention神经网络模型;
步骤5,利用测试集及其字符级嵌入,以及静态词嵌入验证步骤4训练好的BiLSTM-Attention神经网络模型;
步骤6,经过步骤5验证后,将训练好的BiLSTM-Attention神经网络模型用于对用户访问的网页数据进行恶意网页识别。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
本发明采用基于attention机制的双向长短时记忆循环神经网络,同时还使用字符级嵌入与静态词嵌入相结合的方法,实现了恶意网页识别的目的,本发明的方法相比传统的恶意网页识别方法:
1.不需要人员维护域名黑名单;
2.不需要专业的网络安全人员设计特征;
3.对于新出现的恶意网页识别率高;
4.适用于识别移动端出现的恶意网页。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明的恶意网页识别方法的流程框图。
图2为本发明构建的BiLSTM-Attention神经网络模型的结构示意图。
图3为本发明将训练好的BiLSTM-Attention神经网络模型用于对用户访问的网页数据进行恶意网页识别的原理图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种恶意网页识别方法,包括如下步骤:
步骤1,获取恶意网页数据集,并通过数据预处理得到恶意网页的训练集和测试集;
具体地:
步骤1.1,去除恶意网页数据集url链接缺失或者标签缺失的样本,然后进行分词处理;英文文本的分词是基于空格的,但url链接是特殊的英文文本,没有空格,本实施例采用python wordninia模块对恶意网页数据集中的url链接进行分词处理,保留url链接中所有的符号;
步骤1.2,url链接中包含了许多缩写词语,所以还需要进行词干提取和词形还原等预处理操作。本实施例采用python NLTK包中的PorterStemmer和WordNetLemmatizer模块对恶意网页数据集中的url链接进行词干提取和词形还原;
步骤1.3,为避免出现字母大写和小写混杂的情况,本实施例采用python lower()方法将恶意网页数据集中的url链接所有的字母转为小写或大写(优选小写),完成归一化操作;
步骤1.4,将经过步骤1.1~步骤1.3处理后的恶意网页数据集按7:3或8:2(优选8:2)的比例分为训练集和测试集。
步骤2,利用Char-CNN模型获取训练集和测试集的字符级嵌入;
具体地:
步骤2.1,构建一张字符表:
将abcdefghijklmnopqrstuvwxyz0123456789-,;.!?:”’/\|_@#$%^&*~‘+-=<>()[]{}这69个字符使用one-hot编码,再加一个全0向量用于处理不在该字符表中的字符,形成包括70个字符的字符表,并将该字符表表示为one-hot向量,例如a[1,0,0,0…0],维度为50。
步骤2.2,将训练集或测试集采用字符表的one-hot向量表示,然后输入Char-CNN模型训练,得到相应的字符级嵌入,例如:a[0.2324124,0.2124244,0.5252411,…]。
其中,所述Char-CNN模型为一个6层卷积层的神经网络模型。
步骤3,构建BiLSTM-Attention神经网络模型;BiLSTM模型即是双向LSTM(双向长短时记忆循环神经网络),Bi-LSTM模型使用向前和向后两个方向来对输入层的数据进行训练,故BiLSTM比LSTM能更好的捕获句子中上下文的信息,然后在BiLSTM模型上再加一层Attention层,即构成BiLSTM-Attention神经网络模型。
如图2所示,具体地:
步骤3.1,构建输入层,所述输入层用于输入经过步骤1数据预处理后的恶意网页数据集;例如[www.dark moon.com];
步骤3.2,构建嵌入层,所述嵌入层利用恶意网页数据集的字符级嵌入,以及静态词嵌入替换恶意网页数据集中的单词,得到恶意网页数据集中每条url链接的嵌入表示;
步骤3.3,构建LSTM层,所述LSTM层包括两层,其中一层为前向传播层,另一层为后向传播层;每层LSTM层包括遗忘门,输入门,输出门和细胞状态,其中,
(1)更新遗忘门输出:ft=σ(wfht-1+Ufxt+bf);ht-1表示历史信息,xt表示流入细胞中新的信息,bf为偏置项;
(2)更新输入门两部分输出:
it=σ(wiht-1+Uixt+bi);
at=tanh(waht-1+Uaxt+ba);
(3)更新细胞状态:
Ct=Ct-1ft+itat
(4)更新输出门两部分输出:
ot=σ(w0ht-1+U0xt+b0);
ht=ottanh(Ct);
(5)当前序列索引预测输出:
yt=σ(Vht+c);
其中,wf,Uf,bf,wi,Ui,wa,Ua,w0,U0为所述BiLSTM-Attention神经网络模型需要训练得到的参数;σ为sigmoid函数;
步骤3.4,构建attention层,所述attention层用于计算所有时序的权重,然后将所有时序的加权作为特征向量输出;
步骤3.5,构建输出层,所述输出层为一层全连接层,将attention层的输出作为输出层的输入,使用softmax分类器处理attention层的输出得到分类结果
步骤4,利用训练集及其字符级嵌入,以及静态词嵌入训练步骤3构建的BiLSTM-Attention神经网络模型;其中,静态词嵌入可以采用使用斯坦福大学已经训练好的Glove静态词向量,其维度为50。
具体地:
步骤4.1,将训练集中的url链接文本中的所有单词构建向量表示的文本词典;
步骤4.2,将构建好的文本词典一一与静态词嵌入进行对比,若该静态词嵌入中包含有文本词典中的单词向量,则用静态词嵌入中的该单词向量进行替换,若该静态词嵌入中没有文本词典中的单词向量,则用字符级嵌入进行替换,从而得到训练集中的每条url链接的向量表示;也就是说,将训练集url链接中的单词(包含词语和字符)S=(W1,W2…,Wn)中的Wi映射为wi。S表示一条url链接,Wi表示url链接中的单词;wi为向量,即嵌入,维度为50。将整个训练集都进行替换。得到每个url链接的向量表示,即为一个二维矩阵,每一列表示一个词向量或者字符向量。
步骤4.3,将训练集中的每条url链接的向量表示输入到lstm层中的前向传播层和反向传播层;前向传播层和反向传播层一起提取输入的url链接的向量表示的语言信息;并将前向传播层和反向传播层同一时刻的结果相加,得到每条url链接中的语义特征向量,然后将语义特征向量传送给attention层;
步骤4.4,attention层接收每条url链接中的语义特征向量,先计算所有时序的权重,然后将所有时序的加权作为特征向量输出,采用如下计算公式进行计算:
Ut=V tan h(w1h+bw);
at=softmax(Ut);
ct=∑ath;
其中,h为每条url链接中的语义特征向量,w1为参数向量,bw为偏置项;Ut为神经网络隐层表示;at是对Ut进行softmax函数归一化后得到权重矩阵;然后将权重矩阵at与语义特征向量h进行加权和,得到包含url链接中重要信息的文本向量ct,最后将文本向量ct传送给输出层;
步骤4.5,输出层采用softmax函数处理文本向量ct,公式如下:
y=softmax(wjct+bj)
其中,y为模型的输出,0表示正常的url链接,1表示恶意的url链接;wj表示attention层到输出层的待训练权重系数矩阵;bj表示待训练的相对应的偏置项。
由于恶意网页识别问题为二分类问题,所以输出层采用的损失函数为二元交叉熵损失函数,损失函数是衡量模型是否收敛的指标。损失函数的Loss稳定,模型收敛,则模型训练完成。公式如下:
log(yt|yp)=-(yt*log(yp)+(1-yt)log(1-yp))
其中,y为训练集中x样本对应的标签,二分类问题取值集合为{0,1},yt为某样本的真实标签,yp为该样本yt=1时的概率;然后通过python matplotlib包来画出Loss曲线,看其是否平衡来判断损失函数的Loss是否稳定。
步骤5,利用测试集及其字符级嵌入,以及静态词嵌入验证步骤4训练好的BiLSTM-Attention神经网络模型;
具体地:
步骤5.1,输入测试集及其字符级嵌入,以及静态词嵌入到训练好的BiLSTM-Attention神经网络模型,得到每条url链接的分类结果,0表示正常的url链接,1表示恶意的url链接;
步骤5.2,将每条url链接的分类结果与标注的标签(即数据集每条url链接标注的标签,为0或者1)对比,如果和标注的标签相符合,则pred+1,最后计算acc=pred/测试集中url的数量,其中,acc为训练好的BiLSTM-Attention神经网络模型进行恶意网页识别的正确率,当正确率达到要求时验证通过。
步骤6,经过步骤5验证后,将训练好的BiLSTM-Attention神经网络模型用于对用户访问的网页数据进行恶意网页识别。如图3所示,具体地:将用户访问的网页数据集经过步骤1和步骤2的处理后,输入BiLSTM-Attention神经网络模型的输入层;经过嵌入层结合字符级嵌入和静态词嵌入进行替换后,依次经LSTM层、attention层和输出层输出分类结果,若为正常的url链接则允许访问,若为恶意的url链接则拒绝访问。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种恶意网页识别方法,其特征在于,包括如下步骤:
步骤1,获取恶意网页数据集,并通过数据预处理得到恶意网页的训练集和测试集;
步骤2,利用Char-CNN模型获取训练集和测试集的字符级嵌入;
步骤3,构建BiLSTM-Attention神经网络模型;
步骤4,利用训练集及其字符级嵌入,以及静态词嵌入训练步骤3构建的BiLSTM-Attention神经网络模型;
步骤5,利用测试集及其字符级嵌入,以及静态词嵌入验证步骤4训练好的BiLSTM-Attention神经网络模型;
步骤6,经过步骤5验证后,将训练好的BiLSTM-Attention神经网络模型用于对用户访问的网页数据进行恶意网页识别;
步骤3的方法为:
步骤3.1,构建输入层,所述输入层用于输入经过步骤1数据预处理后的恶意网页数据集;
步骤3.2,构建嵌入层,所述嵌入层利用恶意网页数据集的字符级嵌入,以及静态词嵌入替换恶意网页数据集中的单词,得到恶意网页数据集中每条url链接的嵌入表示;
步骤3.3,构建LSTM层,所述LSTM层包括两层,其中一层为前向传播层,另一层为后向传播层;每层LSTM层包括遗忘门,输入门,输出门和细胞状态,其中,
(1)更新遗忘门输出:ft=σ(wfht-1+Ufxt+bf);ht-1表示历史信息,xt表示流入细胞中新的信息,bf为偏置项;
(2)更新输入门两部分输出:
it=σ(wiht-1+Uixt+bi);
at=tanh(waht-1+Uaxt+ba);
(3)更新细胞状态:
Ct=Ct-1ft+itat
(4)更新输出门两部分输出:
ot=σ(w0ht-1+U0xt+b0);
ht=ottanh(Ct);
(5)当前序列索引预测输出:
yt=σ(Vht+c);
其中,wf,Uf,bf,wi,Ui,wa,Ua,w0,U0为所述BiLSTM-Attention神经网络模型需要训练得到的参数;σ为sigmoid函数;
步骤3.4,构建attention层,所述attention层用于计算所有时序的权重,然后将所有时序的加权作为特征向量输出;
步骤3.5,构建输出层,所述输出层为一层全连接层,将attention层的输出作为输出层的输入,使用softmax分类器处理attention层的输出得到分类结果。
2.根据权利要求1所述的恶意网页识别方法,其特征在于,步骤1的方法为:
步骤1.1,去除恶意网页数据集url链接缺失或者标签缺失的样本,并采用pythonwordninia模块对恶意网页数据集中的url链接进行分词处理,保留url链接中所有的符号;
步骤1.2,采用python NLTK包中的PorterStemmer和WordNetLemmatizer模块对恶意网页数据集中的url链接进行词干提取和词形还原;
步骤1.3,采用python lower()方法将恶意网页数据集中的url链接所有的字母转为小写或大写,完成归一化操作;
步骤1.4,将经过步骤1.1~步骤1.3处理后的恶意网页数据集按7:3或8:2的比例分为训练集和测试集。
3.根据权利要求1所述的恶意网页识别方法,其特征在于,步骤2的方法为:
步骤2.1,构建一张字符表:
将abcdefghijklmnopqrstuvwxyz0123456789-,;.!?:”’/\|_@#$%^&*~‘+-=<>()[]{}这69个字符使用one-hot编码,再加一个全0向量用于处理不在该字符表中的字符,形成包括70个字符的字符表,并将该字符表表示为one-hot向量;
步骤2.2,将训练集或测试集采用字符表的one-hot向量表示,然后输入Char-CNN模型训练,得到相应的字符级嵌入。
4.根据权利要求1或3所述的恶意网页识别方法,其特征在于,所述Char-CNN模型为一个6层卷积层的神经网络模型。
5.根据权利要求4所述的恶意网页识别方法,其特征在于,步骤4的方法为:
步骤4.1,将训练集中的url链接文本中的所有单词构建向量表示的文本词典;
步骤4.2,将构建好的文本词典一一与静态词嵌入进行对比,若该静态词嵌入中包含有文本词典中的单词向量,则用静态词嵌入中的该单词向量进行替换,若该静态词嵌入中没有文本词典中的单词向量,则用字符级嵌入进行替换,从而得到训练集中的每条url链接的向量表示;
步骤4.3,将训练集中的每条url链接的向量表示输入到lstm层中的前向传播层和反向传播层;前向传播层和反向传播层一起提取输入的url链接的向量表示的语言信息;并将前向传播层和反向传播层同一时刻的结果相加,得到每条url链接中的语义特征向量,然后将语义特征向量传送给attention层;
步骤4.4,attention层接收每条url链接中的语义特征向量,采用如下计算公式进行计算:
Ut=V tanh(w1h+bw);
at=softmax(Ut);
ct=∑ath;
其中,h为每条url链接中的语义特征向量,w1为参数向量,bw为偏置项;Ut为神经网络隐层表示;at是对Ut进行softmax函数归一化后得到权重矩阵;然后将权重矩阵at与语义特征向量h进行加权和,得到包含url链接中重要信息的文本向量ct,最后将文本向量ct传送给输出层;
步骤4.5,输出层采用softmax函数处理文本向量ct,公式如下:
y=softmax(wjct+bj)
其中,y为模型的输出,0表示正常的url链接,1表示恶意的url链接;wj表示attention层到输出层的待训练权重系数矩阵;bj表示待训练的相对应的偏置项。
6.根据权利要求5所述的恶意网页识别方法,其特征在于,输出层采用的损失函数为二元交叉熵损失函数,公式如下:
log(yt|yp)=-(yt*log(yp)+(1-yt)log(1-yp))
其中,y为训练集中x样本对应的标签,二分类问题取值集合为{0,1},yt为某样本的真实标签,yp为该样本yt=1时的概率;然后通过pythonmatplotlib包来画出Loss曲线,看其是否平衡来判断损失函数的Loss是否稳定。
7.根据权利要求5所述的恶意网页识别方法,其特征在于,步骤5的方法为:
步骤5.1,输入测试集及其字符级嵌入,以及静态词嵌入到训练好的BiLSTM-Attention神经网络模型,得到每条url链接的分类结果,0表示正常的url链接,1表示恶意的url链接;
步骤5.2,将每条url链接的分类结果与标注的标签对比,如果和标注的标签相符合,则pred+1,最后计算acc=pred/测试集中url的数量,其中,acc为训练好的BiLSTM-Attention神经网络模型进行恶意网页识别的正确率,当正确率达到要求时验证通过。
CN202010012212.7A 2020-01-07 2020-01-07 一种恶意网页识别方法 Active CN111198995B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010012212.7A CN111198995B (zh) 2020-01-07 2020-01-07 一种恶意网页识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010012212.7A CN111198995B (zh) 2020-01-07 2020-01-07 一种恶意网页识别方法

Publications (2)

Publication Number Publication Date
CN111198995A CN111198995A (zh) 2020-05-26
CN111198995B true CN111198995B (zh) 2023-03-24

Family

ID=70744746

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010012212.7A Active CN111198995B (zh) 2020-01-07 2020-01-07 一种恶意网页识别方法

Country Status (1)

Country Link
CN (1) CN111198995B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111475626A (zh) * 2020-06-22 2020-07-31 上海冰鉴信息科技有限公司 裁判文书结构化分块方法及装置
CN111538929B (zh) * 2020-07-08 2020-12-18 腾讯科技(深圳)有限公司 网络链接识别方法、装置、存储介质及电子设备
CN112541476B (zh) * 2020-12-24 2023-09-29 西安交通大学 一种基于语义特征提取的恶意网页识别方法
CN112632549B (zh) * 2021-01-06 2022-07-12 四川大学 一种基于语境分析的Web攻击检测方法
US11727077B2 (en) * 2021-02-05 2023-08-15 Microsoft Technology Licensing, Llc Inferring information about a webpage based upon a uniform resource locator of the webpage
CN113037729B (zh) * 2021-02-27 2022-11-18 中国人民解放军战略支援部队信息工程大学 基于深度学习的钓鱼网页层次化检测方法及***
CN113051500B (zh) * 2021-03-25 2022-08-16 武汉大学 一种融合多源数据的钓鱼网站识别方法及***
CN113315789B (zh) * 2021-07-29 2021-10-15 中南大学 一种基于多级联合网络的Web攻击检测方法及***
CN113794689A (zh) * 2021-08-20 2021-12-14 浙江网安信创电子技术有限公司 一种基于tcn的恶意域名检测方法
CN113946677B (zh) * 2021-09-14 2024-06-14 中北大学 基于双向循环神经网络和注意力机制的事件识别分类方法
CN114553555B (zh) * 2022-02-24 2023-11-07 抖音视界有限公司 恶意网址识别方法、装置、存储介质及电子设备
CN115242484A (zh) * 2022-07-19 2022-10-25 深圳大学 一种基于门控卷积和lstm的dga域名检测模型及方法
CN117235532B (zh) * 2023-11-09 2024-01-26 西南民族大学 一种基于M-Bert的恶意网站检测模型的训练及检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108667816A (zh) * 2018-04-19 2018-10-16 重庆邮电大学 一种网络异常的检测定位方法及***
CN109194635A (zh) * 2018-08-22 2019-01-11 杭州安恒信息技术股份有限公司 基于自然语言处理与深度学习的恶意url识别方法及装置
CN109617909A (zh) * 2019-01-07 2019-04-12 福州大学 一种基于smote和bi-lstm网络的恶意域名检测方法
CN110233849A (zh) * 2019-06-20 2019-09-13 电子科技大学 网络安全态势分析的方法及***
CN110365691A (zh) * 2019-07-22 2019-10-22 云南财经大学 基于深度学习的钓鱼网站判别方法及装置
EP3561708A1 (en) * 2018-04-26 2019-10-30 Wipro Limited Method and device for classifying uniform resource locators based on content in corresponding websites

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190057200A1 (en) * 2017-08-16 2019-02-21 Biocatch Ltd. System, apparatus, and method of collecting and processing data in electronic devices
CA3016392C (en) * 2017-09-06 2023-04-11 Rank Software Inc. Systems and methods for cyber intrusion detection and prevention

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108667816A (zh) * 2018-04-19 2018-10-16 重庆邮电大学 一种网络异常的检测定位方法及***
EP3561708A1 (en) * 2018-04-26 2019-10-30 Wipro Limited Method and device for classifying uniform resource locators based on content in corresponding websites
CN109194635A (zh) * 2018-08-22 2019-01-11 杭州安恒信息技术股份有限公司 基于自然语言处理与深度学习的恶意url识别方法及装置
CN109617909A (zh) * 2019-01-07 2019-04-12 福州大学 一种基于smote和bi-lstm网络的恶意域名检测方法
CN110233849A (zh) * 2019-06-20 2019-09-13 电子科技大学 网络安全态势分析的方法及***
CN110365691A (zh) * 2019-07-22 2019-10-22 云南财经大学 基于深度学习的钓鱼网站判别方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"LSTM for Anomaly-Based Network Intrusion Detection";Sara A. Althubiti;《 2018 28th International Telecommunication Networks and Applications Conference (ITNAC)》;20190117;全文 *
"基于特征融合和机器学习的恶意网页识别研究";魏旭等;《南京邮电大学学报(自然科学版)》;20191209;全文 *
"基于语义分析的恶意JavaScript代码检测方法";邱瑶瑶等;《四川大学学报(自然科学版)》;20190426;全文 *

Also Published As

Publication number Publication date
CN111198995A (zh) 2020-05-26

Similar Documents

Publication Publication Date Title
CN111198995B (zh) 一种恶意网页识别方法
CN111371806B (zh) 一种Web攻击检测方法及装置
CN112347367A (zh) 信息服务提供方法、装置、电子设备和存储介质
CN108376151A (zh) 问题分类方法、装置、计算机设备和存储介质
US20230385409A1 (en) Unstructured text classification
CN109376240A (zh) 一种文本分析方法及终端
CN108536756A (zh) 基于双语信息的情绪分类方法及***
CN106296195A (zh) 一种风险识别方法及装置
CN111291195A (zh) 一种数据处理方法、装置、终端及可读存储介质
CN112541476B (zh) 一种基于语义特征提取的恶意网页识别方法
CN109271627A (zh) 文本分析方法、装置、计算机设备和存储介质
CN107341143A (zh) 一种句子连贯性判断方法及装置和电子设备
CN111078978A (zh) 一种基于网站文本内容的网贷网站实体识别方法及***
CN108090099B (zh) 一种文本处理方法及装置
CN103593431A (zh) 网络舆情分析方法和装置
CN109933648B (zh) 一种真实用户评论的区分方法和区分装置
CN110162624B (zh) 一种文本处理方法、装置以及相关设备
CN109918648B (zh) 一种基于动态滑动窗口特征评分的谣言深度检测方法
Sheshikala et al. Natural language processing and machine learning classifier used for detecting the author of the sentence
CN107077640A (zh) 经由经验归属来分析、资格化和摄取非结构化数据源的***和处理
CN110287314A (zh) 基于无监督聚类的长文本可信度评估方法及***
CN112528294A (zh) 漏洞匹配方法、装置、计算机设备和可读存储介质
CN113204956B (zh) 多模型训练方法、摘要分段方法、文本分段方法及装置
CN111601314A (zh) 预训练模型加短信地址双重判定不良短信的方法和装置
CN117235532B (zh) 一种基于M-Bert的恶意网站检测模型的训练及检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant