CN107992469A - 一种基于词序列的钓鱼url检测方法及*** - Google Patents
一种基于词序列的钓鱼url检测方法及*** Download PDFInfo
- Publication number
- CN107992469A CN107992469A CN201710952360.5A CN201710952360A CN107992469A CN 107992469 A CN107992469 A CN 107992469A CN 201710952360 A CN201710952360 A CN 201710952360A CN 107992469 A CN107992469 A CN 107992469A
- Authority
- CN
- China
- Prior art keywords
- url
- word
- word sequence
- fishing
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/02—Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
- H04L63/0227—Filtering policies
- H04L63/0236—Filtering by address, protocol, port number or service, e.g. IP-address or URL
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1483—Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Hardware Design (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于词序列的钓鱼URL检测方法及***,用来检测钓鱼URL。通过对URL字符串进行分词,进而得到词序列的向量表示,然后利用深度学习模型自动学习词序列中的上下文信息和特征,不需要人工提取URL中包含单词相关的文本特征,采用训练好的模型用来检测钓鱼URL。从而,解决前面提到的已有基于词特征的钓鱼URL检测中遇到的问题。
Description
技术领域
本发明涉及信息安全领域,尤其涉及一种基于词序列的钓鱼URL检测方法及***。
背景技术
钓鱼URL是一种网络钓鱼行为,通过伪装成信誉卓著的法人媒体网站以获取用户的敏感信息,如用户名、密码和***明细等。钓鱼URL通常都声称自己来自于流行的社交网站(包括YouTube、Facebook、Twitter等)、拍卖网站(eBay)、电子购物网站(PayPal、Alibaba等)、或网络管理者(谷歌、雅虎、互联网服务提供商)等,以此来诱骗受害人的轻信。攻击者经常采用的欺骗手段是在URL中嵌入混淆用户的关键词,如攻击者利用形如“login.mydomain.tld/paypal”的URL来诱骗PayPal用户。
目前,无论在研究领域,还是商业产品中,已有很多钓鱼URL检测的方法和安全产品,其主要原理大都基于人工提取URL相关数据的特征,构建分类模型,对URL进行分类,从而检测出钓鱼URL。根据分析数据的不同,已有检测方法可以分为基于多源信息的检测方法和基于URL自身的检测方法两大类。
基于多源信息的检测方法需要采集URL相关的多种数据,包括Alexa排名、WHOIS信息、网页内容等,构造复杂的模型对标注好的数据进行训练,用来检测未知URL是否为钓鱼URL。这种方法通常具有比较高的准确率,但是,由于采集这些多种数据需要很大的资源和时间等额外的开销,因此,不适用于高速网络中的实时检测。
而基于URL自身的检测方法,只分析URL字符串本身的文本特征,用来构建分类模型,是一种轻量级的检测方法,适用于实时检测。
具体而言,基于URL自身的钓鱼检测方法,通过提取URL字符串的文本特征,训练分类模型,用来检测钓鱼URL。URL字符串本身的文本特征又可以分为字符特征和词特征两类。字符特征主要考虑组成URL文本串的字符表现的特征,包括字符长度、元音辅音比例、数字个数、特殊符号个数、字符分布的熵值等。词特征主要分析URL中包含的有语义信息的单词及其出现频度特征等,如URL中常用的词login、update等以及流行的知名品牌paypal、alibaba等。
基于URL自身的轻量级钓鱼检测更符合高速网络中实时响应的需求。基于字符的特征忽略了URL中包含的语义信息,URL是用来方便人记忆的,因此通常具有可读性和易记忆性,包含多个有含义的常用词。而且,在钓鱼攻击中,攻击者经常采用的策略是利用关键词来迷惑用户。
而目前已有的基于词特征的钓鱼URL检测方法大多采用词和出现的频率作为特征,没有考虑URL中包含的词序列特征,而且这些特征都是基于人工提出,有一定的局限性。首先,人工提取特征需要耗费大量的人力和资源去统计分析和验证特征的有效性;其次,人工提取的特征通常只对某一类数据有效,鲁棒性差;而且,攻击者在钓鱼URL中使用的关键词通常与正常URL相似,这样才可以混淆用户,造成分类模型检测效率降低。
发明内容
针对上述现有技术存在的不足,本发明的目的在于提供一种基于词序列的钓鱼URL检测方法及***,用来检测钓鱼URL。通过对URL字符串进行分词,进而得到词序列的向量表示,然后利用深度学习模型自动学习词序列中的上下文信息和特征,不需要人工提取URL中包含单词相关的文本特征,采用训练好的模型用来检测钓鱼URL。从而,解决前面提到的已有基于词特征的钓鱼URL检测中遇到的问题。
为达上述目的,本发明采取的技术方案是:
一种基于词序列的钓鱼URL检测方法,包括以下步骤:
将已标注URL转换为词序列向量作为训练数据;
采用训练数据训练分类模型;
将未知的URL转换为词序列向量并输入到训练好的分类模型中进行标注。
进一步地,将已标注URL或未知的URL转换为词序列向量包括:
过滤掉已标注URL或未知的URL中的协议和通用顶级域名;
对过滤后剩余的部分进行分割,对分割获得的每一个分段的字符串使用词典通过正向最大匹配的方式进行分词,得到词序列;
对上述词典中所有的词从1开始进行编号,使每个词都有唯一编号,把每个已标注URL或未知的URL的词序列转换为数字表示的定长向量。
进一步地,所述协议包括http、https、ftp、ftps、gopher;所述通用顶级域名包括com、org、net、edu、gov。
进一步地,所述使用词典通过正向最大匹配的方式进行分词包括:
判断整个字符串是否在词典中,如是,则不再进行分词;
如果否,则去掉最后一个字符,判断剩余的字符串是否在词典中;
重复前述判断过程直到匹配到在词典中的词,然后去掉匹配中的词;
对字符串剩下的部分继续进行上述步骤,直至字符串全部处理完毕;
如字符串不包含词典中的词,则分为单个字符。
进一步地,所述词典选用Peter Norvig公开的谷歌英文单词语料库。
进一步地,采用训练数据训练的分类模型选用基于词序列的双向LSTM模型进行训练。
进一步地,采用训练数据训练分类模型包括:
将训练数据随机分为训练部分和验证部分,通过设置神经网络模型的超参数和激活函数等参数对双向LSTM模型进行训练。
进一步地,双向LSTM模型包含嵌入层、双向LSTM层、dropout层和sigmoid层四层神经网络,采用训练数据训练分类模型还包括:对双向LSTM层的输出使用dropout函数用于防止过拟合。
一种基于词序列的钓鱼URL检测***,包括:
转换模块及分类训练模型;
转换模块用以将已标注URL转换为词序列向量作为训练分类模型的训练数据;并用以将未知的URL转换为词序列向量并输入到训练好的分类模型中进行标注。
如上所述,本发明提供的方法及***,不需要人工提取任何特征,只需要把URL转换为词序列向量表示,通过深度神经网络(双向LSTM模型)自动学习词序列中的上下文信息和特征,用来检测钓鱼URL。
相较于传统的检测钓鱼URL的技术,具有以下优点:
首先,不需要额外采集URL的相关数据以及人工提取URL的文本特征,通过采用深度学习模型自动学习URL的词序列上下文信息和特征,并藉此检测钓鱼URL;明显降低开销。
另外,通过深度挖掘URL的词序列包含的上下文信息和特征,相比于基于人工提取的词特征的机器学习模型和基于字符序列的深度学习模型都有较好的效果,在相同数据集上的检测效果较佳。
最后,通过本发明的方法和***,使用训练好的模型,在普通的服务器上,单线程预测速度达每秒钟不少于600个URL。在提高检测准确率的前提下,能够同时满足实时检测的需求。
附图说明
图1是本发明一实施例中基于词序列的钓鱼URL检测方法的流程示意图。
图2为本发明一实施例中基于词序列的钓鱼URL检测方法中采用的双向LSTM模型的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述。
在本发明的一实施例中,提供一种基于词序列的钓鱼URL检测方法及***,方法的主要步骤包括:
(1)词序列向量表示,首先,采用基于词典匹配的方法得到URL中包含的关键词序列,然后基于词典编码得到URL词序列的向量表示;
(2)模型训练,对上一步中得到的词序列向量,使用标注好的训练数据训练基于词序列的双向LSTM模型;
(3)钓鱼URL检测,使用训练好的基于词序列的双向LSTM模型检测未知URL是否为钓鱼。
***包括:转换模块及分类训练模型;
转换模块用以将已标注URL转换为词序列向量表示作为训练分类模型的训练数据;并用以将未知的URL转换为词序列向量表示并输入到训练好的分类模型中进行标注。
该方法中的词序列向量表示步骤,主要是为了得到URL词序列的向量表示,主要有以下几步:
i)首先,过滤掉URL中公知的协议和通用顶级域名两部分,常用的协议包括http、https、ftp、ftps、gopher等,通用顶级域名包括com、org、net、edu、gov等14个;
ii)对剩余的部分,先用符号进行分割,然后对每一个分段使用预先准备好的词典通过正向最大匹配的方法进行分词,结合下表算法1所示的伪代码,具体分词过程为:首先判断整个字符串是否在词典中,如果在,则不需要再进行分词;如果不在,则去掉最后一个字符,判断剩下的字符串是否在词典中,直到匹配到在词典中的词,然后去掉匹配中的词,对字符串剩下的部分继续进行上述步骤,直到字符串全部处理完,如果字符串不包含词典中的词,则分为单个字符。
上述分词过程中采用的词典是Peter Norvig公开的谷歌英文单词语料库(包含333,333个英文单词);不适用其他英文单词词典,该词典是Peter Norvig统计了在web网页中常用的单词,更符合URL的命名方式。
iii)然后,对上述词典中所有的词从1开始进行编号,每个词都有唯一一个编号,把每个URL的词序列转换为数字表示的定长向量;
该方法中的模型训练步骤,对上一步中得到的向量集合,使用标注好的向量集合作为训练数据对基于词序列的双向LSTM模型进行训练。将训练样本集随机分为训练和验证两部分(分别约占全部标注数据的80%和20%),通过设置神经网络模型的超参数(每一层的输出维度等)和激活函数等参数对双向LSTM模型进行训练。所使用的深度学习模型包含多层神经网络,分别为嵌入层、双向LSTM层、dropout层和sigmoid层四层神经网络,对双向LSTM层的输出使用dropout函数用于防止过拟合。
该方法中的钓鱼URL检测步骤,主要实现对未标注的数据,即未知URL,检测其是否为钓鱼。将未知URL的词序列向量输入到训练好的双向LSTM模型中进行标注,如果输出为1则表示其为钓鱼URL,否则为正常URL。
结合实例做进一步说明:基于词序列的钓鱼URL检测方法,其总体流程如图1所示,基于词序列的双向LSTM模型结构如图2所示。
以钓鱼URL:http://shen.mansell.tripod.com/games/gameboy.html为例,该URL标注状态为1,对URL进行定长的词序列向量表示和训练双向LSTM模型,并使用训练好的模型对未知URL:http://fly-project.net//yahoo.link/Yah/T/Y.html进行检测。
1)首先对输入的URL进行词序列向量表示,首先使用预先准备好的词典对URL进行分词:
然后对词典中的词进行编号,词序列表示为长度为N的定长向量,N的取值可以通过统计得到,经过统计发现超过百分之九十的URL中包含13个词,因此设定N=13,那么两个URL分别得到向量(1,4,5,6,7,11,13,0,0,0,0,0,0)和(2,19,3,9,12,8,14,0,0,0,0,0,0)。
用相同的方法得到样本集中所有URL的词序列向量表示。样本集中包含已经标注的正常URL和钓鱼URL数据。
2)使用词序列向量集合中标注的数据作为训练数据输入到如图2所示的基于词序列的双向LSTM模型中进行训练,首先URL的词序列向量输入到Embedding层降维处理,然后输入到双向LSTM层中进行学习,学习的结果输入到dropout层防止过拟合,最后一层sigmoid函数输出检测结果。标注1表示为钓鱼URL,标注为0表示正常URL,实际是个二分类问题,因此模型输出使用sigmoid函数进行0-1分类。
把所有的标注数据输入到模型中训练数据,输出训练好的模型。
3)对于未标注的数据,将其向量输入到训练好的模型中,输出标注结果,如果输出为1表示为钓鱼URL,否则为正常URL。
由此,通过上述实例可知,本例中的方法不需要人工提取任何特征,只需要把URL转换为词序列向量表示,通过深度神经网络(双向LSTM模型)自动学习词序列中的上下文信息和特征,用来检测钓鱼URL。
其主要步骤包括:1)词序列向量表示,首先对URL进行分词,此处的URL包含已标注的和未知的。所有的URL都要转换为向量,然后用标注的数据训练模型。然后利用填充序列的方法得到固定长度的向量表示;“定长“表示每个URL得到的词序列向量长度是相同的。填充序列方法是用来处理不同长度的向量,转换为相同长度。
2)模型训练,对上一步骤得到的向量,使用标注好的训练数据训练双向LSTM模型。
3)钓鱼URL检测,对于未标注的URL,把其向量表示输入到训练好的双向LSTM模型中进行标注,标注为1的为钓鱼URL。
步骤1)首先通过词序列向量表示,得到URL字符串的定长向量表示,该方法对URL的向量表示进行训练和分析;
步骤2)对预处理后的数据,使用标注好的数据训练基于词序列的双向LSTM模型;
步骤3)把未知URL的向量表示输入到训练好的双向LSTM模型中进行标注,检测其是否为钓鱼URL;
利用上述方法来检测钓鱼URL;能够深度挖掘URL的词序列包含的上下文信息和特征,相比于基于人工提取的词特征的机器学习模型和基于字符序列的深度学习模型都有较好的效果,在相同数据集上的检测效果如表1所示;
并且,该方法是一种轻量级的钓鱼URL检测方法,使用训练好的模型,在普通的服务器上,单线程预测速度达每秒钟不少于600个URL。可在提高检测准确率的同时,满足实时检测的需求。
表1四种不同检测模型的检测结果对比
模型 | Precision | Recall | F1 |
基于词特征的决策树模型 | 0.8803 | 0.8700 | 0.8751 |
基于词特征的随机森林模型 | 0.8981 | 0.8965 | 0.8973 |
基于字符序列的双向LSTM模型 | 0.9553 | 0.9474 | 0.9513 |
基于词序列的双向LSTM模型 | 0.9808 | 0.9716 | 0.9762 |
显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
Claims (9)
1.一种基于词序列的钓鱼URL检测方法,包括以下步骤:
将已标注URL转换为词序列向量作为训练数据;
采用训练数据训练分类模型;
将未知的URL转换为词序列向量并输入到训练好的分类模型中进行标注。
2.如权利要求1所述的基于词序列的钓鱼URL检测方法,其特征在于,将已标注URL或未知的URL转换为词序列向量包括:
过滤掉已标注URL或未知的URL中的协议和通用顶级域名;
对过滤后剩余的部分进行分割,对分割获得的每一个分段的字符串使用词典通过正向最大匹配的方式进行分词,得到词序列;
对上述词典中所有的词从1开始进行编号,使每个词都有唯一编号,把每个已标注URL或未知的URL的词序列转换为数字表示的定长向量。
3.如权利要求2所述的基于词序列的钓鱼URL检测方法,其特征在于,所述协议包括http、https、ftp、ftps、gopher;所述通用顶级域名包括com、org、net、edu、gov。
4.如权利要求2所述的基于词序列的钓鱼URL检测方法,其特征在于,所述使用词典通过正向最大匹配的方式进行分词包括:
判断整个字符串是否在词典中,如是,则不再进行分词;
如否,则去掉最后一个字符,判断剩余的字符串是否在词典中;
重复前述判断过程直到匹配到在词典中的词,然后去掉匹配中的词;
对字符串剩下的部分继续进行上述步骤,直至字符串全部处理完毕;
如字符串不包含词典中的词,则分为单个字符。
5.如权利要求4所述的基于词序列的钓鱼URL检测方法,其特征在于,所述词典选用Peter Norvig公开的谷歌英文单词语料库。
6.如权利要求2所述的基于词序列的钓鱼URL检测方法,其特征在于,采用训练数据训练的分类模型选用基于词序列的双向LSTM模型进行训练。
7.如权利要求1所述的基于词序列的钓鱼URL检测方法,其特征在于,采用训练数据训练分类模型包括:
将训练数据随机分为训练部分和验证部分,通过设置神经网络模型的超参数和激活函数等参数对双向LSTM模型进行训练。
8.如权利要求7所述的基于词序列的钓鱼URL检测方法,其特征在于,双向LSTM模型包含嵌入层、双向LSTM层、dropout层和sigmoid层四层神经网络,采用训练数据训练分类模型还包括:对双向LSTM层的输出使用dropout函数用于防止过拟合。
9.一种基于词序列的钓鱼URL检测***,其特征在于,包括:
转换模块及分类训练模型;
转换模块用以将已标注URL转换为词序列向量作为训练分类模型的训练数据;并用以将未知的URL转换为词序列向量并输入到训练好的分类模型中进行标注。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710952360.5A CN107992469A (zh) | 2017-10-13 | 2017-10-13 | 一种基于词序列的钓鱼url检测方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710952360.5A CN107992469A (zh) | 2017-10-13 | 2017-10-13 | 一种基于词序列的钓鱼url检测方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107992469A true CN107992469A (zh) | 2018-05-04 |
Family
ID=62028932
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710952360.5A Pending CN107992469A (zh) | 2017-10-13 | 2017-10-13 | 一种基于词序列的钓鱼url检测方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107992469A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108920463A (zh) * | 2018-06-29 | 2018-11-30 | 北京奇虎科技有限公司 | 一种基于网络攻击的分词方法及*** |
CN109101552A (zh) * | 2018-07-10 | 2018-12-28 | 东南大学 | 一种基于深度学习的钓鱼网站url检测方法 |
CN109391706A (zh) * | 2018-11-07 | 2019-02-26 | 顺丰科技有限公司 | 基于深度学习的域名检测方法、装置、设备和存储介质 |
CN109450845A (zh) * | 2018-09-18 | 2019-03-08 | 浙江大学 | 一种基于深度神经网络的算法生成恶意域名检测方法 |
CN109450853A (zh) * | 2018-10-11 | 2019-03-08 | 深圳市腾讯计算机***有限公司 | 恶意网站判定方法、装置、终端及服务器 |
CN109522454A (zh) * | 2018-11-20 | 2019-03-26 | 四川长虹电器股份有限公司 | 自动生成web样本数据的方法 |
CN109561084A (zh) * | 2018-11-20 | 2019-04-02 | 四川长虹电器股份有限公司 | 基于lstm自编码网络的url参数异常值检测方法 |
CN110493088A (zh) * | 2019-09-24 | 2019-11-22 | 国家计算机网络与信息安全管理中心 | 一种基于url的移动互联网流量分类方法 |
CN111125563A (zh) * | 2018-10-31 | 2020-05-08 | 安碁资讯股份有限公司 | 评估网域名称的方法及其伺服器 |
CN111447169A (zh) * | 2019-01-17 | 2020-07-24 | 中国科学院信息工程研究所 | 一种在网关上的实时恶意网页识别方法及*** |
CN112948725A (zh) * | 2021-03-02 | 2021-06-11 | 北京六方云信息技术有限公司 | 基于机器学习的钓鱼网站url检测方法及*** |
CN113051500A (zh) * | 2021-03-25 | 2021-06-29 | 武汉大学 | 一种融合多源数据的钓鱼网站识别方法及*** |
CN114650152A (zh) * | 2020-12-17 | 2022-06-21 | 中国科学院计算机网络信息中心 | 一种超级计算中心漏洞检测方法及*** |
CN116633684A (zh) * | 2023-07-19 | 2023-08-22 | 中移(苏州)软件技术有限公司 | 网络钓鱼检测方法、***、电子设备和可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120158626A1 (en) * | 2010-12-15 | 2012-06-21 | Microsoft Corporation | Detection and categorization of malicious urls |
CN102790762A (zh) * | 2012-06-18 | 2012-11-21 | 东南大学 | 基于url分类的钓鱼网站检测方法 |
CN105956472A (zh) * | 2016-05-12 | 2016-09-21 | 宝利九章(北京)数据技术有限公司 | 识别网页中是否包含恶意内容的方法和*** |
CN106776946A (zh) * | 2016-12-02 | 2017-05-31 | 重庆大学 | 一种欺诈网站的检测方法 |
CN107180077A (zh) * | 2017-04-18 | 2017-09-19 | 北京交通大学 | 一种基于深度学习的社交网络谣言检测方法 |
-
2017
- 2017-10-13 CN CN201710952360.5A patent/CN107992469A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120158626A1 (en) * | 2010-12-15 | 2012-06-21 | Microsoft Corporation | Detection and categorization of malicious urls |
CN102790762A (zh) * | 2012-06-18 | 2012-11-21 | 东南大学 | 基于url分类的钓鱼网站检测方法 |
CN105956472A (zh) * | 2016-05-12 | 2016-09-21 | 宝利九章(北京)数据技术有限公司 | 识别网页中是否包含恶意内容的方法和*** |
CN106776946A (zh) * | 2016-12-02 | 2017-05-31 | 重庆大学 | 一种欺诈网站的检测方法 |
CN107180077A (zh) * | 2017-04-18 | 2017-09-19 | 北京交通大学 | 一种基于深度学习的社交网络谣言检测方法 |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108920463A (zh) * | 2018-06-29 | 2018-11-30 | 北京奇虎科技有限公司 | 一种基于网络攻击的分词方法及*** |
CN109101552A (zh) * | 2018-07-10 | 2018-12-28 | 东南大学 | 一种基于深度学习的钓鱼网站url检测方法 |
CN109101552B (zh) * | 2018-07-10 | 2022-01-28 | 东南大学 | 一种基于深度学习的钓鱼网站url检测方法 |
CN109450845A (zh) * | 2018-09-18 | 2019-03-08 | 浙江大学 | 一种基于深度神经网络的算法生成恶意域名检测方法 |
CN109450853A (zh) * | 2018-10-11 | 2019-03-08 | 深圳市腾讯计算机***有限公司 | 恶意网站判定方法、装置、终端及服务器 |
CN109450853B (zh) * | 2018-10-11 | 2022-02-18 | 深圳市腾讯计算机***有限公司 | 恶意网站判定方法、装置、终端及服务器 |
CN111125563A (zh) * | 2018-10-31 | 2020-05-08 | 安碁资讯股份有限公司 | 评估网域名称的方法及其伺服器 |
CN109391706A (zh) * | 2018-11-07 | 2019-02-26 | 顺丰科技有限公司 | 基于深度学习的域名检测方法、装置、设备和存储介质 |
CN109522454A (zh) * | 2018-11-20 | 2019-03-26 | 四川长虹电器股份有限公司 | 自动生成web样本数据的方法 |
CN109561084A (zh) * | 2018-11-20 | 2019-04-02 | 四川长虹电器股份有限公司 | 基于lstm自编码网络的url参数异常值检测方法 |
CN111447169B (zh) * | 2019-01-17 | 2021-06-08 | 中国科学院信息工程研究所 | 一种在网关上的实时恶意网页识别方法及*** |
CN111447169A (zh) * | 2019-01-17 | 2020-07-24 | 中国科学院信息工程研究所 | 一种在网关上的实时恶意网页识别方法及*** |
CN110493088A (zh) * | 2019-09-24 | 2019-11-22 | 国家计算机网络与信息安全管理中心 | 一种基于url的移动互联网流量分类方法 |
CN114650152A (zh) * | 2020-12-17 | 2022-06-21 | 中国科学院计算机网络信息中心 | 一种超级计算中心漏洞检测方法及*** |
CN114650152B (zh) * | 2020-12-17 | 2023-06-20 | 中国科学院计算机网络信息中心 | 一种超级计算中心漏洞检测方法及*** |
CN112948725A (zh) * | 2021-03-02 | 2021-06-11 | 北京六方云信息技术有限公司 | 基于机器学习的钓鱼网站url检测方法及*** |
CN113051500A (zh) * | 2021-03-25 | 2021-06-29 | 武汉大学 | 一种融合多源数据的钓鱼网站识别方法及*** |
CN113051500B (zh) * | 2021-03-25 | 2022-08-16 | 武汉大学 | 一种融合多源数据的钓鱼网站识别方法及*** |
CN116633684A (zh) * | 2023-07-19 | 2023-08-22 | 中移(苏州)软件技术有限公司 | 网络钓鱼检测方法、***、电子设备和可读存储介质 |
CN116633684B (zh) * | 2023-07-19 | 2023-10-13 | 中移(苏州)软件技术有限公司 | 网络钓鱼检测方法、***、电子设备和可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107992469A (zh) | 一种基于词序列的钓鱼url检测方法及*** | |
CN109005145A (zh) | 一种基于自动特征抽取的恶意url检测***及其方法 | |
CN103559235B (zh) | 一种在线社交网络恶意网页检测识别方法 | |
CN111159395B (zh) | 基于图神经网络的谣言立场检测方法、装置和电子设备 | |
CN109450845B (zh) | 一种基于深度神经网络的算法生成恶意域名检测方法 | |
WO2016201938A1 (zh) | 一种多阶段钓鱼网站检测方法与*** | |
CN101820366B (zh) | 一种基于预取的钓鱼网页检测方法 | |
CN106940732A (zh) | 一种面向微博的疑似水军发现方法 | |
CN103500175B (zh) | 一种基于情感分析在线检测微博热点事件的方法 | |
CN105072214B (zh) | 基于域名特征的c&c域名识别方法 | |
CN109413028A (zh) | 基于卷积神经网络算法的sql注入检测方法 | |
CN107566376A (zh) | 一种威胁情报生成方法、装置及*** | |
CN103136358B (zh) | 一种自动抽取论坛数据的方法 | |
CN106789888A (zh) | 一种多特征融合的钓鱼网页检测方法 | |
CN108777674A (zh) | 一种基于多特征融合的钓鱼网站检测方法 | |
CN109657470A (zh) | 恶意网页检测模型训练方法、恶意网页检测方法及*** | |
CN107566391A (zh) | 域识别加主题识别构建机器学习模型检测网页暗链的方法 | |
CN104077396A (zh) | 一种钓鱼网站检测方法及装置 | |
CN106874253A (zh) | 识别敏感信息的方法及装置 | |
CN107341399A (zh) | 评估代码文件安全性的方法及装置 | |
CN110830489B (zh) | 基于内容抽象表示的对抗式欺诈网站检测方法及*** | |
CN103577556A (zh) | 一种获取问答对的相关联程度的装置和方法 | |
CN110134876A (zh) | 一种基于群智传感器的网络空间***件感知与检测方法 | |
CN113422761B (zh) | 基于对抗学习的恶意社交用户检测方法 | |
CN109918648B (zh) | 一种基于动态滑动窗口特征评分的谣言深度检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180504 |
|
RJ01 | Rejection of invention patent application after publication |