CN112200196A - 钓鱼网站检测方法、装置、设备及计算机可读存储介质 - Google Patents
钓鱼网站检测方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112200196A CN112200196A CN202011244888.5A CN202011244888A CN112200196A CN 112200196 A CN112200196 A CN 112200196A CN 202011244888 A CN202011244888 A CN 202011244888A CN 112200196 A CN112200196 A CN 112200196A
- Authority
- CN
- China
- Prior art keywords
- page
- domain name
- phishing
- similarity
- screenshot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 66
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 22
- 230000004927 fusion Effects 0.000 claims abstract description 19
- 238000004364 calculation method Methods 0.000 claims abstract description 18
- 238000004458 analytical method Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 6
- 238000012886 linear function Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000009193 crawling Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000000034 method Methods 0.000 abstract description 24
- 238000005516 engineering process Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 230000008520 organization Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioethics (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Virology (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明涉及信息安全领域,尤其涉及一种钓鱼网站检测方法、装置和存储介质,用于提高识别出钓鱼网站的速度和准确度。所述方法包括:本发明提供的技术方案中,通过截取所述页面内容得到页面截图,将所述页面截图与预先获取的客户页面截图输入图片识别融合算法进行特征识别,经特征识别后计算所述页面截图与所述客户页面截图的相似度;通过所述页面内容进行客户关键字匹配,当所述页面内容中出现所述客户关键字,将对应的页面定义为敏感页面;将所述一级域名与网站域名输入域名相似度计算方程,得到域名相似度;通过三个维度的分析判断所述页面是否为钓鱼页面,当为钓鱼页面时,向安全运营***发送对应的钓鱼网站警告信息。
Description
技术领域
本发明涉及信息安全技术领域,尤其涉及一种钓鱼网站检测方法、装置、设备和计算机可读存储介质。
背景技术
目前银行金融、互联网金融行业内的金融欺诈、网络欺诈事件频发,诈骗人员借助技术手段仿造与金融机构网站相似的陷阱网站对用户进行欺骗,骗取用户个人信息,甚至直接欺诈机构或个人的财物。“钓鱼”网站已成为互联网金融安全发展的绊脚石,针对“钓鱼”网站的识别通常采用域名相似度、页面内容关键字检索等技术,部分产品会融合机器学习方法对未知网站内容进行分类,但是此类检测方法通常具有如下局限性:
1.在复杂的国际网络环境中搜索“钓鱼”网站域名的成本非常大;
2.域名相似度识别技术只能找到与合法网站域名相似的“钓鱼”页面,大量的未知域名会被忽视;
3.关键字检索技术往往伴随大量误报,且运营成本非常大;
4.采用机器学习方法建设的检测产品通常需要依赖大量的真实钓鱼网站来训练模型,而目前没有可靠的数据训练集。
发明内容
基于上述问题,本发明提供一种钓鱼网站检测方法、装置、设备及计算机可读存储介质,基于图片识别融合算法的钓鱼网站检测方法,在传统检测技术的基础上引入了深度学习,通过计算未知页面的截图与公司网站页面截图的相似度判断是否存在网站仿冒行为,结合分布式爬虫技术,可以实现对互联网域名的快速检测,快速准确的判断互联网域名对应的页面是否为钓鱼页面。
为实现上述目的,本发明第一方面提供了一种钓鱼网站检测方法,包括:
获取一级域名,抓取所述一级域名对应的页面内容;
通过截取所述页面内容得到页面截图,将所述页面截图与预先获取的客户页面截图输入图片识别融合算法进行特征识别,经特征识别后计算所述页面截图与所述客户页面截图的页面相似度,当所述页面相似度大于预设的页面相似度阈值时,生成第一告警信号;
通过所述页面内容进行客户关键字匹配,当所述页面内容中出现所述客户关键字时,将对应的页面定义为敏感页面,并生成第二告警信号;
将所述一级域名与网站域名输入域名相似度计算方程,得到域名相似度,当所述域名相似度大于预设的域名相似度阈值时,生成第三告警信号;
通过所述第一告警信号、第二告警信号和第三告警信号判断所述一级域名对应的页面是否为钓鱼页面,当确定所述一级域名对应的页面为钓鱼页面时,向安全运营***发送对应的钓鱼网站警告信息。
可选的,在本发明的一种网站检测方法另一种实现方式中,所述抓取所述一级域名对应的页面内容的步骤之前,包括:
通过预先构建的异步网络爬虫框架对所述一级域名进行爬虫协议判断,若所述爬虫协议不允许,则将所述一级域名列入观察名单,若所述爬虫协议允许则抓取所述一级域名对应的页面内容。
可选的,在本发明的一种网站检测方法另一种实现方式中,所述将所述一级域名列入观察名单之后,包括:
获取所述一级域名与网站域名的编辑距离与长度之和;
将所述编辑距离与长度之和输入域名相似度计算方程,得到所述一级域名与网站域名的相似度。
可选的,在本发明的一种网站检测方法另一种实现方式中,所述图片识别融合算法为神经网络算法2-channel network,所述将所述页面截图与预先获取的客户页面截图输入图片识别融合算法进行特征识别,经特征识别后计算所述页面截图与所述客户页面截图的页面相似度具体包括:
使用Siamese网络对所述页面截图与所述客户页面截图进行描述算子提取,通过整流线性函数输出对应的特征向量,并将所述特征向量输入预设相似度评价函数,得到所述页面截图与所述客户页面截图的相似度。
可选的,在本发明的一种网站检测方法另一种实现方式中,所述通过所述页面内容进行客户关键字匹配,当所述页面内容中出现所述客户关键字,将对应的页面定义为敏感页面之前,包括:
提取官方网站页面的关键字并存储,得到预存的所述客户关键字;
所述将对应的页面定义为敏感页面,并生成第二告警信号,包括:
提取所述页面内容中的文本信息;
根据所述预存的客户关键字检测所述页面内容中的文本信息中相同的关键字,并统计词频;当所述词频大于预设词频阈值时,则生成第二告警信号。
可选的,在本发明的一种网站检测方法另一种实现方式中,所述通过所述第一告警信号、第二告警信号和第三告警信号判断所述一级域名对应的页面是否为钓鱼页面之后,包括:
判断所述一级域名对应的页面是否为钓鱼页面,若是则设置对应的告警级别,若否则将所述一级域名列入白名单。
可选的,在本发明的一种网站检测方法另一种实现方式中,所述设置对应的告警级别包括:
统计告警信号个数值;
若所述个数值为1,则将告警级别设置为一级;
若所述个数值为2,则将告警级别设置为二级;
若所述个数值为3,则将告警级别设置为三级。
本发明第二方面提供了一种钓鱼网站检测装置,包括:
页面内容抓取模块,用于获取一级域名,并抓取所述一级域名对应的页面内容;
页面截图比较模块,通过截取所述页面内容得到页面截图,将所述页面截图与预先获取的客户页面截图输入图片识别融合算法进行特征识别,经特征识别后计算所述页面截图与所述客户页面截图的页面相似度,当所述页面相似度大于预设的页面相似度阈值时,生成第一告警信号;
内容识别比较模块,用于通过所述页面内容进行客户关键字匹配,当所述页面内容中出现所述客户关键字,将对应的页面定义为敏感页面,并生成第二告警信号;
域名相似度计算模块,用于将所述一级域名与网站域名输入域名相似度计算方程,得到域名相似度,当所述域名相似度大于预设的域名相似度阈值时,生成第三告警信号;
告警分析模块,用于通过所述第一告警信号、第二告警信号和第三告警信号判断所述一级域名对应的页面是否为钓鱼页面,当确定所述一级域名对应的页面为钓鱼页面时,向安全运营***发送对应的钓鱼网站警告信息。
本发明第三方面提供了一种钓鱼网站检测设备,包括存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互联;所述至少一个处理器调用所述存储器中的所述指令,以使得所述钓鱼网站检测设备执行第一方面所述钓鱼网站检测方法。
本发明第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述钓鱼网站检测方法的步骤。
本发明提供的技术方案中,通过截取所述页面内容得到页面截图,将所述页面截图与预先获取的客户页面截图输入图片识别融合算法进行特征识别,经特征识别后计算所述页面截图与所述客户页面截图的相似度;通过所述页面内容进行客户关键字匹配,当所述页面内容中出现所述客户关键字,将对应的页面定义为敏感页面;将所述一级域名与网站域名输入域名相似度计算方程,得到域名相似度;通过三个维度的分析判断所述页面是否为钓鱼页面,当为钓鱼页面时,向安全运营***发送对应的钓鱼网站警告信息。本发明实施例通过引入深度学习提高识别准确率,降低误报,且在告警时结合页面截图相似度、客户关键字匹配、域名相似度三个维度设置告警级别,提升安全运行对事件响应的效率,节省运营成本;待检测一级域名从国际域名组织机构申请,且首先进行爬虫协议检测,不会造成非法网络爬虫的问题;异步网络爬虫可以保证快速高效的对待检测域名进行页面内容抓取和页面内容获取,保证检测速率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例中钓鱼网站检测方法的一个实施例过程示意图;
图2为本发明实施例中钓鱼网站检测装置的一个实施例示意图;
图3为本发明实施例中钓鱼网站检测设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种钓鱼网站检测方法、装置、设备及存储介质,用于提高钓鱼网站检测识别的准确率和速率,降低钓鱼网站检测的运营成本。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例进行描述。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在现有的技术中,针对“钓鱼”网站的识别通常采用域名相似度、页面内容关键字检索等技术,部分产品会融合机器学习方法对未知网站内容进行分类,但是此类检测方法通常具有一定的局限性,具体包括:在复杂的国际网络环境中搜索“钓鱼”网站域名的成本非常大,而域名相似度识别技术只能找到与合法网站域名相似的“钓鱼”页面,大量的未知域名会被忽视;此外,关键字检索技术往往伴随大量误报,且运营成本非常大;采用机器学习方法建设的检测产品通常需要依赖大量的真实钓鱼网站来训练模型,而目前没有可靠的数据训练集。
本发明提供的钓鱼网站检测方法是基于图片识别融合算法的钓鱼网站检测方法,具体是在传统检测技术的基础上引入了深度学习,通过计算未知页面的截图与公司网站页面截图的相似度判断是否存在网站仿冒行为,解决现有技术中误报率高、需要大量真实钓鱼网站训练模型的问题;而结合分布式爬虫技术,可以实现对互联网域名的快速检测,快速准确的判断互联网域名对应的页面是否为钓鱼页面,能够降低复杂网络环境中搜索“钓鱼”网站域名成本高的问题。以下分别进行详细的说明。
参阅图1,本发明实施例中钓鱼网站检测方法的一个实施例包括:
步骤101、获取一级域名,抓取所述一级域名对应的页面内容;
步骤102、通过截取所述页面内容得到页面截图,将所述页面截图与预先获取的客户页面截图输入图片识别融合算法进行特征识别,经特征识别后计算所述页面截图与所述客户页面截图的页面相似度,当所述页面相似度大于预设的页面相似度阈值时,生成第一告警信号;
步骤103、通过所述页面内容进行客户关键字匹配,当所述页面内容中出现所述客户关键字,将对应的页面定义为敏感页面,并生成第二告警信号;
步骤104、将所述一级域名与网站域名输入域名相似度计算方程,得到域名相似度,当所述域名相似度大于预设的域名相似度阈值时,生成第三告警信号;
步骤105、通过所述第一告警信号、第二告警信号和第三告警信号判断所述一级域名对应的页面是否为钓鱼页面,当确定所述一级域名对应的页面为钓鱼页面时,向安全运营***发送对应的钓鱼网站警告信息。
在所述步骤101中,获取一级域名,即通过国际域名组织机构申请一级域名,并抓取所述一级域名对应的页面内容。为了防止非法抓取页面内容,在这之前需要构建异步网络爬虫框架,并对收集到的一级域名进行爬虫协议判断,所述爬虫协议可以为robots协议。
具体地,一级域名可以从Verisign域名组织中获取,也可以从CZDS域名组织中获取。
进一步地,在本发明的钓鱼网站检测方法的另一个实施例中,所述抓取所述一级域名对应的页面内容的步骤之前,包括:
通过预先构建的异步网络爬虫框架对所述一级域名进行爬虫协议判断,若所述爬虫协议不允许,则将所述一级域名列入观察名单,若所述爬虫协议允许则抓取所述一级域名对应的页面内容。
本实施例预先构建的异步网络爬虫框架用于合法爬取所述一级域名对应的页面内容,通过对所述一级域名的爬虫协议的访问,获得爬取页面内容的操作许可。
具体地,所述预先构建的异步网络爬虫框架通过使用单线程(即:仅创建一个事件循环,并把所有任务添加到事件循环中)实现并发处理多任务,在尝试访问一个一级域名后,访问响应耗时超过预先设置的响应阈值时,挂起该一级域名并进行下一个一级域名的访问任务;当之前被挂起的一级域名对应的网页发回响应信息,则继续访问该一级域名对应的网页,程序从上次挂起的访问进度继续运行下去,所述预先构建的异步网络爬虫框架极大的减少了从国际域名组织机构申请一级域名并获取和收集一级域名的时间。
具体地,当所述访问响应耗时超过预先设置的观察阈值,即观察阈值大于响应阈值,或收到一级域名对应的服务器发回的拒绝访问信息时,将该一级域名列入观察名单。
所述观察名单用于记录不能被抓取页面从而进行后续的页面内容比较和关键字比较步骤的一级域名,其中的一级域名用于域名相似度计算。
在所述步骤102中,当获得爬取页面内容的操作许可时,通过截取所述页面的页面内容得到页面截图,将所述页面截图与预先获取的客户页面截图输入图片识别融合算法进行特征识别,经特征识别后计算所述页面截图与所述客户页面截图的页面相似度,当所述页面相似度大于预设的页面相似度阈值时,生成第一告警信号,所述第一告警信号表示所述一级域名的页面在页面设计、布局及内容上疑似钓鱼页面。
进一步地,在本发明的钓鱼网站检测方法的另一个实施例中,所述图片识别融合算法为神经网络算法2-channel network,所述将所述页面截图与预先获取的客户页面截图输入图片识别融合算法进行特征识别,经特征识别后计算所述页面截图与所述客户页面截图的页面相似度,具体包括:
使用Siamese网络对所述页面截图与所述客户页面截图进行描述算子提取,通过整流线性函数输出对应的特征向量,并将所述特征向量输入预设相似度评价函数,得到所述页面截图与所述客户页面截图的相似度。
具体地,所述图片识别融合算法在Siamese网络的基础上跳过了分支的显式的特征提取过程,直接学习预设相似度评价函数,并且为适应所述图片识别融合算法在“钓鱼”场景下的应用,本实施例中将神经网络的激活函数修改为整流线性函数,所述整流线性函数可以保证在网络层次比较深的情况下避免出现梯度消失的情况。
在所述步骤103中,通过所述页面内容进行客户关键字匹配,当所述页面内容中出现所述客户关键字,将对应的页面定义为敏感页面,并生成第二告警信号,所述第二告警信号为本实施例对疑似钓鱼页面的第二层防护告警信号,表示该页面在具体语句和语义上疑似钓鱼页面。
进一步地,在本发明的钓鱼网站检测方法的另一个实施例中,所述通过所述页面内容进行客户关键字匹配,当所述页面内容中出现所述客户关键字,将对应的页面定义为敏感页面之前,包括:
提取官方网站页面的关键字并存储,得到预存的所述客户关键字;
所述将对应的页面定义为敏感页面,并生成第二告警信号,包括:
提取所述页面内容中的文本信息;
根据所述预存的客户关键字检测所述页面内容中的文本信息中相同的关键字,并统计词频;当所述词频大于预设词频阈值时,则生成第二告警信号。
在步骤104中,将所述一级域名与网站域名输入域名相似度计算方程,得到域名相似度,当所述域名相似度大于预设的域名相似度阈值时,生成第三告警信号,所述第三告警信号为本实施例对疑似钓鱼页面的第三层防护告警信号,表示该页面在域名上疑似钓鱼页面。
进一步地,在本发明的钓鱼网站检测方法的另一个实施例中,所述将所述一级域名与网站域名输入域名相似度计算方程包括:
获取所述一级域名与网站域名的编辑距离与长度之和;
将所述编辑距离与长度之和输入域名相似度计算方程,得到所述一级域名与网站域名的相似度。
具体实施时,两个域名的相似度=1-(编辑距离/两个域名的长度之和),所述编辑距离为两个字符串之间不相同的字符个数,例如,两个字符串abc defg和abc opql的编辑距离为4。
具体地,为了解决通过编辑距离计算字符串相似度时无法避免字符串长度对相似度的影响这一问题,在计算检测到的一级域名(urlA)与网站域名(urlB)的相似度时,引入以下相似度计算公式:
Similar=1-LD/sum(len(urlA)+len(urlB)),其中0<Similar<1;
其中,Similar为两个域名的相似度,LD为编辑距离,len(urlA)和len(urlB)分别为urlA和urlB的字符串长度。
在步骤105中,通过前面可能产生的所述第一告警信号、第二告警信号和第三告警信号判断所述一级域名对应的页面是否为钓鱼页面,当确定所述一级域名对应的页面为钓鱼页面时,向安全运营***发送对应的钓鱼网站警告信息,即:通过域名相似度、页面截图相似度、关键字匹配三个维度的比较判断待检测一级域名是否为针对相关客户的钓鱼页面,若是,则可以通过产生告警邮件的形式,发送至安全运营部门进行处理。
进一步地,在本发明的钓鱼网站检测方法的另一个实施例中,所述通过所述第一告警信号、第二告警信号和第三告警信号判断所述一级域名对应的页面是否为钓鱼页面之后,包括:
判断所述一级域名对应的页面是否为钓鱼页面,若是则设置对应的告警级别,若否则将所述一级域名列入白名单。
进一步地,在本发明的钓鱼网站检测方法的另一个实施例中,所述设置对应的告警级别包括:
统计告警信号个数值;
若所述个数值为1,则将告警级别设置为一级;
若所述个数值为2,则将告警级别设置为二级;
若所述个数值为3,则将告警级别设置为三级。
具体地,所述告警等级越高,则表示对应的页面为钓鱼页面的概率越高。
上面对本发明实施例中钓鱼网站检测方法进行了描述,下面对本发明实施例中钓鱼网站检测装置进行描述,请参阅图2,本发明实施例中钓鱼网站检测装置的一个实施例包括:
页面内容抓取模块11,用于获取一级域名,并抓取所述一级域名对应的页面内容;
页面截图比较模块12,通过截取所述页面内容得到页面截图,将所述页面截图与预先获取的客户页面截图输入图片识别融合算法进行特征识别,经特征识别后计算所述页面截图与所述客户页面截图的页面相似度,当所述页面相似度大于预设的页面相似度阈值时,生成第一告警信号;
内容识别比较模块13,用于通过所述页面内容进行客户关键字匹配,当所述页面内容中出现所述客户关键字,将对应的页面定义为敏感页面,并生成第二告警信号;
域名相似度计算模块14,用于将所述一级域名与网站域名输入域名相似度计算方程,得到域名相似度,当所述域名相似度大于预设的域名相似度阈值时,生成第三告警信号;
告警分析模块15,用于通过所述第一告警信号、第二告警信号和第三告警信号判断所述一级域名对应的页面是否为钓鱼页面,当确定所述一级域名对应的页面为钓鱼页面时,向安全运营***发送对应的钓鱼网站警告信息。
需要说明的是,本发明实施例中的装置可以用于实现上述方法实施例中的全部技术方案,其各个功能模块的功能可以根据上述方法实施例中的方法具体实现,其具体实现过程可参照上述实例中的相关描述,此处不再赘述。
上面图2从模块化功能实体的角度对本发明实施例中的钓鱼网站检测装置进行详细描述,下面从硬件处理的角度对本发明实施例中钓鱼网站检测设备进行详细描述。
图3是本发明实施例提供的一种钓鱼网站检测设备的结构示意图,该钓鱼网站检测设备300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)301(例如,一个或一个以上处理器)和存储器309,一个或一个以上存储应用程序307或数据306的存储介质308(例如一个或一个以上海量存储设备)。其中,存储器309和存储介质308可以是短暂存储或持久存储。存储在存储介质308的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对图计算的布尔型变量存储中的一系列指令操作。更进一步地,处理器301可以设置为与存储介质308通信,在钓鱼网站检测设备300上执行存储介质308中的一系列指令操作。
钓鱼网站检测设备300还可以包括一个或一个以上电源302,一个或一个以上有线或无线网络接口303,一个或一个以上输入输出接口304,和/或,一个或一个以上操作***305,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图3中示出的钓鱼网站检测设备结构并不构成对钓鱼网站检测设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的***,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中,该计算机可读存储介质可以是非易失性的,也可以是易失性的。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(randomaccess memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种钓鱼网站检测方法,其特征在于,包括:
获取一级域名,抓取所述一级域名对应的页面内容;
通过截取所述页面内容得到页面截图,将所述页面截图与预先获取的客户页面截图输入图片识别融合算法进行特征识别,经特征识别后计算所述页面截图与所述客户页面截图的页面相似度,当所述页面相似度大于预设的页面相似度阈值时,生成第一告警信号;
通过所述页面内容进行客户关键字匹配,当所述页面内容中出现所述客户关键字时,将对应的页面定义为敏感页面,并生成第二告警信号;
将所述一级域名与网站域名输入域名相似度计算方程,得到域名相似度,当所述域名相似度大于预设的域名相似度阈值时,生成第三告警信号;
通过所述第一告警信号、第二告警信号和第三告警信号判断所述一级域名对应的页面是否为钓鱼页面,当确定所述一级域名对应的页面为钓鱼页面时,向安全运营***发送对应的钓鱼网站警告信息。
2.根据权利要求1所述的钓鱼网站检测方法,其特征在于,所述抓取所述一级域名对应的页面内容的步骤之前,包括:
通过预先构建的异步网络爬虫框架对所述一级域名进行爬虫协议判断,若所述爬虫协议不允许,则将所述一级域名列入观察名单,若所述爬虫协议允许则抓取所述一级域名对应的页面内容。
3.根据权利要求2所述的钓鱼网站检测方法,其特征在于,所述将所述一级域名列入观察名单之后,包括:
获取所述一级域名与网站域名的编辑距离与长度之和;
将所述编辑距离与长度之和输入域名相似度计算方程,得到所述一级域名与网站域名的相似度。
4.根据权利要求1所述的钓鱼网站检测方法,其特征在于,所述图片识别融合算法为神经网络算法2-channel network,所述将所述页面截图与预先获取的客户页面截图输入图片识别融合算法进行特征识别,经特征识别后计算所述页面截图与所述客户页面截图的页面相似度具体包括:
使用Siamese网络对所述页面截图与所述客户页面截图进行描述算子提取,通过整流线性函数输出对应的特征向量,并将所述特征向量输入预设相似度评价函数,得到所述页面截图与所述客户页面截图的相似度。
5.根据权利要求1所述的钓鱼网站检测方法,其特征在于,所述通过所述页面内容进行客户关键字匹配,当所述页面内容中出现所述客户关键字时,将对应的页面定义为敏感页面之前,包括:
提取官方网站页面的关键字并存储,得到预存的所述客户关键字;
所述将对应的页面定义为敏感页面,并生成第二告警信号,包括:
提取所述页面内容中的文本信息;
根据所述预存的客户关键字检测所述页面内容中的文本信息中相同的关键字,并统计词频;当所述词频大于预设词频阈值时,则生成第二告警信号。
6.根据权利要求1所述的钓鱼网站检测方法,其特征在于,所述通过所述第一告警信号、第二告警信号和第三告警信号判断所述一级域名对应的页面是否为钓鱼页面之后,包括:
判断所述一级域名对应的页面是否为钓鱼页面,若是则设置对应的告警级别,若否则将所述一级域名列入白名单。
7.根据权利要求6所述的钓鱼网站检测方法,其特征在于,所述设置对应的告警级别包括:
统计告警信号个数值;
若所述个数值为1,则将告警级别设置为一级;
若所述个数值为2,则将告警级别设置为二级;
若所述个数值为3,则将告警级别设置为三级。
8.一种钓鱼网站检测装置,其特征在于,包括:
页面内容抓取模块,用于获取一级域名,并抓取所述一级域名对应的页面内容;
页面截图比较模块,通过截取所述页面内容得到页面截图,将所述页面截图与预先获取的客户页面截图输入图片识别融合算法进行特征识别,经特征识别后计算所述页面截图与所述客户页面截图的页面相似度,当所述页面相似度大于预设的页面相似度阈值时,生成第一告警信号;
内容识别比较模块,用于通过所述页面内容进行客户关键字匹配,当所述页面内容中出现所述客户关键字时,将对应的页面定义为敏感页面,并生成第二告警信号;
域名相似度计算模块,用于将所述一级域名与网站域名输入域名相似度计算方程,得到域名相似度,当所述域名相似度大于预设的域名相似度阈值时,生成第三告警信号;
告警分析模块,用于通过所述第一告警信号、第二告警信号和第三告警信号判断所述一级域名对应的页面是否为钓鱼页面,当确定所述一级域名对应的页面为钓鱼页面时,向安全运营***发送对应的钓鱼网站警告信息。
9.一种钓鱼网站检测设备,其特征在于,所述钓鱼网站检测设备包括存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互联;所述至少一个处理器调用所述存储器中的所述指令,以使得所述钓鱼网站检测设备执行如权利要求1-7中任意一项所述钓鱼网站检测方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任意一项所述钓鱼网站检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011244888.5A CN112200196A (zh) | 2020-11-10 | 2020-11-10 | 钓鱼网站检测方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011244888.5A CN112200196A (zh) | 2020-11-10 | 2020-11-10 | 钓鱼网站检测方法、装置、设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112200196A true CN112200196A (zh) | 2021-01-08 |
Family
ID=74033097
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011244888.5A Pending CN112200196A (zh) | 2020-11-10 | 2020-11-10 | 钓鱼网站检测方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112200196A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113609493A (zh) * | 2021-08-05 | 2021-11-05 | 工银科技有限公司 | 钓鱼网站的识别方法、装置、设备及介质 |
CN114285627A (zh) * | 2021-12-21 | 2022-04-05 | 安天科技集团股份有限公司 | 流量检测方法及装置、电子设备和计算机可读存储介质 |
CN114448664A (zh) * | 2021-12-22 | 2022-05-06 | 深信服科技股份有限公司 | 钓鱼网页的识别方法、装置、计算机设备及存储介质 |
CN115085952A (zh) * | 2021-03-10 | 2022-09-20 | 中国电信股份有限公司 | 钓鱼网站处理方法及装置、存储介质与电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108234474A (zh) * | 2017-12-28 | 2018-06-29 | 北京奇虎科技有限公司 | 一种网站识别的方法和装置 |
CN109347786A (zh) * | 2018-08-14 | 2019-02-15 | 国家计算机网络与信息安全管理中心 | 钓鱼网站检测方法 |
CN111107048A (zh) * | 2018-10-29 | 2020-05-05 | 中移(苏州)软件技术有限公司 | 一种钓鱼网站检测方法、装置和存储介质 |
-
2020
- 2020-11-10 CN CN202011244888.5A patent/CN112200196A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108234474A (zh) * | 2017-12-28 | 2018-06-29 | 北京奇虎科技有限公司 | 一种网站识别的方法和装置 |
CN109347786A (zh) * | 2018-08-14 | 2019-02-15 | 国家计算机网络与信息安全管理中心 | 钓鱼网站检测方法 |
CN111107048A (zh) * | 2018-10-29 | 2020-05-05 | 中移(苏州)软件技术有限公司 | 一种钓鱼网站检测方法、装置和存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115085952A (zh) * | 2021-03-10 | 2022-09-20 | 中国电信股份有限公司 | 钓鱼网站处理方法及装置、存储介质与电子设备 |
CN113609493A (zh) * | 2021-08-05 | 2021-11-05 | 工银科技有限公司 | 钓鱼网站的识别方法、装置、设备及介质 |
CN114285627A (zh) * | 2021-12-21 | 2022-04-05 | 安天科技集团股份有限公司 | 流量检测方法及装置、电子设备和计算机可读存储介质 |
CN114285627B (zh) * | 2021-12-21 | 2023-12-22 | 安天科技集团股份有限公司 | 流量检测方法及装置、电子设备和计算机可读存储介质 |
CN114448664A (zh) * | 2021-12-22 | 2022-05-06 | 深信服科技股份有限公司 | 钓鱼网页的识别方法、装置、计算机设备及存储介质 |
CN114448664B (zh) * | 2021-12-22 | 2024-01-02 | 深信服科技股份有限公司 | 钓鱼网页的识别方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112200196A (zh) | 钓鱼网站检测方法、装置、设备及计算机可读存储介质 | |
Sun et al. | Detecting anomalous user behavior using an extended isolation forest algorithm: an enterprise case study | |
CN106778241B (zh) | 恶意文件的识别方法及装置 | |
Beebe | Digital forensic research: The good, the bad and the unaddressed | |
US8190621B2 (en) | Method, system, and computer readable recording medium for filtering obscene contents | |
CN103544436B (zh) | 一种钓鱼网站鉴别***和方法 | |
CN108092962A (zh) | 一种恶意url检测方法及装置 | |
CN104899508B (zh) | 一种多阶段钓鱼网站检测方法与*** | |
CN111897962B (zh) | 一种物联网资产标记方法及装置 | |
CN107204960A (zh) | 网页识别方法及装置、服务器 | |
US20190349393A1 (en) | Systems and methods for third party risk assessment | |
CN107341399A (zh) | 评估代码文件安全性的方法及装置 | |
CN111953697A (zh) | 一种apt攻击识别及防御方法 | |
CN107292168A (zh) | 检测程序代码的方法及装置、服务器 | |
CN114528457A (zh) | Web指纹检测方法及相关设备 | |
CN114692593B (zh) | 一种网络信息安全监测预警方法 | |
CN108694325A (zh) | 指定类型网站的辨别方法和指定类型网站的辨别装置 | |
KR102257139B1 (ko) | 다크웹 정보 수집 방법 및 장치 | |
CN109660621A (zh) | 一种内容推送方法及服务设备 | |
CN115879110B (zh) | 一种基于指纹穿透技术识别金融风险网站的*** | |
CN111125704B (zh) | 一种网页挂马识别方法及*** | |
KR102516819B1 (ko) | 빅데이터를 기반으로 위협 이벤트를 분석하고 대응하도록 지원하는 방법 및 이를 이용한 서버 | |
CN115134159B (zh) | 一种安全告警分析优化方法 | |
CN114021138B (zh) | 一种同源分析知识库的构建方法、同源分析方法及装置 | |
CN110598115A (zh) | 一种基于人工智能多引擎的敏感网页识别方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |