CN114124564A - 一种仿冒网站检测方法、装置、电子设备及存储介质 - Google Patents
一种仿冒网站检测方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114124564A CN114124564A CN202111464708.9A CN202111464708A CN114124564A CN 114124564 A CN114124564 A CN 114124564A CN 202111464708 A CN202111464708 A CN 202111464708A CN 114124564 A CN114124564 A CN 114124564A
- Authority
- CN
- China
- Prior art keywords
- website
- counterfeit
- page
- screenshot
- counterfeited
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 108
- 238000000034 method Methods 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 14
- 238000013135 deep learning Methods 0.000 abstract description 4
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1483—Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供一种仿冒网站检测方法、装置、电子设备及存储介质,涉及人工智能技术领域。该方法包括利用预设的被仿冒网站图像数据库识别被仿冒网站的关键特征区域,以生成掩模和关键图像;利用所述关键图像和预设的仿冒网站检测模型构建被仿冒网站指纹库;利用所述掩模、所述被仿冒网站指纹库和所述仿冒网站检测模型对待检测网站进行检测,以确定所述待检测网站是否为仿冒网站,利用页面图像关键特征区域识别技术,基于深度学习算法进行自动检测,提高检测准确率和稳定性,解决了现有方法需要人工检测以及准确率较低的问题。
Description
技术领域
本申请涉及人工智能技术领域,具体而言,涉及一种仿冒网站检测方法、装置、电子设备及存储介质。
背景技术
传统的仿冒网站检测技术大多采用人工检测、黑名单检测、域名特征检测等手段,检测准确率不高,且需投入大量的人力资源。还有一些方法,比如基于图像颜色和图像纹理来比较两个网页图标的相似度,判定依据过于简单或者采用数值计算的方法提取图片的特征,提取的特征层次较低、特征较为简单,使得检测结果的准确率较低。
发明内容
本申请实施例的目的在于提供一种仿冒网站检测方法、装置、电子设备及存储介质,利用页面图像关键特征区域识别技术,基于深度学习算法进行自动检测,提高检测准确率和稳定性,解决了现有方法需要人工检测以及准确率较低的问题。
本申请实施例提供了一种仿冒网站检测方法,该方法包括:
利用预设的被仿冒网站图像数据库识别被仿冒网站的关键特征区域,以生成掩模和关键图像;
利用所述关键图像和预设的仿冒网站检测模型构建被仿冒网站指纹库;
利用所述掩模、所述被仿冒网站指纹库和所述仿冒网站检测模型对待检测网站进行检测,以确定所述待检测网站是否为仿冒网站。
在上述实现过程中,通过建立被仿冒网站图像数据库,大幅降低了被仿冒网站页面更新、网站异常出错等特殊情况对检测模型的影响;采用页面图像关键特征区域识别技术,可以降低高频变换的动态页面内容对网站分析的干扰,让网站检测模型更加聚焦关键特征,提高模型的鲁棒性和准确性;将深度学习技术引入仿冒网站检测应用场景,解决传统仿冒网站检测技术检测准确率较低的问题。
进一步地,在所述利用预设的被仿冒网站图像数据库识别被仿冒网站的关键特征区域的步骤之前,所述方法还包括构建被仿冒网站图像数据库:
获取多个网站的网站域名并去重,以生成域名列表;
筛选所述网站域名对应的页面地址;
获取所述页面地址对应的网站页面,并对所述网站页面进行截图,以获得页面截图;
利用所述域名列表、页面地址和所述页面截图构建被仿冒网站图像数据库,并对所述页面截图进行定期更新。
在上述实现过程中,将可能被仿冒的网站的域名、页面地址和页面图像构成被仿冒网站图像数据库,通过建立覆盖面广泛、权威、准确的被仿冒网站数据库,为仿冒网站检测提供了有力支撑。
进一步地,所述利用预设的被仿冒网站图像数据库识别被仿冒网站的关键特征区域,以生成掩模和关键图像,包括:
获取所述被仿冒网站图像数据库中预设数量的任意页面截图;
获取每张页面截图的任意像素点处的颜色值;
当颜色值众数出现次数大于第一预设阈值时,记录对应的像素坐标和颜色值众数构成的集合,所述集合表示为:
A={(x,y,clr)|0≤x<W,0≤y<H};
其中,A表示所述集合,(x,y)表示任意像素点相对于所述页面截图左下角的偏移坐标,clr表示所述颜色值众数,W表示所述页面截图的宽度,H表示所述页面截图的高度;
计算所述集合中的任意两个像素点的偏移坐标之间的距离;
根据所述距离计算每个像素点的近邻点个数,若两个像素点之间的距离小于第二预设阈值,则两个像素点为近邻点;
若所述近邻点个数小于第三预设阈值,则将所述像素点从所述集合中删除;
将未被删除的集合中的元素构成掩模;
利用所述掩模生成每个页面地址对应的关键图像。
在上述实现过程中,采用统计学方法,提出了图像掩模技术,以便利用掩模生成关键图像。
进一步地,所述利用所述掩模生成每个页面地址对应的关键图像,包括:
在空白图像上的所述掩中的偏移坐标位置处,填充所述偏移坐标对应的颜色值,以生成关键图像,所述空白图像的大小与所述页面截图的大小相同。
在上述实现过程中,利用掩模生成被仿冒网站的关键图像,降低了动态网页内容、网站页面更新、网站页面故障等情况对仿冒网站检测带来的干扰,提高了仿冒网站检测准确度。
进一步地,在所述利用所述关键图像和预设的仿冒网站检测模型构建被仿冒网站指纹库的步骤之前,所述方法还包括构建仿冒网站检测模型:
利用预设的仿冒网站黑名单数据获取仿冒网站的第一网站页面截图和对应的被仿冒网站的第二网站页面截图,以生成训练数据集;
将所述训练数据集输入ResNeXt-101模型,以进行模型训练;
对所述模型进行优化,优化目标表示为:
其中,0<i≤|T|,|T|是所述训练数据集中包含的第一网站页面截图和第二网站页面截图的对数,c为所述ResNeXt-101模型的参数,c*为c的最优解,所述FRi和FFi分别为第i对第一网站页面截图和第二网站页面截图对应的第一输出数据和第二输出数据。
在上述实现过程中,对模型进行训练和优化,构建仿冒网站检测模型,实现自动检测,并且提高了检测结果的准确性。
进一步地,所述利用所述关键图像和预设的仿冒网站检测模型构建被仿冒网站指纹库,包括:
将每个所述关键图像输入所述仿冒网站检测模型,以获得数据输出;
将所述数据输出构成被仿冒网站指纹库。
在上述实现过程中,利用关键图像和仿冒网站检测模型构建被仿冒网站指纹库,提供网站检测的数据支撑。
进一步地,所述利用所述掩模、所述被仿冒网站指纹库和所述仿冒网站检测模型对待检测网站进行检测,以确定所述待检测网站是否为仿冒网站,包括:
检索所述待检测网站的网站域名是否存在于所述被仿冒网站图像数据库的域名列表中;
若否,则获取所述待检测网站的第一网站截图;
基于所述掩模,保留所述待测网站截图中与所述掩模对应的偏移坐标处的像素的颜色值,以生成第二网站截图;
将所述第二网站截图输入所述仿冒网站检测模型,以得到输出结果;
分别计算所述输出结果与所述被仿冒网站指纹库中的每个数据输出的欧式距离;
若所述欧式距离小于等于最大欧式距离,则判定所述待检测网站是仿冒网站;所述最大欧式距离为第一输出数据和第二输出数据的欧式距离的最大值。
在上述实现过程中,将关键图像和仿冒网站检测模型相结合,让网站检测模型更加聚焦关键特征,提高模型的鲁棒性和准确性。
本申请实施例还提供一种仿冒网站检测装置,所述装置包括:
关键图像生成模块,用于利用预设的被仿冒网站图像数据库识别被仿冒网站的关键特征区域,以生成掩模和关键图像;
指纹库构建模块,用于利用所述关键图像和预设的仿冒网站检测模型构建被仿冒网站指纹库;
检测模块,用于利用所述掩模、所述被仿冒网站指纹库和所述仿冒网站检测模型对待检测网站进行检测,以确定所述待检测网站是否为仿冒网站。
在上述实现过程中,通过建立被仿冒网站图像数据库,大幅降低了被仿冒网站页面更新、网站异常出错等特殊情况对检测模型的影响;采用页面图像关键特征区域识别技术,可以降低高频变换的动态页面内容对网站分析的干扰,让网站检测模型更加聚焦关键特征,提高模型的鲁棒性和准确性;将深度学习技术引入仿冒网站检测应用场景,解决传统仿冒网站检测技术检测准确率较低的问题。
本申请实施例还提供一种电子设备,所述电子设备包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行上述中任一项所述的仿冒网站检测方法。
本申请实施例还提供一种可读存储介质,所述可读存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行上述中任一项所述的仿冒网站检测方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种仿冒网站检测方法的流程图;
图2为本申请实施例提供的另一种电源***的结构框图;
图3为本申请实施例提供的被仿冒网站图像数据库的构建流程图;
图4为本申请实施例提供的掩模和关键图像生成流程图;
图5为本申请实施例提供的仿冒网站检测模型的构建流程图;
图6为本申请实施例提供的被仿冒网站指纹库构建流程图;
图7为本申请实施例提供的对待检测网站进行检测的流程图;
图8为本申请实施例提供的一种仿冒网站检测装置的结构框图;
图9为本申请实施例提供的另一种仿冒网站检测装置的结构框图。
图标:
100-关键图像生成模块;110-数据库构建模块;200-指纹库构建模块;210-模型构建模块;300-检测模块。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参看图1,图1为本申请实施例提供的一种仿冒网站检测方法的流程图。该方法具体包括以下步骤:
步骤S100:利用预设的被仿冒网站图像数据库识别被仿冒网站的关键特征区域,以生成掩模和关键图像;
如图2所示,为仿冒网站检测方法的具体实现框图,在步骤S100之前,需要先构建被仿冒网站图像数据库,如图3所示,为被仿冒网站图像数据库的构建流程图,具体包括以下步骤:
步骤S111:获取多个网站的网站域名并去重,以生成域名列表;
步骤S112:筛选所述网站域名对应的页面地址;
步骤S113:获取所述页面地址对应的网站页面,并对所述网站页面进行截图,以获得页面截图;
步骤S114:利用所述域名列表、页面地址和所述页面截图构建被仿冒网站图像数据库,并对所述页面截图进行定期更新。
具体地,获取可能被仿冒的网站域名,可通过访问www.alexa.cn网站,获取“排行榜”前2000的域名,访问www.alexa.com网站,获取“Top sites”页面下Global前500的域名,对上述2500个域名进行去重,去重之后的域名共同构成了可能被仿冒网站的域名列表L,将域名列表L存入被仿冒网站图像数据库,对于获取可能被仿冒的网站的数量,在此不做限定,但需要获取足够数量的可能被仿冒的网站,以提供充足的数据支撑,因此可建立覆盖面广泛、权威、准确的被仿冒网站数据库,为仿冒网站检测提供有力支撑。
对可能被仿冒的网站的页面地址进行筛选,对于域名列表L中的每个网站域名D,人工访问、筛选和确认网站域名D的网站首页URL、用户登录页URL和交易支付页URL,如果上述URL均存在,则将上述URL存入被仿冒网站图像数据库,比如淘宝网站首页URL为https://www.taobao.com/,用户登录页URL为https://login.taobao.com/member/login.jhtml,交易支付页URL为https://cashiersa128.alipay.com/standard/lightpay/lightPayCashier.htm。
截取可能被仿冒网站的页面图像,得到页面截图:通过网络爬虫每天访问一次被仿冒网站图像数据库中的URL地址,并对URL地址指向的网站页面进行截图,将页面截图存入被仿冒网站图像数据库。被仿冒网站图像数据库只保留每个URL对应页面最近100天的页面截图,按照先进先出的原则,向被仿冒网站图像数据库中添加当天最新的页面截图,并删除100天前的页面截图,对于页面截图的更新周期在此不做任何限定。
采用统计学的方法构建被仿冒网站图像数据库,大幅降低了被仿冒网站页面更新、网站异常出错等特殊情况对仿冒网站检测模型的影响,从而有助于提高仿冒网站检测模型的检测结果的准确率。
如图4所示,为掩模和关键图像生成流程图,在建立了被仿冒网站图像数据库的基础上,识别被仿冒网站关键特征区域,包括图像比较(步骤S101-103)、离散点删除(步骤S104-107)和关键图像生成三个步骤,具体地:
步骤S101:获取所述被仿冒网站图像数据库中预设数量的任意页面截图;
步骤S102:获取每张页面截图的任意像素点处的颜色值;
步骤S103:当颜色值众数出现次数大于第一预设阈值时,记录对应的像素坐标和颜色值众数构成的集合,所述集合表示为:
A={(x,y,clr)|0≤x<W,0≤y<H};
其中,A表示所述集合,(x,y)表示任意像素点相对于所述页面截图左下角的偏移坐标,clr表示所述颜色值众数,W表示所述页面截图的宽度,H表示所述页面截图的高度;
示例地,对于被仿冒网站图像数据库中的每个URL,读取该URL的100张截图。假设(x,y)表示截图中任意像素相对于页面截图左下角的偏移坐标,W表示页面截图的宽度,H表示页面截图的高度,0≤x<W,0≤y<H,x和y均为非负整数。
在整个页面截图范围内逐像素统计100张截图在(x,y)处像素的颜色值,当且仅当这100个颜色值中的众数出现的次数大于第一预设阈值S时,记录坐标(x,y)和颜色值众数clr,被记录的偏移坐标和颜色值众数共同构成集合A={(x,y,clr)|0≤x<W,0≤y<H},其中50<S≤100。
例如,W=1920,H=1080,在整个页面截图范围内逐像素统计100张截图在(x,y)处像素的RGB颜色值,当且仅当这100个RGB颜色值中的众数出现的次数大于第一预设阈值S=90时,记录坐标(x,y)和RGB颜色值众数clr(颜色值众数指的是出现次数最多的像素值),被记录的坐标和RGB颜色值众数共同构成集合A={(x,y,clr)|0≤x<W,0≤y<H}。
步骤S104:计算所述集合中的任意两个像素点的偏移坐标之间的距离;
步骤S105:根据所述距离计算每个像素点的近邻点个数,若两个像素点之间的距离小于第二预设阈值,则两个像素点为近邻点;
步骤S106:若所述近邻点个数小于第三预设阈值,则将所述像素点从所述集合中删除;
步骤S107:将未被删除的集合中的元素构成掩模;
示例地,对于每个URL,计算其集合A中任意两个坐标(xi,yi)和(xj,yj)之间的距离DLij,如果DLij小于第二预设阈值DLS,则(xi,yi)和(xj,yj)是彼此的近邻点。计算每个坐标(xi,yi)的近邻点个数,近邻点个数小于第三预设阈值NS的坐标被认为是离散点,该坐标对应的数据项将从集合A中删除,集合A中未被删除的数据项共同构成掩模M。如果掩模M中数据项的个数小于预设阈值MS=α×W×H,则该URL指向页面可能已发生重大变更,则需要对可能被仿冒的网站的页面地址进行重新筛选。
采用被仿冒网站页面周期性自动化监控机制,在网站页面发生变更时(如果掩模M中数据项的个数小于预设阈值MS=α×W×H,则该URL指向页面可能已发生重大变更),可以自动提醒技术人员有针对性地更新被仿冒网站页面的URL地址,解决了大规模被仿冒网站页面图像数据库实时更新时工作量巨大的难题。
例如,计算每个坐标(xi,yi)的近邻点个数,近邻点个数小于第三预设阈值NS=200的坐标被认为是离散点,该坐标对应的数据项将从集合A中删除,集合A中未被删除的数据项共同构成掩模M。如果掩模M中数据项的个数小于预设阈值MS=α×W×H,α=0.3,则该URL指向页面可能已发生重大变更,转向执行对可能被仿冒的网站的页面地址进行筛选的步骤。
步骤S108:利用所述掩模生成每个页面地址对应的关键图像。
具体地,在空白图像上,与掩模中的偏移坐标对应的位置处,填充所述偏移坐标对应的颜色值,以生成关键图像,所述空白图像的大小与所述页面截图的大小相同。
对于每个URL对应的掩模M,在一张宽度为W且高度为H的空白图像上(空白区域填充无色),按照掩模M中数据项的前两项坐标填充第三项颜色值,可生成该URL对应的关键图像PM。
步骤S200:利用所述关键图像和预设的仿冒网站检测模型构建被仿冒网站指纹库;
在该步骤之前,需要先构建仿冒网站检测模型,如图5所示,为仿冒网站检测模型的构建流程图:
步骤S211:利用预设的仿冒网站黑名单数据获取仿冒网站的第一网站页面截图和对应的被仿冒网站的第二网站页面截图,以生成训练数据集;
步骤S212:将所述训练数据集输入ResNeXt-101模型,以进行模型训练;
步骤S213:对所述模型进行优化,优化目标表示为:
其中,0<i≤|T|,|T|是所述训练数据集中包含的第一网站页面截图和第二网站页面截图的对数,如|T|=10000,c为所述ResNeXt-101模型的参数,c*为c的最优解,所述FRi和FFi分别为第i对第一网站页面截图和第二网站页面截图对应的第一输出数据和第二输出数据,||FRi-FFi||2表示两个多维向量之间的欧氏距离。
首先需要构建训练数据集,利用已有的仿冒网站黑名单数据,访问并截取黑名单中仿冒网站的第一页面截图FP和被仿冒网站的第二页面截图RP,上述截图共同构成训练数据集T。
再对模型进行训练,将ResNeXt-101模型作为初始模型,将训练数据集T中成对的FP和RP作为模型的数据输入,对模型进行训练。
再对训练好的模型进行优化,其中,将欧式距离||FRi-FFi||2中的最大值记为MP。
如图6所示,为被仿冒网站指纹库构建流程图,步骤S200具体可以包括:
步骤S201:将每个所述关键图像输入所述仿冒网站检测模型,以获得数据输出;
步骤S202:将所述数据输出构成被仿冒网站指纹库。
具体地,将被仿冒网站图像数据库中的每个URL对应的关键图像PM作为仿冒网站检测模型的数据输入,模型对应的数据输出记为FM。所有URL对应的FM共同构成被仿冒网站指纹库FPS,其中|FPS|为被仿冒网站指纹库中FM的总数。
步骤S300:利用所述掩模、所述被仿冒网站指纹库和所述仿冒网站检测模型对待检测网站进行检测,以确定所述待检测网站是否为仿冒网站。
如图7所示,为对待检测网站进行检测的流程图,具体包括以下步骤:
步骤S301:检索所述待检测网站的网站域名是否存在于所述被仿冒网站图像数据库的域名列表中;
步骤S302:若否,则获取所述待检测网站的第一网站截图;
步骤S303:基于所述掩模,保留所述待测网站截图中与所述掩模对应的偏移坐标处的像素的颜色值,以生成第二网站截图;
步骤S304:将所述第二网站截图输入所述仿冒网站检测模型,以得到输出结果;
步骤S305:分别计算所述输出结果与所述被仿冒网站指纹库中的每个数据输出的欧式距离;
步骤S306:若所述欧式距离小于等于最大欧式距离,则判定所述待检测网站是仿冒网站;所述最大欧式距离为第一输出数据和第二输出数据的欧式距离的最大值。
具体地,对于待检测的网站地址U,自动检索该网站域名是否已存在于域名列表L中。如果U的域名不存在于域名列表L中,则访问U指向的网站页面并生成第一网站截图UP。
对于被仿冒网站图像数据库中每个URL对应的掩模M中的每个数据项(xi,yi,clri),只保留UP在坐标(xi,yi)处的像素,UP上的其他像素的颜色值全部替换为无色值,此时新生成的图像记为第二网站截图UP’。将UP’作为模型的数据输入,模型输出结果记为FU,将FU与被仿冒网站指纹库中每个FMi作为数据输入,依次计算||FU-FMi||2,其中0<i≤|FPS|。如果||FU-FMi||2≤MP,则判定网站地址U为疑似仿冒网站地址,疑似被仿冒网站地址为i对应的URL,并将疑似仿冒网站地址移交安全专家人工核验。
基于被仿冒网站关键图像识别原理,采用统计学方法,生成图像掩模和生成被仿冒网站的关键图像,降低了动态网页内容、网站页面更新、网站页面故障等情况对仿冒网站检测带来的干扰,提高了仿冒网站检测准确度。
该检测方法采用了页面图像关键特征区域识别技术,可以降低高频变换的动态页面内容对网站分析的干扰,让网站检测模型更加聚焦关键特征,提高模型的鲁棒性和准确性。
此外,利用深度学***。
采用了页面图像检测结果缓存技术,待检测网页图像只需与缓存的被仿冒网站图像检测结果进行比对,提高了网页图像检索的速度。
本申请实施例还提供一种仿冒网站检测装置,应用于上述实施例的仿冒网站检测方法,如图8所示,为一种仿冒网站检测装置的结构框图,具体包括但不限于:
关键图像生成模块100,用于利用预设的被仿冒网站图像数据库识别被仿冒网站的关键特征区域,以生成掩模和关键图像;
指纹库构建模块200,用于利用所述关键图像和预设的仿冒网站检测模型构建被仿冒网站指纹库;
检测模块300,用于利用所述掩模、所述被仿冒网站指纹库和所述仿冒网站检测模型对待检测网站进行检测,以确定所述待检测网站是否为仿冒网站。
如图9所示,为另一种仿冒网站检测装置的结构框图,该装置还包括数据库构建模块110,用于:
获取多个网站的网站域名并去重,以生成域名列表;
筛选所述网站域名对应的页面地址;
获取所述页面地址对应的网站页面,并对所述网站页面进行截图,以获得页面截图;
利用所述域名列表、页面地址和所述页面截图构建被仿冒网站图像数据库,并对所述页面截图进行定期更新。
还包括模型构建模块210,用于:
利用预设的仿冒网站黑名单数据获取仿冒网站的第一网站页面截图和对应的被仿冒网站的第二网站页面截图,以生成训练数据集;
将所述训练数据集输入ResNeXt-101模型,以进行模型训练;
对所述模型进行优化,优化目标表示为:
其中,0<i≤|T|,|T|是所述训练数据集中包含的第一网站页面截图和第二网站页面截图的对数,c为所述ResNeXt-101模型的参数,c*为c的最优解,所述FRi和FFi分别为第i对第一网站页面截图和第二网站页面截图对应的第一输出数据和第二输出数据。
需要说明的是,对于关键图像生成模块100、指纹库构建模块200和检测模块300的具体执行过程在方法实施例中已经详细说明,在此不再赘述。
本申请实施例还提供一种电子设备,所述电子设备包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行上述的仿冒网站检测方法。
本申请实施例还提供一种可读存储介质,所述可读存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行上述的仿冒网站检测方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (10)
1.一种仿冒网站检测方法,其特征在于,所述方法包括:
利用预设的被仿冒网站图像数据库识别被仿冒网站的关键特征区域,以生成掩模和关键图像;
利用所述关键图像和预设的仿冒网站检测模型构建被仿冒网站指纹库;
利用所述掩模、所述被仿冒网站指纹库和所述仿冒网站检测模型对待检测网站进行检测,以确定所述待检测网站是否为仿冒网站。
2.根据权利要求1所述的仿冒网站检测方法,其特征在于,在所述利用预设的被仿冒网站图像数据库识别被仿冒网站的关键特征区域的步骤之前,所述方法还包括构建被仿冒网站图像数据库:
获取多个网站的网站域名并去重,以生成域名列表;
筛选所述网站域名对应的页面地址;
获取所述页面地址对应的网站页面,并对所述网站页面进行截图,以获得页面截图;
利用所述域名列表、页面地址和所述页面截图构建被仿冒网站图像数据库,并对所述页面截图进行定期更新。
3.根据权利要求2所述的仿冒网站检测方法,其特征在于,所述利用预设的被仿冒网站图像数据库识别被仿冒网站的关键特征区域,以生成掩模和关键图像,包括:
获取所述被仿冒网站图像数据库中预设数量的任意页面截图;
获取每张页面截图的任意像素点处的颜色值;
当颜色值众数出现次数大于第一预设阈值时,记录对应的像素坐标和颜色值众数构成的集合,所述集合表示为:
A={(x,y,clr)|0≤x<W,0≤y<H};
其中,A表示所述集合,(x,y)表示任意像素点相对于所述页面截图左下角的偏移坐标,clr表示所述颜色值众数,W表示所述页面截图的宽度,H表示所述页面截图的高度;
计算所述集合中的任意两个像素点的偏移坐标之间的距离;
根据所述距离计算每个像素点的近邻点个数,若两个像素点之间的距离小于第二预设阈值,则两个像素点为近邻点;
若所述近邻点个数小于第三预设阈值,则将所述像素点从所述集合中删除;
将未被删除的集合中的元素构成掩模;
利用所述掩模生成每个页面地址对应的关键图像。
4.根据权利要求3所述的仿冒网站检测方法,其特征在于,所述利用所述掩模生成每个页面地址对应的关键图像,包括:
在空白图像上的所述掩模的偏移坐标位置处,填充所述偏移坐标对应的颜色值,以生成关键图像,所述空白图像的大小与所述页面截图的大小相同。
5.根据权利要求1所述的仿冒网站检测方法,其特征在于,在所述利用所述关键图像和预设的仿冒网站检测模型构建被仿冒网站指纹库的步骤之前,所述方法还包括构建仿冒网站检测模型:
利用预设的仿冒网站黑名单数据获取仿冒网站的第一网站页面截图和对应的被仿冒网站的第二网站页面截图,以生成训练数据集;
将所述训练数据集输入ResNeXt-101模型,以进行模型训练;
对所述模型进行优化,优化目标表示为:
其中,0<i≤|T|,|T|是所述训练数据集中包含的第一网站页面截图和第二网站页面截图的对数,c为所述ResNeXt-101模型的参数,c*为c的最优解,FRi和FFi分别为第i对第一网站页面截图和第二网站页面截图对应的第一输出数据和第二输出数据。
6.根据权利要求5所述的仿冒网站检测方法,其特征在于,所述利用所述关键图像和预设的仿冒网站检测模型构建被仿冒网站指纹库,包括:
将每个所述关键图像输入所述仿冒网站检测模型,以获得数据输出;
将所述数据输出构成被仿冒网站指纹库。
7.根据权利要求6所述的仿冒网站检测方法,其特征在于,所述利用所述掩模、所述被仿冒网站指纹库和所述仿冒网站检测模型对待检测网站进行检测,以确定所述待检测网站是否为仿冒网站,包括:
检索所述待检测网站的网站域名是否存在于所述被仿冒网站图像数据库的域名列表中;
若否,则获取所述待检测网站的第一网站截图;
基于所述掩模,保留所述待测网站截图中与所述掩模对应的偏移坐标处的像素的颜色值,以生成第二网站截图;
将所述第二网站截图输入所述仿冒网站检测模型,以得到输出结果;
分别计算所述输出结果与所述被仿冒网站指纹库中的每个数据输出的欧式距离;
若所述欧式距离小于等于最大欧式距离,则判定所述待检测网站是仿冒网站;所述最大欧式距离为第一输出数据和第二输出数据的欧式距离的最大值。
8.一种仿冒网站检测装置,其特征在于,所述装置包括:
关键图像生成模块,用于利用预设的被仿冒网站图像数据库识别被仿冒网站的关键特征区域,以生成掩模和关键图像;
指纹库构建模块,用于利用所述关键图像和预设的仿冒网站检测模型构建被仿冒网站指纹库;
检测模块,用于利用所述掩模、所述被仿冒网站指纹库和所述仿冒网站检测模型对待检测网站进行检测,以确定所述待检测网站是否为仿冒网站。
9.一种电子设备,其特征在于,所述电子设备包括存储器以及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行根据权利要求1至7中任一项所述的仿冒网站检测方法。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序指令,所述计算机程序指令被一处理器读取并运行时,执行权利要求1至7任一项所述的仿冒网站检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111464708.9A CN114124564B (zh) | 2021-12-03 | 2021-12-03 | 一种仿冒网站检测方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111464708.9A CN114124564B (zh) | 2021-12-03 | 2021-12-03 | 一种仿冒网站检测方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114124564A true CN114124564A (zh) | 2022-03-01 |
CN114124564B CN114124564B (zh) | 2023-11-28 |
Family
ID=80365797
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111464708.9A Active CN114124564B (zh) | 2021-12-03 | 2021-12-03 | 一种仿冒网站检测方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114124564B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115499156A (zh) * | 2022-07-29 | 2022-12-20 | 天翼云科技有限公司 | 网站后台信息泄露检测方法、电子设备及存储介质 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103179095A (zh) * | 2011-12-22 | 2013-06-26 | 阿里巴巴集团控股有限公司 | 一种检测钓鱼网站的方法及客户端装置 |
CN104166725A (zh) * | 2014-08-26 | 2014-11-26 | 哈尔滨工业大学(威海) | 一种钓鱼网站检测方法 |
CN104462152A (zh) * | 2013-09-23 | 2015-03-25 | 深圳市腾讯计算机***有限公司 | 一种网页的识别方法及装置 |
CN105119909A (zh) * | 2015-07-22 | 2015-12-02 | 国家计算机网络与信息安全管理中心 | 一种基于页面视觉相似性的仿冒网站检测方法和*** |
CN105978850A (zh) * | 2016-04-08 | 2016-09-28 | 中国南方电网有限责任公司 | 一种基于图形匹配的仿冒网站检测***及检测方法 |
CN106127042A (zh) * | 2016-07-06 | 2016-11-16 | 苏州仙度网络科技有限公司 | 网页视觉相似度识别方法 |
CN107181730A (zh) * | 2017-03-13 | 2017-09-19 | 烟台中科网络技术研究所 | 一种仿冒网站监测识别方法及*** |
CN107204956A (zh) * | 2016-03-16 | 2017-09-26 | 腾讯科技(深圳)有限公司 | 网站识别方法及装置 |
CN107911360A (zh) * | 2017-11-13 | 2018-04-13 | 哈尔滨工业大学(威海) | 一种被黑网站检测方法及*** |
CN108650260A (zh) * | 2018-05-09 | 2018-10-12 | 北京邮电大学 | 一种恶意网站的识别方法和装置 |
CN108965245A (zh) * | 2018-05-31 | 2018-12-07 | 国家计算机网络与信息安全管理中心 | 基于自适应异构多分类模型的钓鱼网站检测方法和*** |
US20190104154A1 (en) * | 2017-10-01 | 2019-04-04 | Fireeye, Inc. | Phishing attack detection |
KR20190099816A (ko) * | 2018-02-20 | 2019-08-28 | 주식회사 디로그 | 웹 페이지 위변조 탐지 방법 및 시스템 |
US20200389493A1 (en) * | 2019-06-07 | 2020-12-10 | Paypal, Inc. | Spoofed webpage detection |
CN112565250A (zh) * | 2020-12-04 | 2021-03-26 | ***通信集团内蒙古有限公司 | 一种网站识别方法、装置、设备及存储介质 |
CN113221032A (zh) * | 2021-04-08 | 2021-08-06 | 北京智奇数美科技有限公司 | 链接风险检测方法、装置以及存储介质 |
CN113538629A (zh) * | 2021-07-30 | 2021-10-22 | 上海幻电信息科技有限公司 | 检测方法及装置 |
-
2021
- 2021-12-03 CN CN202111464708.9A patent/CN114124564B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103179095A (zh) * | 2011-12-22 | 2013-06-26 | 阿里巴巴集团控股有限公司 | 一种检测钓鱼网站的方法及客户端装置 |
CN104462152A (zh) * | 2013-09-23 | 2015-03-25 | 深圳市腾讯计算机***有限公司 | 一种网页的识别方法及装置 |
CN104166725A (zh) * | 2014-08-26 | 2014-11-26 | 哈尔滨工业大学(威海) | 一种钓鱼网站检测方法 |
CN105119909A (zh) * | 2015-07-22 | 2015-12-02 | 国家计算机网络与信息安全管理中心 | 一种基于页面视觉相似性的仿冒网站检测方法和*** |
CN107204956A (zh) * | 2016-03-16 | 2017-09-26 | 腾讯科技(深圳)有限公司 | 网站识别方法及装置 |
CN105978850A (zh) * | 2016-04-08 | 2016-09-28 | 中国南方电网有限责任公司 | 一种基于图形匹配的仿冒网站检测***及检测方法 |
CN106127042A (zh) * | 2016-07-06 | 2016-11-16 | 苏州仙度网络科技有限公司 | 网页视觉相似度识别方法 |
CN107181730A (zh) * | 2017-03-13 | 2017-09-19 | 烟台中科网络技术研究所 | 一种仿冒网站监测识别方法及*** |
US20190104154A1 (en) * | 2017-10-01 | 2019-04-04 | Fireeye, Inc. | Phishing attack detection |
CN107911360A (zh) * | 2017-11-13 | 2018-04-13 | 哈尔滨工业大学(威海) | 一种被黑网站检测方法及*** |
KR20190099816A (ko) * | 2018-02-20 | 2019-08-28 | 주식회사 디로그 | 웹 페이지 위변조 탐지 방법 및 시스템 |
CN108650260A (zh) * | 2018-05-09 | 2018-10-12 | 北京邮电大学 | 一种恶意网站的识别方法和装置 |
CN108965245A (zh) * | 2018-05-31 | 2018-12-07 | 国家计算机网络与信息安全管理中心 | 基于自适应异构多分类模型的钓鱼网站检测方法和*** |
US20200389493A1 (en) * | 2019-06-07 | 2020-12-10 | Paypal, Inc. | Spoofed webpage detection |
CN112565250A (zh) * | 2020-12-04 | 2021-03-26 | ***通信集团内蒙古有限公司 | 一种网站识别方法、装置、设备及存储介质 |
CN113221032A (zh) * | 2021-04-08 | 2021-08-06 | 北京智奇数美科技有限公司 | 链接风险检测方法、装置以及存储介质 |
CN113538629A (zh) * | 2021-07-30 | 2021-10-22 | 上海幻电信息科技有限公司 | 检测方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115499156A (zh) * | 2022-07-29 | 2022-12-20 | 天翼云科技有限公司 | 网站后台信息泄露检测方法、电子设备及存储介质 |
CN115499156B (zh) * | 2022-07-29 | 2024-06-07 | 天翼云科技有限公司 | 网站后台信息泄露检测方法、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114124564B (zh) | 2023-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10785241B2 (en) | URL attack detection method and apparatus, and electronic device | |
CN110516210B (zh) | 文本相似度的计算方法和装置 | |
CN112541476B (zh) | 一种基于语义特征提取的恶意网页识别方法 | |
JP7381942B2 (ja) | 制御方法、情報処理装置および制御プログラム | |
CN113141276A (zh) | 一种基于知识图谱的信息安全方法 | |
CN114124564B (zh) | 一种仿冒网站检测方法、装置、电子设备及存储介质 | |
CN112990792B (zh) | 一种侵权风险自动化检测方法、装置和电子设备 | |
Hu et al. | Fast source camera identification using matching signs between query and reference fingerprints | |
CN112116585B (zh) | 图像移除篡改盲检测方法、***、设备及存储介质 | |
Vellasques et al. | Gaussian mixture modeling for dynamic particle swarm optimization of recurrent problems | |
CN116432210A (zh) | 一种基于安全保护的档案管理方法和*** | |
CN116824138A (zh) | 基于点击点影响增强的交互式图像分割方法及设备 | |
CN114494999B (zh) | 一种双分支联合型目标密集预测方法及*** | |
CN115601629A (zh) | 模型训练方法、图像识别方法、介质、装置和计算设备 | |
WO2021193931A1 (ja) | 機械学習装置、学習モデルの生成方法及びプログラム | |
CN114972956A (zh) | 一种目标检测模型训练方法、装置、设备及存储介质 | |
CN114528552A (zh) | 基于漏洞的安全事件关联方法及相关设备 | |
CN105824871A (zh) | 一种图片检测方法与设备 | |
CN111368624A (zh) | 基于生成对抗网络的回环检测方法和装置 | |
CN117596054B (zh) | 一种基于动态网络信息安全的网络安全方法及*** | |
CN114329456B (zh) | 网页后门检测方法、装置及设备 | |
CN116547686A (zh) | 创建用于检测数据收集正当性的目标模型 | |
US20220392189A1 (en) | Data collection for object detectors | |
CN117668338A (zh) | 一种基于机器学习的面向地图切片服务的爬虫行为检测方法 | |
Muthusundari et al. | Image Source Identification Algorithm based on DCT for Social Network Provenance |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |