CN107403251A - 风险检测方法及装置 - Google Patents

风险检测方法及装置 Download PDF

Info

Publication number
CN107403251A
CN107403251A CN201610342117.7A CN201610342117A CN107403251A CN 107403251 A CN107403251 A CN 107403251A CN 201610342117 A CN201610342117 A CN 201610342117A CN 107403251 A CN107403251 A CN 107403251A
Authority
CN
China
Prior art keywords
risk
page
class
webpages
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610342117.7A
Other languages
English (en)
Inventor
陈冬白
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610342117.7A priority Critical patent/CN107403251A/zh
Publication of CN107403251A publication Critical patent/CN107403251A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了风险检测方法及装置,该方法包括:获取待检测网站包括的一个或多个网页的页面信息;根据所述一个或多个网页的页面信息计算设定风险类型的一个或多个网页的页面风险度;根据所述一个或多个网页的页面风险度计算网站风险度。因此,本申请可以由各个网页的页面风险度计算网站风险度,提高了风险检测的准确度,还能通过网站风险度获知整个网站的违法违禁情况,从而提高了网站的信息安全程度。

Description

风险检测方法及装置
技术领域
本申请涉及互联网技术领域,尤其涉及风险检测方法及装置。
背景技术
随着互联网技术的不断发展,对网站违法违禁信息的监管需求日益明显。
现有技术中,可以针对单个网页的内容进行风险分析,得到该网页的风险分析结果。
但是,单个网页的风险分析结果不能确定整个网站的违法违禁情况,并且单个网页的风险分析结果准确度还不高。
发明内容
本申请提供风险检测方法及装置,以解决现有技术中单个网页的风险分析结果不能确定整个网站的违法违禁情况,并且单个网页的风险分析结果准确度还不高的问题。
根据本申请实施例的第一方面,提供一种风险检测方法,所述方法包括:
获取待检测网站包括的一个或多个网页的页面信息;
根据所述一个或多个网页的页面信息计算设定风险类型的一个或多个网页的页面风险度;
根据所述一个或多个网页的页面风险度计算网站风险度。
根据本申请实施例的第二方面,提供一种风险检测装置,所述装置包括:
获取单元,用于获取待检测网站包括的一个或多个网页的页面信息;
第一计算单元,用于根据所述一个或多个网页的页面信息计算设定风险类型的一个或多个网页的页面风险度;
第二计算单元,用于根据所述一个或多个网页的页面风险度计算网站风险度。
根据本申请实施例的第三方面,提供一种风险检测装置,所述装置包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取待检测网站包括的一个或多个网页的页面信息;
根据所述一个或多个网页的页面信息计算设定风险类型的一个或多个网页的页面风险度;
根据所述一个或多个网页的页面风险度计算网站风险度。
应用本申请实施例,通过获取待检测网站包括的一个或多个网页的页面信息,根据该一个或多个网页的页面信息计算设定风险类型的一个或多个网页的页面风险度,并根据该一个或多个网页的页面风险度计算网站风险度,使得风险检测设备可以由各个网页的页面风险度计算网站风险度,提高了风险检测的准确度,还能通过网站风险度获知整个网站的违法违禁情况,从而提高了网站的信息安全程度。
附图说明
图1为本申请实施例的风险检测场景示意图;
图2为本申请风险检测方法的一个实施例流程图;
图3为本申请风险检测装置所在设备的一种硬件结构图;
图4为本申请风险检测装置的一个实施例框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
参见图1,为本申请实施例的风险检测场景示意图:
图1场景中包括:用户和风险检测设备。其中,风险检测设备可以为互联网服务器。
为了检测网站的违法违禁情况,互联网服务器会根据待检测网站包括的各个网页的页面风险度计算各个设定风险类型的网站风险度,若检测到至少一个设定风险类型的网站风险度大于预设的网站风险度阈值时,表明此时网站出现了违法违禁情况,需要报警,以及对该违法违禁情况进行及时处理。
其中,待检测网站可以是用户当前需要登录的网站,比如:www.test.com。
设定风险类型可以指的是网站风险对应的类型。比如:设定风险类型可以为赌博、涉政、色情、暴恐等类型中的一种。
页面风险度可以指的是单个网页中的风险度,该页面风险度可以为页面中的待检测信息与样本库中的各个样本之间的最大相似度。
网站风险度可以指的是整个网站的风险度,该网站风险度取决于待检测网站中各个网页的页面风险度。并且,网站风险度越高,表明该网站的违法违禁情况越严重,当超过预设的网站风险度阈值,就需要报警了。
下面对本申请实施例进行详细说明。
参见图2,为本申请风险检测方法的一个实施例的流程图,该方法可以应用于风险检测设备。其中,风险检测设备可以为互联网服务器。
该方法可以包括以下步骤:
步骤210:获取待检测网站包括的一个或多个网页的页面信息。
本申请实施例中,待检测网站可以是用户当前需要登录的网站,比如:www.test.com。
在一个例子中,执行步骤210时可以通过爬虫技术获取待检测网站包括的一个或多个网页的页面信息,根域名等级和页面浏览量(page view,PV)值对待检测网站包括的一个或多个网页的页面信息进行排序。
步骤220:根据待检测网站包括的一个或多个网页的页面信息计算设定风险类型的一个或多个网页的页面风险度。
本申请实施例中,设定风险类型可以指的是网站风险对应的类型。比如:设定风险类型可以为赌博、涉政、色情、暴恐等类型中的一种。
页面风险度可以指的是单个网页中的风险度,该页面风险度可以为页面中的待检测信息与样本库中的各个样本之间的最大相似度,包括:
(1)从第一网页的页面信息中提取出待检测信息,该第一网页用于表征待检测网站包括的一个或多个网页中任一网页,该待检测信息包括文本信息和/或图片信息。
本申请实施例中,当检测到第一网页的页面信息中包括视频信息时,则根据设定处理规则将视频信息处理成图片信息,该设定处理规则为将视频拆成帧,并每隔设定时间截取一帧图片。
(2)计算待检测信息与设定风险类型的样本库中的各个样本的相似度。
(3)从各个相似度中选取最大值,该最大值为设定风险类型的第一网页的页面风险度。
步骤230:根据设定风险类型的一个或多个网页的页面风险度计算网站风险度。
本申请实施例中,网站风险度可以指的是整个网站的风险度,该网站风险度取决于待检测网站中各个网页的页面风险度。并且,网站风险度越高,表明该网站的违法违禁情况越严重,当超过预设的网站风险度阈值,就需要报警了。
在一个例子中,执行步骤230时,可以包括:
(1)根据域名等级对待检测网站包括的一个或多个网页的页面风险度进行分类,相同域名等级的页面风险度归为同一类。
比如:待检测网站:www.test.com;预设的网页风险度阈值为90。
爬取www.test.com下的页面并通过设定风险类型的样本库计算单张页面风险度,以下格式为:网页地址:该网页风险度,详细如下:
www.test.com:80,www.test.com/1.htm:95,www.test.com/2.htm:90,a.test.com:93,a.test.com/1.htm:20,a.test.com/2.htm:40,
a.a1.test.com 30,a.a1.test.com/1.htm:80,a.a1.test.com/2.htm:10,
b.test.com:20,b.test.com/1.htm:95,b.test.com/2.htm:90,
b.b1.test.com:50,b.b1.test.com/1.htm:85,b.b1.test.com/2.htm:70。
对上述网页按照域名等级进行分类,详细如下:
域名级页面:www.test.com:80,
a.test.com:93,
b.test.com:20,
a.a1.test.com 30,
b.b1.test.com:50。
一级域名页面:www.test.com/1.htm:95,
www.test.com/2.htm:90。
二级域名页面:a.test.com/1.htm:20,
a.test.com/2.htm:40,
b.test.com/1.htm:95,
b.test.com/2.htm:90。
三级域名页面:a.a1.test.com/1.htm:80,
a.a1.test.com/2.htm:10,
b.b1.test.com/1.htm:85,
b.b1.test.com/2.htm:70。
(2)计算第一类的页面风险度和风险权重,该第一类用于表征域名级页面类型。
本申请实施例中,可以从第一类的各个页面风险度中选取最大值,该最大值为第一类的页面风险度。
判断第一类的页面风险度是否小于预设的第一页面风险度阈值;若是,则将第一类的页面风险度设置为第一设定权重值,比如:35%;若否,则将第一类的页面风险度设置为第二设定权重值,比如:95%,第二设定权重值大于所述第一设定权重值。其中,第一设定权重值可以为35%,第二设定权重值可以为95%。
比如:域名级页面:www.test.com:80,
a.test.com:93,
b.test.com:20,
a.a1.test.com 30,
b.b1.test.com:50。
由于网页a.test.com的页面风险度93为最大值,且大于预设的网页风险度阈值90,此时可以将页面风险度93作为域名级页面的页面风险度,并且域名级页面的页面风险度设置为第二设定权重值95%。
(3)计算第二类的页面风险度和风险权重,该第二类用于表征各级域名页面类型中任一种。
本申请实施例中,可以从第二类的各个页面风险度中选取最大值;
判断最大值是否小于预设的第二页面风险度阈值;若是,则计算第二类中各个页面风险度的平均值,该平均值为所述第二类的页面风险度;若否,则最大值为第二类的页面风险度。
根据第一类的风险权重确定第二类的风险权重,该第二类的风险权重小于第一类的风险权重。
比如:一级域名页面:www.test.com/1.htm:95,
www.test.com/2.htm:90。
由于网页www.test.com/1.htm的页面风险度95为最大值,且大于预设的网页风险度阈值90,此时可以将页面风险度95作为一级域名页面的页面风险度。
又比如:二级域名页面:a.test.com/1.htm:20,
a.test.com/2.htm:40,
b.test.com/1.htm:95,
b.test.com/2.htm:90。
由于网页b.test.com/1.htm的页面风险度95为最大值,且大于预设的网页风险度阈值90,此时可以将页面风险度95作为二级域名页面的页面风险度。
又比如:三级域名页面:a.a1.test.com/1.htm:80,
a.a1.test.com/2.htm:10,b.b1.test.com/1.htm:85,b.b1.test.com/2.htm:70。
由于所有网页的页面风险度皆小于预设的网页风险度阈值90,此时可以计算三级域名页面中各个页面风险度的平均值(即(80+10+85+70)/4),该平均值为三级域名页面的页面风险度。
另外,在根据第一类的风险权重确定第二类的风险权重时,可以根据第一类的风险权重、第二类的域名等级、以及待检测网站的域名等级深度计算第二类的风险权重,第二类的风险权重小于第一类的风险权重,且与域名等级深度成反比。其计算公式如公式(1)所示:
第二类的风险权重=(n-x+1)/{n+(n-1)+(n-2)+…+1}×(1-第一类的风险权重)…………………………………………………………………………公式(1)
其中,n为待检测网站的域名等级深度,x为第二类的域名等级。
比如:待检测网站为www.test.com。该待检测网站包括以下网页:
域名级页面:www.test.com:80,
a.test.com:93,
b.test.com:20,
a.a1.test.com 30,
b.b1.test.com:50。
一级域名页面:www.test.com/1.htm:95,
www.test.com/2.htm:90。
二级域名页面:a.test.com/1.htm:20,
a.test.com/2.htm:40,
b.test.com/1.htm:95,
b.test.com/2.htm:90。
三级域名页面:a.a1.test.com/1.htm:80,
a.a1.test.com/2.htm:10,
b.b1.test.com/1.htm:85,
b.b1.test.com/2.htm:70。
上述待检测网站的域名等级深度为3,域名级页面的页面风险度为95%,则:
一级域名页面的风险权重为:(3-1+1)/{3+(3-1)+1}×(1-95%)。
二级域名页面的风险权重为:(3-2+1)/{3+(3-1)+(3-2)+1}×(1-95%)。
三级域名页面的风险权重为:(3-3+1)/{3+(3-1)+(3-2)+1}×(1-95%)。
(4)根据第一类的页面风险度和风险权重、以及各个第二类的页面风险度和风险权重计算网站风险度。
本申请实施例中,计算网站风险度的规则为:域名级页面风险度×域名级页面风险权重+一级域名页面对应页面风险度×一级域名页面对应页面风险权重+二级域名页面对应页面风险度×二级域名页面级域名对应页面风险权重+…+n级域名对应页面风险度×n级域名对应页面风险权重。
比如:待检测网站为www.test.com,预设的网页风险度阈值为90。
该网站的设定风险类型的网站风险度为:
93×95%+95×(3-1+1)/{3+(3-1)+1}×(1-95%)+95×(3-2+1)/{3+(3-1)+(3-2)+1}×(1-95%)+{(80+10+85+70)/4}×(3-3+1)/{3+(3-1)+(3-2)+1}×(1-95%)=88.35+2.38+1.58+0.51=92.82。
由上述实施例可见,通过获取待检测网站包括的一个或多个网页的页面信息,根据该一个或多个网页的页面信息计算设定风险类型的一个或多个网页的页面风险度,并根据该一个或多个网页的页面风险度计算网站风险度,使得风险检测设备可以由各个网页的页面风险度计算网站风险度,提高了风险检测的准确度,还能通过网站风险度获知整个网站的违法违禁情况,从而提高了网站的信息安全程度。
在一个例子中,该风险检测方法还可以包括:
当检测到网站风险度大于预设的网站风险度阈值时,则输出报警信息。
本申请实施例中,可以设置至少一种设定风险类型的样本库,当检测到至少一种设定风险类型对应的网站风险度大于预设的网站风险度阈值时,则输出报警信息。
比如:设置有9种设定风险类型,每种设定风险类型对应一个网址风险度,当其中一个或多个网站风险度大于预设的网站风险度阈值时,则输出报警信息。
由上述实施例可见,若待检测网站的风险达到一定阈值时,可以报警,从而进一步提高了网站的信息安全程度。
与本申请风险检测方法的实施例相对应,本申请还提供了风险检测装置的实施例。
本申请风险检测装置的实施例可以应用在风险检测设备上,比如:互联网服务器。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图3所示,为本申请风险检测装置所在设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的设备通常根据该设备的实际功能,还可以包括其他硬件,如对于终端来说,可能包括摄像头、触摸屏子、通信组件等,对于服务器来说,可能包括负责处理报文的转发芯片等等。
参见图4,为本申请风险检测装置的一个实施例框图,该风险检测装置可以应用在风险检测设备上,比如:互联网服务器,并可以用于执行图2所示的风险检测方法,该装置可以包括:获取单元41、第一计算单元42和第二计算单元43。
获取单元41,用于获取待检测网站包括的一个或多个网页的页面信息;
第一计算单元42,用于根据所述一个或多个网页的页面信息计算设定风险类型的一个或多个网页的页面风险度;
第二计算单元43,用于根据所述一个或多个网页的页面风险度计算网站风险度。
在一个可选的实现方式中:所述获取单元41可以包括:获取子单元和排序子单元(图4中未标出)。
所述获取单元包括:
获取子单元,用于通过爬虫技术获取所述一个或多个网页的页面信息;
排序子单元,用于根据域名等级和页面浏览量PV值对所述一个或多个网页的页面信息进行排序。
在另一个可选的实现方式中:所述第一计算单元42可以包括提取子单元、计算子单元和选取子单元(图4中未标出)。
提取子单元,用于从第一网页的页面信息中提取出待检测信息,所述第一网页用于表征所述一个或多个网页中任一网页,所述待检测信息包括文本信息和/或图片信息;
计算子单元,用于计算所述待检测信息与设定风险类型的样本库中的各个样本的相似度;
选取子单元,用于从各个所述相似度中选取最大值,所述最大值为所述设定风险类型的第一网页的页面风险度。
在另一个可选的实现方式中:所述提取子单元可以包括视频处理模块(图4中未标出)。
视频处理模块,用于当检测到所述第一网页的页面信息中包括视频信息时,则根据设定处理规则将所述视频信息处理成图片信息,所述设定处理规则为将视频拆成帧,并每隔设定时间截取一帧图片。
在另一个可选的实现方式中:所述第二计算单元43可以包括分类子单元、第一计算子单元、第二计算子单元和第三计算子单元(图4中未标出)。
分类子单元,用于根据域名等级对所述一个或多个网页的页面风险度进行分类,相同域名等级的页面风险度归为同一类;
第一计算子单元,用于计算第一类的页面风险度和风险权重,所述第一类用于表征域名级页面类型;
第二计算子单元,用于计算第二类的页面风险度和风险权重,所述第二类用于表征各级域名页面类型中任一种;
第三计算子单元,用于根据所述第一类的页面风险度和风险权重、以及各个所述第二类的页面风险度和风险权重计算所述网站风险度。
在另一个可选的实现方式中:所述第一计算子单元可以包括第一选取模块和第一处理模块(图4中未标出)。
第一选取模块,用于从所述第一类的各个页面风险度中选取最大值,所述最大值为所述第一类的页面风险度;
第一处理模块,用于判断所述第一类的页面风险度是否小于预设的第一页面风险度阈值;若是,则将所述第一类的页面风险度设置为第一设定权重值;若否,则将所述第一类的页面风险度设置为第二设定权重值,所述第二设定权重值大于所述第一设定权重值。
在另一个可选的实现方式中:所述第二计算子单元可以包括第二选取模块、第二处理模块和确定模块(图4中未标出)。
第二选取模块,用于从所述第二类的各个页面风险度中选取最大值;
第二处理模块,用于判断所述最大值是否小于预设的第二页面风险度阈值;若是,则计算所述第二类中各个页面风险度的平均值,所述平均值为所述第二类的页面风险度;若否,则所述最大值为所述第二类的页面风险度;
确定模块,用于根据所述第一类的风险权重确定所述第二类的风险权重,所述第二类的风险权重小于所述第一类的风险权重。
在另一个可选的实现方式中:所述确定模块可以包括确定子模块(图4中未标出)。
确定子模块,用于根据所述第一类的风险权重、所述第二类的域名等级、以及所述待检测网站的域名等级深度计算所述第二类的风险权重,所述第二类的风险权重小于所述第一类的风险权重,且与所述域名等级深度成反比。
在另一个可选的实现方式中:所述装置还包括:设置单元(图4中未标出)。
设置单元,用于设置至少一种设定风险类型的样本库。
在另一个可选的实现方式中:所述装置还包括:报警单元(图4中未标出)。
报警单元,用于当检测到所述网站风险度大于预设的网站风险度阈值时,则输出报警信息。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本请求方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
与图4相对应,本申请实施例还提供了一种风险检测装置,所述装置包括:
处理器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取待检测网站包括的一个或多个网页的页面信息;
根据所述一个或多个网页的页面信息计算设定风险类型的一个或多个网页的页面风险度;
根据所述一个或多个网页的页面风险度计算网站风险度。
由上述实施例可见,通过获取待检测网站包括的一个或多个网页的页面信息,根据该一个或多个网页的页面信息计算设定风险类型的一个或多个网页的页面风险度,并根据该一个或多个网页的页面风险度计算网站风险度,使得风险检测设备可以由各个网页的页面风险度计算网站风险度,提高了风险检测的准确度,还能通过网站风险度获知整个网站的违法违禁情况,从而提高了网站的信息安全程度。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (21)

1.一种风险检测方法,其特征在于,所述方法包括:
获取待检测网站包括的一个或多个网页的页面信息;
根据所述一个或多个网页的页面信息计算设定风险类型的一个或多个网页的页面风险度;
根据所述一个或多个网页的页面风险度计算网站风险度。
2.根据权利要求1所述的方法,其特征在于,所述获取待检测网站包括的一个或多个网页的页面信息,包括:
通过爬虫技术获取所述一个或多个网页的页面信息;
根据域名等级和页面浏览量PV值对所述一个或多个网页的页面信息进行排序。
3.根据权利要求1所述的方法,其特征在于,所述根据所述一个或多个网页的页面信息计算设定风险类型的一个或多个网页的页面风险度,包括:
从第一网页的页面信息中提取出待检测信息,所述第一网页用于表征所述一个或多个网页中任一网页,所述待检测信息包括文本信息和/或图片信息;
计算所述待检测信息与设定风险类型的样本库中的各个样本的相似度;
从各个所述相似度中选取最大值,所述最大值为所述设定风险类型的第一网页的页面风险度。
4.根据权利要求3所述的方法,其特征在于,所述从第一网页的页面信息中提取出待匹配信息,包括:
当检测到所述第一网页的页面信息中包括视频信息时,则根据设定处理规则将所述视频信息处理成图片信息,所述设定处理规则为将视频拆成帧,并每隔设定时间截取一帧图片。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述根据所述一个或多个网页的页面风险度计算网站风险度,包括:
根据域名等级对所述一个或多个网页的页面风险度进行分类,相同域名等级的页面风险度归为同一类;
计算第一类的页面风险度和风险权重,所述第一类用于表征域名级页面类型;
计算第二类的页面风险度和风险权重,所述第二类用于表征各级域名页面类型中任一种;
根据所述第一类的页面风险度和风险权重、以及各个所述第二类的页面风险度和风险权重计算所述网站风险度。
6.根据权利要求5所述的方法,其特征在于,所述计算第一类的页面风险度和风险权重,包括:
从所述第一类的各个页面风险度中选取最大值,所述最大值为所述第一类的页面风险度;
判断所述第一类的页面风险度是否小于预设的第一页面风险度阈值;若是,则将所述第一类的页面风险度设置为第一设定权重值;若否,则将所述第一类的页面风险度设置为第二设定权重值,所述第二设定权重值大于所述第一设定权重值。
7.根据权利要求6所述的方法,其特征在于,所述计算第二类的页面风险度和风险权重,包括:
从所述第二类的各个页面风险度中选取最大值;
判断所述最大值是否小于预设的第二页面风险度阈值;若是,则计算所述第二类中各个页面风险度的平均值,所述平均值为所述第二类的页面风险度;若否,则所述最大值为所述第二类的页面风险度;
根据所述第一类的风险权重确定所述第二类的风险权重,所述第二类的风险权重小于所述第一类的风险权重。
8.根据权利要求7所述的方法,其特征在于,所述根据所述第一类的风险权重确定所述第二类的风险权重,包括:
根据所述第一类的风险权重、所述第二类的域名等级、以及所述待检测网站的域名等级深度计算所述第二类的风险权重,所述第二类的风险权重小于所述第一类的风险权重,且与所述域名等级深度成反比。
9.根据权利要求3所述的方法,其特征在于,所述方法还包括:
设置至少一种设定风险类型的样本库。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当检测到所述网站风险度大于预设的网站风险度阈值时,则输出报警信息。
11.一种风险检测装置,其特征在于,所述装置包括:
获取单元,用于获取待检测网站包括的一个或多个网页的页面信息;
第一计算单元,用于根据所述一个或多个网页的页面信息计算设定风险类型的一个或多个网页的页面风险度;
第二计算单元,用于根据所述一个或多个网页的页面风险度计算网站风险度。
12.根据权利要求11所述的装置,其特征在于,所述获取单元包括:
获取子单元,用于通过爬虫技术获取所述一个或多个网页的页面信息;
排序子单元,用于根据域名等级和页面浏览量PV值对所述一个或多个网页的页面信息进行排序。
13.根据权利要求11所述的装置,其特征在于,所述第一计算单元包括:
提取子单元,用于从第一网页的页面信息中提取出待检测信息,所述第一网页用于表征所述一个或多个网页中任一网页,所述待检测信息包括文本信息和/或图片信息;
计算子单元,用于计算所述待检测信息与设定风险类型的样本库中的各个样本的相似度;
选取子单元,用于从各个所述相似度中选取最大值,所述最大值为所述设定风险类型的第一网页的页面风险度。
14.根据权利要求13所述的装置,其特征在于,所述提取子单元包括:
视频处理模块,用于当检测到所述第一网页的页面信息中包括视频信息时,则根据设定处理规则将所述视频信息处理成图片信息,所述设定处理规则为将视频拆成帧,并每隔设定时间截取一帧图片。
15.根据权利要求11至14任一项所述的装置,其特征在于,所述第二计算单元包括:
分类子单元,用于根据域名等级对所述一个或多个网页的页面风险度进行分类,相同域名等级的页面风险度归为同一类;
第一计算子单元,用于计算第一类的页面风险度和风险权重,所述第一类用于表征域名级页面类型;
第二计算子单元,用于计算第二类的页面风险度和风险权重,所述第二类用于表征各级域名页面类型中任一种;
第三计算子单元,用于根据所述第一类的页面风险度和风险权重、以及各个所述第二类的页面风险度和风险权重计算所述网站风险度。
16.根据权利要求15所述的装置,其特征在于,所述第一计算子单元包括:
第一选取模块,用于从所述第一类的各个页面风险度中选取最大值,所述最大值为所述第一类的页面风险度;
第一处理模块,用于判断所述第一类的页面风险度是否小于预设的第一页面风险度阈值;若是,则将所述第一类的页面风险度设置为第一设定权重值;若否,则将所述第一类的页面风险度设置为第二设定权重值,所述第二设定权重值大于所述第一设定权重值。
17.根据权利要求16所述的装置,其特征在于,所述第二计算子单元包括:
第二选取模块,用于从所述第二类的各个页面风险度中选取最大值;
第二处理模块,用于判断所述最大值是否小于预设的第二页面风险度阈值;若是,则计算所述第二类中各个页面风险度的平均值,所述平均值为所述第二类的页面风险度;若否,则所述最大值为所述第二类的页面风险度;
确定模块,用于根据所述第一类的风险权重确定所述第二类的风险权重,所述第二类的风险权重小于所述第一类的风险权重。
18.根据权利要求17所述的装置,其特征在于,所述确定模块包括:
确定子模块,用于根据所述第一类的风险权重、所述第二类的域名等级、以及所述待检测网站的域名等级深度计算所述第二类的风险权重,所述第二类的风险权重小于所述第一类的风险权重,且与所述域名等级深度成反比。
19.根据权利要求13所述的装置,其特征在于,所述装置还包括:
设置单元,用于设置至少一种设定风险类型的样本库。
20.根据权利要求11所述的装置,其特征在于,所述装置还包括:
报警单元,用于当检测到所述网站风险度大于预设的网站风险度阈值时,则输出报警信息。
21.一种风险检测装置,其特征在于,所述装置包括:
处理器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取待检测网站包括的一个或多个网页的页面信息;
根据所述一个或多个网页的页面信息计算设定风险类型的一个或多个网页的页面风险度;
根据所述一个或多个网页的页面风险度计算网站风险度。
CN201610342117.7A 2016-05-20 2016-05-20 风险检测方法及装置 Pending CN107403251A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610342117.7A CN107403251A (zh) 2016-05-20 2016-05-20 风险检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610342117.7A CN107403251A (zh) 2016-05-20 2016-05-20 风险检测方法及装置

Publications (1)

Publication Number Publication Date
CN107403251A true CN107403251A (zh) 2017-11-28

Family

ID=60389172

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610342117.7A Pending CN107403251A (zh) 2016-05-20 2016-05-20 风险检测方法及装置

Country Status (1)

Country Link
CN (1) CN107403251A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108809928A (zh) * 2018-03-30 2018-11-13 小安(北京)科技有限公司 一种网络资产风险画像方法及装置
CN109492401A (zh) * 2018-09-30 2019-03-19 阿里巴巴集团控股有限公司 一种内容载体风险检测方法、装置、设备及介质
CN109639637A (zh) * 2018-11-06 2019-04-16 阿里巴巴集团控股有限公司 一种内容检测方法、装置及电子设备
CN110659807A (zh) * 2019-08-29 2020-01-07 苏宁云计算有限公司 一种基于链路的风险用户识别方法及装置
CN112015946A (zh) * 2019-05-30 2020-12-01 ***通信集团重庆有限公司 视频检测方法、装置、计算设备及计算机存储介质
CN112039885A (zh) * 2020-08-31 2020-12-04 绿盟科技集团股份有限公司 一种网站风险评估方法及装置
CN112990792A (zh) * 2021-05-11 2021-06-18 北京智源人工智能研究院 一种侵权风险自动化检测方法、装置和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101500000A (zh) * 2008-01-30 2009-08-05 珠海金山软件股份有限公司 互联网网站的安全评估方法及其装置
US8561185B1 (en) * 2011-05-17 2013-10-15 Google Inc. Personally identifiable information detection
CN103685307A (zh) * 2013-12-25 2014-03-26 北京奇虎科技有限公司 基于特征库检测钓鱼欺诈网页的方法及***、客户端、服务器
CN103810425A (zh) * 2012-11-13 2014-05-21 腾讯科技(深圳)有限公司 恶意网址的检测方法及装置
CN105306462A (zh) * 2015-10-13 2016-02-03 郑州悉知信息科技股份有限公司 网页链接检测方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101500000A (zh) * 2008-01-30 2009-08-05 珠海金山软件股份有限公司 互联网网站的安全评估方法及其装置
US8561185B1 (en) * 2011-05-17 2013-10-15 Google Inc. Personally identifiable information detection
CN103810425A (zh) * 2012-11-13 2014-05-21 腾讯科技(深圳)有限公司 恶意网址的检测方法及装置
CN103685307A (zh) * 2013-12-25 2014-03-26 北京奇虎科技有限公司 基于特征库检测钓鱼欺诈网页的方法及***、客户端、服务器
CN105306462A (zh) * 2015-10-13 2016-02-03 郑州悉知信息科技股份有限公司 网页链接检测方法及装置

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108809928B (zh) * 2018-03-30 2021-02-12 小安(北京)科技有限公司 一种网络资产风险画像方法及装置
CN108809928A (zh) * 2018-03-30 2018-11-13 小安(北京)科技有限公司 一种网络资产风险画像方法及装置
CN109492401B (zh) * 2018-09-30 2022-04-08 创新先进技术有限公司 一种内容载体风险检测方法、装置、设备及介质
CN109492401A (zh) * 2018-09-30 2019-03-19 阿里巴巴集团控股有限公司 一种内容载体风险检测方法、装置、设备及介质
CN109639637A (zh) * 2018-11-06 2019-04-16 阿里巴巴集团控股有限公司 一种内容检测方法、装置及电子设备
CN109639637B (zh) * 2018-11-06 2022-04-19 创新先进技术有限公司 一种内容检测方法、装置及电子设备
CN112015946A (zh) * 2019-05-30 2020-12-01 ***通信集团重庆有限公司 视频检测方法、装置、计算设备及计算机存储介质
CN112015946B (zh) * 2019-05-30 2023-11-10 ***通信集团重庆有限公司 视频检测方法、装置、计算设备及计算机存储介质
CN110659807A (zh) * 2019-08-29 2020-01-07 苏宁云计算有限公司 一种基于链路的风险用户识别方法及装置
CN110659807B (zh) * 2019-08-29 2022-08-26 苏宁云计算有限公司 一种基于链路的风险用户识别方法及装置
CN112039885A (zh) * 2020-08-31 2020-12-04 绿盟科技集团股份有限公司 一种网站风险评估方法及装置
CN112039885B (zh) * 2020-08-31 2022-09-02 绿盟科技集团股份有限公司 一种网站风险评估方法及装置
CN112990792A (zh) * 2021-05-11 2021-06-18 北京智源人工智能研究院 一种侵权风险自动化检测方法、装置和电子设备
CN112990792B (zh) * 2021-05-11 2021-08-31 北京智源人工智能研究院 一种侵权风险自动化检测方法、装置和电子设备

Similar Documents

Publication Publication Date Title
CN107403251A (zh) 风险检测方法及装置
CN110275958B (zh) 网站信息识别方法、装置和电子设备
CN104391979B (zh) 网络恶意爬虫识别方法及装置
CN108092962A (zh) 一种恶意url检测方法及装置
CN107659570A (zh) 基于机器学习与动静态分析的Webshell检测方法及***
CN104143008B (zh) 基于图片匹配检测钓鱼网页的方法及装置
TWI723476B (zh) 異常檢測的解釋特徵確定方法、裝置和設備
CN105991511A (zh) 一种检测cc攻击的方法及设备
CN106888211A (zh) 一种网络攻击的检测方法及装置
KR20140101697A (ko) 애플리케이션 스토어와 관련된 허위 등급들/코멘트들의 자동 검출
CN107392016A (zh) 一种基于代理的Web数据库攻击行为检测***
CN108009425A (zh) 文件检测及威胁等级判定方法、装置及***
CN103618744B (zh) 一种基于快速knn算法的入侵检测方法
CN107992738A (zh) 一种账号登录异常检测方法、装置及电子设备
CN111143654B (zh) 辅助识别爬虫的、爬虫识别方法、装置及电子设备
CN107944274A (zh) 一种基于宽度学***台恶意应用离线检测方法
Rizzo et al. Unveiling web fingerprinting in the wild via code mining and machine learning
CN109582844A (zh) 一种识别爬虫的方法、装置及***
CN104202291A (zh) 基于多因素综合评定方法的反钓鱼方法
CN109905396A (zh) 一种WebShell文件检测方法、装置及电子设备
CN106022132A (zh) 一种基于动态内容分析的网页木马实时检测方法
CN104901962B (zh) 一种网页攻击数据的检测方法及装置
CN106657160A (zh) 面向大流量基于可信度的网络恶意行为检测方法
CN108156165A (zh) 一种误报检测的方法以及***
CN109104421A (zh) 一种网站内容篡改检测方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171128