CN110020354B - 点击热力图异常检测方法及装置 - Google Patents

点击热力图异常检测方法及装置 Download PDF

Info

Publication number
CN110020354B
CN110020354B CN201710915326.0A CN201710915326A CN110020354B CN 110020354 B CN110020354 B CN 110020354B CN 201710915326 A CN201710915326 A CN 201710915326A CN 110020354 B CN110020354 B CN 110020354B
Authority
CN
China
Prior art keywords
click
source
area
thermodynamic diagram
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710915326.0A
Other languages
English (en)
Other versions
CN110020354A (zh
Inventor
刘振华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201710915326.0A priority Critical patent/CN110020354B/zh
Priority to PCT/CN2018/101478 priority patent/WO2019062382A1/zh
Priority to US16/641,941 priority patent/US11237938B2/en
Publication of CN110020354A publication Critical patent/CN110020354A/zh
Application granted granted Critical
Publication of CN110020354B publication Critical patent/CN110020354B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3438Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种点击热力图异常检测方法及装置,可以获得第一点击热力图,将所述第一点击热力图分割为多个区域;对所述多个区域中每个区域:分别确定各点击来源对应的点击行为发生在该区域中的点击概率;对每个点击来源:根据所述点击概率确定该点击来源对应的异常点击区域。本发明根据各区域中各点击来源对应的点击行为发生在该区域中的点击概率确定异常点击区域,无需通过人工识别,准确性和识别效率较高。

Description

点击热力图异常检测方法及装置
技术领域
本发明涉及流量作弊检测领域,尤其涉及点击热力图异常检测方法及装置。
背景技术
随着互联网的发展,用户更多的通过电子设备浏览各种网站的网页或应用程序的界面。通过购买广告可以为广告购买方带来更多的互联网流量,从而使得更多的用户浏览和点击广告购买方网站的网页或应用程序的界面。但流量作弊行为长期损害着广告购买方的正当权益,例如一些刷流量的软件会自动且大量的访问广告购买方的网站并进行大量点击操作,这些点击操作没有为广告购买方带来收益,但广告购买方却需要为之付费。
由于点击热力图可以很好的体现网站的网页或应用程序的界面中的点击情况,因此可以根据点击热力图确定异常点击行为从而识别异常流量。现有技术通过人工对点击热力图中的异常点击行为进行识别,准确性和识别效率较低。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的点击热力图异常检测方法及装置,方案如下:
一种点击热力图异常检测方法,包括:
获得第一点击热力图,将所述第一点击热力图分割为多个区域;
对所述多个区域中每个区域:分别确定各点击来源对应的点击行为发生在该区域中的点击概率;
对每个点击来源:根据所述点击概率确定该点击来源对应的异常点击区域,其中,所述异常点击区域为所述多个区域中的至少一个区域。
可选的,所述将所述第一点击热力图分割为多个区域,包括:
将所述第一点击热力图平均分割为row×col个矩形区域,其中,row为所述第一点击热力图中所述矩形区域的行数,col为所述第一点击热力图中所述矩形区域的列数。
可选的,所述对每个点击来源:根据所述点击概率确定该点击来源对应的异常点击区域,包括:
对每一个点击来源P:
确定该点击来源P相对于其他点击来源
Figure BDA0001425724580000021
的第一相对熵D1,
Figure BDA0001425724580000022
其中,i为矩形区域的行编号,j为矩形区域的列编号,di,j为区域异常标识,pi,j为点击来源P在第i行第j列的矩形区域的点击概率,
Figure BDA0001425724580000023
为除点击来源P外的其他点击来源
Figure BDA0001425724580000024
在第i行第j列的矩形区域的点击概率,di,j为0或1;
在D1小于第一预设阈值的情况下,确定在∑di,j的取值最大时的各di,j
在∑di,j的取值最大时的各di,j中取值为0的di,j对应的矩形区域确定为异常点击区域。
可选的,所述对每个点击来源:根据所述点击概率确定该点击来源对应的异常点击区域,包括:
确定各点击来源相对于其他点击来源的第二相对熵的和H最小时的各点击来源对应的各di,j
Figure BDA0001425724580000025
其中,i为矩形区域的行编号,j为矩形区域的列编号,di,j为区域异常标识,pi,j为点击来源P在第i行第j列的矩形区域的点击概率,
Figure BDA0001425724580000026
为除点击来源P外的其他点击来源
Figure BDA0001425724580000027
在第i行第j列的矩形区域的点击概率,di,j为0或1,δ为惩罚系数,b为基准点击概率,b=1/(row×col);
对每一个点击来源:将该点击来源对应的各di,j中取值为0的di,j对应的矩形区域确定为异常点击区域。
可选的,所述对每个点击来源:根据所述点击概率确定该点击来源对应的异常点击区域,包括:
对每个矩形区域:确定该矩形区域对应的各点击来源间的点击概率之比的最大值;
将大于第二预设阈值的所述最大值对应的矩形区域确定为异常点击区域,其中,所述第二预设阈值大于1。
一种点击热力图异常检测装置,包括:热力图获得单元、概率确定单元和区域确定单元,
所述热力图获得单元,用于获得第一点击热力图,将所述第一点击热力图分割为多个区域;
所述概率确定单元,用于对所述多个区域中每个区域:分别确定各点击来源对应的点击行为发生在该区域中的点击概率;
所述区域确定单元,用于对每个点击来源:根据所述点击概率确定该点击来源对应的异常点击区域,其中,所述异常点击区域为所述多个区域中的至少一个区域。
可选的,所述热力图获得单元具体设置为:
将所述第一点击热力图平均分割为row×col个矩形区域,其中,row为所述第一点击热力图中所述矩形区域的行数,col为所述第一点击热力图中所述矩形区域的列数。
可选的,所述区域确定单元具体设置为:
对每一个点击来源P:
确定该点击来源P相对于其他点击来源
Figure BDA0001425724580000031
的第一相对熵D1,
Figure BDA0001425724580000032
其中,i为矩形区域的行编号,j为矩形区域的列编号,di,j为区域异常标识,pi,j为点击来源P在第i行第j列的矩形区域的点击概率,
Figure BDA0001425724580000033
为除点击来源P外的其他点击来源
Figure BDA0001425724580000034
在第i行第j列的矩形区域的点击概率,di,j为0或1;
在D1小于第一预设阈值的情况下,确定在∑di,j的取值最大时的各di,j
在∑di,j的取值最大时的各di,j中取值为0的di,j对应的矩形区域确定为异常点击区域。
一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述的任一种点击热力图异常检测方法。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述的任一种点击热力图异常检测方法。
借由上述技术方案,本发明提供的点击热力图异常检测方法及装置,可以获得第一点击热力图,将所述第一点击热力图分割为多个区域;对所述多个区域中每个区域:分别确定各点击来源对应的点击行为发生在该区域中的点击概率;对每个点击来源:根据所述点击概率确定该点击来源对应的异常点击区域。本发明根据各区域中各点击来源对应的点击行为发生在该区域中的点击概率确定异常点击区域,无需通过人工识别,准确性和识别效率较高。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种点击热力图异常检测方法的流程图;
图2示出了本发明实施例提供的一种点击热力图异常检测装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本发明实施例提供的一种点击热力图异常检测方法,可以包括:
S100、获得第一点击热力图,将所述第一点击热力图分割为多个区域;
其中,步骤S100可以具体包括:
将所述第一点击热力图平均分割为row×col个矩形区域,其中,row为所述第一点击热力图中所述矩形区域的行数,col为所述第一点击热力图中所述矩形区域的列数。
在实际应用中,获得第一点击热力图的方式可以包括:
从终端设备中采集点击数据;
对采集的点击数据进行归一化处理;
根据归一化处理后的点击数据获得第一点击热力图。
具体的,本发明可以在终端设备中部署js代码,将访问者发出点击行为作为触发条件,当点击行为发生时,本发明部署的js代码将点击数据通过post请求发送至服务器中,这样就完成了从终端设备中采集点击数据的过程。
由于不同网页在不同分辨率、页面大小的情况下,网页元素位置可能发现较大的改变,因此本发明可以对点击数据进行归一化处理,以排除分辨率、页面大小给网页元素位置带来的改变。
具体的,本发明分割后得到的矩形区域中包含的像素点可以不超过100个,优选的,所述矩形区域为4像素×4像素的正方形区域。
在实际应用中,有的矩形区域中的点击数据可能较小,这会导致点击数据较为离散,因此本发明可以使用高速滤波对各矩形区域中的点击量进行平滑处理。
S200、对所述多个区域中每个区域:分别确定各点击来源对应的点击行为发生在该区域中的点击概率;
S300、对每个点击来源:根据所述点击概率确定该点击来源对应的异常点击区域,其中,所述异常点击区域为所述多个区域中的至少一个区域。
具体的,步骤S300有多种具体实施方法,下面示例性提供其中三种:
第一种、步骤S300可以包括:
对每一个点击来源P:
确定该点击来源P相对于其他点击来源
Figure BDA0001425724580000061
的第一相对熵D1,
Figure BDA0001425724580000062
其中,i为矩形区域的行编号,j为矩形区域的列编号,di,j为区域异常标识,pi,j为点击来源P在第i行第j列的矩形区域的点击概率,
Figure BDA0001425724580000063
为除点击来源P外的其他点击来源
Figure BDA0001425724580000064
在第i行第j列的矩形区域的点击概率,di,j为0或1;
在D1小于第一预设阈值的情况下,确定在∑di,j的取值最大时的各di,j
在∑di,j的取值最大时的各di,j中取值为0的di,j对应的矩形区域确定为异常点击区域。
本发明将除点击来源P外的其他点击来源作为一个整体:
Figure BDA0001425724580000065
并计算P相对于
Figure BDA0001425724580000066
的相对熵。
可以理解的是,第一种方法得到的异常点击区域与点击来源相对应,即:当对点击来源A使用本发明的方法确定异常点击区域时,本发明确定的异常点击区域为点击来源A的异常点击区域,而非其他点击来源的异常点击区域。
可以理解的是,∑di,j越大,则di,j取值为1的次数越多。由于本发明将取值为0的di,j对应的矩形区域确定为异常点击区域,将取值为1的di,j对应的矩形区域确定为正常点击区域,因此di,j取值为1的次数越多,则被确定为正常点击区域的矩形区域就越多。本发明通过第一预设阈值的限制,使得在某点击来源P相对于其他点击来源
Figure BDA0001425724580000067
的第一相对熵D1不会过高,从而控制了将异常点击区域误判为正常点击区域的数量。
具体的,该第一种方法可以通过不同点击来源的点击概率,发现作弊的点击来源在一些低概率点击区域的异常点击行为,从而发现异常流量。本发明实施例所使用的相对熵,是一种衡量相对概率差异的方法,相对熵的计算结果随着点击概率差异增加而增加。通过相对熵计算结果的这一原理,本发明可以通过数值优化的方法,剔除点击概率差异较大的异常区域,实现不同点击来源的点击概率的差异最小化,从而得到满足预设条件的相对熵。相对应的,这些剔除的区域即是异常点击区域。需要指出的是,相对熵是一种计算相对分布差异的方法,本发明并不局限于使用相对熵,任何能够计算和衡量不同点击来源差异的方法均可用于本发明的点击热力图异常检测方法中。
第二种、步骤S300可以包括:
确定各点击来源相对于其他点击来源的第二相对熵的和H最小时的各点击来源对应的各di,j
Figure BDA0001425724580000071
其中,i为矩形区域的行编号,j为矩形区域的列编号,di,j为区域异常标识,pi,j为点击来源P在第i行第j列的矩形区域的点击概率,
Figure BDA0001425724580000072
为除点击来源P外的其他点击来源
Figure BDA0001425724580000073
在第i行第j列的矩形区域的点击概率,di,j为0或1,δ为惩罚系数,b为基准点击概率,b=1/(row×col);
对每一个点击来源:将该点击来源对应的各di,j中取值为0的di,j对应的矩形区域确定为异常点击区域。
具体的,该第二种方法可以为点击区域的误判设置惩罚系数,即:为将正常点击区域误判为异常点击区域、将异常点击区域误判为正常点击区域设置惩罚系数。第二种方法可以通过惩罚系数控制对di,j的优化过程,降低了误判率。
第三种,步骤S300可以包括:
对每个矩形区域:确定该矩形区域对应的各点击来源间的点击概率之比,并确定各点击来源间的点击概率之比中的最大值;
将大于第二预设阈值的所述最大值对应的矩形区域确定为异常点击区域,其中,所述第二预设阈值大于1。
可以理解的是,各点击来源间的点击概率之比中的最大值代表着一个矩形区域内各点击来源间点击概率的最大差距,如果该最大值较大,则代表着该矩形区域的异常,如果该最大值较小,则可以认为该矩形区域为正常点击区域。即:将不大于第二预设阈值的所述最大值对应的矩形区域确定为正常点击区域。
具体的,第三种方法是在第一种方法和第二种方法的数学推理的基础上的一种简易方法。第三种方法可以在实际准确率不发生较大改变的情况下,极大的提高点击热力图异常检测的效率。
本发明提供的点击热力图异常检测方法,可以获得第一点击热力图,将所述第一点击热力图分割为多个区域;对所述多个区域中每个区域:分别确定各点击来源对应的点击行为发生在该区域中的点击概率;对每个点击来源:根据所述点击概率确定该点击来源对应的异常点击区域。本发明根据各区域中各点击来源对应的点击行为发生在该区域中的点击概率确定异常点击区域,无需通过人工识别,准确性和识别效率较高。
与上述方法实施例相对应,本发明实施例还提供了一种点击热力图异常检测装置。
如图2所示,本发明实施例提供的一种点击热力图异常检测装置,可以包括:热力图获得单元100、概率确定单元200和区域确定单元300,
所述热力图获得单元100,用于获得第一点击热力图,将所述第一点击热力图分割为多个区域;
其中,所述热力图获得单元100可以具体设置为:
获得第一点击热力图,将所述第一点击热力图平均分割为row×col个矩形区域,其中,row为所述第一点击热力图中所述矩形区域的行数,col为所述第一点击热力图中所述矩形区域的列数。
所述概率确定单元200,用于对所述多个区域中每个区域:分别确定各点击来源对应的点击行为发生在该区域中的点击概率;
所述区域确定单元300,用于对每个点击来源:根据所述点击概率确定该点击来源对应的异常点击区域,其中,所述异常点击区域为所述多个区域中的至少一个区域。
其中,所述区域确定单元300可以具体设置为:
对每一个点击来源P:
确定该点击来源P相对于其他点击来源
Figure BDA0001425724580000081
的第一相对熵D1,
Figure BDA0001425724580000082
其中,i为矩形区域的行编号,j为矩形区域的列编号,di,j为区域异常标识,pi,j为点击来源P在第i行第j列的矩形区域的点击概率,
Figure BDA0001425724580000083
为除点击来源P外的其他点击来源
Figure BDA0001425724580000094
在第i行第j列的矩形区域的点击概率,di,j为0或1;
在D1小于第一预设阈值的情况下,确定在∑di,j的取值最大时的各di,j
在∑di,j的取值最大时的各di,j中取值为0的di,j对应的矩形区域确定为异常点击区域。
其中,所述区域确定单元300可以具体设置为:
确定各点击来源相对于其他点击来源的第二相对熵的和H最小时的各点击来源对应的各di,j
Figure BDA0001425724580000091
其中,i为矩形区域的行编号,j为矩形区域的列编号,di,j为区域异常标识,pi,j为点击来源P在第i行第j列的矩形区域的点击概率,
Figure BDA0001425724580000092
为除点击来源P外的其他点击来源
Figure BDA0001425724580000093
在第i行第j列的矩形区域的点击概率,di,j为0或1,δ为惩罚系数,b为基准点击概率,b=1/(row×col);
对每一个点击来源:将该点击来源对应的各di,j中取值为0的di,j对应的矩形区域确定为异常点击区域。
其中,所述区域确定单元300可以具体设置为:
对每个矩形区域:确定该矩形区域对应的各点击来源间的点击概率之比的最大值;
将大于第二预设阈值的所述最大值对应的矩形区域确定为异常点击区域,其中,所述第二预设阈值大于1。
本发明提供的点击热力图异常检测装置,可以获得第一点击热力图,将所述第一点击热力图分割为多个区域;对所述多个区域中每个区域:分别确定各点击来源对应的点击行为发生在该区域中的点击概率;对每个点击来源:根据所述点击概率确定该点击来源对应的异常点击区域。本发明根据各区域中各点击来源对应的点击行为发生在该区域中的点击概率确定异常点击区域,无需通过人工识别,准确性和识别效率较高。
所述点击热力图异常检测装置包括处理器和存储器,上述热力图获得单元、概率确定单元和区域确定单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来进行异常点击区域的确定。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述点击热力图异常检测方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述点击热力图异常检测方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
获得第一点击热力图,将所述第一点击热力图分割为多个区域;
对所述多个区域中每个区域:分别确定各点击来源对应的点击行为发生在该区域中的点击概率;
对每个点击来源:根据所述点击概率确定该点击来源对应的异常点击区域,其中,所述异常点击区域为所述多个区域中的至少一个区域。
可选的,所述将所述第一点击热力图分割为多个区域,包括:
将所述第一点击热力图平均分割为row×col个矩形区域,其中,row为所述第一点击热力图中所述矩形区域的行数,col为所述第一点击热力图中所述矩形区域的列数。
可选的,所述对每个点击来源:根据所述点击概率确定该点击来源对应的异常点击区域,包括:
对每一个点击来源P:
确定该点击来源P相对于其他点击来源
Figure BDA0001425724580000101
的第一相对熵D1,
Figure BDA0001425724580000102
其中,i为矩形区域的行编号,j为矩形区域的列编号,di,j为区域异常标识,pi,j为点击来源P在第i行第j列的矩形区域的点击概率,
Figure BDA0001425724580000103
为除点击来源P外的其他点击来源
Figure BDA0001425724580000114
在第i行第j列的矩形区域的点击概率,di,j为0或1;
在D1小于第一预设阈值的情况下,确定在∑di,j的取值最大时的各di,j
在∑di,j的取值最大时的各di,j中取值为0的di,j对应的矩形区域确定为异常点击区域。
可选的,所述对每个点击来源:根据所述点击概率确定该点击来源对应的异常点击区域,包括:
确定各点击来源相对于其他点击来源的第二相对熵的和H最小时的各点击来源对应的各di,j
Figure BDA0001425724580000111
其中,i为矩形区域的行编号,j为矩形区域的列编号,di,j为区域异常标识,pi,j为点击来源P在第i行第j列的矩形区域的点击概率,
Figure BDA0001425724580000112
为除点击来源P外的其他点击来源
Figure BDA0001425724580000113
在第i行第j列的矩形区域的点击概率,di,j为0或1,δ为惩罚系数,b为基准点击概率,b=1/(row×col);
对每一个点击来源:将该点击来源对应的各di,j中取值为0的di,j对应的矩形区域确定为异常点击区域。
可选的,所述对每个点击来源:根据所述点击概率确定该点击来源对应的异常点击区域,包括:
对每个矩形区域:确定该矩形区域对应的各点击来源间的点击概率之比的最大值;
将大于第二预设阈值的所述最大值对应的矩形区域确定为异常点击区域,其中,所述第二预设阈值大于1。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
获得第一点击热力图,将所述第一点击热力图分割为多个区域;
对所述多个区域中每个区域:分别确定各点击来源对应的点击行为发生在该区域中的点击概率;
对每个点击来源:根据所述点击概率确定该点击来源对应的异常点击区域,其中,所述异常点击区域为所述多个区域中的至少一个区域。
可选的,所述将所述第一点击热力图分割为多个区域,包括:
将所述第一点击热力图平均分割为row×col个矩形区域,其中,row为所述第一点击热力图中所述矩形区域的行数,col为所述第一点击热力图中所述矩形区域的列数。
可选的,所述对每个点击来源:根据所述点击概率确定该点击来源对应的异常点击区域,包括:
对每一个点击来源P:
确定该点击来源P相对于其他点击来源
Figure BDA0001425724580000121
的第一相对熵D1,
Figure BDA0001425724580000122
其中,i为矩形区域的行编号,j为矩形区域的列编号,di,j为区域异常标识,pi,j为点击来源P在第i行第j列的矩形区域的点击概率,
Figure BDA0001425724580000123
为除点击来源P外的其他点击来源
Figure BDA0001425724580000124
在第i行第j列的矩形区域的点击概率,di,j为0或1;
在D1小于第一预设阈值的情况下,确定在∑di,j的取值最大时的各di,j
在∑di,j的取值最大时的各di,j中取值为0的di,j对应的矩形区域确定为异常点击区域。
可选的,所述对每个点击来源:根据所述点击概率确定该点击来源对应的异常点击区域,包括:
确定各点击来源相对于其他点击来源的第二相对熵的和H最小时的各点击来源对应的各di,j
Figure BDA0001425724580000125
其中,i为矩形区域的行编号,j为矩形区域的列编号,di,j为区域异常标识,pi,j为点击来源P在第i行第j列的矩形区域的点击概率,
Figure BDA0001425724580000126
为除点击来源P外的其他点击来源
Figure BDA0001425724580000127
在第i行第j列的矩形区域的点击概率,di,j为0或1,δ为惩罚系数,b为基准点击概率,b=1/(row×col);
对每一个点击来源:将该点击来源对应的各di,j中取值为0的di,j对应的矩形区域确定为异常点击区域。
可选的,所述对每个点击来源:根据所述点击概率确定该点击来源对应的异常点击区域,包括:
对每个矩形区域:确定该矩形区域对应的各点击来源间的点击概率之比的最大值;
将大于第二预设阈值的所述最大值对应的矩形区域确定为异常点击区域,其中,所述第二预设阈值大于1。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、***或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种点击热力图异常检测方法,其特征在于,包括:
获得第一点击热力图,将所述第一点击热力图分割为多个区域;
对所述多个区域中每个区域:分别确定各点击来源对应的点击行为发生在该区域中的点击概率;
对每个点击来源:根据所述点击概率确定该点击来源对应的异常点击区域,其中,所述异常点击区域为所述多个区域中的至少一个区域。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一点击热力图分割为多个区域,包括:
将所述第一点击热力图平均分割为row×col个矩形区域,其中,row为所述第一点击热力图中所述矩形区域的行数,col为所述第一点击热力图中所述矩形区域的列数。
3.根据权利要求2所述的方法,其特征在于,所述对每个点击来源:根据所述点击概率确定该点击来源对应的异常点击区域,包括:
对每一个点击来源P:
确定该点击来源P相对于其他点击来源
Figure FDA0002831859750000011
的第一相对熵D1,
Figure FDA0002831859750000012
其中,i为矩形区域的行编号,j为矩形区域的列编号,di,j为区域异常标识,pi,j为点击来源P在第i行第j列的矩形区域的点击概率,
Figure FDA0002831859750000013
为除点击来源P外的其他点击来源
Figure FDA0002831859750000014
在第i行第j列的矩形区域的点击概率,di,j为0或1;
在D1小于第一预设阈值的情况下,确定在∑di,j的取值最大时的各di,j
在∑di,j的取值最大时的各di,j中取值为0的di,j对应的矩形区域确定为异常点击区域。
4.根据权利要求2所述的方法,其特征在于,所述对每个点击来源:根据所述点击概率确定该点击来源对应的异常点击区域,包括:
确定各点击来源相对于其他点击来源的第二相对熵的和H最小时的各点击来源对应的各di,j
Figure FDA0002831859750000021
其中,i为矩形区域的行编号,j为矩形区域的列编号,di,j为区域异常标识,pi,j为点击来源P在第i行第j列的矩形区域的点击概率,
Figure FDA0002831859750000022
为除点击来源P外的其他点击来源
Figure FDA0002831859750000023
在第i行第j列的矩形区域的点击概率,di,j为0或1,δ为惩罚系数,b为基准点击概率,b=1/(row×col);U为包括了所有点击来源的全集,所述全集U包括所述点击来源P和所述其他点击来源
Figure FDA0002831859750000024
对每一个点击来源:将该点击来源对应的各di,j中取值为0的di,j对应的矩形区域确定为异常点击区域。
5.根据权利要求2所述的方法,其特征在于,所述对每个点击来源:根据所述点击概率确定该点击来源对应的异常点击区域,包括:
对每个矩形区域:确定该矩形区域对应的各点击来源间的点击概率之比的最大值;
将大于第二预设阈值的所述最大值对应的矩形区域确定为异常点击区域,其中,所述第二预设阈值大于1。
6.一种点击热力图异常检测装置,其特征在于,包括:热力图获得单元、概率确定单元和区域确定单元,
所述热力图获得单元,用于获得第一点击热力图,将所述第一点击热力图分割为多个区域;
所述概率确定单元,用于对所述多个区域中每个区域:分别确定各点击来源对应的点击行为发生在该区域中的点击概率;
所述区域确定单元,用于对每个点击来源:根据所述点击概率确定该点击来源对应的异常点击区域,其中,所述异常点击区域为所述多个区域中的至少一个区域。
7.根据权利要求6所述的装置,其特征在于,所述热力图获得单元具体设置为:
将所述第一点击热力图平均分割为row×col个矩形区域,其中,row为所述第一点击热力图中所述矩形区域的行数,col为所述第一点击热力图中所述矩形区域的列数。
8.根据权利要求7所述的装置,其特征在于,所述区域确定单元具体设置为:
对每一个点击来源P:
确定该点击来源P相对于其他点击来源
Figure FDA0002831859750000031
的第一相对熵D1,
Figure FDA0002831859750000032
其中,i为矩形区域的行编号,j为矩形区域的列编号,di,j为区域异常标识,pi,j为点击来源P在第i行第j列的矩形区域的点击概率,
Figure FDA0002831859750000033
为除点击来源P外的其他点击来源
Figure FDA0002831859750000034
在第i行第j列的矩形区域的点击概率,di,j为0或1;
在D1小于第一预设阈值的情况下,确定在∑di,j的取值最大时的各di,j
在∑di,j的取值最大时的各di,j中取值为0的di,j对应的矩形区域确定为异常点击区域。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如权利要求1-5中任一项所述的点击热力图异常检测方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行如权利要求1-5中任一项所述的点击热力图异常检测方法。
CN201710915326.0A 2017-09-30 2017-09-30 点击热力图异常检测方法及装置 Active CN110020354B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201710915326.0A CN110020354B (zh) 2017-09-30 2017-09-30 点击热力图异常检测方法及装置
PCT/CN2018/101478 WO2019062382A1 (zh) 2017-09-30 2018-08-21 点击热力图异常检测方法及装置
US16/641,941 US11237938B2 (en) 2017-09-30 2018-08-21 Click heatmap abnormality detection method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710915326.0A CN110020354B (zh) 2017-09-30 2017-09-30 点击热力图异常检测方法及装置

Publications (2)

Publication Number Publication Date
CN110020354A CN110020354A (zh) 2019-07-16
CN110020354B true CN110020354B (zh) 2021-02-26

Family

ID=65900529

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710915326.0A Active CN110020354B (zh) 2017-09-30 2017-09-30 点击热力图异常检测方法及装置

Country Status (3)

Country Link
US (1) US11237938B2 (zh)
CN (1) CN110020354B (zh)
WO (1) WO2019062382A1 (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408185A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 网页热力图的链接点击量展示方法及装置
CN106776612A (zh) * 2015-11-20 2017-05-31 北京国双科技有限公司 地理热力图的显示方法及装置
CN106817235A (zh) * 2015-11-30 2017-06-09 北京国双科技有限公司 网站异常访问量的检测方法及装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6138045A (en) * 1998-08-07 2000-10-24 Arch Development Corporation Method and system for the segmentation and classification of lesions
DE102006058308A1 (de) * 2006-12-11 2008-06-12 Robert Bosch Gmbh Verfahren und Vorrichtung zum Erfassen eines Hindernisses in einem Umgebungsbereich eines Kraftfahrzeugs und Kraftfahrzeug
DK2291745T3 (da) * 2008-04-15 2013-08-19 Foresee Results Fremgangsmåde og medium til fjernsporing af brugerinteraktion med en webside
US20130132833A1 (en) * 2008-04-15 2013-05-23 Foresee Results, Inc. Systems and Methods For Remote Tracking And Replay Of User Interaction With A Webpage
JP5581574B2 (ja) * 2008-07-09 2014-09-03 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
CN101504671B (zh) 2009-03-05 2012-10-03 阿里巴巴集团控股有限公司 用户访问网页行为的可视化处理方法、装置及***
US9934320B2 (en) * 2009-03-31 2018-04-03 International Business Machines Corporation Method and apparatus for using proxy objects on webpage overlays to provide alternative webpage actions
US8234370B2 (en) * 2009-06-30 2012-07-31 International Business Machines Corporation Determining web analytics information
US9659364B2 (en) * 2010-03-11 2017-05-23 Koninklijke Philips N.V. Probabilistic refinement of model-based segmentation
JP5766986B2 (ja) * 2011-03-16 2015-08-19 オリンパス株式会社 画像処理装置、画像処理方法、及び画像処理プログラム
CN103714057A (zh) * 2012-09-28 2014-04-09 北京亿赞普网络技术有限公司 一种在线网页信息的实时监测方法和装置
US20150101050A1 (en) * 2013-10-07 2015-04-09 Bank Of America Corporation Detecting and measuring malware threats
CN103646108B (zh) 2013-12-25 2017-07-07 北京京东尚科信息技术有限公司 一种页面区域的点击位置密集度的获取方法
CN104715395A (zh) 2015-02-13 2015-06-17 北京集奥聚合科技有限公司 一种过滤作弊点击的方法和***
US9600146B2 (en) * 2015-08-17 2017-03-21 Palantir Technologies Inc. Interactive geospatial map
CN106557481A (zh) 2015-09-25 2017-04-05 北京国双科技有限公司 网页热力图的显示方法、服务器、客户端及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104408185A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 网页热力图的链接点击量展示方法及装置
CN106776612A (zh) * 2015-11-20 2017-05-31 北京国双科技有限公司 地理热力图的显示方法及装置
CN106817235A (zh) * 2015-11-30 2017-06-09 北京国双科技有限公司 网站异常访问量的检测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"VDHM: Viewport-DOM Based Heat Maps as a Tool for Visually Aggregating Web Users" Interaction Data from Mobile and Heterogeneous Devices";Fabrizio Lamberti等;《2015 IEEE International Conference on Mobile Services》;20150827;全文 *
"基于交互过程的网站用户行为分析***的设计与实现";郭彧婧;《北京交通大学》;20160330;全文 *

Also Published As

Publication number Publication date
US20200250065A1 (en) 2020-08-06
WO2019062382A1 (zh) 2019-04-04
CN110020354A (zh) 2019-07-16
US11237938B2 (en) 2022-02-01

Similar Documents

Publication Publication Date Title
CN110598845B (zh) 数据处理方法、装置、计算机设备和存储介质
US20180081978A1 (en) Method and Apparatus for Processing Information
CN110781372B (zh) 一种优化网站的方法、装置、计算机设备及存储介质
CN111814910B (zh) 异常检测方法、装置、电子设备及存储介质
KR20180004749A (ko) 서비스 시나리오 매칭 방법 및 시스템
CN109165691B (zh) 用于识别作弊用户的模型的训练方法、装置及电子设备
CN106611023B (zh) 网站访问异常的检测方法及装置
CN107766467B (zh) 一种信息检测方法、装置、电子设备及存储介质
CN114414935A (zh) 基于大数据的配电网馈线故障区域自动化定位方法和***
CN106033455B (zh) 一种处理用户操作信息的方法与设备
CN110968689A (zh) 罪名及法条预测模型的训练方法以及罪名及法条预测方法
CN109582741A (zh) 特征数据处理方法和装置
CN116071077B (zh) 一种违规账户的风险评估与识别方法及装置
US9201967B1 (en) Rule based product classification
CN109586990B (zh) 一种识别作弊流量的方法及装置
Oga et al. River state classification combining patch-based processing and CNN
CN110020354B (zh) 点击热力图异常检测方法及装置
CN108243037B (zh) 网站流量异常确定方法及装置
CN110555413B (zh) 时序信号的处理方法及装置、设备及可读介质
CN110598090B (zh) 兴趣标签的生成方法、装置、计算机设备和存储介质
CN109597743B (zh) 页面圈选方法、点击量统计方法及相关设备
CN108241643B (zh) 关键词的指标数据分析方法及装置
CN113656649A (zh) 标签画像数据的生成存储算法及***
CN106997353B (zh) 网页改版的监控方法及装置
CN106776652B (zh) 数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100080 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant