CN111461545B - 机器访问数据的确定方法及装置 - Google Patents
机器访问数据的确定方法及装置 Download PDFInfo
- Publication number
- CN111461545B CN111461545B CN202010246446.8A CN202010246446A CN111461545B CN 111461545 B CN111461545 B CN 111461545B CN 202010246446 A CN202010246446 A CN 202010246446A CN 111461545 B CN111461545 B CN 111461545B
- Authority
- CN
- China
- Prior art keywords
- access
- determining
- score
- interactable
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000002452 interceptive effect Effects 0.000 claims description 19
- 230000003321 amplification Effects 0.000 claims description 8
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0242—Determining effectiveness of advertisements
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Development Economics (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Probability & Statistics with Applications (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Operations Research (AREA)
- Tourism & Hospitality (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种机器访问数据的确定方法及装置。其中,该方法包括:统计本次访问中对网页进行访问的访问数据,其中,访问数据包括访问的网页的多个可交互元素;确定访问数据对应的本次访问的评分;根据本次访问的评分确定本次访问对应的访问地址的评分;在访问地址的评分低于预设分值的情况下,确定访问地址的访问数据为机器访问数据。本发明解决了相关技术中存在机器访问网页的虚假数据,导致数据统计结果误差大的技术问题。
Description
技术领域
本发明涉及数据处理领域,具体而言,涉及一种机器访问数据的确定方法及装置。
背景技术
在广告投放效果统计过程中,通常需要对广告的访问数据进行统计和分析。但是由于市场情况的多样性,存在对投放的广告有机器访问数据,机器访问数据在统计过程中被当成正常的用户访问进行统计,导致后期的数据处理和结果分析出现失误。从而导致数据统计的结果与真实情况之间存在较大误差。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种机器访问数据的确定方法及装置,以至少解决相关技术中存在机器访问网页的虚假数据,导致数据统计结果误差大的技术问题。
根据本发明实施例的一个方面,提供了一种机器访问数据的确定方法,其包括:统计本次访问中对网页进行访问的访问数据,其中,所述访问数据包括访问的所述网页的多个可交互元素;确定所述访问数据对应的所述本次访问的评分;根据所述本次访问的评分确定所述本次访问对应的访问地址的评分;在所述访问地址的评分低于预设分值的情况下,确定所述访问地址的访问数据为机器访问数据。
可选的,确定所述访问数据对应的所述本次访问的评分包括:确定所述网页的多个可交互元素的权重;根据多个所述可交互元素的所述权重,确定所述本次访问的评分。
可选的,根据多个所述可交互元素的所述权重,确定所述本次访问的评分包括:根据多个所述可交互元素的权重,和访问所述可交互元素所需的操作次数,确定多个所述可交互元素对应的重要性分值;将所述本次访问访问到的多个可交互元素的重要性分值之和,作为所述本次访问的评分。
可选的,根据多个所述可交互元素的权重,和访问所述可交互元素所需的操作次数,确定多个所述可交互元素对应的重要性分值之前,包括:对所述网页的每个可交互元素,通过模拟多次访问,确定用户多次访问所述可交互元素分别对应的所用的操作次数;对所述用户多次访问所述可交互元素对应的所用的操作次数求平均值,确定访问所述可交互元素所需的操作次数。
可选的,根据多个所述可交互元素的权重,和访问所述可交互元素所需的操作次数,确定多个所述可交互元素对应的重要性分值包括:确定所述可交互元素在所述网页上的显示面积,是否小于预设面积;在所述可交互元素的显示面积不小于所述预设面积的情况下,将所述可交互元素的所述权重的值和与所需的所述操作次数,确定所述可交互元素的重要性分值;在所述可交互元素的显示面积小于所述预设面积的情况下,根据所述可交互元素的所述权重的值,与所需的所述操作次数,以及放大倍数,确定所述可交互元素的重要性分值,其中,所述放大倍数为所述预设面积与所述可交互元素的显示面积的比值。
可选的,将所述可交互元素的所述权重的值和与所述可交互元素所需的操作次数,确定所述可交互元素的重要性分值包括:所述可交互元素的重要性分值等于,所述权重的值与所需的所述操作次数的平方的乘积;根据所述可交互元素的所述权重的值,与所述可交互元素所需的操作次数,以及所述放大倍数,确定所述可交互元素的重要性分值包括:所述可交互元素的重要性分值等于,所述权重的值,所需的所述操作次数的平方,以及所述放大倍数的乘积。
可选的,根据所述本次访问的评分确定所述本次访问对应的访问地址的评分包括:根据所述本次访问的访问时间与当前时间,确定所述本次访问的时间衰减系数;通过所述本次访问的评分和对应的时间衰减系数,确定所述本次访问对应的所述访问地址的评分。
可选的,在所述访问地址的评分低于预设分值的情况下,确定所述访问地址的访问数据为机器访问数据包括:对所述网页在所述访问地址的评分低于预设分值的情况下,确定所述本次访问是否访问了预设的关键可交互元素;在所述本次访问访问了所述关键可交互元素的情况下,确定所述访问地址的所述访问数据为机器访问数据。
根据本发明实施例的另一方面,还提供了一种机器访问数据的确定装置,包括:统计模块,用于统计本次访问中对网页进行访问的访问数据,其中,所述访问数据包括访问的所述网页的多个可交互元素;第一确定模块,用于确定所述访问数据对应的所述本次访问的评分;第二确定模块,用于根据所述本次访问的评分确定所述本次访问对应的访问地址的评分;第三确定模块,用于在所述访问地址的评分低于预设分值的情况下,确定所述访问地址的访问数据为机器访问数据。
根据本发明实施例的另一方面,还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述中任意一项所述的方法。
根据本发明实施例的另一方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述中任意一项所述的方法。
在本发明实施例中,采用统计本次访问中对网页进行访问的访问数据,其中,访问数据包括访问的网页的多个可交互元素;确定访问数据对应的本次访问的评分;根据本次访问的评分确定本次访问对应的访问地址的评分;在访问地址的评分低于预设分值的情况下,确定访问地址的访问数据为机器访问数据的方式,通过本次访问的网页的多个可交互元素,对本次访问进行打分,从而对本次访问的访问地址进行打分,以确定访问地址是否为机器访问地址,达到了确定机器访问数据的目的,从而实现了降低机器访问数据引起的数据统计误差的技术效果,进而解决了相关技术中存在机器访问网页的虚假数据,导致数据统计结果误差大的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种机器访问数据的确定方法的流程图;
图2是根据本发明实施例的一种机器访问数据的确定装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种机器访问数据的确定方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种电子封印的检测方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,统计本次访问中对网页进行访问的访问数据,其中,访问数据包括访问的网页的多个可交互元素;
步骤S104,确定访问数据对应的本次访问的评分;
步骤S106,根据本次访问的评分确定本次访问对应的访问地址的评分;
步骤S108,在访问地址的评分低于预设分值的情况下,确定访问地址的访问数据为机器访问数据。
通过上述步骤,采用统计本次访问中对网页进行访问的访问数据,其中,访问数据包括访问的网页的多个可交互元素;确定访问数据对应的本次访问的评分;根据本次访问的评分确定本次访问对应的访问地址的评分;在访问地址的评分低于预设分值的情况下,确定访问地址的访问数据为机器访问数据的方式,通过本次访问的网页的多个可交互元素,对本次访问进行打分,从而对本次访问的访问地址进行打分,以确定访问地址是否为机器访问地址,达到了确定机器访问数据的目的,从而实现了降低机器访问数据引起的数据统计误差的技术效果,进而解决了相关技术中存在机器访问网页的虚假数据,导致数据统计结果误差大的技术问题。
上述网页可以包括多个可交互元素,上述可交互元素可以是上述网页上显示的用户可以进行操作的元素,例如,选项框,按键,链接等。上述可交互元素可以显示在上述网页的不同深度的页面,上述本次访问可以访问多个可交互元素,通过可交互元素在上述网页中的权重,可以确定本次访问的可交互元素是否存在较大概率为机器访问数据访问的可交互元素,从而确定本次访问的数据是否为机器访问数据。
上述确定访问数据对应的本次访问的评分,可以通过上述可交互元素在上述网页中的权重进行确定,另外,还可以结合可交互元素的操作次数,确定本次访问中访问多个可交互元素以及操作次数确定的访问行为是否是机器访问数据进行访问的访问行为。
根据本次访问的评分确定本次访问的访问地址的评分,上述机器访问数据通常是通过机器虚拟的访问地址进行访问,因此,仅确定单次访问的访问数据取法对该机器访问数据进行有效删除,而且会导致对同一机器虚拟地址的访问数据重复进行识别导致效率低下。因此在本实施例中,通过本次访问的评分确定对应的访问地址的评分,从而确定该访问地址是否为机器访问数据对应的机器虚拟地址。
在上述访问地址的评分低于预设分值的情况下,确定上述访问地址为机器访问数据的机器虚拟地址。上述预设分值可以对历史访问数据中确定的机器访问数据的访问进行评分,并通过上述相同的评分方式确定机器虚拟地址的评分,上述预设分值可以是多次机器访问数据确定的机器虚拟地址的评分的平均值。
可选的,确定访问数据对应的本次访问的评分包括:确定网页的多个可交互元素的权重;根据多个可交互元素的权重,确定本次访问的评分。
上述网页包括多个可交互元素,不同的可交互元素在机器访问数据中的权重不同,有的可交互元素,在机器虚拟地址的访问过程中会高频出现,有的可交互元素在机器虚拟地址的访问过程中的不经常会出现,这就导致根据不同的可交互元素在判定本次访问与机器访问数据的评分时有不同的权重,因此根据上述不同的可交互元素的权重对上述本次访问进行评分。
上述多个可交互元素的权重可以通过多次历史访问数据中确定的机器访问数据进行确定,分别确定每次机器访问数据访问的可交互元素,根据可交互元素的访问次数,确定该可交互元素的权重。需要说明的是,上述可交互元素的权重可以根据新确定的机器访问数据进行调整,以使该可交互元素的权重更加准确,从而提高机器访问数据的确定的准确性。
可选的,根据多个可交互元素的权重,确定本次访问的评分包括:根据多个可交互元素的权重,和访问可交互元素所需的操作次数,确定多个可交互元素对应的重要性分值;将本次访问访问到的多个可交互元素的重要性分值之和,作为本次访问的评分。
作为一种可选的实施方式,在确定上述可交互元素的重要性分值时,还可以根据多个可交互元素的权重,和访问可交互元素所需的访问次数,确定多个可交互元素对应的重要性分值。
上述操作次数可以通过对网页的每个可交互元素,通过模拟多次访问,确定用户多次访问可交互元素分别对应的所用的操作次数;对用户多次访问可交互元素对应的所用的操作次数求平均值,确定访问可交互元素所需的操作次数。
具体的,本实施例中,根据多个可交互元素的权重,和访问可交互元素所需的操作次数,确定多个可交互元素对应的重要性分值,可以通过确定可交互元素在网页上的显示面积,是否小于预设面积;在可交互元素的显示面积不小于预设面积的情况下,将可交互元素的权重的值和与所需的操作次数,确定可交互元素的重要性分值;在可交互元素的显示面积小于预设面积的情况下,根据可交互元素的权重的值,与所需的操作次数,以及放大倍数,确定可交互元素的重要性分值,其中,放大倍数为预设面积与可交互元素的显示面积的比值。
由于有的可交互元素在上述网页上的显示面积较小,考虑到小面积的可交互元素不容易被发现和使用,例如,移动终端的返回按键,非常小,且不显眼,因此,大多时候都会通过其他手势或者方式返回上一界面。在对上述显示面积较小的可交互元素进行重要性分值的确定时,为上述可交互元素提供一个放大倍数,使其与其他可交互元素的面积为同等级。
在本实施例中,上述放大倍数为预设面积与可交互元素的显示面积的比值。
可选的,将可交互元素的权重的值和与可交互元素所需的操作次数,确定可交互元素的重要性分值包括:可交互元素的重要性分值等于,权重的值与所需的操作次数的平方的乘积;根据可交互元素的权重的值,与可交互元素所需的操作次数,以及放大倍数,确定可交互元素的重要性分值包括:可交互元素的重要性分值等于,权重的值,所需的操作次数的平方,以及放大倍数的乘积。
可选的,根据本次访问的评分确定本次访问对应的访问地址的评分包括:根据本次访问的访问时间与当前时间,确定本次访问的时间衰减系数;通过本次访问的评分和对应的时间衰减系数,确定本次访问对应的访问地址的评分。
上述本次访问可能是最近一次的访问,或者在本次访问之后一段时间后,根据本次访问确定机器访问数据时,由于时间的原因,本次访问的数据对当前时间的影响已经减弱了,因此通过一个衰减系数描述本次访问与当前时间的影响衰减程度,具体的时间越长,影响衰减程度越大,时间越短,影响衰减程度越小。
可选的,在访问地址的评分低于预设分值的情况下,确定访问地址的访问数据为机器访问数据包括:对网页在访问地址的评分低于预设分值的情况下,确定本次访问是否访问了预设的关键可交互元素;在本次访问访问了关键可交互元素的情况下,确定访问地址的访问数据为机器访问数据。
为进一步提高机器访问数据的确定的准确度,在上述访问地址的评分低于预设分值的情况下,确定本次访问是否访问了预设的关键可交互元素,上述关键可交互元素可以是机器访问数据高频访问的多个可交互元素,从而确定本次访问的访问地址是否为机器虚拟访问地址,以确定机器虚拟访问地址的访问数据均为机器访问数据。
需要说明的是,本实施例还提供了一种可选的实施方式,下面对该实施方式进行详细说明。
1、本实施方式具体方案:
(1)对官网每个页面和可交互元素(以下统称触点),统计从进入官网首页开始,想要与该触点进行交互(如浏览页面/视频,点击查看详情,下载文件)需要的操作次数(pc端,一次点击/鼠标滚轮为一次操作;对于移动端,一次手指滑动为一次操作)。统计方式为,模拟用户行为若干次,取平均数;
(2)对每个触点,依业务理解,设定不同的重要性权重;
(3)额外地,对面积小于预设阈值的触点,设其面积重要性放大倍数为(预设面积阈值/触点面积);
(4)记每个触点的重要性=操作次数的平方*重要性权重*面积重要性放大倍数;
(5)对每个来访id,记其本次来访(规定,连续两个操作在一定时限之内的,视为同一次来访)的打分=σ(本次来访所触达的所有触点的重要性之和),其中
(6)每个id的得分=(该id某次来访得分*时间衰减系数)的最大值,其中时间衰减系数为来访时刻距今时间的指数;
(7)根据预设的打分阈值,低于阈值但访问了某些特定触点(如留资页面)则为机器自动访问。
图2是根据本发明实施例的一种机器访问数据的确定装置的示意图,如图2所示,根据本发明实施例的另一方面,还提供了一种机器访问数据的确定装置,包括:统计模块22,第一确定模块24,第二确定模块26和第三确定模块28,下面对该装置进行详细说明。
统计模块22,用于统计本次访问中对网页进行访问的访问数据,其中,访问数据包括访问的网页的多个可交互元素;第一确定模块24,与上述统计模块22相连,用于确定访问数据对应的本次访问的评分;第二确定模块26,与上述第一确定模块24相连,用于根据本次访问的评分确定本次访问对应的访问地址的评分;第三确定模块28,与上述第二确定模块26相连,用于在访问地址的评分低于预设分值的情况下,确定访问地址的访问数据为机器访问数据。
通过上述装置,采用统计模块22统计本次访问中对网页进行访问的访问数据,其中,访问数据包括访问的网页的多个可交互元素;第一确定模块24确定访问数据对应的本次访问的评分;第二确定模块26根据本次访问的评分确定本次访问对应的访问地址的评分;第三确定模块28在访问地址的评分低于预设分值的情况下,确定访问地址的访问数据为机器访问数据的方式,通过本次访问的网页的多个可交互元素,对本次访问进行打分,从而对本次访问的访问地址进行打分,以确定访问地址是否为机器访问地址,达到了确定机器访问数据的目的,从而实现了降低机器访问数据引起的数据统计误差的技术效果,进而解决了相关技术中存在机器访问网页的虚假数据,导致数据统计结果误差大的技术问题。
根据本发明实施例的另一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述中任意一项的方法。
根据本发明实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述中任意一项的方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种机器访问数据的确定方法,其特征在于,包括:
统计本次访问中对网页进行访问的访问数据,其中,所述访问数据包括访问的所述网页的多个可交互元素;
确定所述访问数据对应的所述本次访问的评分;
根据所述本次访问的评分确定所述本次访问对应的访问地址的评分;
在所述访问地址的评分低于预设分值的情况下,确定所述访问地址的访问数据为机器访问数据;
其中,确定所述访问数据对应的所述本次访问的评分包括:确定所述可交互元素在所述网页上的显示面积,是否小于预设面积;
在所述可交互元素的显示面积不小于所述预设面积的情况下,将所述可交互元素的权重的值和与所需的操作次数,确定所述可交互元素的重要性分值;
在所述可交互元素的显示面积小于所述预设面积的情况下,根据所述可交互元素的所述权重的值,与所需的所述操作次数,以及放大倍数,确定所述可交互元素的重要性分值,基于所述重要性分值,确定所述本次访问的评分,其中,所述放大倍数为所述预设面积与所述可交互元素的显示面积的比值。
2.根据权利要求1所述的方法,其特征在于,确定所述访问数据对应的所述本次访问的评分包括:
确定所述网页的多个可交互元素的权重;
根据多个所述可交互元素的所述权重,确定所述本次访问的评分。
3.根据权利要求2所述的方法,其特征在于,根据多个所述可交互元素的所述权重,确定所述本次访问的评分包括:
根据多个所述可交互元素的权重,和访问所述可交互元素所需的操作次数,确定多个所述可交互元素对应的重要性分值;
将所述本次访问访问到的多个可交互元素的重要性分值之和,作为所述本次访问的评分。
4.根据权利要求3所述的方法,其特征在于,根据多个所述可交互元素的权重,和访问所述可交互元素所需的操作次数,确定多个所述可交互元素对应的重要性分值之前,包括:
对所述网页的每个可交互元素,通过模拟多次访问,确定用户多次访问所述可交互元素分别对应的所用的操作次数;
对所述用户多次访问所述可交互元素对应的所用的操作次数求平均值,确定访问所述可交互元素所需的操作次数。
5.根据权利要求1所述的方法,其特征在于,将所述可交互元素的所述权重的值和与所述可交互元素所需的操作次数,确定所述可交互元素的重要性分值包括:
所述可交互元素的重要性分值等于,所述权重的值与所需的所述操作次数的平方的乘积;
根据所述可交互元素的所述权重的值,与所述可交互元素所需的操作次数,以及所述放大倍数,确定所述可交互元素的重要性分值包括:
所述可交互元素的重要性分值等于,所述权重的值,所需的所述操作次数的平方,以及所述放大倍数的乘积。
6.根据权利要求1所述的方法,其特征在于,根据所述本次访问的评分确定所述本次访问对应的访问地址的评分包括:
根据所述本次访问的访问时间与当前时间,确定所述本次访问的时间衰减系数;
通过所述本次访问的评分和对应的时间衰减系数,确定所述本次访问对应的所述访问地址的评分。
7.根据权利要求1所述的方法,其特征在于,在所述访问地址的评分低于预设分值的情况下,确定所述访问地址的访问数据为机器访问数据包括:
对所述网页在所述访问地址的评分低于预设分值的情况下,确定所述本次访问是否访问了预设的关键可交互元素;
在所述本次访问访问了所述关键可交互元素的情况下,确定所述访问地址的所述访问数据为机器访问数据。
8.一种机器访问数据的确定装置,其特征在于,包括:
统计模块,用于统计本次访问中对网页进行访问的访问数据,其中,所述访问数据包括访问的所述网页的多个可交互元素;
第一确定模块,用于确定所述访问数据对应的所述本次访问的评分;
第二确定模块,用于根据所述本次访问的评分确定所述本次访问对应的访问地址的评分;
第三确定模块,用于在所述访问地址的评分低于预设分值的情况下,确定所述访问地址的访问数据为机器访问数据;
所述第一确定模块,还用于确定所述可交互元素在所述网页上的显示面积,是否小于预设面积;在所述可交互元素的显示面积不小于所述预设面积的情况下,将所述可交互元素的权重的值和与所需的操作次数,确定所述可交互元素的重要性分值;在所述可交互元素的显示面积小于所述预设面积的情况下,根据所述可交互元素的所述权重的值,与所需的所述操作次数,以及放大倍数,确定所述可交互元素的重要性分值,基于所述重要性分值,确定所述本次访问的评分,其中,所述放大倍数为所述预设面积与所述可交互元素的显示面积的比值。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至7中任意一项所述的方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至7中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010246446.8A CN111461545B (zh) | 2020-03-31 | 2020-03-31 | 机器访问数据的确定方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010246446.8A CN111461545B (zh) | 2020-03-31 | 2020-03-31 | 机器访问数据的确定方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111461545A CN111461545A (zh) | 2020-07-28 |
CN111461545B true CN111461545B (zh) | 2023-11-10 |
Family
ID=71682435
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010246446.8A Active CN111461545B (zh) | 2020-03-31 | 2020-03-31 | 机器访问数据的确定方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111461545B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6356899B1 (en) * | 1998-08-29 | 2002-03-12 | International Business Machines Corporation | Method for interactively creating an information database including preferred information elements, such as preferred-authority, world wide web pages |
CN103853839A (zh) * | 2014-03-18 | 2014-06-11 | 北京博雅立方科技有限公司 | 一种评测广告页面恶意点击疑似度的方法及装置 |
CN105491054A (zh) * | 2015-12-22 | 2016-04-13 | 网易(杭州)网络有限公司 | 恶意访问的判断方法、拦截方法与装置 |
CN105808639A (zh) * | 2016-02-24 | 2016-07-27 | 平安科技(深圳)有限公司 | 网络访问行为识别方法和装置 |
CN106506451A (zh) * | 2016-09-30 | 2017-03-15 | 百度在线网络技术(北京)有限公司 | 恶意访问的处理方法及装置 |
CN107995152A (zh) * | 2016-10-27 | 2018-05-04 | 腾讯科技(深圳)有限公司 | 一种恶意访问检测方法、装置及检测服务器 |
CN108334273A (zh) * | 2018-02-09 | 2018-07-27 | 网易(杭州)网络有限公司 | 信息显示方法及装置、存储介质、处理器、终端 |
CN109711123A (zh) * | 2018-11-21 | 2019-05-03 | 武汉极意网络科技有限公司 | 基于模拟浏览器检测的行为检测方法及装置 |
CN110401660A (zh) * | 2019-07-26 | 2019-11-01 | 秒针信息技术有限公司 | 虚假流量的识别方法、装置、处理设备及存储介质 |
CN110442230A (zh) * | 2018-05-04 | 2019-11-12 | 脸谱科技有限责任公司 | 防止虚拟现实环境中的用户界面遮挡 |
CN110609937A (zh) * | 2019-08-15 | 2019-12-24 | 平安科技(深圳)有限公司 | 一种爬虫识别方法及装置 |
WO2020019484A1 (zh) * | 2018-07-27 | 2020-01-30 | 平安科技(深圳)有限公司 | 一种模拟器识别方法、识别设备及计算机可读介质 |
CN110889745A (zh) * | 2019-11-22 | 2020-03-17 | 无线生活(北京)信息技术有限公司 | 一种智能识别抢购行为的方法及装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8103599B2 (en) * | 2008-09-25 | 2012-01-24 | Microsoft Corporation | Calculating web page importance based on web behavior model |
US9245144B2 (en) * | 2012-09-27 | 2016-01-26 | Intel Corporation | Secure data container for web applications |
CN104252348B (zh) * | 2013-06-27 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种基于浏览器的网页访问统计方法及装置 |
US10156842B2 (en) * | 2015-12-31 | 2018-12-18 | General Electric Company | Device enrollment in a cloud service using an authenticated application |
US10505979B2 (en) * | 2016-05-13 | 2019-12-10 | International Business Machines Corporation | Detection and warning of imposter web sites |
CN107707509B (zh) * | 2016-08-08 | 2020-09-29 | 阿里巴巴集团控股有限公司 | 识别及辅助识别虚假流量的方法、装置及*** |
US10581915B2 (en) * | 2016-10-31 | 2020-03-03 | Microsoft Technology Licensing, Llc | Network attack detection |
-
2020
- 2020-03-31 CN CN202010246446.8A patent/CN111461545B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6356899B1 (en) * | 1998-08-29 | 2002-03-12 | International Business Machines Corporation | Method for interactively creating an information database including preferred information elements, such as preferred-authority, world wide web pages |
CN103853839A (zh) * | 2014-03-18 | 2014-06-11 | 北京博雅立方科技有限公司 | 一种评测广告页面恶意点击疑似度的方法及装置 |
CN105491054A (zh) * | 2015-12-22 | 2016-04-13 | 网易(杭州)网络有限公司 | 恶意访问的判断方法、拦截方法与装置 |
CN105808639A (zh) * | 2016-02-24 | 2016-07-27 | 平安科技(深圳)有限公司 | 网络访问行为识别方法和装置 |
CN106506451A (zh) * | 2016-09-30 | 2017-03-15 | 百度在线网络技术(北京)有限公司 | 恶意访问的处理方法及装置 |
CN107995152A (zh) * | 2016-10-27 | 2018-05-04 | 腾讯科技(深圳)有限公司 | 一种恶意访问检测方法、装置及检测服务器 |
CN108334273A (zh) * | 2018-02-09 | 2018-07-27 | 网易(杭州)网络有限公司 | 信息显示方法及装置、存储介质、处理器、终端 |
CN110442230A (zh) * | 2018-05-04 | 2019-11-12 | 脸谱科技有限责任公司 | 防止虚拟现实环境中的用户界面遮挡 |
WO2020019484A1 (zh) * | 2018-07-27 | 2020-01-30 | 平安科技(深圳)有限公司 | 一种模拟器识别方法、识别设备及计算机可读介质 |
CN109711123A (zh) * | 2018-11-21 | 2019-05-03 | 武汉极意网络科技有限公司 | 基于模拟浏览器检测的行为检测方法及装置 |
CN110401660A (zh) * | 2019-07-26 | 2019-11-01 | 秒针信息技术有限公司 | 虚假流量的识别方法、装置、处理设备及存储介质 |
CN110609937A (zh) * | 2019-08-15 | 2019-12-24 | 平安科技(深圳)有限公司 | 一种爬虫识别方法及装置 |
CN110889745A (zh) * | 2019-11-22 | 2020-03-17 | 无线生活(北京)信息技术有限公司 | 一种智能识别抢购行为的方法及装置 |
Non-Patent Citations (4)
Title |
---|
Using Hidden Markov Model to detect rogue access points;Gayathri Shivaraj et al.;SECURITY AND COMMUNICATION NETWORKS;第3卷;全文 * |
基于访问日志的网页内容监控挖掘***;丘海澜;文翰;肖南峰;;计算机工程(04);全文 * |
电子商务平台中流量统计模块的设计研究;李雯;;硅谷(20);全文 * |
网络用户角色辨识及其恶意访问行为的发现方法;王建;张仰森;陈若愚;蒋玉茹;尤建清;;计算机科学(10);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111461545A (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145934B (zh) | 基于日志的用户行为数据处理方法、介质、设备及装置 | |
CN104836781B (zh) | 区分访问用户身份的方法及装置 | |
US20200236184A1 (en) | Method, electronic device and computer storage medium for pushing information | |
CN103905532B (zh) | 微博营销账号的识别方法及*** | |
US10270785B2 (en) | Method and apparatus for identifying malicious account | |
CN107786545A (zh) | 一种网络攻击行为检测方法及终端设备 | |
CN108876464B (zh) | 一种作弊行为检测方法、装置、服务设备及存储介质 | |
CN110706026A (zh) | 一种异常用户的识别方法、识别装置及可读存储介质 | |
CN108112038B (zh) | 一种控制访问流量的方法及装置 | |
CN109831454B (zh) | 虚假流量的识别方法和装置 | |
CN113779481B (zh) | 诈骗网站的识别方法、装置、设备及存储介质 | |
CN113412607B (zh) | 内容推送方法、装置、移动终端及存储介质 | |
CN110457595B (zh) | 突发事件报警方法、装置、***、电子设备及存储介质 | |
CN111586695B (zh) | 短信识别方法及相关设备 | |
CN106168968A (zh) | 一种网站分类方法及装置 | |
CN111461545B (zh) | 机器访问数据的确定方法及装置 | |
CN101268465A (zh) | 分类一组电子文档的方法 | |
CN106257449A (zh) | 一种信息确定方法和装置 | |
CN110618797B (zh) | 生成文字走马灯的方法、装置及终端设备 | |
CN106919609B (zh) | 产品信息推送方法和装置 | |
CN116932549A (zh) | 基于智能模型的平台数据存储方法、***、介质及设备 | |
CN105761107A (zh) | 互联网产品中获取目标新增用户的方法及装置 | |
CN110366045B (zh) | 机器弹幕用户识别方法、存储介质、电子设备及*** | |
CN105550250A (zh) | 一种访问日志的处理方法及装置 | |
CN105653645B (zh) | 网络信息关注度评估方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |