CN109740089A - 数据采集方法、装置、***、可读存储介质及电子设备 - Google Patents

数据采集方法、装置、***、可读存储介质及电子设备 Download PDF

Info

Publication number
CN109740089A
CN109740089A CN201811457334.6A CN201811457334A CN109740089A CN 109740089 A CN109740089 A CN 109740089A CN 201811457334 A CN201811457334 A CN 201811457334A CN 109740089 A CN109740089 A CN 109740089A
Authority
CN
China
Prior art keywords
target pages
vertex type
server
buries
user behavior
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811457334.6A
Other languages
English (en)
Inventor
宋凡非
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201811457334.6A priority Critical patent/CN109740089A/zh
Publication of CN109740089A publication Critical patent/CN109740089A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本公开涉及一种数据采集方法、装置、***、可读存储介质及电子设备。该方法应用于客户端,包括:根据用户的历史页面访问行为特征,确定目标页面的访问热度;根据所述目标页面的访问热度,确定所述目标页面的埋点类型,所述埋点类型包括:代码埋点类型和无埋点类型;根据所述目标页面的埋点类型,采集所述目标页面上的用户行为数据;将所述用户行为数据发送至服务器。基于目标页面的访问热度,确定目标页面的不同埋点类型,进而根据不同的埋点类型采集用户行为特征。这样,综合代码埋点类型和无埋点类型进行用户行为数据的采集,因此,采用该方法可以实现在精准采集、降低网络传输量的同时降低埋点维护成本的目的。

Description

数据采集方法、装置、***、可读存储介质及电子设备
技术领域
本公开涉及数据采集领域,具体地,涉及一种数据采集方法、装置、***、计算机可读存储介质及电子设备。
背景技术
随着Internet的不断发展,各种各样的网站如雨后春笋般成倍增长,各个商业网站之间的竞争越来越激烈。随之而来的是,网站的建设不可避免的出现了很多问题。从最近一次国外对15个大型网站进行统计分析表明,用户在寻找自己所需要的信息时,只有42%的概率可以找到,而在大部分的时间里用户都无法找到自己所需要的信息。
为了解决上述技术问题,目前国内外提出了一些依靠计算机辅助来自动收集和分析用户行为数据的方法。但是,这些方法均无法满足在精准采集数据、降低网络传输压力的同时减少人工参与度的需求。
发明内容
为了解决相关技术中存在的问题,本公开提供一种数据采集方法、装置、***、可读存储介质及电子设备。
为了实现上述目的,本公开第一方面提供一种数据采集方法,应用于客户端,所述方法包括:
根据用户的历史页面访问行为特征,确定目标页面的访问热度;
根据所述目标页面的访问热度,确定所述目标页面的埋点类型,所述埋点类型包括:代码埋点类型和无埋点类型;
根据所述目标页面的埋点类型,采集所述目标页面上的用户行为数据;
将所述用户行为数据发送至服务器。
可选地,所述目标页面为多个;所述根据所述目标页面的访问热度,确定所述目标页面的埋点类型,包括:
根据所述目标页面的访问热度由高到低的顺序,确定前K个目标页面的埋点类型为代码埋点类型,其余目标页面的埋点类型为无埋点类型,其中,K为大于零的整数,且K小于所述目标页面的总数。
可选地,所述根据用户的历史页面访问行为特征,确定目标页面的访问热度,包括:
根据所述用户的历史页面访问行为特征,获取所述目标页面上各页面元素在预设时间段内的访问频率;
将所述目标页面上各页面元素在所述预设时间段内的平均访问频率确定为所述目标页面的访问热度。
可选地,在所述将所述用户行为数据发送至服务器的步骤之前,所述方法还包括:
将采集到的所述用户行为数据缓存在所述客户端。
可选地,所述将所述用户行为数据发送至服务器,包括:
向所述服务器发送负载占用率请求,以获取所述服务器的负载占用率;
接收所述服务器发送的负载占用率信息,所述负载占用率信息包括所述负载占用率;
在所述负载占用率小于或等于预设阈值时,将所述客户端中缓存的所述用户行为数据发送至所述服务器,之后从所述客户端的缓存中删除已发送至所述服务器的用户行为数据。
可选地,所述将所述客户端中缓存的所述用户行为数据发送至所述服务器,包括:
将所述客户端中缓存的所述用户行为数据按照预设数据条数分组压缩,获得至少一组压缩数据;
将所述至少一组压缩数据发送至所述服务器。
本公开第二方面提供一种数据采集装置,应用于客户端,所述装置包括:
第一确定模块,用于根据用户的历史页面访问行为特征,确定目标页面的访问热度;
第二确定模块,用于根据所述目标页面的访问热度,确定所述目标页面的埋点类型,所述埋点类型包括:代码埋点类型和无埋点类型;
采集模块,用于根据所述目标页面的埋点类型,采集所述目标页面上的用户行为数据;
发送模块,用于将所述用户行为数据发送至服务器。
可选地,所述目标页面为多个;所述第二确定模块包括:
第一确定子模块,用于根据所述目标页面的访问热度由高到低的顺序,确定前K个目标页面的埋点类型为代码埋点类型,其余目标页面的埋点类型为无埋点类型,其中,K为大于零的整数,且K小于所述目标页面的总数。
可选地,所述第一确定模块包括:
第一获取子模块,用于根据所述用户的页面访问行为特征,获取所述目标页面上各页面元素在预设时间段内的访问频率;
第二确定子模块,用于将所述目标页面上各页面元素在所述预设时间段内的平均访问频率确定为所述目标页面的访问热度。
可选地,所述装置还包括:
缓存模块,用于将采集到的所述用户行为数据缓存在所述客户端。
可选地,所述发送模块包括:
第一发送子模块,用于向所述服务器发送负载占用率请求,以获取所述服务器的负载占用率;
接收子模块,用于接收所述服务器发送的负载占用率信息,所述负载占用率信息包括所述负载占用率;
第二发送子模块,用于在所述负载占用率小于或等于预设阈值时,将所述缓存模块中缓存的所述用户行为数据发送至所述服务器;
删除子模块,用于在第二发送子模块将所述缓存模块中缓存的所述用户行为数据发送至所述服务器之后,从所述缓存模块中删除已发送至所述服务器的用户行为数据。
可选地,所述第二发送子模块包括:
第二获取子模块,用于将所述缓存模块中缓存的所述用户行为数据按照预设数据条数分组压缩,获得至少一组压缩数据;
第三发送子模块,用于将所述至少一组压缩数据发送至所述服务器。
本公开第三方面提供一种计算机可读存储介质,其上存储有计算机程序该程序被处理器执行时实现本公开第一方面所提供的所述方法的步骤。
本公开第四方面提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第一方面所提供的所述方法的步骤。
本公开第五方面提供一种数据采集***,包括:
客户端,用于执行本公开第一方面提供的所述方法的步骤;
服务器,用于接收所述客户端发送的所述用户行为数据。
通过上述技术方案,基于目标页面的访问热度,确定目标页面的不同埋点类型,进而根据不同的埋点类型采集用户行为特征。这样,综合代码埋点类型和无埋点类型进行用户行为数据的采集,可以同时具有代码埋点精准采集和降低网络传输量的优点,以及,无埋点全量自动收集数据和降低埋点维护成本的优点,因此,采用该方法可以实现在精准采集、降低网络传输量的同时降低埋点维护成本的目的。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据一示例性实施例示出的一种数据采集方法的流程图。
图2是根据另一示例性实施例示出的一种数据采集方法的流程图。
图3是根据另一示例性实施例示出的一种数据采集方法的流程图。
图4是根据一示例性实施例示出的一种数据采集装置的框图。
图5是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
从数据采集终端上来看,目前典型的数据采集技术主要包括:基于服务器日志收集和分析用户行为数据的方法、从客户端收集和分析用户行为数据的方法。从数据采集技术手段上来看,数据采集技术手段主要包括:代码埋点、无埋点(无埋点也称全埋点)等实现方式。
代码埋点是指在网站、应用程序或者小程序的前或后端某处嵌入一段js、java、scala、c++等代码,用来监控、收集用户的基础行为数据并上报至服务器。其优点为:可以非常精确地选择什么时候采集数据,随意自定义属性、自定义事件。缺点是:埋点地方过多,因为不同的版本验证问题不同不易于管理。而且每一个控件的埋点都需要添加相应的手工代码,不仅工作量大,而且限定了必须是技术人员才能完成,版本更新的代价大,易造成埋点混乱。
无埋点是通过安装SDK(Software Development Kit,软件开发工具包),定期(例如每秒)做一次截图,而SDK在为应用程序截图的同时,会得到当前视图下所有UIView、UIResponder对象的层级关系。对于屏幕上的任何一个UIView对象,如Button、Textfield等它都有一条唯一的从keyWindow到它的路径,服务端根据截屏和可视化信息来重新进行页面渲染,并且定期地将截图和相关信息传送到服务器端,从而完成数据采集。因此,无埋点是通过全量、自动收集用户的行为数据,能够简化数据采集成本,但技术瓶颈较高,大规模并发访问环境下,会对***的性能造成影响,并且这种方式不能够进行细粒度的数据采集,只适用大部分、通用的场景,有少部分需要埋点的场景覆盖不了。此外,由于采集的是全量数据,所以产品迭代过程中是不需要关注埋点逻辑的,也不会出现漏埋、误埋等现象。另外,无埋点方式因为收集的是全量数据,可以大大减少运营和产品的试错成本,试错的可能性高了,可以带来更多启发性的信息。
综上,如果只对目标页面进行代码埋点,导致埋点工作量大,以造成埋点混乱的问题,而如果只对目标页面进行无埋点,则会导致数据传输量大、服务器负载压力大的问题。因此,针对上述技术问题,本公开提供一种数据采集方法、装置、***、可读存储介质及电子设备。
请参考图1,图1是根据一示例性实施例示出的一种数据采集方法的流程图。该方法应用于客户端,可以包括以下步骤。
在步骤11中,根据用户的历史页面访问行为特征,确定目标页面的访问热度。
在本公开中,用户的历史页面访问行为特征可以包括:访问每个页面元素(例如,button控件、表格和数控件)的用户标识信息、访问时间点、停留时间等基本信息。具体地,用户针对页面的所有操作均可以被客户端记录形成日志,且可以在每个页面事件程序中加入打印日志的语句。这样,在用户触发事件时,客户端可以将该事件对应的行为特征保存到日志文件中。进而,可根据该日志文件中记录的用户历史页面访问行为特征,确定目标页面的访问热度。其中,该访问热度可以反映该目标页面被用户访问的情况,目标页面的访问热度越高表征该目标页面为最常被用户访问的页面。
在步骤12中,根据目标页面的访问热度,确定目标页面的埋点类型。
其中,埋点类型包括:代码埋点类型和无埋点类型。根据所确定的目标页面的访问热度,客户端可以确定出目标页面的埋点类型,即,确定该目标页面的埋点类型是代码埋点类型还是无埋点类型。
在步骤13中,根据目标页面的埋点类型,采集该目标页面上的用户行为数据。
在确定出目标页面的埋点类型之后,客户端根据该埋点类型采集用户在该目标页面上的用户行为数据。其中,用户行为数据表征用户在该目标页面上的操作,可以包括用户标识信息、时间信息和用户行为数据属性信息等。其中,该用户行为数据属性信息可以是用户访问各网站服务器的次数信息,也可以是访问时长信息等。
示例地,如果目标页面的埋点类型为代码埋点类型,则客户端采用代码埋点的方式采集该目标页面上的用户行为数据。如果目标页面的埋点类型为无埋点类型,则客户端采用无埋点的方式采集该目标页面上的用户行为数据。
在步骤14中,将用户行为数据发送至服务器。
在采集到用户行为数据之后,客户端可以实时将所采集到的用户行为数据发送给服务器,也可以按照预设频率周期性将所采集到的用户行为数据发送给服务器,在本公开中对此不作具体限定。
采用上述技术方案,基于目标页面的访问热度,确定目标页面的不同埋点类型,进而根据不同的埋点类型采集用户行为特征。这样,综合代码埋点类型和无埋点类型进行用户行为数据的采集,可以同时具有代码埋点精准采集和降低网络传输量的优点,以及,无埋点全量自动收集数据和降低埋点维护成本的优点,因此,采用该方法可以实现在精准采集、降低网络传输量的同时降低埋点维护成本的目的。
在步骤11的一种实施方式中,确定目标页面的访问热度可以为:根据用户的历史页面访问行为特征,统计在预设时间段内用户针对目标页面的访问次数,并将该目标页面的访问次数确定为访问热度。具体地,根据用户的历史页面访问行为特征,统计在预设时间段内目标页面上各页面元素的访问次数,之后,将目标页面上的各页面元素的访问次数之和作为该目标页面的访问热度。示例地,目标页面上的各页面元素的访问次数之和越大,表征该目标页面的访问热度越高。其中,预设时间段可以是客户端默认的数值,也可以是用户自行设置的数值,该数值例如可以为:3个月、6个月、1年等。
在另一种实施方式中,如图2所示,确定目标页面的访问热度可以包括以下步骤。
在步骤111中,根据用户的历史页面访问行为特征,获取目标页面上各页面元素在预设时间段内的访问频率。
具体地,统计预设时间段内目标页面上的各页面元素ei被访问的次数c(ei),之后,根据等式确定出目标页面上各页面元素在预设时间段内的访问频率v(ei),其中,ei表示目标页面上的第i个页面元素,ΔT表示该预设时间段的时长。
在步骤112中,将目标页面上各页面元素在预设时间段内的平均访问频率确定为目标页面的访问热度。
在确定出各页面元素在预设时间段的访问频率v(ei)之后,根据各页面元素在预设时间段的访问频率v(ei)和等式确定该目标页面上各页面元素在预设时间段内的平均访问频率v(p),并将v(p)确定为该目标页面的访问热度。其中,m表示该目标页面上的页面元素的总数。同样地,目标页面的平均访问频率越大,表征该目标页面的访问热度越高。
通过上述方式,综合考虑目标页面上的各页面元素,有效地确定该目标页面的访问热度,并确保所确定的目标页面的访问热度的准确性,从而确保根据该目标页面的访问热度所确定的埋点类型的准确性。
考虑到目标页面的访问热度越高表征该目标页面越会被用户频繁访问,针对该目标页面中采集的用户行为数据在数据分析中就会具有较高的质量,因此,需要精准地采集该目标页面上的用户行为数据。此外,又考虑到利用代码埋点采集数据具有精准性、针对性、且采集数据量较小的特点,以及对于频繁访问的情况下能够有效控制前后台数据传输的规模,降低对网络传输和服务器负载压力的优点。因此,对于访问热度较高的目标页面可以采用代码埋点的方式来采集用户行为数据。示例地,由于查询按钮在通常情况下会被用户多次访问,使得包含有该查询按钮的目标页面的访问热度通常会比较高,且该按钮功能比较稳定,不会在每次迭代中做大范围修改,因此,可以将包含有该查询按钮的目标页面的埋点类型确定为代码埋点类型。
而对于访问热度较低的目标页面,由于在业务上该目标页面很少被访问,或者只有一些有权限的用户才能访问该目标页面,对于该目标页面上的页面元素无需频繁维护埋点,且由于访问频率较低,所以不需要考虑全量采集用户行为数据时对网络传输或者服务器负载的压力问题。因此,对于访问热度较低的目标页面可以采用无埋点的方式来采集用户行为数据。
在步骤12的一种实施方式中,首先,预先设置一访问热度阈值。接着,比较目标页面的访问热度和该访问热度阈值,将访问热度大于该访问热度阈值的目标页面确定为用户频繁访问的目标页面,并将该目标页面的埋点类型确定为代码埋点类型。将访问热度小于或等于该访问热度阈值的目标页面确定为用户不常访问的目标页面,并将该目标页面的埋点类型确定为无埋点类型。
在步骤12的另一种实施方式中,如图2所示,步骤12可以具体包括以下步骤。
在步骤121中,根据目标页面的访问热度由高到低的顺序,确定前K个目标页面的埋点类型为代码埋点类型,其余目标页面的埋点类型为无埋点类型。其中,K为大于零的整数,且K小于目标页面的总数。示例地,K可以为n为目标页面的总数。
在本公开中,目标页面可以有多个,示例地,对该多个目标页面按照上文所述的确定目标页面的访问热度的方式分别确定出每个目标页面的访问热度,并按照每个目标页面的访问热度由高到低进行排序,生成一列表。
接着,在该列表中,确定前K个目标页面为用户频繁访问的目标页面,并将该前K个目标页面的埋点类型确定为代码埋点类型,以及,确定其他目标页面为用户不常访问的目标页面,并将这些不常访问的目标页面的埋点类型确定为无埋点类型。
采用上述方式,对于访问热度较高的目标页面采用代码埋点的方式采集用户行为数据,能够达到精确选择采集数据和数据采集量小的优点,同时对于访问热度较低的目标页面采用无埋点的方式采集用户行为数据,实现全量、自动收集用户行为数据,能够简化数据采集成本,降低埋点混乱,避免出现误埋、漏埋等问题。这样,可以解决大规模并发访问场景下的用户行为数据采集效率、降低网络传输负载,提升用户体验。
在根据目标页面的埋点类型,采集到该目标页面上的用户行为数据之后,可以直接将所采集到的用户行为数据发送至服务器。采用该方式,可能会存在一些问题。比如,实时向服务器发送数据,会导致发送数据较为频繁,增加网络传输的工作量,或者,周期性向服务器发送数据,可能会在服务器负载压力较大时发送数据,增加服务器的负载压力。为了避免上述问题,在本公开的优选实施方式中,可以将采集到的数据缓存在客户端中。
具体地,如3所示,客户端在执行图1和图2中的步骤14之前,还可以执行以下步骤。
在步骤15中,将采集到的用户行为数据缓存在客户端。
这样,在采集到用户行为数据之后,可以先将该用户行为数据例如以文件的形式缓存在客户端,以便在合适的时机,再将缓存的用户行为数据发送至服务器,以避免发送数据较为频繁,增加网络传输的工作量。
此外,为了避免在服务器负载较大时,仍向其发送数据,增加服务器接收和处理数据的压力,在一种实施方式中,可以根据服务器的负载使用率情况确定是否向服务器发送用户行为数据。
具体地,如图3所示,步骤14可以具体包括以下步骤。
在步骤141中,向服务器发送负载占用率请求,以获取服务器的负载占用率。
客户端在向服务器发送用户行为数据之前,为了确定服务器当前的负载压力是否可以接收和处理用户行为数据,需获取服务器的负载占用率。因此,在本公开中,客户端首先向服务器发送负载占用率请求。这样,服务器在接收到该负载占用率请求时,可根据当前的中央处理器占用率、内存占有率和网络宽带占用率等,确定出服务器的负载占用率,并将该负载占用率发送至客户端。示例地,服务器可以将中央处理器占用率、内存占有率和网络宽带占用率之和确定为负载占用率。
在步骤142中,接收服务器发送的负载占用率信息,该负载占用率信息包括所述负载占用率。
在步骤143中,在负载占用率小于或等于预设阈值时,将客户端中缓存的用户行为数据发送至所述服务器,之后从客户端的缓存中删除已发送至服务器的用户行为数据。
客户端在接收到服务器发送的负载占用率信息时,可获取到服务器的负载占用率。判断该服务器的负载占用率是否大于预设阈值,在该负载占用率大于该预设阈值时,表明当前服务器负载压力较大,此时,为了避免增大服务器的负载压力,客户端可延迟向服务器发送用户行为数据。在该负载占用率小于或等于该预设阈值时,客户端可将用户行为数据发送至服务器,以使服务器对该用户行为数据进行存储和分析。其中,该预设阈值为常数,且常数的范围可以为[0.5,1)。
采用上述技术方案,向服务器传输数据时,综合考虑服务器的负载使用率情况,在服务器的负载使用率较低时,将用户行为数据发送至服务器,可有效地减低用户行为数据对服务器造成的负载压力。
此外,客户端中缓存有多条数据,如果客户端每次向服务器发送一条数据,需发送多次,相应地,服务器需要接收多次才能将客户端中缓存的数据完全接收,这样,导致服务器接收数据的次数较多。此外,采用该方式发送数据,也将会导致数据发送的时间较长。
为了进一步减少服务器接收用户行为数据的次数,以及较快地将多条用户行为数据发送至服务器,本公开中,步骤143的具体实施方式可以为:首先,将客户端中缓存的用户行为数据按照预设数据条数分组压缩,获得至少一组压缩数据。示例地,可以按照每x条数据进行分组,将缓存在客户端中的多条数据分成至少一组,并对该至少一组数据进行压缩处理以得到至少一组压缩数据。然后,再将该至少一组压缩数据发送至服务器。其中,x为大于1且不大于客户端中缓存的数据的总条数的整数,且x可以为经验值常数。
需要说明的是,服务器在接收到该至少一组压缩数据后,按照与客户端对该至少一组数据压缩的压缩方式对应的解压方式对该至少一组压缩数据进行解压,以获得用户行为数据,进而对该用户行为数据进行分析。
采用上述方式,可减少服务器接收用户行为数据的次数,进一步降低对服务器造成的负载压力,此外,由于压缩后的数据可以较快传输,因此,客户端可以较快地将多条用户行为数据发送至服务器,减少数据传输时间。
基于同一发明构思,本公开还提供一种数据采集装置。请参考图4,图4是根据一示例性实施例示出的一种数据采集装置的框图。该装置应用于客户端,可以包括:
第一确定模块41,用于根据用户的历史页面访问行为特征,确定目标页面的访问热度;
第二确定模块42,用于根据所述目标页面的访问热度,确定所述目标页面的埋点类型,所述埋点类型包括:代码埋点类型和无埋点类型;
采集模块43,用于根据所述目标页面的埋点类型,采集所述目标页面上的用户行为数据;
发送模块44,用于将所述用户行为数据发送至服务器。
可选地,所述目标页面为多个;所述第二确定模块包括:
第一确定子模块,用于根据所述目标页面的访问热度由高到低的顺序,确定前K个目标页面的埋点类型为代码埋点类型,其余目标页面的埋点类型为无埋点类型,其中,K为大于零的整数,且K小于所述目标页面的总数。
可选地,所述第一确定模块包括:
第一获取子模块,用于根据所述用户的页面访问行为特征,获取所述目标页面上各页面元素在预设时间段内的访问频率;
第二确定子模块,用于将所述目标页面上各页面元素在所述预设时间段内的平均访问频率确定为所述目标页面的访问热度。
可选地,所述装置还包括:
缓存模块,用于将采集到的所述用户行为数据缓存在所述客户端。
可选地,所述发送模块包括:
第一发送子模块,用于向所述服务器发送负载占用率请求,以获取所述服务器的负载占用率;
接收子模块,用于接收所述服务器发送的负载占用率信息,所述负载占用率信息包括所述负载占用率;
第二发送子模块,用于在所述负载占用率小于或等于预设阈值时,将所述缓存模块中缓存的所述用户行为数据发送至所述服务器;
删除子模块,用于在第二发送子模块将所述缓存模块中缓存的所述用户行为数据发送至所述服务器之后,从所述缓存模块中删除已发送至所述服务器的用户行为数据。
可选地,所述第二发送子模块包括:
第二获取子模块,用于将所述缓存模块中缓存的所述用户行为数据按照预设数据条数分组压缩,获得至少一组压缩数据;
第三发送子模块,用于将所述至少一组压缩数据发送至所述服务器。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
基于同一发明构思,本公开还提供一种数据采集***,包括:
客户端,用于执行本公开所提供的数据采集方法的步骤;
服务器,用于接收所述客户端发送的所述用户行为数据。
图5是根据一示例性实施例示出的一种电子设备的框图。如图5所示,该电子设备500可以包括:处理器501,存储器502。该电子设备500还可以包括多媒体组件503,输入/输出(I/O)接口504,以及通信组件505中的一者或多者。
其中,处理器501用于控制该电子设备500的整体操作,以完成上述的数据采集方法中的全部或部分步骤。存储器502用于存储各种类型的数据以支持在该电子设备500的操作,这些数据例如可以包括用于在该电子设备500上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器502可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件503可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器502或通过通信组件505发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口504为处理器501和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件505用于该电子设备500与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件505可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
在一示例性实施例中,电子设备500可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的数据采集方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的数据采集方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器502,上述程序指令可由电子设备500的处理器501执行以完成上述的数据采集方法。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (10)

1.一种数据采集方法,其特征在于,应用于客户端,所述方法包括:
根据用户的历史页面访问行为特征,确定目标页面的访问热度;
根据所述目标页面的访问热度,确定所述目标页面的埋点类型,所述埋点类型包括:代码埋点类型和无埋点类型;
根据所述目标页面的埋点类型,采集所述目标页面上的用户行为数据;
将所述用户行为数据发送至服务器。
2.根据权利要求1所述的方法,其特征在于,所述目标页面为多个;所述根据所述目标页面的访问热度,确定所述目标页面的埋点类型,包括:
根据所述目标页面的访问热度由高到低的顺序,确定前K个目标页面的埋点类型为代码埋点类型,其余目标页面的埋点类型为无埋点类型,其中,K为大于零的整数,且K小于所述目标页面的总数。
3.根据权利要求1所述的方法,其特征在于,所述根据用户的历史页面访问行为特征,确定目标页面的访问热度,包括:
根据所述用户的历史页面访问行为特征,获取所述目标页面上各页面元素在预设时间段内的访问频率;
将所述目标页面上各页面元素在所述预设时间段内的平均访问频率确定为所述目标页面的访问热度。
4.根据权利要求1-3中任一项所述的方法,其特征在于,在所述将所述用户行为数据发送至服务器的步骤之前,所述方法还包括:
将采集到的所述用户行为数据缓存在所述客户端。
5.根据权利要求4所述的方法,其特征在于,所述将所述用户行为数据发送至服务器,包括:
向所述服务器发送负载占用率请求,以获取所述服务器的负载占用率;
接收所述服务器发送的负载占用率信息,所述负载占用率信息包括所述负载占用率;
在所述负载占用率小于或等于预设阈值时,将所述客户端中缓存的所述用户行为数据发送至所述服务器,之后从所述客户端的缓存中删除已发送至所述服务器的用户行为数据。
6.根据权利要求5所述的方法,其特征在于,所述将所述客户端中缓存的所述用户行为数据发送至所述服务器,包括:
将所述客户端中缓存的所述用户行为数据按照预设数据条数分组压缩,获得至少一组压缩数据;
将所述至少一组压缩数据发送至所述服务器。
7.一种数据采集装置,其特征在于,应用于客户端,所述装置包括:
第一确定模块,用于根据用户的历史页面访问行为特征,确定目标页面的访问热度;
第二确定模块,用于根据所述目标页面的访问热度,确定所述目标页面的埋点类型,所述埋点类型包括:代码埋点类型和无埋点类型;
采集模块,用于根据所述目标页面的埋点类型,采集所述目标页面上的用户行为数据;
发送模块,用于将所述用户行为数据发送至服务器。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-6中任一项所述方法的步骤。
9.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-6中任一项所述方法的步骤。
10.一种数据采集***,其特征在于,包括:
客户端,用于执行权利要求1-6中任一项所述方法的步骤;
服务器,用于接收所述客户端发送的所述用户行为数据。
CN201811457334.6A 2018-11-30 2018-11-30 数据采集方法、装置、***、可读存储介质及电子设备 Pending CN109740089A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811457334.6A CN109740089A (zh) 2018-11-30 2018-11-30 数据采集方法、装置、***、可读存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811457334.6A CN109740089A (zh) 2018-11-30 2018-11-30 数据采集方法、装置、***、可读存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN109740089A true CN109740089A (zh) 2019-05-10

Family

ID=66359111

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811457334.6A Pending CN109740089A (zh) 2018-11-30 2018-11-30 数据采集方法、装置、***、可读存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN109740089A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322250A (zh) * 2019-05-22 2019-10-11 深圳壹账通智能科技有限公司 无效用户操作路径识别方法、装置、设备及存储介质
CN110543509A (zh) * 2019-09-04 2019-12-06 北京奇艺世纪科技有限公司 用户访问数据的监控***、方法、装置及电子设备
CN111190899A (zh) * 2019-11-26 2020-05-22 泰康保险集团股份有限公司 一种埋点数据处理方法、装置、服务器及存储介质
CN111310044A (zh) * 2020-02-14 2020-06-19 北京百度网讯科技有限公司 页面元素信息的提取方法、装置、设备和存储介质
CN111352969A (zh) * 2020-02-28 2020-06-30 广州市千钧网络科技有限公司 一种埋点数据分析方法、装置及电子设备
CN112163167A (zh) * 2020-11-10 2021-01-01 平安普惠企业管理有限公司 基于大数据平台的智能决策方法、***、设备及介质
CN112199265A (zh) * 2020-10-15 2021-01-08 苏州龙盈软件开发有限公司 一种快应用统计方法及***
CN112506582A (zh) * 2020-12-18 2021-03-16 北京百度网讯科技有限公司 小程序数据包处理方法、装置、设备及介质
CN113190411A (zh) * 2021-05-12 2021-07-30 北京奇艺世纪科技有限公司 数据处理方法、装置、电子设备及存储介质
CN113486123A (zh) * 2021-09-08 2021-10-08 深圳高灯计算机科技有限公司 行为数据同步方法、装置、计算机设备和存储介质
CN114827281A (zh) * 2022-03-10 2022-07-29 北京百度网讯科技有限公司 一种网络请求的发送及接收方法、***及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090055467A1 (en) * 2007-05-29 2009-02-26 Concert Technology Corporation System and method for increasing data availability on a mobile device based on operating mode
CN102111453A (zh) * 2011-03-04 2011-06-29 创博亚太科技(山东)有限公司 一种提取互联网用户网络行为的方法和***
CN104699424A (zh) * 2015-03-26 2015-06-10 华中科技大学 一种基于页面热度的异构内存管理方法
CN107609004A (zh) * 2017-07-21 2018-01-19 深圳市小牛在线互联网信息咨询有限公司 应用程序埋点方法和装置、计算机设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090055467A1 (en) * 2007-05-29 2009-02-26 Concert Technology Corporation System and method for increasing data availability on a mobile device based on operating mode
CN102111453A (zh) * 2011-03-04 2011-06-29 创博亚太科技(山东)有限公司 一种提取互联网用户网络行为的方法和***
CN104699424A (zh) * 2015-03-26 2015-06-10 华中科技大学 一种基于页面热度的异构内存管理方法
CN107609004A (zh) * 2017-07-21 2018-01-19 深圳市小牛在线互联网信息咨询有限公司 应用程序埋点方法和装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MORKETING: "《数据分析效果不佳?选择埋点方式很重要》", 9 May 2017, HTTPS://MY.MBD.BAIDU.COM/3ZUY4EQ9PU?F=CP&U=23B39D3C3D983675 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322250A (zh) * 2019-05-22 2019-10-11 深圳壹账通智能科技有限公司 无效用户操作路径识别方法、装置、设备及存储介质
CN110543509A (zh) * 2019-09-04 2019-12-06 北京奇艺世纪科技有限公司 用户访问数据的监控***、方法、装置及电子设备
CN110543509B (zh) * 2019-09-04 2022-06-03 北京奇艺世纪科技有限公司 用户访问数据的监控***、方法、装置及电子设备
CN111190899A (zh) * 2019-11-26 2020-05-22 泰康保险集团股份有限公司 一种埋点数据处理方法、装置、服务器及存储介质
CN111190899B (zh) * 2019-11-26 2023-08-15 泰康保险集团股份有限公司 一种埋点数据处理方法、装置、服务器及存储介质
CN111310044A (zh) * 2020-02-14 2020-06-19 北京百度网讯科技有限公司 页面元素信息的提取方法、装置、设备和存储介质
CN111310044B (zh) * 2020-02-14 2023-09-26 北京百度网讯科技有限公司 页面元素信息的提取方法、装置、设备和存储介质
CN111352969B (zh) * 2020-02-28 2023-12-05 广州市千钧网络科技有限公司 一种埋点数据分析方法、装置及电子设备
CN111352969A (zh) * 2020-02-28 2020-06-30 广州市千钧网络科技有限公司 一种埋点数据分析方法、装置及电子设备
CN112199265A (zh) * 2020-10-15 2021-01-08 苏州龙盈软件开发有限公司 一种快应用统计方法及***
CN112163167A (zh) * 2020-11-10 2021-01-01 平安普惠企业管理有限公司 基于大数据平台的智能决策方法、***、设备及介质
CN112506582B (zh) * 2020-12-18 2024-04-09 北京百度网讯科技有限公司 小程序数据包处理方法、装置、设备及介质
CN112506582A (zh) * 2020-12-18 2021-03-16 北京百度网讯科技有限公司 小程序数据包处理方法、装置、设备及介质
CN113190411A (zh) * 2021-05-12 2021-07-30 北京奇艺世纪科技有限公司 数据处理方法、装置、电子设备及存储介质
CN113486123B (zh) * 2021-09-08 2022-02-25 深圳高灯计算机科技有限公司 行为数据同步方法、装置、计算机设备和存储介质
CN113486123A (zh) * 2021-09-08 2021-10-08 深圳高灯计算机科技有限公司 行为数据同步方法、装置、计算机设备和存储介质
CN114827281A (zh) * 2022-03-10 2022-07-29 北京百度网讯科技有限公司 一种网络请求的发送及接收方法、***及装置
CN114827281B (zh) * 2022-03-10 2023-09-29 北京百度网讯科技有限公司 一种网络请求的发送及接收方法、***及装置

Similar Documents

Publication Publication Date Title
CN109740089A (zh) 数据采集方法、装置、***、可读存储介质及电子设备
KR101782810B1 (ko) 단말의 위치를 결정하기 위한 방법, 장치 및 시스템
WO2019120037A1 (zh) 模型构建方法、网络资源预加载方法、装置、介质及终端
US10489476B2 (en) Methods and devices for preloading webpages
CN108495195A (zh) 一种网络直播排行榜生成方法、装置、设备及存储介质
US20140250051A1 (en) Method and system for creating a predictive model for targeting web-page to a surfer
CN107450903B (zh) 一种信息处理方法及装置
CN108055302B (zh) 一种图片缓存处理方法、***和服务器
CN108108286A (zh) 数据收集方法和装置、服务器、存储介质
CN106357789B (zh) 一种信息访问控制方法、服务器及计算机可读存储介质
JP6100900B2 (ja) データのオンライン処理のための方法、デバイスおよびシステム
CN111966887B (zh) 动态缓存方法及装置、电子设备、存储介质
US20170171311A1 (en) System and Method for Preemptive Request Processing
CN110263001A (zh) 文件管理方法、装置、***、设备及计算机可读存储介质
CN113821721A (zh) 基于用户画像的多渠道消息方法、装置和计算机设备
Ravindra et al. Latency aware elastic switching-based stream processing over compressed data streams
CN114840565A (zh) 抽样查询方法、装置、电子设备及计算机可读存储介质
CN116841978A (zh) 基于分布式文件***的路径解析方法、装置及存储介质
CN113114734B (zh) 信息处理方法、装置、设备及存储介质
CN112597354A (zh) 一种提供配置参数的方法、装置、***及存储介质
US9380413B1 (en) Dynamically forming the content of a message to a user based on a perceived emotion
US10506063B2 (en) Method and apparatus for caching user generated content messages
CN104869171A (zh) 一种信息处理方法及智能家居设备
KR100462829B1 (ko) 명령어의 유효성 판단 방법 및 그 시스템
CN116561735B (zh) 一种基于多认证源的互信认证方法、***及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190510

RJ01 Rejection of invention patent application after publication