CN110471945A - 活跃数据的处理方法、***、计算机设备和存储介质 - Google Patents

活跃数据的处理方法、***、计算机设备和存储介质 Download PDF

Info

Publication number
CN110471945A
CN110471945A CN201910606335.0A CN201910606335A CN110471945A CN 110471945 A CN110471945 A CN 110471945A CN 201910606335 A CN201910606335 A CN 201910606335A CN 110471945 A CN110471945 A CN 110471945A
Authority
CN
China
Prior art keywords
user
data
event
information
statistical criteria
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910606335.0A
Other languages
English (en)
Other versions
CN110471945B (zh
Inventor
王先锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN201910606335.0A priority Critical patent/CN110471945B/zh
Publication of CN110471945A publication Critical patent/CN110471945A/zh
Application granted granted Critical
Publication of CN110471945B publication Critical patent/CN110471945B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及数据处理技术领域,本发明提供一种活跃数据的处理方法和***,所述方法包括:将埋点活跃数据中的事件信息和用户信息分类;按照事件类型对事件信息进行分类存储,得到活跃事件表;将相同用户的用户信息进行合并,按照用户属性类型对用户信息进行分类存储,得到用户列表;获取输入的统计口径,根据统计口径从活跃事件表和用户列表中进行关联查询,得到目标活跃数据。上述方法,埋点活跃数据按照分类存储,按照统计口径在各个分类下的统计标准可以对应地查找满足统计标准下的埋点活跃数据,关联后即可筛选出满足统计口径的目标活跃数据,可以避免根据统计口径中各类型统计标准之间的联系编写脚本,降低工作量,提高活跃数据提取的效率。

Description

活跃数据的处理方法、***、计算机设备和存储介质
技术领域
本发明涉及数据处理技术领域,具体而言,本发明涉及一种活跃数据的处理方法、活跃数据的处理***、计算机设备和存储介质。
背景技术
随着越来越多的业务平台将业务处理进行信息化的推进,受到广大用户的欢迎。当业务平台中所面向的用户以及可操作业务类型多,该业务平台的流量会很相应增大。通过对业务平台进行数据埋点后并统计活跃数据,可以满足对业务平台的流量进行分析,进而可以一定程度分析该业务平台的优化需求或当前用户需求。
现有技术中,一般可以通过固定的接口获取约定的统计口径下的活跃数据,对于其他统计口径则需要编写对应的脚本来获取活跃数据。但是根据统计口径编写脚本的过程复杂,降低活跃数据提取的效率。
发明内容
本发明的目的旨在至少能解决上述的技术缺陷之一,特别是活跃数据提取效率低的技术缺陷。
本发明提供一种活跃数据的处理方法,包括如下步骤:
获取业务平台的埋点活跃数据,将所述埋点活跃数据中的事件信息和用户信息分类;
按照事件类型对所述事件信息进行分类存储,得到活跃事件表;
将相同用户的用户信息进行合并,按照用户属性类型对所述用户信息进行分类存储,得到用户列表;
获取输入的统计口径,根据所述统计口径从所述活跃事件表和所述用户列表中进行关联查询,得到目标活跃数据。
在一个实施例中,所述获取业务平台的埋点活跃数据的步骤,包括:
获取业务平台的原始埋点数据,对所述原始埋点数据进行缺失值检测和异常值检测,将具有缺失值和异常值的原始埋点数据以及重复的原始埋点据数据进行去除,获得所述埋点活跃数据。
在一个实施例中,在所述根据所述统计口径从所述活跃事件表和所述用户列表中进行关联查询的步骤之前,还包括:
接收新增的埋点活跃数据,从所述新增的埋点活跃数据中分离出新增事件信息和新增用户信息;按照所述事件类型对所述新增事件信息进行分类存储,得到增量事件表,并将所述增量事件表添加至所述活跃事件表;根据所述新增用户信息更新所述用户列表。
在一个实施例中,在所述将所述增量事件表添加至所述活跃事件表的步骤之后,还包括:
接收所述新增的埋点活跃数据的上传数据笔数;记录所述活跃事件表的第一事件条数和第二事件条数,并将所述第一事件条数和所述第二事件条数的差值作为录入数据条数,其中,第一事件条数和第二事件条数分别为在所述活跃事件表中添加所述增量事件表之前的和之后的事件信息的条数;判断所述上传数据笔数是否等于所述录入数据条数;在所述上传数据笔数等于所述录入数据条数时,判定所述活跃事件表的数据完整,并执行所述根据所述统计口径从所述活跃事件表和所述用户列表中进行关联查询的步骤;在所述上传数据笔数不等于所述录入数据条数时,生成用于表示数据异常的提醒信息。
在一个实施例中,所述根据所述统计口径从所述活跃事件表和所述用户列表中进行关联查询的步骤,包括:
从所述统计口径中分离事件统计口径和用户属性统计口径;在所述活跃事件表调取属于所述事件统计口径的目标事件信息;在所述用户列表中调取与所述目标事件信息所关联用户的目标用户信息;根据所述用户属性统计口径筛选所述目标用户信息,得到活跃用户信息;统计所述活跃用户信息,得到所述目标活跃数据,并绘制用户图谱。
在一个实施例中,所述根据所述统计口径从所述活跃事件表和所述用户列表中进行关联查询的步骤,包括:
从所述统计口径中分离所述事件统计口径和所述用户属性统计口径;在所述用户列表中调取属于所述用户属性统计口径的目标用户信息;在所述活跃事件表调取与所述目标用户信息所关联用户的目标事件信息;从所述目标事件信息中统计属于所述事件统计口径的所述目标活跃数据。
在一个实施例中,所述获取统计口径的步骤,包括:
将标签生成器中所获取的口径数据作为参数标签,保存并显示所述参数标签,其中,所述标签生成器用于生成与事件类型和/或用户属性类型相关的参数标签;获取参数池子中的参数标签,并根据所述参数池子中的参数标签生成所述统计口径,其中,所述参数池子为用于识别参数标签对应统计口径的输入框。
本发明还提供一种活跃数据的处理***,包括:
分类模块,用于获取业务平台的埋点活跃数据,将所述埋点活跃数据中的事件信息和用户信息分类;
存储模块,用于按照事件类型对所述事件信息进行分类存储,得到活跃事件表;
合并模块,用于将相同用户的用户信息进行合并,按照用户属性类型对所述用户信息进行分类存储,得到用户列表;
查询模块,用于获取输入的统计口径,根据所述统计口径从所述活跃事件表和所述用户列表中进行关联查询,得到目标活跃数据。
本发明还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例所述活跃数据的处理方法的步骤。
本发明还提供一种存储有计算机可读指令的存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述活跃数据的处理方法的步骤。
上述的活跃数据的处理方法、***、计算机设备和存储介质,埋点活跃数据已经按照分类存储,再按照统计口径在各个分类下的统计标准可以对应地查找满足统计标准下的埋点活跃数据,并将各个分类下满足统计标准下的埋点活跃数据进行关联,即可筛选出满足统计口径的目标活跃数据,避免根据统计口径中各类型统计标准之间的联系编写脚本,降低工作量,提高活跃数据提取的效率。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为一个实施例中提供的活跃数据的处理方法的实施环境图;
图2为一个实施例中活跃数据的处理方法的流程图;
图3为一个实施例中活跃数据的处理方法的流程图;
图4为一个实施例中活跃数据的处理***的结构示意图;
图5为一个实施例中计算机设备的内部结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
如图1所示,图1为一个实施例中提供的活跃数据的处理方法的实施环境图,在该实施环境中,包括计算机设备110以及业务平台120。
计算机设备110与业务平台120连接。业务平台120上可以具备数据埋点,数据埋点可以用于后续进行业务平台120中活跃数据的采集。计算机设备110具有运算和存储的能力,可以分析业务平台120中的活跃数据。计算机设备110可为笔记本电脑、台式计算机等,但并不局限于此。
在一个实施例中,如图2所示,图2为一个实施例中活跃数据的处理方法的流程图,本实施例中提出了一种活跃数据的处理方法,该活跃数据的处理方法可以应用于上述的计算机设备110中,具体可以包括以下步骤:
步骤S210:获取业务平台的埋点活跃数据,将埋点活跃数据中的事件信息和用户信息分类。
本步骤中,埋点活跃数据可以记录用户与行为事件之间的关系,因此可以通过分别对埋点活跃数据中与行为事件相关的和与用户相关的数据进行加工,得到埋点活跃数据中的事件信息和用户信息。
具体地,步骤S210中获取业务平台的埋点活跃数据的步骤,可以包括:
获取业务平台的原始埋点数据,对原始埋点数据进行缺失值检测和异常值检测,将具有缺失值和异常值的原始埋点数据以及重复的原始埋点据数据进行去除,获得埋点活跃数据。
一般是根据数据埋点对业务平台中原始埋点数据进行采集,采集后的原始埋点数据偶尔会存在缺失、异常、重复、噪声等不良情况。上述获得埋点活跃数据的方式,可以通过原始埋点数据进行清洗,分别将具有缺失值和异常值的原始埋点数据以及重复的原始埋点据数据进行去除,即去除具有不良情况的原始埋点数据,获得数据完整的埋点活跃数据,可以尽量避免后续埋点活跃数据处理时因数据异常导致的出错,降低出错率。
步骤S220:按照事件类型对事件信息进行分类存储,得到活跃事件表。
本步骤中,按照事件类型对事件信息进行分类,存储已确定事件类型的事件信息和该事件类型,即按照事件类型存储埋点活跃数据。其中,事件类型可以根据业务平台所提供的业务、功能进行规划设计,可以预先定义若干个事件类型。在以银行保险业务为例的业务平台中,可以划分包括保单事件、用户转化事件、用户注册事件、登录登出事件等事件类型,所划分的事件类型往往与其业务部门相关的关注的业务类型和业务数据有关。
步骤S230:将相同用户的用户信息进行合并,按照用户属性类型对用户信息进行分类存储,得到用户列表。
用户可以在业务平台中操作多个事件,因此部分埋点活跃数据会来自相同的用户,合并相同用户在埋点活跃数据中的用户信息,同一个用户具有一份用户信息,可以减少对用户信息的重复存储。本步骤中,根据无重复用户的用户信息,即可以对产生包含埋点活跃数据中所有用户对应用户信息的用户列表;同时还可以确定用户信息的用户属性类型。其中,用户属性类型的种类越多,越有利于适应精细度高统计口径,或者有利于绘制精细的用户图谱。对用户信息进行分类的过程,可以确定用户信息内各种信息对应的用户属性类型,以及将各种信息以及对应的用户属性类型关联存储。用户信息可以包含用户性别、用户年龄、用户所在地区、用户职业、用户账户内金额等各种信息,用户属性类型可以包括性别、年龄、地区、职业、账户金额等类型,将用户信息中的用户性别分类为性别类型并以性别类型对该用户性别进行存储,如此类推存储该用户信息中的用户年龄、用户所在地区、用户职业、用户账户内金额等信息。
步骤S240:获取输入的统计口径,根据统计口径从活跃事件表和用户列表中进行关联查询,得到目标活跃数据。
本步骤中,在活跃事件表和用户列表中查询满足统计口径的目标活跃数据。
其中,步骤S240中获取统计口径的步骤,可以包括:
S241:将标签生成器中所获取的口径数据作为参数标签,保存并显示参数标签,其中,标签生成器用于生成与事件类型和/或用户属性类型相关的参数标签。
本步骤中,用户通过可视化操作页面在标签生成器中输入口径数据,将该口径数据作为参数标签,参数标签即可以代表某一个用于表示统计标准的口径数据。该参数标签可以显示在可视化操作页面,并可以被拖动。向标签生成器输入口径数据的方式可以建立该参数标签,标签生成器也可以预先定义常用口径数据作为参数标签。
在参数标签被用户拖动至参数池子之后,S242:可以识别和获取参数池子中的参数标签,并根据参数池子中的参数标签生成统计口径,其中,参数池子为用于识别参数标签对应统计口径的输入框。
本步骤中,识别参数池子中的参数标签,可以根据所识别参数标签相应的口径数据计算统计口径,避免通过撰写脚本来确定统计口径,减少工作量。
上述获取输入的统计口径的方式中,可以在可视化下快速直接构建统计口径,降低确定统计口径的工作量,提高活跃数据提取的效率。
上述活跃数据的处理方法,埋点活跃数据已经按照分类存储,再按照统计口径在各个分类下的统计标准可以对应地查找满足统计标准下的埋点活跃数据,并将各个分类下满足统计标准下的埋点活跃数据进行关联,即可筛选出满足统计口径的目标活跃数据,避免根据统计口径中各类型统计标准之间的联系编写脚本,降低工作量,提高活跃数据提取的效率。
进一步地,在得到用户列表之后,可以将活跃事件表和用户列表存储在神策***的数据库中,并由神策***对活跃事件表和用户列表之间进行关联操作,以便于后续进行关联查询。
在一个实施例中,在步骤S240中根据统计口径从活跃事件表和用户列表中进行关联查询的步骤之前,还可以包括:
S251:接收新增的埋点活跃数据,从新增的埋点活跃数据中分离出新增事件信息和新增用户信息。
本步骤中,接收埋点活跃数据在一定预设时间内新增的增量数据,即新增的埋点活跃数据。
S252:按照事件类型对新增事件信息进行分类存储,得到增量事件表,并将增量事件表添加至活跃事件表。
本步骤中,对新增时间信息以添加增量的方式添加至活跃事件表,具体可以对新增事件信息进行分类后存储为增量事件表,并将增量事件表合并至活跃事件表中。
S253:根据新增用户信息更新用户列表。
本步骤中,由于用户列表中相同用户的用户信息不重复,对于接收增量数据后,可以按照合并相同用户的用户信息来更新用户列表;也可以通过对比新增用户信息和用户列表的用户信息,查找不存在用户列表中新增用户信息,将该新增用户信息添加至用户列表,完成用户列表的更新。
上述活跃数据的处理方法,通过接收一定预设时间内新增数据,更新埋点活跃数据对应的活跃事件表和用户列表,不需要每次都接收海量的埋点活跃数据,避免浪费数据传输和数据存储的资源,可以降低成本。
在一个实施例中,在S251中将增量事件表添加至活跃事件表的步骤之后,还可以包括:
S261:接收新增的埋点活跃数据的上传数据笔数。
本步骤中,可以在接收新增的埋点活跃数据的同时,同时所接收数据的增量。
S262:记录活跃事件表的第一事件条数和第二事件条数,并将第一事件条数和第二事件条数的差值作为录入数据条数,其中,第一事件条数和第二事件条数分别为在活跃事件表中添加增量事件表之前的和之后的事件信息的条数。
本步骤中,计算新增事件信息后的活跃事件表中数据的增量。
S263:判断上传数据笔数是否等于录入数据条数。
本步骤中,判断接收的增量与存储数据的增量是否对应,即可以判断上传数据笔数是否等于录入数据条数。
S264:在上传数据笔数等于录入数据条数时,判定活跃事件表的数据完整,并执行根据统计口径从活跃事件表和用户列表中进行关联查询的步骤。
本步骤中,当接收的增量与存储数据的增量是对应的,可以是上传数据笔数等于录入数据条数,则表示接收和存储的数据是具有一致性的,保障数据的完整后,可以继续执行后续的步骤。
S265:在上传数据笔数不等于录入数据条数时,生成用于表示数据异常的提醒信息。
本步骤中,当接收的增量与存储数据的增量是存在差异,可以是上传数据笔数不等于录入数据条数,则表示传输或存储过程中出现数据缺失或数据异常,可以生成和发送表示数据异常的提醒信息,用于提醒。
上述活跃数据的处理方法,通过接收的增量与存储数据的增量来校验新增数据是否满足一致性,可以保障新增数据后的埋点活跃数据的完整性。
在一个实施例中,步骤S240中根据统计口径从活跃事件表和用户列表中进行关联查询的步骤,可以包括:
A1:从统计口径中分离事件统计口径和用户属性统计口径。
A2:在活跃事件表调取属于事件统计口径的目标事件信息。
A3:在用户列表中调取与目标事件信息所关联用户的目标用户信息。
A4:根据用户属性统计口径筛选目标用户信息,得到活跃用户信息。
A5:统计活跃用户信息,得到目标活跃数据,并绘制用户图谱。
上述活跃数据的处理方法,根据统计口径中事件统计口径对应的目标事件信息,再与用户属性统计口径下进行关联查询,并统计活跃用户信息,得到目标活跃数据,可以根据该目标活跃数据绘制用户图谱。
在一个实施例中,步骤S240中根据统计口径从活跃事件表和用户列表中进行关联查询的步骤,可以包括:
B1:从统计口径中分离事件统计口径和用户属性统计口径。
B2:在用户列表中调取属于用户属性统计口径的目标用户信息。
B3:在活跃事件表调取与目标用户信息所关联用户的目标事件信息。
B4:从目标事件信息中统计属于事件统计口径的目标活跃数据。
上述活跃数据的处理方法,根据统计口径中用户属性统计口径对应的目标用户信息,再与事件统计口径下进行关联查询,统计目标事件信息后可以得到目标活跃数据。
在另一个实施例中,如图3所示,图3为一个实施例中活跃数据的处理方法的流程图,本实施例提供一种活跃数据的处理方法,具体可以包括以下步骤:
S310:获取业务平台的原始埋点数据,对原始埋点数据进行清洗并获得埋点活跃数据。对原始埋点数据进行缺失值检测和异常值检测,将具有缺失值和异常值的原始埋点数据以及重复的原始埋点据数据进行去除,获得埋点活跃数据。
S320:将埋点活跃数据中的事件信息和用户信息分类。
S330:按照事件类型对事件信息进行分类存储,得到活跃事件表。按照事件类型对事件信息进行分类,存储已确定事件类型的事件信息和该事件类型,即按照事件类型存储埋点活跃数据。其中,事件类型可以根据业务平台所提供的业务、功能进行规划设计,可以预先定义若干个事件类型。在以银行保险业务为例的业务平台中,可以划分包括保单事件、用户转化事件、用户注册事件、登录登出事件等事件类型,所划分的事件类型往往与其业务部门相关的关注的业务类型和业务数据有关。
S340:将相同用户的用户信息进行合并,按照用户属性类型对用户信息进行分类存储,得到用户列表。用户可以在业务平台中操作多个事件,因此部分埋点活跃数据会来自相同的用户,同一个用户具有一份用户信息,为减少重复存储的用户信息,合并相同用户在埋点活跃数据中的用户信息。本步骤中,根据无重复用户的用户信息,即可以对产生包含埋点活跃数据中所有用户对应用户信息的用户列表;同时还确定用户信息的用户属性类型。其中,用户属性类型的种类越多,越有利于适应精细度高统计口径,或者有利于绘制精细的用户图谱。
S350:接收新增的埋点活跃数据,更新活跃事件表和用户列表。接收新增的埋点活跃数据的上传数据笔数。从新增的埋点活跃数据中分离出新增事件信息和新增用户信息。按照事件类型对新增事件信息进行分类存储,得到增量事件表,并将增量事件表添加至活跃事件表。根据新增用户信息更新用户列表。
S360:检验更新后活跃事件表和用户列表中的数据一致性。记录活跃事件表的第一事件条数和第二事件条数,并将第一事件条数和第二事件条数的差值作为录入数据条数,其中,第一事件条数和第二事件条数分别为在活跃事件表中添加增量事件表之前的和之后的事件信息的条数。判断上传数据笔数是否等于录入数据条数。在上传数据笔数等于录入数据条数时,判定活跃事件表的数据完整,并执行根据统计口径从活跃事件表和用户列表中进行关联查询的步骤。在上传数据笔数不等于录入数据条数时,生成用于表示数据异常的提醒信息。
S370:获取输入的统计口径。在标签生成器中输入口径数据并生成参数标签,保存并显示参数标签,其中,标签生成器用于生成与事件类型和/或用户属性类型相关的参数标签。在参数标签被拖动至参数池子之后,可以获取参数池子中的参数标签,并根据参数池子中的参数标签生成统计口径,其中,参数池子为用于识别参数标签对应统计口径的输入框。
S380:根据统计口径从活跃事件表和用户列表中进行关联查询,得到目标活跃数据。
从统计口径中分离事件统计口径和用户属性统计口径;在活跃事件表调取属于事件统计口径的目标事件信息;在用户列表中调取与目标事件信息所关联用户的目标用户信息;根据用户属性统计口径筛选目标用户信息,得到活跃用户信息;统计活跃用户信息,得到目标活跃数据,并绘制用户图谱。
或者,从统计口径中分离事件统计口径和用户属性统计口径;在用户列表中调取属于用户属性统计口径的目标用户信息;在活跃事件表调取与目标用户信息所关联用户的目标事件信息;从目标事件信息中统计属于事件统计口径的目标活跃数据。
上述活跃数据的处理方法,埋点活跃数据已经按照分类存储,再按照统计口径在各个分类下的统计标准可以对应地查找满足统计标准下的埋点活跃数据,并将各个分类下满足统计标准下的埋点活跃数据进行关联,即可筛选出满足统计口径的目标活跃数据,避免根据统计口径中各类型统计标准之间的联系编写脚本,降低工作量,提高活跃数据提取的效率。同时可以在可视化下快速直接构建统计口径,降低确定统计口径的工作量,提高活跃数据提取的效率。
在一个实施例中,如图4所示,图4为一个实施例中活跃数据的处理***的结构示意图,本实施例中提供一种活跃数据的处理***,可以包括分类模块410、存储模块420、合并模块430和查询模块440,其中:
分类模块410,用于获取业务平台的埋点活跃数据,将埋点活跃数据中的事件信息和用户信息分类。
分类模块410中,埋点活跃数据可以记录用户与行为事件之间的关系,因此可以通过分别对埋点活跃数据中与行为事件相关的和与用户相关的数据进行加工,得到埋点活跃数据中的事件信息和用户信息。
存储模块420,用于按照事件类型对事件信息进行分类存储,得到活跃事件表。
存储模块420可以按照事件类型对事件信息进行分类,存储已确定事件类型的事件信息和该事件类型,即按照事件类型存储埋点活跃数据。其中,事件类型可以根据业务平台所提供的业务、功能进行规划设计,可以预先定义若干个事件类型。在以银行保险业务为例的业务平台中,可以划分包括保单事件、用户转化事件、用户注册事件、登录登出事件等事件类型,所划分的事件类型往往与其业务部门相关的关注的业务类型和业务数据有关。
合并模块430,用于将相同用户的用户信息进行合并,按照用户属性类型对用户信息进行分类存储,得到用户列表。
用户可以在业务平台中操作多个事件,因此部分埋点活跃数据会来自相同的用户,合并相同用户在埋点活跃数据中的用户信息,同一个用户具有一份用户信息,可以减少对用户信息的重复存储。合并模块430,根据无重复用户的用户信息,即可以对产生包含埋点活跃数据中所有用户对应用户信息的用户列表;同时还可以确定用户信息的用户属性类型。其中,用户属性类型的种类越多,越有利于适应精细度高统计口径,或者有利于绘制精细的用户图谱。对用户信息进行分类的过程,可以确定用户信息内各种信息对应的用户属性类型,以及将各种信息以及对应的用户属性类型关联存储。用户信息可以包含用户性别、用户年龄、用户所在地区、用户职业、用户账户内金额等各种信息,用户属性类型可以包括性别、年龄、地区、职业、账户金额等类型,将用户信息中的用户性别分类为性别类型并以性别类型对该用户性别进行存储,如此类推存储该用户信息中的用户年龄、用户所在地区、用户职业、用户账户内金额等信息。
查询模块440,用于获取输入的统计口径,根据统计口径从活跃事件表和用户列表中进行关联查询,得到目标活跃数据。
查询模块440可以在活跃事件表和用户列表中查询满足统计口径的目标活跃数据。
上述活跃数据的处理***,埋点活跃数据已经按照分类存储,再按照统计口径在各个分类下的统计标准可以对应地查找满足统计标准下的埋点活跃数据,并将各个分类下满足统计标准下的埋点活跃数据进行关联,即可筛选出满足统计口径的目标活跃数据,避免根据统计口径中各类型统计标准之间的联系编写脚本,降低工作量,提高活跃数据提取的效率。
关于活跃数据的处理***的具体限定可以参见上文中对于活跃数据的处理方法的限定,在此不再赘述。上述活跃数据的处理***中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
如图5所示,图5为一个实施例中计算机设备的内部结构示意图。该计算机设备包括通过***总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作***和计算机程序,该计算机程序被处理器执行时,可使得处理器实现一种活跃数据的处理方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器执行一种活跃数据的处理方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行所述计算机程序时实现上述任一实施例中活跃数据的处理方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一实施例中活跃数据的处理方法的步骤。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种活跃数据的处理方法,其特征在于,包括如下步骤:
获取业务平台的埋点活跃数据,将所述埋点活跃数据中的事件信息和用户信息分类;
按照事件类型对所述事件信息进行分类存储,得到活跃事件表;
将相同用户的用户信息进行合并,按照用户属性类型对所述用户信息进行分类存储,得到用户列表;
获取输入的统计口径,根据所述统计口径从所述活跃事件表和所述用户列表中进行关联查询,得到目标活跃数据。
2.根据权利要求1所述的活跃数据的处理方法,其特征在于,所述获取业务平台的埋点活跃数据的步骤,包括:
获取业务平台的原始埋点数据,对所述原始埋点数据进行缺失值检测和异常值检测,将具有缺失值和异常值的原始埋点数据以及重复的原始埋点据数据进行去除,获得所述埋点活跃数据。
3.根据权利要求1所述的活跃数据的处理方法,其特征在于,在所述根据所述统计口径从所述活跃事件表和所述用户列表中进行关联查询的步骤之前,还包括:
接收新增的埋点活跃数据,从所述新增的埋点活跃数据中分离出新增事件信息和新增用户信息;
按照所述事件类型对所述新增事件信息进行分类存储,得到增量事件表,并将所述增量事件表添加至所述活跃事件表;
根据所述新增用户信息更新所述用户列表。
4.根据权利要求3所述的活跃数据的处理方法,其特征在于,在所述将所述增量事件表添加至所述活跃事件表的步骤之后,还包括:
接收所述新增的埋点活跃数据的上传数据笔数;
记录所述活跃事件表的第一事件条数和第二事件条数,并将所述第一事件条数和所述第二事件条数的差值作为录入数据条数,其中,第一事件条数和第二事件条数分别为在所述活跃事件表中添加所述增量事件表之前的和之后的事件信息的条数;
判断所述上传数据笔数是否等于所述录入数据条数;
在所述上传数据笔数等于所述录入数据条数时,判定所述活跃事件表的数据完整,并执行所述根据所述统计口径从所述活跃事件表和所述用户列表中进行关联查询的步骤;
在所述上传数据笔数不等于所述录入数据条数时,生成用于表示数据异常的提醒信息。
5.根据权利要求1所述的活跃数据的处理方法,其特征在于,所述根据所述统计口径从所述活跃事件表和所述用户列表中进行关联查询的步骤,包括:
从所述统计口径中分离事件统计口径和用户属性统计口径;
在所述活跃事件表调取属于所述事件统计口径的目标事件信息;
在所述用户列表中调取与所述目标事件信息所关联用户的目标用户信息;
根据所述用户属性统计口径筛选所述目标用户信息,得到活跃用户信息;
统计所述活跃用户信息,得到所述目标活跃数据,并绘制用户图谱。
6.根据权利要求1所述的活跃数据的处理方法,其特征在于,所述根据所述统计口径从所述活跃事件表和所述用户列表中进行关联查询的步骤,包括:
从所述统计口径中分离所述事件统计口径和所述用户属性统计口径;
在所述用户列表中调取属于所述用户属性统计口径的目标用户信息;
在所述活跃事件表调取与所述目标用户信息所关联用户的目标事件信息;
从所述目标事件信息中统计属于所述事件统计口径的所述目标活跃数据。
7.根据权利要求1所述的活跃数据的处理方法,其特征在于,所述获取统计口径的步骤,包括:
将标签生成器中所获取的口径数据作为参数标签,保存并显示所述参数标签,其中,所述标签生成器用于生成与事件类型和/或用户属性类型相关的参数标签;
获取参数池子中的参数标签,并根据所述参数池子中的参数标签生成所述统计口径,其中,所述参数池子为用于识别参数标签对应统计口径的输入框。
8.一种活跃数据的处理***,其特征在于,包括:
分类模块,用于获取业务平台的埋点活跃数据,将所述埋点活跃数据中的事件信息和用户信息分类;
存储模块,用于按照事件类型对所述事件信息进行分类存储,得到活跃事件表;
合并模块,用于将相同用户的用户信息进行合并,按照用户属性类型对所述用户信息进行分类存储,得到用户列表;
查询模块,用于获取输入的统计口径,根据所述统计口径从所述活跃事件表和所述用户列表中进行关联查询,得到目标活跃数据。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述活跃数据的处理方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述活跃数据的处理方法的步骤。
CN201910606335.0A 2019-07-05 2019-07-05 活跃数据的处理方法、***、计算机设备和存储介质 Active CN110471945B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910606335.0A CN110471945B (zh) 2019-07-05 2019-07-05 活跃数据的处理方法、***、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910606335.0A CN110471945B (zh) 2019-07-05 2019-07-05 活跃数据的处理方法、***、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN110471945A true CN110471945A (zh) 2019-11-19
CN110471945B CN110471945B (zh) 2024-02-06

Family

ID=68506766

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910606335.0A Active CN110471945B (zh) 2019-07-05 2019-07-05 活跃数据的处理方法、***、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN110471945B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111752799A (zh) * 2020-06-24 2020-10-09 中国建设银行股份有限公司 一种业务链路跟踪方法、装置、设备及储存介质
CN112417281A (zh) * 2020-11-20 2021-02-26 京东方科技集团股份有限公司 数据分析方法、装置及设备
CN112579408A (zh) * 2020-10-29 2021-03-30 上海钱拓网络技术有限公司 一种埋点信息的分类方法
CN112966174A (zh) * 2019-12-13 2021-06-15 北京默契破冰科技有限公司 处理数据的方法、设备和计算机存储介质
CN114168430A (zh) * 2022-01-06 2022-03-11 携程旅游网络技术(上海)有限公司 前端异常告警配置方法、***、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105227751A (zh) * 2014-06-30 2016-01-06 腾讯科技(深圳)有限公司 实现事件信息数字化的方法和***
CN106557513A (zh) * 2015-09-29 2017-04-05 腾讯科技(深圳)有限公司 事件信息推送方法及事件信息推送装置
CN106980769A (zh) * 2017-04-05 2017-07-25 张莹 一种目标客户分类***
CN107368488A (zh) * 2016-05-12 2017-11-21 阿里巴巴集团控股有限公司 一种确定用户行为偏好的方法、推荐信息的展示方法和装置
CN107402910A (zh) * 2017-07-07 2017-11-28 北京今目标信息技术有限公司 基于表单的数据管理方法、设备及计算机可读存储介质
US20180025071A1 (en) * 2016-07-20 2018-01-25 LogsHero Ltd. Automatic event classification
CN109150641A (zh) * 2017-06-15 2019-01-04 北京国双科技有限公司 一种数据采集、查询方法、装置、存储介质及处理器
CN109767259A (zh) * 2018-12-15 2019-05-17 深圳壹账通智能科技有限公司 基于埋点数据的运营活动推广方法、装置、设备及介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105227751A (zh) * 2014-06-30 2016-01-06 腾讯科技(深圳)有限公司 实现事件信息数字化的方法和***
CN106557513A (zh) * 2015-09-29 2017-04-05 腾讯科技(深圳)有限公司 事件信息推送方法及事件信息推送装置
CN107368488A (zh) * 2016-05-12 2017-11-21 阿里巴巴集团控股有限公司 一种确定用户行为偏好的方法、推荐信息的展示方法和装置
US20180025071A1 (en) * 2016-07-20 2018-01-25 LogsHero Ltd. Automatic event classification
CN106980769A (zh) * 2017-04-05 2017-07-25 张莹 一种目标客户分类***
CN109150641A (zh) * 2017-06-15 2019-01-04 北京国双科技有限公司 一种数据采集、查询方法、装置、存储介质及处理器
CN107402910A (zh) * 2017-07-07 2017-11-28 北京今目标信息技术有限公司 基于表单的数据管理方法、设备及计算机可读存储介质
CN109767259A (zh) * 2018-12-15 2019-05-17 深圳壹账通智能科技有限公司 基于埋点数据的运营活动推广方法、装置、设备及介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966174A (zh) * 2019-12-13 2021-06-15 北京默契破冰科技有限公司 处理数据的方法、设备和计算机存储介质
CN111752799A (zh) * 2020-06-24 2020-10-09 中国建设银行股份有限公司 一种业务链路跟踪方法、装置、设备及储存介质
CN112579408A (zh) * 2020-10-29 2021-03-30 上海钱拓网络技术有限公司 一种埋点信息的分类方法
CN112417281A (zh) * 2020-11-20 2021-02-26 京东方科技集团股份有限公司 数据分析方法、装置及设备
CN114168430A (zh) * 2022-01-06 2022-03-11 携程旅游网络技术(上海)有限公司 前端异常告警配置方法、***、设备及存储介质

Also Published As

Publication number Publication date
CN110471945B (zh) 2024-02-06

Similar Documents

Publication Publication Date Title
CN110471945A (zh) 活跃数据的处理方法、***、计算机设备和存储介质
CN111915366B (zh) 一种用户画像构建方法、装置、计算机设备及存储介质
US20160055044A1 (en) Fault analysis method, fault analysis system, and storage medium
CN109118296A (zh) 活动推送方法、装置及电子设备
CN108021651A (zh) 一种网络舆情风险评估方法及装置
CN113537850A (zh) 仓储优化方法、装置、计算机设备和存储介质
CN114356692A (zh) 一种应用监控链路的可视化处理方法、装置及存储介质
CN113268403A (zh) 时间序列的分析预测方法、装置、设备及存储介质
CN110807050B (zh) 性能分析方法、装置、计算机设备及存储介质
CN109409948B (zh) 交易异常检测方法、装置、设备及计算机可读存储介质
CN110704699A (zh) 数据画像的构建方法、装置、计算机设备及存储介质
CN106446289A (zh) 基于Pinpoint的信息查询方法和装置
CN115994079A (zh) 测试方法、装置、电子设备、存储介质及程序产品
CN112637793B (zh) 一种基于5g的场景化计费方法、***、电子设备和存储介质
CN114723554A (zh) 异常账户识别方法及装置
Nadaf et al. Data mining in telecommunication
CN113065894A (zh) 基于用户画像及订单分析的数据归集方法、装置及存储介质
CN113190587A (zh) 实现业务数据处理的数据处理方法和装置
CN113743838A (zh) 目标用户识别方法、装置、计算机设备和存储介质
US12013812B2 (en) Method and system for analyzing data in a database
CN115718825B (zh) 一种时长标签的确定方法、装置及电子设备
CN110309211A (zh) 一种定位etl过程问题的方法及相关设备
CN114860847B (zh) 应用于大数据平台的数据链路处理方法、***及介质
JP2013069223A (ja) 生成プログラム、生成方法及び生成装置
CN109739401B (zh) 一种用户特征数据管理***及其界面显示方法及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant