CN110908883A - 用户画像数据监控方法、***、设备及存储介质 - Google Patents

用户画像数据监控方法、***、设备及存储介质 Download PDF

Info

Publication number
CN110908883A
CN110908883A CN201911120466.4A CN201911120466A CN110908883A CN 110908883 A CN110908883 A CN 110908883A CN 201911120466 A CN201911120466 A CN 201911120466A CN 110908883 A CN110908883 A CN 110908883A
Authority
CN
China
Prior art keywords
data
user
message queue
storing
user representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911120466.4A
Other languages
English (en)
Other versions
CN110908883B (zh
Inventor
董延峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Manyun Software Technology Co Ltd
Original Assignee
Jiangsu Manyun Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Manyun Software Technology Co Ltd filed Critical Jiangsu Manyun Software Technology Co Ltd
Priority to CN201911120466.4A priority Critical patent/CN110908883B/zh
Publication of CN110908883A publication Critical patent/CN110908883A/zh
Application granted granted Critical
Publication of CN110908883B publication Critical patent/CN110908883B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3438Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供了一种用户画像数据监控方法、***、设备及存储介质,该方法包括:从用户画像数据链路中的各个节点采集用户画像数据;将所述用户画像数据存储于消息队列中;采用数据流计算引擎对所述消息队列中的用户画像数据进行实时统计;将所述数据流计算引擎的统计结果存储于统计数据库。通过采用本发明的方案,对用户画像数据链路进行全链路监控,结合消息队列和数据流计算引擎提高了数据统计效率,从而可以对用户画像数据链路中各个节点的数据及时进行捕捉和分析,及时发现问题。

Description

用户画像数据监控方法、***、设备及存储介质
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种用户画像数据监控方法、***、设备及存储介质。
背景技术
大数据对公司的重要性日益增加,在公司内部赋能各个业务部,数据资产的安全也被频繁提及。用户画像***的数据在大数据部门计算完成之后,被推送到各个业务***使用,具体应用到运营、广告、报表等使用场景,下游的业务***对上游的数据质量提出了更高的要求。如果数据在各个***流转过程中缺乏必要的监控,则关键节点的数据质量就没办法实现管控。
在现有的监控体系中,下游业务***会在使用数据时在业务逻辑上提供数据异常校验,比如数据重复判断、数据量异常判断、数据不准确判断等,但是这只是建立在特定业务逻辑之上的判断,对A业务适用但不一定适用于B业务,没有一个统一的标准。此外,在现有***中,如果数据在流转过程中出现问题,需要依赖测试或代码review(评审),或者在代码中打点必要信息,以输出日志的形式将信息输出到本地文件,出现问题时翻看日志,根据日志查找可能的问题点;这些方式的时间和人力成本耗费都很高,将数据异常校验耦合在业务***中时,会对业务的性能造成影响,每次使用数据都会提高开发成本。
发明内容
针对现有技术中的问题,本发明的目的在于提供一种用户画像数据监控方法、***、设备及存储介质,结合消息队列和数据流计算引擎提高数据统计效率,对用户画像数据链路进行全链路监控。
本发明实施例提供一种用户画像数据监控方法,所述方法包括如下步骤:
从用户画像数据链路中的各个节点采集用户画像数据;
将所述用户画像数据存储于消息队列中;
采用数据流计算引擎对所述消息队列中的用户画像数据进行实时统计;
将所述数据流计算引擎的统计结果存储于统计数据库。
可选地,所述存储所述数据流计算引擎的统计结果之后,还包括如下步骤:
采用预设的异常检测规则对所述统计数据库中的统计结果进行处理;
如果检测到所述统计结果存在异常,则触发告警***。
可选地,所述用户画像数据包括画像数据ID、用户ID、用户标签ID、打点事件类型和打点事件记录数据;
所述对所述消息队列中的用户画像数据进行统计,包括对用户画像数据的各个传输节点的传输数据量的统计、对各个用户标签的数据处理量的统计、对各个用户的数据处理量的统计和对各个打点事件类型的数据处理量的统计中的一种或多种。
可选地,所述将所述用户画像数据存储于消息队列中之后,还包括如下步骤:
将所述消息队列中的用户画像数据存储于分布式数据库中。
可选地,所述消息队列为Kafka消息队列,所述数据流计算引擎为Flink数据流计算引擎或Spark数据流计算引擎;
所述将所述消息队列中的用户画像数据存储于分布式数据库中,包括将所述消息队列中的用户画像数据存储于HDFS***中,并更新所述HDFS***的Hive表。
可选地,所述将所述消息队列中的用户画像数据存储于分布式数据库中,包括采用GAIA组件将所述消息队列中的用户画像数据存储于分布式数据库。
可选地,所述用户画像数据链路包括用户画像数据生成节点、用户画像数据下发节点和用户画像数据使用节点。
可选地,所述将所述消息队列中的用户画像数据存储于分布式数据库中之后,还包括如下步骤:
从所述分布式数据库中获取用户画像数据;
对从所述用户画像数据链路中不同节点中获取到的具有相同画像数据ID的用户画像数据进行一致性检查;
如果存在不一致,则确定出现不一致的画像数据ID和出现不一致的节点。
本发明实施例还提供一种用户画像数据监控***,应用于所述的用户画像数据监控方法,所述***包括:
数据采集模块,用于从用户画像数据链路的各个节点中采集用户画像数据,并将所述用户画像数据存储于消息队列中;
数据处理模块,用于采用数据流计算引擎对所述消息队列中的用户画像数据进行实时统计;
结果存储模块,用于将所述数据流计算引擎的统计结果存储于统计数据库。
本发明实施例还提供一种用户画像数据监控设备,包括:
处理器;
存储器,其中存储有所述处理器的可进行指令;
其中,所述处理器配置为经由进行所述可进行指令来进行所述的用户画像数据监控方法的步骤。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被进行时实现所述的用户画像数据监控方法的步骤。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
本发明所提供的用户画像数据监控方法、***、设备及存储介质具有下列优点:
本发明解决了现有技术中的问题,对用户画像数据链路进行全链路监控,结合消息队列和数据流计算引擎提高了数据统计效率,从而可以对用户画像数据链路中各个节点的数据及时进行捕捉和分析,及时发现问题,可以适用于用户画像***中的各个业务***的数据监控,并且不会影响现有的业务***的正常工作。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。
图1是本发明一实施例的用户画像数据监控方法的流程图;
图2是本发明一实施例的用户画像数据监控方法中数据采集的示意图;
图3是本发明一实施例的用户画像数据监控方法中异常检测的示意图;
图4是本发明一实施例的用户画像数据监控***的结构示意图;
图5是本发明一实施例的增加告警的用户画像数据监控***的结构示意图;
图6是本发明一实施例的用户画像数据监控设备的示意图;
图7是本发明一实施例的计算机可读存储介质的示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
如图1所示,本发明实施例提供一种用户画像数据监控方法,所述方法包括如下步骤:
S100:从用户画像数据链路中的各个节点采集用户画像数据;
S200:将所述用户画像数据存储于消息队列中;在该实施例中,所述消息队列可以是Kafka消息队列,其中,Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写,Kafka是一种高吞吐量的分布式发布订阅消息***,它可以处理消费者在网站中的所有动作流数据;下面以Kafka消息队列为例进行说明,但本发明不限于此,在其他可替代的实施方式中,所述消息队列也可以采用其他类型的队列,均属于本发明的保护范围之内;
S300:采用数据流计算引擎对所述Kafka消息队列中的用户画像数据进行实时统计;在该实施例中,所述数据流计算引擎为Flink数据流计算引擎,其中,Flink数据流计算引擎是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink数据流计算引擎以数据并行和流水线方式执行任意流数据程序,Flink数据流计算引擎的流水线运行时***可以执行批处理和流处理程序;下面以Flink数据流计算引擎为例进行说明,但本发明不限于此,在其他可替代的实施方式中,所述数据流计算引擎也可以是其他类型的计算引擎,例如Spark数据流计算引擎等;
S400:将所述数据流计算引擎的统计结果存储于统计数据库,例如存到MySQL(关系型数据库管理***)中。
在该实施例中,通过步骤S100对用户画像数据链路进行全链路数据采集,从用户画像数据生成到下发到各个业务***,采用数据跟踪的模式,将必要路径的关键事件记录下来,用于异常数据的跟踪、告警、分析、排错等。并且通过步骤S200和步骤S300,采用数据流计算引擎消费Kafka消息队列中的数据,结合Kafka消息队列和Flink数据流计算引擎提高了数据统计效率,从而可以对用户画像数据链路中各个节点的数据及时进行捕捉和分析,通过步骤S400存储统计结果后,通过对统计结果的分析可以及时发现问题,提高用户画像***中用户画像数据的一致性、可靠性和实时性。
如图2所示,为本发明一实施例的用户画像数据监控方法中数据采集的示意图。在该实施例中,所述用户画像数据链路包括用户画像数据生成节点、用户画像数据下发节点和用户画像数据使用节点。用户画像数据使用节点主要是各个业务***使用数据,包括广告、运营等。所述用户画像数据生成节点又可以具体分为用户画像数据计算节点和用户标签添加节点。在各个节点分别进行埋点,通过sdk(软件开发工具包)将用户画像数据采集到Kafka消息队列中。
在该实施例中,所述用户画像数据包括画像数据ID、用户ID、用户标签ID、打点事件类型和打点事件记录数据。其中,画像数据ID是画像数据的唯一标识,其在全数据链路中各个节点之间流转时其画像数据ID是不变的,可以用于后续离线处理时的数据一致性检查。所述打点事件记录数据可以包括打点事件行为、打点角色、打点描述、打点时间点等,进一步地,所述用户画像数据还可以包括扩展字段等信息。
所述步骤S300中,采用所述Flink数据流计算引擎对所述Kafka消息队列中的用户画像数据进行统计,包括对用户画像数据的各个传输节点的传输数据量的统计、对各个用户标签的数据处理量的统计、对各个用户的数据处理量的统计和对各个打点事件类型的数据处理量的统计中的一种或多种。例如,统计截止到当前时间,用户画像***的每个标签的计算量、数据量,数据在传输过程中的各个阶段的传输量等。可以在Flink数据流计算引擎中设置各个不同的统计任务,启动所述统计任务进行数据统计。
如图3所示,为本发明一实施例的用户画像数据监控方法中异常检测的示意图。在该实施例中,所述步骤S400:存储所述数据流计算引擎的统计结果之后,还包括S500:异常检测和告警的步骤,具体地,包括:采用预设的异常检测规则对所述统计数据库中的统计结果进行处理;如果检测到所述统计结果存在异常,则触发告警***。
比如短信营销活动,提前设置异常检测规则是检测短信下发量是否超过预设的下发量阈值,下发的过程中用Flink引擎实时消费下发的埋点事件信息,当出现超发等情况时可以触发告警***,人为干预有效的避免不必要的损失。
进一步地,在该实施例中,还可以对异常告警***中的告警阈值进行配置,例如配置下发的数据量阈值配置,下发延迟阈值配置等,和Flink数据流计算引擎实时统计出的数据进行对比,如果超过阈值则通过短信、电话等形式将告警信息发送给相关工作人员。
在该实施例中,所述步骤S200:将所述用户画像数据存储于Kafka消息队列中之后,还包括S600:离线存储用户画像数据的步骤;具体地,包括:将所述Kafka消息队列中的用户画像数据存储于分布式数据库中。
在该实施例中,所述分布式数据库可以为HDFS***,在将所述用户画像数据存储到HDFS(Hadoop分布式文件***)***中之后,更新所述HDFS***的Hive表。Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。但本发明不限于此,在其他实施方式中,也可以选择其他类型的分布式数据库进行用户画像数据的离线存储。
在该实施例中,所述将所述Kafka消息队列中的用户画像数据存储于分布式数据库中,包括采用GAIA组件将所述Kafka消息队列中的用户画像数据存储于分布式数据库。
在该实施例中,所述步骤S600:将所述Kafka消息队列中的用户画像数据存储于分布式数据库中之后,还包括S700:对离线数据进行异常检测的步骤,具体地,步骤S700包括如下步骤:
S710:从所述分布式数据库中获取用户画像数据;
S720:对从所述用户画像数据链路中不同节点中获取到的具有相同画像数据ID的用户画像数据进行一致性检查;
S730:如果存在不一致,则确定出现不一致的画像数据ID和出现不一致的节点。
在该实施例中,Hive表中存储了用户画像***在计算、传输的各个节点的数据,具体的字段有:画像数据ID、画像***标签ID、打点事件类型、打点角色、事件行为、用户ID、打点描述、打点时间点、扩展字段,用于各个阶段的数据一致性、可靠性验证;如果出现数据缺失,则可以在Hive表中进行各个节点的数据对比,排查异常数据和异常的处理节点。在确定出现不一致的画像数据ID和出现不一致的节点之后,可以通过告警***通知工作人员。
如图4所示,本发明实施例还提供一种用户画像数据监控***,应用于所述的用户画像数据监控方法,所述***包括:
数据采集模块M100,用于从用户画像数据链路的各个节点中采集用户画像数据,并将所述用户画像数据存储于消息队列中,在该实施例中,可以通过sdk采集用户画像数据并存储于Kafka消息队列中;
数据处理模块M200,用于采用数据流计算引擎对所述Kafka消息队列中的用户画像数据进行实时统计,在该实施例中,所述数据流计算引擎可以为Flink数据流计算引擎或Spark数据流计算引擎,其中,Spark是专为大规模数据处理而设计的快速通用的计算引擎;
结果存储模块M300,用于将所述数据流计算引擎的统计结果存储于统计数据库,例如存储于MySQL中。
在该实施例中,通过数据采集模块M100对用户画像数据链路进行全链路数据采集,从用户画像数据生成到下发到各个业务***,采用数据跟踪的模式,将必要路径的关键事件记录下来,用于异常数据的跟踪、告警、分析、排错等。并且通过数据处理模块M200,采用数据流计算引擎消费消息队列中的数据,结合消息队列和数据流计算引擎提高了数据统计效率,从而可以对用户画像数据链路中各个节点的数据及时进行捕捉和分析,通过结果存储模块M300存储统计结果后,通过对统计结果的分析可以及时发现问题,提高用户画像***中用户画像数据的一致性、可靠性和实时性。
所述数据处理模块M200采用所述数据流计算引擎对所述消息队列中的用户画像数据进行统计时,可以对用户画像数据的各个传输节点的传输数据量的统计、对各个用户标签的数据处理量的统计、对各个用户的数据处理量的统计、对各个打点事件类型的数据处理量的统计等等。
如图5所示,在该实施例中,所述用户画像数据监控***还可以包括异常告警模块M400,用于采用预设的异常检测规则对所述统计数据库中的统计结果进行处理;如果检测到所述统计结果存在异常,则触发异常告警***,采用钉钉、短信、电话、邮件等方式进行告警。
进一步地,本发明的用户画像数据监控***还可以包括告警配置模块M500,用于设定所述异常告警模块M400的异常检测规则中的告警阈值,工作人员可以直接在网页上进行告警阈值的配置,例如配置下发的数据量阈值配置,下发延迟阈值配置等。
在该实施例中,所述数据处理模块M200还用于将所述Kafka消息队列中的用户画像数据存储于分布式数据库中,从所述分布式数据库中获取离线的用户画像数据;对从所述用户画像数据链路中不同节点中获取到的具有相同画像数据ID的用户画像数据进行一致性检查;如果存在不一致,则确定出现不一致的画像数据ID和出现不一致的节点。
本发明实施例还提供一种用户画像数据监控设备,包括处理器;存储器,其中存储有所述处理器的可进行指令;其中,所述处理器配置为经由进行所述可进行指令来进行所述的用户画像数据监控方法的步骤。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为***、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“平台”。
下面参照图6来描述根据本发明的这种实施方式的电子设备600。图6显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600以通用计算设备的形式表现。电子设备600的组合可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同平台组合(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610进行,使得所述处理单元610进行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元610可以进行如图1中所示的步骤。
所述存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、***总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID***、磁带驱动器以及数据备份存储平台等。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被进行时实现所述的用户画像数据监控方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备进行本说明书上述电子处方流转处理方法部分中描述的根据本发明各种示例性实施方式的步骤。
参考图7所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令进行***、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令进行***、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于进行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上进行、部分地在用户设备上进行、作为一个独立的软件包进行、部分在用户计算设备上部分在远程计算设备上进行、或者完全在远程计算设备或服务器上进行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
综上所述,与现有技术相比,本发明所提供的用户画像数据监控方法、***、设备及存储介质具有下列优点:
本发明解决了现有技术中的问题,对用户画像数据链路进行全链路监控,结合消息队列和数据流计算引擎提高了数据统计效率,从而可以对用户画像数据链路中各个节点的数据及时进行捕捉和分析,及时发现问题,可以适用于用户画像***中的各个业务***的数据监控,并且不会影响现有的业务***的正常工作。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (11)

1.一种用户画像数据监控方法,其特征在于,包括如下步骤:
从用户画像数据链路中的各个节点采集用户画像数据;
将所述用户画像数据存储于消息队列中;
采用数据流计算引擎对所述消息队列中的用户画像数据进行实时统计;
将所述数据流计算引擎的统计结果存储于统计数据库。
2.根据权利要求1所述的用户画像数据监控方法,其特征在于,所述存储所述数据流计算引擎的统计结果之后,还包括如下步骤:
采用预设的异常检测规则对所述统计数据库中的统计结果进行处理;
如果检测到所述统计结果存在异常,则触发告警***。
3.根据权利要求1所述的用户画像数据监控方法,其特征在于,所述用户画像数据包括画像数据ID、用户ID、用户标签ID、打点事件类型和打点事件记录数据;
所述对所述消息队列中的用户画像数据进行统计,包括对用户画像数据的各个传输节点的传输数据量的统计、对各个用户标签的数据处理量的统计、对各个用户的数据处理量的统计和对各个打点事件类型的数据处理量的统计中的一种或多种。
4.根据权利要求1所述的用户画像数据监控方法,其特征在于,所述将所述用户画像数据存储于消息队列中之后,还包括如下步骤:
将所述消息队列中的用户画像数据存储于分布式数据库中。
5.根据权利要求4所述的用户画像数据监控方法,其特征在于,所述消息队列为Kafka消息队列,所述数据流计算引擎为Flink数据流计算引擎或Spark数据流计算引擎;
所述将所述消息队列中的用户画像数据存储于分布式数据库中,包括将所述消息队列中的用户画像数据存储于HDFS***中,并更新所述HDFS***的Hive表。
6.根据权利要求4所述的用户画像数据监控方法,其特征在于,所述将所述消息队列中的用户画像数据存储于分布式数据库中,包括采用GAIA组件将所述消息队列中的用户画像数据存储于分布式数据库。
7.根据权利要求6所述的用户画像数据监控方法,其特征在于,所述用户画像数据链路包括用户画像数据计算节点、用户标签添加节点、用户画像数据下发节点和用户画像数据使用节点。
8.根据权利要求1所述的用户画像数据监控方法,其特征在于,所述将所述消息队列中的用户画像数据存储于分布式数据库中之后,还包括如下步骤:
从所述分布式数据库中获取用户画像数据;
对从所述用户画像数据链路中不同节点中获取到的具有相同画像数据ID的用户画像数据进行一致性检查;
如果存在不一致,则确定出现不一致的画像数据ID和出现不一致的节点。
9.一种用户画像数据监控***,其特征在于,应用于权利要求1至8中任一项所述的用户画像数据监控方法,所述***包括:
数据采集模块,用于从用户画像数据链路的各个节点中采集用户画像数据,并将所述用户画像数据存储于消息队列中;
数据处理模块,用于采用数据流计算引擎对所述消息队列中的用户画像数据进行实时统计;
结果存储模块,用于将所述数据流计算引擎的统计结果存储于统计数据库。
10.一种用户画像数据监控设备,其特征在于,包括:
处理器;
存储器,其中存储有所述处理器的可进行指令;
其中,所述处理器配置为经由进行所述可进行指令来进行权利要求1至8中任一项所述的用户画像数据监控方法的步骤。
11.一种计算机可读存储介质,用于存储程序,其特征在于,所述程序被进行时实现权利要求1至8中任一项所述的用户画像数据监控方法的步骤。
CN201911120466.4A 2019-11-15 2019-11-15 用户画像数据监控方法、***、设备及存储介质 Active CN110908883B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911120466.4A CN110908883B (zh) 2019-11-15 2019-11-15 用户画像数据监控方法、***、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911120466.4A CN110908883B (zh) 2019-11-15 2019-11-15 用户画像数据监控方法、***、设备及存储介质

Publications (2)

Publication Number Publication Date
CN110908883A true CN110908883A (zh) 2020-03-24
CN110908883B CN110908883B (zh) 2022-08-30

Family

ID=69817460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911120466.4A Active CN110908883B (zh) 2019-11-15 2019-11-15 用户画像数据监控方法、***、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110908883B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111640436A (zh) * 2020-05-15 2020-09-08 北京青牛技术股份有限公司 向坐席提供通话对象的动态客户画像的方法
CN111652658A (zh) * 2020-06-11 2020-09-11 北京妙医佳健康科技集团有限公司 画像融合方法、装置、电子设备及计算机可读存储介质
CN111741360A (zh) * 2020-06-19 2020-10-02 深圳市酷开网络科技有限公司 基于开源列式数据库的画像应用方法、装置及存储介质
CN111930748A (zh) * 2020-08-07 2020-11-13 北京百度网讯科技有限公司 流式计算***数据追踪方法、装置、设备以及存储介质
CN112000636A (zh) * 2020-08-31 2020-11-27 民生科技有限责任公司 基于Flink流式处理的用户行为统计分析方法
CN112100220A (zh) * 2020-09-22 2020-12-18 福建天晴在线互动科技有限公司 一种实现非法账号组实时监控的***
CN113220530A (zh) * 2021-05-14 2021-08-06 上海哔哩哔哩科技有限公司 数据质量监控方法及平台
CN113297620A (zh) * 2021-06-08 2021-08-24 哈尔滨无限力创网络科技有限公司 一种基于用户画像的大数据安全处理***
CN113553320A (zh) * 2021-07-29 2021-10-26 上海哔哩哔哩科技有限公司 数据质量监控方法及装置
CN114595842A (zh) * 2022-02-23 2022-06-07 驰众信息技术(上海)有限公司 基于实时计算的广告播放设备***研判方法及***
CN116385102A (zh) * 2023-03-15 2023-07-04 中电金信软件有限公司 信息推荐方法、装置、计算机设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106502772A (zh) * 2016-10-09 2017-03-15 国网浙江省电力公司信息通信分公司 基于分布式离线技术的电量数据批量高速处理方法及***
CN109284195A (zh) * 2018-08-27 2019-01-29 广东电网有限责任公司信息中心 一种实时画像数据计算方法及***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106502772A (zh) * 2016-10-09 2017-03-15 国网浙江省电力公司信息通信分公司 基于分布式离线技术的电量数据批量高速处理方法及***
CN109284195A (zh) * 2018-08-27 2019-01-29 广东电网有限责任公司信息中心 一种实时画像数据计算方法及***

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111640436A (zh) * 2020-05-15 2020-09-08 北京青牛技术股份有限公司 向坐席提供通话对象的动态客户画像的方法
CN111640436B (zh) * 2020-05-15 2024-04-19 北京青牛技术股份有限公司 向坐席提供通话对象的动态客户画像的方法
CN111652658A (zh) * 2020-06-11 2020-09-11 北京妙医佳健康科技集团有限公司 画像融合方法、装置、电子设备及计算机可读存储介质
CN111741360A (zh) * 2020-06-19 2020-10-02 深圳市酷开网络科技有限公司 基于开源列式数据库的画像应用方法、装置及存储介质
CN111930748B (zh) * 2020-08-07 2023-08-08 北京百度网讯科技有限公司 流式计算***数据追踪方法、装置、设备以及存储介质
CN111930748A (zh) * 2020-08-07 2020-11-13 北京百度网讯科技有限公司 流式计算***数据追踪方法、装置、设备以及存储介质
CN112000636A (zh) * 2020-08-31 2020-11-27 民生科技有限责任公司 基于Flink流式处理的用户行为统计分析方法
CN112100220A (zh) * 2020-09-22 2020-12-18 福建天晴在线互动科技有限公司 一种实现非法账号组实时监控的***
CN113220530A (zh) * 2021-05-14 2021-08-06 上海哔哩哔哩科技有限公司 数据质量监控方法及平台
CN113220530B (zh) * 2021-05-14 2022-07-19 上海哔哩哔哩科技有限公司 数据质量监控方法及平台
CN113297620A (zh) * 2021-06-08 2021-08-24 哈尔滨无限力创网络科技有限公司 一种基于用户画像的大数据安全处理***
CN113553320A (zh) * 2021-07-29 2021-10-26 上海哔哩哔哩科技有限公司 数据质量监控方法及装置
CN113553320B (zh) * 2021-07-29 2022-09-02 上海哔哩哔哩科技有限公司 数据质量监控方法及装置
CN114595842A (zh) * 2022-02-23 2022-06-07 驰众信息技术(上海)有限公司 基于实时计算的广告播放设备***研判方法及***
CN116385102A (zh) * 2023-03-15 2023-07-04 中电金信软件有限公司 信息推荐方法、装置、计算机设备及存储介质
CN116385102B (zh) * 2023-03-15 2024-05-31 中电金信软件有限公司 信息推荐方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN110908883B (zh) 2022-08-30

Similar Documents

Publication Publication Date Title
CN110908883B (zh) 用户画像数据监控方法、***、设备及存储介质
CN109902105B (zh) 用于微服务架构的数据查询***、方法、设备及存储介质
CN109960635B (zh) 实时计算平台的监控和报警方法、***、设备及存储介质
CN112631913B (zh) 应用程序的运行故障监控方法、装置、设备和存储介质
US10489711B1 (en) Method and apparatus for predictive behavioral analytics for IT operations
CN111274094A (zh) 接口预警方法、***、设备及存储介质
CN111309550A (zh) 应用程序的数据采集方法、***、设备和存储介质
US20150019512A1 (en) Systems and methods for filtering low utility value messages from system logs
CN112000806A (zh) 异常日志监控分析方法、***、设备及存储介质
CN111245672A (zh) 一种通用可扩展的追踪业务全链路的监控方法及***
CN114548706A (zh) 一种业务风险的预警方法以及相关设备
US20220138032A1 (en) Analysis of deep-level cause of fault of storage management
CN112965973A (zh) 基于全链路监控的分布式数据库监控方法及装置
CN110912757A (zh) 业务的监控方法和服务器
Ali et al. [Retracted] Classification and Prediction of Software Incidents Using Machine Learning Techniques
CN114443437A (zh) 告警根因输出方法、装置、设备、介质和程序产品
CN112087320A (zh) 一种异常定位方法、装置、电子设备和可读存储介质
CN113760677A (zh) 异常链路分析方法、装置、设备及存储介质
CN110011845B (zh) 日志采集方法及***
CN112825165A (zh) 项目质量管理的方法和装置
CN110851316A (zh) 异常预警方法及装置、***、电子设备、存储介质
CN114416411A (zh) 内存故障检测方法及装置
CN114546780A (zh) 数据监控方法、装置、设备、***及存储介质
CN113342619A (zh) 日志监控方法、***、电子设备及可读介质
CN111835566A (zh) 一种***故障管理方法、装置及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant