CN113282393A - 一种解决面向多个画像标签作业调度任务的方法 - Google Patents

一种解决面向多个画像标签作业调度任务的方法 Download PDF

Info

Publication number
CN113282393A
CN113282393A CN202110624290.7A CN202110624290A CN113282393A CN 113282393 A CN113282393 A CN 113282393A CN 202110624290 A CN202110624290 A CN 202110624290A CN 113282393 A CN113282393 A CN 113282393A
Authority
CN
China
Prior art keywords
data
portrait
label
scheduling
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110624290.7A
Other languages
English (en)
Inventor
刘跃红
余丽玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yinsheng Payment Service Co Ltd
Original Assignee
Yinsheng Payment Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yinsheng Payment Service Co Ltd filed Critical Yinsheng Payment Service Co Ltd
Priority to CN202110624290.7A priority Critical patent/CN113282393A/zh
Publication of CN113282393A publication Critical patent/CN113282393A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations
    • G06F16/24556Aggregation; Duplicate elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种解决面向多个画像标签作业调度任务的方法,属于***开发技术领域,包括下列步骤:步骤一,采集用户画像所需的数据并作为离线数据调度的源端;步骤二,同步字段到hive数据仓库中;步骤三,校验源端数据条数与同步到画像中间表中的数据条数,如果一致,则开启离线标签数据的调度作业,计算用户画像的离线标签数据,如果不一致,则删除同步的那一天的数据并进行重新调度;步骤四,校验计算的离线标签数据是否正常,如果异常,则发送邮件以及企业微信通知相关人员,如果正常,则启动聚合用户标签数据的调度任务。本发明可以自动生成需求的标签,当任务出现问题时重新调度并发送邮件通知,保证数据的可靠性及稳定性。

Description

一种解决面向多个画像标签作业调度任务的方法
技术领域
本发明涉及***开发技术领域,尤其涉及一种解决面向多个画像标签作业调度任务的方法。
背景技术
由于用户画像***的需求,需要开发成百上千个标签脚本,为了降低每个标签数据之间的耦合性,每个标签需要单独提交spark任务,并且每天需要定时作业刷新前一天产生的新标签。但是产生了许多问题:
1、标签的生成需要专门的人员写计算脚本,随着标签的增多,调度任务规模的增加,人为成本越来越大;
2、任务之间的依赖关系杂乱;
3、不便于查看当前执行到哪一个任务;
4、出现问题不能快速定位;
5、不便于记录历史调度任务的执行情况。
发明内容
为了克服现有技术的不足,本发明提供一种解决面向多个画像标签作业调度任务的方法,以解决上述的技术问题。
本发明解决其技术问题所采用的技术方案是:
一种解决面向多个画像标签作业调度任务的方法,包括下列步骤:
步骤一:采集用户画像所需的数据,包括业务数据、日志数据、埋点数据以及第三方数据存储到hive数据仓库中,并作为离线数据调度的源端;
步骤二:同步字段到hive数据仓库中;
步骤三:校验源端数据条数与同步到画像中间表中的数据条数,如果一致,则开启离线标签数据的调度作业,计算用户画像的离线标签数据,如果不一致,则删除同步的那一天的数据并进行重新调度;
步骤四:校验计算的离线标签数据是否正常,如果异常,则发送邮件以及企业微信通知相关人员,如果正常,则启动聚合用户标签数据的调度任务,聚合完成后同步标签数据以及聚合后的标签数据存入到多个不同类型的数据库。
作为上述技术方案的改进,该方法还包括Kafka进行实时标签数据处理,计算需要实时处理的用户画像标签数据,保存到画像数据库。
作为上述技术方案的改进,步骤一当中,业务数据、日志数据、埋点数据以及第三方数据通过程序、脚本以及ogg的方式存入到hive数据仓库对应的DW库、ODS库、DM库。
作为上述技术方案的改进,业务数据、日志数据、埋点数据以及第三方数据存入DW库、ODS库以及DM库后,hive数据仓库发起表字段需求。
作为上述技术方案的改进,根据需求选择hive数据仓库中所需表字段同步到hive数据仓库的画像中间表中。
作为上述技术方案的改进,步骤三中,离线数据会根据标签之间的依赖关系通过dolphin scheduler平台进行调度。
作为上述技术方案的改进,步骤四中,同步的数据包括标签状态的数据、同步生成的标签数据以及同步聚合后的数据;
标签状态的数据记录到mysql数据库,如果同步那一天的数据异常,则取前一天正常的数据进行展示;
同步生成的标签数据记录到clickhouse数据库;
同步聚合后的数据记录到elasticsearch和hbase数据库。
作为上述技术方案的改进,同步的标签数据通过dolphin scheduler平台进行调度。
作为上述技术方案的改进,该方法还包括如果有新标签需求,直接根据需求内容匹配已有的标签模板,生成调度任务,直接计算用户画像的标签。
本发明的有益效果是:
(1)可以做到通用类型标签根据业务人员需求自动生成;
(2)各个标签任务之间的关系清晰易查看,方便任务有条不紊的执行;
(3)可以可视化清楚的看到当前执行到的任务;
(4)方便根据日志快速定位出现的问题,以便及时处理问题;
(5)便于查看每个任务执行的时间,以便后面优化作业时间;
(6)当任务出现问题时重新调度,并发送邮件通知,保证数据的可靠性及稳定性。
附图说明
下面结合附图和实施例对本发明进一步说明。
图1为本发明的结构示意图。
具体实施方式
以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整地描述,以充分地理解本发明的目的、特征和效果。显然,所描述的实施例只是本发明的一部分实施例,而不是全部实施例,基于本发明的实施例,本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例,均属于本发明保护的范围。另外,专利中涉及到的所有联接/连接关系,并非单指构件直接相接,而是指可根据具体实施情况,通过添加或减少联接辅件,来组成更优的联接结构。本发明创造中的各个技术特征,在不互相矛盾冲突的前提下可以交互组合。
参考图1,本发明揭示了一种解决面向多个画像标签作业调度任务的方法,包括下列步骤:
步骤一:采集用户画像所需的数据,包括业务数据、日志数据、埋点数据以及第三方数据存储到hive数据仓库中,并作为离线数据调度的源端;
步骤二:同步字段到hive数据仓库中;
步骤三:校验源端数据条数与同步到画像中间表中的数据条数,如果一致,则开启离线标签数据的调度作业,计算用户画像的离线标签数据,如果不一致,则删除同步的那一天的数据并进行重新调度;
步骤四:校验计算的离线标签数据是否正常,如果异常,则发送邮件以及企业微信通知相关人员,如果正常,则启动聚合用户标签数据的调度任务,聚合完成后同步标签数据以及聚合后的标签数据存入到多个不同类型的数据库。
在上述实施例中,业务数据、日志数据、埋点数据以及第三方数据存储到hive数据仓库中的DW库、ODS库以及DM库后,hive数据仓库发起表字段需求。根据需求选择hive数据仓库中所需表字段同步到hive数据仓库的画像中间表中。然后发起校验,如果源端数据条数与同步到画像中间表中的数据条数一致,则开启离线标签数据的调度作业,计算用户画像的离线标签数据,如果不一致,则删除同步的那一天的数据并进行重新调度,即根据标签类型的不同,重新发起校验,开启离线标签数据的调度任务后生成用户画像标签的数据,校验计算的离线标签数据是否正常,如果异常,则发送邮件以及企业微信通知相关人员,然后重新发起调度,即重新发起校验计算;如果正常,则启动聚合用户标签数据的调度任务,聚合完成后同步标签数据以及聚合后的标签数据存入到多个不同类型的数据库,在上述过程中,可以做到通用类型标签根据业务人员需求自动生成,而且各个标签任务之间的关系清晰易查看,方便任务有条不紊的执行,当任务出现问题时重新调度,并发送邮件通知,保证数据的可靠性及稳定性。
该方法还包括Kafka进行实时标签数据处理,计算需要实时处理的用户画像标签数据,保存到画像数据库。
进一步的,业务数据、日志数据、埋点数据以及第三方数据通过程序、脚本以及ogg的方式存入到hive数据仓库对应的DW库、ODS库、DM库。业务数据、日志数据、埋点数据以及第三方数据存入DW库、ODS库以及DM库后,hive数据仓库发起表字段需求。根据需求选择hive数据仓库中所需表字段同步到hive数据仓库的画像中间表中。
在上述实施例中,所述的实时数据和离线数据相同,均包括业务数据、日志数据、埋点数据、第三方数据以及外接数据。其中,埋点是数据采集领域的术语,尤其是用户行为数据采集领域,指的是针对特定用户行为或事件进行捕获、处理和发送的相关技术及其实施过程。离线数据是经过程序、脚本以及ogg渠道进行处理,实时数据经过Kafka通道进行处理。
再进一步的,该方法还包括如果有新标签需求,直接根据需求内容匹配已有的标签模板,生成调度任务,直接计算用户画像的标签数据。
在本方案的步骤三中,离线数据会根据标签之间的依赖关系通过dolphinscheduler平台进行调度。dolphin scheduler平台为调度***,可以可视化清楚的看到当前执行到的任务,方便根据日志快速定位出现的问题,以便及时处理问题,便于查看每个任务执行的时间,以便后续优化作业时间。
在本方案的步骤四中,同步的数据包括标签状态的数据、同步生成的标签数据以及同步聚合后的数据,其中,同步的标签数据通过dolphin scheduler平台进行调度,标签状态的数据记录到mysql数据库,如果同步那一天的数据异常,则取前一天正常的数据进行展示,同步生成的标签数据记录到clickhouse数据库,同步聚合后的数据记录到elasticsearch和hbase数据库。mysql数据库可以展示标签元数据,clickhouse数据库对于大批量数据的聚合性能非常快,所以标签聚合数据会从clickhouse数据库中取,elasticsearch数据库负责人群计算分析,hbase数据库可以个性化、实时展示用户画像***采集的数据。
本发明的有益效果是:
(1)可以做到通用类型标签根据业务人员需求自动生成;
(2)各个标签任务之间的关系清晰易查看,方便任务有条不紊的执行;
(3)可以可视化清楚的看到当前执行到的任务;
(4)方便根据日志快速定位出现的问题,以便及时处理问题;
(5)便于查看每个任务执行的时间,以便后面优化作业时间;
(6)当任务出现问题时重新调度,并发送邮件通知,保证数据的可靠性及稳定性。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (9)

1.一种解决面向多个画像标签作业调度任务的方法,其特征在于,包括下列步骤:
步骤一:采集用户画像所需的数据,包括业务数据、日志数据、埋点数据以及第三方数据存储到hive数据仓库中,并作为离线数据调度的源端;
步骤二:同步字段到hive数据仓库中;
步骤三:校验源端数据条数与同步到画像中间表中的数据条数,如果一致,则开启离线标签数据的调度作业,计算用户画像的离线标签数据,如果不一致,则删除同步的那一天的数据并进行重新调度;
步骤四:校验计算的离线标签数据是否正常,如果异常,则发送邮件以及企业微信通知相关人员,如果正常,则启动聚合用户标签数据的调度任务,聚合完成后同步标签数据以及聚合后的标签数据存入到多个不同类型的数据库。
2.根据权利要求1所述的一种解决面向多个画像标签作业调度任务的方法,其特征在于,该方法还包括Kafka进行实时标签数据处理,计算需要实时处理的用户画像标签数据,保存到画像数据库。
3.根据权利要求1所述的一种解决面向多个画像标签作业调度任务的方法,其特征在于,步骤一当中,业务数据、日志数据、埋点数据以及第三方数据通过程序、脚本以及ogg的方式存入到hive数据仓库对应的DW库、ODS库、DM库。
4.根据权利要求3所述的一种解决面向多个画像标签作业调度任务的方法,其特征在于,业务数据、日志数据、埋点数据以及第三方数据存入DW库、ODS库以及DM库后,hive数据仓库发起表字段需求。
5.根据权利要求4所述的一种解决面向多个画像标签作业调度任务的方法,其特征在于,根据需求选择hive数据仓库中所需表字段同步到hive数据仓库的画像中间表中。
6.根据权利要求1所述的一种解决面向多个画像标签作业调度任务的方法,其特征在于,步骤三中,离线数据会根据标签之间的依赖关系通过dolphin scheduler平台进行调度。
7.根据权利要求1所述的一种解决面向多个画像标签作业调度任务的方法,其特征在于,步骤四中,同步的数据包括标签状态的数据、同步生成的标签数据以及同步聚合后的数据;
标签状态的数据记录到mysql数据库,如果同步那一天的数据异常,则取前一天正常的数据进行展示;
同步生成的标签数据记录到clickhouse数据库;
同步聚合后的数据记录到elasticsearch和hbase数据库。
8.根据权利要求7所述的一种解决面向多个画像标签作业调度任务的方法,其特征在于,同步的标签数据通过dolphin scheduler平台进行调度。
9.根据权利要求1所述的一种解决面向多个画像标签作业调度任务的方法,其特征在于,该方法还包括如果有新标签需求,直接根据需求内容匹配已有的标签模板,生成调度任务,直接计算用户画像的标签。
CN202110624290.7A 2021-06-04 2021-06-04 一种解决面向多个画像标签作业调度任务的方法 Pending CN113282393A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110624290.7A CN113282393A (zh) 2021-06-04 2021-06-04 一种解决面向多个画像标签作业调度任务的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110624290.7A CN113282393A (zh) 2021-06-04 2021-06-04 一种解决面向多个画像标签作业调度任务的方法

Publications (1)

Publication Number Publication Date
CN113282393A true CN113282393A (zh) 2021-08-20

Family

ID=77283343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110624290.7A Pending CN113282393A (zh) 2021-06-04 2021-06-04 一种解决面向多个画像标签作业调度任务的方法

Country Status (1)

Country Link
CN (1) CN113282393A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114064660A (zh) * 2021-11-29 2022-02-18 重庆允成互联网科技有限公司 基于ElasticSearch的数据结构化分析方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391752A (zh) * 2017-08-16 2017-11-24 四川长虹电器股份有限公司 一种基于hadoop平台构建用户标签信息的方法
CN110427422A (zh) * 2019-05-23 2019-11-08 武汉达梦数据库有限公司 数据同步异常时数据一致性校验方法、设备及存储介质
CN111475509A (zh) * 2020-04-03 2020-07-31 李俊宏 一种基于大数据的用户画像和多维分析***
CN111737230A (zh) * 2020-06-23 2020-10-02 北京奇艺世纪科技有限公司 数据校验方法、装置、电子设备以及可读存储介质
CN111881221A (zh) * 2020-07-07 2020-11-03 上海中通吉网络技术有限公司 物流服务里客户画像的方法、装置和设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391752A (zh) * 2017-08-16 2017-11-24 四川长虹电器股份有限公司 一种基于hadoop平台构建用户标签信息的方法
CN110427422A (zh) * 2019-05-23 2019-11-08 武汉达梦数据库有限公司 数据同步异常时数据一致性校验方法、设备及存储介质
CN111475509A (zh) * 2020-04-03 2020-07-31 李俊宏 一种基于大数据的用户画像和多维分析***
CN111737230A (zh) * 2020-06-23 2020-10-02 北京奇艺世纪科技有限公司 数据校验方法、装置、电子设备以及可读存储介质
CN111881221A (zh) * 2020-07-07 2020-11-03 上海中通吉网络技术有限公司 物流服务里客户画像的方法、装置和设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈捷,: "基于大数据技术的用户画像***设计与实现", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑(月刊)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114064660A (zh) * 2021-11-29 2022-02-18 重庆允成互联网科技有限公司 基于ElasticSearch的数据结构化分析方法
CN114064660B (zh) * 2021-11-29 2022-06-21 重庆允成互联网科技有限公司 基于ElasticSearch的数据结构化分析方法

Similar Documents

Publication Publication Date Title
WO2020088326A1 (zh) 接口运维的方法及装置
CN101719149B (zh) 数据同步方法及装置
CN111125444A (zh) 大数据任务调度管理方法、装置、设备及存储介质
CN111400011B (zh) 一种实时任务调度方法、***、设备及可读存储介质
CN108197155A (zh) 信息数据同步方法、装置及计算机可读存储介质
US20090083221A1 (en) System and Method for Estimating and Storing Skills for Reuse
CN112486701A (zh) 一种消息异步处理方法及其设备
CN114356692A (zh) 一种应用监控链路的可视化处理方法、装置及存储介质
CN113282393A (zh) 一种解决面向多个画像标签作业调度任务的方法
CN111753015A (zh) 支付清算***的数据查询方法及装置
CN114398359A (zh) 订单数据自动化对账方法、装置及存储介质
CN114020819A (zh) 一种多***参数同步方法及装置
CN110334011B (zh) 一种执行测试用例的方法及装置
CN107451056B (zh) 监听接口测试结果的方法及装置
CN116627609A (zh) 基于Hive批处理的调度方法及装置
CN112965793B (zh) 一种面向标识解析数据的数据仓库任务调度方法和***
CN114553970A (zh) 一种基于Kafka分布式消息处理方法及数据总线***
CN114492861A (zh) 一种测试数据的采集和解析方法
US8631391B2 (en) Method and a system for process discovery
CN113032181A (zh) 一种单用户邮箱备份恢复***及其方法
CN112527497A (zh) 一种序列化多线程数据处理***
CN112925697B (zh) 作业差异监控方法、装置、设备及介质
CN117216011B (zh) 文件传输方法、装置及电子设备
CN110245148A (zh) 一种数据存储方法、装置、***及介质
CN109710688A (zh) 一种数据实时比对校验方法及消息中间件

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210820