CN115544144B - 一种标签数据的处理方法及装置 - Google Patents

一种标签数据的处理方法及装置 Download PDF

Info

Publication number
CN115544144B
CN115544144B CN202211259401.XA CN202211259401A CN115544144B CN 115544144 B CN115544144 B CN 115544144B CN 202211259401 A CN202211259401 A CN 202211259401A CN 115544144 B CN115544144 B CN 115544144B
Authority
CN
China
Prior art keywords
tag
real
data
time data
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211259401.XA
Other languages
English (en)
Other versions
CN115544144A (zh
Inventor
黄景华
叶田田
王文鉴
宋依兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongdian Jinxin Software Co Ltd
Original Assignee
Zhongdian Jinxin Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongdian Jinxin Software Co Ltd filed Critical Zhongdian Jinxin Software Co Ltd
Priority to CN202211259401.XA priority Critical patent/CN115544144B/zh
Publication of CN115544144A publication Critical patent/CN115544144A/zh
Application granted granted Critical
Publication of CN115544144B publication Critical patent/CN115544144B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24568Data stream processing; Continuous queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/54Indexing scheme relating to G06F9/54
    • G06F2209/548Queue

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种标签数据的处理方法及装置,包括:通过预设接口接收第三方***发送的实时数据;确定实时所关联的标签立方体;判断实时数据是否符合实时数据所关联的标签立方体所指示的数据信息;若实时数据符合实时数据所关联的标签立方体所指示的数据信息,则将实时数据推送至流式组件;当流式组件中的实时数据满足预设触发条件,则利用自动构建引擎从所述流式组件中读取所述实时数据,将实时数据构建进实时数据所关联的标签立方体,生成对应的实时标签数据。本申请通过预设接口接收实时数据并关联至预设标签立方体,提高标签生成的时效性。

Description

一种标签数据的处理方法及装置
技术领域
本申请涉及数据处理技术领域,尤其涉及一种标签数据的处理方法及装置。
背景技术
现有技术中,银行***针对日间产生的业务数据,会进行结账和整合,即跑批以减少工作人员的工作量,在进行跑批汇总时,常常需要针对汇总数据构建标签,例如“某一天的总交易金额”等。
传统的标签画像平台对于标签构建需要完成元数据定义、逻辑模型设计、模型物理化、标签数据装载以及聚合等复杂流程,且标签的构建往往需要T+1跑批,标签构建效率慢的同时,无法保证时效性。
发明内容
有鉴于此,本申请的目的在于至少提供一种标签数据的处理方法及装置,通过预设接口接收实时数据并关联至预设标签立方体,提高标签生成的时效性。
本申请主要包括以下几个方面:
第一方面,本申请实施例提供一种标签数据的处理方法,方法包括:通过预设接口接收第三方***发送的实时数据,实时数据包括多个标签参数;判断多个标签参数中是否包含标签名称、标签报告期、标签阈值和客户号;若多个标签参数中包含标签名称、标签报告期、标签阈值和客户号,则确定实时所关联的标签立方体;判断实时数据是否符合实时数据所关联的标签立方体所指示的数据信息;若实时数据符合实时数据所关联的标签立方体所指示的数据信息,则将实时数据推送至流式组件;当流式组件中的实时数据满足预设触发条件,则利用自动构建引擎从流式组件中读取实时数据,将实时数据构建进实时数据所关联的标签立方体,生成对应的实时标签数据。
在一种可能的实施方式中,通过以下方式确定实时数据所关联的标签立方体:判断原始标签数据集中是否存在与实时数据所指示的标签名称对应的目标原始标签;若原始标签数据集中存在目标原始标签,则直接将与目标原始标签所关联的预设标签立方体,确定为实时数据所关联的标签立方体;若原始标签数据集中不存在目标原始标签,则将预设新生标签立方体确定为实时数据所关联的标签立方体,预设新生标签立方体用于构建原始标签数据集中不存在的实时标签数据。
在一种可能的实施方式中,标签立方体所指示的数据信息包括目标数据格式以及目标数据类型,其中,判断实时数据是否符合实时数据所关联的标签立方体所指示的数据信息的步骤包括:依次判断每个标签参数对应的参数值是否均符合实时数据所关联的目标数据格式;若每个标签参数对应的参数值均符合目标数据格式,则判断实时数据中与标签阈值对应的参数值是否符合实时数据所关联的标签立方体中阈值列所指示的目标数据类型;若实时数据中与标签阈值对应的参数值符合实时书库所关联的标签立方体中阈值列所指示的目标数据类型,则实时数据符合实时数据所关联的标签立方体所指示的数据信息;若实时数据中与标签阈值对应的参数值不符合目标数据类型,则确定实时数据不符合实时数据所关联的标签立方体所指示的数据信息。
在一种可能的实施方式中,通过以下方式将实时数据推送至流式组件:将实时数据推送至redis消息队列;通过预先设置的针对redis消息队列的定时调度器,定时触发遍历redis消息队列获取第一数据集合实时数据;通过redis消息队列将获取到的实时数据推送至流式组件。
在一种可能的实施方式中,预设触发条件包括:redis消息队列在预设时间范围内未接收到存在相同标签名称的实时数据,或,推送到流式组件中的拥有同一标签名称的实时数据的数量满足预设阈值。
第二方面,本申请还提供一种标签数据的处理方法,方法包括:接收用户发送的批量数据表;对批量数据表进行解析,以得到多组非实时数据,每组非实时数据中包括多个非实时标签参数;针对每组非实时数据,判断多个非实时标签参数中是否包含标签名称、标签报告期、标签阈值和客户号,若多个非实时标签参数中包含标签名称、标签报告期、标签阈值和客户号,则确定非实时数据所关联的标签立方体,判断非实时标签数据是否符合非实时数据所关联的标签立方体所指示的数据信息,若非实时标签数据符合非实时数据所关联的标签立方体所指示的数据信息,则多组非实时数据推送至流式组件;针对每组非实时数据,当流式组件中的该组非实时数据满足预设触发条件,则利用自动构建引擎从流式组件中读取该组非实时数据,将非实时数据构建进非实时数据所关联的标签立方体,生成对应的非实时标签数据。
在一种可能的实施方式中,通过以下方式创建批量数据表:通过以下方式创建批量数据表:通过预设方式获取批量数据表模板,批量数据表模板包括多个待编辑行,每个待编辑行包括多个待编辑标签参数;针对每个待编辑行,响应于用户针对该待编辑行中的每个待编辑标签参数依次执行的输入操作,生成每个待编辑标签参数对应的参数值,由多个待编辑标签参数对应的参数值形成该待编辑行对应的非实时数据;由多组非实时数据形成批量数据表。
第三方面,本申请实施例还提供一种标签数据的处理装置,装置包括:
接收模块,用于通过预设接口接收第三方***发送的实时数据,实时数据包括多个标签参数;第一判断模块,用于判断多个标签参数中是否包含标签名称、标签报告期、标签阈值和客户号;确定模块,用于若多个标签参数中包含标签名称、标签报告期、标签阈值和客户号,则确定实时所关联的标签立方体;第二判断模块,判断实时数据是否符合实时数据所关联的标签立方体所指示的数据信息;推送模块,若实时数据符合实时数据所关联的标签立方体所指示的数据信息,则将实时数据推送至流式组件;构建模块,用于当流式组件中的实时数据满足预设触发条件,则利用自动构建引擎从所述流式组件中读取所述实时数据,将实时数据构建进实时数据所关联的标签立方体,生成对应的实时标签数据。
第四方面,本申请还提供一种电子设备,包括:处理器、存储器和总线,存储器存储有处理器可执行的机器可读指令,当电子设备运行时,处理器与存储器之间通过总线进行通信,机器可读指令被处理器运行时执行如上述任一实施例所述的标签数据的处理方法的步骤。
第五方面,本申请还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行如上述任一实施例所述的标签数据的处理方法的步骤。
本申请提供了一种标签数据的处理方法及装置,包括:通过预设接口接收第三方***发送的实时数据;确定实时所关联的标签立方体;判断实时数据是否符合实时数据所关联的标签立方体所指示的数据信息;若实时数据符合实时数据所关联的标签立方体所指示的数据信息,则将实时数据推送至流式组件;当流式组件中的实时数据满足预设触发条件,则利用自动构建引擎从所述流式组件中读取所述实时数据,将实时数据构建进实时数据所关联的标签立方体,生成对应的实时标签数据。本申请通过预设接口接收实时数据并关联至预设标签立方体,提高标签生成的时效性。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种标签数据的处理方法的步骤的流程图;
图2示出了本申请实施例提供的确定实时数据所关联的标签立方体的方法的步骤的流程图;
图3示出了本申请实施例提供的另一种标签数据的处理方法的步骤的流程图;
图4示出了本申请实施例提供的一种标签数据的处理装置的结构示意图;
图5示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中的附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应当理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的全部其他实施例,都属于本申请保护的范围。
客户标签画像就是将客户信息进行标签化,即通过挖掘与分析客户的相关数据,洞察客户行为、喜好,多维度刻画客户特征,以帮助银行对客户精准定位和精准营销,具体的,可以针对每个实体建立一套标签体系,实体例如可以为人、书籍、门店等,例如可以基于人的性别、年龄属性分别创建性别标签和年龄段标签。
现有技术中,在预先创建的标签体系中有大量预先创建的原始标签,可供外部***直接调用,但是实际作业中,常常会产生一些在标签体系中并不存在的实时性/临时性标签,针对这类标签若重新再在体系中创建标签,需要完成元数据定义,逻辑模型设计,模型物理化,标签数据装载,聚合等复杂流程,这样极大降低了标签数据处理效率,且影响后续计算的二次调用。
基于此,本申请实施例提供了一种标签数据的处理方法及装置,通过预设接口接收实时数据并关联至预设标签立方体,提高标签生成的时效性,具体如下:
请参阅图1,图1示出了本申请实施例所提供的一种标签数据的处理方法的步骤的流程图。如图1所示,本申请实施例提供的方法,包括以下步骤:
S100、通过预设接口接收第三方***发送的实时数据。
具体的,本申请的方法可以应用于智能画像平台,第三方***为产生实时数据的***,预设接口可以为预设API接口或kafka提供的可供用户进行操作的kafka Client API接口。
在具体实施中,每产生一条实时业务记录,会将该条实时业务记录存储至对应的数据表中,数据表包括多个字段,每条实时业务记录包括各字段对应的多个字段值,由实时业务记录可确定实时数据,实时数据包括多个标签参数,对于第三方***,可以根据预设规则对多条实时业务记录进行二次加工,以形成与实时业务记录对应的实时数据,例如某一数据表记录用户的交易情况,包括{交易类型,交易金额,交易客户号,交易渠道,交易日期}共5个字段,可以按照预设规则对其中的多条实时业务记录进行加工,形成需要的标签,例如创建“某个渠道最近1天的交易金额”这一标签,则其加工后生成的实时数据可以为{标签名称:“某个渠道最近1天的交易金额”,交易金额:100万,交易日期:“2022年10月7日”,交易客户号:2015EX7},也就是说,最后生成的实时数据所包括的多个标签参数都是键值对的形式,例如,标签名称:“某个渠道最近1天的交易金额”,其中,标签名称为键,其对应的值为:某个渠道最近1天的交易金额。
实时数据实际上就是指依赖于用户实时行为的数据,依赖***能力较高,在实时场景化营销中比较常见,例如,某一标签名称为“90天不登录的用户”,则针对这一标签,需要结合用户的实时登录行为,从对应的数据表中筛选符合“90天不登录的用户”这一标签的实时业务记录,连同标签名称一起形成对应的实时数据。
接收到的实时数据会转换成智能画像平台所规定的标签立方体数据的通用数据格式,例如json,然后将标签数据通过预设接口即可发送到智能画像平台。
在一优选实施例中,可以根据Open API规范定义一个预设API接口,该预设API接口指示了智能画像平台的URL地址、接口名称等参数,以便于第三方***通过调用预设API接口向智能画像平台传输实时数据。
在另一种可能的实施方式中,智能画像平台还可以通过kafka提供的可供用户进行操作的kafka Client API接口获取实时数据,kafka是一种高吞吐量的分布式发布订阅消息***,具体的第三方***可以通过kafka client api发送数据到kafka消息中间件,智能画像平台从kafka消息中间件读取实时数据。
S110、判断多个标签参数中是否包含标签名称、标签报告期、标签阈值和客户号。
在接收到实时数据后,会对实时数据进行解析,拆分得到多个标签参数,然后进一步判断多个标签参数中是否包含标签名称、标签报告期、标签阈值和客户号,其中,标签报告期即标签的生成日期,客户号用于指示客户身份。
S120、若多个标签参数中包含标签名称、标签报告期、标签阈值和客户号,则确定实时数据所关联的标签立方体。
在一优选实施例中,请参阅图2,图2示出了本申请实施例提供的确定实时数据所关联的标签立方体的方法的步骤的流程图。如图2所示,通过以下方式确定实时数据所关联的标签立方体:
S1201、判断原始标签数据集中是否存在与实时数据所指示的标签名称对应的目标原始标签。
具体的,智能画像平台预先创建了多个原始标签,多个原始标签被放置在原始标签数据集中,这里,智能画像平台在接收到实时数据后,会先确定是否创建了该实时数据,具体的,就是在原始标签数据集中遍历查找是否有与实时数据中的标签名称相对应的目标原始标签。
S1202、若原始标签数据集中存在目标原始标签,则直接将与目标原始标签所关联的预设标签立方体,确定为实时数据所关联的标签立方体。
在一具体实施例中,智能画像平台通过Kylin***根据不同的标签类目预先创建了多个预设标签立方体,每个预设立方体都预先绑定到不同的标签类目下,且根据原始标签所属的标签类目,每个原始标签也都绑定或关联至对应的预设标签立方体。
数据立方体,是满足用户从多角度多层次进行数据查询和分析的需要而建立起来的,基于事实和不同维度的数据库模型,其基本的应用是为了实现OLAP,OLAP是一种常用于数据分析与索引的技术,其可以对数据建立多维度索引,以通过数据立方体对数据进行分析,可以大大加快数据的查询效率。
在智能标签画像平台中,以标签数据为基础,建立标签立方体,生成标签立方体对应的元数据,包含标签立方体名称、维度列、度量列、阈值列、以及标签立方体所关联的标签类目和标签信息,从而利用标签立方体,形成SQL语句与标签立方体元数据、数据字典的映射关系,并保存到关系型数据库中,用来实现应用层到数据库层的逻辑映射和作为业务规则解析模板。
S1203、若原始标签数据集中不存在目标原始标签,则将预设新生标签立方体确定为实时数据所关联的标签立方体。
在一具体实施例中,预设新生标签立方体用于构建原始标签数据集中不存在的实时标签数据,只有存在于智能标签画像平台的标签才能进行后续的进一步拓展调用,因此,若原始标签数据集中不包含与标签名称对应的目标原始标签,说明智能标签画像平台并未创建标签名称对应的标签,需要先在智能标签画像平台创建这个标签,且本申请中,会基于预设新生标签立方体自动触发构建与实时数据对应的实时标签数据。
返回图1,S121、若多个标签参数中不包含标签名称、标签报告期、标签阈值和客户号中的任一项,则不对多个标签参数进行后续步骤处理。
S130、判断实时数据是否符合实时数据所关联的标签立方体所指示的数据信息。
标签立方体所指示的数据信息包括智能画像平台所规定的标签立方体数据的目标数据格式以及阈值列对应的目标数据类型。
步骤S130包括:
依次判断每个标签参数对应的参数值是否符合实时数据所关联的标签立方体所指示的目标数据格式;
若每个标签参数对应的参数值均符合目标数据格式,则判断实时数据中与标签阈值对应的参数值是否符合实时数据所关联的标签立方体中阈值列所指示的目标数据类型;
若实时数据中与标签阈值对应的参数值符合实时数据所关联的标签立方体中阈值列所指示的目标数据类型,则确定实时数据符合实时数据所关联的标签立方体所指示的数据信息;
若实时数据中与标签阈值对应的参数值不符合目标数据类型,则确定实时数据不符合实时数据所关联的标签立方体所指示的数据信息。
具体的,每个预设标签立方体和预设新生标签立方体中都规定了其对应的阈值列的数据类型,因此与其相关联的标签数据中的标签阈值的数据类型一定要与该阈值列所定义的数据类型一致,若不一致,则无法形成关联,因此,对于不一致的实时数据,需要将对应的标签阈值转换成目标数据类型后,才能进行进一步的后续处理。
在一优选实施例中,目标数据类型即智能画像平台所规定的标签立方体数据的通用数据格式,通用数据格式规定了标签名称、标签报告期、标签阈值和客户号具体的数据格式,例如,若通用数据格式Json或XML,则Json规定了对象的属性名必须是双引号,属性值如果是字符串也必须是双引号等。
目标数据类型包括但不限于整形、数值型、字符串型。
S140、若实时数据符合实时数据所关联的标签立方体所指示的数据信息,则将实时数据推送至流式组件。
方法还包括,S141、若实时数据不符合实时数据所关联的标签立方体所指示的数据信息,则不对实时数据进行后续步骤处理。
本申请中,标签立方体是由kylin***进行创建和管理的,因此需要将实时数据推送至kylin***进行进一步的处理。
在另一优选实施例中,通过以下方式将实时数据推送至流式组件:
将实时数据推送至redis消息队列,通过预先设置的针对redis消息队列的定时调度器,定时触发遍历redis消息队列获取实时数据,通过redis消息队列将获取到的实时数据推送至流式组件。
在一具体实施方式中,redis消息队列可以通过定时触发遍历的方式,对实时数据进行去重处理,由于可能会出现的网络错误等问题,会导致相同的实时数据被重复发送到redis消息队列,redis消息队列通过定时触发遍历结合预设触发条件可以做到去重,因此,通过设置预设触发条件可以避免数据的重复发送的问题。
S150、当流式组件中的实时数据满足预设触发条件,则利用自动构建引擎从流式组件中读取实时数据,将实时数据构建进实时数据所关联的标签立方体,生成对应的实时标签数据。
其中,流失组件可由kafka提供。
在一优选实施例中,预设触发条件包括:
redis消息队列在预设时间范围内未接收到存在相同标签名称的实时数据,或推送到流式组件中的拥有同一标签名称的实时数据的数量满足预设阈值。
在另一优选实施例中,本申请借助kylin***,预先创建多个标签立方体,每个标签立方体对应一个HIVE,实时数据是以键值的形式封装成JSON传入流式组件,且每个实时数据是由多个标签参数组成,即每个标签参数是键值对的形式,这样,从流式组件中读取实时数据后,通过自动分析识别实时数据中的键值对后,自动生成对应的虚拟表,虚拟表被存储至对应的HIVE中,即将流式组件中读取实时数据写入HDFS。
使用HiveQL将虚拟表与对应的HIVE中的维度表进行join操作,这样即可将当前的接收到的实时数据构建进实时数据所关联的标签立方体,以形成在对应标签立方体下的实时标签数据。
请参阅图3,图3示出了本申请实施例提供的另一种标签数据的处理方法的步骤的流程图。如图3所示,方法包括:
S210、接收用户发送的批量数据表。
在一优选实施例中,通过以下方式创建批量数据表:
通过预设方式获取批量数据表模板,批量数据表模板包括多个待编辑行,每个待编辑行包括多个待编辑标签参数,针对每个待编辑行,响应于用户针对该待编辑行中的每个待编辑标签参数依次执行的输入操作,生成每个待编辑标签参数对应的参数值,由多个待编辑标签参数对应的参数值形成该待编辑行对应的非实时数据,由多组非实时数据形成批量数据表。
非实时数据,即指其所形成的标签为非实时标签的数据,例如,非实时标签可以为年龄、性别、历史买过产品和开户渠道等,这些标签属于用户基本属性信息,不依赖于用户的实时行为。
具体的,可以根据标签立方体统一的通用格式制定批量数据表模板中每个标签参数对应的输入规则,以使用户按照对应的规则执行输入操作,批量数据表更适用于非实时数据的批量传输过程以满足客户的需求,灵活性较高。
S220、对批量数据表进行解析,以得到多组非实时数据。
其中,每组非实时数据中包括多个非实时标签参数。
S230、针对每组非实时数据,判断多个非实时标签参数中是否包含标签名称、标签报告期、标签阈值和客户号。
S240、针对每组非实时数据,若多个非实时标签参数中包含标签名称、标签报告期、标签阈值和客户号,则确定非实时数据所关联的标签立方体。
S241、针对每组非实时数据,若多个非实时标签参数中不包含标签名称、标签报告期、标签阈值和客户号中的任意一项,则不对多个非实时标签参数进行后续步骤处理。
S250、针对每组非实时数据,判断非实时标签数据是否符合非实时数据所关联的标签立方体所指示的数据信息。
S260、针对每组非实时数据,若非实时标签数据符合非实时标签数据所关联的标签立方体所指示的数据信息,则将多组非实时数据推送至流式组件。
S261、针对每组非实时数据,若非实时标签数据不符合非实时标签数据所关联的标签立方体所指示的数据信息,则不对非实时标签数据进行后续步骤处理。
S270、针对每组非实时数据,当流式组件中的该组非实时数据满足预设触发条件,则利用自动构建引擎从流式组件中读取该组非实时数据,将非实时数据构建进非实时数据所关联的标签立方体,生成对应的非实时标签数据。
步骤S230~步骤S280的过程与实时数据的处理过程类似,在此不做赘述。
基于同一申请构思,本申请实施例中还提供了与上述实施例提供的一种实时标签的处理方法对应的实时标签的处理装置,由于本申请实施例中的装置解决问题的原理与本申请上述实施例的实时标签的处理方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
请参阅图4,图4示出了本申请实施例提供的一种标签数据的处理装置的结构示意图,如图4所示,装置包括:
接收模块300,用于通过预设接口接收第三方***发送的实时数据,实时数据包括多个标签参数;
第一判断模块310,用于判断多个标签参数中是否包含标签名称、标签报告期、标签阈值和客户号;
确定模块320,用于若多个标签参数中包含标签名称、标签报告期、标签阈值和客户号,则确定实时所关联的标签立方体;
第二判断模块330,判断实时数据是否符合实时数据所关联的标签立方体所指示的数据信息;
推送模块340,若实时数据符合实时数据所关联的标签立方体所指示的数据信息,则将实时数据推送至流式组件;
构建模块350,用于当流式组件中的实时数据满足预设触发条件,则利用自动构建引擎从流式组件中读取实时数据,将实时数据构建进实时数据所关联的标签立方体,生成对应的实时标签数据。
基于同一申请构思,请参阅图5,图5示出了本申请实施例提供的一种电子设备的结构示意图,电子设备400包括:处理器410、存储器420和总线430,所述存储器420存储有所述处理器410可执行的机器可读指令,当电子设备400运行时,所述处理器410与所述存储器420之间通过所述总线430进行通信,所述机器可读指令被所述处理器410运行时执行如上述实施例中任一所述的标签数据的处理方法的步骤。
基于同一申请构思,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述实施例提供的标签数据的处理方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应所述理解到,所揭露的***、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者所述技术方案的部分可以以软件产品的形式体现出来,所述计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种标签数据的处理方法,其特征在于,所述方法包括:
通过预设接口接收第三方***发送的实时数据,所述实时数据包括多个标签参数,所述多个标签参数是由第三方***根据预设规则对多条实时业务记录进行二次加工所形成的;
判断所述多个标签参数中是否包含标签名称、标签报告期、标签阈值和客户号;
若所述多个标签参数中包含标签名称、标签报告期、标签阈值和客户号,则确定实时所关联的标签立方体;
判断实时数据是否符合实时数据所关联的标签立方体所指示的数据信息;
若实时数据符合实时数据所关联的标签立方体所指示的数据信息,则将实时数据推送至流式组件;
当流式组件中的实时数据满足预设触发条件,则利用自动构建引擎从所述流式组件中读取所述实时数据,将实时数据构建进实时数据所关联的标签立方体,生成对应的实时标签数据。
2.根据权利要求1所述的方法,其特征在于,通过以下方式确定实时数据所关联的标签立方体:
判断原始标签数据集中是否存在与实时数据所指示的标签名称对应的目标原始标签;
若原始标签数据集中存在所述目标原始标签,则直接将与所述目标原始标签所关联的预设标签立方体,确定为实时数据所关联的标签立方体;
若原始标签数据集中不存在所述目标原始标签,则将预设新生标签立方体确定为实时数据所关联的标签立方体,所述预设新生标签立方体用于构建原始标签数据集中不存在的实时标签数据。
3.根据权利要求1所述的方法,其特征在于,标签立方体所指示的数据信息包括目标数据格式以及目标数据类型,
其中,判断实时数据是否符合实时数据所关联的标签立方体所指示的数据信息的步骤包括:
依次判断每个标签参数对应的参数值是否均符合实时数据所关联的所述目标数据格式;
若每个标签参数对应的参数值均符合所述目标数据格式,则判断实时数据中与所述标签阈值对应的参数值是否符合实时数据所关联的标签立方体中阈值列所指示的目标数据类型;
若实时数据中与所述标签阈值对应的参数值符合目标数据类型,则实时数据符合实时数据所关联的标签立方体所指示的数据信息;
若实时数据中与标签阈值对应的参数值不符合目标数据类型,则确定实时数据不符合实时数据所关联的标签立方体所指示的数据信息。
4.根据权利要求1所述的方法,其特征在于,通过以下方式将所述实时数据推送至所述流式组件:
将所述实时数据推送至redis消息队列;
通过预先设置的针对redis消息队列的定时调度器,定时触发遍历redis消息队列获取第一数据集合实时数据;
通过redis消息队列将获取到的实时数据推送至流式组件。
5.根据权利要求4所述的方法,其特征在于,所述预设触发条件包括:
redis消息队列在预设时间范围内未接收到存在相同标签名称的实时数据,
或,推送到流式组件中的拥有同一标签名称的实时数据的数量满足预设阈值。
6.一种标签数据的处理方法,其特征在于,所述方法包括:
接收用户发送的批量数据表,所述批量数据表是由在批量数据表模版上按照输入规则执行的输入操作确定的,批量数据表模版包括多个待编辑行,每个待编辑行包括多个待编辑标签参数,其中,每个待编辑标签参数对应是一输入规则,所述输入规则是根据标签立方体统一的通用格式指定的;
对所述批量数据表进行解析,以得到多组非实时数据,每组非实时数据中包括多个非实时标签参数;
针对每组非实时数据,判断所述多个非实时标签参数中是否包含标签名称、标签报告期、标签阈值和客户号,若所述多个非实时标签参数中包含标签名称、标签报告期、标签阈值和客户号,则确定非实时数据所关联的标签立方体,判断非实时标签数据是否符合所述非实时数据所关联的标签立方体所指示的数据信息,若非实时标签数据符合非实时数据所关联的标签立方体所指示的数据信息,则多组非实时数据推送至流式组件;
针对每组非实时数据,当所述流式组件中的该组非实时数据满足预设触发条件,则利用自动构建引擎从所述流式组件中读取该组非实时数据,将非实时数据构建进非实时数据所关联的标签立方体,生成对应的非实时标签数据。
7.根据权利要求6所述的方法,其特征在于,通过以下方式创建所述批量数据表:
通过预设方式获取批量数据表模板,所述批量数据表模板包括多个待编辑行,每个待编辑行包括多个待编辑标签参数;
针对每个待编辑行,响应于用户针对该待编辑行中的每个待编辑标签参数依次执行的输入操作,生成每个待编辑标签参数对应的参数值,由多个待编辑标签参数对应的参数值形成该待编辑行对应的非实时数据;
由所述多组非实时数据形成所述批量数据表。
8.一种标签数据的处理装置,其特征在于,所述装置包括:
接收模块,用于通过预设接口接收第三方***发送的实时数据,所述实时数据包括多个标签参数,所述多个标签参数是由第三方***根据预设规则对多条实时业务记录进行二次加工所形成的;
第一判断模块,用于判断所述多个标签参数中是否包含标签名称、标签报告期、标签阈值和客户号;
确定模块,用于若所述多个标签参数中包含标签名称、标签报告期、标签阈值和客户号,则确定实时所关联的标签立方体;
第二判断模块,判断实时数据是否符合实时数据所关联的标签立方体所指示的数据信息;
推送模块,若实时数据符合实时数据所关联的标签立方体所指示的数据信息,则将实时数据推送至流式组件;
构建模块,用于当流式组件中的实时数据满足预设触发条件,则利用自动构建引擎从所述流式组件中读取所述实时数据,将实时数据构建进实时数据所关联的标签立方体,生成对应的实时标签数据。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行如权利要求1至5任一所述的标签数据的处理方法或如权利要求6至7任一所述的标签数据的处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至5任一所述的标签数据的处理方法或如权利要求6至7任一所述的标签数据的处理方法的步骤。
CN202211259401.XA 2022-10-14 2022-10-14 一种标签数据的处理方法及装置 Active CN115544144B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211259401.XA CN115544144B (zh) 2022-10-14 2022-10-14 一种标签数据的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211259401.XA CN115544144B (zh) 2022-10-14 2022-10-14 一种标签数据的处理方法及装置

Publications (2)

Publication Number Publication Date
CN115544144A CN115544144A (zh) 2022-12-30
CN115544144B true CN115544144B (zh) 2024-05-31

Family

ID=84733105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211259401.XA Active CN115544144B (zh) 2022-10-14 2022-10-14 一种标签数据的处理方法及装置

Country Status (1)

Country Link
CN (1) CN115544144B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019237541A1 (zh) * 2018-06-11 2019-12-19 平安科技(深圳)有限公司 联系人标签的确定方法、装置、终端设备及介质
CN111126880A (zh) * 2020-01-02 2020-05-08 浙江吉利新能源商用车集团有限公司 一种用户画像生成方法、装置及设备
CN112269805A (zh) * 2020-11-18 2021-01-26 杭州米雅信息科技有限公司 数据处理方法、装置、设备及介质
CN112685448A (zh) * 2020-12-25 2021-04-20 中国平安人寿保险股份有限公司 实时标签自动生成方法、装置及存储介质
CN114595943A (zh) * 2022-02-14 2022-06-07 烟台杰瑞石油服务集团股份有限公司 机械设备画像生成方法
CA3148075A1 (en) * 2021-02-08 2022-08-08 10353744 Canada Ltd. Real-time stream data processing method, device, computer apparatus, and storage medium

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019237541A1 (zh) * 2018-06-11 2019-12-19 平安科技(深圳)有限公司 联系人标签的确定方法、装置、终端设备及介质
CN111126880A (zh) * 2020-01-02 2020-05-08 浙江吉利新能源商用车集团有限公司 一种用户画像生成方法、装置及设备
CN112269805A (zh) * 2020-11-18 2021-01-26 杭州米雅信息科技有限公司 数据处理方法、装置、设备及介质
CN112685448A (zh) * 2020-12-25 2021-04-20 中国平安人寿保险股份有限公司 实时标签自动生成方法、装置及存储介质
CA3148075A1 (en) * 2021-02-08 2022-08-08 10353744 Canada Ltd. Real-time stream data processing method, device, computer apparatus, and storage medium
CN114595943A (zh) * 2022-02-14 2022-06-07 烟台杰瑞石油服务集团股份有限公司 机械设备画像生成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"基于流式计算的实时用户画像***研究";姜红玉 等;《计算机技术与发展》;20200710;第30卷(第7期);193-200 *
基于公安大数据的人员背景标签应用分析与研究;朱振华;于晓昀;李超;;电脑知识与技术;20180725(第21期);34-36 *
面向推荐***的用户行为记录数据实时预处理研究与实现;韦智勇;;企业科技与发展;20180810(第08期);94-97+99 *

Also Published As

Publication number Publication date
CN115544144A (zh) 2022-12-30

Similar Documents

Publication Publication Date Title
CN104699718B (zh) 用于快速引入业务数据的方法和装置
US20240126817A1 (en) Graph data query
CN111061758B (zh) 数据存储方法、装置及存储介质
CN111506559A (zh) 数据存储方法、装置、电子设备及存储介质
CN110471945B (zh) 活跃数据的处理方法、***、计算机设备和存储介质
CN111382182A (zh) 数据处理方法、装置、电子设备及存储介质
KR20160071746A (ko) 규칙 기반 로그 데이터 그룹화를 이용한 개인 맞춤형 로그 분석 시스템 및 그 방법
WO2021012861A1 (zh) 数据查询耗时评估方法、装置、计算机设备和存储介质
CN108140022B (zh) 数据查询方法和数据库***
CN110737432A (zh) 一种基于词根表的脚本辅助设计方法及装置
CN115544144B (zh) 一种标签数据的处理方法及装置
CN115329011A (zh) 数据模型的构建方法、数据查询的方法、装置及存储介质
CN111488386A (zh) 数据查询方法和装置
CN114285896B (zh) 信息推送方法、装置、设备、存储介质及程序产品
CN114860819A (zh) 商业智能***的构建方法、装置、设备和存储介质
CN113902415A (zh) 财务数据核对方法、装置、计算机设备和存储介质
CN110414813B (zh) 指标曲线的构建方法、装置及设备
CN111639117A (zh) 基于数据加工的业务处理方法及装置
CN113177157B (zh) 标签分离方法、装置、设备及存储介质
CN115718825B (zh) 一种时长标签的确定方法、装置及电子设备
CN117251384B (zh) 一种接口自动化测试用例生成方法及***
CN115563385B (zh) 一种组合标签的生成方法及生成装置
CN112364007B (zh) 基于数据库的海量数据交换方法、装置、设备和存储介质
CN110765129B (zh) 一种高性能的在线经费决算统计方法与装置
CN110134691B (zh) 数据校验方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant