CN111400608B - 数据处理方法及装置、存储介质及电子设备 - Google Patents

数据处理方法及装置、存储介质及电子设备 Download PDF

Info

Publication number
CN111400608B
CN111400608B CN202010509708.5A CN202010509708A CN111400608B CN 111400608 B CN111400608 B CN 111400608B CN 202010509708 A CN202010509708 A CN 202010509708A CN 111400608 B CN111400608 B CN 111400608B
Authority
CN
China
Prior art keywords
module
data
target
target module
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010509708.5A
Other languages
English (en)
Other versions
CN111400608A (zh
Inventor
尹学正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sohu New Power Information Technology Co ltd
Original Assignee
Beijing Sohu New Power Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sohu New Power Information Technology Co ltd filed Critical Beijing Sohu New Power Information Technology Co ltd
Priority to CN202010509708.5A priority Critical patent/CN111400608B/zh
Publication of CN111400608A publication Critical patent/CN111400608A/zh
Application granted granted Critical
Publication of CN111400608B publication Critical patent/CN111400608B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据处理方法及装置、存储介质及电子设备,该方法包括:在信息推荐的过程中,获取目标模块进行数据处理的过程数据和结果数据,目标模块为推荐***中的任意一个模块,获取目标模块的上一模块的模块处理标识,并生成目标模块的模块处理标识,将过程数据、结果数据、目标模块的上一模块的模块处理标识、以及目标模块的模块处理标识,组成目标模块对应的埋点数据,并对目标模块对应的埋点数据进行解析,得到解析结果,并将解析结果进行存储。本技术方案,通过获取信息推荐过程中每个模块各自对应的埋点数据,并将埋点数据进行解析并存储,实现推荐***中的数据使用情况的可追溯,从而提高信息推荐过程的数据使用的透明度和可解释性。

Description

数据处理方法及装置、存储介质及电子设备
技术领域
本发明涉及计算机应用领域,尤其涉及一种数据处理方法及装置、存储介质及电子设备。
背景技术
随着移动互联网用户的不断增多、以及用户生成内容(User Generated Content,UGC)的兴起,大量的内容信息导致用户信息过载,为了缓解信息过载,推荐***应运而生。
现有的推荐***主要包含画像模块、召回模块、排序模块、以及推荐引擎模块,在画像模块生成用户画像以及物品画像,在召回模块中结合用户画像、物品画像以及用户历史行为数据,筛选出用户可能感兴趣的多个物品,在排序模块对筛选出的物品进行排序,最后由推荐引擎模块生成推荐结果进行信息推荐。
现有的推荐***采用异步处理的方式部署画像模块、召回模块、排序模块、以及推荐引擎,即推荐***中各个模块的数据处理方式为异步处理,使得无法追溯推荐***中的数据使用情况,导致数据使用的可解释性差。
发明内容
本申请提供了一种数据处理方法及装置、存储介质及电子设备,目的在于解决推荐***中各个模块的数据处理方式为异步处理,使得无法追溯推荐***中的数据使用情况,导致数据使用的可解释性差的问题。
为了实现上述目的,本申请提供了以下技术方案:
一种数据处理方法,应用于推荐***,所述推荐***包括画像模块、召回模块、排序模块、以及推荐引擎模块,所述方法包括:
在信息推荐的过程中,获取目标模块进行数据处理的过程数据和结果数据;所述目标模块为所述推荐***中的任意一个模块;
获取所述目标模块的上一模块的模块处理标识;
生成所述目标模块的模块处理标识;
将所述过程数据、所述结果数据、所述目标模块的上一模块的模块处理标识、以及所述目标模块的模块处理标识,组成所述目标模块对应的埋点数据;
依据预设的与所述目标模块对应的数据解析策略,对所述目标模块对应的埋点数据进行解析,得到解析结果,并将所述解析结果进行存储。
上述的方法,可选的,所述生成所述目标模块的模块处理标识,包括:
启动预设的标识生成算法,生成所述目标模块的数据处理标识;
获取预设的所述目标模块对应的数据处理逻辑;
将所述数据处理标识和所述数据处理逻辑组成所述目标模块的模块处理标识。
上述的方法,可选的,所述依据预设的与所述目标模块对应的数据解析策略,对所述目标模块对应的埋点数据进行解析,包括:
确定预设的所述目标模块对应的数据解析策略中包含的各个关键字段;
解析所述目标模块对应的埋点数据,从所述埋点数据中提取每个所述关键字段各自对应的数据项。
上述的方法,可选的,所述将所述过程数据、所述结果数据、所述目标模块的上一模块的模块处理标识、以及所述目标模块的模块处理标识,组成所述目标模块对应的埋点数据之后,还包括:
将所述目标模块对应的埋点数据存储至预先构建的数据库中。
上述的方法,可选的,还包括:
按预设周期,对所述数据库中存储的各个埋点数据进行统计,得到统计结果;
对所述统计结果进行显示。
上述的方法,可选的,所述对所述数据库中存储的各个埋点数据进行统计,包括:
依据所述数据库中存储的各个埋点数据,确定预设周期内的埋点数据;
依据所述预设周期内的埋点数据,计算推荐***中包含的每个模块的数据使用率;每个模块的数据使用率用于表征所述模块进行数据处理的结果数据与所述模块的上一模块的结果数据之间的占比情况;
依据所述预设周期内的埋点数据,计算第一模块的数据覆盖率,以及所述推荐***中包含的每个模块的特征缺失率;其中,所述第一模块包括画像模块或召回模块,所述第一模块的数据覆盖率用于表征所述第一模块进行数据处理得到的有效结果数据,与所述预设周期内的信息推荐请求总数之间的占比情况,所述有效结果数据中包含的字段为非空字段,每个模块的所述特征缺失率用于表征所述模块的上一模块的有效模块处理标识个数,与所述模块的上一模块的模块处理标识总数之间的占比情况,所述有效模块处理标识中包含的字段为非空字段。
一种数据处理装置,应用于推荐***,所述推荐***包括画像模块、召回模块、排序模块、以及推荐引擎模块,所述装置包括:
第一获取单元,用于在信息推荐的过程中,获取目标模块进行数据处理的过程数据和结果数据;所述目标模块为所述推荐***中的任意一个模块;
第二获取单元,用于获取所述目标模块的上一模块的模块处理标识;
生成单元,用于生成所述目标模块的模块处理标识;
组合单元,用于将所述过程数据、所述结果数据、所述目标模块的上一模块的模块处理标识、以及所述目标模块的模块处理标识,组成所述目标模块对应的埋点数据;
解析单元,用于依据预设的与所述目标模块对应的数据解析策略,对所述目标模块对应的埋点数据进行解析,得到解析结果,并将所述解析结果进行存储。
上述的装置,可选的,所述生成单元,包括:
生成子单元,用于启动预设的标识生成算法,生成所述目标模块的数据处理标识;
获取子单元,用于获取预设的所述目标模块对应的数据处理逻辑;
组合子单元,用于将所述数据处理标识和所述数据处理逻辑组成所述目标模块的模块处理标识。
一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行上述的数据处理方法。
一种电子设备,包括存储器,以及一个或者一个以上的指令,其中一个或者一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行上述的数据处理方法。
与现有技术相比,本发明包括以下优点:
本发明提供了一种数据处理方法及装置、存储介质及电子设备,该方法包括:在信息推荐的过程中,获取目标模块进行数据处理的过程数据和结果数据,目标模块为所述推荐***中的任意一个模块,获取目标模块的上一模块的模块处理标识,并生成目标模块的模块处理标识,将过程数据、结果数据、目标模块的上一模块的模块处理标识、以及目标模块的模块处理标识,组成目标模块对应的埋点数据,依据预设的与目标模块对应的数据解析策略,对目标模块对应的埋点数据进行解析,得到解析结果,并将解析结果进行存储。可见,本发明提供的技术方案,通过获取信息推荐过程中每个模块各自对应的埋点数据,并将埋点数据进行解析并存储,实现推荐***中的数据使用情况的可追溯,从而提高信息推荐过程的数据使用的透明度和可解释性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的一种数据处理方法的方法流程图;
图2为本发明提供的一种数据处理方法的又一方法流程图;
图3为本发明提供的一种数据处理方法的另一方法流程图;
图4为本发明提供的一种数据处理***的结构示意图;
图5为本发明提供的一种数据处理装置的结构示意图;
图6为本发明提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种数据处理方法,该方法可以应用于推荐***,推荐***包括画像模块、召回模块、排序模块、以及推荐引擎模块,在画像模块生成用户画像以及物品画像,在召回模块中结合用户画像、物品画像以及用户历史行为数据,筛选出用户可能感兴趣的多个物品,在排序模块对筛选出的物品进行排序,最后由推荐引擎模块生成推荐结果进行信息推荐。
本发明实施例提供的数据处理方法的执行主体可以为运行在计算机上的服务器端,所述数据处理方法的流程图如图1所示,具体包括:
S101、在信息推荐的过程中,获取目标模块进行数据处理的过程数据和结果数据。
本发明实施例提供的方法中,推荐***包括画像模块、召回模块、排序模块、以及推荐引擎模块,画像模块分别与召回模块和排序模块相连,召回模块分别与排序模块和推荐引擎模块相连,排序模块与推荐引擎模块相连。
在信息推荐的过程中,实时获取目标模块进行数据处理的过程数据和结果数据,目标模块为推荐***的任意一个模块,需要说明的是,若目标模块为画像模块,画像模块进行数据处理得到的结果数据为用户画像或物品画像,画像模块的下一模块为召回模块和排序模块;若目标模块为召回模块,召回模块进行数据处理得到的结果数据为给用户推荐的召回结果集合,也就是用户可能感兴趣的多个物品,召回模块的下一模块为排序模块和推荐引擎模块;若目标模块为排序模块,排序模块进行数据处理得到的结果数据为对召回模块召回的物品进行排序的结果,排序模块的下一模块为推荐引擎模块;若目标模块为推荐引擎模块,推荐引擎模块进行数据处理得到的结果数据为待推荐给用户的推荐结果。
需要说明的是,本发明实施所提及的目标模块进行数据处理的过程为现有技术,此处不再赘述。
S102、获取目标模块的上一模块的模块处理标识。
获取目标模块的上一模块的模块处理标识,其中,若目标模块为画像模块,画像模块的上一模块的模块处理标识对应的字段为空字段;若目标模块为召回模块,召回模块的上一模块的模块处理标识为画像模块的模块处理标识;若目标模块为排序模块,排序模块的上一模块的模块处理标识为画像模块的模块处理标识、以及召回模块的模块处理标识;若目标模块为推荐引擎模块,推荐引擎模块的上一模块的模块处理标识为排序模块的模块处理标识、以及召回模块的模块处理标识。
需要说明的是,若目标模块的上一模块的模块标识对应的字段为空字段,则说明目标模块与目标模块的上一模块没有数据依赖,或数据依赖缺失。
需要说明的是,模块处理标识用于唯一标识该模块对应的当前信息推荐请求,也就是说,针对任意一个信息推荐请求,每个模块各自生成与该信息推荐请求对应的模块处理标识。可选的,模块处理标识可以用tMid表示,tMid为一个二元组数据<tid,type>,其中,tid为针对信息推荐请求所生成的数据处理标识,数据处理标识可以通过启动预设的标识生成算法生成,预设的标识生成算法为现有的用于生成标识的算法,包括但不限于雪花算法;type为预设的模块对应的数据处理逻辑。
需要说明的是,本发明实施例提供的方法中,每一个模块向下一模块发送的数据为一个二元组<tMid,P>,其中tMid为该模块的模块处理标识,P为该模块进行数据处理得到的结果数据,也就是说每一模块向下一模块传输的数据为该模块进行数据处理得到的结果数据、以及该模块的模块处理标识。
S103、生成目标模块的模块处理标识。
参考图2,生成目标模块的模块处理标识的具体过程,包括以下步骤:
S201、启动预设的标识生成算法,生成目标模块的数据处理标识。
S202、获取预设的目标模块对应的数据处理逻辑。
S203、将数据处理标识和数据处理逻辑组成目标模块的模块处理标识。
本发明实施例提供的方法中,目标模块的模块处理标识的生成过程同上述提及的目标模块的上一模块的模块处理标识的生成过程相同,基于预设的标识生成算法,生成目标模块的数据处理标识tid,并获取预设的目标模块对应的数据处理逻辑type,将目标模块对应的数据处理标识和数据处理逻辑进行组合,得到目标模块的模块处理标识,也就是二元组<tid,type>。
S104、将过程数据、结果数据、目标模块的上一模块的模块处理标识、以及目标模块的模块处理标识,组成目标模块对应的埋点数据。
将目标模块进行数据处理的过程数据和结果数据、目标模块的上一模块的模块处理标识、以及目标模块的模块处理标识进行组合,得到目标模块对应的埋点数据,可选的,可以将目标模块进行数据处理的过程数据和结果数据组合成埋点内容数据,将目标模块的上一模块的模块处理标识、目标模块的模块处理标识、以及埋点内容数据组成目标模块的埋点数据,可选的,目标模块的埋点数据可以以三元组<sMid,tMid,R>来表示,其中,sMid用于表征目标模块的上一模块的模块处理标识,tMid用于表征目标模块的模块处理标识,R用于表征埋点内容数据。
需要说明的是,目标模块对应的埋点数据中包含目标模块的上一模块的模块处理标识,通过埋点数据中包含的目标模块的上一模块的模块处理标识,建立推荐***中的各个模块对应的埋点数据之间的联系,从而可追溯任意一个信息推荐请求的数据使用情况。
可选的,可以实时将目标模块对应的埋点数据写入预先构建的消息队列中,可选的,消息队列可以是Kafka消息队列,其中,Kafka是由Linkedin开发的一个分布式的消息队列***(Message Queue)。
S105、依据预设的与目标模块对应的数据解析策略,对目标模块对应的埋点数据进行解析,得到解析结果,并将解析结果进行存储。
依据预设的与目标模块对应的数据解析策略,对目标模块对应的埋点数据进行解析的过程,具体包括:
确定预设的目标模块对应的数据解析策略中包含的各个关键字段;
解析目标模块对应的埋点数据,从埋点数据中提取每个关键字段各自对应的数据项。
本发明实施例提供的方法中,预先构建每个模块各自对应的数据解析策略。例如,召回模块对应的数据解析策略如表1所示:
表1 数据解析策略表
Figure 768383DEST_PATH_IMAGE001
确定预设的目标模块对应的数据解析策略,并确定该数据解析策略中包含的各个关键字段,对目标模块对应的埋点数据进行解析,从埋点数据中提取每个关键字段各自的数据项。
将解析得到的解析结果进行存储,可选的,可以将解析得到的解析结果存储至搜索引擎Elastic Search中。
可选的,依据预设的与目标模块对应的数据解析策略,对目标模块对应的埋点数据进行解析之前,还包括:
实时监控消息队列中是否存在埋点数据;
当监控到消息队列中存在埋点数据,获取该埋点数据。
本发明实施例提供的方法中,实时对消息队列进行监控,当监控到消息队列中存在埋点数据时,获取该埋点数据。
本发明实施例提供的数据处理方法,在信息推荐的过程中,获取目标模块进行数据处理的过程数据和结果数据,目标模块为推荐***中的任意一个模块,获取目标模块的上一模块的模块处理标识,并生成目标模块的模块处理标识,将过程数据、结果数据、目标模块的上一模块的模块处理标识、以及目标模块的模块处理标识,组成目标模块对应的埋点数据,依据预设的与目标模块对应的数据解析策略,对目标模块对应的埋点数据进行解析,得到解析结果,并将解析结果进行存储。应用本发明实施例提供的数据处理方法,通过获取信息推荐过程中每个模块各自对应的埋点数据,并将埋点数据进行解析并存储,实现推荐***中的数据使用情况的可追溯,从而提高信息推荐过程的数据使用的透明度和可解释性。
上述本发明实施例图1公开的步骤S104涉及到的将过程数据、结果数据、目标模块的上一模块的模块处理标识、以及目标模块的模块处理标识,组成目标模块对应的埋点数据之后,流程图如图3所示,还可以包括以下步骤:
S301、将目标模块对应的埋点数据存储至预先构建的数据库中。
在将目标模块进行数据处理过程中的过程数据和结果数据、以及目标模块的上一模块的模块处理标识、以及目标模块的模块处理标识组成目标模块对应的埋点数据之后,将目标模块对应的埋点数据存储至预先构建的数据库中,可选的,可以将目标模块对应的埋点数据存储至数据仓库工具Hive中,其中,Hive是基于分布式***Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。
S302、按预设周期,对数据库中存储的各个埋点数据进行统计,得到统计结果。
按预设周期,对数据库中存储的各个埋点数据进行统计的具体实现过程,包括:
依据数据库中存储的各个埋点数据,确定预设周期内的埋点数据;
依据预设周期内的埋点数据,计算推荐***中包含的每个模块的数据使用率;每个模块的数据使用率用于表征该模块进行数据处理的结果数据与该模块的上一模块的结果数据之间的占比情况;
依据预设周期内的埋点数据,计算第一模块的数据覆盖率,以及推荐***中包含的每个模块的特征缺失率;其中,第一模块包括画像模块或召回模块,第一模块的数据覆盖率用于表征第一模块进行数据处理得到的有效结果数据,与预设周期内的信息推荐请求总数之间的占比情况,有效结果数据中包含的字段为非空字段,每个模块的特征缺失率用于表征该模块的上一模块的有效模块处理标识,与该模块的上一模块的模块处理标识总数之间的占比情况,有效模块处理标识中包含的字段为非空字段。
本发明实施例提供的方法中,依据数据库中存储的埋点数据,确定预设周期内的埋点数据,例如,若设定统计时间为按天为单位进行统计,确定一天内的所有埋点数据,可选的,可以设定定时统计,在定时时刻到达时,对埋点数据进行统计。
本发明实施例提供的方法中,可以统计各个模块的数据使用率、第一模块的数据覆盖率、以及各个模块的特征缺失率。其中,第一模块包括画像模块和召回模块,即统计画像模块的数据覆盖率、以及统计召回模块的数据覆盖率,每个模块的数据使用率用于表征该模块进行数据处理的结果数据,与该模块的上一模块的结果数据之间的占比情况,例如,预设周期内,召回模块接收到画像模块发送的结果数据为3000万,召回模块进行数据处理得到的结果数据为2000万,则召回模块的数据利用率为66.67%;画像模块的数据覆盖率用于表征画像模块进行数据处理得到的有效结果数据,与预设周期内的信息推荐请求总数之间的占比情况,召回模块的数据覆盖率用于表征召回模块进行数据处理得到的有效结果数据,与预设周期内的信息推荐请求总数之间的占比请求,有效结果数据中包含的字段为非空字段;每一个模块的特征缺失率用于表征该模块的上一模块的有效模块处理标识个数,与该模块的上一模块的模块处理标识总数之间的占比情况。
可选的,可以依据预设周期内的埋点数据,生成相关统计图,相关统计图包括但不限于条形统计图、柱状统计图、以及折线统计图,例如,生成一天内,每相邻两个小时对应的埋点数据总数的折线统计图。
需要说明的是,可以离线或实时按预设周期,对数据库中包含的埋点数据进行统计。
S303、对统计结果进行显示。
对统计得到的统计结果进行显示,即对统计结果进行可视化,的也就是对各个模块的数据使用率、画像模块的数据覆盖率、召回模块的数据覆盖率、各个模块的特征缺失率、以及相关统计图进行显示。
本发明实施例提供的数据处理方法中,按预设周期,对埋点数据进行统计,以评估推荐***中各个模块的工作情况,并对统计得到的统计结果进行可视化,提高用户体验。
本发明实施例还提供了一种数据处理***,其结构示意图如图4所示,具体包括:
画像模块401、召回模块402、排序模块403、推荐引擎模块404、埋点数据收集模块405、数据分析模块406、以及数据可视化模块407。
召回模块402分别与画像模块401、排序模块403和推荐引擎模块404相连;排序模块403分别与画像模块401和推荐引擎模块404相连。
埋点数据收集模块405分别与画像模块401、召回模块402、排序模块403和推荐引擎模块404相连,用于在信息推荐的过程中,获取每个模块的埋点数据,其中,每一个模块的埋点数据包括该模块的模块处理标识、该模块的上一模块的模块处理标识、以及埋点内容数据,埋点内容数据包括该模块进行数据处理的过程数据和结果数据。
数据分析模块406包括实时数据分析模块4061和离线数据分析模块4062,数据分析模块406分别与埋点数据收集模块405和数据可视化模块407相连,用于对埋点数据进行实时数据分析和离线数据分析,并将实时数据分析得到的结果和离线数据分析得到的结果发送至可视化模块408进行可视化。
与图1所述的方法相对应,本发明实施例还提供了一种数据处理装置,用于对图1中方法的具体实现,其结构示意图如图5所示,具体包括:
第一获取单元501,用于在信息推荐的过程中,获取目标模块进行数据处理的过程数据和结果数据;所述目标模块为所述推荐***中的任意一个模块;
第二获取单元502,用于获取所述目标模块的上一模块的模块处理标识;
生成单元503,用于生成所述目标模块的模块处理标识;
组合单元504,用于将所述过程数据、所述结果数据、所述目标模块的上一模块的模块处理标识、以及所述目标模块的模块处理标识,组成所述目标模块对应的埋点数据;
解析单元505,用于依据预设的与所述目标模块对应的数据解析策略,对所述目标模块对应的埋点数据进行解析,得到解析结果,并将所述解析结果进行存储。
本发明实施例提供的数据处理装置,在信息推荐的过程中,获取目标模块进行数据处理的过程数据和结果数据,目标模块为推荐***中的任意一个模块,获取目标模块的上一模块的模块处理标识,并生成目标模块的模块处理标识,将过程数据、结果数据、目标模块的上一模块的模块处理标识、以及目标模块的模块处理标识,组成目标模块对应的埋点数据,依据预设的与目标模块对应的数据解析策略,对目标模块对应的埋点数据进行解析,得到解析结果,并将解析结果进行存储。应用本发明实施例提供的数据处理装置,通过获取信息推荐过程中每个模块各自对应的埋点数据,并将埋点数据进行解析并存储,实现推荐***中的数据使用情况的可追溯,从而提高信息推荐过程的数据使用的透明度和可解释性。
在本发明的一个实施例中,基于前述方案,生成单元503配置为:
生成子单元,用于启动预设的标识生成算法,生成所述目标模块的数据处理标识;
获取子单元,用于获取预设的所述目标模块对应的数据处理逻辑;
组合子单元,用于将所述数据处理标识和所述数据处理逻辑组成所述目标模块的模块处理标识。
在本发明的一个实施例中,基于前述方案,解析单元505执行依据预设的与所述目标模块对应的数据解析策略,对所述目标模块对应的埋点数据进行解析,用于:
确定预设的所述目标模块对应的数据解析策略中包含的各个关键字段;
解析所述目标模块对应的埋点数据,从所述埋点数据中提取每个所述关键字段各自对应的数据项。
在本发明的一个实施例中,基于前述方案,还可以配置为:
存储单元,用于将所述目标模块对应的埋点数据存储至预先构建的数据库中。
在本发明的一个实施例中,基于前述方案,还可以配置为:
统计单元,用于按预设周期,对所述数据库中存储的各个埋点数据进行统计,得到统计结果;
显示单元,用于对所述统计结果进行显示。
在本发明的一个实施例中,基于前述方案,统计单元执行对所述数据库中存储的各个埋点数据进行统计,用于:
依据所述数据库中存储的各个埋点数据,确定预设周期内的埋点数据;
依据所述预设周期内的埋点数据,计算推荐***中包含的每个模块的数据使用率;每个模块的数据使用率用于表征所述模块进行数据处理的结果数据与所述模块的上一模块的结果数据之间的占比情况;
依据所述预设周期内的埋点数据,计算第一模块的数据覆盖率,以及所述推荐***中包含的每个模块的特征缺失率;其中,所述第一模块包括画像模块或召回模块,所述第一模块的数据覆盖率用于表征所述第一模块进行数据处理得到的有效结果数据,与所述预设周期内的信息推荐请求总数之间的占比情况,所述有效结果数据中包含的字段为非空字段,每个模块的所述特征缺失率用于表征所述模块的上一模块的有效模块处理标识个数,与所述模块的上一模块的模块处理标识总数之间的占比情况,所述有效模块处理标识中包含的字段为非空字段。
本发明实施例还提供了一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行上述数据处理方法。
本发明实施例还提供了一种电子设备,其结构示意图如图6所示,具体包括存储器601,以及一个或者一个以上的指令602,其中一个或者一个以上指令602存储于存储器601中,且经配置以由一个或者一个以上处理器603执行所述一个或者一个以上指令602进行以下操作:
在信息推荐的过程中,获取目标模块进行数据处理的过程数据和结果数据;所述目标模块为所述推荐***中的任意一个模块;
获取所述目标模块的上一模块的模块处理标识;
生成所述目标模块的模块处理标识;
将所述过程数据、所述结果数据、所述目标模块的上一模块的模块处理标识、以及所述目标模块的模块处理标识,组成所述目标模块对应的埋点数据;
依据预设的与所述目标模块对应的数据解析策略,对所述目标模块对应的埋点数据进行解析,得到解析结果,并将所述解析结果进行存储。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上对本发明所提供的一种数据处理方法及装置、存储介质及电子设备进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种数据处理方法,其特征在于,应用于推荐***,所述推荐***包括画像模块、召回模块、排序模块、以及推荐引擎模块,所述方法包括:
在信息推荐的过程中,获取目标模块进行数据处理的过程数据和结果数据;所述目标模块为所述推荐***中的任意一个模块;
获取所述目标模块的上一模块的模块处理标识;
生成所述目标模块的模块处理标识;
将所述过程数据、所述结果数据、所述目标模块的上一模块的模块处理标识、以及所述目标模块的模块处理标识,组成所述目标模块对应的埋点数据;
依据预设的与所述目标模块对应的数据解析策略,对所述目标模块对应的埋点数据进行解析,得到解析结果,并将所述解析结果进行存储。
2.根据权利要求1所述的方法,其特征在于,所述生成所述目标模块的模块处理标识,包括:
启动预设的标识生成算法,生成所述目标模块的数据处理标识;
获取预设的所述目标模块对应的数据处理逻辑;
将所述数据处理标识和所述数据处理逻辑组成所述目标模块的模块处理标识。
3.根据权利要求1所述的方法,其特征在于,所述依据预设的与所述目标模块对应的数据解析策略,对所述目标模块对应的埋点数据进行解析,包括:
确定预设的所述目标模块对应的数据解析策略中包含的各个关键字段;
解析所述目标模块对应的埋点数据,从所述埋点数据中提取每个所述关键字段各自对应的数据项。
4.根据权利要求1所述的方法,其特征在于,所述将所述过程数据、所述结果数据、所述目标模块的上一模块的模块处理标识、以及所述目标模块的模块处理标识,组成所述目标模块对应的埋点数据之后,还包括:
将所述目标模块对应的埋点数据存储至预先构建的数据库中。
5.根据权利要求4所述的方法,其特征在于,还包括:
按预设周期,对所述数据库中存储的各个埋点数据进行统计,得到统计结果;
对所述统计结果进行显示。
6.根据权利要求5所述的方法,其特征在于,所述对所述数据库中存储的各个埋点数据进行统计,包括:
依据所述数据库中存储的各个埋点数据,确定预设周期内的埋点数据;
依据所述预设周期内的埋点数据,计算推荐***中包含的每个模块的数据使用率;每个模块的数据使用率用于表征所述模块进行数据处理的结果数据与所述模块的上一模块的结果数据之间的占比情况;
依据所述预设周期内的埋点数据,计算第一模块的数据覆盖率,以及所述推荐***中包含的每个模块的特征缺失率;其中,所述第一模块包括画像模块或召回模块,所述第一模块的数据覆盖率用于表征所述第一模块进行数据处理得到的有效结果数据,与所述预设周期内的信息推荐请求总数之间的占比情况,所述有效结果数据中包含的字段为非空字段,每个模块的所述特征缺失率用于表征所述模块的上一模块的有效模块处理标识个数,与所述模块的上一模块的模块处理标识总数之间的占比情况,所述有效模块处理标识中包含的字段为非空字段。
7.一种数据处理装置,其特征在于,应用于推荐***,所述推荐***包括画像模块、召回模块、排序模块、以及推荐引擎模块,所述装置包括:
第一获取单元,用于在信息推荐的过程中,获取目标模块进行数据处理的过程数据和结果数据;所述目标模块为所述推荐***中的任意一个模块;
第二获取单元,用于获取所述目标模块的上一模块的模块处理标识;
生成单元,用于生成所述目标模块的模块处理标识;
组合单元,用于将所述过程数据、所述结果数据、所述目标模块的上一模块的模块处理标识、以及所述目标模块的模块处理标识,组成所述目标模块对应的埋点数据;
解析单元,用于依据预设的与所述目标模块对应的数据解析策略,对所述目标模块对应的埋点数据进行解析,得到解析结果,并将所述解析结果进行存储。
8.根据权利要求7所述的装置,其特征在于,所述生成单元,包括:
生成子单元,用于启动预设的标识生成算法,生成所述目标模块的数据处理标识;
获取子单元,用于获取预设的所述目标模块对应的数据处理逻辑;
组合子单元,用于将所述数据处理标识和所述数据处理逻辑组成所述目标模块的模块处理标识。
9.一种存储介质,其特征在于,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行如权利要求1~6任意一项所述的数据处理方法。
10.一种电子设备,其特征在于,包括存储器,以及一个或者一个以上的指令,其中,一个或者一个以上的指令存储于存储器中,且经配置以由一个或者一个以上处理器执行如权利要求1~6任意一项所述的数据处理方法。
CN202010509708.5A 2020-06-08 2020-06-08 数据处理方法及装置、存储介质及电子设备 Active CN111400608B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010509708.5A CN111400608B (zh) 2020-06-08 2020-06-08 数据处理方法及装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010509708.5A CN111400608B (zh) 2020-06-08 2020-06-08 数据处理方法及装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN111400608A CN111400608A (zh) 2020-07-10
CN111400608B true CN111400608B (zh) 2020-08-28

Family

ID=71437633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010509708.5A Active CN111400608B (zh) 2020-06-08 2020-06-08 数据处理方法及装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN111400608B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069384A (zh) * 2020-09-04 2020-12-11 中国平安人寿保险股份有限公司 一种埋点数据处理方法、服务器及可读存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9892447B2 (en) * 2013-05-08 2018-02-13 Ebay Inc. Performing image searches in a network-based publication system
CN109815381A (zh) * 2018-12-21 2019-05-28 平安科技(深圳)有限公司 用户画像构建方法、***、计算机设备及存储介质
CN109948059A (zh) * 2019-03-28 2019-06-28 北京字节跳动网络技术有限公司 内容的推荐方法、装置、设备及存储介质
CN110619094A (zh) * 2019-09-09 2019-12-27 上海钧正网络科技有限公司 骑行车推荐方法、装置、***、计算机设备和存储介质
CN110851706B (zh) * 2019-10-10 2022-11-01 百度在线网络技术(北京)有限公司 用户点击模型的训练方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111400608A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN111026971B (zh) 内容的推送方法及装置、计算机存储介质
CN107590188B (zh) 一种自动化垂直细分领域的爬虫爬取方法及其管理***
CN109582903B (zh) 一种信息展示的方法、装置、设备和存储介质
CN112800095B (zh) 一种数据处理方法、装置、设备及存储介质
CN106959965A (zh) 一种信息处理方法及服务器
CN103886047A (zh) 面向流式数据的分布式在线推荐方法
CN108229986B (zh) 信息点击预测中的特征构建方法、信息投放方法和装置
CN111209310B (zh) 基于流计算的业务数据处理方法、装置和计算机设备
CN105183873A (zh) 恶意点击行为检测方法及装置
CN109698798B (zh) 一种应用的识别方法、装置、服务器和存储介质
CN113190426B (zh) 一种大数据评分***稳定性监控方法
CN111666298A (zh) 基于flink的用户服务类别检测方法、装置、计算机设备
CN111400608B (zh) 数据处理方法及装置、存储介质及电子设备
CN114265974A (zh) 一种客户画像标签推荐***及方法
CN107644042B (zh) 软件程序点击率预估排序方法及服务器
CN112182460B (zh) 资源的推送方法和装置、存储介质及电子装置
CN110851173A (zh) 报表生成方法及装置
CN115168509A (zh) 风控数据的处理方法及装置、存储介质、计算机设备
CN114491093B (zh) 多媒体资源推荐、对象表征网络的生成方法及装置
CN114203304B (zh) 基于智慧医疗大数据的信息推送方法及智慧医疗云服务器
CN115619475A (zh) 一种商品推荐方法、商品推荐***及相关装置
CN114553717A (zh) 一种网络节点划分方法、装置、设备及存储介质
CN110471586B (zh) 项目推荐方法、装置、计算机设备和存储介质
CN112560938A (zh) 模型训练方法、装置及计算机设备
CN111127208A (zh) 一种异常交易实时监控***及计算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant