CN112667635A

CN112667635A - 一种数据存储方法与***

Info

Publication number: CN112667635A
Application number: CN202011599930.5A
Authority: CN
Inventors: 迟吉
Original assignee: Beijing Mininglamp Software System Co ltd
Current assignee: Nanjing Minglue Technology Co ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-16

Abstract

本发明公开了一种数据存储方法与***，所述方法包括：通过pyspark任务读取数据，对数据进行特征计算，获取特征数据；调用python‑kafka‑sdk将特征数据写入kafka消息中间件中；通过SparkStreaming实时流任务实时处理kafka消息中间件中的特征数据；将特征数据经过处理后通过scene_type字段进行离线存储及/或在线存储；通过sdk对应地查询离线存储及/或所述在线存储的特征数据后输出。本发明通过技术架构手段实现了特征数据的多版本、动态特征可更新的数据存储，可以实现离线特征存储***、在线特征存储***的不同***特征数据的实时写入，用户可以根据需求进行全量或增量数据的更新操作且不消耗多余集群资源，可以使用于推荐，算法训练，运营分析等场景中。

Description

一种数据存储方法与***

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于推荐场景的数据存储方法与***。

背景技术

随着互联网的发展和普及，互联网上的信息资源呈指数膨胀，在此背景下推荐***随之产生并被逐渐应用，很多产品可以根据用户的信息，有针对性地向用户推荐感兴趣的内容，为用户提供个性化的服务。

推荐***作为一个广泛应用的信息过滤***，在很多领域都取得了巨大的成功，在电子商务上，推荐***为用户提供个性化产品，发掘用户潜在需求；在搜索引擎上，帮助用户快速找到所需信息；在新闻推荐上，使得用户不错过任何一条有趣的信息。在这些精准推荐的背后离不开大量的离线特征、在线特征对推荐算法模型和推荐引擎的支撑，因此特征存储***成为线上推荐***的重要支柱。

目前常用的特征存储方法为：数据经过特征生产计算写入离线特征存储***，同步任务定时从离线特征***全量拉取特征信息写入在线特征存储***。但上述方法具有以下缺点：

1.离线特征和在线特征通过同步任务定时同步，所以在线特征***中特征信息实时性无法保证；

2.每次同步特征数据时，需要启动同步任务全量拉取数据，十分耗费集群资源；

3.在线特征数据由离线特征数据导入，数据无法分在线、离线做不同版本存储。

发明内容

本发明针对上述的关于离线、在线数据无法实时同步的技术问题，提出一种基于推荐场景的数据存储方法与***。

第一方面，本申请实施例提供了一种基于推荐场景的数据存储方法，包括：

特征计算步骤：通过pyspark任务读取数据，对所述数据进行特征计算，获取特征数据；

数据存储步骤：将所述特征数据经过处理后进行存储；

数据查询步骤：通过sdk查询所述特征数据后输出。

上述基于推荐场景的数据存储方法，其中，所述数据存储步骤包括：

中间存储步骤：调用python-kafka-sdk将所述特征数据写入kafka消息中间件中；

数据处理步骤：通过SparkStreaming实时流任务实时处理所述kafka消息中间件中的所述特征数据；

数据写入步骤：对处理完成的所述特征数据进行离线存储及/或在线存储。

上述基于推荐场景的数据存储方法，其中，所述数据写入步骤还包括通过scene_type字段将所述特征数据进行离线存储及/或在线存储。

上述基于推荐场景的数据存储方法，其中，所述数据查询步骤还包括，通过sdk对应地查询所述离线存储及/或所述在线存储的所述特征数据后输出。

上述基于推荐场景的数据存储方法，其中，通过version指定数据版本信息。

第二方面，本申请实施例提供了一种基于推荐场景的数据存储***，包括：

特征计算单元：通过pyspark任务读取数据，对所述数据进行特征计算，获取特征数据；

数据存储单元：将所述特征数据经过处理后进行存储；

数据查询单元：通过sdk查询所述特征数据后输出。

上述基于推荐场景的数据存储***，其中，所述数据存储单元包括：

特征写入模块：调用python-kafka-sdk将所述特征数据写入kafka消息中间件中；

实时处理模块：通过SparkStreaming实时流任务实时处理所述kafka消息中间件中的所述特征数据；

离线存储模块：对处理完成的所述特征数据进行离线存储；

在线存储模块：对处理完成的所述特征数据进行在线存储。

上述基于推荐场景的数据存储***，其中，所述离线存储模块及所述在线存储模块通过scene_type字段将所述特征数据进行离线存储及/或在线存储。

上述基于推荐场景的数据存储***，其中，所述数据查询单元包括：特征读取模块，特征读取模块通过sdk对应地查询所述离线存储模块及/或所述在线存储模块的所述特征数据后输出。

上述基于推荐场景的数据存储***，其中，通过version指定数据版本信息。

与现有技术相比，本发明的优点和积极效果在于：

1.本发明提出一种基于推荐场景支持大数据模型特征数据多版本、多特征、可更新的数据存储方法，通过对特征数据进行离线、在线的分环境的多版本存储，满足多种业务需求，也保证特征数据的实时、动态更新。

2.本发明通过技术架构手段实现了特征数据的多版本、动态特征可更新的数据存储，可以实现离线特征存储***、在线特征存储***的不同***特征数据的实时写入，用户可以根据需求进行全量或增量数据的更新操作且不消耗多余集群资源，可以使用于推荐，算法训练，运营分析等场景中。

附图说明

图1为本发明提供的一种基于推荐场景的数据存储方法的步骤示意图；

图2为本发明提供的基于图1中步骤S2的流程图；

图3为本发明提供的一种基于推荐场景的数据存储方法的技术原理图；

图4为本发明提供的一种基于推荐场景的数据存储***的框架图；

图5为本发明提供的一种基于推荐场景的数据存储***的调用流程图；

图6为根据本申请实施例的计算机设备的框架图。

其中，附图标记为：

11、特征计算单元；12、数据存储单元；121、特征写入模块；122、实时处理模块；123、离线存储模块；124、在线存储模块；13、数据查询单元；131、特征读取模块；81、处理器；82、存储器；83、通信接口；80、总线。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、***、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

下面结合附图所示的各实施方式对本发明进行详细说明，但应当说明的是，这些实施方式并非对本发明的限制，本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代，均属于本发明的保护范围之内。

在详细阐述本发明各个实施例之前，对本发明的核心发明思想予以概述，并通过下述若干实施例予以详细阐述。

本发明提出一种基于推荐场景支持大数据模型特征数据多版本、多特征、可更新的数据存储方法，将进行特征计算后的数据写入kafka消息中间件，SparkStreaming实时流任务实时处理所述消息中间件中的特征数据，同时写入离线存储hudi及/或在线存储redis中，客户端通过对应的sdk读取特征数据，服务于不同的业务场景。

实施例一：

参照图1所示，图1为本发明提供的一种基于推荐场景的数据存储方法的步骤示意图。如图1所示，本实施例揭示了一种基于推荐场景的数据存储方法(以下简称“方法”)的具体实施方式。

具体而言，本实施例所揭示的方法主要包括以下步骤：

步骤S1：通过pyspark任务读取数据，对所述数据进行特征计算，获取特征数据。

具体而言，PySpark是Spark为Python开发者提供的API,客户端通过pyspark任务读取数据，经计算后得到数据的特征。

参照图2，执行步骤S2：将所述特征数据经过处理后进行存储。

其中，步骤S2具体包括以下内容：

步骤S21：调用python-kafka-sdk将所述特征数据写入kafka消息中间件中；

具体而言，消息中间件利用高效可靠的消息传递机制进行平台无关的数据交流，并基于数据通信来进行分布式***的集成。kafka是linkedin开源的分布式发布-订阅消息***，目前归属于Apache的顶级项目。

步骤S22：通过SparkStreaming实时流任务实时处理所述kafka消息中间件中的所述特征数据；

步骤S23：对处理完成的所述特征数据进行离线存储及/或在线存储。

具体而言，步骤S23中的存储过程是通过scene_type字段将所述特征数据写入离线存储hudi及/或在线存储redis。

然后执行步骤S3：通过sdk查询所述特征数据后输出。

具体而言，步骤S3通过sdk对应地查询所述离线存储hudi及/或所述在线存储redis的所述特征数据后输出。

具体而言，客户端发送查询请求后，按照客户端的需求通过version指定数据版本信息。

以下，请参照图3。图3为本发明提供的一种基于推荐场景的数据存储方法的技术原理图，结合图3，具体说明本方法的应用流程如下：

客户端pyspark任务读取数据，进行特征计算后，调用python-kafka-sdk将数据写入kafka消息中间件中，其中dataframe为结构化特征数据，scene_type字段指定写入离线、在线存储***，version指定数据版本信息。接下来后端SparkStreaming实时流任务实时处理kafka中的特征数据，同时写入离线存储hudi、在线存储redis中。最后客户端通过对应sdk查询对应特征数据。

实施例二：

结合实施例一所揭示的一种基于推荐场景的数据存储方法，参照图4、图5所示，本实施例揭示了一种基于推荐场景的数据存储***(以下简称“***”)的具体实施示例。

参照图4所示，所述***包括：

特征计算单元11：通过pyspark任务读取数据，对所述数据进行特征计算，获取特征数据；

数据存储单元12：将所述特征数据经过处理后进行存储；

数据查询单元13：通过sdk查询所述特征数据后输出。

其中，所述特征计算单元11还包括特征生产模块111，特征生产模块111用于读取数据，并对所述数据进行特征计算，生成特征数据。

其中，所述数据存储单元12具体包括：

特征写入模块121：调用python-kafka-sdk将所述特征数据写入kafka消息中间件中；

实时处理模块122：通过SparkStreaming实时流任务实时处理所述kafka消息中间件中的所述特征数据；

离线存储模块123：对处理完成的所述特征数据进行离线存储；

在线存储模块124：对处理完成的所述特征数据进行在线存储。

具体而言，特征写入模块121用于封装的写入sdk，特征生产模块111只有调用特征写入模块121才能将特征数据写入消息中间存储模块125，也就是消息中间件中。

具体而言，离线存储模块123用于存储离线数据，服务于离线计算的场景；在线存储模块124用于存储在线数据，服务于在线计算的场景。

实时处理模块122能够实时读取消息中间存储模块125中新增加的消息，将消息同时写入离线存储模块123和在线存储模块124中。

离线存储模块123及在线存储模块124通过scene_type字段将所述特征数据进行离线存储及/或在线存储。

其中，所述数据查询单元13包括特征读取模块131，特征读取模块131用于封装的读取sdk，客户端调用不同的特征读取模块131对应地从离线存储模块123及/或在线存储模块124中读取特征数据，同时按照客户端的需求通过version指定数据版本信息用于服务于不同的业务场景。

以下，请参照图5。图5为本发明提供的一种基于推荐场景的数据存储***的调用流程图，结合图5，具体说明本流程调用步骤如下：

1.特征生产模块111读取数据进行特征计算，计算完成后调用特征写入模块121将特征值写入消息中间存储模块(消息中间件)125。

2.实时处理模块122从消息中间存储模块125实时读取数据同时写入离线存储模块123和在线存储模块124。

3.客户端调用不同的特征读取模块131从不同的存储模块读取数据服务于不同的业务场景。

本实施例所揭示的一种基于推荐场景的数据存储***与实施例一所揭示的一种基于推荐场景的数据存储方法中其余相同部分的技术方案，请参照实施例一所述，在此不再赘述。

实施例三：

结合图6所示，本实施例揭示了一种计算机设备的一种具体实施方式。计算机设备可以包括处理器81以及存储有计算机程序指令的存储器82。

具体地，上述处理器81可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器82可包括硬盘驱动器(Hard Disk Drive，简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器82可在数据处理装置的内部或外部。在特定实施例中，存储器82是非易失性(Non-Volatile)存储器。在特定实施例中，存储器82包括只读存储器(Read-Only Memory，简称为ROM)和随机存取存储器(RandomAccess Memory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory，简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory，简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory，简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(Static Random-Access Memory，简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory，简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory，简称SDRAM)等。

存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器81所执行的可能的计算机程序指令。

处理器81通过读取并执行存储器82中存储的计算机程序指令，以实现上述实施例中的任意一种基于推荐场景的数据存储方法。

在其中一些实施例中，计算机设备还可包括通信接口83和总线80。其中，如图6所示，处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。

通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线80包括硬件、软件或两者，将计算机设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一：数据总线(Data Bus)、地址总线(Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制，总线80可包括图形加速接口(Accelerated Graphics Port，简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture，简称为EISA)总线、前端总线(Front Side Bus，简称为FSB)、超传输(Hyper Transport，简称为HT)互连、工业标准架构(Industry Standard Architecture，简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count，简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture，简称为MCA)总线、***组件互连(Peripheral Component Interconnect，简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment，简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus，简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

另外，结合上述实施例中的基于推荐场景的数据存储方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种基于推荐场景的数据存储方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

综上所述，基于本发明的有益效果在于，本发明提出一种基于推荐场景支持大数据模型特征数据多版本、多特征、可更新的数据存储方法，通过对特征数据进行离线、在线的分环境的多版本存储，满足多种业务需求，也保证特征数据的实时、动态更新。通过技术架构手段实现了特征数据的多版本、动态特征可更新的数据存储，可以实现离线特征存储***、在线特征存储***的不同***特征数据的实时写入，用户可以根据需求进行全量或增量数据的更新操作且不消耗多余集群资源，可以使用于推荐，算法训练，运营分析等场景中。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种数据存储方法，其特征在于，基于推荐场景，包括：

数据存储步骤：将所述特征数据经过处理后进行存储；

数据查询步骤：通过sdk查询所述特征数据后输出。

2.根据权利要求1所述的数据存储方法，其特征在于，所述数据存储步骤包括：

3.根据权利要求2所述的数据存储方法，其特征在于，所述数据写入步骤还包括通过scene_type字段将所述特征数据进行离线存储及/或在线存储。

4.根据权利要求2所述的数据存储方法，其特征在于，所述数据查询步骤还包括，通过sdk对应地查询所述离线存储及/或所述在线存储的所述特征数据后输出。

5.根据权利要求1至4中任一项所述的数据存储方法，其特征在于，通过version指定数据版本信息。

6.一种数据存储***，其特征在于，基于推荐场景，包括：

数据存储单元：将所述特征数据经过处理后进行存储；

数据查询单元：通过sdk查询所述特征数据后输出。

7.根据权利要求6所述的数据存储***，其特征在于，所述数据存储单元包括：

离线存储模块：对处理完成的所述特征数据进行离线存储；

在线存储模块：对处理完成的所述特征数据进行在线存储。

8.根据权利要求7所述的数据存储***，其特征在于，所述离线存储模块及所述在线存储模块通过scene_type字段将所述特征数据进行离线存储及/或在线存储。

9.根据权利要求7所述的数据存储***，其特征在于，所述数据查询单元包括：特征读取模块，特征读取模块通过sdk对应地查询所述离线存储模块及/或所述在线存储模块的所述特征数据后输出。

10.根据权利要求6至9中任一项所述的数据存储***，其特征在于，通过version指定数据版本信息。