CN111695035B - 一种推荐***及多算法融合推荐处理流程 - Google Patents

一种推荐***及多算法融合推荐处理流程 Download PDF

Info

Publication number
CN111695035B
CN111695035B CN202010522860.7A CN202010522860A CN111695035B CN 111695035 B CN111695035 B CN 111695035B CN 202010522860 A CN202010522860 A CN 202010522860A CN 111695035 B CN111695035 B CN 111695035B
Authority
CN
China
Prior art keywords
model
data
algorithm
feature conversion
files
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010522860.7A
Other languages
English (en)
Other versions
CN111695035A (zh
Inventor
王劲
周建平
任兆江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Sugo Technology Co ltd
Original Assignee
Guangdong Sugo Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Sugo Technology Co ltd filed Critical Guangdong Sugo Technology Co ltd
Priority to CN202010522860.7A priority Critical patent/CN111695035B/zh
Publication of CN111695035A publication Critical patent/CN111695035A/zh
Application granted granted Critical
Publication of CN111695035B publication Critical patent/CN111695035B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种推荐***及多算法融合推荐处理流程,其特征转换及模型训练模块把若干的特征转换算法及若干的模型训练算法整合在一起,调用的时候不需要分别加载,实用性好,在模型调优的时候只需要修改配置文件,进行训练保存即可得到新的模型,在实际应用过程中,用户只需要关注输入数据和输出结果,中间的特征处理和模型训练被封装起来,省去独立维护的成本;模型文件保存模块将模型文件保存在分布式文件***上和将模型文件的基础信息记录到关系数据库中,有利于模型读取模块读取模型基础信息,根据模型基础信息到分布式文件***中加载对应的模型文件,读取方便快捷,从而使API服务模块得到加载后的模型,接收网络请求返回推荐结果到前端。

Description

一种推荐***及多算法融合推荐处理流程
技术领域
本发明涉及一种推荐***及多算法融合推荐处理流程。
背景技术
近年来随着移动互联网技术的发展和普及应用,产生了越来越多的用户行为数据,用户身边充斥着大量信息,这时候推荐***就发挥了用武之地。推荐***本质上是在用户需求不明确的情况下,随着用户规模的***增长以及供应商提供的物品的种类越来越多,从海量的信息中为用户寻找其感兴趣的信息,为用户提供精准的个性化推荐。
用户有动态和静态属性,静态属性比如年龄性别地区等等,动态属性比如历史行为,上下文信息(登录时间,登录设备等等),对应的物品也有动态和静态属性,静态属性比如价格,标签,类别等等,动态属性比如销售活动,折扣等等。结合用户和物品的动静态属性,预测用户感兴趣的物品,为用户提供个性化的推荐,做到千人千面。
当前的推荐***技术方案很常用的一个就是基于GPU的TensorFlow。TensorFlow架构,一般需要高性能的显卡支撑才能够运行大规模的数据,成本较高。在目前中小企业普遍都是Hadoop生态的情况下,部署存在难度,其Transform(特征处理)和Trainer(模型训练),保存的时候这两部分是分开保存的,在调用的时候也需要分别调用再连接起来。特征处理、模型训练和推荐服务完全分离,每一项都需要独立维护,成本较高,同时特征处理和超参的调整不便。
因此,如何克服上述存在的缺陷,已成为本领域技术人员亟待解决的重要课题。
发明内容
本发明克服了上述技术的不足,提供了一种推荐***及多算法融合推荐处理流程。
为实现上述目的,本发明采用了下列技术方案:
一种推荐***,包括有:
数据预处理模块,解析输入数据,把输入数据转换成指定格式的数据特征列,然后输出,其中,输入数据的格式和数据特征列的格式,均通过配置文件指定;
特征转换及模型训练模块,对数据特征列进行若干次特征转换,转换成所需类型和格式的样本,然后对样本进行若干次模型训练,保存算法模型,其中,特征转换和模型训练均通过配置文件指定算法和参数;
模型文件保存模块,在分布式文件***上保存模型文件,保存内容包括数据预处理模块、特征转换及模型训练模块的处理流程和输入输出,以及特征转换算法和模型训练算法的配置信息,并把模型文件的基础信息记录到关系数据库中,其中,模型的基础信息包括模型文件名称、版本、保存路径;
模型读取模块,链接对应的关系数据库,读取模型基础信息,根据模型基础信息到分布式文件***中加载对应的模型文件,并进行文件解析,得到完整输入输出信息和模型的完整参数;
API服务模块,得到加载后的模型,监听网络端口并接收网络请求,其中,前端发送网络请求,请求文本包括模型名称、样本特征,API服务模块接收网络请求返回推荐结果到前端。
优选的,所述特征转换及模型训练模块采用多台服务器同时进行计算,使用通信和聚合的方式保证计算结果的正确,其中,其主服务器控制架构包括有:
数据及模型切分单元,把输入数据按照等份大小的原则进行切分操作,并且每份局部数据大小不超过指定数值,然后对模型进行拆分,对计算过程采用直接复制成若干份的方式,将模型也分为若干份子模型,并且数量与数据拆分结果的数量相等;
通信机制控制单元,负责把切分后的子模型和局部数据,通过网络的方式发送到多台子服务器中,子服务器接收到子模型和局部数据后进行计算,计算完毕后,把计算结果同样通过网络的方式发送到主服务器中,进行后续处理,除此之外,计算过程中,有需要进行聚合的操作,也是由该通信机制控制单元进行相互之间的通信控制;
数据及模型聚合单元,对计算结果进行数据的聚合和模型的聚合,在算法训练的过程中,对反向传播时的梯度进行聚合,即把多台子服务器的数据计算结果进行聚合,并对主模型进行更新,更新结果则通用通信机制控制单元向各个子模型进行通信,使各子模型能在同时计算的过程中保证统一。
优选的,所述模型文件保存模块采用BigDL对模型进行序列化,生成模型文件并保存在分布式文件***中,所述模型读取模块采用Mleap对模型文件进行解析,生成预估模型。
优选的,所述特征转换及模型训练模块定时更新模型,所述API服务模块把每次请求的结果保存,遇到相同请求时直接得到结果。
本案还保护一种多算法融合推荐处理流程,其依次执法多个算法,最后进行API服务,其中,前一个算法的输出数据为后一个算法的输入数据,每个算法都依次进行数据预处理步骤、特征转换和模型训练步骤、模型文件保存步骤、以及模型读取步骤,其中,
数据预处理步骤:解析输入数据,把输入数据转换成指定格式的数据特征列,然后输出,其中,输入数据的格式和数据特征列的格式,均通过配置文件指定;
特征转换和模型训练步骤:对数据特征列进行若干次特征转换,转换成所需类型和格式的样本,然后对样本进行若干次模型训练,保存算法模型,其中,特征转换和模型训练均通过配置文件指定算法和参数;
模型文件保存步骤:在分布式文件***上保存模型文件,保存内容包括数据预处理步骤和特征转换及模型训练步骤的处理流程和输入输出,以及特征转换算法和模型训练算法的配置信息,并把模型文件的基础信息记录到关系数据库中,其中,模型的基础信息包括模型文件名称、版本、保存路径;
模型读取步骤:链接对应的关系数据库,读取模型基础信息,根据模型基础信息到分布式文件***中加载对应的模型文件,并进行文件解析,得到完整输入输出信息和模型的完整参数;
API服务:得到加载后的模型,监听网络端口并接收网络请求,其中,前端发送网络请求,请求文本包括模型名称、样本特征,API服务模块接收网络请求返回推荐结果到前端。
本案还保护另一种多算法融合推荐处理流程,其并列执法若干个前级算法,然后将该若干个前级算法的输出结果都输出给同一个后级算法,最后进行API服务,其中,每个前级算法和后级算法都依次进行数据预处理步骤、特征转换和模型训练步骤、模型文件保存步骤、以及模型读取步骤,其中,
数据预处理步骤:解析输入数据,把输入数据转换成指定格式的数据特征列,然后输出,其中,输入数据的格式和数据特征列的格式,均通过配置文件指定;
特征转换和模型训练步骤:对数据特征列进行若干次特征转换,转换成所需类型和格式的样本,然后对样本进行若干次模型训练,保存算法模型,其中,特征转换和模型训练均通过配置文件指定算法和参数;
模型文件保存步骤:在分布式文件***上保存模型文件,保存内容包括数据预处理步骤和特征转换及模型训练步骤的处理流程和输入输出,以及特征转换算法和模型训练算法的配置信息,并把模型文件的基础信息记录到关系数据库中,其中,模型的基础信息包括模型文件名称、版本、保存路径;
模型读取步骤:链接对应的关系数据库,读取模型基础信息,根据模型基础信息到分布式文件***中加载对应的模型文件,并进行文件解析,得到完整输入输出信息和模型的完整参数;
API服务:得到加载后的模型,监听网络端口并接收网络请求,其中,前端发送网络请求,请求文本包括模型名称、样本特征,API服务模块接收网络请求返回推荐结果到前端。
与现有技术相比,本发明的有益效果是:
1、本案数据预处理模块用于将输入数据解析成特征转换及模型训练模块可识别的数据;特征转换及模型训练模块把若干的特征转换算法及若干的模型训练算法整合在一起,调用的时候不需要分别加载,实用性好,在模型调优的时候只需要修改配置文件,进行训练保存即可得到新的模型,在实际应用过程中,用户只需要关注输入数据和输出结果,中间的特征处理和模型训练被封装起来,省去独立维护的成本;特征处理和模型训练的算法选择都可以通过修改配置文件来实现,可根据不同的应用场景选择对应的策略;模型文件保存模块将模型文件保存在分布式文件***上和将模型文件的基础信息记录到关系数据库中,有利于模型读取模块链接对应的关系数据库,读取模型基础信息,根据模型基础信息到分布式文件***中加载对应的模型文件,读取方便快捷,从而使API服务模块得到加载后的模型,接收网络请求返回推荐结果到前端。
2、本案所述特征转换及模型训练模块采用的架构便于使同一计算过程使用多台服务器进行并行计算,对输入数据进行拆分处理,并将各自的计算结果进行聚合,有利于最大限度提高算法的计算效率。
3、本案的多算法融合推荐处理流程中算法采用上下游搭配融合的方式,即存在一个算法依赖于另外某个算法的计算结果,其便于具体的应用,其中,每个算法都依次进行数据预处理步骤、特征转换和模型训练步骤、模型文件保存步骤、以及模型读取步骤,便于通过实际选择的若干个算法对模型进行一次一次的更新。
4、本案的多算法融合推荐处理流程中算法采用并列搭配融合的方式,即若干个算法之间不存在相互依赖的关系,但存在另外某个算法同时依赖于这若干个算法的计算结果,其便于具体的应用。
5、本案采用了轻量级服务框架,保存的模型文件作为离线训练和线上服务的媒介,使线上服务不用关注复杂的模型训练和分布式部署,框架更轻,能够高效的完成预估任务。
6、所述特征转换及模型训练模块定时更新模型,所述API服务模块把每次请求的结果保存,遇到相同请求时直接得到结果,如此,便于更好的响应请求。
附图说明
图1是本案推荐***的结构示图。
图2是本案多算法融合推荐处理流程的示意图之一。
图3是本案多算法融合推荐处理流程的示意图之二。
图4是本案多算法融合推荐处理流程可采用的架构。
具体实施方式
以下通过实施例对本发明特征及其它相关特征作进一步详细说明,以便于同行业技术人员的理解:
如图1所示,一种推荐***,包括有:
数据预处理模块,解析输入数据,把输入数据转换成指定格式的数据特征列,然后输出,其中,输入数据的格式和数据特征列的格式,均通过配置文件指定;
特征转换及模型训练模块,对数据特征列进行若干次特征转换,转换成所需类型和格式的样本,然后对样本进行若干次模型训练,保存算法模型,其中,特征转换和模型训练均通过配置文件指定算法和参数;
模型文件保存模块,在分布式文件***上保存模型文件,保存内容包括数据预处理模块、特征转换及模型训练模块的处理流程和输入输出,以及特征转换算法和模型训练算法的配置信息,并把模型文件的基础信息记录到关系数据库中,其中,模型的基础信息包括模型文件名称、版本、保存路径;
模型读取模块,链接对应的关系数据库,读取模型基础信息,根据模型基础信息到分布式文件***中加载对应的模型文件,并进行文件解析,得到完整输入输出信息和模型的完整参数;
API服务模块,得到加载后的模型,监听网络端口并接收网络请求,其中,前端发送网络请求,请求文本包括模型名称、样本特征,API服务模块接收网络请求返回推荐结果到前端。
如上所述,本案数据预处理模块用于将输入数据解析成特征转换及模型训练模块可识别的数据;特征转换及模型训练模块把若干的特征转换算法及若干的模型训练算法整合在一起,调用的时候不需要分别加载,实用性好,在模型调优的时候只需要修改配置文件,进行训练保存即可得到新的模型,在实际应用过程中,用户只需要关注输入数据和输出结果,中间的特征处理和模型训练被封装起来,省去独立维护的成本;特征处理和模型训练的算法选择都可以通过修改配置文件来实现,可根据不同的应用场景选择对应的策略;模型文件保存模块将模型文件保存在分布式文件***上和将模型文件的基础信息记录到关系数据库中,有利于模型读取模块链接对应的关系数据库,读取模型基础信息,根据模型基础信息到分布式文件***中加载对应的模型文件,读取方便快捷,从而使API服务模块得到加载后的模型,接收网络请求返回推荐结果到前端。
如上所述,具体实施时,所述特征转换及模型训练模块采用多台服务器同时进行计算,使用通信和聚合的方式保证计算结果的正确,其中,其主服务器控制架构包括有:
数据及模型切分单元,把输入数据按照等份大小的原则进行切分操作,并且每份局部数据大小不超过指定数值,然后对模型进行拆分,对计算过程采用直接复制成若干份的方式,将模型也分为若干份子模型,并且数量与数据拆分结果的数量相等;
通信机制控制单元,负责把切分后的子模型和局部数据,通过网络的方式发送到多台子服务器中,子服务器接收到子模型和局部数据后进行计算,计算完毕后,把计算结果同样通过网络的方式发送到主服务器中,进行后续处理,除此之外,计算过程中,有需要进行聚合的操作,也是由该通信机制控制单元进行相互之间的通信控制;
数据及模型聚合单元,对计算结果进行数据的聚合和模型的聚合,在算法训练的过程中,对反向传播时的梯度进行聚合,即把多台子服务器的数据计算结果进行聚合,并对主模型进行更新,更新结果则通用通信机制控制单元向各个子模型进行通信,使各子模型能在同时计算的过程中保证统一。
如上所述,本案所述特征转换及模型训练模块采用的架构便于使同一计算过程使用多台服务器进行并行计算,对输入数据进行拆分处理,并将各自的计算结果进行聚合,有利于最大限度提高算法的计算效率。
如上所述,具体实施时,所述模型文件保存模块采用BigDL对模型进行序列化,生成模型文件并保存在分布式文件***中,所述模型读取模块采用Mleap对模型文件进行解析,生成预估模型。
如上所述,本案采用了轻量级服务框架,保存的模型文件作为离线训练和线上服务的媒介,使线上服务不用关注复杂的模型训练和分布式部署,框架更轻,能够高效的完成预估任务。
如上所述,具体实施时,所述特征转换及模型训练模块定时更新模型,所述API服务模块把每次请求的结果保存,遇到相同请求时直接得到结果,如此,便于更好的响应请求。
如图2所示,本案还公开一种多算法融合推荐处理流程,依次执法多个算法,最后进行API服务,其中,前一个算法的输出数据为后一个算法的输入数据,每个算法都依次进行数据预处理步骤、特征转换和模型训练步骤、模型文件保存步骤、以及模型读取步骤,其中,
数据预处理步骤:解析输入数据,把输入数据转换成指定格式的数据特征列,然后输出,其中,输入数据的格式和数据特征列的格式,均通过配置文件指定;
特征转换和模型训练步骤:对数据特征列进行若干次特征转换,转换成所需类型和格式的样本,然后对样本进行若干次模型训练,保存算法模型,其中,特征转换和模型训练均通过配置文件指定算法和参数;
模型文件保存步骤:在分布式文件***上保存模型文件,保存内容包括数据预处理步骤和特征转换及模型训练步骤的处理流程和输入输出,以及特征转换算法和模型训练算法的配置信息,并把模型文件的基础信息记录到关系数据库中,其中,模型的基础信息包括模型文件名称、版本、保存路径;
模型读取步骤:链接对应的关系数据库,读取模型基础信息,根据模型基础信息到分布式文件***中加载对应的模型文件,并进行文件解析,得到完整输入输出信息和模型的完整参数;
API服务:得到加载后的模型,监听网络端口并接收网络请求,其中,前端发送网络请求,请求文本包括模型名称、样本特征,API服务模块接收网络请求返回推荐结果到前端。
如上所述,本案的多算法融合推荐处理流程中算法采用上下游搭配融合的方式,即存在一个算法依赖于另外某个算法的计算结果,其便于具体的应用,其中,每个算法都依次进行数据预处理步骤、特征转换和模型训练步骤、模型文件保存步骤、以及模型读取步骤,便于通过实际选择的若干个算法对模型进行一次一次的更新。
如图3所示,本案还公开另一种多算法融合推荐处理流程,并列执法若干个前级算法,然后将该若干个前级算法的输出结果都输出给同一个后级算法,最后进行API服务,其中,每个前级算法和后级算法都依次进行数据预处理步骤、特征转换和模型训练步骤、模型文件保存步骤、以及模型读取步骤,其中,
数据预处理步骤:解析输入数据,把输入数据转换成指定格式的数据特征列,然后输出,其中,输入数据的格式和数据特征列的格式,均通过配置文件指定;
特征转换和模型训练步骤:对数据特征列进行若干次特征转换,转换成所需类型和格式的样本,然后对样本进行若干次模型训练,保存算法模型,其中,特征转换和模型训练均通过配置文件指定算法和参数;
模型文件保存步骤:在分布式文件***上保存模型文件,保存内容包括数据预处理步骤和特征转换及模型训练步骤的处理流程和输入输出,以及特征转换算法和模型训练算法的配置信息,并把模型文件的基础信息记录到关系数据库中,其中,模型的基础信息包括模型文件名称、版本、保存路径;
模型读取步骤:链接对应的关系数据库,读取模型基础信息,根据模型基础信息到分布式文件***中加载对应的模型文件,并进行文件解析,得到完整输入输出信息和模型的完整参数;
API服务:得到加载后的模型,监听网络端口并接收网络请求,其中,前端发送网络请求,请求文本包括模型名称、样本特征,API服务模块接收网络请求返回推荐结果到前端。
如上所述,本案的多算法融合推荐处理流程中算法采用并列搭配融合的方式,即若干个算法之间不存在相互依赖的关系,但存在另外某个算法同时依赖于这若干个算法的计算结果,其便于具体的应用。
如图4所示,上述两种多算法融合推荐处理流程中都可集群使用master-gateway架构,包含一个master节点以及若干个gateway节点。gateway用于接收与处理服务请求,提供算法的计算结果,同时具备动态获取模型变更的功能,实时更新模型,支持水平扩展;master用于管理模型与融合策略,具备策略管理的功能,支持主备模式,保证服务高可用。
1、预先定义多算法融合策略,用户通过请求的形式,向maste发送定义好的融合策略;
2、master接收到策略更改请求,改变自身保存的策略信息,并向所有gateway发送策略变更通知;
3、gateway接收到变更请求,更改算法融合策略,并继续接收http请求,提供接口服务。
如上所述,master-gateway架构便于实时更新融合策略。
综上所述,本案推荐***的用户不需要关注推荐服务的各个部分的运作,输入稍加处理的原始数据就可以得到对应的推荐结果。用户可以根据用户场景的不同,简单的通过配置文件,选择需要的多算法融合推荐处理流程,通过配置master服务,可以选择上下游算法的搭配,比如召回算法+排序算法,返回更加精确的推荐结果。
如上所述,本案保护的是一种推荐***及多算法融合推荐处理流程,一切与本案相同或相近似的技术方案都应示为落入本案的保护范围内。

Claims (5)

1.一种推荐***,其特征在于包括有:
数据预处理模块,解析输入数据,把输入数据转换成指定格式的数据特征列,然后输出,其中,输入数据的格式和数据特征列的格式,均通过配置文件指定;
特征转换及模型训练模块,对数据特征列进行若干次特征转换,转换成所需类型和格式的样本,然后对样本进行若干次模型训练,保存算法模型,其中,特征转换和模型训练均通过配置文件指定算法和参数;
模型文件保存模块,在分布式文件***上保存模型文件,保存内容包括数据预处理模块、特征转换及模型训练模块的处理流程和输入输出,以及特征转换算法和模型训练算法的配置信息,并把模型文件的基础信息记录到关系数据库中,其中,模型的基础信息包括模型文件名称、版本、保存路径;
模型读取模块,链接对应的关系数据库,读取模型基础信息,根据模型基础信息到分布式文件***中加载对应的模型文件,并进行文件解析,得到完整输入输出信息和模型的完整参数;
API服务模块,得到加载后的模型,监听网络端口并接收网络请求,其中,前端发送网络请求,请求文本包括模型名称、样本特征,API服务模块接收网络请求返回推荐结果到前端;
所述特征转换及模型训练模块采用多台服务器同时进行计算,使用通信和聚合的方式保证计算结果的正确,其中,其主服务器控制架构包括有:数据及模型切分单元,把输入数据按照等份大小的原则进行切分操作,并且每份局部数据大小不超过指定数值,然后对模型进行拆分,对计算过程采用直接复制成若干份的方式,将模型也分为若干份子模型,并且数量与数据拆分结果的数量相等;通信机制控制单元,负责把切分后的子模型和局部数据,通过网络的方式发送到多台子服务器中,子服务器接收到子模型和局部数据后进行计算,计算完毕后,把计算结果同样通过网络的方式发送到主服务器中,进行后续处理,除此之外,计算过程中,有需要进行聚合的操作,也是由该通信机制控制单元进行相互之间的通信控制;数据及模型聚合单元,对计算结果进行数据的聚合和模型的聚合,在算法训练的过程中,对反向传播时的梯度进行聚合,即把多台子服务器的数据计算结果进行聚合,并对主模型进行更新,更新结果则通用通信机制控制单元向各个子模型进行通信,使各子模型能在同时计算的过程中保证统一。
2.根据权利要求1所述的一种推荐***,其特征在于所述模型文件保存模块采用BigDL对模型进行序列化,生成模型文件并保存在分布式文件***中,所述模型读取模块采用Mleap对模型文件进行解析,生成预估模型。
3.根据权利要求1所述的一种推荐***,其特征在于所述特征转换及模型训练模块定时更新模型,所述API服务模块把每次请求的结果保存,遇到相同请求时直接得到结果。
4.一种基于权利要求1-3任意一项所述推荐***的多算法融合推荐处理流程,其特征在于依次执法多个算法,最后进行API服务,其中,前一个算法的输出数据为后一个算法的输入数据,每个算法都依次进行数据预处理步骤、特征转换和模型训练步骤、模型文件保存步骤、以及模型读取步骤,其中,
数据预处理步骤:解析输入数据,把输入数据转换成指定格式的数据特征列,然后输出,其中,输入数据的格式和数据特征列的格式,均通过配置文件指定;
特征转换和模型训练步骤:对数据特征列进行若干次特征转换,转换成所需类型和格式的样本,然后对样本进行若干次模型训练,保存算法模型,其中,特征转换和模型训练均通过配置文件指定算法和参数;
模型文件保存步骤:在分布式文件***上保存模型文件,保存内容包括数据预处理步骤和特征转换及模型训练步骤的处理流程和输入输出,以及特征转换算法和模型训练算法的配置信息,并把模型文件的基础信息记录到关系数据库中,其中,模型的基础信息包括模型文件名称、版本、保存路径;
模型读取步骤:链接对应的关系数据库,读取模型基础信息,根据模型基础信息到分布式文件***中加载对应的模型文件,并进行文件解析,得到完整输入输出信息和模型的完整参数;
API服务:得到加载后的模型,监听网络端口并接收网络请求,其中,前端发送网络请求,请求文本包括模型名称、样本特征,API服务模块接收网络请求返回推荐结果到前端。
5.一种基于权利要求1-3任意一项所述推荐***的多算法融合推荐处理流程,其特征在于并列执法若干个前级算法,然后将该若干个前级算法的输出结果都输出给同一个后级算法,最后进行API服务,其中,每个前级算法和后级算法都依次进行数据预处理步骤、特征转换和模型训练步骤、模型文件保存步骤、以及模型读取步骤,其中,
数据预处理步骤:解析输入数据,把输入数据转换成指定格式的数据特征列,然后输出,其中,输入数据的格式和数据特征列的格式,均通过配置文件指定;
特征转换和模型训练步骤:对数据特征列进行若干次特征转换,转换成所需类型和格式的样本,然后对样本进行若干次模型训练,保存算法模型,其中,特征转换和模型训练均通过配置文件指定算法和参数;
模型文件保存步骤:在分布式文件***上保存模型文件,保存内容包括数据预处理步骤和特征转换及模型训练步骤的处理流程和输入输出,以及特征转换算法和模型训练算法的配置信息,并把模型文件的基础信息记录到关系数据库中,其中,模型的基础信息包括模型文件名称、版本、保存路径;
模型读取步骤:链接对应的关系数据库,读取模型基础信息,根据模型基础信息到分布式文件***中加载对应的模型文件,并进行文件解析,得到完整输入输出信息和模型的完整参数;
API服务:得到加载后的模型,监听网络端口并接收网络请求,其中,前端发送网络请求,请求文本包括模型名称、样本特征,API服务模块接收网络请求返回推荐结果到前端。
CN202010522860.7A 2020-06-10 2020-06-10 一种推荐***及多算法融合推荐处理流程 Active CN111695035B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010522860.7A CN111695035B (zh) 2020-06-10 2020-06-10 一种推荐***及多算法融合推荐处理流程

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010522860.7A CN111695035B (zh) 2020-06-10 2020-06-10 一种推荐***及多算法融合推荐处理流程

Publications (2)

Publication Number Publication Date
CN111695035A CN111695035A (zh) 2020-09-22
CN111695035B true CN111695035B (zh) 2023-05-05

Family

ID=72480103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010522860.7A Active CN111695035B (zh) 2020-06-10 2020-06-10 一种推荐***及多算法融合推荐处理流程

Country Status (1)

Country Link
CN (1) CN111695035B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560939B (zh) * 2020-12-11 2023-05-23 上海哔哩哔哩科技有限公司 模型验证方法、装置及计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423442A (zh) * 2017-08-07 2017-12-01 火烈鸟网络(广州)股份有限公司 基于用户画像行为分析的应用推荐方法及***,储存介质及计算机设备
CN110221817A (zh) * 2019-06-17 2019-09-10 北京酷我科技有限公司 一种数据召回模块及推荐***
CN110633760A (zh) * 2019-09-25 2019-12-31 北京酷我科技有限公司 一种推荐***整合策略及推荐***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107423442A (zh) * 2017-08-07 2017-12-01 火烈鸟网络(广州)股份有限公司 基于用户画像行为分析的应用推荐方法及***,储存介质及计算机设备
CN110221817A (zh) * 2019-06-17 2019-09-10 北京酷我科技有限公司 一种数据召回模块及推荐***
CN110633760A (zh) * 2019-09-25 2019-12-31 北京酷我科技有限公司 一种推荐***整合策略及推荐***

Also Published As

Publication number Publication date
CN111695035A (zh) 2020-09-22

Similar Documents

Publication Publication Date Title
CN108021929A (zh) 基于大数据的移动端电商用户画像建立与分析方法及***
CN108089921A (zh) 用于云端大数据运算架构的服务器及其运算资源最佳化方法
CN103678647A (zh) 一种实现信息推荐的方法及***
CN110362544A (zh) 日志处理***、日志处理方法、终端及存储介质
US20160196564A1 (en) Systems and methods for analyzing consumer sentiment with social perspective insight
CN110880124A (zh) 转化率评估方法及装置
CN113420043A (zh) 数据实时监控方法、装置、设备及存储介质
CN112396462A (zh) 基于Clickhouse的人群圈选方法及装置
CN111695035B (zh) 一种推荐***及多算法融合推荐处理流程
Yeung et al. Data analytics architectures for e-commerce platforms in cloud
CN107357919A (zh) 行为日志查询***及方法
CN111967611A (zh) 特征生成方法和装置、电子设备和存储介质
CN116681463A (zh) 销量预测方法、***、设备及存储介质
CN110062112A (zh) 数据处理方法、装置、设备及计算机可读存储介质
Wang et al. Application research of web log mining in the E-commerce
WO2018049908A1 (zh) 网页生成方法和装置
CN115035044A (zh) 一种应用于工业质检的智能ai平台
CN111680337B (zh) Pdm***产品设计需求信息获取方法及***
CN113407491A (zh) 数据处理方法及装置
Tingting Research on user access pattern mining based on web log
CN113779239A (zh) 一种热点信息获取方法和装置
CN113127755A (zh) 一种人工智能虚拟形象信息推荐算法***及方法
Mateo A Knowledge extraction framework for call center analytics
CN115438994B (zh) 一种基于c2m的服装定制业务处理***的生成方法及装置
CN117708219B (zh) 用于物联网数据的处理方法、处理装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant