CN113392113A - 一种云视频开放平台精细化用户画像实时推荐方法 - Google Patents

一种云视频开放平台精细化用户画像实时推荐方法 Download PDF

Info

Publication number
CN113392113A
CN113392113A CN202110682122.3A CN202110682122A CN113392113A CN 113392113 A CN113392113 A CN 113392113A CN 202110682122 A CN202110682122 A CN 202110682122A CN 113392113 A CN113392113 A CN 113392113A
Authority
CN
China
Prior art keywords
data
time
real
users
open platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110682122.3A
Other languages
English (en)
Inventor
徐一尧
夏虹
蒋泽飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Denghong Technology Co ltd
Original Assignee
Hangzhou Denghong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Denghong Technology Co ltd filed Critical Hangzhou Denghong Technology Co ltd
Priority to CN202110682122.3A priority Critical patent/CN113392113A/zh
Publication of CN113392113A publication Critical patent/CN113392113A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种云视频开放平台精细化用户画像实时推荐方法,包括以下步骤,数据打标可以分为离线和实时两条路,离线的部分,每天凌晨从数据库拉取全量的数据到odps***,对标签按照固定逻辑进行分类,时的部分,收集数据库变更信息binlog到datahub消息中间件,再由flink对topic的消息进行消费,通过实时Sql逻辑筛选用户,将刚才筛选归类后的用户,按照pk(app应用编码)和user_id(用户id)作为唯一索引,以当前时间数据为最新数据upsert到数据表中;该云视频开放平台精细化用户画像实时推荐方法,新型架构在T+1的基础上,增加了对当天新增数据的***,当天新增数据的更新以及历史数据的更新操作,使标签可以实时更新,活动可以实时推送。

Description

一种云视频开放平台精细化用户画像实时推荐方法
技术领域
本发明涉及大数据技术领域,尤其涉及一种云视频开放平台精细化用户画像实时推荐方法。
背景技术
随着数据量的增多,公司需要从海量的数据中提取针对每一个用户的个性数据,从而形成千人千面的活动推送营销,这是现在智能化推荐很重要的发展方向,目前主要存在的问题是如何在精准度和实时性方面有所提升,由于数据领域现在处于由离线T+1形态到实时流处理形态的发展历程之中,所以相对应的应用也在更新当中,如何将离线的打标***变更为实时的打标***,这是需要解决的问题。
发明内容
本发明的目的在于提供一种云视频开放平台精细化用户画像实时推荐方法,以解决如何实时产生精细化标签进行活动推荐的问题。
为了实现上述目的,本发明采用了如下技术方案:设计一种云视频开放平台精细化用户画像实时推荐方法,包括以下步骤;
步骤一:数据打标可以分为离线和实时两条路;
步骤二:离线的部分,每天凌晨从数据库拉取全量的数据到odps***,对标签按照固定逻辑进行分类;
步骤三:时的部分,收集数据库变更信息binlog到datahub消息中间件,再由flink对topic的消息进行消费,通过实时Sql逻辑筛选用户,与此同时在标签表里面,对每条数据增加了更新时间字段,将刚才筛选归类后的用户,按照pk和user_id作为唯一索引,以当前时间数据为最新数据upsert到数据表中;
步骤四:业务方使用精细化标签数据对特定用户进活动和广告的毫秒级实时精准推荐;
步骤五:指定标签用户数量统计计算方面,在odps层面对数据进行逻辑维度上的脚本解耦;
步骤六:tags_merge这个脚本中,将上面每一个模块所打标的结果合并成宽表并***到各自的目标字段,使用Hologres对该宽表进行加速映射,使用API网关,采用高级SQL对前端查询进行灵活响应,可以对不同纬度数据合并,毫秒级响应查询。
优选的,所述字段有tag1到tag9共9个字段。
本发明提出的一种云视频开放平台精细化用户画像实时推荐方法,有益效果在于:以往技术是采用T+1(隔天)的方式对用户标签进行分类规整,在时效性方面有所不足,新型架构在T+1的基础上,增加了对当天新增数据的***,当天新增数据的更新以及历史数据的更新操作,使标签可以实时更新,活动可以实时推送,在第一时间可以将用户行为数据变现,在时效性上有了极大程度的提升。
附图说明
图1为本发明的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1,一种云视频开放平台精细化用户画像实时推荐方法,包括以下步骤;
步骤一:数据采集层面的设计,离线数据采集使用DTS-DataX每天凌晨定时采集到大数据***(HDFS),实时数据采集使用DTS-Canal监控数据库的Binlog,到入到DataHub的Topic中;
步骤二:Maxcompute(离线计算)层面的设计,每天数据定时采集到的HDFS之后,首先对数据进行ETL数据清洗,接着对数据进行业务维度的打标和分类形成dwd层的明细表,接着对dwd层明细表采用row_number函数进行merge,导入到一个tag字段,由于是分区表,可以将今天计算的结果和前一天计算的结果进行left join对比,将更新的数据调用接口***到业务数据库的数据表中。需要注意的细节是,由于每天跑脚本的时间是不固定的,需要手动将每条数据的更新时间设置到每天的0点,这样***到数据库他只会更新前一天的数据,而不会对实时的数据产生影响;
步骤三:Flink(实时计算)层面的设计,对binlog的upsert的数据进行逻辑上的分类,这个地方有两种情况,第一种是这条记录是当天新增数据,那么只需要判断逻辑打标后调用接口***结果数据表即可,第二种是这条记录是对前一天历史数据的更新,那么还需要将前一天的数据作为维表进行关联取出它的一些基本字段,然后合并再调用接口***到结果数据表中。
步骤四:大数据库(odps)表的设计,现在明细表有用户注册表、付费用户表、零元领用户表、套餐状态表、自动续费状态表、套餐过期状态表、用户活跃表、用户活跃度表、绑定设备表、自定义用户表9张表,会在此基础上merge再形成两张宽表,第一张是将上面表中的结果字段合并到一个字段里面(字段只有一个tags),第二张表是将上面表中的结果字段分别***到各自的字段里面(字段有tag1到tag9共9个字段);
步骤五:数据表的设计;采用将所有属性合并到一个字段的设计。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (2)

1.一种云视频开放平台精细化用户画像实时推荐方法,其特征在于:包括以下步骤;
步骤一:数据打标可以分为离线和实时两条路;
步骤二:离线的部分,每天凌晨从数据库拉取全量的数据到odps***,对标签按照固定逻辑进行分类;
步骤三:时的部分,收集数据库变更信息binlog到datahub消息中间件,再由flink对topic的消息进行消费,通过实时Sql逻辑筛选用户,与此同时在标签表里面,对每条数据增加了更新时间字段,将刚才筛选归类后的用户,按照pk和user_id作为唯一索引,以当前时间数据为最新数据upsert到数据表中;
步骤四:业务方使用精细化标签数据对特定用户进活动和广告的毫秒级实时精准推荐;
步骤五:指定标签用户数量统计计算方面,在odps层面对数据进行逻辑维度上的脚本解耦;
步骤六:tags_merge这个脚本中,将上面每一个模块所打标的结果合并成宽表并***到各自的目标字段,使用Hologres对该宽表进行加速映射,使用API网关,采用高级SQL对前端查询进行灵活响应,可以对不同纬度数据合并,毫秒级响应查询。
2.根据权利要求1所述的一种云视频开放平台精细化用户画像实时推荐方法,其特征在于:所述字段有tag1到tag9共9个字段。
CN202110682122.3A 2021-06-20 2021-06-20 一种云视频开放平台精细化用户画像实时推荐方法 Pending CN113392113A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110682122.3A CN113392113A (zh) 2021-06-20 2021-06-20 一种云视频开放平台精细化用户画像实时推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110682122.3A CN113392113A (zh) 2021-06-20 2021-06-20 一种云视频开放平台精细化用户画像实时推荐方法

Publications (1)

Publication Number Publication Date
CN113392113A true CN113392113A (zh) 2021-09-14

Family

ID=77623048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110682122.3A Pending CN113392113A (zh) 2021-06-20 2021-06-20 一种云视频开放平台精细化用户画像实时推荐方法

Country Status (1)

Country Link
CN (1) CN113392113A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113961546A (zh) * 2021-10-27 2022-01-21 国网江苏省电力有限公司营销服务中心 一种支持在线分析统计的实时查询库设计方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110263946A1 (en) * 2010-04-22 2011-10-27 Mit Media Lab Method and system for real-time and offline analysis, inference, tagging of and responding to person(s) experiences
CN108416620A (zh) * 2018-02-08 2018-08-17 杭州浮云网络科技有限公司 一种基于大数据的画像数据的智能社交广告投放平台
CN110555076A (zh) * 2019-08-22 2019-12-10 上海数禾信息科技有限公司 数据打标方法、处理方法以及装置
CN111209352A (zh) * 2020-04-20 2020-05-29 北京聪明核桃教育科技有限公司 一种数据处理方法、装置、电子设备及存储介质
CN111881221A (zh) * 2020-07-07 2020-11-03 上海中通吉网络技术有限公司 物流服务里客户画像的方法、装置和设备
CN112825178A (zh) * 2019-11-21 2021-05-21 北京沃东天骏信息技术有限公司 一种预测用户性别画像的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110263946A1 (en) * 2010-04-22 2011-10-27 Mit Media Lab Method and system for real-time and offline analysis, inference, tagging of and responding to person(s) experiences
CN108416620A (zh) * 2018-02-08 2018-08-17 杭州浮云网络科技有限公司 一种基于大数据的画像数据的智能社交广告投放平台
CN110555076A (zh) * 2019-08-22 2019-12-10 上海数禾信息科技有限公司 数据打标方法、处理方法以及装置
CN112825178A (zh) * 2019-11-21 2021-05-21 北京沃东天骏信息技术有限公司 一种预测用户性别画像的方法和装置
CN111209352A (zh) * 2020-04-20 2020-05-29 北京聪明核桃教育科技有限公司 一种数据处理方法、装置、电子设备及存储介质
CN111881221A (zh) * 2020-07-07 2020-11-03 上海中通吉网络技术有限公司 物流服务里客户画像的方法、装置和设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈新宇等: "《中台战略 中台建设与数字商业》", 31 August 2019 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113961546A (zh) * 2021-10-27 2022-01-21 国网江苏省电力有限公司营销服务中心 一种支持在线分析统计的实时查询库设计方法

Similar Documents

Publication Publication Date Title
CN109408347A (zh) 一种指标实时分析***及指标实时计算方法
CN108183927A (zh) 一种分布式***中链路调用的监控方法及***
CN105608203A (zh) 一种基于Hadoop平台的物联网日志处理方法和装置
CN110516077A (zh) 面向企业商情的知识图谱构建方法及装置
CN106709012A (zh) 一种大数据分析方法及装置
CN112182077B (zh) 一种基于数据中台技术的智能运维***
CN105930446A (zh) 一种基于Hadoop分布式技术的电信客户标签生成方法
CN102902813A (zh) 日志收集***
CN107103064A (zh) 数据统计方法及装置
CN109923847A (zh) 调用链路的发现方法、装置、设备及存储介质
CN105577411A (zh) 基于服务起源的云服务监控方法和装置
CN114429364A (zh) 业务数据管理方法和装置、存储介质及电子设备
CN107220389A (zh) 一种物流知识智能问答***及方法
CN109254901A (zh) 一种指标监测方法及***
CN109977125A (zh) 一种基于网络安全的大数据安全分析平台***
CN112733017A (zh) 一种标签管理方法、装置、存储介质及电子装置
CN102937984A (zh) 一种收集数据的***、客户端和方法
CN113392113A (zh) 一种云视频开放平台精细化用户画像实时推荐方法
CN108345658A (zh) 算法计算轨迹的分解处理方法、服务器及存储介质
US20070043752A1 (en) Disparate network model synchronization
CN112395371B (zh) 一种金融机构资产分类处理方法、装置及可读介质
CN110134511A (zh) 一种OpenTSDB共享存储优化方法
CN114265883A (zh) 一种实时数据治理的方法、设备、存储介质
CN116910567B (zh) 推荐业务的在线训练样本构建方法及相关装置
CN104182470B (zh) 一种基于svm的移动终端应用分类***和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210914

RJ01 Rejection of invention patent application after publication