CN111475528A - 一种基于ott的数据仓储构建方法、设备及存储介质 - Google Patents

一种基于ott的数据仓储构建方法、设备及存储介质 Download PDF

Info

Publication number
CN111475528A
CN111475528A CN202010208271.1A CN202010208271A CN111475528A CN 111475528 A CN111475528 A CN 111475528A CN 202010208271 A CN202010208271 A CN 202010208271A CN 111475528 A CN111475528 A CN 111475528A
Authority
CN
China
Prior art keywords
layer
data
ott
data warehouse
warehouse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010208271.1A
Other languages
English (en)
Inventor
刘艺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Coocaa Network Technology Co Ltd
Original Assignee
Shenzhen Coocaa Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Coocaa Network Technology Co Ltd filed Critical Shenzhen Coocaa Network Technology Co Ltd
Priority to CN202010208271.1A priority Critical patent/CN111475528A/zh
Publication of CN111475528A publication Critical patent/CN111475528A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明所提供的一种基于OTT的数据仓储构建方法、设备及存储介质,包括:按照数据产生的源业务方向将数据统一存储至数据仓库中;将存储在数据仓库中的数据按照数据的流转和用途划分为五个分层,包括贴源层、明细层、仓库层、汇总宽表层和应用层。本发明将数据仓库预先构建为5个层次:贴源层、明细层、仓库层、汇总宽表层和应用层,分层更细致,每个层次均具有不同的功能,有利于数据的分析和处理,以适应OTT行业内数据量大、业务线广、分析指标范围大等特点。

Description

一种基于OTT的数据仓储构建方法、设备及存储介质
技术领域
本发明涉及OTT技术领域,尤其涉及的是一种基于OTT的数据仓储构建方法、设备及存储介质。
背景技术
随着互联网的发展,OTT行业智能大屏的价值逐渐得以体现。用户在观看智能电视时所产生的海量用户行为日志和设备所产生的应对日志中具有大量的数据价值,将这些数据存储在数据仓库中以供分析和发掘价值是非常有必要的。原有的数据仓库构建为三个层:原始层、中间层和应用层;因此,现有的数据存储的构建方式分层少,不利于数据的分析和处理。
因此,现有技术存在缺陷,有待改进与发展。
发明内容
本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种基于OTT的数据仓储构建方法、设备及存储介质,旨在解决现有的数据存储的构建方式分层少,不利于数据的分析和处理的问题。
本发明解决技术问题所采用的技术方案如下:
一种基于OTT的数据仓储构建方法,其中,包括:
按照数据产生的源业务方向将数据统一存储至数据仓库中;
将存储在数据仓库中的数据按照数据的流转和用途划分为五个分层,包括贴源层、明细层、仓库层、汇总宽表层和应用层。
所述的基于OTT的数据仓储构建方法,其中,所述数据仓库为Hive数据仓库。
所述的基于OTT的数据仓储构建方法,其中,所述基于OTT的数据仓储构建方法还包括:预先构建临时层,所述临时层用于存储个人落表或临时建表后不再调度使用的表。
所述的基于OTT的数据仓储构建方法,其中,所述贴源层为原始数据层,所述贴源层中的数据为未经加工的数据,包括:日志数据,及业务库同步的数据。
所述的基于OTT的数据仓储构建方法,其中,所述明细层中为细粒度处理的数据明细,经过贴源层,经ETL命名统一后落表,其中,包含拉链表。
所述的基于OTT的数据仓储构建方法,其中,所述仓库层中存储建模后的维度表和经过处理的事实表,所述事实表可直接使用明细层或贴源层中的数据。
所述的基于OTT的数据仓储构建方法,其中,所述汇总宽表层包括:汇总层和宽表层;所述汇总层存储经汇总后的数据,进行上卷和下钻;所述宽表层存储处理后的通用型业务宽表。
所述的基于OTT的数据仓储构建方法,其中,所述应用层包括:Hive和MySQL;所述应用层用于报表展示,为经数据库的数据处理后的产出。
本发明还提供了一种设备,其中,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于OTT的数据仓储构建程序,所述基于OTT的数据仓储构建程序被所述处理器执行时实现如上所述的基于OTT的数据仓储构建方法的步骤。
本发明还提供了一种存储介质,其中,所述存储介质存储有计算机程序,所述计算机程序能够被执行以用于实现如上所述的基于OTT的数据仓储构建方法。
本发明所提供的一种基于OTT的数据仓储构建方法、设备及存储介质,包括:按照数据产生的源业务方向将数据统一存储至数据仓库中;将存储在数据仓库中的数据按照数据的流转和用途划分为五个分层,包括贴源层、明细层、仓库层、汇总宽表层和应用层。本发明将数据仓库预先构建为5个层次:贴源层、明细层、仓库层、汇总宽表层和应用层,分层更细致,每个层次均具有不同的功能,有利于数据的分析和处理,以适应OTT行业内数据量大、业务线广、分析指标范围大等特点。
附图说明
图1是本发明中基于OTT的数据仓储构建方法较佳实施例的流程图。
图2是本发明中设备的较佳实施例的功能原理框图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参见图1,图1是本发明中一种基于OTT的数据仓储构建方法的流程图。如图1所示,本发明实施例所述的基于OTT的数据仓储构建方法包括以下步骤:
S100、按照数据产生的源业务方向将数据统一存储至数据仓库中;
S200、将存储在数据仓库中的数据按照数据的流转和用途划分为五个分层,包括贴源层、明细层、仓库层、汇总宽表层和应用层。
具体的,OTT是“Over The Top”的缩写,是指通过互联网向用户提供各种应用服务,数据仓库是依附于数据平台上的,数据则包括行为数据和业务数据。本发明将数据仓库预先构建为5个层次:贴源层、明细层、仓库层、汇总宽表层和应用层,分层更细致,有利于数据的分析和处理,以适应OTT行业内数据量大、业务线广、分析指标范围大等特点。
进一步的,所述源业务方向是指影视、教育、少儿、体育、会员等业务线。
在一种实现方式中,所述数据仓库为Hive数据仓库。即,所述部长周S100具体为:按照数据产生的源业务方向将数据统一存储至Hive数据仓库中;所述步骤S200具体为:将存储在Hive数据仓库中的数据按照数据的流转和用途划分为五个分层,包括贴源层、明细层、仓库层、汇总宽表层和应用层。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
进一步地,所述基于OTT的数据仓储构建方法还包括:预先构建临时层,所述临时层用于存储个人落表或临时建表后不再调度使用的表。
在一种实现方式中,所述贴源层为原始数据层,所述贴源层中的数据为未经加工的数据,包括:日志数据,及业务库同步的数据。即,Hive数据仓库中的未经处理的数据是存储在贴源层的,包含日志数据和业务库同步过来的数据。
进一步地,所述明细层中为最细粒度处理的数据明细,经过贴源层,经ETL命名统一后落表,其中,包含拉链表。也就是说,Hive数据仓库中的最细粒度处理的数据明细存储在明细层中,经过贴源层,经ETL命名统一后落表。
在一种实现方式中,所述仓库层中存储建模后的维度表和经过处理的事实表,所述事实表可直接使用明细层或贴源层中的数据。具体的,所述仓库层存储建模之后的维度表和部分经过处理的事实表,部分事实表可以直接使用明细层或贴源层中的数据。
进一步地,所述汇总宽表层包括:汇总层和宽表层;所述汇总层存储经汇总后的数据,进行上卷和下钻;所述宽表层存储处理后的通用型业务宽表。具体的,所述汇总层存储经过汇总后的数据,进行上卷和下钻,不再保存最细粒度,减少数据量;所述宽表层存储处理后的通用型业务宽表,可以从宽表出多个指标。
在一种实现方式中,所述应用层包括:Hive和MySQL;所述应用层用于报表展示,为经数据库的数据处理后的产出。MySQL是一个关系型数据库管理***;Hive中的应用层数据不删除。
进一步地,当数据量不是特别小或数据处理所需资源大时,要在Hive中保存一份用于报表展示的数据,再从Hive中同步到MySQL。目的是减小MySQL的数据压力,并且可以定期清理MySQL历史数据,需要查询过于久远历史时也可以从Hive中查询到这些数据。
当数据量特别小时,比如一天一条结果数据,则可以直接存入MySQL,其能保证MySQL的稳定存储,保存处理结果,防止大量数据重复处理。
如图2所示,本发明还提供了一种设备,包括存储器20、处理器10及存储在所述存储器20上并可在所述处理器10上运行的基于OTT的数据仓储构建程序,所述基于OTT的数据仓储构建程序被所述处理器10执行时实现如上所述的基于OTT的数据仓储构建方法的步骤;具体如上所述。
本发明还提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序能够被执行以用于实现如上所述的基于OTT的数据仓储构建方法;具体如上所述。
综上所述,本发明公开的一种基于OTT的数据仓储构建方法、设备及存储介质,包括:按照数据产生的源业务方向将数据统一存储至数据仓库中;将存储在数据仓库中的数据按照数据的流转和用途划分为五个分层,包括贴源层、明细层、仓库层、汇总宽表层和应用层。本发明将数据仓库预先构建为5个层次:贴源层、明细层、仓库层、汇总宽表层和应用层,分层更细致,每个层次均具有不同的功能,有利于数据的分析和处理,以适应OTT行业内数据量大、业务线广、分析指标范围大等特点。
应当理解的是,本发明的应用不限于上述的举例,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (10)

1.一种基于OTT的数据仓储构建方法,其特征在于,包括:
按照数据产生的源业务方向将数据统一存储至数据仓库中;
将存储在数据仓库中的数据按照数据的流转和用途划分为五个分层,包括贴源层、明细层、仓库层、汇总宽表层和应用层。
2.根据权利要求1所述的基于OTT的数据仓储构建方法,其特征在于,所述数据仓库为Hive数据仓库。
3.根据权利要求1所述的基于OTT的数据仓储构建方法,其特征在于,所述基于OTT的数据仓储构建方法还包括:预先构建临时层,所述临时层用于存储个人落表或临时建表后不再调度使用的表。
4.根据权利要求1所述的基于OTT的数据仓储构建方法,其特征在于,所述贴源层为原始数据层,所述贴源层中的数据为未经加工的数据,包括:日志数据,及业务库同步的数据。
5.根据权利要求1所述的基于OTT的数据仓储构建方法,其特征在于,所述明细层中为细粒度处理的数据明细,经过贴源层,经ETL命名统一后落表,其中,包含拉链表。
6.根据权利要求1所述的基于OTT的数据仓储构建方法,其特征在于,所述仓库层中存储建模后的维度表和经过处理的事实表,所述事实表可直接使用明细层或贴源层中的数据。
7.根据权利要求1所述的基于OTT的数据仓储构建方法,其特征在于,所述汇总宽表层包括:汇总层和宽表层;所述汇总层存储经汇总后的数据,进行上卷和下钻;所述宽表层存储处理后的通用型业务宽表。
8.根据权利要求1所述的基于OTT的数据仓储构建方法,其特征在于,所述应用层包括:Hive和MySQL;所述应用层用于报表展示,为经数据库的数据处理后的产出。
9.一种设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于OTT的数据仓储构建程序,所述基于OTT的数据仓储构建程序被所述处理器执行时实现如权利要求1-8任一项所述的基于OTT的数据仓储构建方法的步骤。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序能够被执行以用于实现如权利要求1-8任一项所述的基于OTT的数据仓储构建方法。
CN202010208271.1A 2020-03-23 2020-03-23 一种基于ott的数据仓储构建方法、设备及存储介质 Pending CN111475528A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010208271.1A CN111475528A (zh) 2020-03-23 2020-03-23 一种基于ott的数据仓储构建方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010208271.1A CN111475528A (zh) 2020-03-23 2020-03-23 一种基于ott的数据仓储构建方法、设备及存储介质

Publications (1)

Publication Number Publication Date
CN111475528A true CN111475528A (zh) 2020-07-31

Family

ID=71749428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010208271.1A Pending CN111475528A (zh) 2020-03-23 2020-03-23 一种基于ott的数据仓储构建方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111475528A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113742325A (zh) * 2021-08-09 2021-12-03 广州市易工品科技有限公司 数据仓库建设方法、装置、***、电子设备及存储介质
CN116401325A (zh) * 2023-05-15 2023-07-07 广州飞狮数字科技有限公司 一种基于数据仓库模型的数据处理方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120054249A1 (en) * 2010-08-25 2012-03-01 International Business Machines Corporation Data warehouse data model adapters
US20170011104A1 (en) * 2015-07-06 2017-01-12 Oracle International Corporation Optimizing incremental loading of warehouse data
CN109189764A (zh) * 2018-09-20 2019-01-11 北京桃花岛信息技术有限公司 一种基于Hive的高校数据仓库分层设计方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120054249A1 (en) * 2010-08-25 2012-03-01 International Business Machines Corporation Data warehouse data model adapters
US20170011104A1 (en) * 2015-07-06 2017-01-12 Oracle International Corporation Optimizing incremental loading of warehouse data
CN109189764A (zh) * 2018-09-20 2019-01-11 北京桃花岛信息技术有限公司 一种基于Hive的高校数据仓库分层设计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
大葱拌豆腐: "数据仓库——通用的数据仓库分层方法" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113742325A (zh) * 2021-08-09 2021-12-03 广州市易工品科技有限公司 数据仓库建设方法、装置、***、电子设备及存储介质
CN116401325A (zh) * 2023-05-15 2023-07-07 广州飞狮数字科技有限公司 一种基于数据仓库模型的数据处理方法及装置
CN116401325B (zh) * 2023-05-15 2024-03-05 广州飞狮数字科技有限公司 一种基于数据仓库模型的数据处理方法及装置

Similar Documents

Publication Publication Date Title
JP7273045B2 (ja) Sqlクエリプランを最適化するための次元コンテキスト伝搬技術
US11403321B2 (en) System and method for improved performance in a multidimensional database environment
US11809408B2 (en) Incremental refresh of a materialized view
US9800675B2 (en) Methods for dynamically generating an application interface for a modeled entity and devices thereof
CN109033113B (zh) 数据仓库和数据集市的管理方法及装置
CN104781812A (zh) 策略驱动的数据放置和信息生命周期管理
US11334593B2 (en) Automated ETL workflow generation
An et al. Methodology for automatic ontology generation using database schema information
CN103425723A (zh) 删除多级存储架构中的记录而不进行记录锁定
EP2577507A2 (en) Data mart automation
US20140071135A1 (en) Managing activities over time in an activity graph
WO2011090519A1 (en) Accessing large collection object tables in a database
US20170116268A1 (en) Extending relational algebra for data management
CN111475528A (zh) 一种基于ott的数据仓储构建方法、设备及存储介质
CN103946794A (zh) 数据特征的滚动升级的***和方法
US10298676B2 (en) Cost-effective reuse of digital assets
KR101955376B1 (ko) 비공유 아키텍처 기반의 분산 스트림 처리 엔진에서 관계형 질의를 처리하는 방법, 이를 수행하기 위한 기록 매체 및 장치
US11714688B1 (en) Sustainability-based computing resource allocation
WO2016206395A1 (zh) 周报信息处理方法及装置
US20130185313A1 (en) Generating simulated containment reports of dynamically assembled components in a content management system
CN113326345A (zh) 基于动态本体的知识图谱分析、应用方法、平台及设备
US9495216B2 (en) Optimization of job scheduling in a computing environment
US20090300000A1 (en) Method and System For Improved Search Relevance In Business Intelligence systems through Networked Ranking
CN116303336A (zh) 一种基于数据编织架构的数据管理方法
Zheng et al. Timo: In‐memory temporal query processing for big temporal data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 2306, east block, Skyworth semiconductor design building, 18 Gaoxin South 4th Road, Gaoxin community, Yuehai street, Nanshan District, Shenzhen, Guangdong 518052

Applicant after: Shenzhen Kukai Network Technology Co.,Ltd.

Address before: 518052 Room 601, block C, Skyworth building, 008 Gaoxin South 1st Road, Nanshan District, Shenzhen City, Guangdong Province

Applicant before: Shenzhen Coocaa Network Technology Co.,Ltd.

CB02 Change of applicant information