CN105302831A - 基于海量用户行为数据的高速计算分析方法 - Google Patents

基于海量用户行为数据的高速计算分析方法 Download PDF

Info

Publication number
CN105302831A
CN105302831A CN201410345089.5A CN201410345089A CN105302831A CN 105302831 A CN105302831 A CN 105302831A CN 201410345089 A CN201410345089 A CN 201410345089A CN 105302831 A CN105302831 A CN 105302831A
Authority
CN
China
Prior art keywords
data
behavior data
user behavior
mass
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410345089.5A
Other languages
English (en)
Inventor
李馥岑
孙鑫
张旭明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai StarV Data Technology Co Ltd
Original Assignee
Shanghai StarV Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai StarV Data Technology Co Ltd filed Critical Shanghai StarV Data Technology Co Ltd
Priority to CN201410345089.5A priority Critical patent/CN105302831A/zh
Publication of CN105302831A publication Critical patent/CN105302831A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明主要解决的是面对越来越灵活的双向新媒体业务,面对百万级,甚至千万级用户的海量行为数据,将采集到的用户行为数据进行HDFS分布式存储,经过ETL模块对数据进行提取、转换和加载之后,由符合传媒行业特点的优化组合算法模块,将海量的用户行为数据进行高效的数据预处理,形成一系列的中间结果数据,再通过不同的WEB应用程序调用相关的中间结果数据集,以实现对海量用户行为数据的高速分析运算,为运营商提供秒级的实时计算分析。

Description

基于海量用户行为数据的高速计算分析方法
技术领域
本发明属于数据处理领域,尤其涉及一种基于海量用户行为数据的高速计算分析方法。
背景技术
随着广电网络公司后平移时代的到来,数字电视业务发展日益成熟,付费频道、时移回看、VOD(VideoOnDemand)即视频点播、其他增值业务(股票、电视商城、游戏等)等多种双向互动新业务在不断的充实广电网络运营商的业务服务内容,广电网络运营商的发展重点逐渐从数字平台搭建、双向网络改造转向了更加多元化的业务经营和盈利模式。
作为传统的广电网络运营商,在数字电视媒体环境下,随着双向网络的不断完善,用户行为数据的采集成为可能,而面对上百万,甚至上千万用户的海量行为数据,如何进行高速的计算分析成为了各大运营商丞待解决的问题。
现有的海量数据计算分析技术,主要是通过将结构化的数据存储在众多的存储及运算设备之中,然后经过数据库的查询、运算、分析,从百万级,甚至千万级用户的海量行为数据中,查询到需要的数据记录和结果,然后再进行运算分析,以形成最终的分析结果。这种方式,由于所有的分析、计算都要从庞大的海量数据中进行查询及运算,使得查询运算的效率大大降低,分析一个简单的指标,都需要从所有数据中进行查询,以获取所需的数据指标。往往查询与运算的时间都是好几个小时,甚至十几个小时,随着数据量的增加,效率会更低,只能通过添加高性能的运算服务器,以提高查询运算的效率。现有的海量数据计算分析技术根本无法做到对海量数据的实时分析与计算,且需要投入大量的高性能服务器资源以配合分析与计算。
发明内容
本发明主要解决的是面对越来越灵活的双向新媒体业务,面对百万级,甚至千万级用户的海量行为数据,将采集到的用户行为数据进行HDFS分布式存储,经过ETL模块对数据进行提取、转换和加载之后,由符合传媒行业特点的优化组合算法模块,将海量的用户行为数据进行高效的数据预处理,形成一系列的中间结果数据,再通过不同的WEB应用程序调用相关的中间结果数据集,以实现对海量用户行为数据的高速分析运算,为运营商提供秒级的实时计算分析。
通过该方法可使广电网络运营商利用现有的双向网络通道获取到的海量用户行为数据,快速有效的得到真实的、准确的分析运算结果,实时地为运营商提供运营决策依据,有效的提高了海量数据的分析运算效率。同时在资源利用率上,较现有的海量数据分析技术可节省大量的硬件设备资源及人员成本。
附图说明
图1为本发明实施例提供的基于海量用户行为数据的高速计算分析方法的实现流程图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
如图1所示,为本发明基于海量用户行为数据的高速计算分析方法的实现流程图,详述如下:
在步骤S1中,采集运营商的海量用户行为数据及第三方***的异构数据;
在步骤S2中,通过HDFS((HadoopDistributedFileSystem))分布式存储模块进行三备份分布式存储;
在步骤S3中,由ETL(Extract-Transform-Load)模块完成对海量行为数据的提取、转化及加载;
在步骤S4中然后再由算法处理模块,结合传媒行业的特点,对转化后的海量行为数据,利用基本统计分析算法,例如描述性统计分析、假设检验、回归分析、多元统计分析、方差分析、线性时间序列分析、参数贝叶斯方法、修正收视媒体指标分析方法等,利用高级数据分析算法,例如关联规则挖掘涉及的Apriori算法、基于划分的算法、F-P数频集算法,分类分析涉及的判定树归纳分类、贝叶斯分类、向后传播分类,聚类分析涉及的K-means、CLARANS、BIRCH、CURE、DBSCAN,神经网络算法、高维数据统计分析等,利用智能关联规则挖掘算法、节目评估模型、高级时间序列预测方法等创新算法,通过将上述算法结合符合传媒行业的特点,进行算法间优化组合,形成特定的算法包及数据模型,并针对上述算法特点,对用户的海量行为数据进行预处理,提取共用部分,形成供数据查询、分析、运算、模型演化等,的一系列的中间结果数据,并存储在中间结果数据存储模块中;
在步骤S5中,由不同的WEB应用程序由操作用户提交分析请求,直接从中间结果数据存储模块中调用所需的指标数据,并通过简单的查询、统计、分析、公式计算等运算即可完成对用户分析请求的结果反馈。对操作用户的指标分析请求响应时间达到秒级,甚至毫秒级的实时响应。使得服务器端资源压力下降,能够做到WEB应用的高并发。
由于采用了优化组合的算法包及数据模型进行海量的数据预处理操作,每次的用户指标查询请求,只需要从经过数据预处理的中间结果数据中提取相关数据参与运算,不需要从完整的原始海量行为数据中进行查询和运算,分析运算效率由现有技术所需的几个小时,十几个小时的漫长等待时间,提升为秒级,甚至毫秒级的实时响应,大大提高了分析运算效率,同时整个分析运算过程只需要普通的PC服务器资源即可完成,大大节省了硬件服务器资源的投入。
以上仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于海量用户行为数据的高速计算分析方法,其特征在于:包含如下步骤:
A、首先采集运营商的海量用户行为数据及第三方***的异构数据;
B、通过HDFS分布式存储模块进行三备份分布式存储;
C、通过ETL模块完成对海量行为数据的提取、转化及加载;
D、然后再由算法处理模块对转化后的海量行为数据通过优化组合的算法包及数据模型进行数据预处理操作,最终形成一系列的中间结果数据,并存储在中间结果数据存储模块中;
E、通过不同的WEB应用程序由操作用户提交分析请求,直接从中间结果数据存储模块中调用所需的指标数据,并通过运算即可完成对用户分析请求的结果反馈。
CN201410345089.5A 2014-07-18 2014-07-18 基于海量用户行为数据的高速计算分析方法 Pending CN105302831A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410345089.5A CN105302831A (zh) 2014-07-18 2014-07-18 基于海量用户行为数据的高速计算分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410345089.5A CN105302831A (zh) 2014-07-18 2014-07-18 基于海量用户行为数据的高速计算分析方法

Publications (1)

Publication Number Publication Date
CN105302831A true CN105302831A (zh) 2016-02-03

Family

ID=55200106

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410345089.5A Pending CN105302831A (zh) 2014-07-18 2014-07-18 基于海量用户行为数据的高速计算分析方法

Country Status (1)

Country Link
CN (1) CN105302831A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106851349A (zh) * 2017-03-21 2017-06-13 上海星红桉数据科技有限公司 基于海量跨屏收视行为数据的直播推荐方法
CN106980663A (zh) * 2017-03-21 2017-07-25 上海星红桉数据科技有限公司 基于海量跨屏行为数据的用户画像方法
CN106980662A (zh) * 2017-03-21 2017-07-25 上海星红桉数据科技有限公司 基于海量跨屏收视行为数据的用户标签分类方法
CN109787821A (zh) * 2019-01-04 2019-05-21 华南理工大学 一种大规模移动客户流量消费智能预测方法
CN110636344A (zh) * 2018-06-22 2019-12-31 上海淘播播电子商务有限公司 一种基于新媒体多源跨屏数据分析的节目评估方法
WO2021164253A1 (zh) * 2020-02-18 2021-08-26 平安科技(深圳)有限公司 用户行为实时多维度分析方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101908191A (zh) * 2010-08-03 2010-12-08 深圳市她秀时尚电子商务有限公司 应用于电子商务的数据分析方法及***
CN102521246A (zh) * 2011-11-11 2012-06-27 国网信息通信有限公司 一种云数据仓库***
US20130174048A1 (en) * 2011-12-29 2013-07-04 Yu Xu Techniques for guided access to an external distributed file system from a database management system
CN103678665A (zh) * 2013-12-24 2014-03-26 焦点科技股份有限公司 一种基于数据仓库的异构大数据整合方法和***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101908191A (zh) * 2010-08-03 2010-12-08 深圳市她秀时尚电子商务有限公司 应用于电子商务的数据分析方法及***
CN102521246A (zh) * 2011-11-11 2012-06-27 国网信息通信有限公司 一种云数据仓库***
US20130174048A1 (en) * 2011-12-29 2013-07-04 Yu Xu Techniques for guided access to an external distributed file system from a database management system
CN103678665A (zh) * 2013-12-24 2014-03-26 焦点科技股份有限公司 一种基于数据仓库的异构大数据整合方法和***

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106851349A (zh) * 2017-03-21 2017-06-13 上海星红桉数据科技有限公司 基于海量跨屏收视行为数据的直播推荐方法
CN106980663A (zh) * 2017-03-21 2017-07-25 上海星红桉数据科技有限公司 基于海量跨屏行为数据的用户画像方法
CN106980662A (zh) * 2017-03-21 2017-07-25 上海星红桉数据科技有限公司 基于海量跨屏收视行为数据的用户标签分类方法
CN110636344A (zh) * 2018-06-22 2019-12-31 上海淘播播电子商务有限公司 一种基于新媒体多源跨屏数据分析的节目评估方法
CN109787821A (zh) * 2019-01-04 2019-05-21 华南理工大学 一种大规模移动客户流量消费智能预测方法
CN109787821B (zh) * 2019-01-04 2020-06-19 华南理工大学 一种大规模移动客户流量消费智能预测方法
WO2021164253A1 (zh) * 2020-02-18 2021-08-26 平安科技(深圳)有限公司 用户行为实时多维度分析方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN105302831A (zh) 基于海量用户行为数据的高速计算分析方法
Kastouni et al. Big data analytics in telecommunications: Governance, architecture and use cases
Han et al. Spark: A big data processing platform based on memory computing
CN103336790B (zh) 基于Hadoop的邻域粗糙集快速属性约简方法
CN104820670A (zh) 一种电力信息大数据的采集和存储方法
CN103209087B (zh) 分布式日志统计处理方法和***
CN103838867A (zh) 日志处理方法和装置
CN105323601A (zh) 基于多屏用户行为数据的人员属性标识方法
US20160196564A1 (en) Systems and methods for analyzing consumer sentiment with social perspective insight
Patwardhan et al. A survey on predictive maintenance through big data
CN1945482A (zh) 一种一体化的钢铁企业在线能源预测***与方法
CN109033281B (zh) 一种知识资源库的智能推送***
US20220334969A1 (en) Multi-cache based digital output generation
CN116048817B (zh) 数据处理控制方法、装置、计算机设备和存储介质
CN111126852A (zh) 一种基于大数据建模的bi应用***
Aceto et al. Efficient storage and processing of high-volume network monitoring data
CN116244367A (zh) 一种基于多模型的自定义算法的可视化大数据分析平台
CN105550351B (zh) 旅客行程数据即席查询***及方法
Shakhovska et al. Generalized formal model of Big Data
CN114356712A (zh) 数据处理方法、装置、设备、可读存储介质及程序产品
CN111143651B (zh) 一种新媒体一体化运营管理用数据采集分析***
CN106919566A (zh) 一种基于海量数据的查询统计方法及***
CN106570174B (zh) 运行于cmmb超级热点业务平台的大数据分析方法及***
CN116795816A (zh) 一种基于流式处理的数仓建设方法和***
Tseng et al. A successful application of big data storage techniques implemented to criminal investigation for telecom

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160203