CN105512167B - 一种基于混合数据库的多业务用户数据管理***及其方法 - Google Patents
一种基于混合数据库的多业务用户数据管理***及其方法 Download PDFInfo
- Publication number
- CN105512167B CN105512167B CN201510731348.2A CN201510731348A CN105512167B CN 105512167 B CN105512167 B CN 105512167B CN 201510731348 A CN201510731348 A CN 201510731348A CN 105512167 B CN105512167 B CN 105512167B
- Authority
- CN
- China
- Prior art keywords
- data
- module
- user data
- clusters
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于混合数据库的多业务用户数据管理***及其方法,包括***出口入口模块,所述出口入口模块用于导入和导出用户数据;分布式处理模块,所述分布式处理模块包括对数据分类模块、数据筛分录入模块、数据整合模块和数据查询模块;数据存储集群,所述数据存储集群包括关系型数据库集群、Hadoop集群和MongoDB集群。本发明采用传统关系型数据库与非关系型数据库相结合的方式对数据进行分类存储,这种混合数据库的存储模式发挥了关系型数据库在处理结构化数据时通用性强和保持数据一致性的优点,同时具备了非关系型数据库针对海量非结构化数据较强的读写能力以及架构模块高可扩展性等特点。
Description
技术领域
本发明涉及一种用户数据管理***和方法,尤其是涉及一种基于混合数据库的多业务用户数据管理***及其方法。
背景技术
关系数据库,是建立在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据。由于具有保持数据一致性、丰富的完整性、数据库维护量小、技术发展成熟等突出优势,关系型数据库已成为应用广泛的通用型数据库。但是近年来,随着互联网的兴起,传统的关系数据库在应付各行各业服务应用,特别是超大规模和高并发的SNS类型的web2.0纯动态网站及海量数据计算时已经显得力不从心,暴露了很多难以克服的问题,而非关系型数据库则由于本身高性能并发读写能力、海量数据的高效读写、高可扩展性和可用性等特点得到了非常迅速的发展。
与关系型数据库相比,非关系型数据库最大的优势是它们能高效地处理非结构化的数据,如字符文件、邮件、多媒体、社交媒体等。但非关系型数据库不支持SQL、支持的特性不够丰富、技术尚不成熟等缺点,制约了非关系型数据库的广泛应用。
发明内容
针对上述问题,本发明提出了一种基于混合数据库的多业务用户数据管理***及其方法,其中采用关系型数据库和非关系型数据库相结合的方式对数据进行存储。
本发明提出一种基于混合数据库的多业务用户数据管理***,包括:
***出口入口模块,所述出口入口模块用于导入和导出用户数据;
分布式处理模块,所述分布式处理模块包括对所述用户数据进行数据分类的数据分类模块、对经分类后的用户数据进行筛选和清洗的数据筛分录入模块、对经筛选和清洗后的用户数据进行基础整合的数据整合模块、对经基础整合后的用户数据进行二次整合的数据查询模块;和
数据存储集群***,所述数据存储集群包括用于存储结构化数据的关系型数据库集群,用于存储需要进行复杂计算的数据的Hadoop集群,用于存储非结构化数据的MongoDB集群。
进一步地,所述***入口出口模块包括数据接入模块和权限控制模块,所述数据接入模块用于导入用户数据,所述权限控制模块用于处理外来请求权限校验和数据导出。
进一步地,所述数据分类模块、数据筛选录入模块、数据查询模块、数据整合模块之间数据的传输采用生产者消费者模式,并以Redis queue作为集群消息队列。
进一步地,所述数据存储集群的关系型数据库集群为Redis集群。
本发明提供了一种基于混合数据库的多业务用户数据管理方法,包括如下步骤:
S1:将用户数据导入到***入口出口模块;
S2:对所述用户数据进行数据分类;
S3:对经分类后的用户数据进行筛选和清洗;
S4:对经筛选和清洗后的用户数据进行基础整合;
S5:对经基础整合后的用户数据进行二次整合;
S6:对经二次整合后的用户数据进行存储,其中结构化数据存储在关系型数据库集群中,需要进行复杂计算的数据存储在Hadoop数据库集群中,非结构化数据存储在MongoDB数据库集群中。
进一步地,步骤S6中所述的关系型数据库集群为Redis数据库集群。
本发明采用传统关系型数据库与非关系型数据库相结合的方式对数据进行分类存储,这种混合数据库的存储模式发挥了关系型数据库在处理结构化数据时通用性强和保持数据一致性的优点,同时具备了非关系型数据库针对海量非结构化数据较强的读写能力以及架构模块高可扩展性等特点。
附图说明
图1是本发明一种基于混合数据库的多业务用户数据管理***的一个实施例的结构示意图。
图2是本发明一种基于混合数据库的多业务用户数据管理方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,本发明一种基于混合数据库的多业务用户数据管理***,包括:
***出口入口模块1,所述出口入口模块1用于导入和导出用户数据;
分布式处理模块2,所述分布式处理模块2包括对所述用户数据进行数据分类的数据分类模块21、对经分类后的用户数据进行筛选和清洗的数据筛分录入模块22、对经筛选和清洗后的用户数据基础整合的数据整合模块24、对经基础整合后的用户数据进行二次整合的数据查询模块23;和
数据存储集群***3,所述数据存储集群模块3包括用于存储结构化数据的关系型数据库集群31,用于存储需要进行复杂计算的数据的Hadoop集群32,用于存储非结构化数据的MongoDB集群33。
在本发明一个优选的实施例中,所述***入口出口模块1包括数据接入模块11和权限控制模块12,所述数据接入模块11用于导入用户数据,所述权限控制模块12用于处理外来请求权限校验和数据导出。针对数据的导入导出,本***提供了http和文件型两种方式,其中http方式采用nginx+tomcat集群,以scale out模式来实现大批量高并发数据的导入导出,可突破传统scale up模式带来的性能瓶颈并减少开支;文件型导入导出则采用fastdfs集群文件服务器,可有效完成海量数据文件的导入导出。
在本发明的另一个优选的实施例中,所述数据分类模块21、数据筛选录入模块22、数据查询模块23、数据整合模块24之间数据的传输采用生产者消费者模式,并以Redisqueue作为集群消息队列。采用生产者消费者模式可通过自由增加或减少***的节点数进行性能调节,降低***间的耦合,实现自由增加或减少服务器而不需要改动任何其它的服务器。数据分类模块21主要提供业务分类服务;由数据分类模块21分类后进入数据筛选录入模块22,数据筛选录入模块22主要提供数据筛选、清洗服务;数据整合模块24是对所有录入的数据进行基础整合归纳;数据查询模块23主要是基于业务需求的个性化请求对初步整合归纳的录入数据进行二次整合分析,同时将整合数据中的结构化数据存储在关系型数据库中,充分发挥关系型数据库处理小数据通用性强及查询整合灵活多变的特点。
在本发明的某些实施例中,所述数据存储集群3的关系型数据库集群31为Redis集群。数据存储集群模块31包括有Redis集群31、Hadoop集群32、MongoDB集群33,分别提供了Redis、Hadoop、MongoDB三种数据库存储方式。其中Redis集群31采用master/slave的HA架构,主要用于队列管理及临时存储功能。Hadoop集群32包含了MR,hdfs,spark等Hadoop生态***,主要提供基础存储能力和计算能力,同时具备K-mean算法,shift-k-mean算法,KNN算法,贝叶斯算法等基础算法,MongoDB集群33采用分片加上HA架构主要负责分类、筛选、清洗后的初始数据和二次整合数据的存储,以备数据查询***进行数据查询与调用。
shift-k-mean算法主要通过对较为规范的样本点进行归类,初始k值为2,原因是线性多维空间点可以通过Y=K1X1+K2X2+K3X3......+K(n-1)X(n-1)+KnXn表示,而简写为Y=f(Xn),以其最简单地可看为一条直线,2个不在同一直线的随机坐标点可以定位出一条直线,因此以2为初始值,计算k-mean,以中心点离最远点的距离标为f1,阀值为f2(通过***优化发现阀值选为各中心之间距离的中值*1.5为佳),当存在f1>f2时候则k值+1,新的中心点为该最远点,重新计算k-mean,重复直到f1<f2,由此算法可以解决在准确的大数据集里计算k-mean时难以准确设定k值的困难。由于本***的数据来源于用户实际购买情况,数据精确且由数据分类模块21、数据筛选录入模块22对数据进行清洗,因此符合该算法使用场景。
请参见图2,本发明还提供了一种基于混合数据库的多业务用户数据管理方法,包括如下步骤:
S1:将用户数据导入到***入口出口模块;
S2:对所述用户数据进行数据分类;
S3:对经分类后的用户数据进行筛选和清洗;
S4:对经筛选和清洗后的用户数据进行基础整合;
S5:对经基础整合后的用户数据进行二次整合;
S6:对经二次整合后的用户数据进行存储,其中结构化数据存储在关系型数据集群中,需要进行复杂计算的数据存储在Hadoop数据库集群中,非结构化数据存储在MongoDB数据库集群中。
进一步地,所述步骤S6中所述的关系型数据库集群为Redis数据库。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (3)
1.一种基于混合数据库的多业务用户数据管理***,其特征在于,包括:
***出口入口模块,所述***出口入口模块用于导入和导出用户数据;其中,所述导入和导出用户数据采用http和文件型两种方式,所述http方式采用nginx+tomcat集群,以scale out模式来实现大批量高并发数据的导入导出,文件型导入导出采用fastdfs集群文件服务器;
分布式处理模块,所述分布式处理模块包括对所述用户数据进行数据分类的数据分类模块、对经分类后的用户数据进行筛选和清洗的数据筛分录入模块、对经筛选和清洗后的用户数据进行基础整合的数据整合模块、对经基础整合后的用户数据进行二次整合的数据查询模块;其中,所述数据分类模块、数据筛分录入模块、数据查询模块、数据整合模块之间数据的传输采用生产者消费者模式,并以Redisqueue作为集群消息队列;
数据存储集群,所述数据存储集群包括用于存储结构化数据的关系型数据库集群,用于存储需要进行复杂计算的数据的Hadoop集群,用于存储非结构化数据的MongoDB集群;其中,所述关系型数据库集群为Redis集群,所述Redis集群采用master/slave生态***,Hadoop集群包括MR、hdfs和spark的Hadoop生态***,MongoDB集群采用分片和HA架构以实现对分类、筛选和清洗后的初始数据和二次整合数据的存储,以备数据查询***进行数据查询和调用。
2.根据权利要求1所述的基于混合数据库的多业务用户数据管理***,其特征在于,所述***出口入口模块包括数据接入模块和权限控制模块,所述数据接入模块用于导入用户数据,所述权限控制模块用于处理外来请求的权限校验和数据导出。
3.一种基于混合数据库的多业务用户数据管理方法,其特征在于,包括如下步骤:
S1:将用户数据导入到***出口入口模块;其中,导入用户数据采用http和文件型两种方式,所述http方式采用nginx+tomcat集群,以scale out模式来实现大批量高并发数据的导入导出,文件型导入导出采用fastdfs集群文件服务器;
S2:对所述用户数据进行数据分类;
S3:对经分类后的用户数据进行筛选和清洗;
S4:对经筛选和清洗后的用户数据进行基础整合;
S5:对经基础整合后的用户数据进行二次整合;其中,数据的传输采用生产者消费者模式,并以Redisqueue作为集群消息队列;
S6:对经二次整合后的用户数据进行存储;其中,结构化数据存储在关系型数据库集群中,需要进行复杂计算的数据存储在Hadoop数据库集群中,非结构化数据存储在MongoDB数据库集群中;所述关系型数据库集群为Redis集群,所述Redis集群采用master/slave生态***,Hadoop集群包括MR、hdfs和spark的Hadoop生态***,MongoDB集群采用分片和HA架构以实现对分类、筛选和清洗后的初始数据和二 次整合数据的存储,以备数据查询***进行数据查询和调用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510731348.2A CN105512167B (zh) | 2015-10-30 | 2015-10-30 | 一种基于混合数据库的多业务用户数据管理***及其方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510731348.2A CN105512167B (zh) | 2015-10-30 | 2015-10-30 | 一种基于混合数据库的多业务用户数据管理***及其方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105512167A CN105512167A (zh) | 2016-04-20 |
CN105512167B true CN105512167B (zh) | 2018-01-23 |
Family
ID=55720149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510731348.2A Active CN105512167B (zh) | 2015-10-30 | 2015-10-30 | 一种基于混合数据库的多业务用户数据管理***及其方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105512167B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956029B (zh) * | 2016-04-25 | 2019-06-07 | 吉林大学 | 混合存储架构下的数据访问方法 |
CN106227791B (zh) * | 2016-07-20 | 2020-02-07 | 广东电网有限责任公司 | 一种数据存储架构 |
CN108074086A (zh) * | 2016-11-14 | 2018-05-25 | 咪咕音乐有限公司 | 计费*** |
CN106776903A (zh) * | 2016-11-30 | 2017-05-31 | 国网重庆市电力公司电力科学研究院 | 一种适用于智能电网营配调的大数据共享***及方法 |
CN106844546A (zh) * | 2016-12-30 | 2017-06-13 | 江苏号百信息服务有限公司 | 基于Spark集群的多数据源位置信息融合方法及*** |
CN106598872A (zh) * | 2017-01-03 | 2017-04-26 | 百融(北京)金融信息服务股份有限公司 | 智能设备应用程序处理***和方法 |
CN107463661B (zh) * | 2017-07-31 | 2021-04-27 | 绿湾网络科技有限公司 | 数据的导入方法及装置 |
CN108123963B (zh) * | 2018-01-19 | 2021-05-11 | 深圳市易仓科技有限公司 | 一种跨境电商的api辅助***及处理方法 |
CN108536833A (zh) * | 2018-04-12 | 2018-09-14 | 成都信息工程大学 | 一种分布式、面向大数据的数据库及其构建方法 |
CN109165207B (zh) * | 2018-07-16 | 2021-11-26 | 华南农业大学 | 基于Hadoop的饮用水海量数据存储管理方法和*** |
CN108848108A (zh) * | 2018-07-25 | 2018-11-20 | 贵州电网有限责任公司 | 基于移动互联网+的创新项目pdca过程管理平台 |
CN109947706A (zh) * | 2019-02-13 | 2019-06-28 | 上海泉涸信息科技有限公司 | 文件管理***及文件管理方法 |
CN111897824A (zh) * | 2020-03-25 | 2020-11-06 | 上海云励科技有限公司 | 数据操作方法、装置、设备和存储介质 |
CN113535746B (zh) * | 2021-09-13 | 2021-11-23 | 环球数科集团有限公司 | 一种非关系型数据通过随机序列读写后控制一致性的方法 |
CN114841678B (zh) * | 2022-06-28 | 2022-09-27 | 成都明途科技有限公司 | 岗位数据交换方法、数据交换***,服务器及存储介质 |
CN118113785A (zh) * | 2024-04-19 | 2024-05-31 | 浪潮云信息技术股份公司 | 一种高可用数据管理*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073706A (zh) * | 2010-12-30 | 2011-05-25 | 北京锐安科技有限公司 | 分布式文件存储***和关系数据库的结合应用方法 |
CN103678665A (zh) * | 2013-12-24 | 2014-03-26 | 焦点科技股份有限公司 | 一种基于数据仓库的异构大数据整合方法和*** |
CN104021194A (zh) * | 2014-06-13 | 2014-09-03 | 浪潮(北京)电子信息产业有限公司 | 一种面向行业大数据多样性应用的混合型处理***及处理方法 |
CN104063372A (zh) * | 2013-03-18 | 2014-09-24 | 江苏真云计算科技有限公司 | 混合数据库存储模型 |
CN104111996A (zh) * | 2014-07-07 | 2014-10-22 | 山大地纬软件股份有限公司 | 基于hadoop平台的医保门诊大数据抽取***及方法 |
-
2015
- 2015-10-30 CN CN201510731348.2A patent/CN105512167B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073706A (zh) * | 2010-12-30 | 2011-05-25 | 北京锐安科技有限公司 | 分布式文件存储***和关系数据库的结合应用方法 |
CN104063372A (zh) * | 2013-03-18 | 2014-09-24 | 江苏真云计算科技有限公司 | 混合数据库存储模型 |
CN103678665A (zh) * | 2013-12-24 | 2014-03-26 | 焦点科技股份有限公司 | 一种基于数据仓库的异构大数据整合方法和*** |
CN104021194A (zh) * | 2014-06-13 | 2014-09-03 | 浪潮(北京)电子信息产业有限公司 | 一种面向行业大数据多样性应用的混合型处理***及处理方法 |
CN104111996A (zh) * | 2014-07-07 | 2014-10-22 | 山大地纬软件股份有限公司 | 基于hadoop平台的医保门诊大数据抽取***及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105512167A (zh) | 2016-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105512167B (zh) | 一种基于混合数据库的多业务用户数据管理***及其方法 | |
CN104820670B (zh) | 一种电力信息大数据的采集和存储方法 | |
CN106951552A (zh) | 一种基于Hadoop的用户行为数据处理方法 | |
CN103106249B (zh) | 一种基于Cassandra的数据并行处理*** | |
CN107704545A (zh) | 基于Storm与Kafka消息通信的铁路配电网海量信息流处理方法 | |
WO2021109464A1 (zh) | 一种面向大规模用户的个性化教学资源推荐方法 | |
CN105989129A (zh) | 实时数据统计方法和装置 | |
CN104407879B (zh) | 一种电网时序大数据并行加载方法 | |
CN106055277A (zh) | 一种去中心化的分布式异构存储***数据分布方法 | |
US10268749B1 (en) | Clustering sparse high dimensional data using sketches | |
CN103678520A (zh) | 一种基于云计算的多维区间查询方法及其*** | |
CN103473276B (zh) | 超大型数据存储方法、分布式数据库***及其检索方法 | |
US9189489B1 (en) | Inverse distribution function operations in a parallel relational database | |
CN107958080A (zh) | 一种基于ElasticSearch的大数据报表处理方法 | |
CN107895046A (zh) | 一种异构数据集成平台 | |
CN104317970A (zh) | 一种基于数据加工中心的数据流式处理方法 | |
CN205750780U (zh) | 一种基于混合数据库的多业务用户数据管理*** | |
CN103440246A (zh) | 用于MapReduce的中间结果数据排序方法及*** | |
CN106503079A (zh) | 一种日志管理方法及*** | |
CN106899426A (zh) | 用户访问数量统计方法及其*** | |
CN103207889A (zh) | 一种基于Hadoop的海量人脸图像的检索方法 | |
CN107025298A (zh) | 一种大数据实时计算处理***及方法 | |
TW201636877A (zh) | 對資料物件篩選分類的方法、裝置以及電子設備 | |
CN105681414B (zh) | 一种避免Hbase数据热点的方法及*** | |
CN114357085B (zh) | 基于区块链的财务数据存储方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |