CN105447137A

CN105447137A - 一种基于关系数据库从大数据下检索相同主从关系数据的算法

Info

Publication number: CN105447137A
Application number: CN201510810811.2A
Authority: CN
Inventors: 马亚飞; 刘天智
Original assignee: Inspur Software Co Ltd
Current assignee: Inspur Software Co Ltd
Priority date: 2015-11-23
Filing date: 2015-11-23
Publication date: 2016-03-30

Abstract

本发明提供<b>一</b>种基于关系数据库从大数据下检索相同主从关系数据的算法，是海量数据中进行数据比对的一种算法，采用“大而化小，先面后点”，利用分组遍历、中间表存储等算法逐步缩小数据比对范围，高效检索出相同的记录。本发明针对企业数据中海量主从结构数据，快速检索出相同记录的方法适用于企业管控中的需要检索相同主从结构数据的各种情形，增强企业的管控能力，为企业营造更好的市场环境，提高企业竞争力。

Description

一种基于关系数据库从大数据下检索相同主从关系数据的算法

技术领域

本发明涉及基于关系数据库，具体涉及一种基于关系数据库从大数据下检索相同主从关系数据的算法。

背景技术

进入大数据时代，以数据驱动发展，从而提高企业决策能力和公共服务质量成为企业趋势。在针对海量数据的分析中，数据类型包括结构化数据、非结构化数据、半结构化数据，其中结构化数据又包括了简单结构数据与复杂结构数据。针对简单的结构数据，比如字符型、数字型数据可以通过数据库SQL直接进行统计分析，例如可以利用GROUPBY语句进行分组查询，从而找出完全相同的数据；也可以采用程序中对数据的循环进行比较，从而找出完全的数据。在海量数据的情况下，这种简单类型的数据对比通过优化数据库、优化算法即可以显著提高计算性能。但是对于主从关系数据的分析比对，则缺乏高效便捷的检索方法。

发明内容

本发明的技术任务是针对现有技术的不足，提供一种基于关系数据库从大数据下检索相同主从关系数据的算法。针对企业数据中海量主从结构数据，提供一种快速检索出相同记录的方法，从而为企业的管控分析提供数据支撑。

本发明解决其技术问题所采用的技术方案是：

一种基于关系数据库从大数据下检索相同主从关系数据的算法，是海量数据中进行数据比对的一种算法，采用“大而化小，先面后点”，利用分组遍历、中间表存储等算法逐步缩小数据比对范围，高效检索出相同的记录。

通过提取主从表分组依据-确定分组顺序-执行分组，在执行分组过程中结合遍历算法以及中间表存储逐步缩小数据范围的算法。

本发明的一种基于关系数据库从大数据下检索相同主从关系数据的算法与现有技术相比，所产生的有益效果是：本发明针对企业数据中海量主从结构数据，快速检索出相同记录的方法适用于企业管控中的需要检索相同主从结构数据的各种情形。相同订单数据的检索，可应用于企业窜货管理。企业窜货会扰乱企业产品的市场秩序，造成市场倾轧、价格混乱，严重影响厂商声誉。针对企业窜货的管控分析，要通过对订单的分析进行体现，其中一种分析方式就是从海量订单中找出相同的订单，然后通过对相同订单的判断找出是否有人为恶意刷单、虚假订单、内部人员串通倒货等导致窜货的情况。最终，增强企业的管控能力，为企业营造更好的市场环境，提高企业竞争力。

附图说明

图1为本算法步骤图。

图2为主从关系数据示例，订单数据的数据关系图。

图3为示例中检索相同订单的算法步骤图。

具体实施方式

下面对本发明的一种基于关系数据库从大数据下检索相同主从关系数据的算法作以下详细地说明。

一种基于关系数据库从大数据下检索相同主从关系数据的算法，采用“大而化小，先面后点”，利用分组遍历、中间表存储等算法逐步缩小数据比对范围，高效检索出相同的记录。

1)具体步骤如图1：

为了方便阐述，以企业常见主从关系数据-订单数据作为示例，假设主表数据表名为：CO_MAIN，从表数据表名为：CO_SUB。E-R关系图如图2：

目的：从海量订单数据中找出相同订单，即：订单商品与商品的数量完全相同的订单。

算法步骤如图3

1：确认分组指标为：

主表指标：订单总额、订单总量。

从表指标：订单商品种类数量、订单商品数量、订单商品金额。

最后分组依据：1）订单总额+订单总量

2）订单总额+订单总量+订单商品种类数量

3）订单商品数量+订单商品金额

2：确认分组执行顺序：

1）订单总额+订单总量

2）订单总额+订单总量+订单商品种类数量

3）订单商品数量+订单商品金额

3：按照分组顺序逐级执行分组比对

a：订单总额+订单总量分组；订单总额+订单总量+订单商品种类数量分组

利用两层嵌套GROUPBY分组找到，订单总金额、订单总量、订单上商品种类的数量相同的订单，存放到maysamelist中。

其中CO_COUNT表示分组中订单的数量，CO_COUNT_NUM1表示分组中的顺序。

b：订单商品数量+订单商品金额分组

循环maycolist,对每个子分组submaycolist进行判断，通过调用判断两个订单是否相同的公共方法判断该分组中是否存在相同订单，将相同订单存入SAME_CO_MAIN、SAME_CO_SUB中。具体算法：

for(maycolist,,按照CO_COUNT_NUM1截取子分组（即一个可能相同的订单分组），遇到1则停止)

{

1:得到submaycolist:list中存放co_id=CO_ID,goodcount=GOOD_COUNT)

2:传入submaycolist,goodcount调用判断一个订单分组是否相同的方法，里面循环调用判断两个订单是否相同的方法

3:for(submaycolist){

3.1调用判断两个订单是否相同的方法

twocossame(coid1,coid2,goodcount)

3.2如果返回结果为T，判断两个订单是否已经在SAME_CO_SUB中

1）coid1，coid2都没有的话则存入SAME_CO_MAIN、SAME_CO_SUB中；

2）有一个的话，将另一个存入SAME_CO_SUB中

3）都有的话，不操作

}

c：判断一个两个订单是否相同的方法,twocossame(coid1,coid2,goodcount)

此示例中相同订单数据的检索，可应用于企业窜货管理。企业窜货会扰乱企业产品的市场秩序，造成市场倾轧、价格混乱，严重影响厂商声誉。针对企业窜货的管控分析，要通过对订单的分析进行体现，其中一种分析方式就是从海量订单中找出相同的订单，然后通过对相同订单的判断找出是否有人为恶意刷单、虚假订单、内部人员串通倒货等导致窜货的情况。最终，增强企业的管控能力，为企业营造更好的市场环境，提高企业竞争力。

Claims

1.一种基于关系数据库从大数据下检索相同主从关系数据的算法，是海量数据中进行数据比对的一种算法，其特征在于采用“大而化小，先面后点”，利用分组遍历、中间表存储等算法逐步缩小数据比对范围，高效检索出相同的记录。

2.根据权利要求1所述的一种基于关系数据库从大数据下检索相同主从关系数据的算法，其特征在于，通过提取主从表分组依据-确定分组顺序-执行分组，在执行分组过程中结合遍历算法以及中间表存储逐步缩小数据范围的算法。