CN105447137A - 一种基于关系数据库从大数据下检索相同主从关系数据的算法 - Google Patents

一种基于关系数据库从大数据下检索相同主从关系数据的算法 Download PDF

Info

Publication number
CN105447137A
CN105447137A CN201510810811.2A CN201510810811A CN105447137A CN 105447137 A CN105447137 A CN 105447137A CN 201510810811 A CN201510810811 A CN 201510810811A CN 105447137 A CN105447137 A CN 105447137A
Authority
CN
China
Prior art keywords
data
algorithm
enterprise
order
retrieving
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510810811.2A
Other languages
English (en)
Inventor
马亚飞
刘天智
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Co Ltd
Original Assignee
Inspur Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Co Ltd filed Critical Inspur Software Co Ltd
Priority to CN201510810811.2A priority Critical patent/CN105447137A/zh
Publication of CN105447137A publication Critical patent/CN105447137A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • G06F16/244Grouping and aggregation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • Mathematical Physics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供<b>一</b>种基于关系数据库从大数据下检索相同主从关系数据的算法,是海量数据中进行数据比对的一种算法,采用“大而化小,先面后点”,利用分组遍历、中间表存储等算法逐步缩小数据比对范围,高效检索出相同的记录。本发明针对企业数据中海量主从结构数据,快速检索出相同记录的方法适用于企业管控中的需要检索相同主从结构数据的各种情形,增强企业的管控能力,为企业营造更好的市场环境,提高企业竞争力。

Description

一种基于关系数据库从大数据下检索相同主从关系数据的算法
技术领域
本发明涉及基于关系数据库,具体涉及一种基于关系数据库从大数据下检索相同主从关系数据的算法。
背景技术
进入大数据时代,以数据驱动发展,从而提高企业决策能力和公共服务质量成为企业趋势。在针对海量数据的分析中,数据类型包括结构化数据、非结构化数据、半结构化数据,其中结构化数据又包括了简单结构数据与复杂结构数据。针对简单的结构数据,比如字符型、数字型数据可以通过数据库SQL直接进行统计分析,例如可以利用GROUPBY语句进行分组查询,从而找出完全相同的数据;也可以采用程序中对数据的循环进行比较,从而找出完全的数据。在海量数据的情况下,这种简单类型的数据对比通过优化数据库、优化算法即可以显著提高计算性能。但是对于主从关系数据的分析比对,则缺乏高效便捷的检索方法。
发明内容
本发明的技术任务是针对现有技术的不足,提供一种基于关系数据库从大数据下检索相同主从关系数据的算法。针对企业数据中海量主从结构数据,提供一种快速检索出相同记录的方法,从而为企业的管控分析提供数据支撑。
本发明解决其技术问题所采用的技术方案是:
一种基于关系数据库从大数据下检索相同主从关系数据的算法,是海量数据中进行数据比对的一种算法,采用“大而化小,先面后点”,利用分组遍历、中间表存储等算法逐步缩小数据比对范围,高效检索出相同的记录。
通过提取主从表分组依据-确定分组顺序-执行分组,在执行分组过程中结合遍历算法以及中间表存储逐步缩小数据范围的算法。
本发明的一种基于关系数据库从大数据下检索相同主从关系数据的算法与现有技术相比,所产生的有益效果是:本发明针对企业数据中海量主从结构数据,快速检索出相同记录的方法适用于企业管控中的需要检索相同主从结构数据的各种情形。相同订单数据的检索,可应用于企业窜货管理。企业窜货会扰乱企业产品的市场秩序,造成市场倾轧、价格混乱,严重影响厂商声誉。针对企业窜货的管控分析,要通过对订单的分析进行体现,其中一种分析方式就是从海量订单中找出相同的订单,然后通过对相同订单的判断找出是否有人为恶意刷单、虚假订单、内部人员串通倒货等导致窜货的情况。最终,增强企业的管控能力,为企业营造更好的市场环境,提高企业竞争力。
附图说明
图1为本算法步骤图。
图2为主从关系数据示例,订单数据的数据关系图。
图3为示例中检索相同订单的算法步骤图。
具体实施方式
下面对本发明的一种基于关系数据库从大数据下检索相同主从关系数据的算法作以下详细地说明。
一种基于关系数据库从大数据下检索相同主从关系数据的算法,采用“大而化小,先面后点”,利用分组遍历、中间表存储等算法逐步缩小数据比对范围,高效检索出相同的记录。
通过提取主从表分组依据-确定分组顺序-执行分组,在执行分组过程中结合遍历算法以及中间表存储逐步缩小数据范围的算法。
1)具体步骤如图1:
为了方便阐述,以企业常见主从关系数据-订单数据作为示例,假设主表数据表名为:CO_MAIN,从表数据表名为:CO_SUB。E-R关系图如图2:
目的:从海量订单数据中找出相同订单,即:订单商品与商品的数量完全相同的订单。
算法步骤如图3
1:确认分组指标为:
主表指标:订单总额、订单总量。
从表指标:订单商品种类数量、订单商品数量、订单商品金额。
最后分组依据:1)订单总额+订单总量
2)订单总额+订单总量+订单商品种类数量
3)订单商品数量+订单商品金额
2:确认分组执行顺序:
1)订单总额+订单总量
2)订单总额+订单总量+订单商品种类数量
3)订单商品数量+订单商品金额
3:按照分组顺序逐级执行分组比对
a:订单总额+订单总量分组;订单总额+订单总量+订单商品种类数量分组
利用两层嵌套GROUPBY分组找到,订单总金额、订单总量、订单上商品种类的数量相同的订单,存放到maysamelist中。
其中CO_COUNT表示分组中订单的数量,CO_COUNT_NUM1表示分组中的顺序。
b:订单商品数量+订单商品金额分组
循环maycolist,对每个子分组submaycolist进行判断,通过调用判断两个订单是否相同的公共方法判断该分组中是否存在相同订单,将相同订单存入SAME_CO_MAIN、SAME_CO_SUB中。具体算法:
for(maycolist,,按照CO_COUNT_NUM1截取子分组(即一个可能相同的订单分组),遇到1则停止)
{
1:得到submaycolist:list中存放co_id=CO_ID,goodcount=GOOD_COUNT)
2:传入submaycolist,goodcount调用判断一个订单分组是否相同的方法,里面循环调用判断两个订单是否相同的方法
3:for(submaycolist){
3.1调用判断两个订单是否相同的方法
twocossame(coid1,coid2,goodcount)
3.2如果返回结果为T,判断两个订单是否已经在SAME_CO_SUB中
1)coid1,coid2都没有的话则存入SAME_CO_MAIN、SAME_CO_SUB中;
2)有一个的话,将另一个存入SAME_CO_SUB中
3)都有的话,不操作
}
}
c:判断一个两个订单是否相同的方法,twocossame(coid1,coid2,goodcount)
此示例中相同订单数据的检索,可应用于企业窜货管理。企业窜货会扰乱企业产品的市场秩序,造成市场倾轧、价格混乱,严重影响厂商声誉。针对企业窜货的管控分析,要通过对订单的分析进行体现,其中一种分析方式就是从海量订单中找出相同的订单,然后通过对相同订单的判断找出是否有人为恶意刷单、虚假订单、内部人员串通倒货等导致窜货的情况。最终,增强企业的管控能力,为企业营造更好的市场环境,提高企业竞争力。

Claims (2)

1.一种基于关系数据库从大数据下检索相同主从关系数据的算法,是海量数据中进行数据比对的一种算法,其特征在于采用“大而化小,先面后点”,利用分组遍历、中间表存储等算法逐步缩小数据比对范围,高效检索出相同的记录。
2.根据权利要求1所述的一种基于关系数据库从大数据下检索相同主从关系数据的算法,其特征在于,通过提取主从表分组依据-确定分组顺序-执行分组,在执行分组过程中结合遍历算法以及中间表存储逐步缩小数据范围的算法。
CN201510810811.2A 2015-11-23 2015-11-23 一种基于关系数据库从大数据下检索相同主从关系数据的算法 Pending CN105447137A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510810811.2A CN105447137A (zh) 2015-11-23 2015-11-23 一种基于关系数据库从大数据下检索相同主从关系数据的算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510810811.2A CN105447137A (zh) 2015-11-23 2015-11-23 一种基于关系数据库从大数据下检索相同主从关系数据的算法

Publications (1)

Publication Number Publication Date
CN105447137A true CN105447137A (zh) 2016-03-30

Family

ID=55557314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510810811.2A Pending CN105447137A (zh) 2015-11-23 2015-11-23 一种基于关系数据库从大数据下检索相同主从关系数据的算法

Country Status (1)

Country Link
CN (1) CN105447137A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106779126A (zh) * 2016-12-30 2017-05-31 中国民航信息网络股份有限公司 恶意占座订单的处理方法和***
CN107291908A (zh) * 2017-06-26 2017-10-24 浪潮软件股份有限公司 一种跨数据库海量数据对比方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106779126A (zh) * 2016-12-30 2017-05-31 中国民航信息网络股份有限公司 恶意占座订单的处理方法和***
CN107291908A (zh) * 2017-06-26 2017-10-24 浪潮软件股份有限公司 一种跨数据库海量数据对比方法

Similar Documents

Publication Publication Date Title
US9158812B2 (en) Enhancing parallelism in evaluation ranking/cumulative window functions
US10162857B2 (en) Optimized inequality join method
CN106104525B (zh) 事件处理***
Chai et al. Crowdsourcing database systems: Overview and challenges
US10565201B2 (en) Query processing management in a database management system
Liu et al. Efficient distributed query processing in large RFID-enabled supply chains
US9390129B2 (en) Scalable and adaptive evaluation of reporting window functions
CN102968420A (zh) 数据库查询的方法和***
CN103176974A (zh) 优化数据库中访问路径的方法和装置
CN110222029A (zh) 一种大数据多维分析计算效率提升方法及***
US9135630B2 (en) Systems and methods for large-scale link analysis
Giannakouris et al. MuSQLE: Distributed SQL query execution over multiple engine environments
CN112015741A (zh) 一种海量数据的分库分表存储方法与装置
WO2021036452A1 (zh) 实时数据去重计数方法及装置
CN104281891A (zh) 一种时间序列数据挖掘方法及***
Tank et al. Speeding ETL processing in data warehouses using high-performance joins for changed data capture (cdc)
US11726975B2 (en) Auto unload
WO2016038749A1 (en) A method for efficient one-to-one join
CN105447137A (zh) 一种基于关系数据库从大数据下检索相同主从关系数据的算法
US8832157B1 (en) System, method, and computer-readable medium that facilitates efficient processing of distinct counts on several columns in a parallel processing system
Wang et al. A hybrid index for temporal big data
CN106339432A (zh) 一种按查询内容进行负载均衡的***及其方法
CN115391424A (zh) 数据库查询的处理方法、存储介质与计算机设备
Lu et al. A survey of mapreduce based parallel processing technologies
CN103617181A (zh) 一种亲缘关系通用数据库构建方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160330