CN105095436A - 数据源数据自动建模方法 - Google Patents

数据源数据自动建模方法 Download PDF

Info

Publication number
CN105095436A
CN105095436A CN201510436270.1A CN201510436270A CN105095436A CN 105095436 A CN105095436 A CN 105095436A CN 201510436270 A CN201510436270 A CN 201510436270A CN 105095436 A CN105095436 A CN 105095436A
Authority
CN
China
Prior art keywords
modeling
data
business object
list
business objects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510436270.1A
Other languages
English (en)
Other versions
CN105095436B (zh
Inventor
马晓东
马小东
谢晓芳
王鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SUZHOU GUOYUN DATA TECHNOLOGY Co Ltd
Original Assignee
SUZHOU GUOYUN DATA TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SUZHOU GUOYUN DATA TECHNOLOGY Co Ltd filed Critical SUZHOU GUOYUN DATA TECHNOLOGY Co Ltd
Priority to CN201510436270.1A priority Critical patent/CN105095436B/zh
Publication of CN105095436A publication Critical patent/CN105095436A/zh
Application granted granted Critical
Publication of CN105095436B publication Critical patent/CN105095436B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9017Indexing; Data structures therefor; Storage structures using directory or table look-up

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<b>本发明公开了一种数据源数据自动建模方法,包括如下步骤:多数据源接入及表结构解析:接入不同的数据源中的数据,解析各数据源中所有表的表结构;为数据源表中表结构标识业务对象:遍历数据源中所有表,提取需要建模的属性列表,为每个属性列表中的属性设置业务对象名称、业务对象类型以及业务对象聚集方式;归并同类项业务对象:对所有设置业务对象的属性进行汇总并归并同类项;解析业务对象并建模生成建模结构集:对设置业务对象的属性按照设置参数进行建模,对未设置业务对象的属性按照建模规则进行建模,建模规则包括数值型属性标记为度量,非数值型属性标记为维度,并归并同类项业务对象。可以方便地进行数据建模,有利于分析用户海量数据。</b>

Description

数据源数据自动建模方法
技术领域
本发明涉及一种数据源数据自动建模方法,具体地涉及一种对复杂数据源数据进行自动建模并展示的方法。
背景技术
很多存储复杂数据的数据源,例如从社交数据库、电商数据库,到人类基因数据库,都是基于复杂的多维、大数据量存储的数据集。针对这种数据集进行处理,存在一个巨大的挑战是如何从海量的数据中发现隐含的数据结构、数据关联关系、并最终提取出有意义的数据。通常来说,分析师想不借助任何工具,从如此巨量的数据中提取出有意义的数据来是不太现实的。通常分析师会借助各种分析工具来帮助提取部分有意义的数据。但是依赖现有分析工具对复杂数据源数据进行建模并展示必须要持续的人机交互。用户需要很熟悉复杂数据集的特性,必须给计算机明确的指令来让计算机调用相应的算法来完成建模。在很多情况下,这种人机交互需要重复进行多次。当用户处理的数据是以万亿计时,这样的数据处理方式非常复杂和繁琐。因此需要一种高级数据自动建模以及可视化方式。
发明内容
针对上述技术问题,本发明目的是:提供一种数据源数据自动建模方法,在海量数据中建立分析模型,可以方便地为业务人员进行数据建模,可以更快更好的分析用户海量数据。
本发明的技术方案是:
一种数据源数据自动建模方法,包括如下步骤:
S01:多数据源接入及表结构解析:接入不同的数据源中的数据,解析各数据源中所有表的表结构;
S02:为数据源表中表结构标识业务对象:遍历数据源中所有表,提取需要建模的属性列表,为每个属性列表中的属性设置业务对象名称、业务对象类型以及业务对象聚集方式;
S03:归并同类项业务对象以及来源:对所有设置业务对象的属性进行汇总并归并同类项;
S04:解析业务对象并建模生成建模结构集:对设置业务对象的属性按照设置参数进行建模,对未设置业务对象的属性按照建模规则进行建模,所述建模规则包括数值型属性标记为度量,非数值型属性标记为维度,并归并同类项业务对象。
优选的,所述步骤S01中的表结构包括表中的字段以及字段类型。
优选的,所述步骤S01包括以下步骤:
获取表连接及表结构的元数据;
获取表的表结构属性列表;
记录表结构属性列表,并与步骤S02中生成的业务对象映射匹配。
与现有技术相比,本发明的优点是:
1.该方法可以帮助用户基于数据源中数据快速有效的建立起业务模型,还可以帮助用户发现数据源中隐藏的数据之间的深层次关联关系,比如基于用户身份信息时可以挖掘用户的年龄段以及对应的消费量、消费习惯的关联信息。
该方法为用户在海量数据中建立分析模型提供了可行的基础,可以嵌在魔镜数据分析平台中,可以方便的为业务人员进行数据建模,可以更快更好的分析用户海量数据。
附图说明
下面结合附图及实施例对本发明作进一步描述:
图1为本发明数据源数据自动建模方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
实施例:
如图1所示,一种对复杂数据源数据进行自动建模并展示的方法,具体步骤如下:
A.多数据源接入及表结构解析
对用户的不同数据源中数据进行接入,分析并解析出各数据源中所有表的表结构。数据源可以是mysql、oracle、DB2等关系型数据库,比如说用户有个mysql数据库,库中含有A、B两张表,A表包含A1、A2、A3...A10,10个字段,B表包含B1、B2、B3三个字段。该步骤可以对mysql数据库中A、B两张表,以及每张表中所有的字段(包括字段类型),使用SQL语法获取数据源元数据的方法解析出A、B两张表表结构。A表包含A1、A2、A3...A10,10个字段,B表包含B1、B2、B3三个字段,以及每个字段的类型,类型可以为字符型,文本型,数值型,逻辑型和日期型。记录上述结果为后续建模做准备。
语法获取数据源元数据的部分伪代码如下:
获取的每个步骤都是由数据库管理***本身提供的接口提供的。
为数据源表中每个字段标识一个业务对象
遍历数据源中所有表,提取所有需要建模的属性列表,为每个属性设置业务对象名称、业务对象类型、业务对象聚集方式。
例如,如果用户从业务角度,对A表中A2、A3字段比较感兴趣,那么用户可以对应的建立业务对象YWA2、YWA3,为每个属性设置业务对象名称YWA2、YWA3,YWA2的业务对象类型是数值型,YWA3是时间类型,YWA2业务对象聚集方式可以是汇总、平均、最大值、最小值等等,YWA3聚集方式可以是计数。
一般的,数值型的业务对象的聚集方式可以是汇总、平均、最大值、最小值等等,字符类型的业务对象的聚集方式可以是计数。
归并同类项业务对象以及来源
对所有设置业务对象的属性进行汇总,归并同类项。
例如,在电商***数据库中可能包含用户表以及交易表,用户表中包含了用户的身份证信息(实名制),即每个用户都记录了唯一的身份证信息,交易表中也包含了用户信息,即每个交易记录都包含了用户的身份证信息和交易信息。在这种业务场景中,分析该数据库的业务人员可以建立一个用户身份证的业务对象。用户表以及交易表中都包含用户身份证信息,将业务人员建立的用户身份证业务对象关联到用户表中的身份证信息,以及交易表中的身份证信息。当用户希望查询身份证以及其他业务对象的关联关系时,***知道可以从两个表(两个路径)中分析并得出最优的结果。
自动解析业务对象并进行建模
对设置业务对象的属性按照设置参数进行建模,对未设置业务对象的属性按照建模规则进行建模。该建模规则包括数值型属性标记为度量,非数值型属性标记为维度,并归并同类项业务对象。
例如,交易金额标识为度量,用户所在省份标识为维度,同时归并同类项业务对象。例如步骤C中例子,用户表以及交易表都包含用户身份证信息,则业务人员只需要一个业务对象“用户身份”,把该业务对象同时关联到用户表中身份信息列以及交易表中身份信息列。
用户可以对建模后的模型进行手工设置,最终呈现出用户想要的业务模型以及数据库中表字段的映射,可以减少业务人员对庞大的数据库中所有字段进行手工配置。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims (3)

1.一种数据源数据自动建模方法,其特征在于,包括如下步骤:
S01:多数据源表结构解析:解析数据源中所有表的表结构;
S02:为数据源表中表结构标识业务对象:遍历数据源中所有表,提取需要建模的属性列表,为属性列表中的属性设置业务对象名称、业务对象类型以及业务对象聚集方式;
S03:归并同类项业务对象:对所有设置业务对象的属性进行汇总并归并同类项;
S04:解析业务对象并建模生成建模结构集:对设置业务对象的属性按照设置参数进行建模,对未设置业务对象的属性按照建模规则进行建模,所述建模规则包括数值型属性标记为度量,非数值型属性标记为维度,并归并同类项业务对象。
2.根据权利要求1所述的数据源数据自动建模方法,其特征在于,所述步骤S01中的表结构包括表中的字段、字段类型以及默认值。
3.根据权利要求1所述的数据源数据自动建模方法,其特征在于,所述步骤S01包括以下步骤:
获取表连接及表结构的元数据;
获取表的表结构属性列表;
记录表结构属性列表,并与步骤S02中生成的业务对象映射匹配。
CN201510436270.1A 2015-07-23 2015-07-23 数据源数据自动建模方法 Active CN105095436B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510436270.1A CN105095436B (zh) 2015-07-23 2015-07-23 数据源数据自动建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510436270.1A CN105095436B (zh) 2015-07-23 2015-07-23 数据源数据自动建模方法

Publications (2)

Publication Number Publication Date
CN105095436A true CN105095436A (zh) 2015-11-25
CN105095436B CN105095436B (zh) 2018-07-17

Family

ID=54575873

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510436270.1A Active CN105095436B (zh) 2015-07-23 2015-07-23 数据源数据自动建模方法

Country Status (1)

Country Link
CN (1) CN105095436B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018201896A1 (zh) * 2017-05-04 2018-11-08 平安科技(深圳)有限公司 表结构建模方法、装置、服务器及介质
CN109117440A (zh) * 2017-06-23 2019-01-01 ***通信集团公司 一种元数据信息获取方法、***和计算机可读存储介质
CN109389143A (zh) * 2018-06-19 2019-02-26 北京九章云极科技有限公司 一种数据分析处理***及自动建模方法
CN111666313A (zh) * 2020-05-25 2020-09-15 中科星图股份有限公司 基于多源异构遥感数据关联构建及多用户数据匹配方法
CN111948992A (zh) * 2020-08-05 2020-11-17 上海微亿智造科技有限公司 对工业批产型大数据进行多级递进建模的方法及***
CN113468379A (zh) * 2020-03-31 2021-10-01 上海依图网络科技有限公司 数据源的处理方法、装置及智能分析平台

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102650995A (zh) * 2011-02-25 2012-08-29 ***股份有限公司 多维数据分析模型生成***及方法
CN102855354B (zh) * 2012-08-21 2014-11-05 南京南瑞继保电气有限公司 一种面向工业企业在线多维能耗数据统计建模方法
CN103970758A (zh) * 2013-01-29 2014-08-06 鸿富锦精密工业(深圳)有限公司 数据库访问***及方法
CN104794221B (zh) * 2015-04-29 2018-05-01 苏州国云数据科技有限公司 一种基于业务对象的多维数据分析***

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018201896A1 (zh) * 2017-05-04 2018-11-08 平安科技(深圳)有限公司 表结构建模方法、装置、服务器及介质
CN109117440A (zh) * 2017-06-23 2019-01-01 ***通信集团公司 一种元数据信息获取方法、***和计算机可读存储介质
CN109389143A (zh) * 2018-06-19 2019-02-26 北京九章云极科技有限公司 一种数据分析处理***及自动建模方法
CN113935434A (zh) * 2018-06-19 2022-01-14 北京九章云极科技有限公司 一种数据分析处理***及自动建模方法
CN113468379A (zh) * 2020-03-31 2021-10-01 上海依图网络科技有限公司 数据源的处理方法、装置及智能分析平台
CN111666313A (zh) * 2020-05-25 2020-09-15 中科星图股份有限公司 基于多源异构遥感数据关联构建及多用户数据匹配方法
CN111666313B (zh) * 2020-05-25 2023-02-07 中科星图股份有限公司 基于多源异构遥感数据关联构建及多用户数据匹配方法
CN111948992A (zh) * 2020-08-05 2020-11-17 上海微亿智造科技有限公司 对工业批产型大数据进行多级递进建模的方法及***
CN111948992B (zh) * 2020-08-05 2021-09-10 上海微亿智造科技有限公司 对工业批产型大数据进行多级递进建模的方法及***

Also Published As

Publication number Publication date
CN105095436B (zh) 2018-07-17

Similar Documents

Publication Publication Date Title
CN107122443B (zh) 一种基于Spark SQL的分布式全文检索***及方法
CN105095436A (zh) 数据源数据自动建模方法
US20160217158A1 (en) Image search method, image search system, and information recording medium
CN112000773B (zh) 基于搜索引擎技术的数据关联关系挖掘方法及应用
CN107408114B (zh) 基于事务访问模式识别联结关系
CN111767303A (zh) 一种数据查询方法、装置、服务器及可读存储介质
CN103605651A (zh) 一种基于olap多维分析的数据处理展现方法
CN105550375A (zh) 一种异构数据的整合方法及***
CN103034656A (zh) 章节内容分层方法和装置、文章内容分层方法和装置
CN113094442B (zh) 全量数据同步方法、装置、设备和介质
CN104731908A (zh) 一种基于etl的数据清洗方法
KR102345410B1 (ko) 빅데이터 지능형 수집 방법 및 장치
CN111125045B (zh) 一种轻量级etl处理平台
CN110502529B (zh) 数据处理方法、装置、服务器及存储介质
CN117216109A (zh) 一种多类型混合数据的数据查询方法、装置及存储介质
CN112363996A (zh) 用于建立电网知识图谱的物理模型的方法及***和介质
CN112634004A (zh) 征信数据的血缘图谱分析方法与***
CN107004002A (zh) 根据结构化数据项的集合生成非结构化搜索查询
CN106649583A (zh) 一种基于sas的图书借阅数据关联规则分析方法
CN116226108A (zh) 可实现不同治理程度的数据治理方法及***
CN110147396B (zh) 一种映射关系生成方法及装置
US10877998B2 (en) Highly atomized segmented and interrogatable data systems (HASIDS)
CN105512270A (zh) 一种确定相关对象的方法和装置
CN112365248B (zh) 一种分析数字货币交易路径的方法及***
Tsvetovat et al. NetIntel: A database for manipulation of rich social network data

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant