CN108874819B - 一种数据库的数据挖掘方法 - Google Patents

一种数据库的数据挖掘方法 Download PDF

Info

Publication number
CN108874819B
CN108874819B CN201710329637.9A CN201710329637A CN108874819B CN 108874819 B CN108874819 B CN 108874819B CN 201710329637 A CN201710329637 A CN 201710329637A CN 108874819 B CN108874819 B CN 108874819B
Authority
CN
China
Prior art keywords
data
ontology
database
network
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710329637.9A
Other languages
English (en)
Other versions
CN108874819A (zh
Inventor
雷晓军
周京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Alcohol Information Technology Co ltd
Original Assignee
Shanghai Alcohol Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Alcohol Information Technology Co ltd filed Critical Shanghai Alcohol Information Technology Co ltd
Priority to CN201710329637.9A priority Critical patent/CN108874819B/zh
Publication of CN108874819A publication Critical patent/CN108874819A/zh
Application granted granted Critical
Publication of CN108874819B publication Critical patent/CN108874819B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种数据库的数据挖掘方法,将现有的关系型数据库的数据模式转化为专有本体,形成专有本体库,再将现有的关系型数据库中的数据转化为与专有本体对应的RDF知识图谱,然后对专有本体形成的语义网络进行节点操作,获取与节点对应的RDF知识图谱中的数据。本发明简化了数据挖掘的过程,使得数据的获得可以由非IT工作人员操作而来,大大地提高了劳动生产率。

Description

一种数据库的数据挖掘方法
技术领域
本发明涉及语义搜索和大数据领域,尤其涉及一种数据库的数据挖掘方法。
背景技术
计算机和互联网的结合产生了大量的信息,这使得我们很快有被淹没的感觉。事实也是这样,我们在对付非常规海量信息的同时,也不断地在制造新的信息。这个信息量是以几何级数方式增长的。人们把希望放在了计算机对海量信息的有效处理上,期待不但从信息淹没中被解放出来,也能够更好地利用这些海量信息。
计算机的信息处理一开始是局限在结构简单的数据上的,尽管数据量可能很大,但结构比较单一。随着计算机硬件能力的迅速增强,计算机被用来对付复杂的问题,数据的结构的复杂性大大增加。经过了互联网对数据的不同积累,不同数据源的数据开始汇集在一起,使得数据处理变得更加复杂。
数据库使我们的日常工作变得非常简洁和有效。 随着数据库使用的深化, 数据库在使用中的生态越来越复杂,同时,越来越多的数据库需要整合或合并以产生更大的效益。由于现今数据库设计采用的是自底而上的方法,当一个数据库变得非常复杂时,数据库本身就成为了一个传奇(legacy)***, 底部如一个巨大的黑洞, 使得人们难以触及。当这些复杂而传奇的数据库需要与同类的数据库整合或合并时,任务则变得非常艰巨和不可能(mission impossible)。
对于搜索,人们想到的是使用“搜索词”对文本或图像中的文字描述进行的查询而后给出的相关结果。文本也称为非结构化数据。对于存放在数据库里的结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据),大家却理所当然地把对想要的数据的查询工作交到DBA(数据库管理员,Database Administrator)或相应的IT人员手中,让他们使用SQL(Structured Query Language结构化查询语言)这种关系数据库的查询语言,写出SQL的查询语句,然后得到这些数据以及相应的数据报告。比如,一个健康管理公司的项目经理想知道他们管理的人群中血糖指数接近糖尿病的50-60岁男性和45-55岁女性的的数据,这个项目经理把此要求交给DBA人员,由他们写出相应的SQL查询语句,从数据库中查询并提取相关的数据,然后才可以浏览和分析这些数据。如果发现了什么问题,需要得到进一步的数据,这个经理还必须再提出要求,比如,根据职业分类上述的数据,DBA人员则要做进一步的数据查询和提取。这个过程非常繁琐并充满种种可能的人为错误。
发明内容
本发明提供一种数据库的数据挖掘方法,简化了数据挖掘的过程,使得数据的获得可以由非IT工作人员操作而来,大大地提高了劳动生产率。
为了达到上述目的,本发明提供一种数据库的数据挖掘方法,包含以下步骤:
步骤S1、将现有的关系型数据库的数据模式转化为专有本体,形成专有本体库;
步骤S2、将现有的关系型数据库中的数据转化为与专有本体对应的RDF知识图谱;
步骤S3、对专有本体形成的语义网络进行节点操作,获取与节点对应的RDF知识图谱中的数据。
所述的步骤S1具体包含以下步骤:
步骤S1.1、抽取关系型数据库的数据模式;
步骤S1.2、将数据模式转换为专有本体;
关系型数据库中的一个表就代表了一个本体中的实体,关系型数据库中的表所拥有的字段,是实体的属性;
步骤S1.3、专有本体经过专有领域中的专家编辑后,生成专家级的专有本体,并保存在专有本体库中。
所述的步骤S2中,原先存储在关系型数据库的表中的数据形成了RDF知识图谱中的语义网络图。
所述的步骤S3具体包含以下步骤:
步骤S3.1、专有本体库中的专有本体所具有的类和属性本身构成一个语义网络图;
步骤S3.2、选择语义网络上的多个节点,生成子网络;
步骤S3.3、根据子网络从RDF知识图谱选择与节点对应的数据,获得搜索数据。
所述的步骤S3.2中生成子网络的步骤具体包含:选中语义网络上的多个节点,过滤没有被选中的节点,被选中的节点构成一个子网络。
当生成一个子网络后,通过重置语义网络回到语义网络的初始状态,可以生成下一个新的子网络,或者可以在当前子网络的基础上继续选择节点,生成新的子网络。
本发明把专有本体应用在数据挖掘中,将结构化的数据转换为知识图谱,从而可以通过关键词进行语义搜索,简化了数据挖掘的过程,使得数据的获得可以由非IT工作人员操作而来,大大地提高了劳动生产率。
附图说明
图1是本发明提供的一种数据库的数据挖掘方法的流程图。
图2是本发明提供的一种数据库的数据挖掘方法的具体示意图。
具体实施方式
以下根据图1和图2具体说明本发明的较佳实施例。
在计算机科学和人工智能学界,本体和专有本体的出现是为了应对这样的复杂数据处理的。本体和专有本体是第三代互联网--语义网(Semantic Web)的基础,同时也是语义搜索的基石。第三代互联网和语义搜索是大数据处理的基础。知识本体引进到计算机领域后不久, 这个概念也被一部分人引进数据库设计和开发,数据库的设计也从过去的自底而上变成自上而下的方法: 首先确定和设计领域中的概念和实体的构成关系, 概念和实体所具体的属性, 建立起一个专有领域的本体,数据库的数据是紧紧围绕在专有领域本体周围的。 这样的数据库设计、开发和维护偏重在概念与实体的完整性和领域专家的可直接把握性上。而且,数据库的演化首先体现在知识本体中,而后再贯彻在底层的数据***中。知识本体驱动的数据库彻底改变了数据库的传奇性, 使得数据库整合和合并变成了对知识本体的维护和更新, 而数据库的底层的变更是自动进行的。
根据自上而下的思路,如图1所示,本发明提供一种数据库的数据挖掘方法,包含以下步骤:
步骤S1、将现有的关系型数据库的数据模式转化为专有本体,形成专有本体库;
步骤S2、将现有的关系型数据库中的数据转化为与专有本体对应的RDF知识图谱;
步骤S3、对专有本体形成的语义网络进行节点操作,获取与节点对应的RDF知识图谱中的数据。
如图2所示,所述的步骤S1具体包含以下步骤:
步骤S1.1、抽取关系型数据库的数据模式;
关系型数据库由一系列表构成,数据存储在这些表中,关系型数据库中的各种表是由数据模式决定的,数据模式是由数据库管理员(Database Administrator,简称DBA)建立的;
步骤S1.2、将数据模式转换为专有本体;
专有本体是专有领域中的专家建立的;
一般来说,关系型数据库中的一个表就代表了一个本体中的实体,关系型数据库中的表所拥有的字段,是实体的属性;有的表字段称为外键,即,是另外一个表的主键;在本体的角度上,这表明这两个实体是关联的,一个实体是另一个实体的属性值;同理可以运用到所有的数据库的表,因此数据模式可以被粗略地转换为专有本体,在转换过程中,已有的专有本体参与其中;
步骤S1.3、专有本体经过专有领域中的专家编辑后,生成专家级的专有本体,并保存在专有本体库中;
所述的编辑是指增加、修改、删除。
所述的步骤S2具体包含以下步骤:
关系型数据库中的数据原先是存储在表中,由表中的字段表明位置,现在这些数据被提取出来,对应专有本体的实体中的属性,是这些属性的值,即,这些数据在关系型数据库中被分置于表中,但在RDF知识图谱中,这些数据直接形成了一个语义网络图。
如图2所示,所述的步骤S3具体包含以下步骤:
步骤S3.1、专有本体库中的专有本体所具有的类和属性本身构成一个语义网络图;
由于一个专有本体可以拥有很大量的类以及相应大量的属性,这个语义网络图上的节点数很多而且关系复杂,把这个网络图用现有的Javascript技术生成在计算机界面上,使得这些类和属性构成的节点可以被点击,点击表示类或属性的节点后,这个节点以及与其相连的节点和关系被高亮,这部分节点成为关注焦点;
步骤S3.2、选择语义网络上的多个节点,生成子网络;
点击语义网络上的多个节点,把没有被点击的节点过滤,点击过的节点构成一个子网络,这个子网络表示的是整个数据中的一部分数据;
根据选择不同的节点,可以生成不同的子网络,当生成一个子网络后,通过重置语义网络回到语义网络的初始状态,可以生成下一个新的子网络,或者可以在当前子网络的基础上继续选择节点,生成新的子网络;
步骤S3.3、根据子网络从RDF知识图谱选择与节点对应的数据,获得搜索数据。
本发明把专有本体应用在数据挖掘中,将结构化的数据转换为知识图谱,从而可以通过关键词进行语义搜索,简化了数据挖掘的过程,使得数据的获得可以由非IT工作人员操作而来,大大地提高了劳动生产率。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。

Claims (5)

1.一种数据库的数据挖掘方法,其特征在于,包含以下步骤:
步骤S1、将现有的关系型数据库的数据模式转化为专有本体,形成专有本体库;
步骤S2、将现有的关系型数据库中的数据转化为与专有本体对应的RDF知识图谱;
步骤S3、对专有本体形成的语义网络进行节点操作,获取与节点对应的RDF知识图谱中的数据;
所述的步骤S1具体包含以下步骤:
步骤S1.1、抽取关系型数据库的数据模式;
步骤S1.2、将数据模式转换为专有本体;
关系型数据库中的一个表就代表了一个本体中的实体,关系型数据库中的表所拥有的字段,是实体的属性;
步骤S1.3、专有本体经过专有领域中的专家编辑后,生成专家级的专有本体,并保存在专有本体库中。
2.如权利要求1所述的数据库的数据挖掘方法,其特征在于,所述的步骤S2中,原先存储在关系型数据库的表中的数据形成了RDF知识图谱中的语义网络图。
3.如权利要求1所述的数据库的数据挖掘方法,其特征在于,所述的步骤S3具体包含以下步骤:
步骤S3.1、专有本体库中的专有本体所具有的类和属性本身构成一个语义网络图;
步骤S3.2、选择语义网络上的多个节点,生成子网络;
步骤S3.3、根据子网络从RDF知识图谱选择与节点对应的数据,获得搜索数据。
4.如权利要求3所述的数据库的数据挖掘方法,其特征在于,所述的步骤S3.2中生成子网络的步骤具体包含:选中语义网络上的多个节点,过滤没有被选中的节点,被选中的节点构成一个子网络。
5.如权利要求4所述的数据库的数据挖掘方法,其特征在于,当生成一个子网络后,通过重置语义网络回到语义网络的初始状态,生成下一个新的子网络,或者在当前子网络的基础上继续选择节点,生成新的子网络。
CN201710329637.9A 2017-05-11 2017-05-11 一种数据库的数据挖掘方法 Active CN108874819B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710329637.9A CN108874819B (zh) 2017-05-11 2017-05-11 一种数据库的数据挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710329637.9A CN108874819B (zh) 2017-05-11 2017-05-11 一种数据库的数据挖掘方法

Publications (2)

Publication Number Publication Date
CN108874819A CN108874819A (zh) 2018-11-23
CN108874819B true CN108874819B (zh) 2021-09-03

Family

ID=64319551

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710329637.9A Active CN108874819B (zh) 2017-05-11 2017-05-11 一种数据库的数据挖掘方法

Country Status (1)

Country Link
CN (1) CN108874819B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330007A (zh) * 2017-06-12 2017-11-07 南京邮电大学 一种基于多数据源的本体学习方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104102713A (zh) * 2014-07-16 2014-10-15 百度在线网络技术(北京)有限公司 推荐结果的展现方法和装置
CN104462501A (zh) * 2014-12-19 2015-03-25 北京奇虎科技有限公司 基于结构化数据的知识图谱构建方法和装置
CN104866593A (zh) * 2015-05-29 2015-08-26 中国电子科技集团公司第二十八研究所 一种基于知识图谱的数据库搜索方法
CN105183869A (zh) * 2015-09-16 2015-12-23 分众(中国)信息技术有限公司 楼宇知识图谱数据库及其构建方法
CN106202564A (zh) * 2016-08-02 2016-12-07 浪潮软件股份有限公司 一种基于ElasticSearch的本体关系数据搜索框架
CN106294481A (zh) * 2015-06-05 2017-01-04 阿里巴巴集团控股有限公司 一种基于图谱的导航方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8051104B2 (en) * 1999-09-22 2011-11-01 Google Inc. Editing a network of interconnected concepts

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104102713A (zh) * 2014-07-16 2014-10-15 百度在线网络技术(北京)有限公司 推荐结果的展现方法和装置
CN104462501A (zh) * 2014-12-19 2015-03-25 北京奇虎科技有限公司 基于结构化数据的知识图谱构建方法和装置
CN104866593A (zh) * 2015-05-29 2015-08-26 中国电子科技集团公司第二十八研究所 一种基于知识图谱的数据库搜索方法
CN106294481A (zh) * 2015-06-05 2017-01-04 阿里巴巴集团控股有限公司 一种基于图谱的导航方法及装置
CN105183869A (zh) * 2015-09-16 2015-12-23 分众(中国)信息技术有限公司 楼宇知识图谱数据库及其构建方法
CN106202564A (zh) * 2016-08-02 2016-12-07 浪潮软件股份有限公司 一种基于ElasticSearch的本体关系数据搜索框架

Also Published As

Publication number Publication date
CN108874819A (zh) 2018-11-23

Similar Documents

Publication Publication Date Title
CN112214611B (zh) 一种企业知识图谱的构建***和方法
CN112906826B (zh) 基于多维度的知识图谱的融合方法、装置及计算机设备
Galhotra et al. Semantic search over structured data
Li et al. Discovering enterprise concepts using spreadsheet tables
Benedetti et al. Exposing the underlying schema of LOD sources
CN108874819B (zh) 一种数据库的数据挖掘方法
Chen et al. Trends in conceptual modeling: Citation analysis of the ER conference papers (1979-2005)
Wang et al. Analysis of the structure and time-series evolution of knowledge label network from a complex perspective
Aloui et al. A fuzzy ontology-based platform for flexible querying
CN113326345A (zh) 基于动态本体的知识图谱分析、应用方法、平台及设备
CN110825792A (zh) 基于golang中间件协程模式下的高并发分布式数据检索方法
Jabeen et al. Divided we stand out! Forging Cohorts fOr Numeric Outlier Detection in large scale knowledge graphs (CONOD)
Chan et al. Interactive visual analysis of hierarchical enterprise data
Lehmberg Web table integration and profiling for knowledge base augmentation
Chaturvedi et al. System Network Analytics: Evolution and Stable Rules of a State Series
Rezende et al. Proposed application of data mining techniques for clustering software projects
Castano et al. Thematic clustering and exploration of linked data
Liu et al. Current status and application analysis of graph database technology
Khattak et al. Reconciliation of ontology mappings to support robust service interoperability
Bodra Processing queries over partitioned graph databases: An approach and it’s evaluation
Rattinger et al. Semantic and topological patent graphs: Analysis of retrieval and community structure
Kozmina et al. Perspectives of information requirements analysis in big data projects
El Abdouli et al. A distributed approach for mining moroccan hashtags using Twitter platform
Gu et al. A Novel Approach for Constructing Intangible Cultural Heritage Knowledge Graphs
Simonini et al. Enhancing Loosely Schema-aware Entity Resolution with User Interaction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant