CN112000725B

CN112000725B - 一种面向多源异构资源的本体融合前处理方法

Info

Publication number: CN112000725B
Application number: CN202010886887.4A
Authority: CN
Inventors: 张凯; 涂志莹; 初佃辉; 张麟宇; 申义; 黎阳
Original assignee: Harbin Institute of Technology
Current assignee: Harbin Institute of Technology
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2023-03-21
Anticipated expiration: 2040-08-28
Also published as: CN112000725A

Abstract

本发明公开了一种面向多源异构资源的本体融合前处理方法，所述方法包括如下步骤：S1、提取本体模型中的实体概念；S2、提取本体模型中的关系概念；S3、提取本体模型中的属性概念；S4、导出JSON数据文件；S5、发现所要获取的数据存在的明显结构，用正则表达式表示上述两种结构；S6、返回满足正则表达式结构的内容在源数据的下标；S7、获取满足条件的子字符串；S8、对子字符串进一步做字符串匹配；S9、对每个源数据的标签进行融合；S10、存储数据，保存格式为结构化的格式。本发明能够根据本体建模的结果，将其转成JSON叙述，并给出面向异构(半)结构化数据的一致化融合的语法结构定义。

Description

一种面向多源异构资源的本体融合前处理方法

技术领域

本发明属于计算机服务技术领域，涉及一种面向多源异构资源的本体融合前处理方法，具体涉及一种将非结构化、半结构化的资源转换成结构化资源的方法。

背景技术

近些年来，随着互联网的迅速发展，知识图谱技术逐渐应用于各个领域。本体指的是形式化、对于共享概念体系的明确而又详细的说明。本体提供的是一种共享词表，是在特定领域之中那些存在的对象类型或概念及其属性的相互关系。

目前分布在互联网上的资源常常以分散、异构的形式存在，另外还具有冗余、噪音和非完备的特点。互联网资源可分为三类：非结构化资源、半结构化资源和结构化资源。非结构化资源是资源结构不规则或不完整，没有预定义的资源模型，不方便用数据库二维逻辑表来表现的资源，常见的非结构化资源有图片、图像和音频。半结构化资源是结构化资源的一种形式，它不符合关系型数据库或其他数据表的形式关联起来的数据模型结构，但包含相关标记，用来分割语义元素以及对记录和字段进行分层，常见的半结构化资源有XML和JSON。结构化资源是指可以使用关系型数据库表示和存储，表现形式是二维的数据，常见的结构化资源有CSV表。

知识图谱的构建分为以下过程：构建***架构、知识融合、知识验证、知识建模、知识获取和数据存储。知识图谱的构建是一个浩大的工程。知识融合，目的是将不同数据源获取的知识进行融合构建数据之间的关联，包括实体对齐、属性对齐、规范化等，更多的是做一个数据的映射、实体的匹配，还涉及到本体的构建和融合。知识验证是确保知识图谱的一致性和准确性。知识图谱的构建是一个动态的过程，当引入新知识时，需要判断新知识是否正确，如果新知识正确，就要进行相关实体和关系的更新。知识建模是建立图谱的数据模式，有两种方法：一种是自顶向下的方法，专家手工编辑形成数据模式；另一种是自底而上的方法，基于行业内现有的高质量行业数据源中进行映射。知识存储是非常重要的环节，选择关系型数据还是非关系型数据库。

知识图谱中数据的常用存储格式是RDF、RDFS、OWL和XSD等，它们都是基于XML编写的源数据。斯坦福大学开发的工具Protégé，是基于知识的编辑器。此工具支持导入和导出OWL，描述的是SPO即主语-谓语-宾语(Subject-Predication-Object)三元组。主语和宾语是实体，谓语是关系。此外实体还有属性，属性有取值范围，这就形成了(Entity-Relation-Entity)三元组。

目前已经存在的是RDF、RDFS、OWL和XSD格式的数据，这些格式之间已经可以相互转换，但是无法从本体元模型，对标签进行提取。

基于上述研究背景可以发现，异构(半)结构化数据的一致化融合，能够实现半(非)结构化数据和结构化数据的转换。

发明内容

为了解决现有技术中存在的以上问题，本发明对于互联网内多源异构数据，提出了一种面向多源异构资源的本体融合前处理方法。本发明能够根据本体建模的结果，将其转成JSON叙述，并给出面向异构(半)结构化数据的一致化融合的语法结构定义。从本体元模型，自动指导标签提取，生成标签结果，以达到多源异构资源处理，从而满足本体建模数据的需要。

本发明的目的是通过以下技术方案实现的：

一种面向多源异构资源的本体融合前处理方法，如图1所示，包括如下步骤：

步骤S1、提取本体模型中的实体概念，具体步骤如下：

(1)根据owl:Class标签，进行筛选，提取本体中的实体概念，存入关系型数据库MySQL；

(2)根据实体概念名称，按照GBK编码顺序排序，去掉重复的实体；

步骤S2、提取本体模型中的关系概念，具体步骤如下：

(1)检索类型为owl:OjectProperty的标签，提取出域(Domain)和范围(Range)，即提取出(owl:Class，owl:OjectProperty，owl:Class)的三元组，存入非关系型数据库TDB；

(2)查询关系中是否存在反(逆)关系，如果存在，用inverse代替；

(3)查询关系中是否存在函数关系，如果存在，用functional表示；

(4)查询关系中是否存在(非)对称关系，如果存在，对称关系用symmetric表示，非对称关系用asymmetric表示；

(5)查询关系中是否存在传递性，如果存在，用transitive表示；

(6)查询关系中是否存在(非)自反性，如果存在，自反性用reflexive表示，非自反性用irreflexive表示；

(7)根据关系名称，按照GBK的编码顺序进行排序，去掉重复的关系；

步骤S3、提取本体模型中的属性概念，具体步骤如下：

(1)检索类型为owl:DatatypeProperty的标签，提取出实体ID、属性名称和属性取值范围，存入非关系数据库MySQL；

(2)根据属性概念名称，按照GBK编码排序，去掉名称和取值范围相同的属性；

步骤S4、存入Redis数据库并导出JSON数据文件：

非关系型数据库Redis的存储方式是键值存储，与JSON的格式相同，所以选择Redis作为最终数据库，具体步骤如下：

(1)引入关键字label，遍历MySQL数据库的Entity表；

(2)遍历TDB数据库，查找三元组(owl:Class，owl:OjectProperty，owl:Class)，确定每个关系的域Domin和取值范围Range；

(3)遍历MySQL数据库，取出属性名，根据实体ID，找到对应的标签，将属性名作为关键字，其键值初值为null；

(4)当全部的实体、关系和属性都存入Redis数据库，导出数据库，即导出JSON文件；

步骤S5、发现JSON文件中存在的明显结构：“字符+冒号+字符”或者“字符+等号+字符”，用正则表达式表示上述两种结构；

步骤S6、返回满足正则表达式结构的内容在源数据的下标：

定义findIndex(pattern,str)方法，该方法返回满足正则表达式结构的内容在源数据的下标；

步骤S7、获取满足条件的子字符串：

使用字符串处理方法substring(start,stop)方法，提取出满足正则表达式的字符串；

步骤S8、对步骤S7获取的子字符串进一步做字符串匹配：

使用字符串处理方法split(‘:’)或split(‘＝’)方法，提取出关键字和键值；

步骤S9、对每个源数据的标签进行融合：

重复步骤S5到S8，根据多标签融合方法，将多个同义标签融合成一个标签；

步骤S10、存储数据，保存格式为结构化的格式，例如MySQL和CSV表。

JSON格式数据是半结构化的数据，MySQL和CSV表示结构化的数据，这样就实现了从半结构化数据到结构化数据的转换。

相比于现有技术，本发明具有如下优点：

1、本发明能够实现从本体模型到半结构化数据格式的转换。从本体模型出发，对元模型中的实体、关系和属性进行处理，结合MySQL、TDB和Redis数据库，将实体的label、关系的三元组、属性的数据类型进行拼接，最终以关键字和键值的形式存储到Redis数据库中，最后导出JSON叙述。

2、本发明能够实现从半结构化数据格式到结构化数据的转换。以JSON叙述的文件为例，能够实现半结构化数据(JSON格式数据)到格式化数据(二维表数据)的转换。

3、本发明充分考虑到异构数据的数据杂的特点，使用正则表达式做到精准匹配，从本体元模型出发，对标签进行提取。

4、本发明在源数据融合的过程中，提出了多标签融合机制，根据此机制，可以将多个同义标签融合成一个标签，极大提高了标签的提取效率。

附图说明

图1为本发明面向多源异构资源的本体融合前处理方法的流程图。

图2为本体建模转成JSON叙述的示意图。

图3为本发明的实现面向异构(半)结构化数据的一致化融合的语法结构定义的示意图。

图4为多标签融合方法流程图。

图5为具体应用实例。

具体实施方式

下面结合附图对本发明的技术方案作进一步的说明，但并不局限于此，凡是对本发明技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，均应涵盖在本发明的保护范围中。

具体实施方式一、本实施方式提供了一种本体建模转成JSON叙述的方法，如图2所示，所述方法包括以下步骤：

步骤S1、提取本体模型中的实体概念：

本步骤主要是针对本体模型中的实体概念，本体模型实质是图的结构，满足图的数据结构。遍历本体模型中的全部标签，筛选出owl:Class标签，同时提取出实体概念，存入关系型数据库MySQL的Entity表。根据存入的实体概念名称，按照GBK编码顺序排序，去掉重复的实体。

步骤S2、提取本体模型中的关系概念：

本步骤主要是针对本体模型中的关系概念。遍历本体模型中的全部标签，检索类型为owl:OjectProperty的标签，提取出域和范围，即取出(owl:Class，owl:OjectProperty，owl:Class)的三元组，存进非关系型数据库TDB中。然后根据关系名称，按照GBK编码顺序进行排序。查询关系中是否存在反(逆)关系；如果存在，用inverse代替；查询关系中是否存在函数关系；如果存在，用functional表示。查询关系中是否存在(非)对称关系；如果存在，对称关系用symmetric表示，非对称关系用asymmetric表示。查询关系中是否存在传递性；如果存在，用transitive表示。查询关系中是否存在(非)自反性；如果存在，自反性用reflexive表示，非自反性用irreflexive表示。具体的流程图如图2所示。

步骤S3、提取本体模型中的属性概念和取值范围：

本步骤主要是针对本体模型中的属性概念和属性的取值范围。遍历本体模型中的全部标签，检索类型为owl:DatatypeProperty的标签，提取出实体ID、属性名称和属性取值范围，存入非关系数据库MySQL的Property表。最后，根据属性概念名称，按照GBK编码排序，去掉名称和取值范围相同的属性。

步骤S4、存入Redis数据库并导出数据文件：

本步骤主要是针对JSON描述文件的生成，即本体模型转成JSON描述的最后一步。非关系型数据库Redis的存储方式是键值存储，与JSON的格式相同，所以选择Redis作为最终数据库。首先引入关键字label，遍历MySQL数据库的Entity表。即每一个实体是一个label，其键值是实体名。遍历TDB数据库，查找三元组(owl:Class，owl:OjectProperty，owl:Class)，确定每个关系的域Domin和取值范围Range。遍历MySQL数据库的Property表，取出属性名，根据实体ID，找到对应的label，将属性名作为关键字，其键值初值为null。当全部的实体、关系和属性都存进Redis数据库，导出数据库，即导出JSON文件。

具体实施方式二、本实施方式提供了一种面向异构(半)结构化数据的一致化融合的语法结构定义方法，如图3所示，所述方法包括以下步骤：

步骤S1、发现所要获取的数据存在的明显结构：

异构(半)结构数据是杂乱无章的，但也要寻找潜在规律，本发明使用正则表达式匹配的规则，提出两种匹配方法。第一种是“字符+冒号+字符”用'[a-zA-Z0-9]+\\:[a-zA-Z0-9]+'表示；第二种是“字符+等号+字符”用'[a-zA-Z0-9]+\\＝[a-zA-Z0-9]+'表示。

步骤S2、返回满足正则表达式结构的内容在源数据的下标：

为了提取满足步骤S1内满足正则表达式的数据，使用findIndex(pattern，str)方法，得到匹配字符串的下标，为步骤S3做好数据准备，其中：pattern表示预获取数据存在的明显结构，在步骤S1中的正则表达式方法；str表示待处理字符串，待处理数据是JSON，str则是读取的JSON内容。通过此方法，可以获得满足正则表达式结构的内容在源数据的下标。

步骤S3、获取满足条件的子字符串：

通过步骤S2得到满足正则表达式字符串的下标，为了提取子字符串，使用字符串处理方法substring(start,stop)方法，提取出满足正则表达式的字符串。

步骤S4、对步骤S3获取的子字符串进一步做字符串匹配：

使用字符串处理方法split(‘:’)方法，将关键字和键值分开，提取出关键字和键值，加入Result文件。

步骤S5、对每个源数据的处理结果进行融合，提出多标签融合方法：

互联网内的数据多而杂，并不是单一数据，而是多源异构的数据。重复步骤S1到S4，对每个数据源的结果进行融合和去重，融合过程需要使用聚类，存储最终融合后的结果。不同的源数据得到的期望结果都是关键字和键值。如果同组关键字和键值不存在，则将新的关键字和键值加入Result文件，否则排除该键值对。

多标签融合方法，将多个描述不同但语义想近的标签匹配为同一标签，如图4所示，多标签融合方法具体方法如下叙述：

(1)对标签进行编号，遍历全部标签。将每个标签映射到一个向量空间。每个标签被看作由一系列独立的词语组成的，将每个标签进行向量化表示。

(2)每一个标签都用一个n维向量表示，分别计算每个标签与其他标签的语义相似度r，使用皮尔森相关系数，公式如公式(1)所示：

式中：X_i表示X标签值的第i维向量值，

表示X标签值的平均值，Y_i表示Y标签值的第i维向量值，

表示Y标签值的平均值。

(3)定义标签融合标准

(i)r≥0.65，标签可以融合，保留其中任意一个标签。

(ii)r<0.65，标签不可融合，标签全都保留。

步骤S6、存储数据，保存格式为结构化的格式，例如MySQL和CSV表。

所有的关键字和键值都存在Result文件内，它是有序的，为了让其更具结构化，将其存入二维表MySQL表或CSV表内，更方便查询操作。后续异构数据也可以在表的基础上进行修改。

需要说明的是，本发明中的各个模块(或单元)是逻辑意义上的，具体实现时，多个模块(或单元)可以合并成一个模块(或单元)，一个模块(或单元)也可拆分成多个模块(或单元)。

具体实施方式三：图5描述的是教职工的本体模型。Assistant_Professor、Staff_Member、Professor、Associate_Professor和Staff_Member是Academic_Staff_Member的子类。

本体建模转成JSON叙述的步骤如下：第一步，提取模型中的实体概念，删选标签为owl:Class，提取出实体为Course、Literal、Professor、Assistant_Professor、Staff_Member、Academic_Staff_Member和Staff_Member，并将上述概念存入Mysql的Entity表。第二步，提取模型中的关系概念，删选标签为owl:ObjectProperty,并取出(Course,involves,Academic_Staff_Member)、(staff_Member,id,Literal)和(staff_Member,phone,Literal)三元组存入TDB数据库,并且这些关系没有声明自反性等，不用标注。第三步，提取模型中的属性概念，此例中没有属性。故省略。第四步、存入Redis数据库并导出数据文件。

面向异构(半)结构化数据的一致化融合的语法结构定义步骤如下：发现获取的数据存在的明显结构，用正则表达式'[a-zA-Z0-9]+\\:[a-zA-Z0-9]+'表示。最终得到“id”：“Literal”、“phone”：“Literal”、“isTaughBy”：“Academic_Staff_Member”和“involves”：“Academic_Staff_Member”这四个子字符串。使用splite(‘:’)方法提取出：“id”、“phone”、“isTaughBy”和“involves”。这是一个源数据的处理结果。同理，另一个源文件的处理结果是：“id”、“telphone”、“name”和“property”。通过计算相似度，phone和telphone的相似度比0.65高，将其融合，保留phone。现在的融合结果是“id”、“phone”、“isTaughBy”、“involves”、“name”和“property”。然后将其存入二维表，这就实现了标签的提取。

Claims

1.一种面向多源异构资源的本体融合前处理方法，其特征在于所述方法包括如下步骤：

步骤S1、提取本体模型中的实体概念，具体步骤如下：

（1）根据owl:Class标签，进行筛选，提取本体中的实体概念，存入关系型数据库MySQL；

（2）根据实体概念名称，按照GBK编码顺序排序，去掉重复的实体；

步骤S2、提取本体模型中的关系概念，具体步骤如下：

（1）检索类型为owl:OjectProperty的标签，提取出（owl:Class，owl:OjectProperty，owl:Class）的三元组，存入非关系型数据库TDB；

（2）查询关系中是否存在反关系和逆关系，如果存在，用inverse代替；

（3）查询关系中是否存在函数关系，如果存在，用functional表示；

（4）查询关系中是否存在对称关系和非对称关系，如果存在，对称关系用symmetric表示，非对称关系用asymmetric表示；

（5）查询关系中是否存在传递性，如果存在，用transitive表示；

（6）查询关系中是否存在自反性和非自反性，如果存在，自反性用reflexive表示，非自反性用irreflexive表示；

（7）根据关系名称，按照GBK的编码顺序进行排序，去掉重复的关系；

步骤S3、提取本体模型中的属性概念，具体步骤如下：

（1）检索类型为owl:DatatypeProperty的标签，提取出实体ID、属性名称和属性取值范围，存入非关系数据库MySQL；

（2）根据属性概念名称，按照GBK编码排序，去掉名称和取值范围相同的属性；

步骤S4、存入Redis数据库并导出JSON数据文件；

步骤S5、发现JSON数据文件中存在的明显结构：“字符+冒号+字符”或者“字符+等号+字符”，用正则表达式表示上述两种结构；

步骤S6、返回满足正则表达式结构的内容在源数据的下标；

步骤S7、获取满足条件的子字符串；

步骤S8、对步骤S7获取的子字符串进一步做字符串匹配，提取出关键字和键值；

步骤S9、对每个源数据的标签进行融合：

重复步骤S5到S8，根据多标签融合方法，将多个同义标签融合成一个标签，多标签融合方法的具体步骤如下：

（1）对标签进行编号，遍历全部标签，将每个标签映射到一个向量空间，每个标签被看作由一系列独立的词语组成的，将每个标签进行向量化表示；

（2）每一个标签都用一个n维向量表示，分别计算每个标签与其他标签的语义相似度r；

（3）定义标签融合标准：

（i）r≥0.65，标签可以融合，保留其中任意一个标签；

（ii）r<0.65，标签不可融合，标签全都保留；

步骤S10、存储数据，保存格式为结构化的格式。

2.根据权利要求1所述的面向多源异构资源的本体融合前处理方法，其特征在于所述步骤S4的具体步骤如下：

（1）引入关键字label，遍历MySQL数据库的Entity表；

（2）遍历TDB数据库，查找三元组（owl:Class，owl:OjectProperty，owl:Class），确定每个关系的域Domin和取值范围Range；

（3）遍历MySQL数据库，取出属性名，根据实体ID，找到对应的标签，将属性名作为关键字，其键值初值为null；

（4）当全部的实体、关系和属性都存入Redis数据库，导出数据库，即导出JSON文件。

3.根据权利要求1所述的面向多源异构资源的本体融合前处理方法，其特征在于所述步骤S5中，“字符+冒号+字符”用'[a-zA-Z0-9]+\\:[a-zA-Z0-9]+'表示；“字符+等号+字符”用'[a-zA-Z0-9]+\\=[a-zA-Z0-9]+'表示。

4.根据权利要求1所述的面向多源异构资源的本体融合前处理方法，其特征在于所述步骤S6中，定义findIndex(pattern,str)方法，使用该方法返回满足正则表达式结构的内容在源数据的下标。

5.根据权利要求1所述的面向多源异构资源的本体融合前处理方法，其特征在于所述步骤S7中，使用字符串处理方法substring(start,stop)方法，提取出满足正则表达式的字符串。

6.根据权利要求1所述的面向多源异构资源的本体融合前处理方法，其特征在于所述步骤S8中，使用字符串处理方法split(‘:’)或split(‘=’)方法，提取出关键字和键值。