CN105550375A - 一种异构数据的整合方法及*** - Google Patents

一种异构数据的整合方法及*** Download PDF

Info

Publication number
CN105550375A
CN105550375A CN201610069493.3A CN201610069493A CN105550375A CN 105550375 A CN105550375 A CN 105550375A CN 201610069493 A CN201610069493 A CN 201610069493A CN 105550375 A CN105550375 A CN 105550375A
Authority
CN
China
Prior art keywords
attribute
type
data
semantic
connection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610069493.3A
Other languages
English (en)
Other versions
CN105550375B (zh
Inventor
许中兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Tianguang Huitong Science & Technology Co Ltd
Original Assignee
Beijing Tianguang Huitong Science & Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Tianguang Huitong Science & Technology Co Ltd filed Critical Beijing Tianguang Huitong Science & Technology Co Ltd
Priority to CN201610069493.3A priority Critical patent/CN105550375B/zh
Publication of CN105550375A publication Critical patent/CN105550375A/zh
Application granted granted Critical
Publication of CN105550375B publication Critical patent/CN105550375B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种异构数据的整合方法及***,该方法包括:读取原始异构数据,并将所述原始异构数据分解成对象、属性和连接三类基本元素,并构建对象、属性和连接的三元模型,所述三元模型通过对象表、属性表及连接表来实现;分别针对所述对象表、属性表中同类型数据进行语义标注以获取对象语义类型及属性语义类型;及依据所述对象语义类型及属性语义类型将所述对象表及属性表中的数据建立索引以提供用户查询接口。解决由于现有异构数据的独立特性无法进行整体高性能处理的问题。

Description

一种异构数据的整合方法及***
技术领域
本发明实施例涉及计算机应用领域,尤其涉及一种异构数据的整合方法及***。
背景技术
随着信息化的发展,人们积累了海量的数据资源,并且数据的规模正在以更快的速度增长,其中一些搜索引擎公司整合了几乎所有的Web数据,这类数据的特点是开放的,公有的,并且基本上都以非结构化的文本形式存在,我们称之为公共数据。而除了公共数据之外,还有一类更有价值的数据是结构化数据,这类数据的特点是私有的,结构化的,我们将其称之为私有数据。
对公共数据的使用,搜索引擎已经做到了相当成熟的程度。要想进一步提高搜索引擎的可用性需要对非结构化的文本数据进行自然语言处理,使机器能够像人一样阅读网页,理解人类的各种语言,这是非常困难的事情,目前还没有突破性的进展。而对于私有数据以固定独立模式的数据库对它们的原始目标,即商业事务处理来说是非常有效的,但对于其以外的需求,如情报获取、知识挖掘、模式挖掘等,以SQL模式存在的数据库就显的力不从心了。由于这些原因,私有数据在支持原有业务本身之外,还没有发挥出太大的作用。
针对现有的结构化数据和非结构数据,目前还没有办法打破异构数据的独立特性,并且无法对数据整体进行高性能的处理。
发明内容
本发明实施例提供一种异构数据的整合方法及***,以对整体异构数据进行高性能的处理。
本发明实施例提供了一种异构数据的整合方法,包括:
读取原始异构数据,并将所述原始异构数据分解成对象、属性和连接三类基本元素,并构建对象、属性和连接的三元模型,所述三元模型通过对象表、属性表及连接表来实现;
分别针对所述对象表、属性表中同类型数据进行语义标注以获取对象语义类型及属性语义类型;及
依据所述对象语义类型及属性语义类型将所述对象表及属性表中的数据建立索引以提供用户查询接口。
本发明实施例提供了一种异构数据的整合***,包括:
数据处理模块,用于读取原始异构数据,并将所述原始异构数据分解成对象、属性和连接三类基本元素,并构建对象、属性和连接的三元模型,所述三元模型通过对象表、属性表及连接表来实现;
语义标注模块,用于分别针对所述对象表、属性表中同类型数据进行语义标注以获取对象语义类型及属性语义类型;
整合模块,用于依据所述对象语义类型及属性语义类型将所述对象表及属性表中的数据建立索引以提供用户查询接口。
本发明实施例通过读取原始异构数据,并将所述原始异构数据分解成对象、属性和连接三类基本元素,并构建对象、属性和连接的三元模型,所述三元模型通过对象表、属性表及连接表来实现;分别针对所述对象表、属性表中同类型数据进行语义标注以获取对象语义类型及属性语义类型;及依据所述对象语义类型及属性语义类型将所述对象表及属性表中的数据建立索引以提供用户查询接口。解决由于现有异构数据的独立特性无法进行整体高性能处理的问题,本实施的技术方案将不同结构的数据抽象、分解成统一结构的对象和属性,使用三元模型对其进行重构,同时使用海量分布式数据存储***对数据进行存储,因此可以处理任意复杂结构和任意规模的原始异构数据。
附图说明
图1是本发明实施例一提供的一种异构数据的整合方法的流程示意图;
图2是本发明实施例一提供对象表、属性表及连接表进行语义标注示意图;
图3是本发明实施例二提供的一种异构数据的整合***的结构示意图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各项步骤的顺序可以被重新安排。当其步骤完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1为本发明实施例一提供的一种异构数据的整合方法,该方法可以由异构数据的整合***执行,其中该整合***可由软件和/或硬件实现,一般可集成在计算机中。
参见图1,本实施例的异构数据的整合方法包括如下步骤:
步骤S110、读取原始异构数据,并将所述原始异构数据分解成对象、属性和连接三类基本元素,并构建对象、属性和连接的三元模型,所述三元模型通过对象表、属性表及连接表来实现。
具体的,将原始的异构数据导入,即将各种格式的结构化数据或非结构化数据导入至计算机中以准备进行处理。其中,所述的结构化数据可以直接导入,而非结构化数据需要经过数据抽取、数据清洗后转换为结构化数据才能导入。
其中,因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务***中抽取而来且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。
在信息社会,信息可以划分为两大类。一类信息能够用数据或统一的结构加以表示,我们称之为结构化数据,如数字、符号;而另一类信息无法用数字或统一的结构表示,如文本、图像、声音、网页等,我们称之为非结构化数据。结构化数据属于非结构化数据,是非结构化数据的特例。
优选的,在本实施例中,当所述异构数据是结构化数据时,可直接将结构化数据分解成对象、属性和连接三类基本元素;当所述异构数据是非结构化数据时,需要先将所述非结构化数据进行抽取、清洗转换为结构化数据才能分解成对象、属性、及连接三类基元素。
所述对象代表基本的数据单位,对应结构化数据的一个“行”。对象包括实体和事件两类,常见的实体如人物、组织、文档等,事件是指由实体参与的行为或活动,例如乘某一个架次的航班,某个号码的一次电话通话等。
所述属性代表对象的具体信息,对应结构化数据的一个“行”数据的一个字段。每个对象由一组属性来表示,例如人物对象可以由姓名,电话号码,性别,出生日期,籍贯来表示,而一次打电话的行为可以用电话主叫方,电话被叫方,通话时间,通话时长来表示。
所述连接代表对数据关联利用的基础,将属性值相同的两个对象建立连接。例如两个对象的某些属性相同时,则可以在所述两对象间建立一个连接,例如:人物的电话号码属性和打电话的电话主叫号码属性相同,人物对象和打电话事件对象之间就可以建立称为“电话主叫方”的连接。
在分解成对象、属性和连接三类基本元素后,构建对象、属性和连接的三元模型,所述三元模型通过对象表、属性表及连接表来实现。
具体的,在对象表中,无需保存关于这个对象的具体信息,只需保存关于这个对象的源信息,也就是所有对象都具备的信息,所述对象表存储有对象的标识(Identify)、对象类型、创建时间及指针列表。
所述的对象类型包括了所述对象最基本的信息,例如什么时间修改,添加等。
通过对所有对象的每一个属性作为一个单独的行存储在统一的属性表中,所述属性表存储有对象的每一个属性,包括属性类型、属性值。
具体的,所述属性值包括,但不限于,表中的属性值包括:整数、长整数、单精度浮点数、双精度浮点数、字符串和日期等。
所述连接表存储有源对象、源属性、目标对象及目标属性。
步骤S120、分别针对所述对象表、属性表中同类型数据进行语义标注以获取对象语义类型及属性语义类型。
在构建好所述对象、属性及连接三元模型后,分别针对对象表及属性表中的同类型数据进行语义标注,以赋予相应的语义信息,最终获取对象语义类型及属性语义类型。
如图2所示,所述的语义标注过程是通过如下方式完成:
利用对象类型语义表针对对象表中同类型的数据进行语义标注以获取对象语义类型;及
利用属性类型语义表针对属性表中同类型的数据进行语义标注以获取属性语义类型。
其中所述对象类型语义表是一个分类表,其包括各种实体和对象的名称,例如,人物、机构、建筑等。所述对象类型语义表存储于计算机中。主要用来对所述对象表中的同类型的数据进行语义标注。
所述属性类型语义表针对每一对象具体信息进行一个语义分类,例如姓名、年龄等。
优选的,还可以利用连接类型语义表针对连接表中同类型的数据进行语义标注以获取连接语义类型。所述连接语义类型可以在后续用户进行关联搜索时提供依据。
步骤S130、依据所述对象语义类型及属性语义类型将所述对象表及属性表中的数据建立索引以提供用户查询接口。
具体的,所述索引建立过程如下:
过滤空的字符串;及
依据对象类型、属性类型、属性值、对象语义类型及属性语义类型将所述对象表、属性表中的数据建立倒排索引。
其中,所述倒排索引源于实际应用中需要根据属性值来查找记录。所述索引中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(invertedindex)。带有倒排索引的文件我们称为倒排索引,简称倒排文件。
进一步的,在建立好所述索引后,本实施例还可为索引后的数据提供各种数据查询接口,可以接收前端应用的查询请求并将查询结果分解成可操作的若干查询请求,并以分布式索引进行数据查询并将查询结果整合、评级和排序后,反馈至前端应用。
进一步的,本实施例还可为用户提供搜索、浏览、展示、统计分析等功能。包括对象、属性以及相关内容的搜索、浏览和编辑,对象之间关联信息展示和编辑,对象的地理信息展示和编辑等统计分析信息的展示。
进一步的,本实施例采用海量分布式存储数据***存储异构数据整合分析过程中的所有数据,包括对象、属性、连接的信息,以及音频、视频、图片等非结构化数据。在原始异构数据导入、连接构建的过程中产生的数据均保存在数据存储维护的海量分布式数据库中,在数据查询过程中,***会从分布式数据库中取得数据发送至前端应用。
本发明实施例的技术方案,通过读取原始异构数据,并将所述原始异构数据分解成对象、属性和连接三类基本元素,并构建对象、属性和连接的三元模型,所述三元模型通过对象表、属性表及连接表来实现;分别针对所述对象表、属性表中同类型数据进行语义标注以获取对象语义类型及属性语义类型;及依据所述对象语义类型及属性语义类型将所述对象表及属性表中的数据建立索引以提供用户查询接口。由于本发明实施例可将不同结构的数据抽象、分解成统一结构的对象和属性,使用三元模型对其进行重构,同时使用海量分布式数据存储***对数据进行存储,因此可以处理任意复杂结构和任意规模的原始异构数据,从而保证了数据的存储、查询、以及计算分析等处理操作,同时也可以整合来自不同渠道的异构数据,从中进行分析、规则提取、以及模式识别,并为海量高维数据的大规模深度挖掘提供了可能。
因此采用本方案能够对数据整体进行高性能的处理,使用户以互动的形式对数据进行各种维度的可视化和数据剪裁,使数据不再以表和行的形式存在,把数据融合成一个整体,使数据更贴近现实世界,并能够从更高的抽象层次上被人们利用。
实施例二
图3为本发明实施例二提供的一种异构数据的整合***的结构示意图。所述优化装置配置在计算机中。本实施例的优化装置具体包括:数据处理模块30、语义标注模块32、及整合模块34。
所述数据处理模块30,用于读取原始异构数据,并将所述原始异构数据分解成对象、属性和连接三类基本元素,并构建对象、属性和连接的三元模型,所述三元模型通过对象表、属性表及连接表来实现;
所述语义标注模块32,用于分别针对所述对象表、属性表中同类型数据进行语义标注以获取对象语义类型及属性语义类型;
所述整合模块34,用于依据所述对象语义类型及属性语义类型将所述对象表及属性表中的数据建立索引以提供用户查询接口。
优选的,所述对象代表基本的数据单位,对应结构化数据的一个“行”。对象包括实体和事件两类,常见的实体如人物、组织、文档等,事件是指由实体参与的行为或活动,例如乘某一个架次的航班,某个号码的一次电话通话等。
所述属性代表对象的具体信息,对应结构化数据的一个“行”数据的一个字段。每个对象由一组属性来表示,例如人物对象可以由姓名,电话号码,性别,出生日期,籍贯来表示,而一次打电话的行为可以用电话主叫方,电话被叫方,通话时间,通话时长来表示。
所述连接代表对数据关联利用的基础,将属性值相同的两个对象建立连接。例如两个对象的某些属性相同时,则可以在所述两对象间建立一个连接,例如:人物的电话号码属性和打电话的电话主叫号码属性相同,人物对象和打电话事件对象之间就可以建立称为“电话主叫方”的连接。
在分解成对象、属性和连接三类基本元素后,构建对象、属性和连接的三元模型,所述三元模型通过对象表、属性表及连接表来实现。
具体的,在对象表中,无需保存关于这个对象的具体信息,只需保存关于这个对象的源信息,也就是所有对象都具备的信息,所述对象表存储有对象的标识(Identify)、对象类型、创建时间及指针列表。
所述的对象类型包括了所述对象最基本的信息,例如什么时间修改,添加等。
通过对所有对象的每一个属性作为一个单独的行存储在统一的属性表中,所述属性表存储有对象的每一个属性,包括属性类型、属性值。
具体的,所述属性值包括,但不限于,表中的属性值包括:整数、长整数、单精度浮点数、双精度浮点数、字符串和日期等。
所述连接表存储有源对象、源属性、目标对象及目标属性。
优选的,所述语义标注模块32具体用于:
利用对象类型语义表针对对象表中同类型的数据进行语义标注以获取对象语义类型;及
利用属性类型语义表针对属性表中同类型的数据进行语义标注以获取属性语义类型。
优选的,所述整合模块34具体用于:
过滤空的字符串;及
依据对象类型、属性类型、属性值、对象语义类型及属性语义类型将所述对象表、属性表中的数据建立倒排索引。
其中,所述倒排索引源于实际应用中需要根据属性值来查找记录。所述索引中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(invertedindex)。带有倒排索引的文件我们称为倒排索引,简称倒排文件。
进一步的,在建立好所述索引后,本实施例还为索引后的数据提供各种数据查询接口,可以接收前端应用的查询请求并将查询结果分解成可操作的若干查询请求,并以分布式索引进行数据查询并将查询结果整合、评级和排序后,反馈至前端应用。
进一步的,本实施例还为用户提供搜索、浏览、展示、统计分析等功能。包括对象、属性以及相关内容的搜索、浏览和编辑,对象之间关联信息展示和编辑,对象的地理信息展示和编辑等统计分析信息的展示。
本实施例的技术方案提供的异构数据的整合***,其中利用数据处理模块30读取原始异构数据,并将所述原始异构数据分解成对象、属性和连接三类基本元素,并构建对象、属性和连接的三元模型,所述三元模型通过对象表、属性表及连接表来实现;利用语义标注模块32分别针对所述对象表、属性表中同类型数据进行语义标注以获取对象语义类型及属性语义类型;利用整合模块34依据所述对象语义类型及属性语义类型将所述对象表及属性表中的数据建立索引以提供用户查询接口。由于本发明实施例可将不同结构的数据抽象、分解成统一结构的对象和属性,使用三元模型对其进行重构,同时使用海量分布式数据存储***对数据进行存储,因此可以处理任意复杂结构和任意规模的原始异构数据,从而保证了数据的存储、查询、以及计算分析等处理操作,同时也可以整合来自不同渠道的异构数据,从中进行分析、规则提取、以及模式识别,并为海量高维数据的大规模深度挖掘提供了可能。
上述产品可执行本发明任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种异构数据的整合方法,其特征在于,包括:
读取原始异构数据,并将所述原始异构数据分解成对象、属性和连接三类基本元素,并构建对象、属性和连接的三元模型,所述三元模型通过对象表、属性表及连接表来实现;
分别针对所述对象表、属性表中同类型数据进行语义标注以获取对象语义类型及属性语义类型;及
依据所述对象语义类型及属性语义类型将所述对象表及属性表中的数据建立索引以提供用户查询接口。
2.根据权利要求1所述的方法,其特征在于:
所述对象代表基本的数据单位;
所述属性代表对象的具体信息;及
所述连接代表对数据关联利用的基础,将属性值相同的两个对象建立连接。
3.根据权利要求1所述的方法,其特征在于:
所述对象表存储有对象的标识、对象类型、创建时间及指针列表;
所述属性表存储有对象的每一个属性的属性类型、及属性值;
所述连接表存储有连接类型、源对象、源属性、目标对象及目标属性。
4.根据权利要求1所述的方法,其特征在于,分别针对所述对象表、属性表中同类型数据进行语义标注以获取对象语义类型及属性语义类型包括:
利用对象类型语义表针对对象表中同类型的数据进行语义标注以获取对象语义类型;及
利用属性类型语义表针对属性表中同类型的数据进行语义标注以获取属性语义类型。
5.根据权利要求4所述的方法,其特征在于,依据所述对象语义类型及属性语义类型将所述对象表及属性表中的数据建立索引以提供用户查询接口,包括:
过滤空的字符串;及
依据对象类型、属性类型、属性值、对象语义类型及属性语义类型将所述对象表、属性表中的数据建立倒排索引。
6.一种异构数据的整合***,其特征在于,包括:
数据处理模块,用于读取原始异构数据,并将所述原始异构数据分解成对象、属性和连接三类基本元素,并构建对象、属性和连接的三元模型,所述三元模型通过对象表、属性表及连接表来实现;
语义标注模块,用于分别针对所述对象表、属性表中同类型数据进行语义标注以获取对象语义类型及属性语义类型;
整合模块,用于依据所述对象语义类型及属性语义类型将所述对象表及属性表中的数据建立索引以提供用户查询接口。
7.根据权利要求6所述的***,其特征在于:
所述对象代表基本的数据单位;
所述属性代表对象的具体信息;及
所述连接代表对数据关联利用的基础,将属性值相同的两个对象建立连接。
8.根据权利要求6所述的***,其特征在于:
所述对象表存储有对象的标识、对象类型、创建时间及指针列表;
所述属性表存储有对象的每一个属性的属性类型、属性值;
所述连接表存储有连接类型、源对象、源属性、目标对象及目标属性。
9.根据权利要求6所述的***,其特征在于,所述语义标注模块具体用于:
利用对象类型语义表针对对象表中同类型的数据进行语义标注以获取对象语义类型;及
利用属性类型语义表针对属性表中同类型的数据进行语义标注以获取属性语义类型。
10.根据权利要求9所述的***,其特征在于,所述整合模块具体用于:
过滤空的字符串;及
依据对象类型、属性类型、属性值、对象语义类型及属性语义类型将所述对象表、属性表中的数据建立倒排索引。
CN201610069493.3A 2016-02-01 2016-02-01 一种异构数据的整合方法及*** Active CN105550375B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610069493.3A CN105550375B (zh) 2016-02-01 2016-02-01 一种异构数据的整合方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610069493.3A CN105550375B (zh) 2016-02-01 2016-02-01 一种异构数据的整合方法及***

Publications (2)

Publication Number Publication Date
CN105550375A true CN105550375A (zh) 2016-05-04
CN105550375B CN105550375B (zh) 2019-07-02

Family

ID=55829564

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610069493.3A Active CN105550375B (zh) 2016-02-01 2016-02-01 一种异构数据的整合方法及***

Country Status (1)

Country Link
CN (1) CN105550375B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528641A (zh) * 2016-10-13 2017-03-22 许继集团有限公司 一种数据存储方法、装置及通信网关机
CN106557569A (zh) * 2016-11-14 2017-04-05 用友网络科技股份有限公司 基于元模型的非结构化文档的导入方法和导入装置
CN108062379A (zh) * 2017-12-13 2018-05-22 北京天广汇通科技有限公司 数据处理方法、平台、装置和计算机可读存储介质
CN108573010A (zh) * 2017-08-25 2018-09-25 北京金山云网络技术有限公司 关联异构***同义数据的方法、装置、电子设备及介质
CN109241052A (zh) * 2018-07-26 2019-01-18 山东大学 一种基于关联数据的存储方法、装置、介质及设备
CN109656970A (zh) * 2018-11-20 2019-04-19 北京松鼠山科技有限公司 面向异构数据的数据关联方法和装置
CN111143467A (zh) * 2019-12-05 2020-05-12 贵州师范大学 一种实现分布式异构数据共享的云平台的数据共享方法
CN111708829A (zh) * 2020-06-19 2020-09-25 广州奥佳软件技术有限公司 一种异构数据整合方法及***
CN112015854A (zh) * 2020-07-17 2020-12-01 河海大学常州校区 一种基于自组织映射神经网络的异构数据属性关联算法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473324A (zh) * 2013-09-13 2013-12-25 国家电网公司 基于非结构化数据存储的多维业务属性检索装置及方法
CN104021198A (zh) * 2014-06-16 2014-09-03 北京理工大学 基于本体语义索引的关系数据库信息检索方法及装置
US20150026183A1 (en) * 2013-07-16 2015-01-22 Semantic Technologies Pty Ltd. Ontology index for content mapping

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150026183A1 (en) * 2013-07-16 2015-01-22 Semantic Technologies Pty Ltd. Ontology index for content mapping
CN103473324A (zh) * 2013-09-13 2013-12-25 国家电网公司 基于非结构化数据存储的多维业务属性检索装置及方法
CN104021198A (zh) * 2014-06-16 2014-09-03 北京理工大学 基于本体语义索引的关系数据库信息检索方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
秦杰: "Web环境中半结构化数据存储与查询技术研究", 《中国优秀博硕士学位论文全文数据库 (博士)信息科技辑》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528641A (zh) * 2016-10-13 2017-03-22 许继集团有限公司 一种数据存储方法、装置及通信网关机
CN106528641B (zh) * 2016-10-13 2020-01-10 许继集团有限公司 一种数据存储方法、装置及通信网关机
CN106557569A (zh) * 2016-11-14 2017-04-05 用友网络科技股份有限公司 基于元模型的非结构化文档的导入方法和导入装置
CN108573010A (zh) * 2017-08-25 2018-09-25 北京金山云网络技术有限公司 关联异构***同义数据的方法、装置、电子设备及介质
CN108573010B (zh) * 2017-08-25 2020-06-19 北京金山云网络技术有限公司 关联异构***同义数据的方法、装置、电子设备及介质
CN108062379A (zh) * 2017-12-13 2018-05-22 北京天广汇通科技有限公司 数据处理方法、平台、装置和计算机可读存储介质
CN108062379B (zh) * 2017-12-13 2021-07-30 北京天广汇通科技有限公司 数据处理方法、平台、装置和计算机可读存储介质
CN109241052A (zh) * 2018-07-26 2019-01-18 山东大学 一种基于关联数据的存储方法、装置、介质及设备
CN109656970A (zh) * 2018-11-20 2019-04-19 北京松鼠山科技有限公司 面向异构数据的数据关联方法和装置
CN111143467A (zh) * 2019-12-05 2020-05-12 贵州师范大学 一种实现分布式异构数据共享的云平台的数据共享方法
CN111708829A (zh) * 2020-06-19 2020-09-25 广州奥佳软件技术有限公司 一种异构数据整合方法及***
CN112015854A (zh) * 2020-07-17 2020-12-01 河海大学常州校区 一种基于自组织映射神经网络的异构数据属性关联算法
CN112015854B (zh) * 2020-07-17 2023-07-18 河海大学常州校区 一种基于自组织映射神经网络的异构数据属性关联方法

Also Published As

Publication number Publication date
CN105550375B (zh) 2019-07-02

Similar Documents

Publication Publication Date Title
CN105550375A (zh) 一种异构数据的整合方法及***
JP7201730B2 (ja) 意図推薦方法、装置、機器及び記憶媒体
CN109857917B (zh) 面向威胁情报的安全知识图谱构建方法及***
CN107122443B (zh) 一种基于Spark SQL的分布式全文检索***及方法
Marine-Roig et al. Tourism analytics with massive user-generated content: A case study of Barcelona
US20220261413A1 (en) Using specified performance attributes to configure machine learning pipepline stages for an etl job
CN103699689B (zh) 事件知识库的构建方法及装置
US8311999B2 (en) System and method for knowledge research
CN105468605A (zh) 一种实体信息图谱生成方法及装置
CN108196880A (zh) 软件项目知识图谱自动构造方法与***
CN103778200B (zh) 一种报文信息源抽取方法及其***
CN105069560A (zh) 一种基于知识库和规则库的履历信息抽取与特征标识分析***及方法
CN110020063B (zh) 垂直搜索方法和***
CN102253936A (zh) 记录用户访问商品信息的方法及搜索方法和服务器
CN102207948A (zh) 一种事件陈述句素材库的生成方法
CN104021198A (zh) 基于本体语义索引的关系数据库信息检索方法及装置
JP5535062B2 (ja) ウェブログの時系列分析のためのデータ格納および照会方法及びその方法を実行するシステム
CN103390044A (zh) 一种连锁类兴趣点数据识别方法及装置
CN110321446A (zh) 相关数据推荐方法、装置、计算机设备及存储介质
CN105095436A (zh) 数据源数据自动建模方法
Nesi et al. Ge (o) Lo (cator): Geographic information extraction from unstructured text data and Web documents
CN106055546A (zh) 基于Lucene的光盘库全文检索***
CN104298669A (zh) 一种基于社交网络的人员地理信息挖掘模型
Kricke et al. Graph data transformations in Gradoop
CN103365868A (zh) 一种数据处理方法和数据处理***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant