CN114661832A - 一种基于数据质量的多模态异构数据存储方法及*** - Google Patents

一种基于数据质量的多模态异构数据存储方法及*** Download PDF

Info

Publication number
CN114661832A
CN114661832A CN202210281261.XA CN202210281261A CN114661832A CN 114661832 A CN114661832 A CN 114661832A CN 202210281261 A CN202210281261 A CN 202210281261A CN 114661832 A CN114661832 A CN 114661832A
Authority
CN
China
Prior art keywords
data
database
original
relational
multimedia
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210281261.XA
Other languages
English (en)
Inventor
李冬
张志钧
单晓欢
宋宝燕
陈廷伟
王俊陆
纪婉婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning University
Original Assignee
Liaoning University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning University filed Critical Liaoning University
Priority to CN202210281261.XA priority Critical patent/CN114661832A/zh
Publication of CN114661832A publication Critical patent/CN114661832A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/289Object oriented databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2264Multidimensional index structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明是一种基于数据质量的多模态异构数据存储方法及***,包括以下步骤:1)将原始本文数据以key‑value格式在原始数据库中进行分布式存储;2)针对原始多媒体类数据进行数据建模,以文件的形式在文件数据库中进行分布式存储;3)将key‑value数据转换为关系型数据,构建关系数据库;4)根据关系数据库中实体之间的关系构建图数据库;5)将实体的活动数据以链式的结构进行数据建模,构建链式数据库;6)将多媒体数据转换为文本数据,按数据类型分别存储于多媒体数据库及原始数据库;7)通过构建多级索引结构将各个子数据库的实体数据进行链接;8)针对数据集成方法以及各个子数据库构建多模态数据库的日志文件维护体系。该方法可以大大减少查询数据所需的时间,保证相关人员使用数据时的效率。

Description

一种基于数据质量的多模态异构数据存储方法及***
技术领域
本发明属于计算机技术领域,具体涉及一种基于数据质量的多模态数据库异构存储方法及***。
背景技术
目前用户在不同的网络平台产生了大量的用户行为数据,这些数据不再是单一的文本或图片数据,而是包含来自不同平台的文本、图像、视频等的多模态数据,其中包括结构化数据、半结构化数据以及非结构化数据。结构化数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据,一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的;半结构化数据是结构化数据的一种形式,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层,因此,它也被称为自描述的结构;非结构化数据就是没有固定结构的数据,各种文档、图片、视频、音频等都属于非结构化数据,对于这类数据,一般直接整体进行存储。
近些年随着海量的多模态数据的出现,数据存储的成本加大,如何构建一个良好切高效的多模态数据库成为大多数计算机行业人员需要共同解决的问题。
发明内容
为解决上述技术问题,本发明提供了一种基于数据质量的多模态异构数据存储方法及***。
为了实现上述目的,本发明创造采用了如下技术方案:
一种基于数据质量的多模态异构数据存储方法及***,其特征在于,包括以下步骤:
1)本发明针对来自于互联网数据源的原始数据(包括原始文本类数据和原始多媒体类数据),将原始本文数据以key-value格式在原始数据库中进行分布式存储;
2)针对来自于互联网的原始多媒体类数据进行数据建模,以文件的形式在文件数据库中进行分布式存储;
3)将原始文本数据通过事件抽取、实体链接、不完备数据填补等数据集成方法进行数据转换,转换为关系型数据,并针对关系数据进行建模,构建关系数据库;
4)将关系数据库中的相互之间具有关联关系的实体以及实体之间的关系进行建模,构建图数据库;
5)关系数据库中各个实体的活动数据具有典型的时序特征,将活动数据以链式的结构进行数据建模,构建链式数据库;
6)将多媒体数据中的视频数据、音频数据通过数据转换方法转换为文本数据,并以文件形式存储于多媒体数据库,以及以key-value格式存储于原始数据库;
7)根据数据质量,对不同的分布式数据库进行数据库优化,通过构建多级索引结构将各个子数据库的实体数据进行链接,保证数据的一致性;
8)针对数据集成方法以及各个子数据库构建多模态数据库的日志文件维护体系。
另一方面,本发明提供一种基于数据质量的多模态异构数据存储***,包括:原始数据库:用于存储来源于互联网数据的原始数据,存储格式为:key-value格式;关系数据库:用于将原始数据库中的key-value数据转换为关系型数据,再建模存储;图数据库:用于将关系数据库中相关联的实体以及实体之间的关系图形化并存储;多媒体数据库:用于存储转换为文本格式的视频数据、音频数据;链式数据库:用于存储关系数据库中各个实体活动数据的链式结构。
一种计算机可读存储介质集群,其上存储有计算机程序,该计算机程序被处理器执行时实现一种基于数据质量的多模态异构数据存储方法所述的5种分布式子数据库。
进一步地,所述步骤1)中原始数据存储的具体方法如下:
1.1)使用MongoDB数据库***作为key-value数据存储的数据库***。对从互联网上爬取下来的相关数据以JSON文件的形式保存,并将其存储至MongoDB数据库中,MongoDB将每一条数据自动生成一个唯一的key值作为唯一标识符,通过key值可以定位到每一条具体的数据;
1.2)使用MongoDB中的MongoDB Replica Set作为原始数据库的分布式存储解决方案。将前述一种计算机可读存储介质集群以MongoDB Replica Set分布规则设定1个主节点、1个副本节点和1个仲裁节点,主节点接收所有请求,副本节点与主节点保持同样的数据集并可参与选主,仲裁节点进行选主投票。
进一步地,所述步骤2)中多媒体数据建模的具体方法如下:将多媒体数据,包括视频、音频、图片数据根据特定规则存储至分布式文件***中;其中,特定规则指根据多媒体数据的数据源决定其所存储的分布式文件***节点。即将多媒体数据,包括视频、音频或图片数据根据数据源对应的存储节点存储至分布式文件***中。
进一步地,所述步骤3)中关系数据模型构建的具体方法如下:
3.1)使用数据集成方法,包括事件抽取、实体链接、不完备数据填补,将原始文本数据转化为结构化数据;其中,事件抽取主要将原始文本数据通过特定规则进行数据标注形成数据集,利用数据集训练事件抽取模型,将得到的结果以结构化形式存储下来;实体链接主要将事件抽取所得到的结果与数据库进行某些特定实体的消歧,并将消歧后的结构化数据存储下来;不完备数据填补主要将转化后的结构化数据中缺失的部分使用缺失数据填补方法进行填充,保证数据完整性;
3.2)使用MySQL数据库***作为关系数据存储的数据库***。将通过数据集成后的结构化数据存储至关系数据库MySQL中;
3.3)使用MySQLCluster作为关系数据库的分布式存储解决方案。将前述一种计算机可读存储介质集群以MySQLCluster分布规则设定1个管理节点、2个数据节点和1个应用节点,管理节点管理相关配置文件,数据节点分布式存储数据,应用节点进行读写等操作。
进一步地,所述步骤4)中图数据库存储模型构建的具体方法如下:
4.1)使用HBase作为底层图数据存储方案。将关系数据库中具有特定关系的要素及其之间的关系进行抽取,存储到HBase中,HBase中的数据通过rowkey按照行的形式进行存储,将前述一种计算机可读存储介质集群以HBase分布规则设定1个主节点、1个从节点和1个备用节点;
4.2)使用Neo4j作为图数据库可视化查询方案。利用Hive将HBase中的部分数据导出并存储到Neo4j中构建能满足不同查询需求的知识图谱。建立HBase与Hive的映射,将HBase数据还原为类关系数据库数据,将数据通过Neo4j建立关系;
4.3)将关系数据库中的实体通过实体之间的关系进行建模,构成一系列的节点和边来表示,其中,实体表示为节点,关系表示为边,通过Neo4j可视化展示。
进一步地,所述步骤5)中链式数据库以联盟链和私有链的形式存在,其中,联盟链存储结构化数据,私有链存储半结构化、非结构化数据,包含文本、图片、视频等;联盟链采用MySQL数据库存储结构化数据,私有链采用HDFS存储半结构化、非结构化数据。
进一步地,所述步骤6)中多媒体数据存储具体方法如下:
6.1)根据多媒体数据源从互联网中爬取相关的多媒体数据,包括视频、音频、图像、文本等;根据数据属性设计多媒体数据索引表,根据数据源、数据类型、存储节点、存储路径、文件名等属性,可以通过索引表定位到多媒体数据的具***置,将索引表以结构化数据形式存储至关系数据库中;
6.2)设计数据转换存储模型,将视频数据通过“视频->音频->文本”过程转换为文本数据;将音频数据通过“音频->文本”过程转换为文本数据;将图像数据通过“图像->文本”过程转换为文本数据;并存储到原始数据库和多媒体数据库中。
进一步地,所述步骤7)中,一种数据质量的定义方法包括:准确性、完整性、一致性、关联性:
7.1)准确性指在事件抽取、数据填补及数据一致性检测和转换等数据集成方法中,通过转换模型和方法的准确度等指标保证数据转换的准确性;
7.2)完整性是指针对同一实体的原始文本数据,在本多模态异构数据存储***中既有进行数据转换后的结构化形式数据存在,也有key-value格式的半结构化数据以及以文档形式的非结构化数据存在,且同时存储在原始数据库以及关系数据库中;另一方面,针对多模态数据,在本多模态异构数据存储***中既有进行多媒体数据转换后的结构化形式数据存在,也有key-value格式的半结构化数据以及以多媒体文件形式的非结构化数据存在,且同时存储在原始数据库以及多媒体数据库中;
7.3)一致性指通过数据一致性检测以及转换,将各个子数据库中同一实体的数据进行一致性检测,包括量纲的一致性、表达方式的一致性、数据值的一致性等;确保存入各个子数据库中的相关数据,与原始文本数据以及原数据始多媒体数据的相关数据一致;
7.4)关联性指以实体id或实体名a将各个子数据库中进行关联,同一实体的数据在各个子数据库中实现同步更新,并且通过实体id或实体名的关联可以实现数据的溯源。
另一方面,本发明提供一种基于数据质量的多模态异构数据优化方法,包括多级索引结构以及日志文件维护模块;
多级索引及动态维护模块包括全局索引、局部索引及动态维护部分:
全局索引将多模态数据库的各个子数据库之间构建主外键索引,将多模态数据库中各子数据库进行有效链接,实现相关数据的查询操作;
局部索引将多模态数据库的各子数据库中构建各自独立的索引结构,实现各子数据库内容的局部索引,包括:
原始数据库局部索引模块,将数据的每一个key建立索引,并将索引字段设置分片键,通过索引提高查询效率;
关系数据库局部索引模块,将数据中常用字段建立索引,例如某实体数据常用字段为实体名称,通过索引提高查询效率;
图数据库局部索引模块,通过ApachePhoenix进行二级索引构建,在Phoenix建立与HBase中表的映射,实现在Phoenix操作HBase的表,通过索引提高查询效率;
链式数据库局部索引模块,主要分为名称索引、排序建立、动态增量更新等部分。按照特定字段建立名称索引,同时按照时间顺序构建联盟链,并且数据动态增量更新;
多媒体数据库局部索引模块,将多媒体数据的基本信息,包括数据的存储结点信息、路径、文件名、扩展名等信息,构建出局部索引结构并存储在关系数据库中,根据数据源、数据类型、存储节点、存储路径、文件名等属性,可以通过索引表定位到多媒体数据的具***置。
日志文件维护模块包括多模态数据库的日志文件维护与数据集成的日志文件维护。其中,多模态数据库的日志文件维护包括关系数据库的日志文件维护、图数据库的日志文件维护、链式数据库的日志文件维护以及原始数据库的日志文件维护;数据集成的日志文件维护包括事件抽取的日志文件维护、实体链接的日志文件维护、不完备数据填补的日志文件维护以及数据一致性的日志文件维护;
8.1)多模态数据库的日志文件维护由各个子数据库通过其使用的相关***或方案的日志文件进行维护;
8.2)数据集成的日志文件维护指在数据集成的处理中,当由于数据集成操作发生数据变更的情况下,将所有数据集成操作的过程予以记录,以日志文件的形式进行保存;日志文件的内容包括:数据库操作发生的时间、数据集成的类型、操作日志的类别以及各个数据集成方法特有的属性特征;对于每种类型的数据集成方法,日志内容均包括:数据集成操作发生的时间(Timestamp)、数据集成类型、日志记录的级别(INFO、WARNING、ERROR等),以及针对每种不同类型的数据集成方法,设计每种数据集成方法特定的日志内容要素;
8.3)本发明所使用的数据集成方法类型分为事件抽取(EE)、实体链接(EL)、不完备数据填补(DF)、数据一致性检测(DC),日志级别分为五种:导致应用程序退出的严重错误(FATAL)、虽然发生了错误但不影响***的继续运行(ERROR)、会出现潜在的错误情形(WARNING)、在粗粒度级别上,强调应用程序的运行全程(INFO)、在细粒度级别上,对调试应用程序非常有帮助(DEBUG);
8.4)事件抽取的日志文件记录的构成为:[Timestamp][EE][日志级别][事件类型编码][事件ID][标题][事件时间];
8.5)实体链接的日志文件记录的构成为:[Timestamp][EL][日志级别][实体链接类型编码][唯一主键对应的数据值][链接表名][链接到总表时所需要使用的复合主键1对应的数据值][链接到总表时所需要使用的复合主键2对应的数据值][链接到总表时所需要使用的复合主键3对应的数据值];
8.6)不完备数据填补的日志文件记录的构成为:[Timestamp][DF][日志级别][操作内容][操作结果];
8.7)数据一致性检测的日志文件记录的构成为:[Timestamp][DC][日志级别][数据一致性检测的类型][操作内容][操作结果]。
本发明创造的有益效果:本发明采用上述方案,通过从不同数据源收集数据,将原始数据以key-value形式存入原始数据库,将key-value数据通过事件抽取、实体链接、不完备数据填补等数据集成方法进行数据转换,转换为关系型数据,存入关系数据库,将关系数据库中的数据以实体-关系的形式存入图数据库,将关系数据库中具有典型时序特征的活动数据存入链式数据库,将多媒体数据存入多媒体数据库,根据数据的准确性、完整性、一致性、关联性对数据进行处理,最终实现数据的异构存储及数据库优化。其优势在于设计了多种数据库模型,并且根据各个数据库的存储特点将不同格式的数据进行存储,构成多模态数据库。通过索引结构大大提高了查询效率,通过日志文件的维护可对多模态数据库进行故障恢复,以及查看各个数据集成方法的操作过程。经过这些步骤,最终获得了一个高数据质量的多模态异构分布式数据库***。本发明多模态数据库异构存储方法及***,根据数据形式的不同将这些数据存入不同的分布式数据库中,并且进行数据查询优化,可以大大减少查询数据所需的时间,保证相关人员使用数据时的效率。
附图说明
图1为一种基于数据质量的多模态异构数据存储***架构图;
图2为原始数据库架构图;
图3为关系数据库架构图;
图4为图数据库数据展示流程图;
图5为链式数据库流程图;
图6为全局索引结构流程图。
具体实施方式
下面将结合本发明创造实施例中的附图,对本发明创造实施例中的技术方案进行清晰、完整地描述,另外下面所描述的实施例仅仅是本发明创造一个实施例,而不是全部的实施例。
本发明提供了一种基于数据质量的多模态异构数据存储方法,其设计构思如下:从不同数据源收集数据,将原始文本数据以key-value的形式保存下来,将多媒体数据以文件的形式保存下来。其次,进行数据建模,通过数据集成方法将原始文本数据转化为关系型数据存储至关系数据库中,将关系数据库中具有特定关系的要素及其之间的关系进行抽取,存储到HBase中,利用Hive将HBase中的部分数据导出并存储到Neo4j中构建能满足不同查询需求的图谱,将原始数据及压缩后的多媒体数据存入链式数据库中。最后,进行数据库优化,建立全局索引结构以及局部索引结构,以及日志文件维护模块,构成多模态异构数据库。
基于该方法设计的一种基于数据质量的多模态异构数据存储***框架如下图1所示。包括:原始数据库、关系数据库、图数据库、链式数据库、多媒体数据库。
各数据库功用如下:
原始数据库:用于存储来源于互联网数据的原始数据,存储格式为:key-value格式;
关系数据库:用于将原始数据库中的key-value数据转换为关系型数据,再建模存储;
图数据库:用于将关系数据库中相关联的实体以及实体之间的关系图形化并存储;
多媒体数据库:用于存储转换为文本格式的视频数据、音频数据;
链式数据库:用于存储关系数据库中各个实体活动数据的链式结构。
采用上述***实现一种基于数据质量的多模态异构数据存储方法,步骤如下:
1)从互联网上爬取原始数据,将原始数据以key-value的形式存入原始数据库中;
具体包括:
1.1)对从互联网上爬取下来的相关数据以JSON文件的形式保存,并将其存储至MongoDB数据库中;
1.2)在本发明中,原始数据库采用MongoDB Replica Set+Sharding集群来实现原始数据库的分布式存储模式,根据所采用的集群方式,数据库由三个节点构成,分别为:主节点、副本节点和仲裁节点,原始数据库架构图如图2所示,从纵向来看,三个节点分别充当三个服务器,每个服务器配置一个路由进程,一个配置服务器进程以及相对应的分片。当进行存储或读取等操作数据库的任务时,路由进程接收客户发出的指令,并将请求指令发送到相对应的分片上,配置服务器则负责存储数据库中元信息的配置。从横向来看,本发明设计了三个分片,每个分片通过使用Replica Set在三个节点上形成主、备、仲裁的方式。
2)将原始文本数据通过数据集成方法转化为关系型数据存储至关系数据库中;
具体包括:
2.1)通过事件抽取、实体链接、不完备数据填补等数据集成方法将原始文本数据转化为关系型数据存储至MySQL数据库中;
2.2)在本发明中,关系数据库采用MySQL Cluster集群来实现关系数据库的分布式存储模型,根据所采用的集群方式,数据库由四个节点构成,分别为:1个管理节点、2个数据节点、1个应用节点,关系数据库架构图如图3所示,在本发明提供的关系数据库模型中,客户端通过连接应用节点进行数据库的基本操作,将数据以结构化的形式进行存储。在客户端操作完成后,两个数据节点会自动同步复制相同的数据,以保证数据的安全性。管理节点则可以随时监控其他节点的状态,并可添加配置新的节点。
3)将关系数据库中数据中具有特定关系的要素及其之间的关系进行抽取,存入图数据库中并进行展示;
具体包括:
3.1)将关系数据库中具有特定关系的要素及其之间的关系进行抽取,存储到HBase中;
3.2)利用Hive将HBase中的部分数据导出并存储到Neo4j中构建能满足不同查询需求的知识图谱。建立HBase与Hive的映射,将HBase数据还原为类关系数据库数据,将数据通过Neo4j建立关系。
3.3)基于Neo4j的可视化展示,将相关数据从HBase中进行提取,存储到Neo4j的图谱上,如图4所示为图数据库数据展示流程图,图数据库采用四个节点构成集群来实现图数据库的分布式存储,在本发明提供的图数据库模型中,客户端通过Neo4j进行数据库的基本查询操作,将数据以可视化的形式进行展示。底层图数据通过HBase进行数据存储。
4)将原始数据及压缩后的多媒体数据存入链式数据库中;
所述的步骤4)的链式数据库流程图如图5所示:
在联盟链中,解析json文本文件,将其对应属性存储到MySQL数据库对应表的对应字段中。在私有链中,利用HDFS分布式文件***存储事件的原始详细内容,每一条事件对应本地文件***中该事件的文本文件、图片、视频等,将其进行打包压缩为压缩包,然后对该压缩包进行哈希值计算,该哈希值存入MySQL对应的哈希字段中,压缩包上传到HDFS分布式文件***中。
5)根据各个子数据库中相同的数据属性,构建全局索引,本发明将关系数据库、图数据库、链式数据库、多媒体数据库以及原始数据库,通过某些特定字段索引将各个数据库中相关的数据链接起来,提供3种不同的功能:第一,实现了相关数据的数据查询功能;第二,并且通过索引的构建,实现了从其它数据库到原始数据库的原始数据的溯源功能;第三,将多媒体数据中的视频、音频、图像数据转换为文本数据后,实现关系数据库、原始数据库、多媒体数据库对多副本文本数据存储的副本管理功能。通过多模态全局索引结构的构建,实现相关数据的链接和溯源功能,全局索引结构流程图如图6所示:
5.1)在关系数据库中,实体基础信息表包含实体ID、实体名称、对象ID等实体的基础信息属性,通过实体ID属性将关系数据库的实体链接到该实体对应于原始数据库中的JSON格式的原始数据,实现关系数据到原始数据的溯源;
5.2)通过关系数据库中各个实体业务数据表中的实体ID属性作为外键,参照实体基础信息表中该实体的基础信息数据,实现从基础信息数据到业务数据的关联查询功能;
5.3)通过关系数据库中实体信息表的实体ID属性,链接到该实体对应的存储在关系数据库中的多媒体索引表,包括:视频、音频、图像、文本数据的存储结点信息、路径、文件名、扩展名等数据,实现从关系数据库到多媒体数据库的关联修改、删除功能;
5.4)通过多媒体索引表,将多媒体文件(包括:视频、音频、图像、文本数据)的存储结点信息、路径、文件名、扩展名等属性信息组合关联使用,实现多媒体索引表对保存在各个结点的多媒体文件的查询功能;
5.5)链式数据库中以实体名作为关键字,以联盟链+私有链的链式结构对于实体的事件信息进行存储。通过关系数据库中的实体基础信息表中的实体名,实现将关系数据到链式数据库的链接,查询该实体在链式数据库中的数据;
5.6)图数据库中将实体名作为关键字,通过构建实体信息的三元组,存储和展示该实体为中心节点的实体间的链接关系。通过关系数据库中的实体基础信息表中的实体名,实现将关系数据到图数据库的链接,查询该实体在图数据库中的数据以及实体之间的关联关系;
5.7)在本发明提供的数据转换中,从视频、音频、图像数据转换后的文本数据除了保存在多媒体数据库中以外,为了对外提供更丰富的数据接口,将文本数据作为原始数据存储到原始数据库,在文本数据与原始数据库中的JSON格式的文件通过文本ID进行关联,实现多媒体数据库中的文本数据与原始数据库中的原始数据的链接。

Claims (10)

1.一种基于数据质量的多模态异构数据存储方法,其特征在于,包括以下步骤:
1)将来源于互联网数据的原始数据以key-value格式在原始数据库中进行分布式存储;所述的原始数据包括原始文本类数据和原始多媒体类数据;
2)将原始多媒体类数据进行数据建模,以文件的形式在文件数据库中进行分布式存储;
3)将原始文本数据通过事件抽取、实体链接、不完备数据填补数据集成方法进行数据转换,转换为关系型数据,并针对关系数据进行建模,构建关系数据库;
4)将关系数据库中的相互之间具有关联关系的实体以及实体之间的关系进行建模,构建图数据库;
5)关系数据库中各个实体的活动数据具有典型的时序特征,将活动数据以链式的结构进行数据建模,构建链式数据库;
6)将多媒体数据中的视频数据、音频数据通过数据转换方法转换为文本数据,并以文件形式存储于多媒体数据库,以及以key-value格式存储于原始数据库;
7)根据数据质量,对不同的分布式数据库进行数据库优化,通过构建多级索引结构将各个子数据库的实体数据进行链接,保证数据的一致性;
8)针对数据集成方法以及各个子数据库构建多模态数据库的日志文件维护体系。
2.根据权利要求1所述的一种基于数据质量的多模态异构数据存储方法,其特征在于,所述步骤1)中,将原始本文数据以key-value格式在原始数据库中进行分布式存储具体方法如下:
2.1)使用MongoDB数据库***作为key-value数据存储的数据库***;
2.2)使用MongoDB中的MongoDB Replica Set作为原始数据库的分布式存储解决方案。
3.根据权利要求1所述的一种基于数据质量的多模态异构数据存储方法,其特征在于,所述步骤2)中,将多媒体数据根据数据源类型,即视频、音频或图片数据根据数据源对应的存储节点存储至分布式文件***中。
4.根据权利要求1所述的一种基于数据质量的多模态异构数据存储方法,其特征在于,所述步骤3)中,构建关系数据库具体方法如下:
3.1)通过关系抽取、实体链接、不完备数据填补这三种数据集成方法将原始文本数据转化为关系型数据;
3.2)使用MySQL数据库***作为关系数据存储的数据库***;
3.3)使用MySQLCluster作为关系数据库的分布式存储解决方案。
5.根据权利要求1所述的一种基于数据质量的多模态异构数据存储方法,其特征在于,所述步骤4)中,构建图数据库具体方法如下:
4.1)使用HBase作为底层图数据存储方案;
4.2)使用Neo4j作为图数据库可视化查询方案;
4.3)将关系数据库中的实体通过实体之间的关系进行建模。
6.根据权利要求1所述的一种基于数据质量的多模态异构数据存储方法,其特征在于,所述步骤5)中,构建链式数据库具体方法如下:
链式数据库使用MySQL以及HDFS作为数据存储方案,存储至链式数据库中;其中,联盟链采用MySQL存储结构化数据,私有链采用HDFS存储半结构化、非结构化数据。
7.根据权利要求1所述的一种基于数据质量的多模态异构数据存储方法,其特征在于,所述步骤6)中多媒体数据存储具体方法如下:
6.1)根据多媒体数据源从互联网中爬取相关的多媒体数据,包括视频、音频、图像、文本等;根据数据属性设计多媒体数据索引表,根据数据源、数据类型、存储节点、存储路径、文件名等属性,可以通过索引表定位到多媒体数据的具***置,将索引表以结构化数据形式存储至关系数据库中;
6.2)设计数据转换存储模型,将视频数据通过“视频->音频->文本”过程转换为文本数据;将音频数据通过“音频->文本”过程转换为文本数据;将图像数据通过“图像->文本”过程转换为文本数据;并存储到原始数据库和多媒体数据库中。
8.根据权利要求1所述的一种基于数据质量的多模态异构数据存储方法,其特征在于,所述步骤7)中,多级索引结构由全局索引和局部索引构成;其动态维护过程如下:
全局索引原始数据库、关系数据库、图数据库、链式数据库以及多媒体数据库之间构建主外键索引,将各子数据库进行有效链接,实现相关数据的查询操作;局部索引将上述各数据库中构建各自独立的索引结构,实现各子数据库内容的局部索引;
各子数据库索引模块如下:原始数据库局部索引模块,将数据的每一个key建立索引,并将索引字段设置分片键,通过索引提高查询效率;
关系数据库局部索引模块,将数据中常用字段建立索引,例如某实体数据常用字段为实体名称,通过索引提高查询效率;
图数据库局部索引模块,通过ApachePhoenix进行二级索引构建,在Phoenix建立与HBase中表的映射,实现在Phoenix操作HBase的表,通过索引提高查询效率;
链式数据库局部索引模块,主要分为名称索引、排序建立、动态增量更新等部分。按照特定字段建立名称索引,同时按照时间顺序构建联盟链,并且数据动态增量更新;
多媒体数据库局部索引模块,将多媒体数据的基本信息,包括数据的存储结点信息、路径、文件名、扩展名等信息,构建出局部索引结构并存储在关系数据库中,根据数据源、数据类型、存储节点、存储路径、文件名等属性,可以通过索引表定位到多媒体数据的具***置。
9.根据权利要求1所述的一种基于数据质量的多模态异构数据存储方法,其特征在于,所述步骤8)中,日志文件维护的具体方法如下:
日志文件维护分为多模态数据库的日志文件维护与数据集成的日志文件维护;其中,多模态数据库的日志文件维护包括关系数据库的日志文件维护、图数据库的日志文件维护、链式数据库的日志文件维护以及原始数据库的日志文件维护;数据集成的日志文件维护包括事件抽取的日志文件维护、实体链接的日志文件维护、不完备数据填补的日志文件维护以及数据一致性的日志文件维护。
10.一种基于数据质量的多模态异构数据存储***,其特征在于,包括:
原始数据库:用于存储来源于互联网数据的原始数据,存储格式为:key-value格式;
关系数据库:用于将原始数据库中的key-value数据转换为关系型数据,再建模存储;
图数据库:用于将关系数据库中相关联的实体以及实体之间的关系图形化并存储;
多媒体数据库:用于存储转换为文本格式的视频数据、音频数据;
链式数据库:用于存储关系数据库中各个实体活动数据的链式结构。
CN202210281261.XA 2022-03-22 2022-03-22 一种基于数据质量的多模态异构数据存储方法及*** Pending CN114661832A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210281261.XA CN114661832A (zh) 2022-03-22 2022-03-22 一种基于数据质量的多模态异构数据存储方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210281261.XA CN114661832A (zh) 2022-03-22 2022-03-22 一种基于数据质量的多模态异构数据存储方法及***

Publications (1)

Publication Number Publication Date
CN114661832A true CN114661832A (zh) 2022-06-24

Family

ID=82031071

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210281261.XA Pending CN114661832A (zh) 2022-03-22 2022-03-22 一种基于数据质量的多模态异构数据存储方法及***

Country Status (1)

Country Link
CN (1) CN114661832A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116910126A (zh) * 2023-09-14 2023-10-20 国网山东省电力公司营销服务中心(计量中心) 一种海量日清电量数据便捷存储分类查询***及方法
CN117290457A (zh) * 2023-11-22 2023-12-26 湖南省第一测绘院 地理实体多模态数据管理***及数据库和时序化管理方法
CN117632970A (zh) * 2023-12-18 2024-03-01 智人开源(北京)科技有限公司 多模融合数据库、数据库的数字孪生实体数据存储方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116910126A (zh) * 2023-09-14 2023-10-20 国网山东省电力公司营销服务中心(计量中心) 一种海量日清电量数据便捷存储分类查询***及方法
CN116910126B (zh) * 2023-09-14 2023-11-24 国网山东省电力公司营销服务中心(计量中心) 一种海量日清电量数据便捷存储分类查询***及方法
CN117290457A (zh) * 2023-11-22 2023-12-26 湖南省第一测绘院 地理实体多模态数据管理***及数据库和时序化管理方法
CN117290457B (zh) * 2023-11-22 2024-03-08 湖南省第一测绘院 地理实体多模态数据管理***及数据库和时序化管理方法
CN117632970A (zh) * 2023-12-18 2024-03-01 智人开源(北京)科技有限公司 多模融合数据库、数据库的数字孪生实体数据存储方法

Similar Documents

Publication Publication Date Title
CN112685385B (zh) 一种用于智慧城市建设的大数据平台
CN110196871B (zh) 数据入库方法和***
US10445321B2 (en) Multi-tenant distribution of graph database caches
CN106095862B (zh) 集中式可扩展融合型多维复杂结构关系数据的存储方法
CN110032604B (zh) 数据存储装置、转译装置及数据库访问方法
Li Transforming relational database into HBase: A case study
US9098530B2 (en) Scalable rendering of large spatial databases
CN114661832A (zh) 一种基于数据质量的多模态异构数据存储方法及***
US7690000B2 (en) Metadata journal for information technology systems
US20150095303A1 (en) Knowledge Graph Generator Enabled by Diagonal Search
US20130006968A1 (en) Data integration system
CN113312191B (zh) 数据分析方法、装置、设备及存储介质
US11334549B2 (en) Semantic, single-column identifiers for data entries
Imam et al. Data modeling guidelines for NoSQL document-store databases
CN105824872B (zh) 基于搜索的数据的检测、链接和获取的方法和***
CN114218218A (zh) 基于数据仓库的数据处理方法、装置、设备及存储介质
Orlandi et al. Modelling provenance of DBpedia resources using Wikipedia contributions
Ortona et al. Wadar: Joint wrapper and data repair
CN115080765A (zh) 一种航天质量知识图谱构建方法、***、介质和设备
CN115640406A (zh) 一种基于多源异构大数据分析处理与知识图谱构建方法
EP3499379B1 (en) Computer implemented and computer controlled method, computer program product and platform for manipulating data arranged for processing and storage at a data storage engine
Haug Bad big data science
CN113221528B (zh) 基于openEHR模型的临床数据质量评估规则的自动生成与执行方法
CN115905313A (zh) 一种MySQL大表关联查询***及方法
CN114880483A (zh) 一种元数据知识图谱构建方法、存储介质及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination