CN107515902A - 一种基于语义标注的异构数据分布式存储方法 - Google Patents

一种基于语义标注的异构数据分布式存储方法 Download PDF

Info

Publication number
CN107515902A
CN107515902A CN201710608703.6A CN201710608703A CN107515902A CN 107515902 A CN107515902 A CN 107515902A CN 201710608703 A CN201710608703 A CN 201710608703A CN 107515902 A CN107515902 A CN 107515902A
Authority
CN
China
Prior art keywords
data
semantic
information
isomeric
data source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710608703.6A
Other languages
English (en)
Inventor
吴含前
沈鸣飞
顾鹏
陈钢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SUZHOU SIGMA TECHNOLOGY Co Ltd
Original Assignee
SUZHOU SIGMA TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SUZHOU SIGMA TECHNOLOGY Co Ltd filed Critical SUZHOU SIGMA TECHNOLOGY Co Ltd
Priority to CN201710608703.6A priority Critical patent/CN107515902A/zh
Publication of CN107515902A publication Critical patent/CN107515902A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于语义标注的异构数据分布式存储方法,包括以下步骤:1)建立异构数据源语义标签库和异构数据信息语义标签库;2)建立异构数据存储单元内容;3)将异构数据源语义标签库和异构数据信息语义标签库动态存储在.META.表信息中;4)动态存储数据单位内容于存储块中;5)对标注好的异构数据的语义信息进行语义相似度计算;6)进行异构数据融合信息存储,将计算出的相似度值存储在.INFO.信息表中;7)建立基于语义库的分布式数据信息检索信息;8)将存储数据检索信息存储在.INDEX.表中。本发明实现了数据融合存储,解决了数据难融合不具语义的问题,又解决了异构大数据分布式存储问题。

Description

一种基于语义标注的异构数据分布式存储方法
技术领域
本发明涉及一种基于语义标注技术和分布式存储技术,特别是涉及一种基于语义标注的异构数据分布式存储方法。
背景技术
随着互联网的高速发展,数据量每天以指数的递增,数据的来源也更加丰富和复杂,文本数据、音频数据、视频数据等数据格式也越来越多,实现异构的数据融合和存储的问题日益突出,但传统的数据融合,只是将异构数据进行统一存储并不具有语义。研究一种基于语义标注的异构数据分布式存储方法,这将实现异构数据的高度语义融合,对异构数据资源的高效检索起到关键性的作用。
目前语义标注的方法有很多,主要是根据资源属性、资源内容、资源内容特征和特定的资源领域本体语义进行标注。
基于语义标注的异构数据主要是通过自定义的方式进行异构数据源的标注说明,语义标注信息逻辑上采用大表的方式进行存储,但物理上是分布式存储,如何将异构数据与分布式存储结合起来是现阶段亟需解决的问题。
发明内容
为了解决上述技术问题,本发明提出了一种基于语义标注的异构数据分布式存储方法。
为了达到上述目的,本发明的技术方案如下:
一种基于语义标注的异构数据分布式存储方法,包括以下步骤:
1)建立异构数据源语义标签库和异构数据信息语义标签库;
2)建立异构数据存储单元内容;
3)将异构数据源语义标签库和异构数据信息语义标签库动态存储在.META.表信息中,将数据源语义和数据信息语义进行关系映射存储;
4)动态存储数据单位内容于存储块中;
5)对标注好的异构数据的语义信息进行语义相似度计算;
6)进行异构数据融合信息存储,将计算出的相似度值存储在.INFO.信息表中,将相似度值和异构数据的数据信息进行关系映射存储;
7)建立基于语义库的分布式数据信息检索信息;
8)将存储数据检索信息存储在.INDEX.表中。
本发明实现了数据融合存储,特别是异构数据的融合存储,存在存储数据互相独立和异构数据,不具有语义关联性,基于语义标注的异构数据分布式存储***,即解决了数据难融合不具语义的问题,又解决了异构大数据分布式存储问题。本发明提出了一种对数据源进行语义标注的方法和数据源语义相似度计算的技术,弥补了市场上此项功能的空白,采用分布式存储语义标签库和异构数据单元内容,实现了异构数据的分布式存储。
在上述技术方案的基础上,还可做如下改进:
作为优选的方案,步骤1)具体包括以下步骤:
1.1)语义标签库创建;
1.2)异构数据源输入;
1.3)数据源语义解析和/或标注数据源名称和/或标注数据源类别和/或标注数据源格式和/或标注数据源时间;
1.4)数据信息语义解析和/或标注数据名称和/或标注数据归属信息和/或标注数据描述和/或标注数据时间。
采用上述优选的方案,操作便捷。
作为优选的方案,步骤4)还包括以下内容:
当异构数据源容量超过存储块的大小时,则***自动将数据源信息切分为若干小块,每块的容量不大于存储块的大小。
采用上述优选的方案,便于动态存储。
作为优选的方案,存储块的大小为64M。
采用上述优选的方案,存储效果好。
作为优选的方案,步骤5)具体包括以下步骤:
5.1)读取两个存储单元;
5.2)对存储的异构数据的语义信息按字进行划分;
5.3)计算字频;
5.4)得到字频序列;
5.5)计算两个字频序列的COS夹角值。
采用上述优选的方案,操作便捷。
作为优选的方案,步骤5)具体包括以下步骤:
5.6)判断得到的夹角值是否大于a,若大于,则相似;否则,则不相似。
采用上述优选的方案,判断便捷。
作为优选的方案,异构数据源语义标签包括:数据源名称和/或数据源类别和/或数据源描述和/或数据源格式和/或数据源创建时间。
采用上述优选的方案,根据具体情形进行标记。
作为优选的方案,异构数据信息语义标签包括:数据名称和/或数据归属信息和/或数据描述和/或数据创建时间。
采用上述优选的方案,根据具体情形进行标记。
作为优选的方案,索引信息包括数据源信息和/或数据信息和/或分布式存储的节点信息和/或索引时间。
采用上述优选的方案,根据具体情形进行标记。
附图说明
图1为本发明实施例提供的一种基于语义标注的异构数据分布式存储方法的流程图。
图2为本发明实施例提供的建立异构数据源语义标签库和异构数据信息语义标签库的流程图。
图3为本发明实施例提供的语义相似度计算的流程图。
具体实施方式
下面结合附图详细说明本发明的优选实施方式。
为了达到本发明的目的,一种基于语义标注的异构数据分布式存储方法的其中一些实施例中,如图1所示,一种基于语义标注的异构数据分布式存储方法包括以下步骤:
1)建立异构数据源语义标签库和异构数据信息语义标签库;
异构数据源语义标签包括:数据源名称、数据源类别、数据源描述、数据源格式、数据源创建时间,定义格式为【F:”name,type,describe,format,timestamp”】,F:大数据表Family列簇,定义数据源语义标签库。异构数据信息语义标签包括:数据名称、数据归属信息、数据描述、数据创建时间,定义格式为【C:”name,ftype,describe,timestamp”】F:大数据表Column列簇,定义数据信息语义标签库。
2)建立异构数据存储单元内容;存储格式为【F,C,V】,F:数据源语义标注,C:数据信息语义标注,V:数据内容,如文本、图片、音频、视频和文件等。
3)将异构数据源语义标签库和异构数据信息语义标签库动态存储在.META.表信息中,按照【KEY:VALUE】格式将数据源语义和数据信息语义进行关系映射存储,例如交通数据源数据存储格式为【F,C1】、【F,C2】、...、【F,Cn】,其中F:表示交通数据源语义标签,C1..n表示交通数据信息的语义标签。如表1所示,.META.表信息,其中:F表示Family信息,C表示Column信息。
表1存储.META.表信息
4)动态存储数据单位内容于存储块中,分布式存储***进行负载均衡动态分配存储资源,存储资源节点默认分配的存储块大小为BLOCK=64MB,当异构数据源容量超过存储块的大小时,则***自动将数据源信息切分为若干小块【N1,N2...,Nn-1,Nn】,【注:(N1,N2,...Nn-1)=64MB,Nn<=64MB】,每块的容量不大于存储块的大小。如表2所示,存储单元BLOCK表信息。
表2存储单元BLOCK表信息
5)对标注好的异构数据的语义信息进行语义相似度计算;根据存储格式【F,C】标注好的语义信息进行语义相似度计算,相似度算法采用余弦定理算法实现。
6)进行异构数据融合信息存储,将计算出的相似度值存储在.INFO.信息表中,按照【KEY:VALUE】的格式将相似度值和异构数据的数据信息进行关系映射存储,达到异构数据融合效果。如表3所示,.INFO.表信息,其中:F表示Family信息,C表示Column信息。
表3存储.INFO.表信息
7)建立基于语义库的分布式数据信息检索信息;索引信息包括数据源信息、数据信息、分布式存储的节点信息、索引时间,索引存储格式为【F:name,C:name,Node:name,timestamp】。
8)将存储数据检索信息存储在.INDEX.表中,按照【KEY:VALUE】的格式将异构数据索引信息进行存储。
如图2所示,步骤1)具体包括以下步骤:
1.1)语义标签库创建;
1.2)异构数据源输入;
1.3)数据源语义解析和/或标注数据源名称和/或标注数据源类别和/或标注数据源格式和/或标注数据源时间;
1.4)数据信息语义解析和/或标注数据名称和/或标注数据归属信息和/或标注数据描述和/或标注数据时间。
如图3所示,步骤5)具体包括以下步骤:
5.1)读取两个存储单元;
5.2)对存储的异构数据的语义信息按字进行划分;
5.3)计算字频;
5.4)得到字频序列;
5.5)计算两个字频序列的COS夹角值;
5.6)判断得到的夹角值是否大于a,若大于,则相似;否则,则不相似。
假设有交通数据源【F1】和天气数据源【F2】,交通数据信息【C1】天气数据信息【C2】,则存储数据信息C1语义定义为:【城市名称,天气数据源,表示当前城市,1404109199352】注:1404109199352是描述当前天气状态的时间戳。
数据信息C2语义定义为:【城市名称,交通数据源,表示当前城市,1404109199344】注:1404109199344是描述当前交通状态的时间戳。
拆分C1的语义信息文本,得到一个语义字典库为:Z1c1,Z1c2,Z1c3,Z1c4......Z1cn:【城,市,名,称,天,气,数,据,源,表,示,当,前,城,市】,将其转换为GB2312编码为【1730,3901,3286,1729,4117,3565,3946,2786,4813,1580,3883,1896,3587】。
出现的频率为:Z1n1:【2,2,1,1,1,1,1,1,1,1,1,1,1】。
拆分C2的语义信息文本,得到一个语义字典库为:Z2c1,Z2c2,Z2c3,Z2c4......Z2cn:【城,市,名,称,交,通,数,据,源,表,示,当,前,城,市】,将其转换为GB2312编码为【1730,3901,3286,1729,2658,4143,3946,2786,4813,1580,3883,1896,3587】。
出现的频率为:Z2n1:【2,2,1,1,1,1,1,1,1,1,1,1,1】。
Z1C1和Z1C2比较,没有的语义信息相互补充,并且在Z1n1,Z2n2相应的频率中计数为0,则得到两个同维向量X,Y,,则X,Y分别为:
X:(2,2,1,1,1,1,0,0,1,1,1,1,1,1,1);
Y:(2,2,1,1,0,0,1,1,1,1,1,1,1,1,1);
计算公式:
计算结果:SimilaryValue值在0到0.8表示不相似,值在0.8到1表示相似。
根据公式计算z1和z2之间的语义相似度,把X,Y向量集带入公式,结果如下:
分布式存储方法将异构的数据进行切块,不管数据源的格式是什么,每块数据源默认的大小是64MB,最后一块小于等于64MB,这样可以将大数据分布在不同的存储节点,而数据之间的同步及检索,通过存储前存储的一张.META.语义信息表进行管理,从而实现异构数据源的存储。
基于语义标注的异构数据分布式存储方法,主要通过对异构数据源进行语义标注的方式进行数据融合,这种方法将原来互相独立的异构数据资源进行关联,实现了不同数据源的信息融合,利用语义让数据更加智能化;分布式存储采用数据切块的方法实现异构大数据的存储,让数据能够进行扩展,存储空间可以动态添加,避免了大数据受存储容量的限制。
本发明实现了数据融合存储,特别是异构数据的融合存储,存在存储数据互相独立和异构数据,不具有语义关联性,基于语义标注的异构数据分布式存储***,即解决了数据难融合不具语义的问题,又解决了异构大数据分布式存储问题。本发明提出了一种对数据源进行语义标注的方法和数据源语义相似度计算的技术,弥补了市场上此项功能的空白,采用分布式存储语义标签库和异构数据单元内容,实现了异构数据的分布式存储。
以上的仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (9)

1.一种基于语义标注的异构数据分布式存储方法,其特征在于,包括以下步骤:
1)建立异构数据源语义标签库和异构数据信息语义标签库;
2)建立异构数据存储单元内容;
3)将异构数据源语义标签库和异构数据信息语义标签库动态存储在.META.表信息中,将数据源语义和数据信息语义进行关系映射存储;
4)动态存储数据单位内容于存储块中;
5)对标注好的异构数据的语义信息进行语义相似度计算;
6)进行异构数据融合信息存储,将计算出的相似度值存储在.INFO.信息表中,将相似度值和异构数据的数据信息进行关系映射存储;
7)建立基于语义库的分布式数据信息检索信息;
8)将存储数据检索信息存储在.INDEX.表中。
2.根据权利要求1所述的基于语义标注的异构数据分布式存储方法,其特征在于,所述步骤1)具体包括以下步骤:
1.1)语义标签库创建;
1.2)异构数据源输入;
1.3)数据源语义解析和/或标注数据源名称和/或标注数据源类别和/或标注数据源格式和/或标注数据源时间;
1.4)数据信息语义解析和/或标注数据名称和/或标注数据归属信息和/或标注数据描述和/或标注数据时间。
3.根据权利要求1所述的基于语义标注的异构数据分布式存储方法,其特征在于,所述步骤4)还包括以下内容:
当异构数据源容量超过存储块的大小时,则***自动将数据源信息切分为若干小块,每块的容量不大于存储块的大小。
4.根据权利要求3所述的基于语义标注的异构数据分布式存储方法,其特征在于,所述存储块的大小为64M。
5.根据权利要求1所述的基于语义标注的异构数据分布式存储方法,其特征在于,所述步骤5)具体包括以下步骤:
5.1)读取两个存储单元;
5.2)对存储的异构数据的语义信息按字进行划分;
5.3)计算字频;
5.4)得到字频序列;
5.5)计算两个字频序列的COS夹角值。
6.根据权利要求5所述的基于语义标注的异构数据分布式存储方法,其特征在于,所述步骤5)具体包括以下步骤:
5.6)判断得到的夹角值是否大于a,若大于,则相似;否则,则不相似。
7.根据权利要求1-6任一项所述的基于语义标注的异构数据分布式存储方法,其特征在于,异构数据源语义标签包括:数据源名称和/或数据源类别和/或数据源描述和/或数据源格式和/或数据源创建时间。
8.根据权利要求7所述的基于语义标注的异构数据分布式存储方法,其特征在于,异构数据信息语义标签包括:数据名称和/或数据归属信息和/或数据描述和/或数据创建时间。
9.根据权利要求8所述的基于语义标注的异构数据分布式存储方法,其特征在于,索引信息包括数据源信息和/或数据信息和/或分布式存储的节点信息和/或索引时间。
CN201710608703.6A 2017-07-26 2017-07-26 一种基于语义标注的异构数据分布式存储方法 Pending CN107515902A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710608703.6A CN107515902A (zh) 2017-07-26 2017-07-26 一种基于语义标注的异构数据分布式存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710608703.6A CN107515902A (zh) 2017-07-26 2017-07-26 一种基于语义标注的异构数据分布式存储方法

Publications (1)

Publication Number Publication Date
CN107515902A true CN107515902A (zh) 2017-12-26

Family

ID=60722494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710608703.6A Pending CN107515902A (zh) 2017-07-26 2017-07-26 一种基于语义标注的异构数据分布式存储方法

Country Status (1)

Country Link
CN (1) CN107515902A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076366A (zh) * 2021-04-09 2021-07-06 南京邮电大学 一种智慧灯杆虚拟化方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102156726A (zh) * 2011-04-01 2011-08-17 中国测绘科学研究院 基于语义相似度的地理要素查询扩展方法
US20120078595A1 (en) * 2010-09-24 2012-03-29 Nokia Corporation Method and apparatus for ontology matching
CN102609854A (zh) * 2011-01-25 2012-07-25 青岛理工大学 一种基于统一相似度计算的客户划分方法及装置
CN104679823A (zh) * 2014-12-31 2015-06-03 智慧城市信息技术有限公司 基于语义标注的异构数据关联方法及***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120078595A1 (en) * 2010-09-24 2012-03-29 Nokia Corporation Method and apparatus for ontology matching
CN102609854A (zh) * 2011-01-25 2012-07-25 青岛理工大学 一种基于统一相似度计算的客户划分方法及装置
CN102156726A (zh) * 2011-04-01 2011-08-17 中国测绘科学研究院 基于语义相似度的地理要素查询扩展方法
CN104679823A (zh) * 2014-12-31 2015-06-03 智慧城市信息技术有限公司 基于语义标注的异构数据关联方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076366A (zh) * 2021-04-09 2021-07-06 南京邮电大学 一种智慧灯杆虚拟化方法
CN113076366B (zh) * 2021-04-09 2023-01-24 南京邮电大学 一种智慧灯杆虚拟化方法

Similar Documents

Publication Publication Date Title
US9645787B1 (en) Tag-based electronic media playlist processing
US20240220531A1 (en) Media consumption context for personalized instant query suggest
CN102024058B (zh) 音乐推荐方法及***
US20100251094A1 (en) Method and apparatus for providing comments during content rendering
US20140114979A1 (en) Method and apparatus for classifying commodities on e-commerce platform
CN106126503B (zh) 业务领域定位方法及终端
US11841893B2 (en) Coordination of parallel processing of audio queries across multiple devices
WO2021135358A1 (zh) 视频分发时效的确定方法和装置
CN109325180B (zh) 文章摘要推送方法、装置、终端设备、服务器及存储介质
CN103942328A (zh) 一种视频检索方法及视频装置
CN108334353B (zh) 技能开发***及方法
CN104679823A (zh) 基于语义标注的异构数据关联方法及***
WO2015070806A1 (zh) 一种音频文件的管理方法、装置和存储介质
CN103853775A (zh) 一种基于多媒体数据转换数据存储格式的方法
CN107515902A (zh) 一种基于语义标注的异构数据分布式存储方法
CN104133895A (zh) 一种基于二叉树的智能变电站二次设备连接图编码算法
Lee A Preliminary study on the semantic network analysis of book report text
Kobilarov et al. Dbpedia-a linked data hub and data source for web and enterprise applications
CN101600024B (zh) 一种移动终端及其播放器中播放列表显示方法
CN108509438A (zh) 一种ElasticSearch分片扩展方法
TW578067B (en) Knowledge graphic system and method based on ontology
CN106339454A (zh) 查询命令转化方法及装置
CN112580298A (zh) 一种标注数据获取方法、装置及设备
CN110232182A (zh) 语义识别方法、装置和语音对话***
CN109992697A (zh) 一种信息处理方法和电子设备

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171226