CN112100316A - 一种数据管理方法和装置 - Google Patents
一种数据管理方法和装置 Download PDFInfo
- Publication number
- CN112100316A CN112100316A CN202010975369.XA CN202010975369A CN112100316A CN 112100316 A CN112100316 A CN 112100316A CN 202010975369 A CN202010975369 A CN 202010975369A CN 112100316 A CN112100316 A CN 112100316A
- Authority
- CN
- China
- Prior art keywords
- data object
- data
- information
- parent
- child
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013523 data management Methods 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000010586 diagram Methods 0.000 claims abstract description 129
- 238000012545 processing Methods 0.000 claims description 23
- 238000004458 analytical method Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 8
- 238000007726 management method Methods 0.000 abstract description 18
- 230000008569 process Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据管理方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取非结构化数据,其中,非结构化数据包括至少一层嵌套关系以及嵌套关系对应的父数据对象和子数据对象;分别为父数据对象和子数据对象生成对应的包括特征信息的结构图;根据嵌套关系,构建父数据对象对应的结构图和子数据对象对应的结构图之间的逻辑关系;基于结构图和逻辑关系,对非结构化数据进行管理。该实施方式有效地提高了非结构化数据管理效率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据管理方法和装置。
背景技术
在这个互联网数据多样化的时代,有效管理数据是使用数据的基础。比如,将非结构化的数据进行结构化管理,以使这些数据能够更好地在信息搜索、数据安全维护等场景中发挥比较好地作用。
目前,主要通过数据库关系表将非结构化数据进行结构化管理,即根据数据库关系表的配置或者结构,将非结构化数据对应填充到相应地关系表中,以得到结构化的数据。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
由于需要为非结构化数据配置关系表或者为非结构化数据查找相应的关系表,现有的这种对非结构化数据进行结构化管理的方式,操作比较复杂,降低了数据管理效率。
发明内容
有鉴于此,本发明实施例提供一种数据管理方法和装置,能够基于非结构化数据本身得到包括特征信息的结构图以及父数据对象对应的结构图和子数据对象的结构图之间的逻辑关系,实现对非结构化数据进行更加直观的结构化管理,通过这种结构图和逻辑关系是基于非结构化数据本身得到的,而无需为非结构化数据构建或查找关系复杂的关系表,有效地提高了非结构化数据管理效率。
为实现上述目的,根据本发明实施例的一个方面,提供了一种数据管理方法,包括:
获取非结构化数据,其中,所述非结构化数据包括至少一层嵌套关系以及所述嵌套关系对应的父数据对象和子数据对象;
分别为所述父数据对象和所述子数据对象生成对应的包括特征信息的结构图;
根据所述嵌套关系,构建所述父数据对象对应的结构图和所述子数据对象对应的结构图之间的逻辑关系;
基于所述结构图和所述逻辑关系,对所述非结构化数据进行管理。
可选地,分别为所述父数据对象和所述子数据对象生成对应的包括特征信息的结构图,包括:
当所述父数据对象或所述子数据对象作为当前数据对象时,
为所述当前数据对象生成对应的容器节点;
解析所述当前数据对象包括的特征信息,并为所述特征信息构建对应的信息节点;
构建所述信息节点与所述容器节点之间的连接关系,得到所述包括特征信息的结构图。
可选地,分别为所述父数据对象和所述子数据对象生成对应的包括特征信息的结构图,包括:
为所述当前数据对象生成对应的容器节点以及与所述容器节点存在连接关系的多个信息节点,其中,每一个所述信息节点对应一种信息类别;
根据所述信息节点对应的信息类别,利用所述当前数据对象包括的特征信息填充所述信息节点,得到所述包括特征信息的结构图。
可选地,
所述多个信息节点,包括:格式信息节点、类型信息节点、文件基本属性信息节点、文件元信息节点、文本内容信息节点、原始内容信息节点、文档属性信息节点、标签信息节点中的任意多个。
可选地,基于所述结构图和所述逻辑关系,对所述非结构化数据进行管理,包括:
基于所述容器节点、所述信息节点、所述连接关系以及所述逻辑关系,为所述非结构化数据生成对应的内容解析树;
根据所述内容解析树,对所述非结构化数据进行管理。
可选地,对所述非结构化数据进行管理,包括:
为所述内容解析树匹配对应的安全策略;
根据所述内容解析树匹配出的安全策略,对所述非结构化数据进行安全处理。
可选地,
针对所述嵌套关系为多层的情况,
非第一层嵌套关系中的父数据对象为对应的上一层嵌套关系的子数据对象。
可选地,
根据多层所述嵌套关系,采用递归方式执行分别为所述父数据对象和所述子数据对象生成对应的包括特征信息的结构图的步骤。
可选地,数据管理方法,进一步包括:
根据预设深度,确定所述递归方式的停止位置。
可选地,数据管理方法,进一步包括:
为所述当前数据对象确定对应的基本属性,并在所述当前数据对象对应的容器节点存储所述基本属性,其中,所述基本属性包括:所述容器节点在所述内容解析树中的深度以及对应的索引位置。
可选地,数据管理方法,进一步包括:
在接收到对目标数据对象的查询请求时,根据所述目标数据对象对应的基本属性,从所述内容解析树中,查找所述目标数据对象对应的目标容器节点;
提供与所述目标容器节点具有连接关系的信息节点包括的特征信息。
第二方面,本发明实施例提供一种数据管理装置,包括:获取单元、数据处理单元以及数据管理单元,其中,
所述获取单元,用于获取非结构化数据,其中,所述非结构化数据包括至少一层嵌套关系以及所述嵌套关系对应的父数据对象和子数据对象;
所述数据处理单元,用于分别为所述获取单元获取到的所述父数据对象和所述子数据对象生成对应的包括特征信息的结构图;根据所述嵌套关系,构建所述父数据对象对应的结构图和所述子数据对象对应的结构图之间的逻辑关系;
所述数据管理单元,用于基于所述数据处理单元得到的所述结构图和所述逻辑关系,对所述非结构化数据进行管理。
上述发明中的一个实施例具有如下优点或有益效果:由于为获取的非结构化数据包括的父数据对象和子数据对象分别生成对应的包括特征信息的结构图,即通过包括特征信息的结构图实现对数据对象(父数据对象或子数据对象)的结构化,并根据父数据对象与子数据对象之间的嵌套关系(一般为子数据对象嵌套于父数据对象中),为结构图之间构建逻辑关系,即能够基于非结构化数据本身得到包括特征信息的结构图以及父数据对象对应的结构图和子数据对象的结构图之间的逻辑关系,实现对非结构化数据进行更加直观的结构化管理,通过这种结构图和逻辑关系是基于非结构化数据本身得到的,而无需为非结构化数据构建或查找关系复杂的关系表,有效地提高了非结构化数据管理效率。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的数据管理方法的主要流程的示意图;
图2是根据本发明实施例的非结构化数据对应的内容解析树的示意图;
图3是根据本发明实施例的生成结构图的主要流程的示意图;
图4是根据本发明另一实施例的生成结构图的主要流程的示意图;
图5是根据本发明实施例的管理非结构化数据方法的主要流程的示意图;
图6是根据本发明实施例的递归方式的主要流程的示意图;
图7是根据本发明另一实施例的基于内容解析树查询数据的主要流程的示意图;
图8是根据本发明实施例的数据管理装置的主要单元的示意图;
图9是本发明实施例可以应用于其中的示例性***架构图;
图10是适于用来实现本发明实施例的终端设备或服务器的计算机***的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明实施例的一种数据管理方法,如图1所示,该数据管理方法可包括:
步骤S101:获取非结构化数据,其中,非结构化数据包括至少一层嵌套关系以及嵌套关系对应的父数据对象和子数据对象;
步骤S102:分别为父数据对象和子数据对象生成对应的包括特征信息的结构图;
步骤S103:根据嵌套关系,构建父数据对象对应的结构图和子数据对象对应的结构图之间的逻辑关系;
步骤S104:基于结构图和逻辑关系,对非结构化数据进行管理。
其中,非结构化数据可以是电子化的任意类型的数据,比如,可以为电子邮件、电子邮件的正文、附件等数据,还可以为存储于服务器或终端上的文本、文本中嵌套的表格、文本的页眉、页脚等数据,还可以为网页上的数据如新闻、小说等,还可以为编程代码等。
其中,父数据对象和子数据对象是相对概念,其是针对一层嵌套关系来说的,即一层嵌套关系包括的父数据对象为该层嵌套关系对应的上一层嵌套关系的子数据对象,比如,邮件—邮件中的附件—附件文本包括的页眉,其中,邮件—邮件中的附件为一层嵌套关系,在该层嵌套关系中,邮件为父数据对象,邮件中的附件为子数据对象;邮件中的附件—附件文本包括的页眉为另一层嵌套关系,在该另一层嵌套关系中,邮件中的附件为父数据对象,附件文本包括的页眉为子数据对象。因此,在一层嵌套关系中,存在父数据对象以及子数据对象,其中,子数据对象嵌套于该父数据对象中,其中,父数据对象的个数和子数据对象的个数由非结构化数据本身所决定。又比如,一个压缩文件a.zip里面包含两个文件b.txt和c.doc,则a.zip作为父数据对象,解压缩之后b.txt和c.doc可作为a.zip的子数据对象。又比如,c.doc中包括一张图片d.jpg,则c.doc与d.jpg之间是另一层嵌套关系,在该另一层嵌套关系中,c.doc为父数据对象、d.jpg为子数据对象。在本发明实施例中,针对嵌套关系为多层的情况,非第一层嵌套关系中的父数据对象为对应的上一层嵌套关系的子数据对象。
其中,特征信息可包括:数据格式(该数据格式可以是父数据对象或子数据对象的某种标准化的组织方式的标识,比如纯文本文件格式、word 2003文档格式、PDF文档格式等)、数据类型(该数据类型是子数据对象与父数据对象逻辑关系的标识,比如正文、元信息、页眉、页脚、附件等)、数据基本属性(数据基本属性可包括数据来源文件的名称、路径、大小、拥有者、权限、创建时间、访问时间、修改时间等基本信息)、数据的元信息(该数据的元信息可包含文件与格式密切相关的特殊属性的集合,比如XMP属性、EXIF属性等)、数据内容(比如文件包含的文本信息、表格中包含的数字信息、邮件正文包含的信息等)、原始内容(比如文件包含的二进制信息等)、文档属性(针对特定文档格式从元信息中抽取的、在数据处理中特别关心的一些特殊属性集合,比如文档的创建者、版本、审查者、修改时间等)、标签(标签为通过文件***属性或者文档属性提取用于数据跟踪的抽象属性集合)中的任意多种。一般来说,特征信息包括的越丰富,越有利于数据管理。
其中,结构图和逻辑关系可如图2所示。在图2中,位于虚线框内的为数据对象(父数据对象或子数据对象)对应的结构图,其中,位于结构图中心的编码(比如CN0-0、CN1-0、CN1-1、CN2-0等)用于表征结构图的位置,而结构图中的F-IN、T-IN、FP-IN、M-IN、TE-IN、BD-IN、DP-IN、L-IN表征数据对象(父数据对象或子数据对象)的特征信息对应的信息节点,比如,F-IN表征格式信息节点(其所标识的数据格式来源于对应的数据对象的数据格式)、T-IN表征类型信息节点(其所标识的数据类型来源于对应的数据对象的数据类型)、FP-IN表征基本属性信息节点(其所标识的基本属性信息来源于数据对象的数据基本属性)、M-IN表征元信息节点(其所标识的基本属性信息来源于数据对象的数据的元信息)、TE-IN表征内容信息节点(其所标识的内容信息来源于对应的数据对象的数据内容)、BD-IN表征原始内容节点(其所标识的原始内容来源于对应的数据对象的原始内容)、DP-IN表征文档属性信息节点(其所标识的文档属性信息来源于对应的数据对象的文档属性)、L-IN表征标签信息节点(其所标识的标签来源于对应的数据对象的标签)。
其中,如图2所示,带箭头线段表征嵌套关系,其中,箭头指向父数据对象。使嵌套关系更加直观。比如,CN1-0指向CN0-0的带箭头线段表征CN0-0嵌套CN1-0,CN0-0为CN1-0的父数据对象,CN1-0为CN0-0的子数据对象,另外,图2中的CN1-1指向CN0-0的带箭头线段表征CN0-0嵌套CN1-1,CN0-0为CN1-1的父数据对象,CN1-1为CN0-0的子数据对象;CN2-0指向CN1-0的带箭头线段表征CN1-0嵌套CN2-0,CN1-0为CN2-0的父数据对象,CN2-0为CN1-0的子数据对象。比如,CN0-0为一封邮件,CN1-0为邮件的正文、CN1-1为邮件的附件,CN2-0为邮件正文中的表格等。又比如,CN0-0为一个压缩包,CN1-0为压缩包中的一个文件,CN1-1为压缩包中的另一个文件,CN2-0为CN1-0对应的文件中嵌套的excel表格等。即:图2所示的结构中,layer0包括的节点与layer1包括的节点组成一层嵌套关系,layer2包括的节点与layer2包括的节点组成另一层嵌套关系。值得说明的是,本发明实施例所针对的非结构化数据可以是任意类型的或者任意来源的数据。
针对图1所示的实施例,由于为获取的非结构化数据包括的父数据对象和子数据对象分别生成对应的包括特征信息的结构图,即通过包括特征信息的结构图实现对数据对象(父数据对象或子数据对象)的结构化,并根据父数据对象与子数据对象之间的嵌套关系(一般为子数据对象嵌套于父数据对象中),为结构图之间构建逻辑关系,即能够基于非结构化数据本身得到包括特征信息的结构图以及父数据对象对应的结构图和子数据对象的结构图之间的逻辑关系,实现对非结构化数据进行更加直观的结构化管理,通过这种结构图和逻辑关系是基于非结构化数据本身得到的,而无需为非结构化数据构建或查找关系复杂的关系表,有效地提高了非结构化数据管理效率。
在本发明实施例中,上述步骤S102可以有两种实现方式:
如图3所示,步骤S102的第一种实现方式可包括如下步骤:
步骤S301:当父数据对象或子数据对象作为当前数据对象时,为当前数据对象生成对应的容器节点;
步骤S302:解析当前数据对象包括的特征信息,并为特征信息构建对应的信息节点;
在该步骤中解析当前数据对象包括的特征信息可采用现有的文件或文本的解析方式实现。特征信息在前面实施例已经进行了说明,在此不再赘述。
步骤S303:构建信息节点与容器节点之间的连接关系,得到包括特征信息的结构图。
图3示出的过程是基于特征信息生成对应的信息节点,即当前数据对象不存在某一特征信息时,该特征信息对应的信息节点也不存在,即信息节点是由特征信息所决定,实现了为不同数据对象构建个性化地结构图。
如图4所示,步骤S102的第一种实现方式可包括如下步骤:
步骤S401:当父数据对象或子数据对象作为当前数据对象时,为当前数据对象生成对应的容器节点以及与容器节点存在连接关系的多个信息节点,其中,每一个信息节点对应一种信息类别;
步骤S402:根据信息节点对应的信息类别,利用当前数据对象包括的特征信息填充信息节点,得到包括特征信息的结构图。
图4示出的过程是先为当前数据对象生成对应的多个信息节点,即任意数据对象所对应的信息节点的类型是相同的(如图2所示),但是在信息节点中所填充的特征信息,因数据对象的不同而存在差异。使得所有数据对象对应的结构图一致,方便对结构图的管理和维护。
在本发明实施例中,如图5所示,上述步骤S104的具体实施方式可包括:
步骤S501:基于容器节点、信息节点、连接关系以及逻辑关系,为非结构化数据生成对应的内容解析树;
该内容解析树的结构可如图2所示。该连接关系主要是指容器节点与信息节点之间的连接关系。
步骤S502:根据内容解析树,对非结构化数据进行管理。
该内容解析树是将非结构化的数据结构化,即在本实施例基于结构化的数据对非结构化数据进行管理,使管理更加规范以及准确。
其中,上述步骤S502的一种具体实施方式可包括:为内容解析树匹配对应的安全策略;根据内容解析树匹配出的安全策略,对非结构化数据进行安全处理。比如,安全策略为对于邮件的附件文件中存在某一特征信息的附件文件进行加密处理,由于通过该内容解析树可以将非结构化数据中的特征信息解析出来,那么,基于该内容解析树可以直接判断出邮件中的附件文件是否满足安全策略,如果是,则对该邮件中的附件文件进行加密处理,以保证其安全性等。因此,通过内容解析树方便对非结构化数据进行管理。通过该过程可根据非结构化数据对应的内容解析树,对非数据化数据进行相应地安全防护,可有效地防止数据泄漏。
值得说明的是,为了进一步方便对非结构化数据的管理,还可为内容解析树与非结构化数据之间建立映射关系或关联关系,以在维护的众多内容解析树中能够直接准确的查找到某一非结构化数据对应的内容解析树。
在本发明实施例中,根据多层嵌套关系,采用递归方式执行分别为父数据对象和子数据对象生成对应的包括特征信息的结构图的步骤。
以基于邮件、邮件中嵌套有的正文、两个附件文件、一个附件文件嵌套有页眉、页脚构建内容解析树为例说明该递归方式具体实现方式。如图6所示,该递归方式可包括如下步骤:
步骤S601:为邮件生成包括特征信息的结构图;
该邮件对应的结构图所在位置可如图2所示的容器节点CN0-0对应的位置,即作为内容解析树的起始。即该邮件在layer0这一层。
步骤S602:为邮件嵌套的正文生成包括特征信息的结构图;
步骤S603:构建正文对应的结构图与邮件对应的结构图之间的逻辑关系;
步骤S604:为邮件嵌套的两个附件文件中的一个附件文件生成包括特征信息的结构图;
步骤S605:构建一个附件文件对应的结构图与邮件对应的结构图之间的逻辑关系;
步骤S606:为邮件嵌套的两个附件文件中的另一个附件文件生成包括特征信息的结构图;
步骤S607:构建另一个附件文件对应的结构图与邮件对应的结构图之间的逻辑关系;
由于步骤S602中的正文、步骤S604中的两个附件文件中的一个附件文件以及步骤S606中的两个附件文件中的另一个附件文件均嵌套于邮件中。则该正文对应的结构图、两个附件文件中的一个附件文件对应的结构图以及另一个附件对应的结构图可放置于图2所示的layer1这一层,而且,步骤S602、步骤S604以及步骤S606之间没有严格的先后顺序,但是构建逻辑关系的步骤一般放置于对应的结构图生成的步骤之后,比如,在为邮件嵌套的正文生成包括特征信息的结构图之后,执行构建正文对应的结构图与邮件对应的结构图之间的逻辑关系。
步骤S608:为邮件嵌套的一个附件文件嵌套的页眉生成包括特征信息的结构图;
步骤S609:构建该附件文件嵌套的页眉对应的结构图与该附件文件对应的结构图之间的逻辑关系;
步骤S610:为邮件嵌套的一个附件文件嵌套的页脚生成包括特征信息的结构图;
步骤S611:构建该附件文件嵌套的页脚对应的结构图与该附件文件对应的结构图之间的逻辑关系;
步骤S612:为邮件嵌套的另一个附件文件嵌套的页眉生成包括特征信息的结构图;
步骤S613:构建该另一个附件文件嵌套的页眉对应的结构图与该另一个附件文件对应的结构图之间的逻辑关系;
步骤S614:为邮件嵌套的另一个附件文件嵌套的页脚生成包括特征信息的结构图;
步骤S615:构建该另一个附件文件嵌套的页脚对应的结构图与该附件文件对应的结构图之间的逻辑关系。
由于页眉和页脚均为嵌套于附件文件中的,因此,步骤S608生成的一个附件文件嵌套的页眉对应的结构图、步骤S610生成的一个附件文件嵌套的页脚对应的结构图、步骤S612生成的另一个附件文件嵌套的页眉对应的结构图、步骤S614生成的另一个附件文件嵌套的页脚对应的结构图放置于图2所示的layer2这一层,而且步骤S608、步骤S610、步骤S612、步骤S614之间没有严格的先后顺序,但是一般是先处理完成属于同一个父数据对象的子数据对象,再处理属于另一个父数据对象的子数据对象,比如,页眉和页脚属于子数据对象,它们对应的父数据对象为它们所嵌套于的附件文件,则在两个附件文件嵌套的页眉、页脚生成对应的结构图过程,可先为一个附件文件嵌套的页眉、页脚分别生成对应的结构图,再为另一个附件文件嵌套的页眉、页脚分别生成对应的结构图。
通过图6所示的实施例可知,递归方式是从父数据对象向该父数据对象所嵌套的子数据对象层层递归。又比如,针对“压缩包-压缩包中的文件-文件中的正文”,通过递归方式构建结构图的过程:先为压缩包构建对应的结构图,然后为压缩包中的文件构建对应的结构图,最后为文件中的正文构建结构图。
在上述递归方式中,各个数据对象(父数据对象或子数据对象)生成对应结构图的过程基本一致,该结构图生成过程可选用图3或图4提供的方案实现。
在本发明实施例中,上述数据管理方法可进一步包括:根据预设深度,确定递归方式的停止位置。该预设深度一般是指内容解析树包括的容器节点层数或者内容解析树包括的嵌套关系层数,一般来说,内容解析树包括的容器节点层数减1内容解析树包括的嵌套关系层数,比如,如图2所示的内容解析树包括容器节点层数为3层(分别为layer0、layer1以及layer2),内容解析树包括的嵌套关系层数为2层(CN1-0→CN0-0以及CN1-1→CN0-0属于同一层嵌套关系、CN2-0→CN1-0属于另一层嵌套关系)。该预设深度可根据用户的需求进行相应地设置,也可根据非结构化数据的类型或者来源进行相应地设置,使得内容解析树的深度可以根据需求进行相应地变化,避免过度解析导致资源浪费。
在本发明实施例中,数据管理方法可进一步包括:为当前数据对象确定对应的基本属性,并在当前数据对象对应的容器节点存储基本属性,其中,基本属性包括:容器节点在内容解析树中的深度以及对应的索引位置。如图2所示,CN0-0、CN1-0、CN1-1、CN2-0即为数据对象的基本属性,其中,CN表征容器节点,“-”与“CN”之间的数字表征内容解析树的深度,“-”之后的数字表征数据对象所在层中的位置,则通过该基本属性可以快速对数据对象对应的结构图进行定位,以使非结构化数据管理更加高效。
在本发明实施例中,如图7所示,数据管理方法可进一步包括如下步骤:
S701:在接收到对目标数据对象的查询请求时,根据目标数据对象对应的基本属性,从内容解析树中,查找目标数据对象对应的目标容器节点;
S702:提供与目标容器节点具有连接关系的信息节点包括的特征信息。
值得说明的是,上述数据管理方法可应用于终端或者服务端,在应用于终端时,可对终端安装的客户端中的数据进行管理,比如对邮箱客户端中的数据进行管理、对用户存储在终端上的文件进行管理等。在应用于服务端时,可对服务端存储的信息比如用户信息、用户交易信息等进行管理。
另外,上述数据管理方法还可接收用户的配置信息,以根据用户需求对数据管理进行调整,使数据管理能够满足不同用户需求。
如图8所示,本发明实施例提供一种数据管理装置800,该数据管理装置800可包括:获取单元801、数据处理单元802以及数据管理单元803,其中,
获取单元801,用于获取非结构化数据,其中,非结构化数据包括至少一层嵌套关系以及嵌套关系对应的父数据对象和子数据对象;
数据处理单元802,用于分别为获取单元801获取到的父数据对象和子数据对象生成对应的包括特征信息的结构图;根据嵌套关系,构建父数据对象对应的结构图和子数据对象对应的结构图之间的逻辑关系;
数据管理单元803,用于基于数据处理单元802得到的结构图和逻辑关系,对非结构化数据进行管理。
在本发明实施例中,数据处理单元802,进一步用于当父数据对象或子数据对象作为当前数据对象时,为当前数据对象生成对应的容器节点;解析当前数据对象包括的特征信息,并为特征信息构建对应的信息节点;构建信息节点与容器节点之间的连接关系,得到包括特征信息的结构图。
在本发明实施例中,数据处理单元802,进一步用于当父数据对象或子数据对象作为当前数据对象时,为当前数据对象生成对应的容器节点以及与容器节点存在连接关系的多个信息节点,其中,每一个信息节点对应一种信息类别;根据信息节点对应的信息类别,利用当前数据对象包括的特征信息填充信息节点,得到包括特征信息的结构图。
在本发明实施例中,多个信息节点可包括:格式信息节点、类型信息节点、文件基本属性信息节点、文件元信息节点、文本内容信息节点、原始内容信息节点、文档属性信息节点、标签信息节点中的任意多个。
在本发明实施例中,数据管理单元803,进一步用于基于容器节点、信息节点、连接关系以及逻辑关系,为非结构化数据生成对应的内容解析树;根据内容解析树,对非结构化数据进行管理。
在本发明实施例中,数据管理单元803,进一步用于为内容解析树匹配对应的安全策略;根据内容解析树匹配出的安全策略,对非结构化数据进行安全处理。
在本发明实施例中,针对嵌套关系为多层的情况,非第一层嵌套关系中的父数据对象为对应的上一层嵌套关系的子数据对象。
在本发明实施例中,数据处理单元802,进一步用于根据多层嵌套关系,采用递归方式执行分别为父数据对象和子数据对象生成对应的包括特征信息的结构图的步骤。
在本发明实施例中,数据处理单元802,进一步用于根据预设深度,确定递归方式的停止位置。
在本发明实施例中,数据处理单元802,进一步用于为当前数据对象确定对应的基本属性,并在当前数据对象对应的容器节点存储基本属性,其中,基本属性包括:容器节点在内容解析树中的深度以及对应的索引位置。
在本发明实施例中,数据管理单元802,进一步用于在接收到对目标数据对象的查询请求时,根据目标数据对象对应的基本属性,从内容解析树中,查找目标数据对象对应的目标容器节点;提供与目标容器节点具有连接关系的信息节点包括的特征信息。
在本发明实施例中,数据管理装置可应用于终端和/或服务端。
图9示出了可以应用本发明实施例的数据管理方法或数据管理装置的示例性***架构900。
如图9所示,***架构900可以包括终端设备901、902、903,网络904和服务器905。网络904用以在终端设备901、902、903和服务器905之间提供通信链路的介质。网络904可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备901、902、903通过网络904与服务器905交互,以接收或发送消息等。终端设备901、902、903上可以安装有各种客户端应用,例如网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例),应用于终端设备901、902、903中的数据管理方法或数据管理装置,可对安装于终端设备上的各种客户端应用的数据、从服务器905接收到的数据等进行管理。
终端设备901、902、903可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器905可以是提供各种服务的服务器,例如对用户利用终端设备901、902、903所浏览的客户端应用提供支持的后台管理服务器(仅为示例)。相应地,应用于后台管理服务器的数据管理方法或数据管理装置,可以对后台管理服务器存储的数据比如用户浏览所产生的数据等进行管理。
综上,本发明实施例所提供的数据管理方法可由终端设备901、902、903和/或服务器905执行,相应地,数据管理装置可设置于终端设备901、902、903和/或服务器905中。
应该理解,图9中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图10,其示出了适于用来实现本发明实施例的终端设备或服务器的计算机***1000的结构示意图。图10示出的终端设备或服务器仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图10所示,计算机***1000包括中央处理单元(CPU)1001,其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行各种适当的动作和处理。在RAM 1003中,还存储有***1000操作所需的各种程序和数据。CPU 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
以下部件连接至I/O接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。在该计算机程序被中央处理单元(CPU)1001执行时,执行本发明的***中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、数据处理单元以及数据管理单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取非结构化数据的单元”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:获取非结构化数据,其中,非结构化数据包括至少一层嵌套关系以及嵌套关系对应的父数据对象和子数据对象;分别为父数据对象和子数据对象生成对应的包括特征信息的结构图;根据嵌套关系,构建父数据对象对应的结构图和子数据对象对应的结构图之间的逻辑关系;基于结构图和逻辑关系,对非结构化数据进行管理。
根据本发明实施例的技术方案,由于为获取的非结构化数据包括的父数据对象和子数据对象分别生成对应的包括特征信息的结构图,即通过包括特征信息的结构图实现对数据对象(父数据对象或子数据对象)的结构化,并根据父数据对象与子数据对象之间的嵌套关系(一般为子数据对象嵌套于父数据对象中),为结构图之间构建逻辑关系,即能够基于非结构化数据本身得到包括特征信息的结构图以及父数据对象对应的结构图和子数据对象的结构图之间的逻辑关系,实现对非结构化数据进行更加直观的结构化管理,通过这种结构图和逻辑关系是基于非结构化数据本身得到的,而无需为非结构化数据构建或查找关系复杂的关系表,有效地提高了非结构化数据管理效率。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (14)
1.一种数据管理方法,其特征在于,包括:
获取非结构化数据,其中,所述非结构化数据包括至少一层嵌套关系以及所述嵌套关系对应的父数据对象和子数据对象;
分别为所述父数据对象和所述子数据对象生成对应的包括特征信息的结构图;
根据所述嵌套关系,构建所述父数据对象对应的结构图和所述子数据对象对应的结构图之间的逻辑关系;
基于所述结构图和所述逻辑关系,对所述非结构化数据进行管理。
2.根据权利要求1所述的数据管理方法,其特征在于,分别为所述父数据对象和所述子数据对象生成对应的包括特征信息的结构图,包括:
当所述父数据对象或所述子数据对象作为当前数据对象时,
为所述当前数据对象生成对应的容器节点;
解析所述当前数据对象包括的特征信息,并为所述特征信息构建对应的信息节点;
构建所述信息节点与所述容器节点之间的连接关系,得到所述包括特征信息的结构图。
3.根据权利要求1所述的数据管理方法,其特征在于,分别为所述父数据对象和所述子数据对象生成对应的包括特征信息的结构图,包括:
当所述父数据对象或所述子数据对象作为当前数据对象时,
为所述当前数据对象生成对应的容器节点以及与所述容器节点存在连接关系的多个信息节点,其中,每一个所述信息节点对应一种信息类别;
根据所述信息节点对应的信息类别,利用所述当前数据对象包括的特征信息填充所述信息节点,得到所述包括特征信息的结构图。
4.根据权利要求3所述的数据管理方法,其特征在于,
所述多个信息节点,包括:格式信息节点、类型信息节点、文件基本属性信息节点、文件元信息节点、文本内容信息节点、原始内容信息节点、文档属性信息节点、标签信息节点中的任意多个。
5.根据权利要求1至4任一所述的数据管理方法,其特征在于,基于所述结构图和所述逻辑关系,对所述非结构化数据进行管理,包括:
基于所述容器节点、所述信息节点、所述连接关系以及所述逻辑关系,为所述非结构化数据生成对应的内容解析树;
根据所述内容解析树,对所述非结构化数据进行管理。
6.根据权利要求5所述的数据管理方法,其特征在于,对所述非结构化数据进行管理,包括:
为所述内容解析树匹配对应的安全策略;
根据所述内容解析树匹配出的安全策略,对所述非结构化数据进行安全处理。
7.根据权利要求1至4任一所述的数据管理方法,其特征在于,
针对所述嵌套关系为多层的情况,
非第一层嵌套关系中的父数据对象为对应的上一层嵌套关系的子数据对象。
8.根据权利要求7所述的数据管理方法,其特征在于,
根据多层所述嵌套关系,采用递归方式执行分别为所述父数据对象和所述子数据对象生成对应的包括特征信息的结构图的步骤。
9.根据权利要求8所述的数据管理方法,其特征在于,进一步包括:
根据预设深度,确定所述递归方式的停止位置。
10.根据权利要求5所述的数据管理方法,其特征在于,进一步包括:
为所述当前数据对象确定对应的基本属性,并在所述当前数据对象对应的容器节点存储所述基本属性,其中,所述基本属性包括:所述容器节点在所述内容解析树中的深度以及对应的索引位置。
11.根据权利要求10所述的数据管理方法,其特征在于,进一步包括:
在接收到对目标数据对象的查询请求时,根据所述目标数据对象对应的基本属性,从所述内容解析树中,查找所述目标数据对象对应的目标容器节点;
提供与所述目标容器节点具有连接关系的信息节点包括的特征信息。
12.一种数据管理装置,其特征在于,包括:获取单元、数据处理单元以及数据管理单元,其中,
所述获取单元,用于获取非结构化数据,其中,所述非结构化数据包括至少一层嵌套关系以及所述嵌套关系对应的父数据对象和子数据对象;
所述数据处理单元,用于分别为所述获取单元获取到的所述父数据对象和所述子数据对象生成对应的包括特征信息的结构图;根据所述嵌套关系,构建所述父数据对象对应的结构图和所述子数据对象对应的结构图之间的逻辑关系;
所述数据管理单元,用于基于所述数据处理单元得到的所述结构图和所述逻辑关系,对所述非结构化数据进行管理。
13.一种数据管理电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-11中任一所述的方法。
14.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-11中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010975369.XA CN112100316A (zh) | 2020-09-16 | 2020-09-16 | 一种数据管理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010975369.XA CN112100316A (zh) | 2020-09-16 | 2020-09-16 | 一种数据管理方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112100316A true CN112100316A (zh) | 2020-12-18 |
Family
ID=73759271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010975369.XA Pending CN112100316A (zh) | 2020-09-16 | 2020-09-16 | 一种数据管理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112100316A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101136018A (zh) * | 2006-08-29 | 2008-03-05 | 国际商业机器公司 | 为检索对多个文档进行预处理及呈现检索结果的方法和装置 |
CN101231644A (zh) * | 2007-01-25 | 2008-07-30 | 富士施乐株式会社 | 信息处理装置、信息处理***和信息处理方法 |
CN103559322A (zh) * | 2013-11-22 | 2014-02-05 | 方正国际软件有限公司 | 文档格式转换方法 |
CN108369598A (zh) * | 2015-10-23 | 2018-08-03 | 甲骨文国际公司 | 对于半结构化数据的列状数据布置 |
CN110046236A (zh) * | 2019-03-20 | 2019-07-23 | 腾讯科技(深圳)有限公司 | 一种非结构化数据的检索方法及装置 |
CN110222319A (zh) * | 2019-06-19 | 2019-09-10 | 北京百度网讯科技有限公司 | 用于挖掘数据的方法和装置 |
CN110377884A (zh) * | 2019-06-13 | 2019-10-25 | 北京百度网讯科技有限公司 | 文档解析方法、装置、计算机设备及存储介质 |
CN111190880A (zh) * | 2019-08-08 | 2020-05-22 | 腾讯科技(深圳)有限公司 | 一种数据库检测方法、装置和计算机可读存储介质 |
-
2020
- 2020-09-16 CN CN202010975369.XA patent/CN112100316A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101136018A (zh) * | 2006-08-29 | 2008-03-05 | 国际商业机器公司 | 为检索对多个文档进行预处理及呈现检索结果的方法和装置 |
CN101231644A (zh) * | 2007-01-25 | 2008-07-30 | 富士施乐株式会社 | 信息处理装置、信息处理***和信息处理方法 |
CN103559322A (zh) * | 2013-11-22 | 2014-02-05 | 方正国际软件有限公司 | 文档格式转换方法 |
CN108369598A (zh) * | 2015-10-23 | 2018-08-03 | 甲骨文国际公司 | 对于半结构化数据的列状数据布置 |
CN110046236A (zh) * | 2019-03-20 | 2019-07-23 | 腾讯科技(深圳)有限公司 | 一种非结构化数据的检索方法及装置 |
CN110377884A (zh) * | 2019-06-13 | 2019-10-25 | 北京百度网讯科技有限公司 | 文档解析方法、装置、计算机设备及存储介质 |
CN110222319A (zh) * | 2019-06-19 | 2019-09-10 | 北京百度网讯科技有限公司 | 用于挖掘数据的方法和装置 |
CN111190880A (zh) * | 2019-08-08 | 2020-05-22 | 腾讯科技(深圳)有限公司 | 一种数据库检测方法、装置和计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110019080B (zh) | 数据访问方法和装置 | |
US20150339324A1 (en) | System and Method for Imagery Warehousing and Collaborative Search Processing | |
US20120143923A1 (en) | Method and system of hierarchical metadata management and application | |
US10936645B2 (en) | Method and apparatus for generating to-be-played multimedia content | |
CN107203574B (zh) | 数据管理和数据分析的聚合 | |
CN107491382B (zh) | 日志输出方法和装置 | |
CN110471848B (zh) | 一种动态返回报文的方法和装置 | |
CN110020358B (zh) | 用于生成动态页面的方法和装置 | |
CN109522751B (zh) | 访问权限控制方法、装置、电子设备及计算机可读介质 | |
CN110795315A (zh) | 监控业务的方法和装置 | |
CN113626223A (zh) | 一种接口调用方法和装置 | |
CN107844488B (zh) | 数据查询方法和装置 | |
CN108289118A (zh) | 一种分布式消息流的管理方法和装置 | |
CN113268955A (zh) | 报文转换的方法和装置 | |
CN108959294B (zh) | 一种访问搜索引擎的方法和装置 | |
CN113190517B (zh) | 数据集成方法、装置、电子设备和计算机可读介质 | |
CN112818026A (zh) | 数据整合方法和装置 | |
CN110162412B (zh) | 在客户端进行数据操作的方法和装置 | |
CN113761565B (zh) | 数据脱敏方法和装置 | |
CN117407414A (zh) | 结构化查询语句的处理方法、装置、设备、介质 | |
CN113779017A (zh) | 数据资产管理的方法和装置 | |
CN116069725A (zh) | 文件迁移方法、装置、设备、介质和程序产品 | |
CN112100316A (zh) | 一种数据管理方法和装置 | |
US11243932B2 (en) | Method, device, and computer program product for managing index in storage system | |
CN113742321A (zh) | 一种数据更新的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |