CN104102652A - 一种非结构化数据存储***及方法 - Google Patents

一种非结构化数据存储***及方法 Download PDF

Info

Publication number
CN104102652A
CN104102652A CN201310118763.1A CN201310118763A CN104102652A CN 104102652 A CN104102652 A CN 104102652A CN 201310118763 A CN201310118763 A CN 201310118763A CN 104102652 A CN104102652 A CN 104102652A
Authority
CN
China
Prior art keywords
unstructured data
server
xml
file
source system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310118763.1A
Other languages
English (en)
Other versions
CN104102652B (zh
Inventor
徐小天
王刚
陈威
石磊
陈乐然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
North China Electric Power Research Institute Co Ltd
Original Assignee
State Grid Corp of China SGCC
North China Electric Power Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, North China Electric Power Research Institute Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201310118763.1A priority Critical patent/CN104102652B/zh
Publication of CN104102652A publication Critical patent/CN104102652A/zh
Application granted granted Critical
Publication of CN104102652B publication Critical patent/CN104102652B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种非结构化数据存储***及方法,包括:源***数据服务器存储企业业务***特征数据;XML生成器服务器根据源***数据服务器的记录特征生成XML文件,并将源***数据服务器中的非结构化数据文件本体进行提取,以与XML文件进行配对,生成XML文件与非结构化数据文件本体的对应关系;XML解析器服务器将XML文件按照字段匹配规则进行解析,获取XML文件对应的属性和分类信息;并根据XML文件对应的属性和分类信息,将配对后的XML文件与非结构化数据文件本体的对应关系存储到相应分类并赋予对应属性;非结构化数据服务器存储配对后的XML文件与非结构化数据文件本体的对应关系。本发明可以将各种类型源***中的数据根据一定的业务规则导入至非结构化数据存储***中。

Description

一种非结构化数据存储***及方法
技术领域
本发明涉及企业信息化技术,尤其涉及一种非结构化数据存储***及方法。
背景技术
BPM(Business Process Management,即业务流程管理,是一套达成企业各种业务环节整合的全面管理方式,它通常以网络方式实现信息传递、数据同步、业务监控和企业业务流程的持续升级与优化)是提高现代企业信息化水平的重要技术。使用统一的流程描述规范对业务进行形式化定义,可以方便的完成企业的信息化***集成、再造等工作,实现信息化***的明确业务分割。在BPM过程的***实现层面,常会涉及到多个业务子***的数据交互问题:多个业务数据上可能存在相互依赖的***采用不同的数据存储和传输规范,从而为***间进行数据交互带来了较大障碍,这在遗留***间以及遗留***与新开发***的交互过程中最为常见。为解决该类问题,通常需要为***间的数据接口开发相应的数据读写***,以实现正常的数据交互。
电力行业企业中普遍部署了ERP(Enterprise Resource Planning,即企业资源计划,是针对物资资源管理、人力资源管理、财务资源管理、信息资源管理集成一体化的企业管理软件套件,是现代企业信息化主流解决方案的重要组成部分)、电力MIS(ManagementInformation System,即管理信息***是一个以人为主导,利用计算机软硬件、网络通信设备以及其它办公设备,进行信息的收集、传输、加工、储存、更新和维护,以企业战略竞优、提高效益和效率为目的,支持企业的高层决策、中层控制和基层运作的集成化人机***)等***。通常使用ERP进行企业财务、资产、运营等方面的管理,而使用电力MIS进行两票、设备、检修等生产任务的管理。上述***在国内市场已形成较为成熟的产品系列,多数解决方案中的业务数据采用结构化存储方式,即将数据存放于数据库的多个二维数据表中。而对业务数据中的非结构化数据(相对于结构化数据(行数据,存储在数据库中,可以用二维表结构来逻辑表达实现的数据)而言,无法用数据库二维逻辑表来表示的数据称为非结构化数据,主要包括各种格式的计算机文件,包括大文本、图片、音频、视频等格式),则主要有两种存储方式:一种是将非结构化数据本身作为一个二进制串,直接作为字段存放在数据库表的记录中;另一种则是在数据库表中存放指向非结构化数据存储路径的URL(Uniform Resource Locator,统一资源定位符),而将非结构化数据本身存放在独立的文件***中。
在电力企业内,上述***中的非结构化文件主要包括各类设备设计文档、合同及说明文件、技术报告和检测报告、现场录音录像等,它们通常以附件的形式组织在***流程中。在一般情况下,这些附件无法直接查找,也无法按类别、属性进行索引,只能通过查找所关联的业务流程,间接的获取相关信息。而电力企业为了掌握这部分生产相关的非结构化数据,需要建立专门用于存储和管理非结构化数据的数据存储***,对非结构化数据按照不同的属性维度(比如按照年份、设备类型、制造商、重要程度等)进行分类索引,以方便从不同角度对其进行搜索和管理。
在上述背景下,如何对原有业务流程和生产信息管理***中的非结构化数据和与之关联的结构化属性进行自动化的提取,建立原有***中的流程、数据记录与非结构化数据存储***中的非结构化文档的对应关系就成为本领域的技术人员所要解决的问题。
现有技术业务流程***中结构化数据的提取尚未形成通用的技术规范,目前较为主流的方法是开发独立的数据读写模块,以构建单个源***与目标***之间的数据读写通道,使用该种解决方案,一般需要如下步骤:首先确定目标***进行非结构化数据存储所需的分类以及属性信息,整理出对应的源***应提供的字段列表;查看数据库,确定非结构化数据本体的存放位置,如果直接以大字段方式存储,则对该字段进行反序列化,否则根据非结构化数据本体的存储路径读取数据本体;针对特定的源***开发适配工具,在该适配工具中配置源***数据库参数,从源***数据库中分别读取非结构化数据和需要抽取的对应特征数据字段;适配工具调用目标***接口,将源***抽取的特征数据按照匹配规则作为相应非结构化文档的属性/类别信息写入目标***数据库,并根据属性/类别信息将非结构化数据写入目标***。
上述解决方案的主要缺点如下:开发成本高:需要为每个源***开发一套独立的***适配工具,以使源***特征数据与目标***(非结构化数据存储***)的属性/类别字段相匹配;耦合程度高:该方案中源***数据抽取与目标***的数据写入均由同一个适配器完成,没有进行合理的功能区隔。无论是源***数据存储结构出现变化,还是目标***所使用的属性及类别发生调整,都需要对适配工具进行重新开发。尤其是存在多个源***时,目标***的调整将导致所有源***适配工具的重新开发,从而适应调整后的非结构化数据关联属性;纠错难度高:由于各适配器直接读取源***数据表格,不生成提取过程的中间文件,一旦发生错误仍需要读写源***数据库进行追踪,并需要从数据提取步骤进行重新操作,修正成本较高。
综上可见,如何设计一种自动化提取电力企业生产业务特征数据的方法,以将各种类型源***中的数据根据一定的业务规则导入至非结构化数据存储***中,这是本领域的技术人员亟待解决的一个技术难题。
发明内容
本发明实施例提供一种非结构化数据存储***及方法,以将各种类型源***中的数据根据一定的业务规则导入至非结构化数据存储***中。
一方面,本发明实施例提供了一种非结构化数据存储***,所述企业业务特征数据存储***包括:源***数据服务器、XML生成器服务器、XML解析器服务器、非结构化数据服务器,其中:
所述源***数据服务器,用于存储企业业务***特征数据;
所述XML生成器服务器,与所述源***数据服务器相耦接,用于根据所述源***数据服务器的记录特征生成XML文件,并将所述源***数据服务器中的非结构化数据文件本体进行提取,以与所述XML文件进行配对,生成XML文件与非结构化数据文件本体的对应关系;
所述XML解析器服务器,与所述XML生成器服务器相耦接,用于将所述XML文件按照字段匹配规则进行解析,获取所述XML文件对应的属性和分类信息;并根据所述XML文件对应的属性和分类信息,将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到相应分类并赋予对应属性;
所述非结构化数据服务器,与所述XML解析器服务器相耦接,用于存储配对后的所述XML文件与非结构化数据文件本体的对应关系。
可选的,在本发明一实施例中,所述XML生成器服务器将所述源***数据服务器中的非结构化数据文件本体进行提取,包括:检索所述源***数据服务器,确定非结构化数据文件本体的存放位置;根据所述非结构化数据文件本体的存放位置进行提取。
可选的,在本发明一实施例中,所述XML生成器服务器根据所述非结构化数据文件本体的存放位置进行提取,进一步包括:如果所述源***数据服务器的非结构化数据文件本体直接以大字段方式在数据表中存储,则对所述大字段进行反序列化,否则根据非结构化数据文件本体的存储路径读取对应的非结构化数据文件本体。
可选的,在本发明一实施例中,所述非结构化数据服务器,以文件偶的形式存储配对后的所述XML文件与非结构化数据文件本体的对应关系。
可选的,在本发明一实施例中,所述XML生成器服务器根据所述源***数据服务器的记录特征生成的XML文件中的单条记录的每个数据字段作为XML文件的一个节点,如果记录的某字段引用了其他表中的记录,则将该条字段引用记录作为当前字段节点的子节点。
另一方面,本发明实施例提供了一种非结构化数据存储方法,所述方法应用于企业业务特征数据存储***,该***包括:源***数据服务器、XML生成器服务器、XML解析器服务器、非结构化数据服务器,所述源***数据服务器,用于存储企业业务***特征数据;其中,所述方法包括:
通过所述XML生成器服务器根据所述源***数据服务器的记录特征生成XML文件,并将所述源***数据服务器中的非结构化数据文件本体进行提取,以与所述XML文件进行配对,生成XML文件与非结构化数据文件本体的对应关系;
通过所述XML解析器服务器将所述XML文件按照字段匹配规则进行解析,获取所述XML文件对应的属性和分类信息;
根据所述XML文件对应的属性和分类信息,将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到所述非结构化数据服务器中的相应分类并赋予对应属性。
可选的,在本发明一实施例中,所述将所述源***数据服务器中的非结构化数据文件本体进行提取,包括:检索所述源***数据服务器,确定非结构化数据文件本体的存放位置;根据所述非结构化数据文件本体的存放位置进行提取。
可选的,在本发明一实施例中,所述根据所述非结构化数据文件本体的存放位置进行提取,包括:如果所述源***数据服务器的非结构化数据文件本体直接以大字段方式在数据表中存储,则对所述大字段进行反序列化,否则根据非结构化数据文件本体的存储路径读取对应的非结构化数据文件本体。
可选的,在本发明一实施例中,所述将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到所述非结构化数据服务器中的相应分类并赋予对应属性,包括:以文件偶的形式,将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到所述非结构化数据服务器中的相应分类并赋予对应属性。
可选的,在本发明一实施例中,所述通过所述XML生成器服务器根据所述源***数据服务器的记录特征生成XML文件,包括:通过所述XML生成器服务器根据所述源***数据服务器的记录特征生成XML文件,其中,所述XML文件中的单条记录的每个数据字段作为XML文件的一个节点,如果记录的某字段引用了其他表中的记录,则将该条字段引用记录作为当前字段节点的子节点。
上述技术方案具有如下有益效果:因为采用所述企业业务特征数据存储***包括:源***数据服务器、XML生成器服务器、XML解析器服务器、非结构化数据服务器,其中:所述源***数据服务器,用于存储企业业务***特征数据;所述XML生成器服务器,与所述源***数据服务器相耦接,用于根据所述源***数据服务器的记录特征生成XML文件,并将所述源***数据服务器中的非结构化数据文件本体进行提取,以与所述XML文件进行配对,生成XML文件与非结构化数据文件本体的对应关系;所述XML解析器服务器,与所述XML生成器服务器相耦接,用于将所述XML文件按照字段匹配规则进行解析,获取所述XML文件对应的属性和分类信息;并根据所述XML文件对应的属性和分类信息,将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到相应分类并赋予对应属性;所述非结构化数据服务器,与所述XML解析器服务器相耦接,用于存储配对后的所述XML文件与非结构化数据文件本体的对应关系的技术手段,所以达到了如下的技术效果:仅需开发一套XML生成器,一套XML解析器,就可以满足所有类型的源***至目标***的数据导入;无论源***还是目标***的数据表结构发生变化时,仅需要修改XML解析器使用的字段匹配规则配置文件,大大减少了开发工作量;将源***数据抽取与目标***的数据导入分隔为两个独立步骤,中间以标准化的XML文件进行数据交换,实现了较高程度的***解耦;数据提取的结果采用XML与非结构化数据对应的形式进行存储,如果出现数据导入错误可以方便的根据所保留的中间结果进行排查和回溯。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种非结构化数据存储***组成结构示意图;
图2为本发明实施例一种非结构化数据存储方法流程图;
图3为本发明应用实例***结构示意图;
图4为本发明应用实例图3中的***运作机制流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明实施例一种非结构化数据存储***组成结构示意图,所述企业业务特征数据存储***包括:源***数据服务器11、XML生成器服务器12、XML解析器服务器13、非结构化数据服务器14,其中:
所述源***数据服务器11,用于存储企业业务***特征数据;
所述XML生成器服务器12,与所述源***数据服务器11相耦接,用于根据所述源***数据服务器的记录特征生成XML文件,并将所述源***数据服务器中的非结构化数据文件本体进行提取,以与所述XML文件进行配对,生成XML文件与非结构化数据文件本体的对应关系;
所述XML解析器服务器13,与所述XML生成器服务器12相耦接,用于将所述XML文件按照字段匹配规则进行解析,获取所述XML文件对应的属性和分类信息;并根据所述XML文件对应的属性和分类信息,将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到相应分类并赋予对应属性;
所述非结构化数据服务器14,与所述XML解析器服务器13相耦接,用于存储配对后的所述XML文件与非结构化数据文件本体的对应关系。
可选的,所述XML生成器服务器12将所述源***数据服务器11中的非结构化数据文件本体进行提取,包括:检索所述源***数据服务器,确定非结构化数据文件本体的存放位置;根据所述非结构化数据文件本体的存放位置进行提取。
可选的,所述XML生成器服务器12根据所述非结构化数据文件本体的存放位置进行提取,进一步包括:如果所述源***数据服务器的非结构化数据文件本体直接以大字段方式在数据表中存储,则对所述大字段进行反序列化,否则根据非结构化数据文件本体的存储路径读取对应的非结构化数据文件本体。
可选的,所述非结构化数据服务器14,以文件偶的形式存储配对后的所述XML文件与非结构化数据文件本体的对应关系。
可选的,所述XML生成器服务器12根据所述源***数据服务器11的记录特征生成的XML文件中的单条记录的每个数据字段作为XML文件的一个节点,如果记录的某字段引用了其他表中的记录,则将该条字段引用记录作为当前字段节点的子节点。
对应于上述方法实施例,如图2所示,为本发明实施例一种非结构化数据存储方法流程图,所述方法应用于企业业务特征数据存储***,该***包括:源***数据服务器、XML生成器服务器、XML解析器服务器、非结构化数据服务器,所述源***数据服务器,用于存储企业业务***特征数据;其中,所述方法包括:
201、通过所述XML生成器服务器根据所述源***数据服务器的记录特征生成XML文件,并将所述源***数据服务器中的非结构化数据文件本体进行提取,以与所述XML文件进行配对,生成XML文件与非结构化数据文件本体的对应关系;
202、通过所述XML解析器服务器将所述XML文件按照字段匹配规则进行解析,获取所述XML文件对应的属性和分类信息;
203、根据所述XML文件对应的属性和分类信息,将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到所述非结构化数据服务器中的相应分类并赋予对应属性。
可选的,所述将所述源***数据服务器中的非结构化数据文件本体进行提取,包括:检索所述源***数据服务器,确定非结构化数据文件本体的存放位置;根据所述非结构化数据文件本体的存放位置进行提取。
可选的,所述根据所述非结构化数据文件本体的存放位置进行提取,包括:如果所述源***数据服务器的非结构化数据文件本体直接以大字段方式在数据表中存储,则对所述大字段进行反序列化,否则根据非结构化数据文件本体的存储路径读取对应的非结构化数据文件本体。
可选的,所述将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到所述非结构化数据服务器中的相应分类并赋予对应属性,包括:以文件偶的形式,将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到所述非结构化数据服务器中的相应分类并赋予对应属性。
可选的,所述通过所述XML生成器服务器根据所述源***数据服务器的记录特征生成XML文件,包括:通过所述XML生成器服务器根据所述源***数据服务器的记录特征生成XML文件,其中,所述XML文件中的单条记录的每个数据字段作为XML文件的一个节点,如果记录的某字段引用了其他表中的记录,则将该条字段引用记录作为当前字段节点的子节点。
本发明实施例上述技术方案具有如下有益效果:因为采用所述企业业务特征数据存储***包括:源***数据服务器、XML生成器服务器、XML解析器服务器、非结构化数据服务器,其中:所述源***数据服务器,用于存储企业业务***特征数据;所述XML生成器服务器,与所述源***数据服务器相耦接,用于根据所述源***数据服务器的记录特征生成XML文件,并将所述源***数据服务器中的非结构化数据文件本体进行提取,以与所述XML文件进行配对,生成XML文件与非结构化数据文件本体的对应关系;所述XML解析器服务器,与所述XML生成器服务器相耦接,用于将所述XML文件按照字段匹配规则进行解析,获取所述XML文件对应的属性和分类信息;并根据所述XML文件对应的属性和分类信息,将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到相应分类并赋予对应属性;所述非结构化数据服务器,与所述XML解析器服务器相耦接,用于存储配对后的所述XML文件与非结构化数据文件本体的对应关系的技术手段,所以达到了如下的技术效果:仅需开发一套XML生成器,一套XML解析器,就可以满足所有类型的源***至目标***的数据导入;无论源***还是目标***的数据表结构发生变化时,仅需要修改XML解析器使用的字段匹配规则配置文件,大大减少了开发工作量;将源***数据抽取与目标***的数据导入分隔为两个独立步骤,中间以标准化的XML文件进行数据交换,实现了较高程度的***解耦;数据提取的结果采用XML与非结构化数据对应的形式进行存储,如果出现数据导入错误可以方便的根据所保留的中间结果进行排查和回溯。
以下举应用实例进行详细说明:
针对现有技术方案的不足,本发明应用实例方案将各源***(源***数据服务器)的数据抽取与目标***(非结构化数据服务器)的数据写入作为两个独立的步骤完成。本发明应用实例中,为所有的源***设置的一个数据抽取模块(设置于XML生成器服务器中,以下称XML生成器),该模块将源数据库单条记录中所有特征数据一次性读出,按照既定规则生成(为每条记录生成唯一的)XML(Extensible Markup Language,即可扩展标记语言,它是一种用于标记电子文件使其具有结构性的标记语言,可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言)文档;设置单一XML解析器(设置于XML解析器服务器中,以下称XML解析器),对各源***生成的XML文档进行解析,并将解析结果写入目标***数据库中,如图3所示,为本发明应用实例***结构示意图。
如图4所示,为本发明应用实例图3中的***运作机制流程示意图,包括:
401、开始;
402、源数据库记录读取;
403、识别目标***数据库中与单条记录相关的所有结构化字段信息,生成源记录相关特征字段XML文件;其中单条记录的每个数据字段作为XML文件的一个节点,如果记录的某字段引用了其他表中的记录,则将该条引用记录作为当前字段节点的子节点;
404、判断非结构化数据文件本体是否存储在表内?如果是,则转405,否认,转406;
405、如果源***的非结构化数据文件本体直接以大字段方式在数据表中存储,则进行文件本体字段反序列化;
406、如果非结构化数据文件本体没有存储在表内,则读取文件存储路径;
407、按照路径读取非结构化数据文件本体;
408、进行XML文件与提取的非结构化数据文件本体配对,作为目标***数据导入模块(即图3中的XML解析器)的输入;
409、目标***的数据导入模块将分析输入的XML文件,按照字段匹配规则配置文件提取需要用到的特征数据字段,作为非结构化文档的属性和分类信息,并依此将对应的非结构化数据存储到相应分类并写入特定属性;
410、目标***非结构化数据写入;采用文件偶的形式将XML文件与非结构化数据文件本体进行存储,如果出现数据导入错误可以方便的根据所保留的中间结果进行排查和回溯;
411、结束。
本发明应用实例方案相比现行主流技术方案,在以下几个方面进行了改进:仅需开发一套XML生成器,一套XML解析器(需要说明的是,XML生成器与XML解析器的物理实现可分别设置于两个服务器中,或者设置于同一服务器中;另外,可以分别为每个源***单独设计开发独立的XML生成器,分别进行数据抽取,同样能完成本发明应用实例上述文件抽取的目的),就可以满足所有类型的源***至目标***的数据导入;无论源***还是目标***的数据表结构发生变化时,仅需要修改XML解析器使用的字段匹配规则配置文件,大大减少了开发工作量;将源***数据抽取与目标***的数据导入分隔为两个独立步骤,中间以标准化的XML文件进行数据交换,实现了较高程度的***解耦;数据提取的结果采用XML文件与非结构化数据文件本体以文件偶的形式进行存储,如果出现数据导入错误可以方便的根据所保留的中间结果进行排查和回溯。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrativelogical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrativecomponents),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个***的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元,或服务器都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种非结构化数据存储***,其特征在于,所述企业业务特征数据存储***包括:源***数据服务器、XML生成器服务器、XML解析器服务器、非结构化数据服务器,其中:
所述源***数据服务器,用于存储企业业务***特征数据;
所述XML生成器服务器,与所述源***数据服务器相耦接,用于根据所述源***数据服务器的记录特征生成XML文件,并将所述源***数据服务器中的非结构化数据文件本体进行提取,以与所述XML文件进行配对,生成XML文件与非结构化数据文件本体的对应关系;
所述XML解析器服务器,与所述XML生成器服务器相耦接,用于将所述XML文件按照字段匹配规则进行解析,获取所述XML文件对应的属性和分类信息;并根据所述XML文件对应的属性和分类信息,将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到相应分类并赋予对应属性;
所述非结构化数据服务器,与所述XML解析器服务器相耦接,用于存储配对后的所述XML文件与非结构化数据文件本体的对应关系。
2.如权利要求1所述非结构化数据存储***,其特征在于,
所述XML生成器服务器将所述源***数据服务器中的非结构化数据文件本体进行提取,包括:检索所述源***数据服务器,确定非结构化数据文件本体的存放位置;根据所述非结构化数据文件本体的存放位置进行提取。
3.如权利要求2所述非结构化数据存储***,其特征在于,
所述XML生成器服务器根据所述非结构化数据文件本体的存放位置进行提取,进一步包括:如果所述源***数据服务器的非结构化数据文件本体直接以大字段方式在数据表中存储,则对所述大字段进行反序列化,否则根据非结构化数据文件本体的存储路径读取对应的非结构化数据文件本体。
4.如权利要求1所述非结构化数据存储***,其特征在于,
所述非结构化数据服务器,以文件偶的形式存储配对后的所述XML文件与非结构化数据文件本体的对应关系。
5.如权利要求1所述非结构化数据存储***,其特征在于,
所述XML生成器服务器根据所述源***数据服务器的记录特征生成的XML文件中的单条记录的每个数据字段作为XML文件的一个节点,如果记录的某字段引用了其他表中的记录,则将该条字段引用记录作为当前字段节点的子节点。
6.一种非结构化数据存储方法,其特征在于,所述方法应用于企业业务特征数据存储***,该***包括:源***数据服务器、XML生成器服务器、XML解析器服务器、非结构化数据服务器,所述源***数据服务器,用于存储企业业务***特征数据;其中,所述方法包括:
通过所述XML生成器服务器根据所述源***数据服务器的记录特征生成XML文件,并将所述源***数据服务器中的非结构化数据文件本体进行提取,以与所述XML文件进行配对,生成XML文件与非结构化数据文件本体的对应关系;
通过所述XML解析器服务器将所述XML文件按照字段匹配规则进行解析,获取所述XML文件对应的属性和分类信息;
根据所述XML文件对应的属性和分类信息,将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到所述非结构化数据服务器中的相应分类并赋予对应属性。
7.如权利要求6所述非结构化数据存储方法,其特征在于,所述将所述源***数据服务器中的非结构化数据文件本体进行提取,包括:
检索所述源***数据服务器,确定非结构化数据文件本体的存放位置;
根据所述非结构化数据文件本体的存放位置进行提取。
8.如权利要求7所述非结构化数据存储方法,其特征在于,所述根据所述非结构化数据文件本体的存放位置进行提取,包括:
如果所述源***数据服务器的非结构化数据文件本体直接以大字段方式在数据表中存储,则对所述大字段进行反序列化,否则根据非结构化数据文件本体的存储路径读取对应的非结构化数据文件本体。
9.如权利要求6所述非结构化数据存储方法,其特征在于,所述将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到所述非结构化数据服务器中的相应分类并赋予对应属性,包括:
以文件偶的形式,将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到所述非结构化数据服务器中的相应分类并赋予对应属性。
10.如权利要求6所述非结构化数据存储方法,其特征在于,所述通过所述XML生成器服务器根据所述源***数据服务器的记录特征生成XML文件,包括:
通过所述XML生成器服务器根据所述源***数据服务器的记录特征生成XML文件,其中,所述XML文件中的单条记录的每个数据字段作为XML文件的一个节点,如果记录的某字段引用了其他表中的记录,则将该条字段引用记录作为当前字段节点的子节点。
CN201310118763.1A 2013-04-08 2013-04-08 一种非结构化数据存储***及方法 Active CN104102652B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310118763.1A CN104102652B (zh) 2013-04-08 2013-04-08 一种非结构化数据存储***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310118763.1A CN104102652B (zh) 2013-04-08 2013-04-08 一种非结构化数据存储***及方法

Publications (2)

Publication Number Publication Date
CN104102652A true CN104102652A (zh) 2014-10-15
CN104102652B CN104102652B (zh) 2017-05-24

Family

ID=51670811

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310118763.1A Active CN104102652B (zh) 2013-04-08 2013-04-08 一种非结构化数据存储***及方法

Country Status (1)

Country Link
CN (1) CN104102652B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630903A (zh) * 2015-12-21 2016-06-01 中国电子科技集团公司第十五研究所 一种海量数据快速存储的方法和装置
CN106055702A (zh) * 2016-06-22 2016-10-26 西安邮电大学 一种面向互联网的数据服务统一描述方法
CN106547915A (zh) * 2016-11-29 2017-03-29 上海轻维软件有限公司 基于模型库的智能数据提取方法
CN106649863A (zh) * 2016-12-30 2017-05-10 天津市测绘院 一种非结构化数据管理方法及装置
CN108470040A (zh) * 2018-02-11 2018-08-31 中国石油天然气股份有限公司 一种非结构化数据的入库方法及装置
CN108829767A (zh) * 2018-05-29 2018-11-16 吉贝克信息技术(北京)有限公司 数据交换***及其方法、装置和计算机存储介质
CN109144950A (zh) * 2018-07-20 2019-01-04 中国邮政储蓄银行股份有限公司 业务数据的存储方法和装置
CN109657184A (zh) * 2018-12-19 2019-04-19 北京创鑫旅程网络技术有限公司 富文本处理方法、装置、服务器及计算机可读介质
CN109805921A (zh) * 2018-12-18 2019-05-28 深圳小辣椒科技有限责任公司 心电数据跨平台采样方法以及心电监测***
CN109947705A (zh) * 2017-11-28 2019-06-28 中国石油化工股份有限公司 一种石油工程数据的存取***与方法
CN111563065A (zh) * 2020-07-09 2020-08-21 北京联想协同科技有限公司 一种文档保存方法、装置及计算机可读存储介质
CN111723245A (zh) * 2019-03-18 2020-09-29 阿里巴巴集团控股有限公司 数据存储***中建立不同类型存储对象关联关系的方法
WO2021082461A1 (zh) * 2019-10-28 2021-05-06 深圳市商汤科技有限公司 存储和读取方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050108212A1 (en) * 2003-11-18 2005-05-19 Oracle International Corporation Method of and system for searching unstructured data stored in a database
CN101477532A (zh) * 2008-12-23 2009-07-08 北京畅游天下网络技术有限公司 实现数据存储、读取的方法、装置及***
US20090187581A1 (en) * 2008-01-22 2009-07-23 Vincent Delisle Consolidation and association of structured and unstructured data on a computer file system
CN102156699A (zh) * 2010-02-11 2011-08-17 陈巍 一种基于jdom解析技术的数据迁移方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050108212A1 (en) * 2003-11-18 2005-05-19 Oracle International Corporation Method of and system for searching unstructured data stored in a database
US20090187581A1 (en) * 2008-01-22 2009-07-23 Vincent Delisle Consolidation and association of structured and unstructured data on a computer file system
CN101477532A (zh) * 2008-12-23 2009-07-08 北京畅游天下网络技术有限公司 实现数据存储、读取的方法、装置及***
CN102156699A (zh) * 2010-02-11 2011-08-17 陈巍 一种基于jdom解析技术的数据迁移方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105630903B (zh) * 2015-12-21 2020-02-21 中国电子科技集团公司第十五研究所 一种海量数据快速存储的方法和装置
CN105630903A (zh) * 2015-12-21 2016-06-01 中国电子科技集团公司第十五研究所 一种海量数据快速存储的方法和装置
CN106055702A (zh) * 2016-06-22 2016-10-26 西安邮电大学 一种面向互联网的数据服务统一描述方法
CN106547915A (zh) * 2016-11-29 2017-03-29 上海轻维软件有限公司 基于模型库的智能数据提取方法
CN106547915B (zh) * 2016-11-29 2019-10-29 上海轻维软件有限公司 基于模型库的智能数据提取方法
CN106649863A (zh) * 2016-12-30 2017-05-10 天津市测绘院 一种非结构化数据管理方法及装置
CN109947705A (zh) * 2017-11-28 2019-06-28 中国石油化工股份有限公司 一种石油工程数据的存取***与方法
CN108470040A (zh) * 2018-02-11 2018-08-31 中国石油天然气股份有限公司 一种非结构化数据的入库方法及装置
CN108829767A (zh) * 2018-05-29 2018-11-16 吉贝克信息技术(北京)有限公司 数据交换***及其方法、装置和计算机存储介质
CN109144950A (zh) * 2018-07-20 2019-01-04 中国邮政储蓄银行股份有限公司 业务数据的存储方法和装置
CN109144950B (zh) * 2018-07-20 2022-02-15 中国邮政储蓄银行股份有限公司 业务数据的存储方法和装置
CN109805921A (zh) * 2018-12-18 2019-05-28 深圳小辣椒科技有限责任公司 心电数据跨平台采样方法以及心电监测***
CN109805921B (zh) * 2018-12-18 2022-03-25 深圳小辣椒科技有限责任公司 心电数据跨平台采样方法以及心电监测***
CN109657184A (zh) * 2018-12-19 2019-04-19 北京创鑫旅程网络技术有限公司 富文本处理方法、装置、服务器及计算机可读介质
CN111723245A (zh) * 2019-03-18 2020-09-29 阿里巴巴集团控股有限公司 数据存储***中建立不同类型存储对象关联关系的方法
CN111723245B (zh) * 2019-03-18 2024-04-26 阿里巴巴集团控股有限公司 数据存储***中建立不同类型存储对象关联关系的方法
WO2021082461A1 (zh) * 2019-10-28 2021-05-06 深圳市商汤科技有限公司 存储和读取方法、装置、电子设备和存储介质
CN111563065A (zh) * 2020-07-09 2020-08-21 北京联想协同科技有限公司 一种文档保存方法、装置及计算机可读存储介质
CN111563065B (zh) * 2020-07-09 2020-12-11 北京联想协同科技有限公司 一种文档保存方法、装置及计算机可读存储介质

Also Published As

Publication number Publication date
CN104102652B (zh) 2017-05-24

Similar Documents

Publication Publication Date Title
CN104102652A (zh) 一种非结构化数据存储***及方法
US10878064B2 (en) Clinical data management system
CN104516633B (zh) 一种用户界面元素管理方法和装置
Vaish Getting started with NoSQL
CN109683911B (zh) 一种实现自动化应用部署及影响分析的***
US20110004622A1 (en) Method and apparatus for gathering and organizing information pertaining to an entity
CN103092967A (zh) 一种基于规则引擎的业务规则决策方法及装置
CN102364894A (zh) 一种配置数据文件的下发方法及网管设备
CN103617047A (zh) 一种业务流程开发方法、装置及处理器
CN104850565B (zh) 一种基于k-v存储***的元数据管理方法
CN103473672A (zh) 企业级数据中心的元数据质量稽核***、方法及平台
CN101504672A (zh) 一种动态配置实体数据表的方法和***
CN102893281A (zh) 信息搜索设备、信息搜索方法、计算机程序和数据结构
US20150149405A1 (en) Offloaded, incremental database statistics collection and optimization
CN102436475A (zh) 数据表汇总装置和数据表汇总方法
CN102682126A (zh) 一种表单数据的存取方法及装置
CN102142014A (zh) 导入和导出位于元数据注册***中的元数据的***和方法
CN104866598A (zh) 基于可配置模板的异构数据库集成方法
CN102097015A (zh) 一种作业指导书处理***及方法
CN105975489A (zh) 一种基于元数据的在线sql代码补全方法
CN115617776A (zh) 一种数据管理***及方法
CN106156060B (zh) 标签管理***及终端、标签使用方法及标签整理方法
CN103107919A (zh) 一种网络资源建模方法和***
CN103069382A (zh) 在面向服务的架构储存库之间的迁移工件
CN104766108A (zh) 一种bim模型中rfid电子标签优化处理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant