CN106095964A - 一种对数据进行可视化归档与搜索的方法 - Google Patents

一种对数据进行可视化归档与搜索的方法 Download PDF

Info

Publication number
CN106095964A
CN106095964A CN201610431847.4A CN201610431847A CN106095964A CN 106095964 A CN106095964 A CN 106095964A CN 201610431847 A CN201610431847 A CN 201610431847A CN 106095964 A CN106095964 A CN 106095964A
Authority
CN
China
Prior art keywords
archives
data
search
index
filing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610431847.4A
Other languages
English (en)
Inventor
房爱印
李瑞东
王杨
王小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Co Ltd
Original Assignee
Inspur Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Co Ltd filed Critical Inspur Software Co Ltd
Priority to CN201610431847.4A priority Critical patent/CN106095964A/zh
Publication of CN106095964A publication Critical patent/CN106095964A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/83Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种对数据进行可视化归档与搜索的方法,涉及数据归档和查询分析技术,首先,通过界面定义档案的来源、关系、字段类型、档案结构、目标存储类型、增量或全量,然后,将数据信息归档为xml结构的档案,存储到指定存储类型;同时,配置界面定义档案元素和索引服务器的变量的对应关系,***将需要查询的档案元素映射到索引服务器的变量上去,进行快速查询定位;最后,根据获取的档案唯一编码,调取档案进行展示。该方法针对需要查询的内容进行分词索引,查询时,直接输入查询内容,无需指定字段;使用了分词和索引服务器,查询效率高,范围广,对服务器***的性能要求低,节省设备投资。

Description

一种对数据进行可视化归档与搜索的方法
技术领域
本发明涉及数据归档和查询分析技术,具体的说是一种对数据进行可视化归档与搜索的方法。
背景技术
随着信息技术的发展,企业或政府的各类部门、业务***中,存储的数据量也越来越多,数据关系越来越复杂。当把这些业务部门、各个***的数据汇集起来后,如果想对各类数据在各个维度进行查询,在传统模式下根本无法做到,同时对服务器的性能要求也很高。针对这种情况,若能够对数据进行可视化的归档或搜索,将能够有效解决上述问题,因此非常有必要开发对数据进行可视化归档和搜索的方法。
发明内容
本发明针对目前技术发展的需求和不足之处,提供一种对数据进行可视化归档与搜索的方法。
本发明所述一种对数据进行可视化归档与搜索的方法,解决上述技术问题采用的技术方案如下:所述一种对数据进行可视化归档与搜索的方法,首先,通过界面定义档案的来源、关系、字段类型、档案结构、目标存储类型、增量或全量,然后,将数据信息归档为xml结构的档案,存储到指定存储类型;同时,配置界面定义档案元素和索引服务器的变量的对应关系,***将需要查询的档案元素映射到索引服务器的变量上去,进行快速查询定位;最后,根据获取的档案唯一编码,调取档案进行展示;其具体包括如下步骤:1)对数据源进行描述;2)对档案集进行描述;3)对档案进行定义;4)对档案的显示方式进行定义;5)对档案的索引进行定义;6)档案生成;7)索引生成;8)增量的档案和索引生成;9)档案查询。
优选的,所述对数据源进行描述主要包括,在***对源数据进行了描述,具体描述了数据源、资源、资源列三类信息;其中,数据源指数据的数据库类型,资源属于数据源下的内容,为数据库里的表;资源列指数据库里的表的列的信息;定义完数据源、资源、资源列后,对资源的主键、外键进行定义,同时,定义唯一编码的列,作为档案的唯一标识。
优选的,所述对档案集进行描述主要包括,将具有相同业务场景、相同查询需求的不同类别档案,统一归属一个档案集;在档案集定义时,定义档案的存储方式,并定义使用哪个搜索服务器。
优选的,所述对档案进行定义主要包括,建立档案节点和源数据之间的关系;档案格式采用xml格式,树形结构,档案目录和内容分别存储;所述档案节点,根据特性分为三类:分组节点、数据节点、列表节点;定义数据节点和列表节点时,选择相应的资源并选择列;在档案定义完成后,选择一个数据节点作为主节点,该主节点对应的表即为主表。
优选的,所述对档案的显示方式进行定义主要是指,对档案的展示方式进行了定义,如标题、样式、掩码、是否显示、排序。
优选的,所述对档案的索引进行定义主要是指,定义档案索引列,在定义好档案结构的基础上,对档案的资源列和索引服务器上的变量的对应关系进行定义。
优选的,所述档案生成主要包括,根据档案定义的节点信息、节点信息对应的数据源、资源、资源列信息,主从表关系、源数据的主外键对档案进行生成,将档案放到指定的存储空间上。
优选的,所述索引生成主要是指,在档案生成完成的基础上,根据资源列和索引服务器上的变量的对应关系,将变量和变量的值,提交给索引服务器,由索引服务器进行分词建立索引。
优选的,所述增量的档案和索引生成主要是指,对外部***采取接口表的方式,根据写入的变化了的数据源、表、主键信息,处理***,查找相应的档案定义,对变动的档案部分进行增删改操作,档案变动完成后,重新在索引服务器上生成索引。
优选的,所述档案查询主要包括,在查询界面输入查询的内容,由搜索服务器根据提供的查询内容,在索引中查询最合适的记录,将档案的摘要信息、唯一业务编码返回,并根据唯一业务编码,查取档案内容和档案显示方式进行档案的展示。
本发明所述一种对数据进行可视化归档与搜索的方法与现有技术相比具有的有益效果是:该方法应用于政府部门在多部门数据归集后,对数据进行归档和高效查询分析;针对需要查询的内容进行分词索引,查询时,直接输入查询内容,无需指定字段;此外,提供了可视化的配置界面,可以对检索服务器和档案生成、索引生成等功能进行定制;使用了分词和索引服务器,查询效率高,范围广,对服务器***的性能要求低,节省设备投资。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,对本发明所述一种对数据进行可视化归档与搜索的方法进一步详细说明。
为了解决政府部门在对下属部门、关联部门、各业务***进行数据归集后,高效地进行归档和查询分析等问题,发明公开了一种对数据进行可视化归档与搜索的方法,通过界面定义档案的来源、关系、字段类型、档案结构、目标存储类型、增量/全量,***根据这些定义,将数据信息归档为xml结构的档案,存储到指定存储类型;同时,配置界面定义档案元素和索引服务器的变量的对应关系,***将需要查询的档案元素映射到索引服务器的变量上去,能够快速的进行查询定位;最后,根据获取的档案唯一编码,能够调取档案进行展示。
实施例:
本实施例所述一种对数据进行可视化归档与搜索的方法,其具体包括如下步骤:1)对数据源进行描述;2)对档案集进行描述;3)对档案进行定义;4)对档案的显示方式进行定义;5)对档案的索引进行定义;6)档案生成;7)索引生成;8)增量的档案和索引生成;9)档案查询。
由于数据来自于不同的数据源,格式不同,地址不同,本实施例所述对数据进行可视化归档与搜索的方法中,所述对数据源进行描述主要包括,在***对源数据进行了描述,具体描述了数据源、资源、资源列三类信息。其中,数据源指数据的数据库类型,oracle还是db2,ip地址和端口等信息;资源属于数据源下的内容,为数据库里的表(档案生成时,需要用到的表);资源列指数据库里的表的列的信息:字段名称、字段类型、长度,不需要对所有的字段进行描述,只需要对生成档案时用到的信息进行描述。定义完数据源、资源、资源列后,对资源的主键、外键进行定义,以便将资源关联起来;同时,定义唯一编码的列,作为档案的唯一标识。
所述对档案集进行描述主要包括,将具有相同业务场景、相同查询需求的不同类别档案,统一归属一个档案集;在档案集定义时,定义档案的存储方式,可以是数据库、文件、hbase等,并定义使用哪个搜索服务器。在同一个档案集里的档案,具有相同的档案存储、相同的搜索服务器。
所述对档案进行定义主要包括,建立档案节点和源数据(数据源、资源、资源列)之间的关系;档案格式采用xml格式,树形结构,档案目录和内容分别存储。档案目录主要用于描述档案的结构和有内容节点的链接值,档案内容主要是档案目录上内容节点的具体内容。所述档案节点,根据特性分为三类:分组节点、数据节点、列表节点。分组节点,把相同的资源放在一起;数据节点为单节点,即只对应资源的一条记录;列表节点对应资源的多条记录。定义数据节点和列表节点时,选择相应的资源并选择列。在档案定义完成后,选择一个数据节点作为主节点,该主节点对应的表即为主表。
所述对档案的显示方式进行定义主要是指,对档案的展示方式进行了定义,如标题、样式、掩码(对敏感信息用*代替)、是否显示、排序(资源的排序、资源列的排序)等;采取单独定义显示方式,可以减少档案的不必要信息,节省档案的存储空间,同时,根据用户需求,灵活的进行定义而不需要重新生成档案。
所述对档案的索引进行定义主要是指,定义档案索引列,在定义好档案结构的基础上,对档案的资源列和索引服务器上的变量的对应关系进行定义。
所述档案生成主要包括,根据档案定义的节点信息、节点信息对应的数据源、资源、资源列信息,主从表关系、源数据的主外键对档案进行生成,将档案放到指定的存储空间上。
所述索引生成主要是指,在档案生成完成的基础上,根据资源列和索引服务器上的变量的对应关系,将变量和变量的值,提交给索引服务器,由索引服务器进行分词建立索引。
所述增量的档案和索引生成主要是指,对外部***采取接口表的方式,根据写入的变化了的数据源、表、主键信息,处理***,查找相应的档案定义,对变动的档案部分进行增删改操作,档案变动完成后,重新在索引服务器上生成索引。
所述档案查询主要包括,在查询界面输入查询的内容,由搜索服务器根据提供的查询内容,在索引中查询最合适的记录,将档案的摘要信息(即索引信息)、唯一业务编码返回,并根据唯一业务编码,查取档案内容和档案显示方式进行档案的展示。在档案展示时,通过界面可以配置界面展现的方式,如列表、列宽、分行、字体、颜色、是否显示、排序、身份证号码掩饰等,方便根据客户需求进行个性化的展示。
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明的权利要求书的且任何所属技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。

Claims (10)

1.一种对数据进行可视化归档与搜索的方法,其特征在于, 首先,通过界面定义档案的来源、关系、字段类型、档案结构、目标存储类型、增量或全量,然后,将数据信息归档为xml结构的档案,存储到指定存储类型;同时,配置界面定义档案元素和索引服务器的变量的对应关系,***将需要查询的档案元素映射到索引服务器的变量上去,进行快速查询定位;最后,根据获取的档案唯一编码,调取档案进行展示;其具体包括如下步骤:1)对数据源进行描述;2)对档案集进行描述;3)对档案进行定义;4)对档案的显示方式进行定义;5)对档案的索引进行定义;6)档案生成;7)索引生成;8)增量的档案和索引生成;9)档案查询。
2.根据权利要求1所述一种对数据进行可视化归档与搜索的方法,其特征在于, 所述对数据源进行描述主要包括,在***对源数据进行了描述,具体描述了数据源、资源、资源列三类信息;其中,数据源指数据的数据库类型,资源属于数据源下的内容,为数据库里的表;资源列指数据库里的表的列的信息;定义完数据源、资源、资源列后,对资源的主键、外键进行定义,同时,定义唯一编码的列,作为档案的唯一标识。
3.根据权利要求2所述一种对数据进行可视化归档与搜索的方法,其特征在于, 所述对档案集进行描述主要包括,将具有相同业务场景、相同查询需求的不同类别档案,统一归属一个档案集;在档案集定义时,定义档案的存储方式,并定义使用哪个搜索服务器。
4.根据权利要求3所述一种对数据进行可视化归档与搜索的方法,其特征在于, 所述对档案进行定义主要包括,建立档案节点和源数据之间的关系;档案格式采用xml格式,树形结构,档案目录和内容分别存储;所述档案节点,根据特性分为三类:分组节点、数据节点、列表节点;定义数据节点和列表节点时,选择相应的资源并选择列;在档案定义完成后,选择一个数据节点作为主节点,该主节点对应的表即为主表。
5.根据权利要求4所述一种对数据进行可视化归档与搜索的方法,其特征在于,所述对档案的显示方式进行定义主要是指,对档案的展示方式进行了定义,如标题、样式、掩码、是否显示、排序。
6.根据权利要求5所述一种对数据进行可视化归档与搜索的方法,其特征在于,所述对档案的索引进行定义主要是指,定义档案索引列,在定义好档案结构的基础上,对档案的资源列和索引服务器上的变量的对应关系进行定义。
7.根据权利要求6所述一种对数据进行可视化归档与搜索的方法,其特征在于,所述档案生成主要包括,根据档案定义的节点信息、节点信息对应的数据源、资源、资源列信息,主从表关系、源数据的主外键对档案进行生成,将档案放到指定的存储空间上。
8.根据权利要求7所述一种对数据进行可视化归档与搜索的方法,其特征在于,所述索引生成主要是指,在档案生成完成的基础上,根据资源列和索引服务器上的变量的对应关系,将变量和变量的值,提交给索引服务器,由索引服务器进行分词建立索引。
9.根据权利要求8所述一种对数据进行可视化归档与搜索的方法,其特征在于,所述增量的档案和索引生成主要是指,对外部***采取接口表的方式,根据写入的变化了的数据源、表、主键信息,处理***,查找相应的档案定义,对变动的档案部分进行增删改操作,档案变动完成后,重新在索引服务器上生成索引。
10.根据权利要求9所述一种对数据进行可视化归档与搜索的方法,其特征在于,所述档案查询主要包括,在查询界面输入查询的内容,由搜索服务器根据提供的查询内容,在索引中查询最合适的记录,将档案的摘要信息、唯一业务编码返回,并根据唯一业务编码,查取档案内容和档案显示方式进行档案的展示。
CN201610431847.4A 2016-06-17 2016-06-17 一种对数据进行可视化归档与搜索的方法 Pending CN106095964A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610431847.4A CN106095964A (zh) 2016-06-17 2016-06-17 一种对数据进行可视化归档与搜索的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610431847.4A CN106095964A (zh) 2016-06-17 2016-06-17 一种对数据进行可视化归档与搜索的方法

Publications (1)

Publication Number Publication Date
CN106095964A true CN106095964A (zh) 2016-11-09

Family

ID=57236834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610431847.4A Pending CN106095964A (zh) 2016-06-17 2016-06-17 一种对数据进行可视化归档与搜索的方法

Country Status (1)

Country Link
CN (1) CN106095964A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109660371A (zh) * 2017-10-10 2019-04-19 中兴通讯股份有限公司 一种自动化部署方法及自动化部署工具
CN110020027A (zh) * 2017-07-31 2019-07-16 北京精密机电控制设备研究所 一种基于情境感知的档案检索利用方法及***
CN110457380A (zh) * 2019-08-07 2019-11-15 广州市百果园信息技术有限公司 一种数据存储***
CN110597903A (zh) * 2019-08-13 2019-12-20 万达信息股份有限公司 基于索引和报告的健康档案可扩展模型实现方法和***
CN111464571A (zh) * 2019-01-18 2020-07-28 阿里巴巴集团控股有限公司 一种通信方法及***、服务端、客户端
CN111522980A (zh) * 2020-04-26 2020-08-11 深圳惟远智能技术有限公司 一种海量数据下基于档案的快速搜索方法
CN112100217A (zh) * 2020-09-18 2020-12-18 山东浪潮商用***有限公司 一种基于税务大数据的资产管理***和方法
CN112269807A (zh) * 2020-11-09 2021-01-26 浪潮软件股份有限公司 基于Elasticsearch技术的可配置信用档案检索方法及***

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1627306A (zh) * 2003-12-12 2005-06-15 王宏源 建立书刊文献数据库的方法
CN101291337A (zh) * 2008-05-30 2008-10-22 同济大学 一种网格资源管理***及管理方法
CN201222257Y (zh) * 2008-07-18 2009-04-15 东莞市万维网络科技信息有限公司 一种建设工程档案管理***
CN101894139A (zh) * 2010-06-25 2010-11-24 优视科技有限公司 一种移动互联网网页信息数据交互处理方法
CN102129519A (zh) * 2011-03-11 2011-07-20 广东巨龙信息技术有限公司 一种电子病历档案的记载传输方法
CN102411580A (zh) * 2010-09-20 2012-04-11 腾讯科技(深圳)有限公司 可扩展标记语言文档的检索方法及装置
CN103679594A (zh) * 2012-09-18 2014-03-26 张旭峰 基于个人健康档案模型的个人健康信息存储***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1627306A (zh) * 2003-12-12 2005-06-15 王宏源 建立书刊文献数据库的方法
CN101291337A (zh) * 2008-05-30 2008-10-22 同济大学 一种网格资源管理***及管理方法
CN201222257Y (zh) * 2008-07-18 2009-04-15 东莞市万维网络科技信息有限公司 一种建设工程档案管理***
CN101894139A (zh) * 2010-06-25 2010-11-24 优视科技有限公司 一种移动互联网网页信息数据交互处理方法
CN102411580A (zh) * 2010-09-20 2012-04-11 腾讯科技(深圳)有限公司 可扩展标记语言文档的检索方法及装置
CN102129519A (zh) * 2011-03-11 2011-07-20 广东巨龙信息技术有限公司 一种电子病历档案的记载传输方法
CN103679594A (zh) * 2012-09-18 2014-03-26 张旭峰 基于个人健康档案模型的个人健康信息存储***

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110020027A (zh) * 2017-07-31 2019-07-16 北京精密机电控制设备研究所 一种基于情境感知的档案检索利用方法及***
CN109660371A (zh) * 2017-10-10 2019-04-19 中兴通讯股份有限公司 一种自动化部署方法及自动化部署工具
CN109660371B (zh) * 2017-10-10 2021-11-02 中兴通讯股份有限公司 一种自动化部署方法及自动化部署装置
CN111464571A (zh) * 2019-01-18 2020-07-28 阿里巴巴集团控股有限公司 一种通信方法及***、服务端、客户端
CN111464571B (zh) * 2019-01-18 2022-04-26 阿里巴巴集团控股有限公司 一种通信方法及***、服务端、客户端
CN110457380A (zh) * 2019-08-07 2019-11-15 广州市百果园信息技术有限公司 一种数据存储***
CN110597903A (zh) * 2019-08-13 2019-12-20 万达信息股份有限公司 基于索引和报告的健康档案可扩展模型实现方法和***
CN111522980A (zh) * 2020-04-26 2020-08-11 深圳惟远智能技术有限公司 一种海量数据下基于档案的快速搜索方法
CN112100217A (zh) * 2020-09-18 2020-12-18 山东浪潮商用***有限公司 一种基于税务大数据的资产管理***和方法
CN112269807A (zh) * 2020-11-09 2021-01-26 浪潮软件股份有限公司 基于Elasticsearch技术的可配置信用档案检索方法及***

Similar Documents

Publication Publication Date Title
CN106095964A (zh) 一种对数据进行可视化归档与搜索的方法
CN102521416B (zh) 数据关联查询方法和数据关联查询装置
US10067954B2 (en) Use of dynamic dictionary encoding with an associated hash table to support many-to-many joins and aggregations
CN100468402C (zh) 一种数据存储及查询方法
CN108228817A (zh) 数据处理方法、装置和***
CN101036141B (zh) 具有持久性、用户可访问的位图值的数据库管理***
CN109952568B (zh) 用于高速搜索或过滤大数据集的***和方法
CN104462421B (zh) 基于键-值数据库的多租户扩展方法
US20110004638A1 (en) Attributed key-value-store database system
CN104881466B (zh) 数据分片的处理以及垃圾文件的删除方法和装置
CN102893281A (zh) 信息搜索设备、信息搜索方法、计算机程序和数据结构
CN104573022A (zh) 一种HBase的数据查询方法及装置
CN105117442B (zh) 一种基于概率的大数据查询方法
CN103455335A (zh) 一种多级分类的Web实现方法
CN106155769A (zh) 一种工作流处理方法、装置及工作流引擎
CN104408171A (zh) 单据子表行关联查询装置和方法
CN106599153A (zh) 一种基于多个数据源的废旧行业搜索***以及其方法
CN102999637B (zh) 根据文件特征码为文件自动添加文件标签的方法及***
CN103020753A (zh) 单据状态显示***和单据状态显示方法
CN108153776A (zh) 数据查询方法及装置
WO2014137258A1 (en) Selection of data storage settings for an application
CN110879799B (zh) 标注技术元数据的方法和装置
CN109101512B (zh) 法律数据库的构建方法、法律数据查询方法及装置
CN101963993B (zh) 一种数据库单表记录快速查找的方法
CN109978513A (zh) 获得技术标准的方法和装置、项目任务管理设备和介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161109

RJ01 Rejection of invention patent application after publication