CN107609154A

CN107609154A - 一种多源异构数据的处理方法及装置

Info

Publication number: CN107609154A
Application number: CN201710869354.3A
Authority: CN
Inventors: 曲建龙; 宋海涛; 李传义; 魏存档; 李瑞东
Original assignee: Inspur Software Group Co Ltd
Current assignee: Inspur Software Group Co Ltd
Priority date: 2017-09-23
Filing date: 2017-09-23
Publication date: 2018-01-19

Abstract

本发明提供了一种多源异构数据的处理方法及装置，该方法可以包括：创建包括有至少一个第一索引字段的数据表模板；针对每一个所述第一索引字段，建立当前第一索引字段分别与不同数据源对应的源数据表中的目标字段的第一映射关系；根据所述第一映射关系，将与每一个所述第一索引字段对应的各个所述目标字段中的数据分别从相应数据源导入至相应的所述第一索引字段中，其中，各个所述第一索引字段中处于同一行的各个数据一一对应；根据预设的配置，对导入至各个所述第一索引字段中的数据进行分词索引。本方案能够缩短数据的查找时间，查找过程较为简便。

Description

一种多源异构数据的处理方法及装置

技术领域

本发明涉及计算机技术领域，特别涉及一种多源异构数据的处理方法及装置。

背景技术

随着信息技术的不断发展，政府、企业等信息化程度越来越高，各部门业务***产生的数据量越来越大，数据结构类型越来越复杂，数据来源也越来也多。

目前，当用户需要查找某类数据时，需要人工分别从不同的数据源中一一查找所需数据。

但是，由于需要查找的数据源个数较多，可见，通过人工的方式逐一从各数据源中查找所需数据将会耗费大量时间，查找过程较为繁琐。

发明内容

本发明实施例提供了一种多源异构数据的处理方法及装置，能够缩短数据的查找时间，查找过程较为简便。

第一方面，本发明实施例提供了一种多源异构数据的处理方法，

创建包括有至少一个第一索引字段的数据表模板；

针对每一个所述第一索引字段，建立当前第一索引字段分别与不同数据源对应的源数据表中的目标字段的第一映射关系；还包括：

根据所述第一映射关系，将与每一个所述第一索引字段对应的各个所述目标字段中的数据分别从相应数据源导入至相应的所述第一索引字段中，其中，各个所述第一索引字段中处于同一行的各个数据一一对应；

根据预设的配置，对导入至各个所述第一索引字段中的数据进行分词索引。

优选地，

在所述根据所述第一映射关系，将与每一个所述第一索引字段对应的各个所述目标字段中的数据分别从相应数据源导入至相应的所述第一索引字段中之前，进一步包括：

针对每一个所述第一索引字段，建立所述当前第一索引字段与指定的文档属性的第二映射关系；

在所述根据预设的配置，对导入至各个所述第一索引字段中的数据进行分词索引之前，进一步包括：

根据所述第二映射关系，将与每一个所述第一索引字段对应的所述文档属性所对应的数据从相应数据源导入至相应的所述第一索引字段中，其中，各个所述第一索引字段中处于同一行的各个数据一一对应。

优选地，

所述创建包括有至少一个第一索引字段的数据表模板，包括：

创建包括有至少一个第一索引字段和一个第二索引字段的数据表模板；

进一步包括：

建立不同编码与不同数据源之间的第三映射关系；

在所述根据所述第一映射关系，将与每一个所述第一索引字段对应的各个所述目标字段中的数据分别从相应数据源导入至相应的所述第一索引字段中之后，进一步包括：

根据各个所述第一索引字段中处于每一行的各个数据所对应的数据源以及所述第三映射关系，在每一行所对应的所述第二索引字段中填写相应的编码。

优选地，

进一步包括：

预先建立不同数据源与不同展示模型之间的第四映射关系；

在所述根据预设的配置，对导入至各个所述第一索引字段中的数据进行分词索引之后，进一步包括：

接收外部输入的至少一个关键字；

根据所述至少一个关键字以及构建的分词索引，从不同数据源导入数据的所述数据表模板中查找与所述至少一个关键字对应的目标数据；

根据所述目标数据对应的数据源以及所述第四映射关系，以相应的所述展示模型输出所述目标数据。

第二方面，本发明实施例提供了一种多源异构数据的处理装置，包括：

创建单元、映射关系建立单元、数据导入单元和分词索引单元，其中，

所述创建单元，用于创建包括有至少一个第一索引字段的数据表模板；

所述映射关系建立单元，用于针对每一个所述第一索引字段，建立当前第一索引字段分别与不同数据源对应的源数据表中的目标字段的第一映射关系；

所述数据导入单元，用于根据所述第一映射关系，将与每一个所述第一索引字段对应的各个所述目标字段中的数据分别从相应数据源导入至相应的所述第一索引字段中，其中，各个所述第一索引字段中处于同一行的各个数据一一对应；

所述分词索引单元，用于根据预设的配置，对导入至各个所述第一索引字段中的数据进行分词索引。

优选地，

所述映射关系建立单元，进一步用于针对每一个所述第一索引字段，建立所述当前第一索引字段与指定的文档属性的第二映射关系；

所述数据导入单元，进一步用于根据所述第二映射关系，将与每一个所述第一索引字段对应的所述文档属性所对应的数据从相应数据源导入至相应的所述第一索引字段中，其中，各个所述第一索引字段中处于同一行的各个数据一一对应。

优选地，

进一步包括：数据分类单元；

所述创建单元，用于创建包括有至少一个第一索引字段和一个第二索引字段的数据表模板；

所述映射关系建立单元，进一步用于建立不同编码与不同数据源之间的第三映射关系；

所述数据分类单元，用于根据各个所述第一索引字段中处于每一行的各个数据所对应的数据源以及所述第三映射关系，在每一行所对应的所述第二索引字段中填写相应的编码。

优选地，

进一步包括：查询单元；

所述映射关系建立单元，进一步用于预先建立不同数据源与不同展示模型之间的第四映射关系；

所述查询单元，用于在所述分词索引单元对导入至各个所述第一索引字段中的数据进行分词索引之后，接收外部输入的至少一个关键字；根据所述至少一个关键字以及构建的分词索引，从不同数据源导入数据的所述数据表模板中查找与所述至少一个关键字对应的目标数据；根据所述目标数据对应的数据源以及所述第四映射关系，以相应的所述展示模型输出所述目标数据。

第三方面，本发明实施例提供了一种计算机可读介质，其特征在于，包括计算机执行指令，当存储控制器的处理器执行所述计算机执行指令时，所述存储控制器执行上述任一实施例所述的多源异构数据的处理方法。

第四方面，本发明实施例提供了一种存储控制器，包括：处理器、存储器和总线；

所述存储器用于存储计算机执行指令，所述处理器与所述存储器通过所述总线连接，当所述存储控制器运行时，所述处理器执行所述存储器存储的所述计算机执行指令，以使所述存储控制器执行上述任一实施例所述的多源异构数据的处理方法。

本发明实施例提供了一种多源异构数据的处理方法及装置，通过预先创建包括有至少一个第一索引字段的数据表模板，以及预先针对每一个第一索引字段，建立每一个第一索引字段分别与不同数据源对应的源数据表中的目标字段的第一映射关系，从而之后可以通过各个第一索引字段以及第一映射关系，将不同数据源中的相应数据映射到同一个第一索引字段上，实现不同数据源之间的数据整合，最后针对导入的数据建立分词索引，这样，用户在查找数据时，可从导入数据的数据表模板中找到不同数据源中的所需数据，从而无需再逐一的从每一个数据源中查找数据，因此缩短了数据查找的时间，查找的过程较为简便。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的一种多源异构数据的处理方法流程图；

图2是本发明另一个实施例提供的一种多源异构数据的处理方法流程图；

图3是本发明一个实施例提供的一种多源异构数据的处理装置的结构示意图；

图4是本发明另一个实施例提供的一种多源异构数据的处理装置的结构示意图；

图5是本发明又一个实施例提供的一种多源异构数据的处理装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种多源异构数据的处理方法，该方法可以包括以下步骤：

步骤101：创建包括有至少一个第一索引字段的数据表模板。

步骤102：针对每一个所述第一索引字段，建立当前第一索引字段分别与不同数据源对应的源数据表中的目标字段的第一映射关系。

步骤103：根据所述第一映射关系，将与每一个所述第一索引字段对应的各个所述目标字段中的数据分别从相应数据源导入至相应的所述第一索引字段中，其中，各个所述第一索引字段中处于同一行的各个数据一一对应。

步骤104：根据预设的配置，对导入至各个所述第一索引字段中的数据进行分词索引。

本发明实施例提供了一种多源异构数据的处理方法，通过预先创建包括有至少一个第一索引字段的数据表模板，以及预先针对每一个第一索引字段，建立每一个第一索引字段分别与不同数据源对应的源数据表中的目标字段的第一映射关系，从而之后可以通过各个第一索引字段以及第一映射关系，将不同数据源中的相应数据映射到同一个第一索引字段上，实现不同数据源之间的数据整合，最后针对导入的数据建立分词索引，这样，用户在查找数据时，可从导入数据的数据表模板中找到不同数据源中的所需数据，从而无需再逐一的从每一个数据源中查找数据，因此缩短了数据查找的时间，查找的过程较为简便。

为了将word、pdf等文档类的非关系型数据导入至数据表模板中，在本发明一个实施例中，在所述步骤103之前，可进一步包括：

针对每一个所述第一索引字段，建立所述当前第一索引字段与指定的文档属性的第二映射关系。

在所述步骤104之前，可进一步包括：

上述实施例中，为各个第一索引字段建立的第一映射关系，主要是针对存放在各种关系型数据库(如MySQL、sqlserver、Oracle等)中的关系型数据，而为各个第一索引字段建立的第二映射关系，主要是针对存放在word、pdf等文档中的非关系型数据。那么为了减轻压力，可将待导入的关系型数据和非关系型数据导入至不同的sorl中。

其中，文档属性可以是文档路径、文档大小、文档内容、文档创建时间和文档修改时间中的任意一个或多个。

例如，针对某文档，其文档路径为D/rall/12.docx、文档大小为10.7KB、文档内容为趵突泉水位20.5米以及文档创建时间为2017/9/1/08:00，且创建的数据表模板中包括有四个第一索引字段Col11、Col12、Col13和Col14，则建立的第二映射关系可包括有：

文档路径------Col11；文档大小------Col12；文档内容------Col13；文档创建时间------Col14。

那么将相应的数据导入至四个第一索引字段后的数据表模板可如下表1所示。

表1

Col11	Col12	Col13	Col14
				…	…	…	…
D/rall/12.docx	10.7KB	趵突泉水位20.5米	2017/9/1/08:00
				…	…	…	…

在表1中还包括有从其他关系型数据库中导入的数据，此处并未展开说明。由表1可以看出，Col11、Col12、Col13和Col14中的处于同一行的数据是一一对应的。

另外，无论是导入关系型数据，亦或非关系型数据，可设置一个周期阈值，如24小时，每隔24小时周期性的导入数据。那么在第一次导入时，可进行全量导入，而从第2次开始，可进行增量导入，也即只导入相邻的上一次导入时间之后所改变的数据。

为了区分来自不同数据源的数据，在本发明一个实施例中，所述步骤101的具体实施方式，可包括：

创建包括有至少一个第一索引字段和一个第二索引字段的数据表模板。

进一步包括：

建立不同编码与不同数据源之间的第三映射关系。

在所述步骤103之后，可进一步包括：

例如，有三个外部的不同数据源，分别是实时雨水情、微信和舆情，那么为了区分所导入数据的来源，设置的第三映射关系包括有：

实时雨水情------1；微信------2；舆情------3。

那么在将实时雨水情中的各个目标字段中的数据分别导入至相应的第一索引字段时，如，实时雨水情中的001导入至第一索引字段Col2中的第一行，实时雨水情中的趵突泉水位站导入至第一索引字段Col3中的第一行，即001和趵突泉水位站处于同一行，那么由于第一行数据对应的数据源为实时雨水情，则根据第三映射关系，则第二索引字段的第一行的值为1。

为了能够对不同数据源的数据进行不同的展示，在本发明一个实施例中，可进一步包括：

预先建立不同数据源与不同展示模型之间的第四映射关系。

在所述步骤104之后，可进一步包括：

接收外部输入的至少一个关键字；

上述实施例中，可以根据第二索引字段中的编码以及第三映射关系，确定目标数据的数据源。

下面将详细说明本发明实施例提供的一种多源异构数据的处理方法，如图2所示，该方法可以包括以下步骤：

步骤201：创建包括有两个第一索引字段和一个第二索引字段的数据表模板。

在本发明实施例中，创建的数据表模板可如下表2所示。

表2

Col1	Col2	Col3

其中，Col1为第二索引字段，Col2和Col3均为第一索引字段。

步骤202：针对每一个第一索引字段，建立当前第一索引字段分别与三个不同数据源对应的源数据表中的目标字段的第一映射关系。

在本发明实施例中，三个不同的数据源分别为实时雨水情、微信和舆情。其中,实时雨水情对应的源数据表如下表3所示、微信对应的源数据表如下表4所示以及舆情对应的源数据表如下表5所示。

表3

测站编码	测站名称
		001	趵突泉水位站

表4

微信号	内容
		101929**	趵突泉水位20.5米

表5

网站名称	正文
		今日济南	趵突泉水位持续上涨…

针对第一索引字段Col2，建立的第一映射关系包括有：

测站编码------Col2；微信号------Col2；网站名称------Col2。

针对第一索引字段Col3，建立的第一映射关系包括有：

测站名称------Col3；内容------Col3；正文------Col3。

步骤203：针对每一个第一索引字段，建立当前第一索引字段与指定的文档属性的第二映射关系。

在本发明实施例中，除了表3、表4和表5的关系型数据外，还包括有文档类的非关系型数据。如，文档路径为D/acr/1.doxc的word文件中存储有文档内容为趵突泉位于山东省济南市历下区，南靠千佛山，东临泉城广场，北望大明湖、五龙潭，趵突泉面积达158亩，是以泉为主…的数据。

相应的，针对第一索引字段Col2，建立的第二映射关系包括有：

文档路径------Col2。

针对第一索引字段Col3，建立的第二映射关系包括有：

文档内容------Col3。

步骤204：建立不同编码与不同数据源之间的第三映射关系。

为了区分不同数据源的数据，建立的第三映射关系可如下表6所示。

表6

编码	数据源
		1	实时雨水情
2	微信
		3	舆情
4	文档

由表6可以看出，当从数据源实时雨水情中导入数据时，相应的编码为1，其他数据源依次类推，不再赘述。

步骤205：建立不同数据源与不同展示模型之间的第四映射关系。

步骤206：根据第一映射关系，将与每一个第一索引字段对应的各个目标字段中的数据分别从相应数据源导入至相应的第一索引字段中，其中，各个第一索引字段中处于同一行的各个数据一一对应。

根据上述步骤202，将测站编码字段中的001、微信号字段中的101929**以及网站名称字段中的今日济南导入至第一索引字段Col2中。

将测站名称字段中的趵突泉水位站、内容中的趵突泉水位20.5米以及正文中的趵突泉水位持续上涨…导入至第一索引字段Col3中。

其中，处于第一索引字段Col2中的001和处于第一索引字段Col3中的趵突泉水位站处于数据表模板中的同一行，也即数据表模板中导入的每一行的各个数据之间是一一对应的。其它相应的数据之间也是如此，不再赘述。

步骤207：根据第二映射关系，将与每一个第一索引字段对应的文档属性所对应的数据从相应数据源导入至相应的第一索引字段中，其中，各个第一索引字段中处于同一行的各个数据一一对应。

根据上述步骤203，将文档路径所对应的D/acr/1.doxc导入至第一索引字段Col2中。

将文档内容所对应的趵突泉位于山东省济南市历下区，南靠千佛山，东临泉城广场，北望大明湖、五龙潭，趵突泉面积达158亩，是以泉为主…导入至第一索引字段Col3中。

步骤208：根据各个第一索引字段中处于每一行的各个数据所对应的数据源以及第三映射关系，在每一行所对应的第二索引字段中填写相应的编码。

以处于第一索引字段Col2中的001和处于同一行的第一索引字段Col3中的趵突泉水位站为例，对应的数据源为实时雨水情，那么根据上述步骤204中的表6，则在同一行的第二索引字段Col1中填写的编码即为1。

在本发明实施例中，最终导入数据后的数据表模板如下表7所示。

表7

步骤209：根据预设的配置，对导入至各个第一索引字段中的数据进行分词索引。

本发明实施例中，可采用IK分词器进行分词。而且，在分词过程中为避免一些专业术语或者规定用词被拆分，则引入词库，即将业务相关的专业术语和固定词语加入词库，这样，分词的时候就不会对其拆分。

以“趵突泉水位20.5米”为例，则会被分词为趵突泉/水位/20.5/米。

步骤210：接收外部输入的一个关键字。

例如，关键字为趵突泉。

步骤211：根据关键字以及构建的分词索引，从不同数据源导入数据的数据表模板中查找与该关键字对应的目标数据。

在本发明实施例中，当关键字为趵突泉时，将会搜索出上述步骤208中的四条关于趵突泉的数据。

若当查询结果有多条时，可使用edismax来进行权重计算排序，返回最优结果。

步骤212：根据目标数据对应的数据源以及第四映射关系，以相应的展示模型输出目标数据。

本发明实施例中，还可对***的查询日志进行分析，统计出用户查询最多的内容，做为推荐在页面展示，方便用户查找。

如图3所述，本发明实施例提供了一种多源异构数据的处理装置，包括：

创建单元301、映射关系建立单元302、数据导入单元303和分词索引单元304，其中，

所述创建单元301，用于创建包括有至少一个第一索引字段的数据表模板；

所述映射关系建立单元302，用于针对每一个所述第一索引字段，建立当前第一索引字段分别与不同数据源对应的源数据表中的目标字段的第一映射关系；

所述数据导入单元303，用于根据所述第一映射关系，将与每一个所述第一索引字段对应的各个所述目标字段中的数据分别从相应数据源导入至相应的所述第一索引字段中，其中，各个所述第一索引字段中处于同一行的各个数据一一对应；

所述分词索引单元304，用于根据预设的配置，对导入至各个所述第一索引字段中的数据进行分词索引。

为了将word、pdf等文档类的非关系型数据导入至数据表模板中，在本发明一个实施例中，

所述映射关系建立单元302，进一步用于针对每一个所述第一索引字段，建立所述当前第一索引字段与指定的文档属性的第二映射关系；

所述数据导入单元303，进一步用于根据所述第二映射关系，将与每一个所述第一索引字段对应的所述文档属性所对应的数据从相应数据源导入至相应的所述第一索引字段中，其中，各个所述第一索引字段中处于同一行的各个数据一一对应。

为了区分来自不同数据源的数据，在本发明一个实施例中，

如图4所示，可进一步包括：数据分类单元401；

所述创建单元301，用于创建包括有至少一个第一索引字段和一个第二索引字段的数据表模板；

所述映射关系建立单元302，进一步用于建立不同编码与不同数据源之间的第三映射关系；

所述数据分类单元401，用于根据各个所述第一索引字段中处于每一行的各个数据所对应的数据源以及所述第三映射关系，在每一行所对应的所述第二索引字段中填写相应的编码。

为了能够对不同数据源的数据进行不同的展示，在本发明一个实施例中，

如图5所示，可进一步包括：查询单元501；

所述映射关系建立单元302，进一步用于预先建立不同数据源与不同展示模型之间的第四映射关系；

所述查询单元501，用于在所述分词索引单元304对导入至各个所述第一索引字段中的数据进行分词索引之后，接收外部输入的至少一个关键字；根据所述至少一个关键字以及构建的分词索引，从不同数据源导入数据的所述数据表模板中查找与所述至少一个关键字对应的目标数据；根据所述目标数据对应的数据源以及所述第四映射关系，以相应的所述展示模型输出所述目标数据。

上述装置内的各单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本发明实施例提供了一种计算机可读介质，包括计算机执行指令，当存储控制器的处理器执行所述计算机执行指令时，所述存储控制器执行上述任一实施例所述的多源异构数据的处理方法。

本发明实施例提供了一种存储控制器，包括：处理器、存储器和总线；

综上，本发明各个实施例至少具有如下有益效果：

1、在本发明实施例中，通过预先创建包括有至少一个第一索引字段的数据表模板，以及预先针对每一个第一索引字段，建立每一个第一索引字段分别与不同数据源对应的源数据表中的目标字段的第一映射关系，从而之后可以通过各个第一索引字段以及第一映射关系，将不同数据源中的相应数据映射到同一个第一索引字段上，实现不同数据源之间的数据整合，最后针对导入的数据建立分词索引，这样，用户在查找数据时，可从导入数据的数据表模板中找到不同数据源中的所需数据，从而无需再逐一的从每一个数据源中查找数据，因此缩短了数据查找的时间，查找的过程较为简便。

2、在本发明实施例中，通过建立每一个第一索引字段与指定的文档属性的第二映射关系，则可以依据该第二映射关系，将word、pdf等文档类的非关系型数据导入至数据表模板中，从而实现各个数据源中的数据整合。

3、在本发明实施例中，通过建立不同编码与不同数据源之间的第三映射关系，则可以依据该第三映射关系，区分数据表模板中导入的各个数据的来源，从而也为之后的分类搜索或分类显示等奠定基础。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个······”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储在计算机可读取的存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。

最后需要说明的是：以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种多源异构数据的处理方法，其特征在于，

创建包括有至少一个第一索引字段的数据表模板；

2.根据权利要求1所述的方法，其特征在于，

3.根据权利要求1所述的方法，其特征在于，

进一步包括：

建立不同编码与不同数据源之间的第三映射关系；

4.根据权利要求1至3任一所述的方法，其特征在于，

进一步包括：

预先建立不同数据源与不同展示模型之间的第四映射关系；

接收外部输入的至少一个关键字；

5.一种多源异构数据的处理装置，其特征在于，包括：

6.根据权利要求5所述的装置，其特征在于，

7.根据权利要求5所述的装置，其特征在于，

进一步包括：数据分类单元；

8.根据权利要求5至7任一所述的装置，其特征在于，

进一步包括：查询单元；

9.一种计算机可读介质，其特征在于，包括计算机执行指令，当存储控制器的处理器执行所述计算机执行指令时，所述存储控制器执行上述权利要求1至4任一项所述的方法。

10.一种存储控制器，其特征在于，包括：处理器、存储器和总线；

所述存储器用于存储计算机执行指令，所述处理器与所述存储器通过所述总线连接，当所述存储控制器运行时，所述处理器执行所述存储器存储的所述计算机执行指令，以使所述存储控制器执行上述权利要求1至4任一项所述的方法。