CN109977269B

CN109977269B - 一种针对xml文件的数据自适应融合方法

Info

Publication number: CN109977269B
Application number: CN201910184557.8A
Authority: CN
Inventors: 宫琳; 王晋意; 洪泽华; 陈西; 高俊; 杨奥
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2019-03-12
Filing date: 2019-03-12
Publication date: 2021-01-12
Anticipated expiration: 2039-03-12
Also published as: CN109977269A

Abstract

本发明公开了一种针对XML文件的数据自适应融合方法，可以避免人工分析数据特点导致的时间较长、受经验约束较大、准确性较低等问题；在分析过程中综合考虑了历史记录、专家知识与实际业务需求三方面因素，既保证了数据处理方法的可靠性，又保证数据处理方法贴合实际需求。

Description

一种针对XML文件的数据自适应融合方法

技术领域

本发明属于数据处理技术领域，具体涉及一种针对XML文件的数据自适应融合方法。

背景技术

随着科学技术的发展，人类社会积累的数据量越来愈大，数据来源也越来越多。数据融合是一种可以综合利用不同来源的数据、吸取不同数据源的特点、最终给出比单一数据源更加完整结果的数据处理方法。随着相关研究的深入，数据融合的方法日益丰富，在处理具体数据时采用何种方法成为困扰数据处理人员的难题。传统的做法是数据处理人员根据自身已有的经验、专家知识等进行处理。这样的做法不仅效率低下，而且准确率不高，严重制约了数据融合过程的速度、结果的精度。特别是在业务过程对数据融合的速度、精度等提出特别要求的时候，数据处理人员往往需要尝试各种方法才能满足指定要求。因此迫切需要一种数据自适应融合方法，不仅可以结合已有经验、专家知识，还能在综合考虑业务需求的基础上为待处理数据选择合适的数据融合方法。

发明内容

有鉴于此，本发明的目的是提供一种针对XML文件的数据自适应融合方法，可以保证据处理方法的可靠性，又保证数据处理方法贴合实际需求。

一种针对XML文件的数据自适应融合方法，包括如下步骤：

步骤1、针对XML格式的待处理数据，在数据融合的历史记录中找到与待处理数据相似度大于设定阈值的一系列同类型文档，组成相似文档集合；

步骤2、根据数据融合方法本身适用的数据类型和待处理数据本身的数据类型，为待处理数据选择一系列可处理该数据的融合方法；

步骤3、针对步骤2确定的每一种融合方法，读取该融合方法资料，确定该融合方法理论上适用于处理的文档数据；

步骤4、计算待处理数据与步骤3确定的文档数据之间的相似度；

步骤5、针对步骤1组成的相似文档集合，计算步骤3的每一种融合方法被相似文档集合中所有文档所使用的方法推荐度；将该方法推荐度与步骤4计算的相似度相乘，得到一种融合方法对应的优先度；

步骤6、采用步骤3至步骤5的方法，遍历步骤2选择的每一种融合方法，得到各融合方法对应的优先度；

步骤7、将步骤6获得的所有优先度进行降序排列；取其中排序靠前的设定数量的融合方法；

步骤8、针对步骤7选取的每一个融合方法，在历史记录中调取各融合方法处理过的与待处理数据同类型历史文档；同时确定每一个融合方法理论上适用的文档；将所有融合方法对应的同类型历史文档与理论上适用的文档组成文档合集；

步骤9、确定待处理数据的业务需求和步骤8的文档集合中各文档的业务需求；

步骤10、从文档合集中选择与待处理数据的业务需求最相似的一部分文档，再确定这些文档使用次数最多的一种融合方法，即为待处理数据最终选择的融合方法。

进一步的，所述步骤10中，当这些文档使用次数最多的融合方法不止一种的情况下，在本步骤中选择最相似的一部分文档时，增加选择的文档的数量。

较佳的，所述步骤1和4中，计算相似度时，采用相同的方式提取待处理数据和同类型文档的特征，根据两者之间的特征匹配度确定相似度。

较佳的，所述相似度的计算公式为：

其中，α₁表示当前文档A与B_i之间的可比较特征中数值型特征所占的比例，α₂表示A与B_i之间的可比较特征中文字型特征所占的比例；n表示当前文档A与B_i之间的可比较特征中数值型特征的个数，a_i和b_i分别表示A与B_i对应于某一数值型特征的取值归一化后的结果；m表示当前文档A与B_i之间的可比较特征中文字型特征的个数，c_j和d_j分别表示A与B_i对应于某一文字型特征的取值。

较佳的，所述设定阈值为0.5。

较佳的，提取待处理数据特征的方法为，先建立特征模板库，具体为：

(1)确定模板适用对象，说明该模板适用的数据类型；

(2)确定特征提取结构，说明该模板的结构形式；

(3)确定特征关键词，说明关键词的类别与在模板中的位置；

(4)确定关键词词库，说明与模板中关键词的对应关系。

较佳的，所述步骤5中的方法推荐度的计算公式为：

其中，

表示一种融合方法在相似文档集合中的使用次数；

表示所有方法被在相似文档集合中的使用次数。

较佳的，所述步骤7中，设定数量为总数量的一半。

较佳的，所述步骤10中，最相似的一部分文档的数量取为5。

本发明具有如下有益效果：

本发明提供了一种针对XML文件的数据自适应融合方法，可以避免人工分析数据特点导致的时间较长、受经验约束较大、准确性较低等问题；在分析过程中综合考虑了历史记录、专家知识与实际业务需求三方面因素，既保证了数据处理方法的可靠性，又保证数据处理方法贴合实际需求。

附图说明

图1为数据自适应融合方法总体流程图；

图2为特征关键词词库结构样式图。

具体实施方式

下面结合附图并举实施例，对本发明进行详细描述。

在完成数据自适应融合任务时，能够将XML文件作为融合对象，是因为XML文件具有以下特点：

(1)XML文件是使用可扩展标记语言编写的文件，可以通过标记允许用户定义自己的语言，并且标记可以帮助计算机理解文档内容。因此，XML经常被用作管理数据存取的统一格式。

(2)XML相关标准发布较早，已经被普遍接受，各类文件转化为XML文件的工具也非常成熟。

正是因为XML文件具有以上特点，所以可以将XML文件作为数据自适应融合方法的融合对象。

本发明提供的一种针对XML文件的数据自适应融合方法，如图1所示，总体流程包括两大部分：一、建立特征提取模板库与关键词库，用于数据文档的自动特征提取；二、优先度计算与业务需求分析。与具体实现步骤如下：

第一部分：根据已有的特征提取模板与关键词词库，提取待处理数据的各项特征。

特征提取模板基于XML文档转化的经验构建，包括特征模板适用对象、特征提取结构、特征关键词、关键词词库四大部分。特征模板适用对象说明了该模板适用的数据类型，特征提取结构说明了该模板的结构特征，特征关键词说明了各位置关键词的类型，关键词词库说明了各类型关键词对应的关键词词库。设当前待处理文档A为毫米波雷达数据，适用于毫米波雷达数据特征提取模板。从毫米波雷达数据提取模板中调用第1种模板，列出该模板包含的信息如表1所示：

表1

通过模板适用的数据类型，逐一匹配可能适合当前待处理文档A的特征提取模板。通过特征提取结构确定数据的结构样式，确定需要提取的关键词的位置。通过相关位置的关键词类别确定待提取特征的具体形式。通过核实父关键词的类型，确保提取出的子关键词的类型是正确的。以“父关键词+子关键词”的正则化形式，提取数据中的特征。如果待处理文档中关键词位置或类型与当前模板不匹配，说明当前模板选用错误，需要更换下一种模板，直至所有关键词位置与类型完全匹配。

在特征提取的过程中，如果遇到部分关键词无法识别，先判断其临近关键词的类别，再根据临近关键词的类别确定该关键词的类别。例如表1中的关键词1b在相关数据库中没有记录，可以先识别关键词1a、关键词1c。如果这两类关键词均与模板匹配成功，则判断关键词1b与模板的类型一致，按照模板中关键词1b的类型进行提取任务，并将此关键词加入关键词1b的数据库中。如果上述两类关键词与模板匹配不成功，说明当前模板不合适，需更换下一种模板进行匹配，直到前后关键词均匹配成功为止。通过上述方式确定了关键词1b的类型后，则认为在本次处理的同一批文档中，其他部分的处于关键词1b位置的关键词也属于这种类型。

特征关键词词库中按照数据类型和关键词的类别整理了所有可能出现在文档中的关键词。以雷达数据的特征关键词词库为例，列出该词库的结构样式如图2所示。

第二部分：优先度计算与业务需求分析，具体包括如下步骤：

步骤1、针对待处理数据，在数据融合的历史记录中找到与待处理数据相似度大于设定阈值的一系列同类型文档，组成相似文档集合；其中，已有方法中有很多确定文档相似度的方法，本发明对相似度的计算方法为：采用相同的方式提取待处理数据和同类型文档的特征，根据两者之间的特征匹配度确定相似度。特征的提取即可根据第一部分建立模板特征库进行特征提取；但也可以不依赖第一部分的模板特征库进行特征提取，例如采用手动逐条提取特征的方法。

本实施例中，计算相似度的方法为：首先读取数据融合的历史记录，计算当前文档A与历史记录中相同类型文档的相似度Sim(B_i，A)，计算公式如下：

其中，α₁表示当前文档A与B_i之间的可比较特征中数值型特征所占的比例(可比较特征是指A的特征集合与B_i的特征集合的交集)，α₂表示A与B_i之间的可比较特征中文字型特征所占的比例；n表示当前文档A与B_i之间的可比较特征中数值型特征的个数，a_i和b_i分别表示A与B_i对应于某一数值型特征的取值归一化后的结果；m表示当前文档A与B_i之间的可比较特征中文字型特征的个数，c_j和d_j分别表示A与B_i对应于某一文字型特征的取值。

以第一部分建立的特征模板库为例，进一步说明相似度的计算方法：现有一条相同类型文档的历史记录如下表2所示：

根据记录中的数据类型可判断该历史记录中的处理文档与当前待处理文档A是同一类型文档。从该条历史记录中获得该文档与待处理文档A的可比较特征为：径向数据类、方位角数据类、雷达扫描模式类、雷达工作模式类。其中前两个特征是数值型数据，后两个特征是文字型数据。将上述特征分别代入相似度计算公式即可求得两个文档之间的相似度。如果相似度大于0.5，判定该文档与待处理文档相似，将该文档列入与待处理文档相似的集合。完成后确定相似集合中的文档数目

步骤2、根据数据融合的历史记录，为待处理数据选择一系列可处理该数据的融合方法；

步骤3、针对步骤2确定的每一种融合方法，读取该融合方法资料，确定该融合方法适用于处理的文档数据；

表2

步骤4、计算待处理文档与步骤3确定的文档数据之间的相似度；

步骤5、针对步骤1组成的相似文档集合，计算步骤3的每一种融合方法被相似文档集合中所有文档所使用的方法推荐度；将该方法推荐度与步骤4计算的相似度相乘，得到一种融合方法对应的优先度，本步骤的具体方法如下：

表3

如表3所示，首先确定该方法M_i理论上适合的文档N_i和待处理文档A之间的可比较特征集合，然后按照相似度计算公式计算两文档之间的相似度。随后遍历相似集合，对这种方法在相似集合中的出现次数进行计数，得到

按照公式：

计算得到将方法M_i用于文档A的历史推荐程度。最后按照公式

Pr(M_i|A)＝Sim(N_i，A)·P₁(M_i|A)

计算将方法M_i用于文档A的优先度。

步骤7、将步骤2获得的融合方法按步骤6得到的优先度进行降序排列；取其中排序靠前的设置数量的融合方法；本实施例中，取位于前50％的融合方法进入下一步分析中。

步骤8、针对步骤7选取的每一个融合方法，在历史记录中调取各融合方法处理过的同类型历史文档；同时确定每一个融合方法理论上适用的文档；将所有融合方法对应的同类型历史文档与理论上适用的文档组成文档合集；

步骤9、确定待处理数据的业务需求和步骤8的文档集合中各文档的业务需求；以及各业务需求的重要程度，具体为：本发明基于业务实际需求分析历史记录中处理文档与当前待处理文档A的相似程度，依据历史记录自适应分析选择合适的融合方法M_i。业务人员勾选处理本次文档时需要考虑的业务需求并排序，例如确定业务需求共有4个，实现的重要程度R₁＞R₂＞R₃＞R₄，将此排序转化为数值型重要程度ω_i，i＝1，2，3，4，ω_i∈(0，1]。重要程度为等差数列，

ω₃＝0.2+0.2＝0.4，ω₂＝0.4+0.2＝0.6，ω₁＝0.6+0.2＝0.8。

然后确定待比较集合{B_i}。对于上一步中选出的融合方法，从历史记录中选出曾使用过这些方法的文档，再从这些文档中选出与当前待处理文档类型相同的文档，将其添加到待比较集合中。其形式如表2所示。将各融合方法对应的适用文档复制3份，将复制后的文档添加到待比较集合。其形式如表3所示。随后比较当前待处理文档A和待比较集合{B_i}中每一份文档B_i在业务需求上的相似度，按照下式计算

其中，a_i和b_i分别表示A与B_i对应于某一业务需求的重要程度取值；n表示当前文档A的业务需求的个数。如果A中某项业务需求在B中不存在，则B中相应业务需求的重要程度为0。A中不存在而B中存在的业务需求不参与计算。

然后基于待处理文档A和待比较集合{B_i}的比较开展自适应分析。选取与当前文档A最相似的5份文档，并确定它们对应的处理方法，选择其中出现次数最多的作为最终选择的处理方法。如果出现有多种方法出现次数并列最多的情况，则将5份增加为7份，每次增加2份，直至出现唯一的出现次数最多的方法。对于各融合方法适用文档的复制品，如果在选取最相似文档时超出了需要选取的文档数目，则按照文档数目上限选取相应数目的复制品。例如，在选取最相似的5份文档时，已经选取了4份文档，在选取第5份文档时有一种融合方法适用文档的3份复制品全部符合条件，则判定只有1份复制品入选最相似的5份文档。

本发明首先根据特征提取模板与特征数据库，提取待处理数据的各项特征；在数据库存储过程中已经将原有数据统一转换成XML文件，实现数据格式的统一。针对不同领域的数据转换成的XML文件中的不同标记，建立不同类型的特征提取模板。在特征提取模板中，充分考虑与XML文档转化有关的经验规则，包括：

(1)将文档中的各类关键词作为各部分类别的主要识别标志；

(2)对于无法识别关键词的部分，先根据结束标志划清该部分与前后部分的界限，然后识别出前后部分所属的类别，最后根据文档中类别顺序的经验判断该部分所属的类别；

(3)在提取过程中，先将较为肯定的类别确定下来，然后根据这些类别去判断那些不确定的类别；

(3)采用优先级方式识别类别，对于文档中已经确定的，在后续的识别过程中优先采用这种模式进行识别。

在匹配过程中主要采用正则匹配的方式，同时结合特征数据库进行搜索，保证对特征类别的准确识别。特征数据库将文档中的各类关键词以等价类的方式组织起来，通过识别本文档中的关键词，为正则匹配提供依据。

然后依据第一步中提取出的文档各项特征，与已有融合方法库中用于同类型文档的各项融合方法对应的适用文档特征进行匹配，综合考虑历史记录，获得适用于当前数据的融合方法集合。

最后，基于业务实际需求分析历史记录中同类型文档与当前待处理文档A的相似程度，依据历史记录自适应分析选择适合当前业务需求的融合方法M_i。首先由业务人员勾选处理本次文档时需要考虑的业务需求并排序，然后将各项业务需求转化为一组等差数列的重要程度。随后创建待比较集合{B_i}，基于业务实际需求比较待处理文档和待比较集合中文档的接近程度，基于比较开展自适应分析，确定最终选择的处理方法。

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种针对XML文件的数据自适应融合方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种针对XML文件的数据自适应融合方法，其特征在于，所述步骤10中，当这些文档使用次数最多的融合方法不止一种的情况下，在本步骤中选择最相似的一部分文档时，增加选择的文档的数量。

3.如权利要求1所述的一种针对XML文件的数据自适应融合方法，其特征在于，所述步骤1和4中，计算相似度时，采用相同的方式提取待处理数据和同类型文档的特征，根据两者之间的特征匹配度确定相似度。

4.如权利要求3所述的一种针对XML文件的数据自适应融合方法，其特征在于，所述相似度的计算公式为：

其中，α₁表示当前文档A与同类型文档B_i之间的可比较特征中数值型特征所占的比例，α₂表示A与B_i之间的可比较特征中文字型特征所占的比例；n表示当前文档A与同类型文档B_i之间的可比较特征中数值型特征的个数，a_i、b_i和b_j分别表示A与B_i对应于某一数值型特征的取值归一化后的结果；m表示当前文档A与同类型文档B_i之间的可比较特征中文字型特征的个数，c_k和d_k分别表示A与B_i对应于某一文字型特征的取值；count(c_k＝d_k)为计数函数，即从k的值为1到m的过程中，当c_k＝d_k时，count(c_k＝d_k)＝1。

5.如权利要求4所述的一种针对XML文件的数据自适应融合方法，其特征在于，所述设定阈值为0.5。

6.如权利要求3所述的一种针对XML文件的数据自适应融合方法，其特征在于，提取待处理数据特征的方法为，先建立特征模板库，具体为：

(1)确定模板适用对象，说明该模板适用的数据类型；

(2)确定特征提取结构，说明该模板的结构形式；

(3)确定特征关键词，说明关键词的类别与在模板中的位置；

(4)确定关键词词库，说明与模板中关键词的对应关系。

7.如权利要求1所述的一种针对XML文件的数据自适应融合方法，其特征在于，所述步骤5中的方法推荐度的计算公式为：

其中，

表示一种融合方法在相似文档集合中的使用次数；

表示所有融合方法在相似文档集合中被使用的次数。

8.如权利要求1所述的一种针对XML文件的数据自适应融合方法，其特征在于，所述步骤7中，设定数量为总数量的一半。

9.如权利要求1所述的一种针对XML文件的数据自适应融合方法，其特征在于，所述步骤10中，最相似的一部分文档的数量取为5。