CN113986908B

CN113986908B - 一种工业设备数据的处理方法、装置及设备

Info

Publication number: CN113986908B
Application number: CN202111594046.7A
Authority: CN
Inventors: 田春华; 徐地; 张硕; 袁文飞; 胡坤; 孟越
Original assignee: Kunlun Intellectual Exchange Data Technology Beijing Co ltd
Current assignee: Kunlun Intellectual Exchange Data Technology Beijing Co ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-15
Anticipated expiration: 2041-12-24
Also published as: CN113986908A

Abstract

本发明提供一种工业设备数据的处理方法、装置及设备，所述方法包括：获取工业设备数据集的相似数据集簇，所述相似数据集簇中包含多个目标数据集；根据预设领域模型，获取所述工业设备数据集之间的关系图；根据所述关系图，确定所述相似数据集簇中每个目标数据集的依赖路径；根据所述数据集的依赖路径，获取所述相似数据集簇中的目标数据集间的相似度；根据所述相似度，确定至少两个目标数据集是否为重复数据集。本发明提供的方案通过数据集依赖路径获得数据集间的相似度，并依据相似度判断目标数据集是否为重复数据集，提高了数据集簇中重复数据查询的精度，同时降低了查询的难度。

Description

一种工业设备数据的处理方法、装置及设备

技术领域

本发明涉及工业设备数据分析技术领域，特别是指一种工业设备数据的处理方法、装置及设备。

背景技术

企业的分层资源化过程，很容易存在重复的数据加工，识别并消除这些重复，对于提高数据资源化的效率非常重要，但现有方案中很难通过静态代码分析获得：分析任务逻辑可能很复杂，很难通过加工后数据的数据模式data schema分析获得，即使输出相同物理意义的数据，不同分析任务的输出字段名称可能不同，对于重复数据的筛选难度较大。

发明内容

本发明要解决的技术问题是提供一种工业设备数据的处理方法、装置及设备，以降低重复数据查找的难度，提高数据资源化效率。

为解决上述技术问题，本发明的技术方案如下：

本发明的实施例提供一种工业设备数据的处理方法，所述方法包括：

获取工业设备数据集的相似数据集簇，所述相似数据集簇中包含多个目标数据集；

根据预设领域模型，获取所述工业设备数据集之间的关系图；

根据所述关系图，确定所述相似数据集簇中每个目标数据集的依赖路径；

根据所述依赖路径，获取所述相似数据集簇中的目标数据集间的相似度；

根据所述相似度，确定至少两个目标数据集是否为重复数据集。

可选的，所述领域模型包括：数据集、数据集中的关键字段和数据集间的关系。

可选的，获取工业设备数据集的相似数据集簇，包括：

根据数据集分析任务的配置信息以及分析任务的运行日志，获得工业设备数据集的相似数据集簇，所述相似数据集簇中的目标数据集的配置信息和运行日志中的至少一项信息相同或者相似度大于一预设值；

所述配置信息包括以下至少一项：

分析任务的执行周期、输入数据源、输出数据表；

所述运行日志包括以下至少一项：分析任务的执行时间和输出记录量。

可选的，所述关系图包括：分析任务的输入数据集、分析任务产生的信息流、分析任务的输出数据集以及所述输入数据集、所述输出数据集和所述信息流之间的关系。

可选的，根据所述关系图，确定所述相似数据集簇中每个目标数据集的依赖路径，包括：

根据所述关系图，确定一目标数据集的前序分析任务及输入数据集；

根据所述前序分析任务的输入查询语句，获得所述输入数据集的解析字段列表；

根据所述输入数据集以及所述解析字段列表，获得所述目标数据集的依赖路径。

可选的，根据所述数据集的依赖路径，获取所述相似数据集簇中的目标数据集间的相似度，包括：

在所述相似数据集簇中的任意两个目标数据集的依赖路径上，若不存在共性数据集，则所述任意两个目标数据集的相似度为零；

若存在共性数据集，根据所述共性数据集的解析字段列表中，与任意两个目标数据集相同的字段数量占总体字段数量的比例，获得相似度；

所述共性数据集为所述依赖路径上靠近任意两个目标数据集的数据集。

可选的，根据所述相似度，确定至少两个目标数据集是否为重复数据集，包括：

根据任意两个所述两个目标数据集的相似度，获得所述相似数据集簇的相似度矩阵；

根据预设聚类阈值和聚类数，对所述相似度矩阵进行聚类，获得聚类结果；

根据所述聚类结果，确定至少两个目标数据集是否为重复数据集。

本发明的实施例还提供一种工业设备数据的处理装置，所述装置包括，

获取模块，用于获取工业设备数据集的相似数据集簇，所述相似数据集簇中包含多个目标数据集；

处理模块，用于根据预设领域模型，获取所述工业设备数据集之间的关系图；根据所述关系图，确定所述相似数据集簇中每个目标数据集的依赖路径；

根据所述依赖路径，获取所述相似数据集簇中的目标数据集间的相似度；根据所述相似度，确定至少两个目标数据集是否为重复数据集。

本发明的实施例还提供一种计算设备，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如上述所述的工业设备数据的处理方法的步骤。

本发明的实施例还提供一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如上述所述的工业设备数据的处理方法的步骤。

本发明的上述方案至少包括以下有益效果：

本发明的上述方案，通过获取工业设备数据集的相似数据集簇，所述相似数据集簇中包含多个目标数据集；根据预设领域模型，获取所述工业设备数据集之间的关系图；根据所述关系图，确定所述相似数据集簇中每个目标数据集的依赖路径；根据所述依赖路径，获取所述相似数据集簇中的目标数据集间的相似度；根据所述相似度，确定至少两个目标数据集是否为重复数据集，提高了重复数据集查询处理精度，降低查询处理的难度，同时提高了工业设备数据资源化的效率。

附图说明

图1是本发明实施例提供的数据处理方法流程图；

图2是本发明实施例提供的工业设备数据集之间的关系图；

图3是本发明实施例提供的部分目标数据集之间的关系图；

图4是本发明实施例提供的目标数据集相似度聚类结果直方图；

图5是本发明实施例提供的数据处理装置结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

如图1所示，本发明的实施例提出一种工业设备数据的处理方法，所述方法包括：

步骤11，获取工业设备数据集的相似数据集簇，所述相似数据集簇中包含多个目标数据集；

步骤12，根据预设领域模型，获取所述工业设备数据集之间的关系图；

步骤13，根据所述关系图，确定所述相似数据集簇中每个目标数据集的依赖路径；

步骤14，根据所述依赖路径，获取所述相似数据集簇中的目标数据集间的相似度；

步骤15，根据所述相似度，确定至少两个目标数据集是否为重复数据集。

该实施例中，所述步骤11和所述步骤12先后顺序不受序号限制，在不影响本发明目的的前提下，步骤11与步骤12可以进行调换；所述相似数据集簇中包含的多个目标数据集为相似或相同的数据集；根据预设的领域模型，获取工业设备数据集之间的关系图，所述关系图为全体工业设备数据集的加工DAG（有向无回路）图；在所述关系图中确定每个目标数据集的依赖路径，所述依赖路径为每个目标数据集对应的前序分析任务对输入的数据集进行加工得到该目标数据集的字段路径；在所述关系图中，每个目标数据集也可以是作为输入数据集，并根据此时目标数据集作为输入数据集时对应的分析任务，得到下一个目标数据集；依据所述依赖路径，获取任意两个目标数据集间的相似度，提高了数据集查询的精度，同时与现有重复数据及查询的方法相比较为简单，并依据相似度判断出所述数据集簇中的至少两个目标数据是否为重复数据。

进一步的，对所述领域模型进行说明，所述领域模型包括：数据集、数据集中的关键字段和数据集间的关系。该实施例中，所述领域模型为工业设备场景下：多个数据集、每个数据集中的关键字段以及任意两个数据集间的关系形成的模型。

本发明的一可选实施例中，所述步骤11，可以包括：

步骤111，根据数据集分析任务的配置信息以及分析任务的运行日志，获得工业设备数据集的相似数据集簇，所述相似数据集簇中的目标数据集的配置信息和运行日志中的至少一项信息相同或者相似度大于一预设值；所述配置信息包括以下至少一项：分析任务的执行周期、输入数据源、输出数据表；所述运行日志包括以下至少一项：分析任务的执行时间和输出记录量。

该实施例中，所述分析任务包括配置信息和运行日志，所述分析任务的配置信息包括分析任务的执行周期、分析任务的输入数据源以及输出数据表等，分析任务的运行日志包括分析任务的执行时间和分析任务的输出记录量，当所述任意两个数据集分析任务的执行周期、输入数据源、输出数据表、执行时间以及输出记录量中的任意一项相同或相近时，则对应的两个数据集归入相似数据集簇中；根据数据集的分析任务，获取相似数据集簇，实现对数据集的初步筛选，保证获取的相似数据集簇中的任意目标数据集间均为相似或者相近的数据集，同时筛选掉与目标数据集不重复的数据集，减少后续步骤数据集的处理量，同时也避免不必要的数据集间进行相似度计算。

本发明的一可选实施例中，对所述关系图进行说明，所述关系图包括：分析任务的输入数据集、分析任务产生的信息流、分析任务的输出数据集以及所述输入数据集、所述输出数据集和所述信息流之间的关系。

该实施例中，如图2所示，将产生信息流的分析任务Tk列入关系图中，以更为清楚的显示输入数据集、输出数据集以及信息流之间的关系，其中k为正整数，图中带箭头虚线表示分析任务产生的信息流，D11、D12…D1N、D2K表示数据集。

本发明的一可选实施例中，所述步骤13，可以包括：

步骤131，根据所述关系图，确定一目标数据集的前序分析任务及输入数据集；

步骤132，根据所述前序分析任务的输入查询语句，获得所述输入数据集的解析字段列表；

步骤133，根据所述输入数据集以及所述解析字段列表，获得所述目标数据集的依赖路径。

该实施例中：首先，根据所述关系图中所述输入数据集、输出数据集以及分析任务产生的信息流之间的关系，在所述关系图中确定所述相似数据集簇中任一目标数据集的前序分析任务，以及前序分析任务对应的输入数据集，依据所述前序分析任务对所述输入数据集进行分析时的输入查询语句，并对所述查询语句进行解析，获得所述输入数据集分析处理时用到的解析字段列表，将所述解析字段列表以及所述输入数据集作为该目标数据集的第一个依赖路径；

其次：将上述确认的所述输入数据集作为当前目标数据集，并进行此时目标数据集对应的前序分析任务、输入数据集以及输入数据集的解析字段列表的获取，并将此时获得解析字列表以及输入数据集作为上述任一目标数据集的第二个依赖路径，依次迭代循环进行任一目标数据集的第N个依赖路径的获取，其中N为正整数，直到当前目标数据不存在前序分析任务时截止，并将第一个依赖路径、第二个依赖路径以及第N个依赖路径作为任一目标数据集的依赖路径；

在所述相似数据集簇中，根据所述关系图，每个目标数据集既可以作为当前目标数据集进行依赖路径的查找，也可以是根据所述关系图中分析任务产生的信息流作为下一个目标数据集的输入数据集。

在实际操作程序中，具体的，针对所述相似数据集簇中的每个目标数据集Di，将其作为当前数据集D_cur，则所述目标数据集Di的依赖路径Path_i为空，在所述关系图中找到所述目标数据集Di所在的位置，从后到前迭代追溯，一直到原始输入数据集，并根据所述关系图，获得所述当前数据集D_cur的前序分析任务T_cur，根据所述前序分析任务T_cur的输入查询语句并解析，可以获得当前数据集D_cur的输入数据集D_prev用到的字段列表fields_prev，将{输入数据集D_prev，字段列表fields_prev}放入依赖路径Path_i，将输入数据集D_prev设为当前目标数据集D_Cur进行迭代，直到前序分析任务T_cur为空时结束依赖路径查找。

本发明的一可选实施例中，所述步骤14，可以包括：

步骤141，在所述相似数据集簇中的任意两个目标数据集的依赖路径上，若不存在共性数据集，则所述任意两个目标数据集的相似度为零，若存在共性数据集，根据所述共性数据集的解析字段列表中，与任意两个目标数据集相同的字段数量占总体字段数量的比例，获得相似度；所述共性数据集为所述依赖路径上靠近任意两个目标数据集的数据集。

该实施例中，如图3所示，针对所述相似数据集簇中的任意两个第一目标数据集D1和第二目标数据集D2，所述共性数据集D4既是第一目标数据集D1的依赖路径上的输入数据集，也是第二目标数据集D2的依赖路径上的输入数据集，所述共性数据集D4为目标数据集的依赖路径上距离目标数据集最近的一个输入数据集；

若在依赖路径上不存在共性数据集时，则两个目标数据集的相似度为零，即可以判断此时的两个目标数据集不是重复的数据集；

若在依赖路径上存在共性数据集，则将所述共性数据集的解析字段列表中相同解析字段的数量与总体解析字段数量的比值，作为两个目标数据集的相似度；通过确定共性数据集，并依据所述共性数据集上的相同解析字段进行相似度计算，提高了重复数据集查询的处理精度，同时简化数据集处理程序，提高数据集处理效率。

本发明的一可选实施例中，所述步骤15，可以包括：

步骤151，根据任意两个所述两个目标数据集的相似度，获得所述相似数据集簇的相似度矩阵；

步骤152，根据预设聚类阈值和聚类数，对所述相似度矩阵进行聚类，获得聚类结果；

步骤153，根据所述聚类结果，确定至少两个目标数据集是否为重复数据集。

该实施例中，根据所述相似数据集簇中多个目标数据集中任意两个目标数据集的相似度，并依据所有的相似度获得相似度矩阵；对所述相似度矩阵进行聚类处理，获得聚类结果，优选的，可以通过层次聚类算法对所述相似度矩阵进行处理，当然不仅限于层次聚类算法；

所述预设的聚类阈值以及聚类的类别数可以根据实际应用场景的需要进行设定调整，同时根据所述聚类结果，依据实际应用场景的需要，判断出所述相似数据集簇中的至少两个目标数据集是否为重复数据集，并将识别出的重复数据集去除，提高数据资源化效率。

以所述相似数据集簇中有50个目标数据集为例对上述实施例进行说明，根据目标数据集之间的相似度，则可以得到一个50*50的相似度矩阵，如下所示：

其中，S为相似度矩阵，S_i,j表示第i个目标数据集与第j个目标数据集的相似度（所述相似度在0与1之间），S_i,j=S_j,i。

通过层次聚类算法对50*50的相似度矩阵进行聚类处理，得到聚类结果，如图4所示，所述聚类结果可以以直方图的形式进行表示，其中Y轴方向表示聚类阈值，X轴方向每个直方图的一条竖直边表示一个目标数据集；根据实际工业设备应用情况，当预设聚类阈值选取范围在（0.4-0.5）之间时，存在七个聚类类别，如图中所示，X轴方向上的没一个虚线框中的目标数据集为同一个类别，此时说明该类别中目标数据集为重复数据集；通过对目标数据集的相似度进行聚类处理，以聚类结果判断目标数据集是否为重复数据集，与现有方案相比，更加简单直观，同时也提高重复数据集查询处理的效率。

本发明的实施例还提供一种工业设备数据的处理装置，所述装置50包括，

获取模块51，用于获取工业设备数据集的相似数据集簇，所述相似数据集簇中包含多个目标数据集；

处理模块52，用于根据预设领域模型，获取所述工业设备数据集之间的关系图；根据所述关系图，确定所述相似数据集簇中每个目标数据集的依赖路径；根据所述依赖路径，获取所述相似数据集簇中的目标数据集间的相似度；根据所述相似度，确定至少两个目标数据集是否为重复数据集。

可选的，所述获取模块52用于获取工业设备数据集的相似数据集簇，包括：

所述配置信息包括以下至少一项：分析任务的执行周期、输入数据源、输出数据表；所述运行日志包括以下至少一项：分析任务的执行时间和输出记录量。

可选的，所述处理模块52用于根据所述关系图，确定所述相似数据集簇中每个目标数据集的依赖路径，包括：

可选的，所述处理模块52用于根据所述依赖路径，获取所述相似数据集簇中的目标数据集间的相似度，包括：

可选的，所述处理模块52用于根据所述相似度，确定至少两个目标数据集是否为重复数据集，包括：

该装置是与上述方法对应的装置，上述方法实施例中的所有实现方式均适用于该装置的实施例中，也能达到相同的技术效果。

本发明的实施例还提供一种计算设备，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如上所述的工业设备数据的处理方法的步骤；上述实施例中的所有实现方式均适用于该实施例中，也能达到相同的技术效果。

本发明的实施例还提供一种计算机可读存储介质，存储有指令，所述指令在计算机上运行时，使得计算机执行如上所述的工业设备数据的处理方法。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

此外，需要指出的是，在本发明的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行，某些步骤可以并行或彼此独立地执行。对本领域的普通技术人员而言，能够理解本发明的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置（包括处理器、存储介质等）或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。

因此，本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本发明，并且存储有这样的程序产品的存储介质也构成本发明。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。还需要指出的是，在本发明的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种工业设备数据的处理方法，其特征在于，所述方法包括：

根据所述相似度，确定至少两个目标数据集是否为重复数据集；

其中，所述预设领域模型为工业设备数据集的实例化模型；所述预设领域模型包括：数据集、数据集中的关键字段和数据集间的关系；所述关系图为工业设备数据集的加工DAG有向无回路图；所述依赖路径为对每个目标数据集对应的前序分析任务对输入的数据集进行加工时得到该目标数据集的字段路径；在所述关系图中确定所述相似数据集簇中任一目标数据集的前序分析任务，以及前序分析任务对应的输入数据集，依据所述前序分析任务对所述输入数据集进行分析时的输入查询语句，并对所述查询语句进行解析，获得所述输入数据集分析处理时用到的解析字段列表即为该目标数据集的字段路径；

在所述关系图中确定每个目标数据集的依赖路径，并依据任意两个目标数据集的依赖路径中该目标数据集字段路径的相似度，获取任意两个目标数据集间的相似度；

其中，根据所述相似度，确定至少两个目标数据集是否为重复数据集，包括：

2.根据权利要求1所述的工业设备数据的处理方法，其特征在于，获取工业设备数据集的相似数据集簇，包括：

所述配置信息包括以下至少一项：

分析任务的执行周期、输入数据源、输出数据表；

3.根据权利要求1所述的工业设备数据的处理方法，其特征在于，所述关系图包括：分析任务的输入数据集、分析任务产生的信息流、分析任务的输出数据集以及所述输入数据集、所述输出数据集和所述信息流之间的关系。

4.根据权利要求1所述的工业设备数据的处理方法，其特征在于，根据所述关系图，确定所述相似数据集簇中每个目标数据集的依赖路径，包括：

5.根据权利要求4所述的工业设备数据的处理方法，其特征在于，根据所述依赖路径，获取所述相似数据集簇中的目标数据集间的相似度，包括：

6.一种工业设备数据的处理装置，其特征在于，所述装置包括，

根据所述依赖路径，获取所述相似数据集簇中的目标数据集间的相似度；根据所述相似度，确定至少两个目标数据集是否为重复数据集；

7.一种计算设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-5任一项所述的工业设备数据的处理方法的步骤。

8.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-5任一项所述的工业设备数据的处理方法的步骤。