WO2014206063A1

WO2014206063A1 - 一种数据交互方法及装置

Info

Publication number: WO2014206063A1
Application number: PCT/CN2014/070105
Authority: WO
Inventors: 黄红莉; 刘诗凯
Original assignee: 华为技术有限公司
Priority date: 2013-06-28
Filing date: 2014-01-03
Publication date: 2014-12-31
Also published as: CN104253847B; CN104253847A

Abstract

本发明实施例公开了一种数据交互方法及装置，该方法包括：数据挖掘装置确定进行元数据信息配置时，向数据集成装置请求数据集成装置中的第一元数据信息；所述数据挖掘装置接收所述数据集成装置发送的所述第一元数据信息；根据接收到的所述第一元数据信息，所述数据挖掘装置进行本地的第二元数据信息的配置。本发明实施例能够缩短数据挖掘***中第二元数据信息的配置时间，提高数据挖掘***的工作效率。

Description

一种数据交互方法及装置本申请要求于 2013年 6月 28日提交中国专利局、申请号为

201310270030. X, 发明名称为 "一种数据交互方法及装置" 的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及通信领域，尤其涉及一种数据交互方法及装置。

背景技术

数据提取、转换、装载（ETL, Ext ract Transform Load ) ***是一种数据集成***， ETL ***负责从各种源***的数据库或文件***中获取数据，经过转换、清洗等逻辑处理，可以将逻辑处理得到的数据根据业务诉求装载到相应的目标***中。

智能挖掘 ( Smar tMiner ) ***是一种数据挖掘***，智能挖掘***负责从大量数据中提取或者挖掘知识，通俗一点就是从大量的数据中获取有价值的信息，以支撑后续的业务推广和应用等。

数据集成***和数据挖掘***是两套独立的***，各自有各自的流程定义和元数据定义，两者之间唯一存在的联系是数据挖掘***所使用的源数据一般都是数据集成***进行数据处理后的输出数据。例如图 1A所示，为 ETL***和 Smar tMiner***联合工作的总体架构图。其中， ETL*** 110 从源*** 120 中获取数据，对获取到的数据进行一系列的逻辑处理后得到满足 Smar tMiner***要求的宽表数据，将所述宽表数据装载到目标*** 130 中； Smar tMiner*** 140从目标*** 130中获取 ETL***装载的所述宽表数据，进行数据挖掘后将挖掘结果装载到目标*** 130中。

由于宽表中字段数量较多，可能达到几十甚至上百个字段，数据集成 ***和数据挖掘***中宽表的字段等元数据信息需求很大，而现有技术中一般人为配置，配置时间长，配置过程需要占用数据集成***和数据挖掘 ***大量的时间和资源以实现***中宽表元数据信息的配置，影响了数据集成***和数据挖掘***的工作效率。发明内容本发明实施例中提供了一种数据交互方法及装置，能够缩短数据挖掘 ***中宽表元数据信息的配置时间，提高数据挖掘***的工作效率。

第一方面，本发明实施例提供一种数据交互方法，包括：

数据挖掘装置确定进行元数据信息配置时，向数据集成装置请求数据集成装置中的第一元数据信息；

所述数据挖掘装置接收所述数据集成装置发送的所述第一元数据信息；

根据接收到的所述第一元数据信息，所述数据挖掘装置进行本地的第二元数据信息的配置。

结合上述第一方面，在第一方面第一种可能的实现方式中，所述第一元数据信息包括：第一数据的字段定义信息、第一数据的存储位置信息；所述第一数据是数据集成装置生成的数据；

所述根据接收到的所述第一元数据信息，数据挖掘装置进行本地的第二元数据信息的配置，具体包括：

所述数据挖掘装置将所述第一数据的字段定义信息作为第二数据的字段定义信息；

所述数据挖掘装置将所述第一数据的存储位置信息确定为所述第二数据的地址获取信息，其中所述第二数据是所述数据挖掘装置的源数据。

结合上述第一方面第一种可能的实现方式，在第一方面第二种可能的实现方式中，还包括：

所述数据挖掘装置确定进行数据挖掘时，根据确定的所述第二数据的地址获取信息获取第二数据；

所述数据挖掘装置根据获取到的第二数据以及所述第二数据的字段定义信息进行数据挖掘处理。

结合上述第一方面第二种可能的实现方式，在第一方面第三种可能的实现方式中，所述第二数据的地址获取信息中包含变量信息，所述数据挖掘装置根据确定的所述第二数据的地址获取信息获取第二数据，具体包括：所述数据挖掘装置从所述数据集成装置获取所述变量信息的具体取值，得到所述第二数据的具体地址获取信息；所述数据挖掘装置从所述第二数据的具体地址获取信息指示的地址获取第二数据；

或者，所述第二数据的地址获取信息中每一信息均设置为固定值，所述数据挖掘装置根据确定的所述第二数据的地址获取信息获取第二数据，具体包括：所述数据挖掘装置从所述第二数据的地址获取信息指示的地址获取第二数据。

结合上述第一方面第二种可能的实现方式，和 /或第一方面第三种可能的实现方式，在第一方面第四种可能的实现方式中，所述数据挖掘装置确定进行数据挖掘包括：

所述数据挖掘装置确定到达预设挖掘时间时，确定进行数据挖掘；或者，所述数据挖掘装置接收到所述数据集成装置发送的挖掘流程触发消息时，确定进行数据挖掘，所述挖掘流程触发消息在数据集成装置完成第一数据的装载后发送。

第二方面，本发明实施例提供一种数据交互方法，包括：

数据集成装置接收数据挖掘装置对于所述数据集成装置中的第一元数据信息的请求；

所述数据集成装置向所述数据挖掘装置发送所述第一元数据信息，以便所述数据挖掘装置根据所述第一元数据信息进行数据挖掘装置中第二元数据信息的配置。

结合上述第二方面，在第二方面第一种可能的实现方式中，所述第一元数据信息包括：第一数据的字段定义信息、第一数据的存储位置信息；所述第一数据是数据集成装置生成的数据；且所述第一数据的存储位置信息中包含变量信息；该方法还包括：

所述数据集成装置将第一数据加载后确定的所述存储位置信息中变量信息的具体取值发送给数据挖掘装置。

第三方面，本发明实施例提供一种数据挖掘装置，包括：

第一发送单元，用于确定进行元数据信息配置时，向数据集成装置请求数据集成装置中的第一元数据信息；

第一接收单元，用于接收所述数据集成装置基于第一发送单元的请求发送的所述第一元数据信息；

配置单元，用于根据第一接收单元接收到的所述第一元数据信息，进行本地第二元数据信息的配置。

结合上述第三方面，在第三方面第一种可能的实现方式中，所述第一元数据信息包括：第一数据的字段定义信息、第一数据的存储位置信息；所述第一数据是数据集成装置生成的数据；所述配置单元具体用于：将所述第一数据的字段定义信息确定为第二数据的字段定义信息；将所述第一数据的存储位置信息确定为所述第二数据的地址获取信息；所述第二数据是所述数据挖掘装置的源数据。

结合上述第三方面第一种可能的实现方式，在第三方面第二种可能的实现方式中，还包括：

获取单元，用于确定进行数据挖掘时，根据确定的所述第二数据的地址获取信息获取第二数据；

挖掘单元，用于根据获取单元获取到的第二数据以及所述第二数据的字段定义信息进行数据挖掘处理。

结合上述第三方面第二种可能的实现方式，在第三方面第三种可能的实现方式中，所述第二数据的地址获取信息中包含变量信息，获取单元具体用于：从数据集成装置获取所述变量信息的具体取值，得到第二数据的具体地址获取信息；从所述第二数据的具体地址获取信息指示的地址获取第二数据；

或者，所述第二数据的地址获取信息中每一信息均设置为固定值，获取单元具体用于：从所述第二数据的地址获取信息指示的地址获取第二数据。

结合上述第三方面第二种可能的实现方式，和 /或第三方面第三种可能的实现方式，在第三方面第四种可能的实现方式中，还包括：

确定单元，用于确定到达预设挖掘时间时，确定进行数据挖掘；或者，接收到数据集成装置发送的挖掘流程触发消息时，确定进行数据挖掘，所述挖掘流程触发消息在数据集成装置完成第一数据的装载后发送。

第四方面，本发明实施例提供一种数据集成装置，包括：

第二接收单元，用于接收数据挖掘装置对于数据集成装置中的第一元数据信息的请求；

第二发送单元，用于向所述数据挖掘装置发送第二接收单元接收到的请求所对应的所述第一元数据信息，以便数据挖掘装置根据所述第一元数据信息进行数据挖掘装置中的第二元数据信息的配置。

结合上述第四方面，在第四方面第一种可能的实现方式中，所述第一元数据信息包括：第一数据的字段定义信息、第一数据的存储位置信息；所述第一数据是数据集成装置生成的数据；且所述第一数据的存储位置信息中包含变量信息；所述第二发送单元还用于：将第一数据加载后确定的所述存储位置信息中变量信息的具体取值发送给数据挖掘装置。

本实施例中，数据挖掘装置确定进行数据挖掘时，向数据集成装置请求数据集成装置中的第一元数据信息；数据挖掘装置接收所述数据集成装置发送的所述第一元数据信息；数据挖掘装置根据接收到的所述第一元数据信息进行本地第二元数据信息的配置；从而使得数据挖掘装置中大部分第二元数据信息的配置可以直接基于接收到的所述第一元数据信息，无需人工手动配置，减少了数据挖掘装置中元数据配置的工作量和配置时长，提高了数据挖掘装置的工作效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图 1A为***间关系示意图；

图 1B为数据集成***字段配置示意图；

图 1 C为数据集成***存储位置信息配置示意图；

图 2为本发明应用场景示例图；

图 3为本发明数据交互方法第一实施例示意图；

图 4为本发明数据交互方法第二实施例示意图；

图 5为本发明数据交互方法第三实施例示意图；

图 6为本发明实施例数据挖掘装置结构示意图；

图 Ί为本发明实施例数据集成装置结构示意图；

图 8为本发明实施例数据挖掘装置结构示意图；

图 9为本发明实施例数据集成装置结构示意图。具体实施方式

数据集成***和数据挖掘***是两个独立的***，因此需要分别进行各自***中元数据的配置。但是基于背景技术的说明可知，数据集成*** 处理得到的数据是数据挖掘***的源数据，如果两个***分别各自配置元数据，则元数据的配置显然是重复的，例如两个***中对于宽表中字段的配置，显然就是重复的，尤其是宽表中字段数量很大，达到几十甚至上百个字段时，元数据的配置工作量将非常巨大，配置过程需要占用数据集成 ***和数据挖掘***大量的时间和资源以实现***中宽表元数据信息的配置，影响了数据集成***和数据挖掘***的工作效率。

例如图 1B中所示，为数据集成***中所需配置的宽表字段的部分截图，其中，需要配置每一个字段的输入名称、输出名称、数据类型、格式、描述等字段的各种定义信息；数据挖掘***中宽表字段的定义信息的配置方式与此相同，区别仅在于具体的字段定义信息可能不同；但是，两个*** 中宽表字段的定义信息的配置是完全独立配置的，互不关联；

如图 1C中所示，为当目标***为普通文件***时，数据集成***中所需配置的宽表的存储位置信息，数据集成***将生成的宽表数据加载至目标***中该存储位置信息指示的存储位置，所述存储位置信息可以包括文件名、文件路径、文件编码、压缩类型、文件类型等信息；数据挖掘*** 中宽表数据的存储位置信息的配置方式与此相同，区别仅在于具体的存储位置信息可能不同，数据挖掘***可以去目标***中该存储位置信息指示的存储位置获取宽表数据；两个***之间设置所述存储位置信息是完全独立的，互不关联；如果目标装置是运行数据库的装置，则宽表数据可以以数据表的方式实现，则该宽表数据的存储位置信息可以包括：基于 java的连接数据库（ JavaDataBaseConnect ivi ty, JDBC ) 的 API 连接信息、用户名、密码、数据表名、数据表中的分区名等。

本发明实施例中提供了一种数据交互方法及装置，能够缩短数据挖掘 ***中元数据信息的配置时间，提高数据挖掘***的工作效率。

首先，对本发明数据交互方法及装置的应用场景进行举例说明。如图 2 所示，包括：数据集成装置 210、目标装置 220以及数据挖掘装置 230; 其中，所述数据集成***可以运行于数据集成装置 210 中，所述目标***可以运行于所述目标装置 220中，数据挖掘***可以运行于数据挖掘装置 230 中，其中，数据集成装置 210、目标装置 220以及数据挖掘装置 230可以设置于相同的物理设备中，也可以设置于不同的物理设备中，只要三个装置之间可以进行数据交互即可。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图 3 , 为本发明数据交互方法第一实施例示意图，该方法包括：步骤 301 : 数据挖掘装置确定进行元数据信息配置时，向数据集成装置请求数据集成装置中的第一元数据信息；

步骤 302:数据挖掘装置接收所述数据集成装置发送的所述第一元数据信息；

步骤 303: 根据接收到的所述第一元数据信息，数据挖掘装置进行本地的第二元数据信息的配置。

本实施例中，数据挖掘装置确定进行数据挖掘时，向数据集成装置请求数据集成装置中的第一元数据信息，根据从数据集成装置接收到的第一元数据信息进行数据挖掘装置中第二元数据信息的配置，从而使得数据挖掘装置中大部分第二元数据信息的配置可以直接基于接收到的所述第一元数据信息，无需人工手动配置，减少了数据挖掘装置中第二元数据信息配置的工作量和配置时长，提高了数据挖掘装置的工作效率。参见图 4 , 为本发明数据交互方法第二实施例示意图，该方法包括：步骤 401 :数据集成装置接收数据挖掘装置对于数据集成装置中第一元数据信息的请求；

步骤 402:所述数据集成装置向所述数据挖掘装置发送所述第一元数据信息，以便数据挖掘装置根据所述第一元数据信息进行数据挖掘装置中第二元数据信息的配置。

本实施例中，数据集成装置接收数据挖掘装置对于数据集成装置中第一元数据信息的请求；所述数据集成装置向所述数据挖掘装置发送所述第一元数据信息，以便数据挖掘装置根据所述第一元数据信息进行数据挖掘装置中的第二元数据信息的配置，从而使得数据挖掘装置中大部分第二元数据信息的配置可以直接基于接收到的所述第一元数据信息，无需人工手动配置，减少了数据挖掘装置中第二元数据信息配置的工作量和配置时长，提高了数据挖掘装置的工作效率。参见图 5 , 为本发明数据交互方法第三实施例示意图，该方法包括：步骤 501 : 数据集成装置获取自身的第一元数据信息；

其中，可以由数据集成装置为信息配置人员提供配置界面，例如图 1B 和图 1C所示，由信息配置人员在配置界面中对应输入各种元数据信息，当各种元数据信息配置完成后，数据集成装置可以从所述配置界面中相应获取所述第一元数据信息。

其中第一元数据信息可以包括：第一数据的字段定义信息、第一数据的存储位置信息等。其中，第一数据是指数据集成装置生成的数据。

第一数据的字段定义信息可以包括：字段的输入名称、输出名称、数据类型、格式、描述等；例如，图 1B中第一个字段的字段定义信息包括：输入名称和输出名称均为 USER_ ID, 数据类型为 s tr ing; 格式和描述空缺。

第一数据的存储位置信息可以是数据集成装置将自身生成的第一数据加载至目标装置时，第一数据在所述目标装置中的存储位置的信息。

其中，目标装置不同时，数据集成装置所生成的宽表数据的实现方式不同。例如如果目标装置是 Hadoop分布式文件***（Hadoop Di s tr ibuted F i le Sys tem, HDFS )或运行普通文件***的装置，则宽表数据可以以文本文件的方式实现，则该宽表数据的存储位置信息可以包括：文本的格式信息、路径信息、文件名等；如果目标装置是运行数据库的装置，则宽表数据可以以数据表的方式实现，则该宽表数据的存储位置信息可以包括：基于 JDBC的 API连接信息、用户名、密码、数据表名、数据表中的分区名等。其中，所述数据表名用于指示数据所在的数据表；所述用户名、密码用于访问该数据表；所述数据表中的分区名用于指示数据在数据表中的具体分区。

例如图 1C所示，当目标装置为运行普通文件***的装置时，所述第一数据的存储位置信息可以包括：文件名、文件路径、文件编码、压缩类型、文件类型、单一文件记录上限、文件名开始序号等信息。

其中，所配置的第一数据的存储位置信息中的各种信息可以是固定值，例如图 1C 中所示，文件名为 TlSC_USER_LOST. dat , 文件路径为 /output/tes t 08 , 文件编码为 UTF-8 , 压缩类型为未压缩，文件类型为列分隔符文件等等；或者，所配置的第一数据的存储位置信息中也可以包括变量信息，例如当目标装置为运行普通文件***的装置，则所述文件路径、文件名等即可以设置为变量信息；当目标装置为运行数据库的装置，则所述数据表名、用户名、密码、数据表中的分区名等可以设置为变量。这里的变量信息的具体取值可以在数据集成装置将所述第一数据加载至目标装置时确定，可以由人为设置具体的变量信息，也可以由目标装置为第一数据分配具体的存储位置，根据该存储位置确定所述变量信息。

当数据集成装置生成的第一数据用于作为数据挖掘装置所需处理的源数据时，第一数据可以具体为宽表数据。这里的宽表是指数据挖掘装置所需处理的文件，一般的，一个宽表中所包含的字段较多，甚至可以达到几十甚至上百个字段。

步骤 502: 数据挖掘装置确定进行第二元数据信息的配置时，向数据集成装置请求数据集成装置中的第一元数据信息。

其中，数据挖掘装置确定进行第二元数据信息的配置可以包括：数据挖掘装置接收到信息配置人员对于第二元数据信息配置的触发消息。其中，可以由数据挖掘装置在***界面上提供关于第二元数据信息的配置按钮，当数据挖掘装置检测到信息配置人员单击或者双击等选中该配置按钮的操作时，表明数据挖掘装置接收到所述触发消息。

步骤 503: 数据集成装置将本地的第一元数据信息发送给数据挖掘装置，数据挖掘装置接收数据集成装置发送的第一元数据信息。

其中，第一元数据信息也可以设置版本，为不同的版本设置不同的版本号或者按照不同版本所生成的文件设置不同的文件名称，则数据挖掘装置可以在请求第一元数据信息时携带第一元数据信息的版本号或者对应的文件名称，以便数据集成装置按照版本号或者文件名称确定数据挖掘装置所请求的第一元数据信息。

例如，假设版本 1的第一元数据信息存储为文件 1 , 版本 2的第一元数据信息存储为文件 2 ,则数据挖掘装置可以在请求第一元数据信息时携带版本 2对应的文件名称一文件 2来指示数据挖掘装置所请求的第一元数据信息。

步骤 504:数据挖掘装置根据接收到的第一元数据信息进行数据挖掘装置本地第二元数据信息的配置。

具体的：数据挖掘装置根据第一数据的字段定义信息确定第二数据的字段定义信息；数据挖掘装置将第一数据的存储位置信息确定为第二数据的地址获取信息；其中，所述第二数据是所述数据挖掘装置的源数据。如果第一数据的存储位置信息中每一信息均设置为固定值，则第二数据的地址获取信息中每一信息也为固定值；如果第一数据的存储位置信息中包括变量信息时，则第二数据的地址获取信息中也包括变量信息。

其中，数据挖掘装置根据所述第一数据的字段定义信息确定第二数据的字段定义信息的实现这里不限定。例如，可以直接将所述第一数据的字段定义信息确定为第二数据的字段定义信息；或者，数据挖掘装置也可以将确定第一数据的字段定义信息显示给信息配置人员，由信息配置人员对所述第一数据的字段定义信息进行调整后，将信息配置人员调整后的字段定义信息作为第二数据的字段定义信息。例如，假设第一数据的字段定义信息如表 1 所示，则如果直接将所述第一数据的字段定义信息确定为第二数据的字段定义信息，则第二数据的字段定义信息也如表 1 所示；而如果信息配置人员删除了关于格式的字段定义信息，则第二数据的字段定义信息如表 2所示。

表 1

表 2

由于数据集成装置所生成的第一数据是需要作为数据挖掘装置的源数据的，所以第二数据的字段定义信息可以直接参照第一数据的字段定义信息进行配置，将第一数据的存储位置信息作为第二数据的地址获取信息，这样所述第一数据就可以直接作为符合数据挖掘装置需求的源数据，也即所述第二数据，从而减少了数据挖掘装置配置元数据信息的工作量，提高了数据挖掘装置的工作效率。

其中，步骤 501最好在步骤 503之前执行，以便数据挖掘装置可以从数据集成装置获取到元数据信息。

步骤 505: 数据集成装置确定进行数据处理时，根据第一数据的字段定义信息对自身的源数据进行逻辑处理；数据集成装置将处理得到的第一数据加载到目标装置。

其中，数据集成装置如何进行源数据的逻辑处理、如何进行第一数据的加载这里不贅述。

其中，当第一数据的存储位置信息中每一信息均设置为固定值时，数据集成装置可以直接将第一数据加载到目标装置中上述存储位置信息指示的存储位置；或者，当第一数据的存储位置信息中包括变量信息时，数据集成装置可以在将第一数据加载到目标装置时，确定第一数据的存储位置信息中的上述变量信息，从而得到第一数据的具体存储位置信息，进一步数据集成装置可以将第一数据加载到目标装置中上述得到的具体存储位置信息指示的存储位置。

步骤 506: 数据挖掘装置确定进行数据挖掘时，根据确定的第二数据的地址获取信息获取第二数据；数据挖掘装置根据获取到的第二数据以及所述第二数据的字段定义信息进行数据挖掘处理。

其中，数据挖掘装置确定进行数据挖掘可以包括：数据挖掘装置确定到达预设挖掘时间时，确定进行数据挖掘；或者，数据挖掘装置接收到数据集成装置发送的挖掘流程触发消息时，确定进行数据挖掘，挖掘流程触发消息在数据集成装置完成第一数据的装载后发送。其中，可以预先在数据挖掘装置中设置挖掘时间的具体时间点；或者，数据挖掘装置的挖掘处理可以周期性进行，则在数据挖掘装置中可以预先设置挖掘的起始时间和周期，数据挖掘装置就可以按照预设的周期和挖掘的起始时间确定具体的挖掘时间，具体挖掘时间的确定方法这里不限定。

其中，如果第二数据的地址获取信息中包括变量信息，数据挖掘装置根据确定的第二数据的地址获取信息获取第二数据具体可以包括：数据挖掘装置从数据集成装置获取变量信息的具体取值 , 得到第二数据的具体地址获取信息；数据挖掘装置从第二数据的具体地址获取信息指示的地址获取第二数据；或者，第二数据的地址获取信息中每一信息均设置为固定值，数据挖掘装置根据确定的第二数据的地址获取信息获取第二数据具体可以包括：数据挖掘装置从第二数据的地址获取信息指示的地址获取第二数据。

其中，数据挖掘装置从数据集成装置获取的地址获取信息中的变量信息即是数据集成装置在加载第一数据时确定的第一数据的存储地址信息中的变量信息。例如，如果目标装置是 HDFS或者运行普通文件***的装置，变量信息可以为：存储地址、数据被存储的文件名、数据被加载的时间等；如果目标装置是运行数据库的装置，则变量信息可以为：数据在数据表中的分区名称等。

例如，假设第二数据的地址获取信息中包括文件名和存储路径两种变量信息，则数据集成装置在将第一数据加载至目标装置时，可以根据第一数据的实际存储位置确定第一数据被存储的文件名以及实际存储路径，如果第一数据作为数据挖掘装置的源数据，也即第二数据，则数据挖掘装置可以从数据集成装置中获取第一数据被存储的文件名以及实际存储路径，作为第二数据的地址获取信息中文件名和存储路径两种变量信息的具体取值，从而得到第二数据的具体地址获取信息，从该具体地址获取信息指示的地址获取所述第二数据。

其中，步骤 505最好在步骤 506之前执行，以便数据挖掘装置能够从目标装置获取到所述第二数据；例如，数据集成装置的数据处理以及数据挖掘装置的数据挖掘处理都可以周期性进行，且两种处理的周期相同，且每个周期中步骤 506的执行时间晚于步骤 505 中将处理得到的第一数据加载到目标装置的时间；

或者，如果步骤 505和步骤 506两者之间处理周期等没有任何联系，步骤 506 中数据挖掘装置根据确定的第二数据的地址获取信息获取第二数据时，可能步骤 505已经执行，从而步骤 506可以获取到所需的第二数据；或者，也可能步骤 505未执行，从而步骤 506 中数据挖掘装置无法在第一次获取第二数据时获取到所需的第二数据，这时：数据挖掘装置可以重复所述获取第二数据的步骤，直到获取到第二数据为止；或者，数据挖掘装置也可以在无法获取到第二数据时，向数据集成装置发送数据处理触发信息，触发数据集成装置执行步骤 505 ;

或者，如果步骤 505和步骤 506两者之间的处理周期等没有任何联系 , 数据集成装置可以在步骤 505中将处理得到的第一数据加载到目标装置后，向数据挖掘装置发送挖掘流程触发消息，触发数据挖掘装置执行步骤 506 , 进行数据挖掘。

另外，数据集成装置中数据处理的周期最好小于等于数据挖掘装置中数据挖掘的周期，以便数据挖掘装置能够获取到数据集成装置处理完成的第一数据作为所述第二数据进行数据挖掘处理；例如，数据集成装置中数据处理的周期为每个月 3 次，数据挖掘装置中数据挖掘的周期可以为每个月 1次，则数据挖掘装置每次从目标装置中将数据集成装置 3次加载至目标装置的第一数据均获取作为第二数据进行数据挖掘处理。

本实施例中，数据挖掘装置确定进行元数据信息配置时，向数据集成装置请求数据集成装置中的第一元数据信息，根据从数据集成装置接收到的第一元数据信息进行本地的第二元数据信息的配置，从而使得数据挖掘装置中大部分第二元数据信息的配置可以直接基于接收到的所述第一元数据信息，无需人工手动配置，减少了数据挖掘装置中元数据配置的工作量和配置时长，提高了数据挖掘装置的工作效率。参见图 6 ,为本发明实施例数据挖掘装置结构示意图，该装置 600包括：第一发送单元 610, 用于确定进行元数据信息配置时，向数据集成装置请求数据集成装置中的第一元数据信息；

第一接收单元 620, 用于接收所述数据集成装置基于第一发送单元 610 的请求发送的所述第一元数据信息；

配置单元 630 ,用于根据第一接收单元 620接收到的所述第一元数据信息，进行本地第二元数据信息的配置。

可选地，所述第一元数据信息可以包括：第一数据的字段定义信息、第一数据的存储位置信息；所述第一数据是数据集成装置生成的数据；配置单元 630具体可以用于：将所述第一数据的字段定义信息确定为第二数据的字段定义信息；将所述第一数据的存储位置信息确定为所述第二数据的地址获取信息；所述第二数据是所述数据挖掘装置的源数据。

可选地，该装置 600还可以包括：

获取单元，用于确定进行数据挖掘时，根据确定的所述第二数据的地址获取信息获取第二数据；挖掘单元，用于根据获取单元获取到的第二数据以及所述第二数据的字段定义信息进行数据挖掘处理。

可选地，所述第二数据的地址获取信息中包含变量信息，获取单元具体可以用于：从数据集成装置获取所述变量信息的具体取值，得到第二数据的具体地址获取信息；从所述第二数据的具体地址获取信息指示的地址获取第二数据；

或者，所述第二数据的地址获取信息中每一信息均设置为固定值，获取单元具体可以用于：从所述第二数据的地址获取信息指示的地址获取第二数据。

可选地，该装置 600还可以包括：

本实施例中，数据挖掘装置确定进行数据挖掘时，向数据集成装置请求数据集成装置中的第一元数据信息，根据从数据集成装置接收到的第一元数据信息进行本地的第二元数据信息的配置，从而使得数据挖掘装置中大部分第二元数据信息的配置可以直接基于接收到的所述第一元数据信息，无需人工手动配置，减少了数据挖掘装置中第二元数据信息的配置的工作量和配置时长，提高了数据挖掘装置的工作效率。参见图 7 ,为本发明实施例数据集成装置结构示意图，该装置 700包括：第二接收单元 710 ,用于接收数据挖掘装置对于数据集成装置中的第一元数据信息的请求；

第二发送单元 720 ,用于向所述数据挖掘装置发送第二接收单元 710接收到的请求所对应的所述第一元数据信息，以便数据挖掘装置根据所述第一元数据信息进行数据挖掘装置中第二元数据信息的配置。

可选地，所述第一元数据信息包括：第一数据的字段定义信息、第一数据的存储位置信息；所述第一数据是数据集成装置生成的数据。

可选地，所述第一数据的存储位置信息中包含变量信息，第二发送单元 720 还可以用于：将第一数据加载后确定的所述存储位置信息中变量信息的具体取值发送给数据挖掘装置。本实施例中，数据集成装置接收数据挖掘装置对于数据集成装置中第一元数据信息的请求；所述数据集成装置向所述数据挖掘装置发送对应的第一元数据信息，以便数据挖掘装置根据所述第一元数据信息进行数据挖掘装置中的第二元数据信息的配置，从而使得数据挖掘装置中大部分第二元数据信息的配置可以直接基于接收到的所述第一元数据信息，无需人工手动配置，减少了数据挖掘装置中元数据配置的工作量和配置时长，提高了数据挖掘装置的工作效率。参见图 8 , 为本发明实施例数据挖掘装置结构示意图，该数据挖掘装置 800包括：处理器 810、存储器 820、收发器 830和总线 840;

处理器 810、存储器 820、收发器 830通过总线 840相互连接；总线 840 可以是 I SA总线、 PCI总线或 EI SA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图 8 中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器 820 , 用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器 820可能包含高速 RAM存储器，也可能还包括非易失性存储器（non-vo la t i le memory ), 例如至少一个磁盘存储器。

所述处理器 81 0执行所述程序代码，用于根据收发器 830接收到的所述元数据信息进行本地的第二元数据信息的配置。

所述收发器 830用于连接其他设备，并与其他设备进行通信。具体的，收发器 830用于：向数据集成装置请求数据集成装置中的第一元数据信息；接收所述数据集成装置发送的所述第一元数据信息。

可选地，所述第一元数据信息包括：第一数据的字段定义信息、第一数据的存储位置信息；所述第一数据是数据集成装置生成的数据；所述处理器 810具体可以用于：将所述第一数据的字段定义信息确定为第二数据的字段定义信息；将所述第一数据的存储位置信息确定为所述第二数据的地址获取信息；所述第二数据是所述数据挖掘装置的源数据。

可选地，所述收发器 830还可以用于：确定进行数据挖掘时，根据确定的所述第二数据的地址获取信息获取第二数据；

所述处理器 81 0还可以用于：根据收发器 830获取到的第二数据以及所述第二数据的字段定义信息进行数据挖掘处理。

可选地，所述第二数据的地址获取信息中包含变量信息，所述收发器

830还可以具体用于：从数据集成装置获取所述变量信息的具体取值，得到第二数据的具体地址获取信息；从所述第二数据的具体地址获取信息指示的地址获取第二数据；

或者，所述第二数据的地址获取信息中每一信息均设置为固定值，所述收发器 830还可以具体用于：从所述第二数据的地址获取信息指示的地址获取第二数据。

可选地，处理器 810还用于通过以下方式确定进行数据挖掘：确定到达预设挖掘时间时，确定进行数据挖掘；或者，通过收发器 830接收到数据集成装置发送的挖掘流程触发消息时，确定进行数据挖掘，所述挖掘流程触发消息在数据集成装置完成第一数据的装载后发送。

本实施例中，数据挖掘装置确定进行元数据信息配置时，向数据集成装置请求数据集成装置中的第一元数据信息，根据从数据集成装置接收到的第一元数据信息进行第二元数据信息的配置，从而使得数据挖掘装置中大部分第二元数据信息的配置可以直接基于接收到的所述第一元数据信息，无需人工手动配置，减少了数据挖掘装置中元数据配置的工作量和配置时长，提高了数据挖掘装置的工作效率。参见图 9 , 为本发明实施例数据集成装置结构示意图，该数据集成装置 900包括：处理器 910、存储器 920、收发器 930和总线 940;

处理器 910、存储器 920、收发器 930通过总线 940相互连接；总线 940 可以是 ISA总线、 PCI总线或 EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图 9 中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器 920, 用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器 920可能包含高速 RAM存储器，也可能还包括非易失性存储器（non-volat i le memory ), 例如至少一个磁盘存储器。

所述收发器 930用于连接其他设备，并与其他设备进行通信。具体的，收发器 930用于：接收数据挖掘装置对于数据集成装置中第一元数据信息的请求；向所述数据挖掘装置发送对应的第一元数据信息，以便数据挖掘装置根据所述第一元数据信息进行数据挖掘装置中第二元数据信息的配置。

可选地，所述第一元数据信息可以包括：第一数据的字段定义信息、第一数据的存储位置信息；所述第一数据是数据集成装置生成的数据。

可选地，所述第一数据的存储位置信息中包含变量信息，所述收发器

930还可以用于：将第一数据加载后确定的所述存储位置信息中变量信息的具体取值发送给数据挖掘装置。

本实施例中，数据集成装置接收数据挖掘装置对于数据集成装置中第一元数据信息的请求；所述数据集成装置向所述数据挖掘装置发送对应的第一元数据信息，以便数据挖掘装置根据所述第一元数据信息进行数据挖掘装置中第二元数据信息的配置，从而使得数据挖掘装置中大部分第二元数据信息的配置可以直接基于接收到的所述第一元数据信息，无需人工手动配置，减少了数据挖掘装置中元数据配置的工作量和配置时长，提高了数据挖掘装置的工作效率。本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如 R0M( Read On ly Memory , 只读存储器） /RAM ( Random Acces s Memory, 随机存储器）、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述的本发明实施方式，并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

权利要求书

1、一种数据交互方法，其特征在于，包括：

2、根据权利要求 1所述的方法，其特征在于，所述第一元数据信息包括：第一数据的字段定义信息、第一数据的存储位置信息；所述第一数据是数据集成装置生成的数据；

3、根据权利要求 2所述的方法，其特征在于，还包括：

4、根据权利要求 3所述的方法，其特征在于，所述第二数据的地址获取信息中包含变量信息，所述数据挖掘装置根据确定的所述第二数据的地址获取信息获取第二数据，具体包括：所述数据挖掘装置从所述数据集成装置获取所述变量信息的具体取值，得到所述第二数据的具体地址获取信息；所述数据挖掘装置从所述第二数据的具体地址获取信息指示的地址获取第二数据；

5、根据权利要求 3或 4所述的方法，其特征在于，所述数据挖掘装置确定进行数据挖掘包括：

6、一种数据交互方法，其特征在于，包括：

7、根据权利要求 6所述的方法，其特征在于，所述第一元数据信息包括：第一数据的字段定义信息、第一数据的存储位置信息；所述第一数据是数据集成装置生成的数据；且所述第一数据的存储位置信息中包含变量信息；该方法还包括：

8、一种数据挖掘装置，其特征在于，包括：

9、根据权利要求 8所述的装置，其特征在于，所述第一元数据信息包括：第一数据的字段定义信息、第一数据的存储位置信息；所述第一数据是数据集成装置生成的数据；所述配置单元具体用于：将所述第一数据的字段定义信息确定为第二数据的字段定义信息；将所述第一数据的存储位置信息确定为所述第二数据的地址获取信息；所述第二数据是所述数据挖掘装置的源数据。

10、根据权利要求 9所述的装置，其特征在于，还包括：

11、根据权利要求 10所述的装置，其特征在于，所述第二数据的地址获取信息中包含变量信息，获取单元具体用于：从数据集成装置获取所述变量信息的具体取值，得到第二数据的具体地址获取信息；从所述第二数据的具体地址获取信息指示的地址获取第二数据；

12、根据权利要求 10或 11所述的装置，其特征在于，还包括：确定单元，用于确定到达预设挖掘时间时，确定进行数据挖掘；或者，接收到数据集成装置发送的挖掘流程触发消息时，确定进行数据挖掘，所述挖掘流程触发消息在数据集成装置完成第一数据的装载后发送。

13、一种数据集成装置，其特征在于，包括：

14、根据权利要求 13所述的装置，其特征在于，所述第一元数据信息包括：第一数据的字段定义信息、第一数据的存储位置信息；所述第一数据是数据集成装置生成的数据；且所述第一数据的存储位置信息中包含变量信息；所述第二发送单元还用于：将第一数据加载后确定的所述存储位置信息中变量信息的具体取值发送给数据挖掘装置。