CN105589896A

CN105589896A - 数据挖掘方法及装置

Info

Publication number: CN105589896A
Application number: CN201410648050.0A
Authority: CN
Inventors: 刘阳
Original assignee: Peking University Founder Group Co Ltd; Beijing Founder Electronics Co Ltd
Current assignee: New Founder Holdings Development Co ltd; Beijing Founder Electronics Co Ltd
Priority date: 2014-11-14
Filing date: 2014-11-14
Publication date: 2016-05-18
Anticipated expiration: 2034-11-14
Also published as: CN105589896B

Abstract

本发明实施例提供一种数据挖掘方法及装置。该方法包括：确定待处理的目标数据；依据至少两种数据挖掘算法分别对所述目标数据进行数据处理，分别获得第一处理结果；将所述第一处理结果作为所述目标数据，依据所述至少两种数据挖掘算法分别对所述第一处理结果进行数据处理，获得第二处理结果；显示所述第一处理结果和/或第二处理结果，以供用户选择。本发明实施例通过至少两种数据挖掘算法分别对目标数据进行数据处理，获取到至少两个处理结果，并且将第一次处理的结果作为第二次处理的输入数据，形成循环的数据处理过程，相比于属于特定数据类型的目标数据只能依据固定的数据挖掘算法进行处理，增强了数据挖掘对目标数据进行数据处理的灵活性。

Description

数据挖掘方法及装置

技术领域

本发明实施例涉及数据分析技术，尤其涉及一种数据挖掘方法及装置。

背景技术

数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系的信息过程，包括数据准备、关系寻找和结果显示三个步骤。

现有的数据挖掘过程具体为确定待处理的目标数据，依据目标数据的数据类型确定数据挖掘算法，依据数据挖掘算法对目标数据进行计算处理，具体可以为寻找目标数据中的关联关系，将确定的关联关系进行结果显示。

由于属于特定数据类型的目标数据只能依据固定的数据挖掘算法进行处理，导致数据挖掘对目标数据进行数据处理的灵活性较低。

发明内容

本发明实施例提供一种数据挖掘方法及装置，以提高数据挖掘对目标数据进行数据处理的灵活性。

本发明实施例的一个方面是提供一种数据挖掘方法，包括：

确定待处理的目标数据；

依据至少两种数据挖掘算法分别对所述目标数据进行数据处理，分别获得第一处理结果；

将所述第一处理结果作为所述目标数据，依据所述至少两种数据挖掘算法分别对所述第一处理结果进行数据处理，获得第二处理结果；

显示所述第一处理结果和/或第二处理结果，以供用户选择。

本发明实施例的另一个方面是提供一种数据挖掘装置，包括：

目标数据确定模块，用于确定待处理的目标数据；

数据处理模块，用于依据至少两种数据挖掘算法分别对所述目标数据进行数据处理，分别获得第一处理结果；将所述第一处理结果作为所述目标数据，依据所述至少两种数据挖掘算法分别对所述第一处理结果进行数据处理，获得第二处理结果；

显示模块，用于显示所述第一处理结果和/或第二处理结果，以供用户选择。

本发明实施例提供的数据挖掘方法及装置，通过至少两种数据挖掘算法分别对目标数据进行数据处理，获取到至少两个处理结果，并且将第一次处理的结果作为第二次处理的输入数据，形成循环的数据处理过程，相比于属于特定数据类型的目标数据只能依据固定的数据挖掘算法进行处理，增强了数据挖掘对目标数据进行数据处理的灵活性。

附图说明

图1为本发明实施例提供的数据挖掘方法流程图；

图2为本发明实施例提供的数据挖掘装置的结构图；

图3为本发明另一实施例提供的数据挖掘装置的结构图。

具体实施方式

图1为本发明实施例提供的数据挖掘方法流程图。本发明实施例针对数据挖掘对目标数据进行数据处理的灵活性低的问题，提出了一种新的数据挖掘方法，该方法的具体步骤如下：

步骤S101、确定待处理的目标数据；

所述确定待处理的目标数据包括:将多个文件和/或多个数据库中的数据进行合并；对合并后的数据进行数据选择获得数据集合；从所述数据集合中选择出适用于所述至少两种数据挖掘算法进行处理的所述目标数据。

利用数据挖掘算法进行数据处理之前，先要确定待处理的目标数据，具体地将多个文件和/或多个数据库中的数据进行合并，以便获取到足够多的数据，从足够多的数据中依据数据处理的需求进行数据选择获得数据集合，再依据预定的至少两种数据挖掘算法从该数据集合中选择出适用于数据挖掘的目标数据。

步骤S102、依据至少两种数据挖掘算法分别对所述目标数据进行数据处理，分别获得第一处理结果；

确定出目标数据后，依据至少两种数据挖掘算法分别对所述目标数据进行数据处理，每一种数据挖掘算法对目标数据进行处理后将获得一个处理结果，则经过至少两种数据挖掘算法进行处理将至少获得两个处理结果即第一处理结果。

步骤S103、将所述第一处理结果作为所述目标数据，依据所述至少两种数据挖掘算法分别对所述第一处理结果进行数据处理，获得第二处理结果；

返回到步骤S101，将获得的第一处理结果再次作为所述目标数据，继续执行步骤S102，依据所述至少两种数据挖掘算法分别对所述第一处理结果进行数据处理，获得第二处理结果。即数据挖掘的处理结果还可以作为数据挖掘的输入数据进行再次数据处理，形成循环的数据处理。

步骤S104、显示所述第一处理结果和/或第二处理结果，以供用户选择。

将所述第一处理结果和/或第二处理结果进行显示，即循环的数据处理结果可以直接输入供用户选择，也可以不输出进行后续的循环处理。

本发明实施例不限制循环处理的次数，且数据挖掘算法至少包括：决策树、关联规则、贝叶斯、神经网络、规则学习、遗传算法、粗糙集和模糊逻辑。

本发明实施例通过至少两种数据挖掘算法分别对目标数据进行数据处理，获取到至少两个处理结果，并且将第一次处理的结果作为第二次处理的输入数据，形成循环的数据处理过程，相比于属于特定数据类型的目标数据只能依据固定的数据挖掘算法进行处理，增强了数据挖掘对目标数据进行数据处理的灵活性。

在上述实施例的基础上，所述依据至少两种数据挖掘算法分别对所述目标数据进行数据处理包括：依据所述至少两种数据挖掘算法和初始优先级分别对所述目标数据进行数据处理，所述初始优先级是依据所述目标数据对应的数据类型与所述数据挖掘算法的适用度确定的。

本发明实施例预定有三种数据挖掘算法分别为A算法、B算法、C算法，所述A算法、B算法、C算法可以分别由不同的服务器执行，也可以由同一个服务器同时运行，在初始条件下，A算法、B算法、C算法对不同类型的数据进行处理的优先级不同，假设对同一类目标数据，A算法、B算法、C算法对应的优先级分别是高、中、低。当该类型的目标数据输入到服务器后，通过A算法、B算法、C算法依次对目标数据进行处理，合理假设通过A算法、B算法、C算法对目标数据的处理速度相同，则通过A算法对目标数据进行处理的结果a将最先显示，其次是通过B算法对目标数据进行处理的结果b，最后显示通过C算法对目标数据进行处理的结果c。

所述显示所述第一处理结果之后，还包括：获取用户对所述第一处理结果的反馈信息，依据所述反馈信息调整所述目标数据对应的数据类型与所述数据挖掘算法的适用度。

第一处理结果包括结果a、结果b和结果c，且结果a、结果b和结果c先后显示。用户对结果a、结果b和结果c的点击率以及满意度都不同，该点击率以及满意度均可以作为反馈信息，在本发明实施例中，除了执行数据挖掘算法的服务器外，还有一个起到调度作用的调度服务器，该调度服务器用于记录用户对处理结果的反馈信息，具体记录处理结果、反馈信息、数据挖掘算法和数据类型的对应关系。如果反馈信息表示用户对处理结果的点击率超出了阈值，或用户对处理结果的平均评分超出了阈值，则说明该数据类型适用于依据该数据挖掘算法进行数据处理，即该数据类型与该数据挖掘算法的适用度高，并提高该数据挖掘算法对该数据类型的处理优先级。例如，通过反馈信息确定出用户对结果b的满意度最高，则提高B算法对该数据类型的优先级，后续若有属于该数据类型的目标数据输入到服务器，则通过B算法最先处理该目标数据。

本发明实施例通过用户对数据处理结果的反馈信息来调整至少两种数据挖掘算法对目标数据的处理优先级，可以实现对处理结果的显示顺序进行调整，增强了显示处理结果的灵活性。

在上述实施例的基础上，所述至少两种数据挖掘算法包括第一数据挖掘算法和第二数据挖掘算法；所述依据至少两种数据挖掘算法分别对所述目标数据进行数据处理包括：依据所述第一数据挖掘算法对所述目标数据进行数据处理获得中间处理结果；依据所述第二数据挖掘算法对所述中间处理结果进行数据处理获得所述第一处理结果。

本发明实施例预定有三种数据挖掘算法分别为A算法、B算法、C算法，通过A算法、B算法、C算法分别对目标数据进行处理获得结果a、结果b和结果c，同时结果b作为中间处理结果还可以是C算法的输入数据，即结果b还可以通过C算法进行再次数据处理获得结果d,即本发明实施例提供的A算法、B算法、C算法可以衍生出B+C算法即先执行B算法后执行C算法，相应的产生结果d。同理，还可以衍生出C+B算法即先执行C算法后执行B算法，或者A+B+C算法等。

本发明实施例将多个数据挖掘算法中的两个或者多个进行结合获得新的组合算法，进一步增加了数据挖掘算法的多样性，以及数据挖掘对目标数据进行数据处理的灵活性。

图2为本发明实施例提供的数据挖掘装置的结构图。本发明实施例提供的数据挖掘装置可以执行数据挖掘方法实施例提供的处理流程，如图2所示，数据挖掘装置20包括目标数据确定模块21、数据处理模块22和显示模块23，其中，目标数据确定模块21用于确定待处理的目标数据；数据处理模块22用于依据至少两种数据挖掘算法分别对所述目标数据进行数据处理，分别获得第一处理结果；将所述第一处理结果作为所述目标数据，依据所述至少两种数据挖掘算法分别对所述第一处理结果进行数据处理，获得第二处理结果；显示模块23用于显示所述第一处理结果和/或第二处理结果，以供用户选择。

图3为本发明另一实施例提供的数据挖掘装置的结构图。在上述实施例的基础上，数据处理模块22具体用于依据所述至少两种数据挖掘算法和初始优先级分别对所述目标数据进行数据处理，所述初始优先级是依据所述目标数据对应的数据类型与所述数据挖掘算法的适用度确定的。

数据挖掘装置20还包括获取调整模块24，获取调整模块24用于获取用户对所述第一处理结果的反馈信息，依据所述反馈信息调整所述目标数据对应的数据类型与所述数据挖掘算法的适用度。

所述至少两种数据挖掘算法包括第一数据挖掘算法和第二数据挖掘算法；数据处理模块22还具体用于依据所述第一数据挖掘算法对所述目标数据进行数据处理获得中间处理结果；依据所述第二数据挖掘算法对所述中间处理结果进行数据处理获得所述第一处理结果。

目标数据确定模块21包括合并单元211、数据选择单元212和目标数据获取单元213，合并单元211用于将多个文件和/或多个数据库中的数据进行合并；数据选择单元212用于对合并后的数据进行数据选择获得数据集合；目标数据获取单元213用于从所述数据集合中选择出适用于所述至少两种数据挖掘算法进行处理的所述目标数据。

本发明实施例提供的数据挖掘装置可以具体用于执行上述图1所提供的方法实施例，具体功能此处不再赘述。

本发明实施例通过用户对数据处理结果的反馈信息来调整至少两种数据挖掘算法对目标数据的处理优先级，可以实现对处理结果的显示顺序进行调整，增强了显示处理结果的灵活性；同时将多个数据挖掘算法中的两个或者多个进行结合获得新的组合算法，进一步增加了数据挖掘算法的多样性，以及数据挖掘对目标数据进行数据处理的灵活性。

综上所述，本发明实施例通过至少两种数据挖掘算法分别对目标数据进行数据处理，获取到至少两个处理结果，并且将第一次处理的结果作为第二次处理的输入数据，形成循环的数据处理过程，相比于属于特定数据类型的目标数据只能依据固定的数据挖掘算法进行处理，增强了数据挖掘对目标数据进行数据处理的灵活性；通过用户对数据处理结果的反馈信息来调整至少两种数据挖掘算法对目标数据的处理优先级，可以实现对处理结果的显示顺序进行调整，增强了显示处理结果的灵活性；同时将多个数据挖掘算法中的两个或者多个进行结合获得新的组合算法，进一步增加了数据挖掘算法的多样性，以及数据挖掘对目标数据进行数据处理的灵活性。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器(RandomAccessMemory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种数据挖掘方法，其特征在于，包括：

确定待处理的目标数据；

显示所述第一处理结果和/或第二处理结果，以供用户选择。

2.根据权利要求1所述的方法，其特征在于，所述依据至少两种数据挖掘算法分别对所述目标数据进行数据处理包括：

依据所述至少两种数据挖掘算法和初始优先级分别对所述目标数据进行数据处理，所述初始优先级是依据所述目标数据对应的数据类型与所述数据挖掘算法的适用度确定的。

3.根据权利要求2所述的方法，其特征在于，所述显示所述第一处理结果之后，还包括：

获取用户对所述第一处理结果的反馈信息，依据所述反馈信息调整所述目标数据对应的数据类型与所述数据挖掘算法的适用度。

4.根据权利要求3所述的方法，其特征在于，所述至少两种数据挖掘算法包括第一数据挖掘算法和第二数据挖掘算法；

所述依据至少两种数据挖掘算法分别对所述目标数据进行数据处理包括：

依据所述第一数据挖掘算法对所述目标数据进行数据处理获得中间处理结果；

依据所述第二数据挖掘算法对所述中间处理结果进行数据处理获得所述第一处理结果。

5.根据权利要求1-4任一项所述的方法，其特征在于，所述确定待处理的目标数据包括:

将多个文件和/或多个数据库中的数据进行合并；

对合并后的数据进行数据选择获得数据集合；

从所述数据集合中选择出适用于所述至少两种数据挖掘算法进行处理的所述目标数据。

6.一种数据挖掘装置，其特征在于，包括：

目标数据确定模块，用于确定待处理的目标数据；

7.根据权利要求6所述的数据挖掘装置，其特征在于，所述数据处理模块具体用于依据所述至少两种数据挖掘算法和初始优先级分别对所述目标数据进行数据处理，所述初始优先级是依据所述目标数据对应的数据类型与所述数据挖掘算法的适用度确定的。

8.根据权利要求7所述的数据挖掘装置，其特征在于，还包括：

获取调整模块，用于获取用户对所述第一处理结果的反馈信息，依据所述反馈信息调整所述目标数据对应的数据类型与所述数据挖掘算法的适用度。

9.根据权利要求8所述的数据挖掘装置，其特征在于，所述至少两种数据挖掘算法包括第一数据挖掘算法和第二数据挖掘算法；所述数据处理模块还具体用于依据所述第一数据挖掘算法对所述目标数据进行数据处理获得中间处理结果；依据所述第二数据挖掘算法对所述中间处理结果进行数据处理获得所述第一处理结果。

10.根据权利要求6-9任一项所述的数据挖掘装置，其特征在于，所述目标数据确定模块包括：

合并单元，用于将多个文件和/或多个数据库中的数据进行合并；

数据选择单元，用于对合并后的数据进行数据选择获得数据集合；

目标数据获取单元，用于从所述数据集合中选择出适用于所述至少两种数据挖掘算法进行处理的所述目标数据。