CN102521040B - 数据挖掘方法及*** - Google Patents

数据挖掘方法及*** Download PDF

Info

Publication number
CN102521040B
CN102521040B CN2011104068921A CN201110406892A CN102521040B CN 102521040 B CN102521040 B CN 102521040B CN 2011104068921 A CN2011104068921 A CN 2011104068921A CN 201110406892 A CN201110406892 A CN 201110406892A CN 102521040 B CN102521040 B CN 102521040B
Authority
CN
China
Prior art keywords
script
procedure
data mining
subprocess
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2011104068921A
Other languages
English (en)
Other versions
CN102521040A (zh
Inventor
罗峰
黄苏支
李娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IZP (Beijing) Technologies Co., Ltd.
Original Assignee
BEIJING IZP TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING IZP TECHNOLOGIES Co Ltd filed Critical BEIJING IZP TECHNOLOGIES Co Ltd
Priority to CN2011104068921A priority Critical patent/CN102521040B/zh
Publication of CN102521040A publication Critical patent/CN102521040A/zh
Application granted granted Critical
Publication of CN102521040B publication Critical patent/CN102521040B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种数据挖掘方法及***,其中,数据挖掘方法包括:获取对应于不同的数据挖掘子过程的多个程序脚本,其中,一个所述数据挖掘子过程包括至少一个所述程序脚本,每个所述程序脚本具有一个对应的脚本标识,所述脚本标识用于标示该脚本标识对应的程序脚本归属的数据挖掘子过程;获取所述多个程序脚本对应的多个脚本标识;按照所述不同的数据挖掘子过程的执行顺序,确定所述多个脚本标识对应的所述多个程序脚本的调用顺序;按照确定的所述调用顺序依次调用所述多个程序脚本,进行数据挖掘。通过本申请,既保证了数据挖掘结果的正确性,提高了数据挖掘效率,又节省了数据挖掘成本。

Description

数据挖掘方法及***
技术领域
本申请涉及网络技术领域,特别是涉及一种数据挖掘方法及***。
背景技术
随着信息技术的高速发展,人们积累的数据量急剧增长,如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。
数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。在互联网中,数据挖掘的过程如图1所示,包括:数据选择子过程、数据预处理子过程、数据转换子过程、模型计算子过程、数据分析和同子过程。目前,这个过程中的每个子过程都是单独实现的,它们之间一般都是单独处理,并没有物理上的衔接。比如,某个数据挖掘人员负责数据选择工作,其独立完成自己的工作,并在工作完成后,人工通知后一个负责数据预处理的人员对选择出的数据进行数据预处理,并交付选择出的数据。依此类推,数据挖掘过程中,每一个数据挖掘人员都只负责自己的一部分工作,负责后一部分工作的数据挖掘人员需要依赖于负责前一部分工作的数据挖掘人员的通知和数据传递。因此,数据挖掘过程繁琐,其中的每个子过程都相对独立互不衔接,从而对数据转移交互造成困难,无法方便及时地实现数据交付和处理。而且,在数据的衔接传递过程中,由于各种人工原因,经常出现所需要的数据和之前数据挖掘中整理出的数据不一致,导致最终数据挖掘和分析错误。
可见,现有的数据挖掘过程中,由于人工干预过多,各个子过程之间的连接不紧密,使得每个子过程之间的数据传递和交互很容易出现问题,无法保证数据挖掘结果的正确性,并且,数据挖掘的效率也很低。
发明内容
本申请所要解决的技术问题是提供一种数据挖掘方法及***,以解决现有数据挖掘过程中无法保证数据挖掘结果的正确性且数据挖掘效率低的问题。
为了解决上述问题,本申请公开了一种数据挖掘方法,包括:获取对应于不同的数据挖掘子过程的多个程序脚本,其中,一个所述数据挖掘子过程包括至少一个所述程序脚本,每个所述程序脚本具有一个对应的脚本标识,所述脚本标识用于标示该脚本标识对应的程序脚本归属的数据挖掘子过程;获取所述多个程序脚本对应的多个脚本标识;按照所述不同的数据挖掘子过程的执行顺序,确定所述多个脚本标识对应的所述多个程序脚本的调用顺序;按照确定的所述调用顺序依次调用所述多个程序脚本,进行数据挖掘。
优选地,在所述获取对应于不同的数据挖掘子过程的多个程序脚本的步骤之前,还包括:根据每个所述程序脚本所归属的数据挖掘子过程,为该程序脚本设置脚本名的前缀字符作为该程序脚本的脚本标识。
优选地,获取所述多个程序脚本对应的多个脚本标识的步骤包括:获取所述多个程序脚本的脚本名;将所述多个程序脚本的脚本名中的前缀字符,确定为所述多个程序脚本的多个脚本标识。
优选地,所述按照确定的所述调用顺序依次调用所述多个程序脚本,进行数据挖掘的步骤包括:在按照确定的所述调用顺序依次调用每一个所述程序脚本时,判断该程序脚本是否有外部参数,所述外部参数用于向该程序脚本中的变量传递数据;若是,则获取所述外部参数传递的数据,并根据所述外部参数传递的数据执行该程序脚本所归属的数据挖掘子过程。
优选地,所述获取对应于不同的数据挖掘子过程的多个程序脚本的步骤包括:从每一个所述数据挖掘子过程对应的所述至少一个程序脚本中,选择所述数据挖掘的目标模型包括的程序脚本。
为了解决上述问题,本申请还公开了一种数据挖掘***,包括:获取模块,用于获取对应于不同的数据挖掘子过程的多个程序脚本,其中,一个所述数据挖掘子过程包括至少一个所述程序脚本,每个所述程序脚本具有一个对应的脚本标识,所述脚本标识用于标示该脚本标识对应的程序脚本归属的数据挖掘子过程;排序模块,用于获取所述多个程序脚本对应的多个脚本标识;按照所述不同的数据挖掘子过程的执行顺序,确定所述多个脚本标识对应的所述多个程序脚本的调用顺序;执行模块,用于按照确定的所述调用顺序依次调用所述多个程序脚本,进行数据挖掘。
优选地,所述数据挖掘***还包括:设置模块,用于在所述获取模块获取对应于不同的数据挖掘子过程的多个程序脚本之前,根据每个所述程序脚本所归属的数据挖掘子过程,为该程序脚本设置脚本名的前缀字符作为该程序脚本的脚本标识。
优选地,所述排序模块用于,获取所述多个程序脚本的脚本名,将所述多个程序脚本的脚本名中的前缀字符,确定为所述多个程序脚本的多个脚本标识;根据所述不同的数据挖掘子过程的执行顺序,确定所述多个脚本标识对应的所述多个程序脚本的调用顺序。
优选地,所述执行模块包括:判断模块,用于在按照确定的所述调用顺序依次调用每一个所述程序脚本时,判断该程序脚本是否有外部参数,所述外部参数用于向该程序脚本中的变量传递数据;肯定模块,用于若所述判断模块的判断结果为是,则获取所述外部参数传递的数据,并根据所述外部参数传递的数据执行该程序脚本所归属的数据挖掘子过程。
优选地,所述获取模块用于从每一个所述数据挖掘子过程对应的所述至少一个程序脚本中,选择所述数据挖掘的目标模型包括的程序脚本。
与现有技术相比,本申请具有以下优点:
本申请提供了一个数据挖掘框架,通过对归属不同数据挖掘子过程的程序脚本进行整合排序,使原本无序的多个程序脚本按照数据挖掘过程的正常顺序依次被调用执行,无须人工干扰,解决了现有数据挖掘过程中,无法保证数据挖掘结果的正确性,并且数据挖掘效率低的问题,既保证了数据挖掘结果的正确性,提高了数据挖掘效率,又节省了数据挖掘成本。
附图说明
图1是根据现有技术的一种数据挖掘过程的示意图;
图2是根据本申请实施例一的一种数据挖掘方法的步骤流程图;
图3是根据本申请实施例二的一种数据挖掘方法的步骤流程图;
图4是根据本申请实施例三的一种数据挖掘方法的流程示意图;
图5是根据本申请实施例四的一种数据挖掘***的结构框图;
图6是根据本申请实施例五的一种数据挖掘***执行数据挖掘的示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
实施例一
参照图2,示出了根据本申请实施例一的一种数据挖掘方法的步骤流程图。
本实施例的数据挖掘方法包括以下步骤:
步骤S102:获取对应于不同的数据挖掘子过程的多个程序脚本。
其中,一个数据挖掘子过程包括至少一个程序脚本,每个程序脚本归属于一个数据挖掘子过程。也即,可能有一个程序脚本实现一个数据挖掘子过程;也可能有多个程序脚本合起来实现一个数据挖掘子过程;还可能是有多个程序脚本,其中的某些可以组合,以不同方式实现一个数据挖掘子过程,如有A,B,C,D,E五个脚本,其中,ABC组合可以实现数据预处理子过程,ADC同样也可以实现数据预处理子过程,AEC也一样,区别在于实现数据预处理子过程的方式不同。
每个程序脚本具有一个脚本标识,脚本标识用于标示该程序脚本归属的是哪个数据挖掘子过程。
数据挖掘过程可以包括:数据选择、数据预处理、数据转换、模型计算、数据分析和同,其中的每一个过程可以作为一个数据挖掘子过程。优选地,数据挖掘过程还可以包括数据分析。
对于一个数据挖掘子过程可以通过多个程序脚本以多种方式实现的情况,在进行一次数据挖掘时,从多个程序脚本中选择一种实现方式的脚本组合,作为该数据处理子过程的程序脚本。程序脚本可以是预先编写或设置好的,也可以是根据数据挖掘过程临时生成的。
步骤S104:获取多个程序脚本对应的多个脚本标识。
步骤S106:按照不同的数据挖掘子过程的执行顺序,确定多个脚本标识对应的多个程序脚本的调用顺序。
一个完整的数据挖掘过程需要按流程顺序依次完成,而对于多个无序的程序脚本,需要根据数据挖掘过程中每个子过程的执行顺序,对其进行整合排序,以使其能够按照正确的数据挖掘流程执行。本步骤S106中,根据程序脚本的脚本标识,确定程序脚本的功能,即归属的是哪一个数据挖掘子过程,然后,根据数据挖掘过程中每个子过程的执行顺序,确定对应的程序脚本被调用的顺序。
步骤S108:按照确定的调用顺序依次调用多个程序脚本,进行数据挖掘。
通过本实施例,实现了对归属不同数据挖掘子过程的程序脚本进行整合排序,使原本无序的多个程序脚本按照数据挖掘过程的正常顺序依次被调用执行,无须人工干扰,提高了数据传递和交互过程的安全性,解决了现有数据挖掘过程中,无法保证数据挖掘结果的正确性,并且数据挖掘效率低的问题,既保证了数据挖掘结果的正确性,提高了数据挖掘效率,又节省了数据挖掘的时间成本和人工成本。
实施例二
参照图3,示出了根据本申请实施例二的一种数据挖掘方法的步骤流程图。
本实施例的数据挖掘方法包括以下步骤:
步骤S202:根据每个程序脚本所归属的数据挖掘子过程,为***中多个程序脚本设置脚本名的前缀字符,作为程序脚本的脚本标识。
其中,可能有多个程序脚本执行同样的数据挖掘子过程,则为这些程序脚本设置相同的脚本名的前缀字符。如,程序脚本a1、a2、a3都执行数据预处理子过程,则可以为这三个脚本设置相同的脚本名前缀字符“P_”,分别命名为“P_a1”、“P_a2”和“P_a3”。一个数据挖掘子过程对应于多个不同的程序脚本,可以根据实际需求,组成不同的数据挖掘模型,灵活地实现不同目的的数据挖掘功能。
对于多个程序脚本组合实现一个数据挖掘子过程的情况,也为这些程序脚本设置相同的脚本名的前缀字符,以指示其归属于同一个数据挖掘子过程。在实现数据挖掘子过程时,可以通过作为输入参数正确安排顺序,或者在前缀字符后设置顺序标识等适当方式,确定组合实现一个数据挖掘子过程的多个程序脚本之间的顺序。当然,除了上述顺序确定方式,本领域技术人员在实际使用中,也可以采用其它任意适当的方式,本申请对此不作限制。
通过为程序脚本设置脚本名的前缀字符,可以方便快速地确定程序脚本所能执行的功能,为后续脚本排序处理提供了方便。
步骤S204:根据数据挖掘的目标模型,从每一个数据挖掘子过程对应的程序脚本中选择程序脚本。
通过本步骤S204,每一个数据挖掘子过程都对应有一个或一组程序脚本。
步骤S206:获取多个程序脚本的脚本名。
步骤S208:将多个程序脚本的脚本名中的前缀字符,确定为多个程序脚本的多个脚本标识。
步骤S210:按照不同的数据挖掘子过程的执行顺序,确定多个脚本标识对应的多个程序脚本的调用顺序。
步骤S212:按照确定的调用顺序依次调用多个程序脚本,进行数据挖掘。
优选地,在按照确定的调用顺序依次调用每一个程序脚本时,判断该程序脚本是否有外部参数,外部参数用于向该程序脚本中的变量传递数据;如果有,则获取外部参数传递的数据,并根据外部参数传递的数据执行该程序脚本所归属的数据挖掘子过程。
通过本实施例,实现了对归属不同数据挖掘子过程的程序脚本进行整合排序,使原本无序的多个程序脚本按照数据挖掘过程的正常顺序依次被调用执行,无须人工干扰,提高了数据传递和交互过程的安全性,不但解决了现有数据挖掘过程中无法保证数据挖掘结果的正确性和数据挖掘效率低的问题;进一步地,通过设置脚本名的前缀字符,可以根据不同目的,选择不同的程序脚本,组成不同的数据挖掘模型,实现了灵活的数据挖掘。
实施例三
参照图4,示出了根据本申请实施例三的一种数据挖掘方法的流程示意图。
如图4所示,本实施例提供了一个自动化框架,用来对程序脚本进行整合排序等。该自动化框架分为三个主要部分,即,数据选择及预处理和转换部分、模型计算部分和数据分析部分,每一部分都有自己的执行模块。三部分划分的依据可以是数据挖掘子过程之间的耦合性,例如,数据选择、数据预处理和数据转换三个子过程之间的耦合性较大,因此,把它们整合到一起。但本领域技术人员应当明了,在实际应用中,本领域技术人员可以根据实际需求进行适当整合划分,也可以不进行整合划分,一个数据挖掘子过程对应于一个部分,本申请对此不作限制。
自动化框架的每一部分都提供了接口,通过接口对程序脚本进行整合排序,以及调用执行等。
本实施例中的数据挖掘子过程的执行模块可以包括:选择试验模型、配置自动化程序配置文件、数据清洗过程、分布式运行试验***和得出结果数据分析。数据挖掘子过程包括的程序脚本可以为数据处理脚本或者模型计算脚本等形式,对应于上述数据挖掘子过程的执行模块,本实施例中对相应的实现数据挖掘子过程的脚本也进行了整合,整合后的程序脚本可以包括:选择试验模型脚本、配置自动化程序配置文件脚本、数据清洗过程脚本、分布式运行试验***脚本和得出结果数据分析脚本。
本实施例的数据挖掘方法包括以下步骤:
步骤S302:获取外部输入的多个程序脚本。
其中,每个程序脚本使用脚本名前缀字符作为脚本标识。
本实施例中,即获取对应于数据挖掘子过程的执行模块的不同程序脚本,包括:选择试验模型脚本、配置自动化程序配置文件脚本、数据清洗过程脚本、分布式运行试验***脚本和得出结果数据分析脚本。
步骤S304:自动化***框架上层通过分支程序判断外部输入的程序脚本的类型功用,判断之后分配到相应的执行区域(即自动化***框架中的不同部分)里面去。
本步骤S304中,自动化***框架通过程序脚本的脚本名前缀字符判断程序脚本的类型功用,即是归属哪个数据挖掘子过程的。判断之后,将程序脚本分配到自动化***框架中的不同部分,由该部分对这些程序脚本进行整合排序,进而调用执行。例如,自动化***框架根据获取的程序脚本的脚本名前缀字符,将选择试验模型脚本、配置自动化程序配置文件脚本和数据清洗过程脚本分配到数据选择及预处理和转换部分,对这些脚本进行整合排序后,依次调用选择试验模型脚本、配置自动化程序配置文件脚本、数据清洗过程脚本,执行数据选择子过程、数据预处理子过程和数据转换子过程;将分布式运行试验***脚本分配到模型计算部分,执行模型计算子过程;将得出结果数据分析脚本分配到数据分析部分,执行数据分析子过程。
其中,每个程序脚本都有自己的外部参数,在输入的时候可以将不同程序脚本的外部参数附在这个脚本的后面,以进行参数传递,即将外部参数指示的数据传递到程序脚本,供程序脚本中的变量使用。当然,程序脚本是否具有外部参数取决于实际需要,在不需要的情况下,程序脚本也可以没有外部参数。
例如,应用linux下,向自动化***框架输入命令如下:
“./auto_arch.sh A_exam.sh_arg1 arg2 B_exam.sh arg1 arg2 C_exam.sharg1 arg2 D_exam.sh arg1 arg2 E_exam.sh arg1 arg2”
其中,A,B,C,D,E均为脚本名的前缀字符,分别代表该脚本所归属的数据挖掘子过程,如A代表程序脚本归属数据选择子过程,B代表程序脚本归属数据转换子过程,等等。“arg1”和“arg2”为程序脚本的外部参数,用来在执行程序脚本时,向其中的变量传递数据。当然,“arg1”和“arg2”仅为示例性说明,在实际应用中,外部参数根据实际需求灵活设置,也可以不携带外部参数。
通过上述命令,就实现了把外部的程序脚本按分支分类传给不同的部分去执行了。
步骤S306:自动化***框架确定各个程序脚本的调用执行顺序,依次调用执行相应的程序脚本进行数据挖掘。
如图4所示,该图中有两个部分,上面部分是已有的凌乱无序的数据处理脚本、模型计算脚本等单独存在的错综复杂外部的程序脚本,下面部分是一个自动化***框架,框架里面整合数据挖掘的几个部分的所有步骤的过程,只要将上面的脚本根据分类自由组合输入这个框架,一个试验就能自动运行直至完成。
通过本实施例提供的自动化***框架,(1)因为每一个数据挖掘子过程都可能有多个或多组不同的程序脚本,通过输出不同程序脚本的脚本名,可以实现自动化***框架每一个部分的脚本的随意更换,任意组合需要的试验模型;(2)通过每部分单独的程序脚本,在向自动化***框架输入时,输入每部分模型的程序脚本,自动化***框架自动将所有的部分串起来,自动全部执行完毕。例如,自动化***框架内部通过输入的脚本名字前面的前缀字符来识别此程序脚本的功能,以A_run_url_query.sh这个文件的程序脚本为例,通过识别前面的A知道这个程序脚本是做Analyse(分析)功能的程序脚本,然后再在自动化***框架中将其分配到做数据分析的分支当中,这样,通过脚本名前缀字符判断脚本类型功用,将其分配到不同的功能分支中,从而实现自动化串联,然后达到整体统一一致的目的。
实施例四
参照图5,示出了根据本申请实施例四的一种数据挖掘***的结构框图。
本实施例的数据挖掘***包括:获取模块402,用于获取对应于不同的数据挖掘子过程的多个程序脚本,其中,一个数据挖掘子过程包括至少一个程序脚本,每个程序脚本具有一个对应的脚本标识,脚本标识用于标示该脚本标识对应的程序脚本归属的数据挖掘子过程;排序模块404,用于获取多个程序脚本对应的多个脚本标识;按照不同的数据挖掘子过程的执行顺序,确定多个脚本标识对应的多个程序脚本的调用顺序;执行模块406,用于按照确定的调用顺序依次调用多个程序脚本,进行数据挖掘。
优选地,本实施例的数据挖掘***还包括:设置模块408,用于在获取模块402获取对应于不同的数据挖掘子过程的多个程序脚本之前,根据每个程序脚本所归属的数据挖掘子过程,为该程序脚本设置脚本名的前缀字符作为该程序脚本的脚本标识。
优选地,排序模块404用于,获取多个程序脚本的脚本名,将多个程序脚本的脚本名中的前缀字符,确定为多个程序脚本的多个脚本标识;根据所述不同的数据挖掘子过程的执行顺序,确定所述多个脚本标识对应的所述多个程序脚本的调用顺序。
优选地,执行模块406包括:判断模块4062,用于在按照确定的调用顺序依次调用每一个程序脚本时,判断该程序脚本是否有外部参数,外部参数用于向该程序脚本中的变量传递数据;肯定模块4064,用于若判断模块4062的判断结果为是,则获取外部参数传递的数据,并根据外部参数传递的数据执行该程序脚本所归属的数据挖掘子过程。
优选地,获取模块402用于从每一个数据挖掘子过程对应的至少一个程序脚本中,选择数据挖掘的目标模型包括的程序脚本。
本实施例的数据挖掘***用于实现前述方法实施例中相应的多个数据挖掘方法,并具有相应数据挖掘方法的有益效果,在此不再赘述。
实施例五
参照图6,示出了根据本申请实施例五的一种数据挖掘***执行数据挖掘的示意图。
本实施例的数据挖掘***包括一个自动化数据挖掘框架,框架中包括三个处理部分,分别是:数据选择及预处理和转换部分、模型计算部分和数据分析部分。其中,数据选择及预处理和转换部分用于根据程序脚本的脚本名前缀,判断其属于数据选择及预处理和转换部分,对程序脚本的执行顺序进行排序,然后按照排好的顺序调用程序脚本执行;数据挖掘部分用于根据程序脚本的脚本名前缀,判断其属于模型计算部分,将该部分的程序脚本安排在数据选择及预处理和转换部分的程序脚本执行后调用执行;数据分析部分用于根据程序脚本的脚本名前缀,判断其属于数据分析部分,将该部分的程序脚本安排在模型计算部分的程序脚本执行后调用执行。在所有部分的程序脚本都成功调用执行后,一次数据挖掘过程完成。
具体到本实施例,数据选择及预处理和转换部分能够接收选择试验模型脚本、配置自动化程序配置文件脚本和数据清洗过程脚本,将它们的执行顺序安排在其它部分的脚本之前,对它们进行再次排序后依次调用执行,实现数据选择、数据预处理和数据转换功能;模型计算部分接收分布式运行试验***脚本,确定它在数据选择及预处理和转换部分的脚本执行之后执行,实现模型计算功能;数据分析部分接收得出结果数据分析脚本,确定它在模型计算部分的脚本执行之后执行,实现数据分析功能。
此外,该框架向外提供了接口(相当于图5所示实施例中的获取模块),用于接收外部输入的参数,如程序脚本的脚本名和/或程序脚本所需的外部参数;然后,通过外部输入的参数确定程序脚本的功能类型,即判断程序脚本是归属哪个数据挖掘子过程的,将程序脚本分别分配到框架中相应的部分,由上述数据选择及预处理和转换部分、模型计算部分和数据分析部分(这三部分执行图5所示实施例中的排序模块的功能)确定每个程序脚本的调用执行顺序,进而由自动化数据挖掘框架通过调用接口(相当于图5所示实施例中的执行模块)根据确定好的顺序依次调用执行程序脚本。
本实施例的框架在实现数据挖掘时,在执行的时候调用自动化框架程序名字,后面传入参数(即待执行的所有脚本的脚本名和/或脚本参数),即可实现无序程序脚本的整合顺序执行。整个框架可以采用shell实现,在linux里面启动,使用shell实现,整个数据挖掘过程简单易于操作,不易出现误操作。当然,任意其它适当语言均可实现本申请的数据挖掘方案,本申请对此不作限制。
通过本申请的数据挖掘方案,解决了现有技术数据挖掘每个子过程之间的耦合性低,相关性不高,过程之间连接不够紧密,效率和错误百出的问题,实现了高效、准确的数据挖掘,节约了人力成本以及时间成本,加快了程序处理速度,降低了复杂性,提高了工作效率,减少了操作错误。并且,形式灵活,可以根据需要随时更换程序脚本,组合成任意所需的数据挖掘模型,实现了数据挖掘的灵活性、通用性和兼容性。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于***实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本申请所提供的一种数据挖掘方法和***进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (8)

1.一种数据挖掘方法,其特征在于,包括:
获取对应于不同的数据挖掘子过程的多个程序脚本,其中,一个所述数据挖掘子过程包括至少一个所述程序脚本,每个所述程序脚本具有一个对应的脚本标识,所述脚本标识用于标示该脚本标识对应的程序脚本归属的数据挖掘子过程;
获取所述多个程序脚本对应的多个脚本标识;
按照所述不同的数据挖掘子过程的执行顺序,确定所述多个脚本标识对应的所述多个程序脚本的调用顺序;
按照确定的所述调用顺序依次调用所述多个程序脚本,进行数据挖掘;
其中,所述按照确定的所述调用顺序依次调用所述多个程序脚本,进行数据挖掘的步骤包括:在按照确定的所述调用顺序依次调用每一个所述程序脚本时,判断该程序脚本是否有外部参数,所述外部参数用于向该程序脚本中的变量传递数据;若是,则获取所述外部参数传递的数据,并根据所述外部参数传递的数据执行该程序脚本所归属的数据挖掘子过程。
2.根据权利要求1所述的方法,其特征在于,在所述获取对应于不同的数据挖掘子过程的多个程序脚本的步骤之前,还包括:
根据每个所述程序脚本所归属的数据挖掘子过程,为该程序脚本设置脚本名的前缀字符作为该程序脚本的脚本标识。
3.根据权利要求2所述的方法,其特征在于,获取所述多个程序脚本对应的多个脚本标识的步骤包括:
获取所述多个程序脚本的脚本名;
将所述多个程序脚本的脚本名中的前缀字符,确定为所述多个程序脚本的多个脚本标识。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述获取对应于不同的数据挖掘子过程的多个程序脚本的步骤包括:
从每一个所述数据挖掘子过程对应的所述至少一个程序脚本中,选择所述数据挖掘的目标模型包括的程序脚本。
5.一种数据挖掘***,其特征在于,包括:
获取模块,用于获取对应于不同的数据挖掘子过程的多个程序脚本,其中,一个所述数据挖掘子过程包括至少一个所述程序脚本,每个所述程序脚本具有一个对应的脚本标识,所述脚本标识用于标示该脚本标识对应的程序脚本归属的数据挖掘子过程;
排序模块,用于获取所述多个程序脚本对应的多个脚本标识;按照所述不同的数据挖掘子过程的执行顺序,确定所述多个脚本标识对应的所述多个程序脚本的调用顺序;
执行模块,用于按照确定的所述调用顺序依次调用所述多个程序脚本,进行数据挖掘;
其中,所述执行模块包括:判断模块,用于在按照确定的所述调用顺序依次调用每一个所述程序脚本时,判断该程序脚本是否有外部参数,所述外部参数用于向该程序脚本中的变量传递数据;肯定模块,用于若所述判断模块的判断结果为是,则获取所述外部参数传递的数据,并根据所述外部参数传递的数据执行该程序脚本所归属的数据挖掘子过程。
6.根据权利要求5所述的***,其特征在于,还包括:
设置模块,用于在所述获取模块获取对应于不同的数据挖掘子过程的多个程序脚本之前,根据每个所述程序脚本所归属的数据挖掘子过程,为该程序脚本设置脚本名的前缀字符作为该程序脚本的脚本标识。
7.根据权利要求6所述的***,其特征在于,所述排序模块用于,获取所述多个程序脚本的脚本名,将所述多个程序脚本的脚本名中的前缀字符,确定为所述多个程序脚本的多个脚本标识;根据所述不同的数据挖掘子过程的执行顺序,确定所述多个脚本标识对应的所述多个程序脚本的调用顺序。
8.根据权利要求5-7中任一项所述的***,其特征在于,所述获取模块用于从每一个所述数据挖掘子过程对应的所述至少一个程序脚本中,选择所述数据挖掘的目标模型包括的程序脚本。
CN2011104068921A 2011-12-08 2011-12-08 数据挖掘方法及*** Expired - Fee Related CN102521040B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011104068921A CN102521040B (zh) 2011-12-08 2011-12-08 数据挖掘方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011104068921A CN102521040B (zh) 2011-12-08 2011-12-08 数据挖掘方法及***

Publications (2)

Publication Number Publication Date
CN102521040A CN102521040A (zh) 2012-06-27
CN102521040B true CN102521040B (zh) 2013-11-13

Family

ID=46291975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011104068921A Expired - Fee Related CN102521040B (zh) 2011-12-08 2011-12-08 数据挖掘方法及***

Country Status (1)

Country Link
CN (1) CN102521040B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103078947B (zh) * 2013-01-11 2015-04-22 江苏物联网研究发展中心 物联网海量数据交换交易架构***
CN104281596A (zh) * 2013-07-04 2015-01-14 上海朗迈网络科技有限公司 一种数据挖掘***
CN104346376B (zh) * 2013-07-31 2017-11-03 红有软件股份有限公司 数据挖掘算法动态***到数据挖掘平台的方法及***
CN103488533A (zh) * 2013-09-06 2014-01-01 乐视致新电子科技(天津)有限公司 一种程序执行方法、设备及***
CN107229568B (zh) * 2017-06-09 2018-09-18 华东师范大学 带过去时态的线性时态逻辑性质的有界运行时验证方法
CN107945006A (zh) * 2017-11-15 2018-04-20 深圳市买买提乐购金融服务有限公司 一种业务管理***及方法
CN110633308A (zh) * 2019-08-28 2019-12-31 北京浪潮数据技术有限公司 一种数据挖掘方法、***及相关装置
CN112416448A (zh) * 2020-12-08 2021-02-26 北京中亦安图科技股份有限公司 操作***信息采集方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020129342A1 (en) * 2001-03-07 2002-09-12 David Kil Data mining apparatus and method with user interface based ground-truth tool and user algorithms
CN100470547C (zh) * 2007-01-10 2009-03-18 华为技术有限公司 实现数据挖掘模型转换和应用的方法、***及装置
CN101324901A (zh) * 2008-08-06 2008-12-17 中国电信股份有限公司 数据挖掘方法、平台和***

Also Published As

Publication number Publication date
CN102521040A (zh) 2012-06-27

Similar Documents

Publication Publication Date Title
CN102521040B (zh) 数据挖掘方法及***
CN106528424B (zh) 基于后台***服务或接口的测试方法和测试平台
CN106909510B (zh) 一种获取测试用例的方法以及服务器
CN110007902A (zh) 业务处理流程配置的方法及装置
CN105677561B (zh) 移动产品多平台测试方法及***
CN105677306A (zh) 自动化脚本的编写方法和装置
US20140052433A1 (en) Automatically extracting a model for the behavior of a mobile application
CN105117346A (zh) 虚拟化平台的分布式***自动化测试方法及***
CN102222043A (zh) 一种测试方法和测试装置
Grati et al. Extracting sequence diagrams from execution traces using interactive visualization
JP6310527B1 (ja) オブジェクト分析装置、オブジェクト分析方法、及びプログラム
Tonella et al. Reverse engineering of the UML class diagram from C++ code in presence of weakly typed containers
CN102591779B (zh) 基于工作流的通用软件测试过程模型的建立方法
CN110457212B (zh) 基于复杂***的测试建模及测试用例的自动生成方法
CN104331361A (zh) 一种用于白盒测试覆盖率计算可视化的测试装置及方法
CN104866592A (zh) 搜索引擎中摘要的展现方法和装置
CN115828804A (zh) 一种修改rtl源代码文件的方法及电子设备
CN111399830B (zh) 一种应用程序容量监控方法、装置、电子设备及存储介质
CN105740141B (zh) 一种自动化检测方法及其装置
US20040205669A1 (en) Arrangement to perform object-oriented programming
WO2015145538A1 (ja) プログラム図作成装置、プログラム図作成方法、及びプログラム図作成プログラム
JP2012048329A (ja) オブジェクト指向プログラム生成装置、その方法、プログラム
CN107563025B (zh) 一种验证平台管理方法及装置
CN204790978U (zh) 一种焊接的模拟装置
CN103399739A (zh) 一种机器人程序开发平台的生成方法与***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee

Owner name: IZP (CHINA) NETWORK TECHNOLOGY CO., LTD.

Free format text: FORMER NAME: BEIJING IZP NETWORK TECHNOLOGY CO., LTD.

CP01 Change in the name or title of a patent holder

Address after: 100081, building 2, building 18, 1607 South Main Street, Beijing, Haidian District, Zhongguancun, China

Patentee after: Izp (China) Network Technology Co. Ltd.

Address before: 100081, building 2, building 18, 1607 South Main Street, Beijing, Haidian District, Zhongguancun, China

Patentee before: Beijing IZP Technologies Co., Ltd.

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20151221

Address after: 100190, Haidian District, Beijing South Street, northeast flourishing, Beijing Zhongguancun software incubator, building 1, block C, three, 1322-D

Patentee after: IZP (Beijing) Technologies Co., Ltd.

Address before: 100081, building 2, building 18, 1607 South Main Street, Beijing, Haidian District, Zhongguancun, China

Patentee before: Izp (China) Network Technology Co. Ltd.

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20131113

Termination date: 20161208

CF01 Termination of patent right due to non-payment of annual fee