CN102542335A - 一种混合数据挖掘方法 - Google Patents
一种混合数据挖掘方法 Download PDFInfo
- Publication number
- CN102542335A CN102542335A CN2011101626184A CN201110162618A CN102542335A CN 102542335 A CN102542335 A CN 102542335A CN 2011101626184 A CN2011101626184 A CN 2011101626184A CN 201110162618 A CN201110162618 A CN 201110162618A CN 102542335 A CN102542335 A CN 102542335A
- Authority
- CN
- China
- Prior art keywords
- attribute
- neural network
- data
- digging
- data mining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
在处理大数据量,消除冗余信息等方面,粗集理论有着良好效果。而神经网络则具有独特的模型结构和固有的非线性模拟能力,以及高度的自适应和容错特性等突出特征。因此,两种技术的有效结合是近几年数据挖掘领域的一个研究热点。本发明提出了一个新的混合挖掘方法。
Description
技术领域
本发明属于计算机软件领域,特别涉及一种混合数据挖掘方法,及该方法在商业智能软件的应用。
技术背景
随着计算机技术的发展,数据库技术及数据库管理***应用日益广泛,数据库中存储的数据量急剧增大,在大量的数据背后隐藏着许多重要的信息,如果能把这些信息从数据库中抽取出来,将为公司创造很多潜在的利润,而这种从海量数据库中挖掘信息的技术,就称之为数据挖掘(Data Mining-DM)。
粗集理论是一种刻画不完整性和不确定性信息的数学工具,能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律。粗集理论以观察和测量所得的数据并进行分类的方法为基础,它认为知识是基于对对象分类的能力,知识直接与真实或抽象世界有关的不同分类模式联系在一起。粗集用上近似、下近似和边界来刻画信息的不确定性。
神经网络是通过网络中各连接权值的改变,实现信息的处理和存储。在神经网络中每个神经元既是信息的存储单元,又是信息的处理单元,信息的处理与存储合二为一,由这些神经元构成的网络在每个神经元的共同作用下,完成对输入模式的识别与记忆。人工神经网络以神经元间广泛的互连分布来存贮信息,以非线性神经元来协同处理信息。因此,它具有大规模并行处理、极强的鲁棒性和容错性,很强的自学习功能。
由于粗集和神经网络具有很强的优势互补性,因此将两种技术的有效结合是当前的一个研究热点,已引起了许多学者的广泛关注。
在现行的各种结合方式中,粗集理论的属性约简是其中的重要组成部分之一,通过用其对神经网络的训练数据进行约简,减少网络学习所需数据量,达到进一步改善神经网络学习效率和精度的目的。然而在实际应用中,对于一些规模较大的网络,粗集的处理效率还值得深入研究。
发明内容
由于基于并行遗传算法的属性约简方法可有效解决数据量大、维数多时的快速约简问题,因而可考虑首先用其对神经网络的输入空间进行快速选取,在此基础上用神经网络进行数据挖掘,以进一步提高应用粗集和神经网络对大型实际数据库进行挖掘时的效率。
基于上述分析,本发明设计了一种利用粗集理论和神经网络的混合数据挖掘方法。
为了实现发明目的,采用的技术原理如下:
对样本数据进行分析,然后据已知的领域知识形成一个初始的信息表,采用合理的离散方法对连续属性进行离散化,用基于遗传算法的并行约简算法对数据进行快速属性约简(水平约简),以约简后的属性作为输入层神经元,然后对数据进行垂直约简,包括消除数据中的不一致对象和冗余对象,最后用神经网络对处理后的精简数据进行训练。并行约简算法的引入可以进一步提高粗集和神经网络方法的整体挖掘效率。处理过程如图1所示。
附图说明
图1是本发明的数据处理流程图。
具体实施方式
本方法的主要组成部分有:
(1)连续属性离散化:用粗集方法对数据进行分析前,需要将连续变量离散化,离散化本质上可归结为利用选取的断点来对条件属性构成的空间进行划分的问题,把n维空间划分成有限个区域,使得每个区域中的对象的决策值相同。常用的方法有:距离划分方法、等频率划分方法、Naive Scaler方法等。
(2)决策表形成:采用量化后的条件属性和决策属性值形成一张二维表格每一行描述一个对象,每一列对应对象的一种属性。
(3)属性约简:决策表属性约简的过程,就是从决策表***的条件属性中去掉不必要的的条件属性,从而分析所得到约简中的条件属性对于决策属性的决策规则。本文所用流程:
输入:条件属性集合C={Y11,Y12,……,Y53},决策属性集合D={d};
输出:一个属性约简集合REDU
Step1:计算条件属性C有D正域POSC(D);
Step2:对属性Yij∈C,计算去除它所得到的条件属性子集C\{Yij}的D正域POSc\{Yij}(D);
Step3:如果POSc\{Yij}(D)=POSC(D),则说明属性Yij对于决策属性d是不必要的,这时C=C\{Yij},转st ep2;否则,输出属性约简REDU=C。
(4)对象约简:消除数据中的不一致对象和冗余对象,不一致对象为条件属性相同而决策属性不同的对象,冗余对象为条件属性相同而决策属性也相同的对象。
(5)神经网络模型确定:神经网络按类型可分为:BP网络、ART网络、RBF网络和LVM网络等,本专利采用最常用的BP网络。
(6)网络的学习与检验:根据神经网络模型输入,从初始连续属性决策表选择相应的训练数据和属性对网络训练,并用相应的测试样本进行测试。
本方法的具体实践如下:
现将此方法应用于某超市会员购物的分析决策中,下面以会员特征分析为例进行说明:营销分析人员希望分析出某段时间内,对顾客在超市购物的变化起决定性作用的客户特征,并以此为基础对未来顾客的消费趋势进行预测。其中,顾客这一主题所涉及的维有年龄、职业、收入、性别、婚姻状况等。在相关人员的帮助下,我们从超市会员数据仓库中选取2005年1月至2006年5月间的数据进行分析。结合现有数据的实际情况,选取的每条记录中包括各不同年龄、收入、职业、性别、婚姻的客户数目购物金额变化率作为输入的条件属性,整体的购物金额变化率作为决策属性D。以2005年1月至2005年12月的数据作为训练集,2006年1月至5月的数据作为测试集,按照本文的模型进行处理,首先进行维数约简,得到对购物金额变化率影响大的客户类型为年龄在30-40,收入在4000-6000,职业为文教业,性别为男性的已婚客户,以此为基础利用BP神经网络进行预测,采用图1的结构,神经元激励函数采用sigmoid函数。同时研究传统的BP神经网络,粗糙集的预测结果,以比较本文所提模型的性能。通过比较可以看出本文提出的模型无论是在训练集还是测试集的预测精度都高于其他两种网络结构的预测精度,这说明了粗集预处理过程的有效性,粗集预处理的水平约简和垂直约简减小了网络的规模,从而减少了网络训练和测试的时间和复杂性;其中并行约简进一步提高了本文模型的计算效率。
Claims (4)
1.一种混合数据挖掘方法,其特征在于集成了粗集理论和神经网络两种方法;
2.一种混合数据挖掘方法,其特征在于离散方法对连续属性进行离散化,在基于遗传算法进行约减;
3.一种混合数据挖掘方法,其特征在于用神经网络对处理后的精简数据进行训练。并行约简算法的引入可以进一步提高粗集和神经网络方法的整体挖掘效率;
4.根据权利要求2、3所述的混合数据挖掘方法,其特征在于采用的BP神经网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011101626184A CN102542335A (zh) | 2011-06-16 | 2011-06-16 | 一种混合数据挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011101626184A CN102542335A (zh) | 2011-06-16 | 2011-06-16 | 一种混合数据挖掘方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102542335A true CN102542335A (zh) | 2012-07-04 |
Family
ID=46349181
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011101626184A Pending CN102542335A (zh) | 2011-06-16 | 2011-06-16 | 一种混合数据挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102542335A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103076740A (zh) * | 2012-12-18 | 2013-05-01 | 江苏大学 | 交流磁悬浮电主轴控制器的构造方法 |
CN104298873A (zh) * | 2014-10-10 | 2015-01-21 | 浙江大学 | 一种基于遗传算法和粗糙集的属性约简方法及精神状态评估方法 |
CN105488697A (zh) * | 2015-12-09 | 2016-04-13 | 焦点科技股份有限公司 | 一种基于客户行为特征的潜在客户挖掘方法 |
CN108632929A (zh) * | 2018-04-16 | 2018-10-09 | 北京京大律业知识产权代理有限公司 | 一种面向快速服务的大数据聚合方法 |
CN109358900A (zh) * | 2016-04-15 | 2019-02-19 | 北京中科寒武纪科技有限公司 | 支持离散数据表示的人工神经网络正向运算装置和方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101187803A (zh) * | 2007-12-06 | 2008-05-28 | 宁波思华数据技术有限公司 | 基于数据挖掘技术的氨合成装置生产优化方法 |
CN101963983A (zh) * | 2010-09-28 | 2011-02-02 | 江苏瑞蚨通软件科技有限公司(中外合资) | 一种粗集优化神经网络的数据挖掘方法 |
-
2011
- 2011-06-16 CN CN2011101626184A patent/CN102542335A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101187803A (zh) * | 2007-12-06 | 2008-05-28 | 宁波思华数据技术有限公司 | 基于数据挖掘技术的氨合成装置生产优化方法 |
CN101963983A (zh) * | 2010-09-28 | 2011-02-02 | 江苏瑞蚨通软件科技有限公司(中外合资) | 一种粗集优化神经网络的数据挖掘方法 |
Non-Patent Citations (1)
Title |
---|
DONG LI XIN: "Rough set and radial basis function neural network based insulation data mining fault diagnosis for power transformer", 《JOURNAL OF HARBIN INSTITUTE OF TECHNOLOGY》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103076740A (zh) * | 2012-12-18 | 2013-05-01 | 江苏大学 | 交流磁悬浮电主轴控制器的构造方法 |
CN103076740B (zh) * | 2012-12-18 | 2015-10-28 | 江苏大学 | 交流磁悬浮电主轴控制器的构造方法 |
CN104298873A (zh) * | 2014-10-10 | 2015-01-21 | 浙江大学 | 一种基于遗传算法和粗糙集的属性约简方法及精神状态评估方法 |
CN104298873B (zh) * | 2014-10-10 | 2017-06-06 | 浙江大学 | 一种基于遗传算法和粗糙集的属性约简方法及精神状态评估方法 |
CN105488697A (zh) * | 2015-12-09 | 2016-04-13 | 焦点科技股份有限公司 | 一种基于客户行为特征的潜在客户挖掘方法 |
CN109358900A (zh) * | 2016-04-15 | 2019-02-19 | 北京中科寒武纪科技有限公司 | 支持离散数据表示的人工神经网络正向运算装置和方法 |
CN109358900B (zh) * | 2016-04-15 | 2020-07-03 | 中科寒武纪科技股份有限公司 | 支持离散数据表示的人工神经网络正向运算装置和方法 |
CN108632929A (zh) * | 2018-04-16 | 2018-10-09 | 北京京大律业知识产权代理有限公司 | 一种面向快速服务的大数据聚合方法 |
CN108632929B (zh) * | 2018-04-16 | 2021-08-17 | 上海识装信息科技有限公司 | 一种面向快速服务的大数据聚合方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cheriyan et al. | Intelligent sales prediction using machine learning techniques | |
CN101963983A (zh) | 一种粗集优化神经网络的数据挖掘方法 | |
Jiang et al. | Dynamic linkages among global oil market, agricultural raw material markets and metal markets: an application of wavelet and copula approaches | |
WO2021088499A1 (zh) | 一种基于动态网络表征的***虚开识别方法及*** | |
CN110674970A (zh) | 企业法务风险预警方法、装置、设备及可读存储介质 | |
CN103984714B (zh) | 一种基于本体语义的云制造服务供需智能匹配方法 | |
CN104537433A (zh) | 基于存量容量与业扩报装特征的售电量预测方法 | |
CN111738843B (zh) | 一种使用流水数据的量化风险评价***和方法 | |
CN102542335A (zh) | 一种混合数据挖掘方法 | |
Zhou et al. | A novel grey seasonal model based on cycle accumulation generation for forecasting energy consumption in China | |
Xia et al. | A DEA-based empirical analysis for dynamic performance of China's regional coke production chain | |
Guo et al. | A class of multi-period semi-variance portfolio for petroleum exploration and development | |
Wang et al. | The construction and empirical analysis of the company’s financial early warning model based on data mining algorithms | |
CN113283806A (zh) | 企业信息评估方法、装置、计算机设备及存储介质 | |
Yu et al. | Decision tree method in financial analysis of listed logistics companies | |
Yu et al. | Computational intelligent data analysis for sustainable development | |
Feng | Data Analysis and Prediction Modeling Based on Deep Learning in E‐Commerce | |
Rahman et al. | To predict customer churn by using different algorithms | |
Huang et al. | Hysteresis effects of R&D expenditures and patents on firm performance: An empirical study of Hsinchu Science Park in Taiwan | |
Pei et al. | A Predictive Analysis of the Business Environment of Economies along the Belt and Road Using the Fractional‐Order Grey Model | |
WO2022143431A1 (zh) | 一种反洗钱模型的训练方法及装置 | |
Yang et al. | Reform and competitive selection in China: An analysis of firm exits | |
Wu | The path of agricultural policy finance in smart service for rural revitalization under big data technology | |
Mukhtar et al. | Forecasting Covid-19 time series data using the long short-term memory (LSTM) | |
Pan et al. | An analysis of bank service satisfaction based on quantile regression and grey relational analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
DD01 | Delivery of document by public notice |
Addressee: Guangzhou Longtai Information Technology Co.,Ltd. Document name: Notification that Application Deemed to be Withdrawn |
|
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20120704 |