CN104699768A - 一种网络物理***混合数据分类方法 - Google Patents

一种网络物理***混合数据分类方法 Download PDF

Info

Publication number
CN104699768A
CN104699768A CN201510083345.2A CN201510083345A CN104699768A CN 104699768 A CN104699768 A CN 104699768A CN 201510083345 A CN201510083345 A CN 201510083345A CN 104699768 A CN104699768 A CN 104699768A
Authority
CN
China
Prior art keywords
data
data record
physical system
value
decision tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510083345.2A
Other languages
English (en)
Inventor
陈志�
罗一迪
岳文静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201510083345.2A priority Critical patent/CN104699768A/zh
Publication of CN104699768A publication Critical patent/CN104699768A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明给出一种网络物理***混合数据分类方法,该方法利用决策树对用户输入网络物理***数据依据不同的类型进行分类处理。在本方法中,当数据记录是离散型数据,通过计算数据记录属性的信息增益来构建代表离散型数据分类的决策树;当数据记录是连续型数据,通过计算数据记录的残差平方和来构建代表离散型数据分类的决策树。本发明所述的网络物理***混合数据分类方法包含如下过程:收集用户输入网络物理***数据,根据相关的逻辑判断条件,利用决策树进行数据分类。所述网络物理***数据可以是离散值,也可以是连续值。本发明能够减少资源限制对网络物理***数据分类效率的影响,在较少的时间和空间条件下对网络物理***进行高效数据分类。

Description

一种网络物理***混合数据分类方法
技术领域
本发明涉及一种网络物理***数据分类方法,解决资源限制对网络物理***不同类型数据分类低效问题,属于计算机技术、物联网、网络物理***交叉应用领域。
背景技术
网络物理***利用网络实现计算进程与物理进程之间的交互,一个集成计算,网络,控制的下一代智能***。通过3C融合和协作,实现大型工程的实时感知,动态控制,信息传递。它注重计算资源与物理资源的紧密结合与协调,主要用于一些智能***上如机器人,智能导航、医疗、能源等多个重要发展领域等。
数据挖掘是一种在海量数据中发现有用信息的技术,是现在计算机技术中热门的方向。数据挖掘通过统计,检索,机器学习等技术实现从大量的数据中发现隐藏信息的目标。决策树是数据挖掘分类算法的一个重要方法,是直观运用概率分布的一种图解法。决策树的建立是用来辅助决策,是一种特殊的树型结构,在机器学习中,决策树是一个预测模型,代表的是对象属性与对象值之间的一种映射关系。决策树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶节点则对应从根节点到该叶节点所经历的路径所表示的对象的值。在分类问题中使用决策树模型有很多的优点,根据决策树可以很容易地构造出规则,而规则通常易于解释和理解。决策树模型也有一些缺点,比如处理缺失数据时的困难,过度拟合问题的出现,以及忽略数据集中属性之间的相关性等。
发明内容
技术问题:本发明目的是给出一种网络物理***混合数据分类方法,解决在较少的时间和空间条件下对网络物理***不同类型数据分类低效问题,减小资源限制对于分类效率的影响。本发明利用决策树解决网络物理***数据分类问题。
技术方案:本发明所述的网络物理***混合数据分类方法包含如下过程:收集用户输入网络物理***数据,根据相关的逻辑判断条件,利用决策树进行数据分类。所述网络物理***数据可以是离散值,也可以是连续值。
本发明所述的网络物理***混合数据分类方法包括以下步骤:
步骤1)收集用户输入的网络物理***的数据记录,并设定数据记录的类型。所述的数据记录包括数据值、属性名称、属性值,这里数据记录中不同的属性由用户指定,不同的属性对应特定的值。所述数据记录的类型是指离散型数据和连续型数据。
步骤2)依次选择网络物理***数据记录构建决策树。
步骤21)当数据记录是离散型数据,则进行如下步骤:
步骤211)创建一个根节点,该节点包括网络物理***当前所有离散型的数据记录。
步骤212)当根节点中所有数据记录的属性值都相同,则将根节点标记为叶子节点C,并返回根节点。
步骤213)当根节点中所有数据记录的属性值不相同,则计算每种属性的数据在所有数据记录中出现的次数与总的数据个数的比值,将这个比值作为该种属性的信息增益,选择具有最大信息增益的属性作为***属性,根据这个***属性将根节点分为两部分。所述的信息增益是一种选择方式,看属性能够为分类***带来多少信息,带来的信息越多,该特征越重要。所述的***属性是指节点***成不同节点所依据的原则,是一个判断逻辑。
步骤214)按照步骤211)至步骤213),对于新生成的节点递归进行相同的步骤。
步骤215)向用户返回所生成决策树的根节点,该根节点代表所生成的决策树,这个决策树完成对网络物理***中离散型数据记录的分类。
步骤22)当数据记录是连续型数据,则进行如下步骤:
步骤221)创建一个根节点,该节点包括网络物理***当前所有连续型的数据记录;
步骤222)分别计算各个数据记录作为分隔点的残差平方和。所述的计算残差平方和的具体步骤为首先计算每一个数据记录的数据值与当前作为分隔点的数据记录的数据值的差,再计算所有数据记录的数据值的平均值,然后计算每一个数据记录的数据值与所有数据记录的数据值的平均值的差,最后将每一个数据记录的数据值与作为分隔点的数据记录的数据值的差、每一个数据记录的数据值与所有数据记录的数据值的平均值的差这两个值之间的差的平方和作为当前作为分隔点的数据记录的残差平方和。
步骤223)选择残差平方和最小的数据记录作为最佳分隔点。所述的最佳分隔点是指***节点的一种原则。
步骤224)将小于分隔点的数据数据记录作为该分隔点的左子树;
步骤225)将大于分隔点的数据数据记录作为该分隔点的右子树。
步骤226)依据步骤221)至步骤224)对左子树进行构建决策树;
步骤227)依据步骤221)至步骤224)对右子树进行构建决策树;
步骤228)当该节点属性完全相同或只剩一个数据记录,则将该节点标记为叶节点;
步骤229)选择两个相邻叶子节点,计算这两个相邻叶子节点的残差平方和,再计算这两个相邻叶子节点合并后的残差平方和,然后比较这两个相邻叶子节点合并前后的残差平方和,当合并后的小于合并前的,则将两个叶子节点合并为一个节点;
步骤2210)重复步骤229),当所有相邻叶子节点都通过步骤229)进行处理完毕,向用户返回所生成决策树的根节点,该根节点代表所生成的决策树,这个决策树完成对网络物理***中连续型数据记录的分类。
有益效果:本发明提供了一种基于决策树的网络物理***混合数据分类方法,具有如下的有益效果:
(1)本发明所述的基于决策树的数据分类方法因为决策树算法利用分而治之的思想,递归式地对高维度数据降维,分成一个个很容易处理的块。
(2)本发明所述的基于决策树的数据分类方法,可以将海量的数据进行数据分类,为后续的决策判断提供科学依据,作为后续开发的基础。
(3)本发明所述的基于决策树的数据分类方法,虽然是用于最初的分析阶段,但是相比于其他的分类方法,比较高效。
附图说明
图1是网络物理***混合数据分类方法流程图。
具体实施方式
下面对本发明附图的某些实施例作更详细的描述。
图1是本专利所述网络物理***混合数据分类方法的流程图。因为网络物理***所传输的数据类型是不定的,可以是离散值,也可以是连续值,所以本发明对此做了区分长处理,下面以具体实例来进一步描述具体实施的步骤。
本发明应用到视频监控***中,可以得到如下的应用。
视频监控***属于一种网络物理***,可以传输视频监控信息,本发明在这里统计在不同的人一天内出现在同一个摄像头下出现的次数和时间,性别,时刻的信息数据进行分类,所有的数据记录是一年统计的数据。其中,出现的次数,性别是一个离散值,而时间,时刻是一个连续值。应用本发明进行分类的具体步骤如下:
步骤1)收集用户输入的网络物理***的数据记录,设定出现在同一个摄像头下的次数mi,性别gi是离散值,出现在同一个摄像头下的时间ti,时刻Ti是连续值。
步骤2)根据网络物理***所传输的次数mi,性别gi和时间ti,时刻Ti记录建立决策树,具体步骤如下。所述的数据记录包括数据值,属性名称,属性值(对不同的属性进行标号,使不同的属性对应特定的值)。
步骤21)如果传输的是出现的次数mi,性别gi,则进行如下步骤:
步骤211)创建一个根节点N,该节点包括网络物理***所传输的所有次数记录mi
步骤212)如果根节点N中所有数据记录的属性值都相同,则将根节点N标记为叶子节点C,并返回根节点N;
步骤213)否则,计算信息增益;所述的信息增益是一种选择方式,看属性能够为分类***带来多少信息,带来的信息越多,该特征越重要。对一个特征而言,***有它和没它时信息量将发生变化,而前后信息量的差值就是这个特征给***带来的信息量。所谓信息量,就是熵。信息增益的公式为D是所有的数据记录,pi表示数据记录中属于类i的非零概率。具体步骤如下:
步骤2131)统计每种属性的数据在所有数据记录中出现的次数ni
步骤2132)计算ni与总的数据个数的比值pi
步骤2133)计算信息增益
步骤214)选择最大的数据作为***属性,将根节点N分为两部分;所述的***属性是指节点***成不同节点所依据的原则,是一个判断逻辑。
步骤215)按照前三步的方法,对于新生成的节点递归进行相同的步骤;
步骤216)返回根节点N;
步骤22)如果数据记录是出现的时间ti,时刻Ti,则进行一下步骤:
步骤221)创建一个根节点N,该节点包括网络物理***所传输的所有时间记录ti
步骤222)计算各个数据记录作为分隔点的残差平方和;所述的残差平方和是用来表示数据拟合程度的量。残差平方和的计算公式是其中yi'表示每一个数据记录的数据值y的估计值与作为实际值的差,表示每一个数据记录的数据值y的实际值与所有数据记录的数据值的平均值之间的差。具体步骤如下:
步骤2221)计算每一个数据记录的数据值与作为分隔点的数据记录的数据值的差yi';
步骤2222)计算所有数据记录的数据值的平均值
步骤2223)计算每一个数据记录的数据值与平均值的差
步骤2224)计算作为分隔点的数据记录的残差平方和
步骤223)选择残差平方和最小的数据记录作为最佳分隔点;所述的最佳分隔点是指***节点的一种原则。
步骤224)将小于分隔点的数据记录作为该分隔点的左子树;
步骤225)将大于分隔点的数据记录作为该分隔点的右子树;
步骤226)依据步骤221)——步骤224)对左子树进行构建决策树;
步骤227)依据步骤221)——步骤224)对右子树进行构建决策树;
步骤228)当该节点属性完全相同或只剩一个数据,则将该节点标记为叶节点Ci,其中i=1,2...n(n为最终叶节点的个数);
步骤229)计算两个相邻两个叶子节点Ci,Ci+1的残差平方和;
步骤22-10)计算这两个叶子节点Ci,Ci+1合并后的残差平方和;
步骤22-11)比较合并前后的残差平方和,如果合并后的小于合并前的,则将两个叶子节点合并为一个节点Ci
步骤22-12)按照前三步的方法递归进行所有叶节点的比较;
步骤22-13)返回根节点N。

Claims (1)

1.一种网络物理***混合数据分类方法,其特征在于该方法包括以下步骤:
步骤1)收集用户输入的网络物理***的数据记录,并设定数据记录的类型,所述的数据记录包括数据值、属性名称、属性值,这里数据记录中不同的属性由用户指定,不同的属性对应特定的值,所述数据记录的类型是指离散型数据和连续型数据;
步骤2)依次选择网络物理***数据记录构建决策树,
步骤21)当数据记录是离散型数据,则进行如下步骤:
步骤211)创建一个根节点,该节点包括网络物理***当前所有离散型的数据记录,
步骤212)当根节点中所有数据记录的属性值都相同,则将根节点标记为叶子节点C,并返回根节点;
步骤213)当根节点中所有数据记录的属性值不相同,则计算每种属性的数据在所有数据记录中出现的次数与总的数据个数的比值,将这个比值作为该种属性的信息增益,选择具有最大信息增益的属性作为***属性,根据这个***属性将根节点分为两部分;所述的信息增益是一种选择方式,看属性能够为分类***带来多少信息,带来的信息越多,该特征越重要;所述的***属性是指节点***成不同节点所依据的原则,是一个判断逻辑;
步骤214)按照步骤211)至步骤213),对于新生成的节点递归进行相同的步骤;
步骤215)向用户返回所生成决策树的根节点,该根节点代表所生成的决策树,这个决策树完成对网络物理***中离散型数据记录的分类;
步骤22)当数据记录是连续型数据,则进行如下步骤:
步骤221)创建一个根节点,该节点包括网络物理***当前所有连续型的数据记录;
步骤222)分别计算各个数据记录作为分隔点的残差平方和,所述的计算残差平方和的具体步骤为首先计算每一个数据记录的数据值与当前作为分隔点的数据记录的数据值的差,再计算所有数据记录的数据值的平均值,然后计算每一个数据记录的数据值与所有数据记录的数据值的平均值的差,最后将每一个数据记录的数据值与作为分隔点的数据记录的数据值的差、每一个数据记录的数据值与所有数据记录的数据值的平均值的差这两个值之间的差的平方和作为当前作为分隔点的数据记录的残差平方和;
步骤223)选择残差平方和最小的数据记录作为最佳分隔点;所述的最佳分隔点是指***节点的一种原则;
步骤224)将小于分隔点的数据数据记录作为该分隔点的左子树;
步骤225)将大于分隔点的数据数据记录作为该分隔点的右子树;
步骤226)依据步骤221)至步骤224)对左子树进行构建决策树;
步骤227)依据步骤221)至步骤224)对右子树进行构建决策树;
步骤228)当该节点属性完全相同或只剩一个数据记录,则将该节点标记为叶节点;
步骤229)选择两个相邻叶子节点,计算这两个相邻叶子节点的残差平方和,再计算这两个相邻叶子节点合并后的残差平方和,然后比较这两个相邻叶子节点合并前后的残差平方和,当合并后的小于合并前的,则将两个叶子节点合并为一个节点;
步骤2210)重复步骤229),当所有相邻叶子节点都通过步骤229)进行处理完毕,向用户返回所生成决策树的根节点,该根节点代表所生成的决策树,这个决策树完成对网络物理***中连续型数据记录的分类。
CN201510083345.2A 2015-02-16 2015-02-16 一种网络物理***混合数据分类方法 Pending CN104699768A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510083345.2A CN104699768A (zh) 2015-02-16 2015-02-16 一种网络物理***混合数据分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510083345.2A CN104699768A (zh) 2015-02-16 2015-02-16 一种网络物理***混合数据分类方法

Publications (1)

Publication Number Publication Date
CN104699768A true CN104699768A (zh) 2015-06-10

Family

ID=53346889

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510083345.2A Pending CN104699768A (zh) 2015-02-16 2015-02-16 一种网络物理***混合数据分类方法

Country Status (1)

Country Link
CN (1) CN104699768A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060184474A1 (en) * 2004-11-30 2006-08-17 Kabushiki Kaisha Toshiba Data analysis apparatus, data analysis program, and data analysis method
CN102054002A (zh) * 2009-10-28 2011-05-11 ***通信集团公司 一种数据挖掘***中决策树的生成方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060184474A1 (en) * 2004-11-30 2006-08-17 Kabushiki Kaisha Toshiba Data analysis apparatus, data analysis program, and data analysis method
CN102054002A (zh) * 2009-10-28 2011-05-11 ***通信集团公司 一种数据挖掘***中决策树的生成方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李航: "《统计学习方法》", 31 March 2012, 清华大学出版社 *

Similar Documents

Publication Publication Date Title
CN104951425B (zh) 一种基于深度学习的云服务性能自适应动作类型选择方法
CN103106279B (zh) 一种同时基于节点属性以及结构关系相似度的聚类方法
Guo et al. Deep collaborative intelligence-driven traffic forecasting in green internet of vehicles
CN111612206A (zh) 一种基于时空图卷积神经网络的街区人流预测方法及***
CN102256065B (zh) 基于视频监控网络的视频自动浓缩方法
CN108446794A (zh) 一种基于多个卷积神经网络结合架构深度学习预测方法
CN111626171A (zh) 基于视频片段注意力机制与交互关系活动图建模的群组行为识别方法
CN104537126A (zh) 一种基于边图随机游走的重叠社区发现方法
CN108763956A (zh) 一种基于分形维数的流式数据差分隐私保护发布方法
CN107784327A (zh) 一种基于gn的个性化社区发现方法
Li et al. A top–bottom clustering algorithm based on crowd trajectories for small group classification
CN104765852B (zh) 大数据背景下基于模糊算法的数据挖掘方法
Tang et al. Short-term travel speed prediction for urban expressways: Hybrid convolutional neural network models
CN104217013A (zh) 基于项加权和项集关联度的课程正负模式挖掘方法及***
Pei et al. The clustering algorithm based on particle swarm optimization algorithm
Jiang Credit scoring model based on the decision tree and the simulated annealing algorithm
CN110019070A (zh) 一种基于Hadoop的安全日志聚类方法与追责***
Jiang et al. Dynamic adaptive and adversarial graph convolutional network for traffic forecasting
Lv et al. Edge-fog-cloud secure storage with deep-learning-assisted digital twins
CN104699768A (zh) 一种网络物理***混合数据分类方法
CN116578858A (zh) 基于图神经网络的空压机故障预测与健康度评价方法及***
Benala et al. Software effort prediction using fuzzy clustering and functional link artificial neural networks
Yu et al. Analysis and Application of the Spatio-Temporal Feature in Wind Power Prediction.
CN114565791A (zh) 一种人物档案识别方法、装置、设备及介质
Chen et al. Research and application of cluster analysis algorithm

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150610

RJ01 Rejection of invention patent application after publication