CN104699768A

CN104699768A - 一种网络物理***混合数据分类方法

Info

Publication number: CN104699768A
Application number: CN201510083345.2A
Authority: CN
Inventors: 陈志�; 罗一迪; 岳文静
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2015-02-16
Filing date: 2015-02-16
Publication date: 2015-06-10

Abstract

本发明给出一种网络物理***混合数据分类方法，该方法利用决策树对用户输入网络物理***数据依据不同的类型进行分类处理。在本方法中，当数据记录是离散型数据，通过计算数据记录属性的信息增益来构建代表离散型数据分类的决策树；当数据记录是连续型数据，通过计算数据记录的残差平方和来构建代表离散型数据分类的决策树。本发明所述的网络物理***混合数据分类方法包含如下过程：收集用户输入网络物理***数据，根据相关的逻辑判断条件，利用决策树进行数据分类。所述网络物理***数据可以是离散值，也可以是连续值。本发明能够减少资源限制对网络物理***数据分类效率的影响，在较少的时间和空间条件下对网络物理***进行高效数据分类。

Description

一种网络物理***混合数据分类方法

技术领域

本发明涉及一种网络物理***数据分类方法，解决资源限制对网络物理***不同类型数据分类低效问题，属于计算机技术、物联网、网络物理***交叉应用领域。

背景技术

网络物理***利用网络实现计算进程与物理进程之间的交互，一个集成计算，网络，控制的下一代智能***。通过3C融合和协作，实现大型工程的实时感知，动态控制，信息传递。它注重计算资源与物理资源的紧密结合与协调，主要用于一些智能***上如机器人，智能导航、医疗、能源等多个重要发展领域等。

数据挖掘是一种在海量数据中发现有用信息的技术，是现在计算机技术中热门的方向。数据挖掘通过统计，检索，机器学习等技术实现从大量的数据中发现隐藏信息的目标。决策树是数据挖掘分类算法的一个重要方法，是直观运用概率分布的一种图解法。决策树的建立是用来辅助决策，是一种特殊的树型结构，在机器学习中，决策树是一个预测模型，代表的是对象属性与对象值之间的一种映射关系。决策树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，而每个叶节点则对应从根节点到该叶节点所经历的路径所表示的对象的值。在分类问题中使用决策树模型有很多的优点，根据决策树可以很容易地构造出规则，而规则通常易于解释和理解。决策树模型也有一些缺点，比如处理缺失数据时的困难，过度拟合问题的出现，以及忽略数据集中属性之间的相关性等。

发明内容

技术问题：本发明目的是给出一种网络物理***混合数据分类方法，解决在较少的时间和空间条件下对网络物理***不同类型数据分类低效问题，减小资源限制对于分类效率的影响。本发明利用决策树解决网络物理***数据分类问题。

技术方案：本发明所述的网络物理***混合数据分类方法包含如下过程：收集用户输入网络物理***数据，根据相关的逻辑判断条件，利用决策树进行数据分类。所述网络物理***数据可以是离散值，也可以是连续值。

本发明所述的网络物理***混合数据分类方法包括以下步骤：

步骤1)收集用户输入的网络物理***的数据记录，并设定数据记录的类型。所述的数据记录包括数据值、属性名称、属性值，这里数据记录中不同的属性由用户指定，不同的属性对应特定的值。所述数据记录的类型是指离散型数据和连续型数据。

步骤2)依次选择网络物理***数据记录构建决策树。

步骤21)当数据记录是离散型数据，则进行如下步骤：

步骤211)创建一个根节点，该节点包括网络物理***当前所有离散型的数据记录。

步骤212)当根节点中所有数据记录的属性值都相同，则将根节点标记为叶子节点C，并返回根节点。

步骤213)当根节点中所有数据记录的属性值不相同，则计算每种属性的数据在所有数据记录中出现的次数与总的数据个数的比值，将这个比值作为该种属性的信息增益，选择具有最大信息增益的属性作为***属性，根据这个***属性将根节点分为两部分。所述的信息增益是一种选择方式，看属性能够为分类***带来多少信息，带来的信息越多，该特征越重要。所述的***属性是指节点***成不同节点所依据的原则，是一个判断逻辑。

步骤214)按照步骤211)至步骤213)，对于新生成的节点递归进行相同的步骤。

步骤215)向用户返回所生成决策树的根节点，该根节点代表所生成的决策树，这个决策树完成对网络物理***中离散型数据记录的分类。

步骤22)当数据记录是连续型数据，则进行如下步骤：

步骤221)创建一个根节点，该节点包括网络物理***当前所有连续型的数据记录；

步骤222)分别计算各个数据记录作为分隔点的残差平方和。所述的计算残差平方和的具体步骤为首先计算每一个数据记录的数据值与当前作为分隔点的数据记录的数据值的差，再计算所有数据记录的数据值的平均值，然后计算每一个数据记录的数据值与所有数据记录的数据值的平均值的差，最后将每一个数据记录的数据值与作为分隔点的数据记录的数据值的差、每一个数据记录的数据值与所有数据记录的数据值的平均值的差这两个值之间的差的平方和作为当前作为分隔点的数据记录的残差平方和。

步骤223)选择残差平方和最小的数据记录作为最佳分隔点。所述的最佳分隔点是指***节点的一种原则。

步骤224)将小于分隔点的数据数据记录作为该分隔点的左子树；

步骤225)将大于分隔点的数据数据记录作为该分隔点的右子树。

步骤226)依据步骤221)至步骤224)对左子树进行构建决策树；

步骤227)依据步骤221)至步骤224)对右子树进行构建决策树；

步骤228)当该节点属性完全相同或只剩一个数据记录，则将该节点标记为叶节点；

步骤229)选择两个相邻叶子节点，计算这两个相邻叶子节点的残差平方和，再计算这两个相邻叶子节点合并后的残差平方和，然后比较这两个相邻叶子节点合并前后的残差平方和，当合并后的小于合并前的，则将两个叶子节点合并为一个节点；

步骤2210)重复步骤229)，当所有相邻叶子节点都通过步骤229)进行处理完毕，向用户返回所生成决策树的根节点，该根节点代表所生成的决策树，这个决策树完成对网络物理***中连续型数据记录的分类。

有益效果：本发明提供了一种基于决策树的网络物理***混合数据分类方法，具有如下的有益效果：

(1)本发明所述的基于决策树的数据分类方法因为决策树算法利用分而治之的思想，递归式地对高维度数据降维，分成一个个很容易处理的块。

(2)本发明所述的基于决策树的数据分类方法，可以将海量的数据进行数据分类，为后续的决策判断提供科学依据，作为后续开发的基础。

(3)本发明所述的基于决策树的数据分类方法，虽然是用于最初的分析阶段，但是相比于其他的分类方法，比较高效。

附图说明

图1是网络物理***混合数据分类方法流程图。

具体实施方式

下面对本发明附图的某些实施例作更详细的描述。

图1是本专利所述网络物理***混合数据分类方法的流程图。因为网络物理***所传输的数据类型是不定的，可以是离散值，也可以是连续值，所以本发明对此做了区分长处理，下面以具体实例来进一步描述具体实施的步骤。

本发明应用到视频监控***中，可以得到如下的应用。

视频监控***属于一种网络物理***，可以传输视频监控信息，本发明在这里统计在不同的人一天内出现在同一个摄像头下出现的次数和时间，性别，时刻的信息数据进行分类，所有的数据记录是一年统计的数据。其中，出现的次数，性别是一个离散值，而时间，时刻是一个连续值。应用本发明进行分类的具体步骤如下：

步骤1)收集用户输入的网络物理***的数据记录，设定出现在同一个摄像头下的次数m_i，性别g_i是离散值，出现在同一个摄像头下的时间t_i，时刻T_i是连续值。

步骤2)根据网络物理***所传输的次数m_i，性别g_i和时间t_i，时刻T_i记录建立决策树，具体步骤如下。所述的数据记录包括数据值，属性名称，属性值(对不同的属性进行标号，使不同的属性对应特定的值)。

步骤21)如果传输的是出现的次数m_i，性别g_i，则进行如下步骤：

步骤211)创建一个根节点N，该节点包括网络物理***所传输的所有次数记录m_i；

步骤212)如果根节点N中所有数据记录的属性值都相同，则将根节点N标记为叶子节点C，并返回根节点N；

步骤213)否则，计算信息增益；所述的信息增益是一种选择方式，看属性能够为分类***带来多少信息，带来的信息越多，该特征越重要。对一个特征而言，***有它和没它时信息量将发生变化，而前后信息量的差值就是这个特征给***带来的信息量。所谓信息量，就是熵。信息增益的公式为D是所有的数据记录，p_i表示数据记录中属于类i的非零概率。具体步骤如下：

步骤2131)统计每种属性的数据在所有数据记录中出现的次数n_i；

步骤2132)计算n_i与总的数据个数的比值p_i；

步骤2133)计算信息增益

步骤214)选择最大的数据作为***属性，将根节点N分为两部分；所述的***属性是指节点***成不同节点所依据的原则，是一个判断逻辑。

步骤215)按照前三步的方法，对于新生成的节点递归进行相同的步骤；

步骤216)返回根节点N；

步骤22)如果数据记录是出现的时间t_i，时刻T_i，则进行一下步骤：

步骤221)创建一个根节点N，该节点包括网络物理***所传输的所有时间记录t_i；

步骤222)计算各个数据记录作为分隔点的残差平方和；所述的残差平方和是用来表示数据拟合程度的量。残差平方和的计算公式是其中y_i'表示每一个数据记录的数据值y的估计值与作为实际值的差，表示每一个数据记录的数据值y的实际值与所有数据记录的数据值的平均值之间的差。具体步骤如下：

步骤2221)计算每一个数据记录的数据值与作为分隔点的数据记录的数据值的差y_i'；

步骤2222)计算所有数据记录的数据值的平均值

步骤2223)计算每一个数据记录的数据值与平均值的差

步骤2224)计算作为分隔点的数据记录的残差平方和

步骤223)选择残差平方和最小的数据记录作为最佳分隔点；所述的最佳分隔点是指***节点的一种原则。

步骤224)将小于分隔点的数据记录作为该分隔点的左子树；

步骤225)将大于分隔点的数据记录作为该分隔点的右子树；

步骤226)依据步骤221)——步骤224)对左子树进行构建决策树；

步骤227)依据步骤221)——步骤224)对右子树进行构建决策树；

步骤228)当该节点属性完全相同或只剩一个数据，则将该节点标记为叶节点C_i，其中i＝1,2...n(n为最终叶节点的个数)；

步骤229)计算两个相邻两个叶子节点C_i，C_i+1的残差平方和；

步骤22-10)计算这两个叶子节点C_i，C_i+1合并后的残差平方和；

步骤22-11)比较合并前后的残差平方和，如果合并后的小于合并前的，则将两个叶子节点合并为一个节点C_i；

步骤22-12)按照前三步的方法递归进行所有叶节点的比较；

步骤22-13)返回根节点N。

Claims

1.一种网络物理***混合数据分类方法，其特征在于该方法包括以下步骤：

步骤1)收集用户输入的网络物理***的数据记录，并设定数据记录的类型，所述的数据记录包括数据值、属性名称、属性值，这里数据记录中不同的属性由用户指定，不同的属性对应特定的值，所述数据记录的类型是指离散型数据和连续型数据；

步骤2)依次选择网络物理***数据记录构建决策树，

步骤21)当数据记录是离散型数据，则进行如下步骤：

步骤211)创建一个根节点，该节点包括网络物理***当前所有离散型的数据记录，

步骤212)当根节点中所有数据记录的属性值都相同，则将根节点标记为叶子节点C，并返回根节点；

步骤213)当根节点中所有数据记录的属性值不相同，则计算每种属性的数据在所有数据记录中出现的次数与总的数据个数的比值，将这个比值作为该种属性的信息增益，选择具有最大信息增益的属性作为***属性，根据这个***属性将根节点分为两部分；所述的信息增益是一种选择方式，看属性能够为分类***带来多少信息，带来的信息越多，该特征越重要；所述的***属性是指节点***成不同节点所依据的原则，是一个判断逻辑；

步骤214)按照步骤211)至步骤213)，对于新生成的节点递归进行相同的步骤；

步骤215)向用户返回所生成决策树的根节点，该根节点代表所生成的决策树，这个决策树完成对网络物理***中离散型数据记录的分类；

步骤22)当数据记录是连续型数据，则进行如下步骤：

步骤222)分别计算各个数据记录作为分隔点的残差平方和，所述的计算残差平方和的具体步骤为首先计算每一个数据记录的数据值与当前作为分隔点的数据记录的数据值的差，再计算所有数据记录的数据值的平均值，然后计算每一个数据记录的数据值与所有数据记录的数据值的平均值的差，最后将每一个数据记录的数据值与作为分隔点的数据记录的数据值的差、每一个数据记录的数据值与所有数据记录的数据值的平均值的差这两个值之间的差的平方和作为当前作为分隔点的数据记录的残差平方和；

步骤223)选择残差平方和最小的数据记录作为最佳分隔点；所述的最佳分隔点是指***节点的一种原则；

步骤225)将大于分隔点的数据数据记录作为该分隔点的右子树；

步骤226)依据步骤221)至步骤224)对左子树进行构建决策树；

步骤227)依据步骤221)至步骤224)对右子树进行构建决策树；