CN108804635A

CN108804635A - 一种基于属性选择的相似性度量方法

Info

Publication number: CN108804635A
Application number: CN201810559128.XA
Authority: CN
Inventors: 曾瑛; 李星南; 付佳佳; 何杰; 李溢杰; 苏卓
Original assignee: Guangdong Power Grid Co Ltd; Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Priority date: 2018-06-01
Filing date: 2018-06-01
Publication date: 2018-11-13

Abstract

本发明涉及信息处理的技术领域，更具体地，涉及一种基于属性选择的相似性度量方法，包括数据准备阶段：对初始数据进行预处理并对连续的数据集进行离散化处理；随机森林建立阶段：包括属性选择和实例划分，选择属性集内具有最大显著率的属性对数据集的实例进行分区，然后迭代建立包括m个决策树的分区森林；相似性计算阶段：根据分区森林的m个决策树计算任意x和y实例集之间相似性的大小。在建立分区森林时考虑属性的重要性，克服了在处理高维数据时算法复杂度较高、计算过程复杂的问题，在离群点检测时比其他算法具有更好的性能，能够有效地处理高维数据。

Description

一种基于属性选择的相似性度量方法

技术领域

本发明涉及信息处理的技术领域，更具体地，涉及一种基于属性选择的相似性度量方法。

背景技术

近年来，随着信息技术的飞速发展，高维数据已经大幅度的产生。能够使用数据挖掘技术处理高维数据来提取隐藏的有价值的信息是必需的。目前，电力行业的业务应用***产生的海量业务数据已被企业管理层定义为数据资产的高度，并将数据资产工作的管理划定到了专门的管理部门。从目前的管理效果和使用情况来看，目前电力行业的数据质量情况不甚乐观。分析原因，主要是管理方式太过于技术化，或者说管理的规则太偏于技术，不能与业务情况适时的相结合，导致投入了大量的人力、物力治理的数据质量，在应用层面效果仍不是很明显。例如不同的应用***存在对同一个实体对象的命名的不同情况，台账和监控中对同一台设备可能命名不同，两个不同地市的通信监控***可能对对方网元的命名也不相同，如何通过算法判断为同一对象是数据治理中面临的问题。借助属性选择减少计算成本，实现对相似性的度量具有现实的研究意义。对于许多聚类、分类和异常检测等数据挖掘算法，相似度量是其中不可分割的一部分，它将两个数据的相似度进行比较，为算法的处理提供更好的选择，因此相似度量具有很大的研究价值。传统的相似度量方法以距离为基础，以距离为主要评价指标。它们忽略了数据之间的联系，这可能导致数据挖掘性能不佳。因此，需要开发现有的相似性度量方法来处理高维数据，并考虑数据之间的关系，以便在数据挖掘任务上获得更好的性能。

基于距离的相似性度量方法有着广泛的应用，基于数据的相似性度量在70年初就有了心理学基础，它表明两个对象之间的相似性不仅基于几何距离，而且基于对象的语境。数据相关的相似性度量方法的主要思想是用一个覆盖每个维度两个实例的区域的概率质量来评价两个实例之间的相异性。然而，这种方法需要遍历每个维度中的所有实例而导致的计算成本。为了演化数据相关性相似性度量，提出了一种基于质量的相似性度量方法叫‘我’的方法，用iforest来定义区域和计算区域中的质量概率以获得相似性结果。该方法计算成本较低，鲁棒性强，效率高，能够检测局部异常。即使“我”的方法在处理低维数据任务方面表现良好，例如离群点检测，但是由于iforest采用随机属性选择策略的特征，因此它不是用来处理高维数据。因此，在高维数据挖掘任务中需要改进现有的数据相关相似性方法。

专利CN104077365A提供一种增强相似度关联的相似性度量方法，能够通过增强相似性关联来扩大比较对象之间的关联范围，但该方案需要遍历每个维度中的所有实例，计算成本较高；专利CN104731887A采用一种考虑社会属性的相似性度量方法，充分考虑用户社会属性信息的相似度度量方法，以突破相似度度量性能的瓶颈，为用户提供精度更高、体验更好的个性化服务，但该方案计算过程复杂，需多次聚类，复杂度较高，代价较大；专利CN104063445B提供一种相似性度量的方法，将行为数据和特征数据进行综合利用，但是需要遍历每个维度中的所有实例，导致较高的计算成本。

本发明的主要思路是建立多个决策树分区形成分区森林，对需比较相似性的两个实例集利用分区森林进行分区，采用实例个数最少的分区作为相似性计算的基础，而建立决策树时采用本发明提出的属性选择策略形成决策树的分支。

发明内容

本发明为克服上述现有技术所述的至少一种缺陷，提供一种基于属性选择的相似性度量方法，在建立分区森林时考虑属性的重要性，克服了在处理高维数据时算法复杂度较高、计算过程复杂的问题，在离群点检测时比其他算法具有更好的性能，能够有效地处理高维数据。

为解决上述技术问题，本发明的技术方案如下：

本发明将数据准备阶段处理后的所有数据集合称之为数据集，数据集中的每个对象称之为实例，由实例组成的集合称之为实例集。

一种基于属性选择的相似性度量方法，包括：

数据准备阶段：对初始数据进行预处理并对连续的数据集进行离散化处理；

随机森林建立阶段：包括属性选择和实例划分，选择属性集内具有最大显著率的属性对数据集的实例划分分区，然后重复属性选择和实例划分迭代建立m个决策树。

相似性计算阶段：根据分区森林的m个决策树计算任意x和y实例集之间相似性的大小。

优选地，所述数据准备阶段的离散化处理为：

将每个连续型数据集U的取值范围划分为等宽度的t个区间，其中U＝{x₁,x₂,…,x_n}为实例集，所以离散化后的数据集具有t种取值，其每种取值的实例数量之和等于数据集的总实例数，如下公式表示：

对于数据集x_i具有n个实例(x_i1,x_i2,…,x_in)，{x_i1,x_i2,…,x_in}表示实例总数，(q_it,t)表示属于取值t的实例数量。

优选地，所述的属性选择用于确定属性集C内具有最大显著率的属性方法包括：

将属性集C中的各属性的重要程度进行量化，其中C＝{c₁,c₂,…,c_n}为属性集，使用SIG表示每个属性的重要程度，SIG的定义如下：

设存在两个属性子集B和C-B，已被选择的属性包含于子集B中，未被选择的属性包含于子集C-B中。对于已选定的属性子集b∈B，由属性集B确定的分区表示为：U/B＝{x₁,x₂,x₃,…,x_b}；未选定属性c∈C-B,其确定的分区表示为：U/c＝{y₁,y₂,y₃,…,y_c}，计算未被选择的属性子集中每一个属性的SIG，SIG的定义公式如下：

SIG(c)表示属性c的重要性，其中E_ij等于x_i∩y_j，f(E_ij)的计算公式定义如下：

公式(3)中，当时，f(E_ij)＝0，否则，f(E_ij)＝s(X_i∩Y_j)，其中s(X_i∩Y_j)为集合X_i∩Y_j中的元素个数。

比较属性子集C-B中每个属性的显著率，属性c的显著率S_tree(c)定义如下：

公式(4)中，f(E_i)＝s(x_i),s(x_i)为数据集x_i中元素的个数，计算属性子集C-B中每个属性的显著率，找到具有最大显著率的属性。

优选地，在随机森林建立阶段，所选属性集的初始集合B为空集，未选属性集的初始集合C-B为全集；计算未选属性集C-B中每一个属性的显著率，选择显著率最大的属性作为分区依据；在每次分区之后，将所选属性c放入所选属性集合B中，在属性集合C中删除属性c，更新后的所选属性集合B和未选属性集合C-B用于下一次分区计算。

优选地，所述实例划分的分区方式为：

从数据集U中随机选取U_sub个实例来训练决策树，根据各实例中属性c的取值将实例集分为两部分，一部分属于新建立的分区R，一部分属于剩余实例子集；

判断剩余实例子集是否可分区，若可以则返回对剩余实例子集进行属性选择，否则，实例划分结束，一个决策树建立完成；

然后重复属性选择和实例划分迭代建立m个决策树。

优选地，所述的相似性计算阶段包括：

对于任意两个数据实例集x,y，让其经过m个决策树，每个决策树对实例集分别进行分区并根据式(5)计算两个数据实例集x,y间相似性RSF(x,y)：

其中，S_tree,i表示第i个决策树使用的属性选择策略，R(x,y|S_tree,i)表示当使用第i个决策树进行实例集分区时，包含x、y中最少实例数的分区R，|R(x,y|S_tree,i)|表示实例集x与实例集y在区域R中实例的数量，表示实例集x，y中的实例出现在区域R中的概率质量，m个决策树概率质量的平均值即为x，y之间的相似性大小RSF(x,y)。

优选地，根据所述的RSF(x,y)的取值，可判断两个数据集x,y间相似性的大小，RSF(x,y)取值越大，说明两个数据集越相似，反之，越不相似。

优选地，所述的基于属性选择的相似性度量方法的RSF(x,y)算法伪代码如下：

优选地，所述的基于属性选择的相似性度量方法具体包括以下步骤：

步骤1：对初始数据进行数据清洗、数据合并与集成、缺失值插补及统一数据格式预处理；

步骤2：在步骤1预处理之后的连续数据集进行离散化处理，将每个连续型数据的取值范围分为等宽度的t个区间，离散化后的数据集具有t种取值，；

步骤3：选取步骤2中数据集的实例训练决策树，开始建立第i＝1个决策树；建立所选属性集的初始集合B为空集，未选属性集的初始集合C-B为全集；

步骤4：计算步骤3中属性集C-B中每个候选属性的重要程度SIG；

步骤5：计算步骤4中每个候选属性的显著率S_tree(c)；

步骤6：选择步骤5中显著率最大的属性作为数据分区的依据，；

步骤7：若步骤6中具有显著率最大的属性，根据步骤6中选择的显著率最大的属性取值将剩余实例集分为两部分：属于新分区的实例集和剩余实例集，同时将选择的显著率最大属性在属性集合C-B中删除并放入所选属性集合B中，然后更新所选属性集合B和未选属性集合C-B并返回步骤4继续执行；若步骤6中多个属性的显著率最大且相等，说明剩余实例集不可分，令i＝i+1，执行步骤8；

步骤8：判断i与m的大小，若i小于或者等于m，则回到步骤4开始建立第i个决策树；若i大于m，则完成所有m个决策树的建立，执行步骤9；

步骤9：将实施例x和y作为输入实例集，利用上述步骤建立的m个决策树对输入实例集分别进行分区；

步骤10：比较每个决策树的每个分区中实例数的个数，找到实例数最小的分区，m个决策树可找到m个最小分区。

步骤11：计算实例出现在m个最小分区的概率质量并计算平均值，平均值即为实例集间的相似性大小。

与现有技术相比，有益效果是：

(1)本发明算法提出了属性重要性的定义，即在进行数据分区时，选择最为重要的属性作为分区依据，并定义了属性显著率的计算公式，显著率最高的属性认为是最为重要的属性；

(2)本发明算法利用显著率最高的属性作为分区依据建立m个分类决策树，形成分区森林，对于需要比较相似性的两个实例集x、y，依次经过m个决策树进行分区，每经过一个决策树找到包含x、y实例数最小的分区，以x、y中的实例出现在m个最小分区的平均概率质量作为计算两个实例集间相似性的依据，定义了相似性计算的公式；

(3)本发明算法在建立分区森林时考虑属性的重要性，在离群点检测时比其他算法具有更好的性能，能够有效地处理高维数据。

附图说明

图1是本发明整体流程图。

图2是RSF算法的AUC(k＝100)随t变化示意图。

图3是RSF-KNN，m-KNN和KNN算法的AUC(t＝8)随k变化示意图。

图4是RSF-KNN，m-KNN和KNN算法的时间复杂度(t＝8，k＝100)示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。附图中描述位置关系仅用于示例性说明，不能理解为对本专利的限制。

定义1：将信息***S表示为：S＝(U,C,V,f)，其中U＝{x₁,x₂,…,x_n}为实例集，C＝{c₁,c₂,…,c_n}为属性集，V是C的值集，f:U×C→V为映射函数。

定义2：C中的任何子集B决定了U上的不可分辨关系IND(B)。IND(B)定义如下：当且仅当对于任意一个b∈B，b(x_i)＝b(x_j)时，实例x_i与实例x_j为不可分辨关系，定义为(x_i.x_j)∈IND(B)，其中b(x)表示实例x中属性b的值。IND(B)也称为等价关系，并且由B确定的分区表示为U/IND(B)，缩写为U/B。

如图1所示，一种基于属性选择的相似性度量方法，具体包括

一种基于属性选择的相似性度量方法，包括：

所述数据准备阶段的离散化处理为：

所述的属性选择用于确定属性集C内具有最大显著率的属性方法包括：将属性集C中的各属性的重要程度进行量化，其中C＝{c₁,c₂,…,c_n}为属性集，使用SIG表示每个属性的重要程度，SIG的定义如下：

在随机森林建立阶段，所选属性集的初始集合B为空集，未选属性集的初始集合C-B为全集；计算未选属性集C-B中每一个属性的显著率，选择显著率最大的属性作为分区依据；在每次分区之后，将所选属性c放入所选属性集合B中，在属性集合C中删除属性c，更新后的所选属性集合B和未选属性集合C-B用于下一次分区计算。

所述实例划分的分区方式为：从数据集U中随机选取U_sub个实例来训练决策树，根据各实例中属性c的取值将实例集分为两部分，一部分属于新建立的分区R，一部分属于剩余实例子集；判断剩余实例子集是否可分区，若可以则返回对剩余实例子集进行属性选择，否则，实例划分结束，一个决策树建立完成；然后重复属性选择和实例划分迭代建立m个决策树。

所述的相似性计算阶段包括：对于任意两个数据实例集x,y，让其经过m个决策树，每个决策树对实例集分别进行分区并根据式(5)计算两个数据实例集x,y间相似性RSF(x,y)：

根据所述的RSF(x,y)的取值，可判断两个数据集x,y间相似性的大小，RSF(x,y)取值越大，说明两个数据集越相似，反之，越不相似。

所述的基于属性选择的相似性度量方法的RSF(x,y)算法伪代码如下：

所述的基于属性选择的相似性度量方法具体包括以下步骤：

步骤2：在步骤1预处理之后的连续数据集进行离散化处理，将每个连续型数据集U＝{x₁,x₂,…,x_n}的取值范围分为等宽度的t个区间，离散化后的数据集有t种取值，其每种取值的实例数量之和等于数据集的总实例数，如下公式表示：

对于数据集x_i具有n个实例(x_i1,x_i2,…,x_in)，{x_i1,x_i2,…,x_in}表示实例总数，(q_it,t)表示属于取值t的实例数量；

步骤3：选取步骤2中数据集的实例训练决策树，开始建立第i＝1个决策树；利用属性集C建立两个子集：所选属性集及未选属性集，所选属性集的初始集合B为空集，未选属性集的初始集合C-B为全集；

步骤4：计算步骤3中属性集C-B中每个候选属性的重要程度SIG；对于已选定的属性子集b∈B，由属性集B确定的分区表示为：U/B＝{x₁,x₂,x₃,…,x_b}；未选定属性c∈C-B,其确定的分区表示为：U/c＝{y₁,y₂,y₃,…,y_c}，计算未被选择的属性子集中每一个属性的SIG，SIG的定义公式如下：

公式(3)中，当时，f(E_ij)＝0，否则，f(E_ij)＝s(X_i∩Y_j)，其中s(X_i∩Y_j)为集合X_i∩Y_j中的元素个数；

步骤5：计算步骤4中每个候选属性的显著率S_tree(c)；利用步骤4中计算比较属性子集C-B中每个属性的显著率，属性c的显著率S_tree(c)定义如下：

公式(4)中，f(E_i)＝s(x_i),s(x_i)为数据集x_i中元素的个数，计算属性子集C-B中每个属性的显著率，找到具有最大显著率的属性；

步骤6：选择步骤5中显著率最大的属性作为数据分区的依据；

步骤11：计算实例出现在m个最小分区的概率质量并计算平均值，平均值即为实例集间的相似性大小；根据式(5)计算两个数据实例集x,y间相似性RSF(x,y)：

K最近邻分类算法(KNN)以其简单性和有效性，在模式识别、机器学习、数据挖掘等领域有着广泛的研究和应用。传统的KNN离群点检测算法都是基于距离相似性度量的，这种方法简单但计算成本高，且忽略了数据之间的联系。在下面的实验中，将比较RSF-KNN算法、m-KNN算法和KNN算法的性能。RSF-KNN算法使用本发明提出的RSF算法来替代KNN算法中的距离相似性度量，m-KNN算法使用传统的基于数据相似性度量简单地取代了基于距离的相似性度量。

本发明使用MAC OS Sierra@64bit,Intel Core [email protected],8GB RAM@1600MHz,250GB SSD hard disk配置的笔记本完成RSF-KNN，m-KNN和KNN算法的所有实验。本发明采用具有50000个实例，每个实例具有500个属性的数据集作为本实验的测试数据集，以测试RSF-KNN，m-KNN和KNN算法检测离群点的能力。

在比较以上三种算法的性能时，采用AUC作为评价指标，AUC表示ROC曲线下的面积。ROC曲线是反映算法敏感性和特异性的综合评价指标，以检测率为纵坐标，误检率为横坐标绘制曲线，曲线下面积越大说明算法的准确性越高，因此可采用AUC作为算法的评价指标，AUC的值在0和1之间，当分数接近1时，性能更好。

在进行算法前，需提前设定两个参数k与t。参数k表示三种KNN算法在对某实例进行数据分区时对比的最近或者最相似实例的数目；参数t表示连续型数据离散化后的区间数量。实验的过程主要分为三部分：一是当参数k固定，t取值不同时，观察RSF-KNN算法的性能变化；二是当参数t固定，当参数k不同时，三种算法的性能比较；三是当参数k和参数t都固定，实例数增加时，观察三种算法时间复杂度的变化。

(1)实验一：参数k设定为100

如图2所示，当k＝100时，RSF-KNN算法性能随着t越来越好，但时间复杂度也越来越高。而当t大于8时，AUC几乎相同，为了平衡算法的性能和计算成本，本发明为其余的实验设置参数t＝8。

(2)实验二：参数t设定为8

如图3所示，当k<200时，KNN算法性能优于m-KNN算法，当k>200时，m-KNN算法的性能优于KNN算法，而RSF-KNN算法的性能始终优于KNN算法和m-KNN算法，因此本发明提出的一种基于属性选择的相似性度量方法是有效的。

(3)实验三：参数k设定为100，参数t设定为8

如图4所示，RSF-KNN算法的时间复杂度略高于KNN和m-KNN算法，但随着实例数的增加，三者时间复杂度的差异逐渐变小。

综上，虽然在实例数较少时，RSF-KNN算法的时间复杂度较高，但当实例数大幅增加时，三种算法的时间复杂度差异不再明显，而RSF-KNN的准确率始终高于KNN和m-KNN算法，因此，RSF-KNN算法在数据量较大时具有较好的性能。

RSF相似性度量方法的时间复杂度由三部分组成，属性选择、分区构建和概率质量计算。一个分区的属性选择的时间复杂度为参数t越大，复杂度和精度越高，否则复杂度越低，准确度越低。添加属性选择的分区构建的时间复杂度是质量计算的时间复杂度是因此，当n为大时，RSF的时间复杂度几乎是O(n²)。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于属性选择的相似性度量方法，其特征在于，包括

2.根据权利要求1所述的一种基于属性选择的相似性度量方法，其特征在于，所述数据准备阶段的离散化处理为：

将每个连续型数据集U的取值范围划分为等宽度的t个区间，其中U＝{x₁，x₂，...，x_n}为实例集，所以离散化后的数据集具有t种取值，其每种取值的实例数量之和等于数据集的总实例数，如下公式表示：

对于数据集x_i具有n个实例(x_i1，x_i2，...，x_in)，{x_i1，x_i2，...，x_in}表示实例总数，(q_it，t)表示属于取值t的实例数量。

3.根据权利要求2所述的一种基于属性选择的相似性度量方法，其特征在于：所述的属性选择用于确定属性集C内具有最大显著率的属性方法包括：

将属性集C中的各属性的重要程度进行量化，其中C＝{c₁，c₂，...，c_n}为属性集，使用SIG表示每个属性的重要程度，SIG的定义如下：

设存在两个属性子集B和C-B，已被选择的属性包含于子集B中，未被选择的属性包含于子集C-B中。对于已选定的属性子集b∈B，由属性集B确定的分区表示为：U/B＝{x₁，x₂，x₃，...，x_b}；未选定属性c∈C-B，其确定的分区表示为：U/c＝{y₁，y₂，y₃，...，y_c}，计算未被选择的属性子集中每一个属性的SIG，SIG的定义公式如下：

SIG(c)表示属性c的重要性，其中E_ij等于x_i∩y_i，f(E_ij)的计算公式定义如下：

公式(4)中，f(E_i)＝s(x_i)，s(x_i)为数据集x_i中元素的个数，计算属性子集C-B中每个属性的显著率，找到具有最大显著率的属性。

4.根据权利要求3所述的一种基于属性选择的相似性度量方法，其特征在于：在随机森林建立阶段，所选属性集的初始集合B为空集，未选属性集的初始集合C-B为全集；计算未选属性集C-B中每一个属性的显著率，选择显著率最大的属性作为分区依据；在每次分区之后，将所选属性c放入所选属性集合B中，在属性集合C中删除属性c，更新后的所选属性集合B和未选属性集合C-B用于下一次分区计算。

5.根据权利要求4所述的一种基于属性选择的相似性度量方法，其特征在于，所述实例划分的分区方式为：

然后重复属性选择和实例划分迭代建立m个决策树。

6.根据权利要求5所述的一种基于属性选择的相似性度量方法，其特征在于，所述的相似性计算阶段包括：

对于任意两个数据实例集x，y，让其经过m个决策树，每个决策树对实例集分别进行分区并根据式(5)计算两个数据实例集x，y间相似性RSF(x，y)：

其中，S_tree，i表示第i个决策树使用的属性选择策略，R(x，y|S_tree，i)表示当使用第i个决策树进行实例集分区时，包含x、y中最少实例数的分区R，|R(x，y|S_tree，i)|表示实例集x与实例集y在区域R中实例的数量，表示实例集x，y中的实例出现在区域R中的概率质量，m个决策树概率质量的平均值即为x，y之间的相似性大小RSF(x，y)。

7.根据权利要求6所述的一种基于属性选择的相似性度量方法，其特征在于，根据所述的RSF(x，y)的取值，可判断两个数据集x，y间相似性的大小，RSF(x，y)取值越大，说明两个数据集越相似，反之，越不相似。

8.根据权利要求6所述的一种基于属性选择的相似性度量方法，其特征在于，所述的相似性度量方法的RSF(x，y)算法伪代码如下：

9.根据权利要求7所述的基于属性选择的相似性度量方法，其特征在于，所述的基于属性选择的相似性度量方法具体包括以下步骤：

步骤2：在步骤1预处理之后的连续数据集进行离散化处理，将连续型数据的取值范围分为等宽度的t个区间，离散化后的数据集具有t种取值，；

步骤5：计算步骤4中每个候选属性的显著率S_tree(c)；