CN104598449A

CN104598449A - 基于偏好的聚类

Info

Publication number: CN104598449A
Application number: CN201310524920.9A
Authority: CN
Inventors: P.内梅里; 王梦蛟
Original assignee: SAP SE
Current assignee: SAP SE
Priority date: 2013-10-30
Filing date: 2013-10-30
Publication date: 2015-05-06
Also published as: US20150120731A1

Abstract

本发明涉及基于偏好的聚类。为了聚类与数据集相关联的对象，接收标准的选择。对于接收的标准，接收偏好信息以执行对象的基于偏好的聚类。基于偏好信息，计算相应于每个选择的标准的单一标准偏好度。合计全部选择的标准的单一标准偏好度以计算全体偏好度。基于偏好类型和计算的偏好度，生成关系矩阵。生成表示对象之间的相似性度量的矩阵。根据关系矩阵聚类对象。聚类的对象的可视化呈现在相关联的用户界面上。

Description

基于偏好的聚类

技术领域

本发明涉及基于偏好的聚类。

背景技术

簇可以表示基于与元素相对应的公共因素的多种元素的聚集。可以采用多种方法将这些元素分类或分组到相应簇中。开发了基于元素的本质特性的聚类方法，其中本质特性用于计算元素之间的相似性或距离。基于像颜色、大小、价格或其他的属性的本质特性的集合评价每个元素。基于特性的值，确定每个元素之间的相似性或距离。使用相似性或距离来推断属于公共组的元素。

簇消费者，例如，来自簇的数据的消费者，可以表达除了元素之间的相似性和距离之外的若干条件。根据赋予元素的条件，可以变更元素的聚类以提供元素的特定于条件的聚类。

发明内容

本发明的一方面提供了一种用于聚类与数据集相关联的多个对象的计算机实现的方法，包括：接收一个或多个标准的选择以聚类与数据集相关联的对象；对于选择的标准，接收偏好信息以执行对象的基于偏好的聚类；基于接收到的偏好信息，计算与选择的一个或多个标准相对应的对象之间的偏好度；基于偏好度，生成表示与数据集相关联的对象之间的相似性度量的关系矩阵；以及根据关系矩阵聚类与数据集相关联的对象。

本发明的另一方面提供了一种聚类与数据集相关联的多个对象的计算机***，包括：处理器，被配置成读取并运行存储在一个或多个存储元件中的指令；以及所述一个或多个存储元件存储相关于如下步骤的指令：从计算机生成的用户界面接收一个或多个标准的选择以聚类与数据集相关联的对象；对于选择的标准，从计算机生成的用户界面接收偏好信息以执行对象的基于偏好的聚类；基于接收到的偏好信息，计算与选择的标准相对应的对象之间的偏好度；基于偏好度，生成表示与数据集相关联的对象之间的相似性度量的关系矩阵；以及根据关系矩阵来聚类与数据集相关联的对象。

本发明的另一方面提供了一种包括用于有形地存储指令的非瞬时计算机可读存储介质的制品，当所述指令由计算机运行时导致计算机进行如下步骤：接收一个或多个标准的选择以聚类与数据集相关联的对象；对于选择的标准，接收偏好信息以执行对象的基于偏好的聚类；基于接收到的偏好信息，计算与选择的标准相对应的对象之间的偏好度；基于偏好度，生成表示与数据集相关联的对象之间的相似性度量的关系矩阵；以及根据关系矩阵来聚类与数据集相关联的对象。

附图说明

权利要求精确地陈述实施例。在附图中以举示例的方式而非以限制的方式对实施例进行了说明，附图中，相似的附图标记指示相似的元件。从以下结合附图的详细描述可以透彻地理解实施例及其优点。

图1是示出根据实施例的、用于聚类与数据集相关联的多个对象的***的框图。

图2是示出根据实施例的、用于聚类与数据集相关联的多个对象的过程的流程图。

图3是示出根据实施例的、用于聚类与数据集相关联的多个对象的***的框图。

图4是示出根据实施例的、包括用于聚类的多个对象的数据集的表。

图5A-5C是示出根据实施例的偏好度的表，该偏好度被生成以聚类与数据集相关联的多个对象。

图6是示出根据实施例的关系矩阵的表，该关系矩阵被生成以聚类与数据集相关联的多个对象。

图7是示出根据实施例的个体相似性度量的表，该相似性度量被生成以聚类与数据集相关联的多个对象。

图8是示出根据实施例的相似性度量的表，该相似性度量被生成以聚类与数据集相关联的多个对象。

图9A和9B是示出根据实施例的、聚类与数据集相关联的多个对象的框图。

图10是示出根据实施例的示例性计算机***的框图。

具体实施方式

此处描述用于聚类与数据集相关联的多个对象的技术的实施例。在以下描述中，陈述了许多细节，以便提供对实施例的彻底理解。然而，相关领域技术人员将清楚，可以没有一个或多个细节、或利用其他方法、组件、材料等等实现实施例。在其他实例中，未示出或详细描述公知的结构、材料或操作。

遍及本说明书，提到“一个实施例”、“本实施例”或类似短语时，指的是与该实施例关联描述的具体特征、结构或特性包括在一个或多个实施例的至少一个实施例中。因而，这些短语在遍及本说明书的不同地方出现并不一定都指代同一个实施例。此外，所述具体的特征、结构或特性可以在一个或多个实施例中以任何适当的方式组合。

对象的聚类帮助确定具有公共特性的对象。聚类框架通过确定与对象的标准相关联的偏好信息来执行基于偏好的聚类。在实施例中，通过评价对象获得对象的标准。聚类框架确定用于聚类对象的标准的选择以及被提供以执行对象的基于偏好的聚类的偏好信息。标准的选择和偏好信息可以由最终用户提供，并且因此随时间经受改变。在每个时刻提供的标准和偏好信息帮助根据最终用户要求来分组和重新分组对象。基于偏好信息，确定对象之间的关系。基于因此获得的关系，分组或聚类对象。例如，在设备监视应用中，其中选择的标准是“维护”并且偏好信息是“最小”，基于设备的维护来识别设备并且将设备分组为高维护、低维护和中等维护有助于确定需要最小维护的设备。

实施例包括表示获得的簇的机制，其中聚类框架识别关系。基于关系的强度，框架可视地表示获得的簇。

图1是示出根据实施例的、用于聚类与数据集相关联的多个对象的***的框图。聚类多个对象包括基于相应于对象的公共因素来分组对象。例如，在人力资源管理应用中，可以将关于特定目标具有类似行为和类似表现的雇员分组在一起；可以取决于候选者申请人的专业领域、经验水平等等将候选者申请人分组到多种类别中。用于聚类对象的因素可以由最终用户提供，该最终用户利用聚类的对象做出决策。

在实施例中，在计算机生成的用户界面上提供表示与业务应用和/或方案(例如，人力资源管理应用、设备监视应用)相关联的数据的数据集，用于聚类与数据集相关联的对象。为了聚类与数据集相关联的对象，选择相应于数据集的因素。这些因素表示对象将基于其聚类的标准。对于选择的标准，提供偏好信息以执行基于偏好的聚类。与相应于标准的值的可允许阈值一起，偏好信息表示与标准相关联的指示或方向。例如，在人力资源管理应用中，如果选择了标准“雇员表现”，则偏好信息可以表示“最高”（即，偏好面向具有高表现等级的雇员），并且“雇员表现”的阈值可以是“至少B级”。

***100可以用于聚类与数据集相关联的多个对象。***100包括被配置成存储与多个企业或***应用、和/或企业方案相应的多个数据集的存储器105。***100包括数据收集块110、偏好确定块115、关系映射块120和对象聚类块125。数据收集块110识别与相应的应用(或方案)相关联的数据集并且向用户界面呈现数据集。数据收集块110还识别并从用户界面接收选择的标准和偏好信息以执行对象的聚类。

基于选择的标准和接收到的偏好信息，计算对象之间的偏好度。偏好确定块115确定选择的标准和偏好信息以计算偏好度。在实施例中，偏好确定块115对于每个选择的标准计算个体（individual）偏好度并且合计全部个体偏好度以计算全体（universal）偏好度。

可以呈现根据偏好信息表示对象之间的关系的关系映射。关系映射块120基于偏好度生成关系矩阵。关系映射块120确定与偏好信息相关联的偏好类型并且向与偏好类型相应的关系赋予值。因此，关系映射块120呈现用于聚类对象的多标准偏好。关系矩阵包括基于偏好的相似性度量，其可被用在基于网络的算法中以用于聚类对象。

关系矩阵中的值描述相应对象之间的关系的强度。使用对象之间的关系的强度，可以建立相似性图案，其中每个节点表示对象并且每条边表示两个相应节点之间的关系。在实施例中，相似性图案表示曲线图。对象聚类块125可以生成包括节点和边的相似性图案，并且向边分配与关系矩阵相关联的值。对象聚类块125可以应用聚类机制以确定具有稠密连接的节点的子集以及具有稀疏连接的节点的子集。基于连接，执行与数据集相关联的对象的聚类。在实施例中，对象聚类块125使用各种可视化技术生成聚类的可视化。在实施例中，稠密连接表示两个相应节点之间的多个关系，并且稀疏连接表示两个相应节点之间的很少的关系。在实施例中，可替换地使用“连接”和“关系”。

图2是示出根据实施例的、用于聚类与数据集相关联的多个对象的过程的流程图。与应用（例如，业务应用）相关联的数据集通常包括对象和它们的标准。数据集还包括与标准相对应的值。为了建立与应用相关联的决定，对象可能必须基于决策者的偏好被聚类。在实施例中，决策者是利用数据集的分析以及对象的聚类的可视化的最终用户。在另一实施例中，决策者是需要利用对象的聚类以完成相关联的过程的***。

基于选择的标准和提供的相应偏好信息来聚类对象以完成聚类的过程。在205中，接收用于聚类与数据集相关联的对象的标准的选择。在210中，对于选择的标准，接收偏好信息以执行对象的基于偏好的聚类。在215中，基于选择的标准和接收到的偏好信息，计算偏好度。在实施例中，对于选择的每个标准计算单一标准偏好度，并且合计多个单一标准偏好度以生成全体偏好度。与每个标准相应的单一标准偏好度表示对象之间的偏好阈值的强度。合计的全体偏好度表示与业务应用相关联的对象之间的全局偏好阈值的强度。

基于计算的(全局)偏好度，在220中，生成表示与数据集相关联的对象之间的相似性度量的关系矩阵。通过确定与偏好信息相关联的偏好类型、确定偏好类型关系并且向矩阵赋予识别相应对象之间的偏好类型关系的标识符来生成关系矩阵。在225中，根据关系矩阵聚类与数据集相关联的对象。基于偏好的聚类框架运行以上过程以聚类多个对象。

图3是示出根据实施例的、用于聚类与数据集相关联的多个对象的***的框图。***300示出利用标准和偏好信息聚类与应用的数据集相关联的对象的、基于偏好的聚类框架。***300包括用户界面(UI)组件305、数据源355和基于偏好的聚类框架310。基于偏好的聚类框架310包括标准确定模块315、偏好信息确定模块320、偏好度计算单元325、关系矩阵生成模块330、相似性度量计算组件335、基于偏好的聚类模块340、处理器345和（多个）存储元件350。

可操作用户界面组件305以在相应UI上呈现与应用相关联的数据集。还可操作UI组件305以识别并从UI接收输入并且在UI上呈现与框架310相关联的输出。可操作数据源355以存储与相应于多个企业方案的多个应用相关联的数据集。可操作与框架310相关联的处理器345以确定提供在UI上的标准和偏好信息，并且从数据源355检索有关的数据集和相关联的标准。数据集360是示例性数据集，考虑数据集360来例示聚类相应的多个对象的机制。（多个）存储元件350被配置成存储指令以运行聚类机制。

基于偏好的聚类框架310通过确定与用于聚类的选择的标准相关联的偏好信息来执行对象的基于偏好的聚类。呈现在UI上的数据集可以包括与数据集相关联的企业方案的对象和相应标准。数据集还包括与标准相应的值。例如，与人力资源管理应用相关联的数据集包括应用的多种对象的排列：雇员A、雇员B、雇员C、雇员D、雇员E、和雇员F；连同标准：雇员表现、雇员专业水平、雇员每周工作时间。数据集包括与标准相应的值：对于雇员表现，满足目标、超越目标以及不满足目标；对于专业水平，初级、中级和熟练；以及对于雇员每周工作时间，每个雇员的工作时间的数目.数据集可以包括与企业方案或应用相关联的这种数据的排列。下面的表1以表格形式示出包括对象、标准和值的示例性数据集。在实施例中，标准表示对象的标准。

	雇员表现	雇员专业水平	雇员每周工作时间
				雇员A	满足目标	初级	40小时
雇员B	满足目标	初级	40小时
				雇员C	超越目标	初级	45小时
雇员D	不满足目标	初级	30小时
				雇员E	超越目标	中级	50小时
雇员F	超越目标	熟练	45小时

表1

表1包括与应用或方案相关联的数据集的表格表示。决策者可以选择基于其来聚类雇员得一个或多个标准。

框架310确定用于聚类对象的标准的选择以及被提供以执行对象的基于偏好的聚类的偏好信息。标准的选择和偏好信息可以由最终用户提供，并且因此随时间经受改变。例如，在第一实例中，决策者可以选择标准“雇员表现”并且提供相应的偏好信息“最高”。基于偏好的聚类框架310基于“雇员表现”的“最高”值来聚类对象。

在每个实例中提供的标准和偏好信息帮助根据最终用户要求来分组和重新分组对象。基于在实例中提供的标准的偏好信息，确定对象之间的关系。基于因此获得的关系，对象被聚类。

可操作标准确定模块315来确定选择的标准以执行对象的聚类。在实施例中，基于可用于呈现的数据集的标准，决策者选择对象基于其被聚类的一个或多个标准。由标准确定模块315确定在UI上接收到的标准的选择。可操作标准确定模块315以识别选择的标准并基于选择的标准呈现被应用于聚类的可用的偏好。可以在UI上呈现可用的偏好，其中决策者以输入的形式提供偏好信息，或选择与可用的偏好相关联的可用的偏好信息。偏好信息确定模块320确定由决策者提供的偏好信息。偏好和/或偏好信息可以包括偏好方向、偏好类型、偏好阈值、偏好实例等等。例如，消费者可以选择三个标准“时间”、“价格”和“质量”；并且指定产品的“时间”和“价格”需要“最低”以及产品的“质量”需要“最高”作为偏好信息。销售代表可以选择相同的标准“价格”并且指定产品的“价格”需要“最高”以产生收入。此外，决策者可以指定如果两个产品之间的价格标准的“差别”“比$10少”，则两个对象被说成“无差别（INDIFFERENT）”。这里,“无差别”表示偏好类型并且$10表示“无差别”阈值。类似的，其他偏好类型包括不可比较、偏好于（preferred to）关系或不偏好于（preferred by）关系。

在实施例中，接收归一化的权重作为偏好信息。在另一实施例中，可以接收无差别阈值作为偏好信息。无差别阈值可以表示最小阈值，在该最小阈值以下的对象之间的表现的差异被认为是不重要的。例如，如果$10是两个对象之间的价格的无差别阈值，则如果差异低于$10在两个对象中间就不存在偏好。例如，如果电视机A价格是$340而电视机B价格是$349，则用户在两个对象之间的选择可能不具有任何偏好，因为两个电视机之间的差价小于无差别阈值。这里，差价($9)被认为是不重要的，因为无差别阈值是$10。

在另一实施例中，偏好阈值表示最大阈值，在该最大阈值之上的对象之间的表现的差异导致对于具有关于标准的高值的对象的强偏好。例如，如果$20是两个对象之间的价格的偏好阈值；则当两个对象之间的差异大于$20时存在对于更便宜的对象的强偏好。例如，如果电视机A价格是$340，而电视机B价格是$365，则用户在两个对象之间的选择时相对于电视机B偏好于电视机A。在另一示例中，如果销售人员的销售佣金取决于电视机的成本，则当向顾客销售电视机时，销售人员可能相对于电视机A偏好于推荐电视机B。

反映决策者的偏好的这种信息可以被称为偏好信息。框架310通过包括由决策者提供的偏好信息以基于在该实例中提供的标准和偏好信息来聚类对象来执行基于偏好的聚类。在实施例中，基于标准和偏好信息来聚类对象的机制包括计算偏好度以便捕获偏好信息；生成表示对象之间的相似性度量的关系矩阵；以及因此聚类对象。基于偏好的聚类框架310捕获由决策者提供的标准和偏好信息，构建偏好度，生成包括基于偏好的相似性度量的关系矩阵并且聚类对象。

偏好度计算单元325基于由决策者提供的偏好信息将对象相互比较。偏好度对应于第一对象相对于第二对象的偏好。通常该偏好度的值存在于零(0)和一(1)之间，其中值“零”指示两个相应的对象无差别；并且值“一”指示当与其他对象相比时一个对象存在强偏好。出现在零和一之间的值可以指示两个相应的对象包括无差别、不可比较、偏好于或不偏好于关系中的任何一个。

无差别关系可以表示两个无差别对象之间的关系，并且因此人们无法在这种无差别对象之间产生偏好。例如，两个无差别对象包括雇员A和雇员B。不可比较的关系可以表示具有一些优点和缺点的两个对象之间的关系，但是两个对象都缺乏可比较的特征或特性或标准；并且因此可能无法获得这种不可比较的对象之间的偏好。例如，两个不可比较的对象包括母亲和父亲。偏好的关系可以表示共同具有一些因素的两个对象之间的关系。例如，在偏好关系中的两个对象包括蓝色汽车和红色汽车。相对于红色汽车，人员A可能偏好于蓝色汽车。相对于红色汽车，人员B可能不偏好于蓝色汽车，换句话说，相对于蓝色汽车，用户偏好于红色汽车。因此，偏好关系包括偏好于关系和不偏好于关系。

在实施例中，偏好度是不对称的，从而引起非对称关系。当比较两个对象时该非对称关系发展出三个不同的情境。考虑数据集A，具有两个对象i和j。对象“i”相比于对象“j”的偏好度π产生三个不同的情境，即：

π_ij≈π_ji≈0-------------------------------------------情境(1)

其中，π_ij表示对象“i”相对于对象“j”的偏好度；π_ji表示对象“j”相对于对象“i”的偏好度；并且值“0”表示对于对象“i”和对象“j”之间的偏好度的空值，代表对象“i”和对象“j”是无差别的。因此，一个对象相对于其他对象的偏好是零(0)。

π_ij≈π_ji≈0.5----------------------------------------情境(2)

其中，π_ij表示对象“i”相对于对象“j”的偏好度；π_ji表示对象“j”相对于对象“i”的偏好度；并且值“0.5”表示对象“i”和对象“j”之间的50%偏好，代表对象“i”和对象“j”两者都具有好特性或标准以及弱特性或标准。因此对象是不可比较的。

π_ij>>π_ji-----------------------------------------------情境(3)

其中，π_ij表示对象“i”相对于对象“j”的偏好度；π_ji表示对象“j”相对于对象“i”的偏好度。不等号，例如情境(3）中的“>>”，代表偏好度π_ij必须高于π_ji。在情境(3)中，对象“i”的偏好度大于对象“j”的偏好度，代表相对于“j”偏好于对象“i”。在以上情况中，偏好于对象“i”而不偏好于对象“j”。在实施例中，如果相对于对象“j”不偏好于对象“i”，则偏好被称为“不偏好于”。

为了导出用于三个情境中的每一个的等式，基于偏好度考虑两个对象之间的关系。基于以上三个情景，考虑“λ”为阈值，并且“λ”的值在0<λ<0.5之间变化。两个对象a_i和a_j之间的关系“P”可以导出为：

P_I:a_iP_Ia_j=|π_ij-π_ji|<λ并且π_ij<λ---------等式(1)

其中，P_I表示对象a_i和a_j之间的无差异关系；π_ij和π_ji之间的差异的绝对值小于λ；并且π_ij单独地小于λ。

P_J:a_iP_Ja_j=|π_ij-π_ji|<λ并且π_ij>λ---------等式(2)

其中，P_J表示对象a_i和a_j之间的不可比较的关系；π_ij和π_ji之间的差异的绝对值小于λ；并且π_ij单独地大于λ。

P_{P^{+}} : a_{i} P_{P^{+}} a_{j} &DoubleLeftRightArrow; | π_{ij} - π_{ji} | > λ

并且π_ij>λ----等式(3a)

其中，表示对象a_i和a_j之间的偏好于关系；π_ij和π_ji之间的差异的绝对值大于λ；并且π_ij单独地大于λ。

P_{P^{-}} : a_{i} P_{P^{-}} a_{j} &DoubleLeftRightArrow; | π_{ji} - π_{ij} | > λ

并且π_ji>λ----等式(3b)

其中，表示对象a_i和a_j之间的不偏好于关系；π_ij和π_ji之间的差异的绝对值大于λ；并且π_ji单独地大于λ。以上偏好度的计算的方式仅用于例示。然而，相关领域技术人员将清楚，偏好度的计算可以以各种其他方法实现。

可以定义多个这种关系以计算对象之间的偏好度。在实施例中，如下计算全体偏好度：考虑用于评价与数据集相关联的对象的标准F={f₁,f₂,f₃…f_q}的集合。用于选择的标准的将被接收的偏好信息包括：每个标准的归一化的权重“w_i”；反映阈值的无差别阈值“q_i”，对象之间的表现的差异在该阈值之下被认为是不重要的；反映阈值的偏好阈值“p_i”，对象之间的表现的差异在该阈值之上导致偏好于对于相应标准具有最高值的对象。基于阈值，计算单一标准偏好度单一标准偏好度反映基于标准f_k相对于对象a_j偏好于对象a_i的强度。是包括在0和1之间的数字；并且可以是对象的评价之间的差异的函数，表示为f_k(a_i)-f_k(a_j)。这里，偏好度可以描述为与评价之间的差异直接成比例的差异(例如，差异越高，单一标准偏好度越强)。单一标准偏好度被导出为：

-------等式(4)

其中，q表示无差别阈值，并且p表示偏好阈值。

当计算选择的每个标准的单一标准偏好度时，全部单一标准偏好度合计到全体偏好度中，代表对象a_i和对象a_j之间的全体比较。全体偏好度导出为：

π (a_{i}, a_{j}) = π_{ji} = Σ_{k = 1}^{q} w_{j} * P_{ij}^{k}

-------等式(5)

偏好度计算模块325计算用于选择的全部标准的单一标准偏好度，并且将单一标准偏好度合计到全体偏好度中。

当确定偏好比较时，相似性度量计算模块335设置相似性度量以便简化（streamline）计算值，并且捕获对象之间的关系的全体行为。在实施例中，模块335考虑将偏好于和不偏好于关系与无差别和不可比较关系相比较。考虑偏好于和不偏好于，无差别和不可比较关系，相似性度量计算为：

S (a, b) = \frac{Σ_{1}^{4} | {P_{i}}^{a} \cap {P_{i}}^{b} |}{| A |}

-------等式(5)

其中，用于关系P_I、P_J、和例如，考虑和的交集，结果包括偏好于a和b的全部元素。考虑偏好于a的元素与偏好于b的元素的交集。如果两个对象相同，则全部元素的全部关系将类似并且因此|P_i ^a∩P_i ^b|的和将等于|A|。在等式(5）中代替等同的对象，相似性度量是S(a,b)=1。

关系矩阵生成模块330生成由相似性度量引起的排列。在实施例中，关系矩阵生成模块330基于计算的偏好度生成关系矩阵。在另一实施例中，关系矩阵生成模块330基于相似性图案生成关系矩阵，该相似性图案是根据计算全部对象的相似性度量的结果安排（orchestrate）的。为了生成关系矩阵，确定与偏好信息相关联的偏好类型。与偏好信息相关联的偏好类型表示对象之间的各种关系，包括无差别、不可比较、偏好于、和不偏好于关系。基于对象之间的计算的偏好度，确定相应的偏好类型关系。偏好类型关系根据任何两个对象之间的实际关系来描述关系。向关系映射赋予指示相应对象之间的偏好类型关系的标识符。标识符可以包括与对象相关联的值。在实施例中，关系矩阵生成模块330对于选择的标准计算对象之间的偏好阈值。在另一实施例中，关系矩阵生成模块330基于与对象相关联的全部标准计算对象之间的偏好阈值。基于相应的偏好信息，以及计算的偏好度，在全部对象之间确定偏好关系。基于偏好阈值和偏好关系计算全部对象之间的相似性度量。

在实施例中，相似性度量计算模块335通过检查相关联的偏好信息来确定与偏好于关系相应的对象和与不偏好于关系相应的对象。偏好于和不偏好于关系与其他偏好类型关系比较以计算每个对象之间的相似性关系度量值。基于每个对象之间的计算的关系度量值，模块335生成包括与数据集相关联的多个对象的相似性度量的相似性图案。相似性图案中的每个对象之间的值指示相应对象之间的关系的强度。

在另一实施例中，模块335生成包括多个节点以及多条边的相似性图案，该多个节点表示与数据集相关联的对象，该多条边表示偏好类型关系。向边赋予与关系矩阵相关联的值。相似性图案中的值指示两个对象之间的关系的强度。

基于偏好的聚类模块340应用聚类机制以确定与稠密连接相关联的节点的子集以及与稀疏连接相关联的节点的子集。基于聚类机制计算边的介数（betweenness）。在实施例中，介数表示从全部节点到全部其他节点的通过特定边的最短路径的数目。根据实施例，表示介数的等式可以导出为：

BC (e) = Σ_{S &NotEqual; t &Element; V} \frac{σ_{st} (e)}{σ_{st}}

-------等式(6)

其中，σ_st是从节点s到节点t的最短路径的总数目并且σ_st(e)是通过边e的最短路径的数目。

在实施例中，计算在网络中的全部现有边的介数并且从全部边的介数的列表中除去具有最高介数的边。重新计算受到除去影响的全部边的介数。迭代地执行计算和重新计算介数的过程直到除去具有最高介数的全部边。在实施例中，当除去最高介数时考虑介数阈值。基于确定介数的机制，对象被聚类，并且通过UI组件305在UI上呈现聚类的对象的可视化。

在实施例中，Girvan Newman的算法应用于确定聚类对象。在另一实施例中，提供聚类常数“K”作为介数阈值。基于K的值，计算网络中的现有边的介数以聚类对象。聚类的对象的可视化呈现在UI上。在实施例中，聚类的对象的可视化包括将对象的聚类表示为图形表示、符号表示、谱表示、彩色表示、轮廓表示等等。然而，相关领域技术人员将清楚，对象的聚类可以以各种其他方法实现。

图4是示出根据实施例的、包括用于聚类的多个对象的数据集的表。数据集405包括五个对象(435、440、445、450和455)以及五个标准(410、415、420、425和430)。为了聚类五个对象，两个标准价格415和环境420的选择被接收并且识别为选择的标准460。对于选择的标准，偏好信息465被接收，指示环境偏好是最高，其中无差别阈值是1，并且偏好阈值是2；以及价格偏好是最高，其中无差别阈值是5、并且偏好阈值是10。

无差别阈值指示根据情境(1)和等式(1)，如果对象的值中的差异对于环境小于1并且对于价格小于5，则两个对象之间的关系无差别。类似地，偏好阈值指示根据情境(3)和等式(3)，如果对象的值中的差异对于环境大于2并且对于价格大于10，则建立两个对象之间的偏好。

图5A-图5C是示出根据实施例的偏好度的表，该偏好度被生成以聚类与数据集相关联的多个对象。参照图5A，表505表示对于第一单一标准环境510计算的单一标准偏好度的值的集合。表515表示基于图4中提供的无差别阈值的、全部对象之间的比较，并且表520表示基于图4中提供的偏好阈值的、全部对象之间的比较。

例如，基于用于环境的无差别阈值1，当根据等式（1）饭店A的值与饭店B的值相比时，值的差异是“1”，其等于偏好信息中提供的无差别阈值。因此，A与B无差别。从而，表515的值列中的条目是“0”指示偏好是“0”(因为他们无差别)。

在另一示例中，当根据等式(1)饭店的值与饭店E的值相比时，值的差异是“2”，其大于偏好信息中提供的无差别阈值。此外，饭店A和饭店E之间的无差别阈值等于偏好阈值。这暗示存在对于两个饭店中的一个的偏好。因此，偏好于A或者偏好于B。从而，表520的相应值列中的条目是“0”其指示偏好是“0”。类似地，因为无差别阈值高于或等于偏好阈值，所以饭店B相对于饭店A的偏好等于“1”。这里，表520的相应值列中的条目是“1”，其指示偏好是“1”。

当确定偏好阈值比较值和无差别阈值比较值时，利用相应条目填充表505。

参照图5B，表525表示对于第二单一标准价格530计算的单一标准偏好度的值的集合。表535表示基于图4中提供的无差别阈值的、全部对象之间的比较，并且表540表示基于图4中提供的偏好阈值的、全部对象之间的比较。当确定偏好阈值比较值和无差别阈值比较值时，利用相应条目填充表530。

参照图5C，表550表示基于选择的标准价格和环境以及图4中提供的偏好信息的合计的全体偏好度计算。

图6是示出根据实施例的关系矩阵的表，该关系矩阵被生成以聚类与数据集相关联的多个对象。表605表示基于图5C中的全体偏好度计算的、基于对象之间的关系生成的关系矩阵。例如，当对象与它自己比较时，例如饭店A与饭店A比较，不能确定偏好。因此，关系矩阵中的条目是I，代表无差异关系。当饭店A与饭店B比较时，基于偏好度和偏好信息，相对于饭店A偏好于饭店B，因为B的价格高于A的价格(考虑价格标准为最高)，并且当B与A相比时，A与B之间的偏好度计算将单独得出偏好于B。因此，关系矩阵中的条目是P^-，代表不偏好于关系。当饭店A与饭店E比较时，基于偏好度和偏好信息，相对于饭店E偏好于饭店A。因此，关系矩阵中的条目是P⁺，代表偏好于关系。

图7是示出根据实施例的个体相似性度量的表，该个体相似性度量被生成以聚类与数据集相关联的多个对象。表705表示与数据集相关联的相似性度量之间的比较。相似性度量计算710包括饭店A基于关系和其余的饭店715之间的相似性度量比较；饭店B基于关系和其余的饭店720之间的相似性度量比较；饭店C基于关系和其余的饭店725之间的相似性度量比较；饭店D基于关系和其余的饭店730之间的相似性度量比较；以及饭店E基于关系和其余的饭店735之间的相似性度量比较。根据表705，饭店A和饭店B公共具有五个对象中的两个；因此，相似性度量是40%或0.4。饭店B和饭店C公共具有五个元素中的四个；因此相似性度量是80%或0.8。如图8中所示计算和制表全部对象之间的用于比较的相似性度量。

图8是示出根据实施例的相似性度量的表，该相似性度量被生成以聚类与数据集相关联的多个对象。当制表相似性度量时，聚类机制应用于制表，以确定与稠密连接相关联的节点的子集和与稀疏连接相关联的节点的子集。基于聚类机制计算边的介数。在实施例中，介数表示从全部节点到通过特定边的全部其他节点的最短路径的数目。

图9A和图9B是示出根据实施例的、聚类与数据集相关联的多个对象的框图。图9A示出基于聚类机制计算的边的介数。边915、920、925、930、935和940表示两个节点之间的相应关系。从全部节点到全部其他节点的通过相应边915、920、925、930、935和940的路径的“数目”由在连接边的线上的数字表示。例如，连接边920和925的线具有四(4)个路径。图9B示出聚类与相应数据集相关联的多个对象的基于网络的聚类950的可视化。基于如图9A中示出的边的介数，对象被聚类到两个簇955和960中，并且在用户界面上呈现两个簇955和960中的聚类的对象的可视化。

一些实施例可以包括被编写为一个或多个软件组件的上述方法。这些组件、以及与每个组件相关联的功能，可以被客户端、服务器、分布式或对等计算机***所使用。这些组件可以以计算机语言来编写，所述计算机语言对应于一种或多种编程语言，如功能性语言、说明性语言、过程式语言、面向对象的语言、低层语言，等等。它们可以经由各种应用编程接口链接到其他组件，然后被编译成用于服务器或客户端的一个完整的应用。可替换地，可以在服务器和客户端应用中实施组件。此外，这些组件可以经由各种分布式编程协议链接到一起。一些示例实施例可以包括远程过程调用，远程过程调用用于跨越分布式编程环境来实施这些组件中的一个或多个。例如，逻辑层可以驻留在第一计算机***上，该第一计算机***与包含接口层（例如，图形用户接口）的第二计算机***相距甚远。这些第一和第二计算机***可以以服务器-客户端、对等或其他一些配置方式配置。客户端的复杂度可以在从移动和手持设备、到瘦客户端、直到厚客户端甚至其他服务器的范围变化。

以上举例说明的软件组件作为指令有形地存储在计算机可读存储介质上。术语“计算机可读存储介质”应被理解为包括存储一个或多个指令集的单个介质或者多个介质。术语“计算机可读存储介质”应当被理解为包括任何这样的物理产品：该物理产品能够进行一组物理变化以物理地存储、编码或以其他方式承载指令集，该指令集供计算机***运行，导致计算机***执行这里描述、表示或举例说明的方法或过程步骤中的任何一个。计算机可读存储介质可以是非瞬时的计算机可读存储介质。非瞬时的计算机可读存储介质的例子包括但不局限于：磁介质，如硬盘、软盘和磁带；光学介质，如CD-ROM、DVD和全息照相设备；磁光介质；以及专门被配置成存储和运行的硬件设备，如专用集成电路（“ASIC”）、可编程逻辑器件（“PLD”）和ROM以及RAM器件。计算机可读指令的例子包括机器码，如由编译器产生的机器码，以及由计算机使用解释器运行的包含高层代码的文件。例如，实施例可以使用Java、C++或其他面向对象的编程语言和开发工具来实现。另一个实施例可以以硬连线电路取代机器可读软件指令，或者以硬连线电路结合机器可读软件指令来实现。

图10是的根据实施例的示例性计算机***1000的框图。计算机***1000包括处理器1005，处理器1005运行存储在计算机可读存储介质1055上的软件指令或代码，以执行本发明的上述方法。处理器1005可以包括多个核。计算机***1000包括介质读取器1040，以从计算机可读存储介质1055读取指令，并在存储器1010或随机存取存储器（RAM）1015中存储该指令。存储器1010提供用于保存静态数据的较大空间，在存储器1010中可以存储至少一些指令以供以后运行。根据一些实施例，诸如一些非存储器计算***实施例，RAM1015可以具有足够存储容量以存储在RAM1015而不是在存储器1010中的处理中所需的大部分数据。在一些实施例中，处理所需的全部数据可以存储在RAM1015中。还可以编译所存储的指令，以生成指令的其他表示，并且可以动态地存储在RAM1015中。处理器1005从RAM1015读取指令并按照指令执行动作。根据一个实施例，计算机***900还包括输出设备1025（例如，显示器），以向用户提供至少一些运行结果作为输出，所述结果包括但不限于可视信息，计算机***900还包括输入设备1030，用以向用户或另一个设备提供用于录入数据和/或与计算机***1000交互的手段。这些输出设备1025和输入设备1030中的每一个可以与一个或多个附加的***设备结合，以进一步扩展计算机***1000的能力。可以提供网络通信器（communicator）1035以将计算机***1000连接到网络1050，进而例如，依次连接到包括其他客户端、服务器、数据存储器和接口的网络1050。计算机***1000的模块经由总线1045相互连接。计算机***1000包括数据源接口1020，用以访问数据源1060。数据源1160可以经由以硬件或软件实现的一个或多个抽象层来访问。例如，数据源1060可以通过网络1050进行访问。在一些实施例中，数据源1060可以经由诸如语义层的抽象层来访问。

数据源是信息资源。数据源包括能够进行数据存储和检索的数据的源。数据源可以包括数据库，诸如，关系数据库、事务数据库、层次数据库、多维（例如，OLAP）数据库、面向对象的数据库，等等。此外，数据源包括表列数据（例如，电子数据表、分隔文本文件）、以标记语言标记的数据（例如，XML数据）、事务数据、非结构化数据（例如，文本文件、屏幕抓取）、层次数据（例如，文件***中的数据、XML数据）、文件、多个报表、以及任何其他可通过已建立的协议访问的数据源，所述已建立的协议，诸如，开放式数据库连接性（ODBC）、由下层软件***（例如，ERP***）产生的协议等等。数据源还可以包括这样的数据源：其中，数据不是有形地存储，而是短暂的，如数据流、广播数据，等等。这些数据源可以包括关联数据基础、语义层、管理***、安全***等等。

在以上描述中，给出了许多细节，以便提供对实施例的彻底理解。然而，相关领域技术人员将清楚，可以没有一个或多个细节、或利用其他方法、组件、材料等等实现实施例。在其他实例中，未示出或详细描述公知的操作或结构。

尽管此处示出或描述的过程包括一系列步骤，但将会理解到，不同实施例不局限于所示出的步骤顺序，因为除了示出和描述的顺序外，一些步骤可以以不同的顺序出现，一些可以与其他步骤并行出现。此外，为了实现根据一个或多个实施例的方法，不需要示出的所有步骤。此外，将会理解到，过程可以结合此处示出和描述的装置和***来实现，以及结合未示出的其他***来实现。

以上对实施例的描述和例示，包括摘要中描述的内容，并非意图穷举一个或多个实施例或将一个或多个实施例限制为已公开的精确形式。尽管在这里为了说明性的目的描述了特定实施例和例子，但本领域技术人员将认识到，各种等效修改都可以在特定实施例和示例的范围之内。可以在上述详细描述的启示下进行这些修改。然而，范围将由权利要求确定，权利要求将根据已有的权利要求解释原则来进行解释。

Claims

1.一种用于聚类与数据集相关联的多个对象的计算机实现的方法，包括：

接收一个或多个标准的选择以聚类与数据集相关联的对象；

对于选择的标准，接收偏好信息以执行对象的基于偏好的聚类；

基于接收到的偏好信息，计算与选择的一个或多个标准相对应的对象之间的偏好度；

基于偏好度，生成表示与数据集相关联的对象之间的相似性度量的关系矩阵；以及

根据关系矩阵聚类与数据集相关联的对象。

2.如权利要求1所述的计算机实现的方法，还包括：生成用于聚类与数据集相关联的对象的框架。

3.如权利要求1所述的计算机实现的方法，其中接收偏好信息包括：

接收用于选择的标准的归一化的权重；

接收无差别阈值；以及

接收偏好。

4.如权利要求1所述的计算机实现的方法，其中计算偏好度包括：

对于选择的一个或多个标准中的每一个，计算相应的单一标准偏好度；以及

合计与多个选择的标准相关联的多个单一标准偏好度。

5.如权利要求4所述的计算机实现的方法，其中单一标准偏好度表示与数据集相关联的两个或更多对象之间的偏好阈值的强度。

6.如权利要求4所述的计算机实现的方法，其中合计的多个单一标准偏好度表示与数据集相关联的对象之间的全体偏好阈值。

7.如权利要求1所述的计算机实现的方法，其中生成关系矩阵包括：

确定与偏好信息相关联的偏好类型；

检查对象之间的偏好度，以确定相应的偏好类型关系；以及

向关系矩阵赋予与偏好类型相对应的对象之间的偏好类型关系标识符。

8.如权利要求1所述的计算机实现的方法，还包括：通过如下步骤计算相似性度量：

通过检查偏好信息确定与偏好于关系和不偏好于关系相对应的对象；

将偏好于关系和不偏好于关系与一个或多个偏好类型关系比较以计算对象之间的关系度量值；以及

基于计算的每个对象之间的关系度量值，生成包括与数据集相关联的多个对象的相似性度量的相似性图案。

9.如权利要求1所述的计算机实现方法，还包括：

生成包括多个节点以及多条边的相似性图案，所述多个节点表示与数据集相关联的对象，所述多条边表示偏好类型关系；

向一条或多条边赋予与关系矩阵相关联的一个或多个值；以及

应用聚类机制以确定与稠密连接相关联的节点的一个或多个子集以及与稀疏连接相关联的节点的一个或多个子集。

10.如权利要求9所述的计算机实现的方法，其中应用聚类机制包括：

计算偏好网络中的多条边中的每一条边的介数；

从多条边的介数的列表除去具有高于介数阈值的介数的一条或多条边；以及

重新计算多条边中的每一条剩余边的介数。

11.一种聚类与数据集相关联的多个对象的计算机***，包括：

处理器，被配置成读取并运行存储在一个或多个存储元件中的指令；以及

所述一个或多个存储元件存储相关于如下步骤的指令：

从计算机生成的用户界面接收一个或多个标准的选择以聚类与数据集相关联的对象；

对于选择的标准，从计算机生成的用户界面接收偏好信息以执行对象的基于偏好的聚类；

基于接收到的偏好信息，计算与选择的标准相对应的对象之间的偏好度；

根据关系矩阵来聚类与数据集相关联的对象。

12.如权利要求11所述的计算机***，其中生成关系矩阵包括：

确定与偏好信息相关联的偏好类型；

检查对象之间的偏好度，以确定相应的偏好类型关系；以及

13.如权利要求11所述的计算机***，还包括与通过如下步骤计算相似性度量相关的指令：

14.如权利要求11所述的计算机***，还包括与如下步骤相关的指令：

15.如权利要求14所述的计算机***，其中应用聚类机制包括：

计算偏好网络中的多条边中的每一条边的介数；

重新计算多条边中的每一条剩余边的介数。

16.一种包括用于有形地存储指令的非瞬时计算机可读存储介质的制品，当所述指令由计算机运行时导致计算机进行如下步骤：

接收一个或多个标准的选择以聚类与数据集相关联的对象；

根据关系矩阵来聚类与数据集相关联的对象。

17.如权利要求16所述的制品，其中生成关系矩阵包括：

确定与偏好信息相关联的偏好类型；

检查对象之间的偏好度，以确定相应的偏好类型关系；以及

18.如权利要求16所述的制品，还导致计算机通过如下步骤计算相似性度量：

19.如权利要求16所述的制品，还导致计算机：

20.如权利要求19所述的制品，其中应用聚类机制包括：

计算偏好网络中的多条边中的每一条边的介数；

重新计算受到除去边影响的边的介数。