CN104820719A

CN104820719A - 基于用户上下文数据的Web服务信誉度度量方法

Info

Publication number: CN104820719A
Application number: CN201510272074.5A
Authority: CN
Inventors: 孙其博; 李威; 王尚广; 李静林
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2015-05-25
Filing date: 2015-05-25
Publication date: 2015-08-05

Abstract

一种基于用户上下文数据的Web服务信誉度度量方法，先采集用户访问Web服务时该用户的上下文数据，并利用归一化方式对该用户以向量表示的上下文数据进行预处理，再利用k-means方法对该用户的预处理后的上下文数据进行聚类，以便用不同类别分别表示不同用户的上下文数据；然后，根据用户反馈等级和聚类后的用户上下文数据计算不同类别的用户上下文数据对反馈等级的影响，将不同类别的用户上下文数据的反馈等级转换为统一的参考级别，以弱化不同类别用户上下文数据对反馈等级的影响；最后，根据转换后的反馈等级计算用户相似度，并以此获得参考用户的上下文数据类别对应的服务信誉度，最终转化为其他用户上下文数据类别对应的服务信誉度。

Description

基于用户上下文数据的Web服务信誉度度量方法

技术领域

本发明涉及一种基于用户上下文的Web服务信誉度度量方法，属于计算机应用的技术领域。

背景技术

面向服务的体系结构SOA(Service-Oriented Architecture)是一个组件模型，它将应用程序的不同功能单元(又称为服务)通过这些服务之间定义良好的接口和契约联系起来。SOA技术的存在已超过20年，但是，一直未得到广泛应用。随着Web服务的出现，已逐渐被人们接纳，SOA终于迎来了自己的“春天”。

在开放的SOA环境中，由于受很多因素的影响，用户不能同时保证服务提供者发布的服务QoS信息是客观的、可靠的和真实的。因此，有效地衡量服务提供者发布服务的QoS的真实性、可信性，对于服务选择是非常重要的。信誉度正是对QoS真实性、可信性进行衡量的一个重要因素。信誉度一般是根据大量用户在使用某项服务后所给出的反馈等级，计算评估出一个与服务信誉相关的值。它代表了一个Web服务的真实、可信程度。因此，服务提供者提供某种功能服务时，不仅要满足传统QoS要求，也要同时满足消费者对于信誉度的需求。Web服务信誉度对于服务选择等有着重要意义。准确的服务信誉度度量方法，一方面有利于服务请求者(服务消费者/用户)能够选择信誉好的服务提供者，从而获得安全、可靠的服务；另一方面，也有利于服务提供者通过度量得到的信誉度来提升自身的服务，从而吸引更多的服务请求者，形成Web服务健康而又稳定的发展和服务的局面。因此，Web服务信誉度度量已经成为研究热点。

国外现有技术情况是：文献《A trust management framework forservice-oriented environments》(刊于In:Proc.of the 18th Int’l Conf.on World WideWeb“WWW 2009”2009.289-302.[doi:10.1145/1526709.1526829])提出了一个面向开放分布式服务环境的基于信誉度的服务可信管理框架，其核心是可信服务管理，不仅支持多种不同实体的信任关系，同时还支持每个实体采用不同的信誉度评分函数对同样的反馈数据进行评估。该框架的一个显著优点是支持多种信誉度评估方法，具有较高的实用价值。

文献《A class of hierarchical fuzzy systems with constraints on the fuzzyrules[J].》(刊于“Fuzzy Systems,IEEE Transactions”on，2005，13(2)，194-203)综合考虑了服务QoS和用户相似度两种角度，对Web服务信誉度进行度量。该文在传统Web服务模型的基础上进行了扩展，添加服务检测中心。提出了基于用户主观和客观评价相结合的角度。将从服务检测中心得到的QoS数据与发布的值进行对比来更新QoS。然后通过用户的相似度，基于相似用户对服务推荐等。

国内现有技术情况是：北京大学的梅宏等人提出了一种有效地考虑用户反馈等级的真实性和准确性的信誉度度量方法。该方法通过统计的方法，用统计量足够的用户反馈数据作为标准值，根据标准值来修正其他反馈数据，以有效地修正恶意反馈，从而获得更为可信的信誉度评估环境。

华中科技大学的徐兰芳等人针对传统分析方法中存在恶意客户的虚假推荐，提出了以灰色***理论为基础、以灰色聚类评估算法为主要内容的信誉报告机制方案。该方案克服了传统分析中每个用户的评级权视为相等的做法，能够使数据更为客观，具有评估可靠、可操作性强等优点。

北京邮电大学的王尚广等人提出了一种用于QoS感知Web服务选择中信誉度的评估方法。该方法的主要思想是，通过反馈核查、校正和检测这三个信誉度评估模块应对来自用户的混乱、偏好和恶意三种反馈对信誉度评估客观性和准确性的影响。所提出的方法有效提高了信誉度评估的客观性，还显著减小了服务选择的偏离度。

综上所述，尽管已有的Web服务信誉度度量方法能够有效地提高服务信誉度度量的准确性，但其大都存在以下缺点：(1)上述方法将所有用户都视为同一权重，即认为所有有效的反馈用户影响因子相同，而这点很显然是不准确的。(2)上述方法忽略了用户使用服务时所处环境，以及所用设备造成的影响，即忽略了用户上下文这个影响因素，没有对不同环境下的反馈数据区分对待。这些问题都导致了方法存在一定程度上的不准确性。

因此，如何有效地考虑用户上下文对用户反馈等级造成的影响并对影响加以弱化，以更准确的度量服务信誉度，成为业内科技人员关注的新课题，并对其进行了大量的探索与研究。

发明内容

有鉴于此，本发明的目的是提供一种基于用户上下文数据的Web服务信誉度度量方法，本发明方法能够在移动环境中，用户上下文数据对服务QoS影响较大的情况下进行Web服务信誉度的准确度量，该方法是先对用户使用服务时所在的用户上下文数据信息进行预处理，以便对用户上下文数据进行分类，根据大量的用户反馈等级数据以及对应的用户上下文数据分类，推理出不同用户上下文数据类别对反馈等级造成的影响，进而弱化用户上下文数据对反馈等级造成的影响，根据弱化用户上下文影响后的反馈等级，准确度量服务信誉度。

为了达到上述发明目的，本发明提供了一种基于用户上下文数据的Web服务信誉度度量方法，其特征在于：首先采集用户访问Web服务时的该用户的上下文数据，并利用归一化方式对该用户以向量表示的上下文数据进行预处理，再利用k-means方法对该用户的这些预处理后的上下文数据进行聚类，以便用不同类别分别表示不同用户的上下文数据；然后，根据用户反馈等级和聚类后的用户上下文数据计算不同类别的用户上下文数据对反馈等级造成的影响，将不同类别的用户上下文数据的反馈等级转换为统一的参考级别，以弱化不同类别用户上下文数据对反馈等级的影响；最后，根据转换后的反馈等级计算用户相似度，并以此获得参考用户的上下文数据类别对应的服务信誉度，最终转化为其他用户上下文数据类别对应的服务信誉度；所述方法包括下列操作步骤：

步骤1，对采集到的用户访问Web服务时的上下文数据执行预处理：因为对用户上下文数据产生影响的因素有多个，至少包括CPU、内存、屏幕尺寸和网络带宽四个因素，且不同因素的物理涵义、取值范围和计量单位又各不相同，故先选取其中影响大的因素，并对该影响大的各个因素进行归一化处理，再将归一化后的各个因素统一采用向量表示，作为归一化后的用户上下文数据；然后用k-means方法对归一化后的用户上下文数据进行聚类，以便能够根据用户上下文数据将用户反馈等级归分为不同类别；

步骤2，计算不同类别的用户上下文数据对反馈等级的影响：根据聚类后的用户上下文数据及其相应的反馈等级，为每个用户分别计算不同类别用户上下文数据对其反馈等级造成的影响，也就是求解每个用户在访问同一服务时，在不同类别用户上下文数据环境下，将不同类别的用户上下文数据反馈等级转换为统一的参考级别，使得该用户提交的反馈等级之间的差别实现弱化处理；

步骤3，根据转换后的统一的用户上下文数据参考级别计算用户相似度及其反馈相似度：根据步骤2得到的参考用户上下文数据类别的反馈等级，采用基于用户的协同过滤方法计算两个用户在其访问过的Web服务上的皮尔逊相关系数PCC(Pearson Correlation Coefficient)，作为该两个用户间的用户相似度；然后选取相似度较高的用户组成集合，再求解各个用户之间的反馈等级相似度；

步骤4，根据步骤2和3分别得到的参考类别用户上下文数据的反馈等级和用户的反馈等级相似度，为用户度量参考类别用户上下文数据对应的服务信誉度，最后根据不同类别用户上下文数据与参考类别用户上下文数据之间的反馈等级差值，将信誉度转化到不同类别用户上下文数据对应的情景。

本发明方法的优点是：通过简单的聚类方法对用户上下文数据进行聚类，再用类别表征多属性的用户上下文数据，从而较好地解决了属性多、范围意义不同的用户上下文数据的表述问题。然后通过求解不同类别用户上下文数据对反馈等级造成的影响，以实现反馈等级在不同用户上下文数据类别之间的转换，增加了反馈等级的数据利用率。再根据用户相似性为不同用户分配不同权重，有效地提高了信誉度度量的准确性，更好地引入了用户彼此之间的喜好及评分相似性。因此，本发明方法的优点是：适用性强，能够用于各种类型移动网络、融合网络等复杂的网络环境下Web服务信誉度的度量。最重要的是，本发明方法的处理方式简单易行，容易实现，计算复杂度低。因此，本发明具有较高的计算准确性和较强的实用性，具有很好的推广应用价值。

附图说明

图1是本发明基于用户上下文数据的Web服务信誉度度量方法的操作步骤流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

本发明基于用户上下文数据的Web服务信誉度度量方法是首先采集用户访问Web服务时的该用户的上下文数据，并利用归一化方式对该用户以向量表示的上下文数据进行预处理，再利用k-means方法对该用户的这些预处理后的上下文数据进行聚类，以便用不同类别分别表示不同用户的上下文数据；然后，根据用户反馈等级和聚类后的用户上下文数据计算不同类别的用户上下文数据对反馈等级造成的影响，将不同类别的用户上下文数据的反馈等级转换为统一的参考级别，以弱化不同类别用户上下文数据对反馈等级的影响；最后，根据转换后的反馈等级计算用户相似度，并以此获得参考用户的上下文数据类别对应的服务信誉度，最终转化为其他用户上下文数据类别对应的服务信誉度。

参见图1，介绍本发明的具体操作步骤：

步骤1，对采集到的用户访问Web服务时的上下文数据执行预处理：因为对用户上下文数据产生影响的因素有多个，至少包括CPU、内存、屏幕尺寸和网络带宽四个因素，且不同因素的物理涵义、取值范围和计量单位又各不相同，故先选取其中影响大的因素，并对该影响大的各个因素进行归一化处理，再将归一化后的各个因素统一采用向量表示，作为归一化后的用户上下文数据；然后用k-means方法对归一化后的用户上下文数据进行聚类，以便能够根据用户上下文数据将用户反馈等级归分为不同类别。该步骤1包括下述操作内容：

(11)设置所有Web服务组成的集合WS＝{ws₁,ws₂,...,ws_j,...,ws_n}，式中，ws是该WS集合中的Web服务，自然数下标j是Web服务的序号，其最大值n是该WS集合中的Web服务总数；

(12)设置全部用户组成的集合U＝{u₁,u₂,...,u_i,...,u_m}，式中，u是该U集合中的用户，自然数下标i是用户的序号，其最大值m是该U集合中的用户总数；

(13)所述用户上下文数据是指狭义的用户上下文，即用户终端上下文；对其影响大的因素包括CPU、内存、屏幕尺寸和网络带宽性能，将每个用户u_i访问各个Web服务ws_j时对应的用户上下文数据用向量表示为式中，自然数上标w是用户上下文数据属性的序号，其最大值r是用户上下文数据属性的总数，这里共选取四个属性：CPU、内存、屏幕尺寸和网络带宽性能，故r为4，这样就将用户上下文数据表示为

C_{i, j} = (c_{i, j}^{1}, c_{i, j}^{2}, c_{i, j}^{3}, c_{i, j}^{4});

(14)因用户上下文数据的各个属性的取值范围和计量单位各不相同，直接使用C_i,j表示用户上下文数据将会发生差错，故要对用户上下文数据的各个属性分别进行归一化处理，将其中每个因素都转化为设定区间[0,1]上的数值：式中，为用户上下文数据的原始属性，为归一化处理后的数值，和分别是全部用户中的用户上下文数据第w个属性集合中的最小值和最大值；这样归一化后的用户上下文数据就表示为

(15)用k-means聚类方法将归一化后的用户上下文数据归分为低、中、高三个类别，分别对应用户上下文数据由坏到好的三个相应级别，即用户上下文数据的属性性能越好，则其所属类别越高，反之亦然：每个用户u_i在使用三种类别用户上下文数据时访问各个Web服务ws_j后，得到的反馈等级别分别是r_i,j,L、r_i,j,M、r_i,j,H，其中，下标L、M、H分别代表三个等级的用户上下文数据；且该三个等级均分为两部分组成：内在反馈等级rf_i,j和受到用户上下文数据影响的差值rc_i,j；其中，内在反馈等级取决于用户自身对Web服务的反馈，与用户上下文数据无关，因此三个等级的区别都取决于受到用户上下文数据影响的差值rc_i,j；分别将中级和低级两种类别的用户上下文数据对用户u_i反馈等级的影响差值定义为Δ_i,1，高级和中级两种类别的用户上下文数据对用户u_i反馈等级的影响差值定义为Δ_i,2，这样就将每个用户u_i的反馈等级受到不同类别用户上下文数据的影响用向量表示为(Δ_i,1,Δ_i,2)。

步骤2，计算不同类别的用户上下文数据对反馈等级的影响：根据聚类后的用户上下文数据及其相应的反馈等级，为每个用户分别计算不同类别用户上下文数据对其反馈等级造成的影响，也就是求解每个用户在访问同一服务时，在不同类别用户上下文数据环境下，将不同类别的用户上下文数据反馈等级转换为统一的参考级别，使得该用户提交的反馈等级之间的差别实现弱化处理。该步骤2包括下述操作内容：

(21)计算不同类别用户上下文数据对用户反馈等级的影响：分别为每个用户u_i计算(Δ_i,1,Δ_i,2)：

Δ_{i, 1} = \frac{Σ_{{ws}_{j} &Element; {WS}_{i, 1}} (r_{i, j, M} - r_{i, j, L})}{n_{i, 1}}, Δ_{i, 2} = \frac{Σ_{{ws}_{j} &Element; {WS}_{i, 2}} (r_{i, j, H} - r_{i, j, M})}{n_{i, 2}};

式中，WS_i,1表示用户u_i同时使用过中级和低级两种类别用户上下文数据访问的Web服务集合，WS_i,2表示用户u_i同时使用过中级和高级两种类别用户上下文数据访问的Web服务集合，ws_j是集合WS_i,1或WS_i,2中的Web服务，r_i,j,L、r_i,j,M、r_i,j,H分别是每个用户u_i使用低、中、高级三个类别用户上下文数据时对Web服务ws_j的反馈等级，n_i,1、n_i,2分别是集合WS_i,1和WS_i,2中的Web服务的总数；

(22)对不同类别用户上下文数据的影响差值进行弱化处理：根据步骤(21)得到的(Δ_i,1,Δ_i,2)，将每个用户u_i在不同类别用户上下文数据的反馈等级转化到统一的参考类别用户上下文数据中；若选定参考用户上下文数据为中级时，则低级用户上下文数据反馈等级经由转换后表示为r'_i,j,L，且r'_i,j,L＝r_i,j,L+Δ_i,1；高级用户上下文反馈等级经由转换后表示为r'_i,j,H，且r'_i,j,H＝r_i,j,H-Δ_i,2；从而将所有不同类别用户上下文数据对应的反馈等级经过弱化处理后，都转换到统一的参考类别、均对应为中级类别的用户上下文数据时的反馈等级：r'_i,j,L、r_i,j,M、r'_i,j,H。

步骤3，根据转换后的统一的用户上下文数据参考级别计算用户相似度及其反馈相似度：根据步骤2得到的参考用户上下文数据类别的反馈等级，采用基于用户的协同过滤方法计算两个用户在其访问过的Web服务上的皮尔逊相关系数PCC(Pearson Correlation Coefficient)，作为该两个用户间的用户相似度；然后选取相似度较高的用户组成集合，再求解各个用户之间的反馈等级相似度。

这里需要说明的是：用户相似度是不同用户在操作行为之间的相似程度。而各个用户之间的反馈相似度是不同用户对相同的Web服务给出的反馈等级上的相似程度数值，且反馈等级的相似程度数值越大，两者就越相似，反之，则两者越不相似。该步骤3包括下述操作内容：

(31)计算两个不同用户u_a和u_b的相似度时，先寻找该两个用户共同访问过的Web服务集合P＝P_a∩P_b，式中，自然数a和b是两个不同用户的序号，P_a、P_b分别表示为用户u_a和u_b各自访问的Web服务集合时，得到该两个用户在其共同访问过的共|P|个Web服务上的Pearson相关系数：

Sim (a, b) = \frac{Σ_{{ws}_{j} &Element; P} (r_{a, j} - \overset{&OverBar;}{r_{a}}) (r_{b, j} - \overset{&OverBar;}{r_{b}})}{\sqrt{Σ_{{ws}_{j} &Element; P} {(r_{a, j} - \overset{&OverBar;}{r_{a}})}^{2}} \sqrt{Σ_{{ws}_{j} &Element; P} {(r_{b, j} - \overset{&OverBar;}{r_{b}})}^{2}}},

作为该两个不同用户之间的相似度；式中，r_a,j和r_b,j分别是两个用户u_a和u_b对Web服务ws_j的各自评分，和分别是两个用户u_a和u_b对Web服务集合P中服务的各自反馈期望值；式中，r_a,j是根据步骤(22)将用户u_a在三种不同类别用户上下文数据(L、M、H)的反馈等级转换到参考级别(c_r)用户上下文数据后对Web服务ws_j的反馈等级简记为r_a,j。

(32)返回执行步骤(31)，分别求解得到每个用户u_a和所有其他用户之间的用户相似度；

(33)从每个用户u_a和其他用户之间的用户相似度中，选取Top-k个相似用户，即选择用户u_a的相似度数值较大的前k个相似用户组成相似用户集合S(a)：

S (a) = {b | Sim (a, b) &GreaterEqual; {Sim}_{a}^{k}, Sim (a, b) > 0, a &NotEqual; b},

其中，k为自然数，为用户u_a第k个数值较大的相似用户对应的用户相似度；

(34)得到用户u_a的相似用户集合后，根据集合S(a)中该k个用户共同使用过的Web服务集计算每个用户u_a和其他每个用户u_b之间的反馈相似度

FSim (a, b) = \{\begin{matrix} 1 - \sqrt{\frac{\underset{s_{j} &Element; S^{k}}{Σ} {(r_{a, j} - r_{b, j})}^{2}}{10^{2} \cdot l}}, l &NotEqual; 0 \\ 0, l = 0 \end{matrix},

且FSim(a,b)∈[0,1]；式中，l为Web服务集合S^k中的服务总数，r_a,j和r_b,j分别是用户u_a和另一用户u_b对服务s_j的反馈等级。

步骤4，根据步骤2和3分别得到的参考类别用户上下文数据的反馈等级和用户的反馈等级相似度，为用户度量参考类别用户上下文数据对应的服务信誉度，最后根据不同类别用户上下文数据与参考类别用户上下文数据之间的反馈等级差值，将信誉度转化到不同类别用户上下文数据对应的情景。该步骤4包括下述操作内容：

(41)根据步骤(22)中选定的参考用户上下文数据为中级、即c_r为M时，得到的中级类别用户上下文数据的反馈等级即r_a,j,M的基础上，按照公式计算该用户u_a在参考类别用户上下文数据时，得到的Web服务ws_j的信誉度结果式中，c_r为选定的某一参考用户上下文数据的类别，这里选定为中级；S(a)是步骤(33)中计算到的用户u_a的相似用户集合，FSim(a,b)为两个不同用户u_a和u_b的反馈相似度；

(42)根据步骤(41)用户u_a在参考类别用户上下文数据为中级时得到的Web服务ws_j的信誉度和步骤(21)得到的该用户u_a的(Δ_i,1,Δ_i,2)，分别计算该用户在其他类别、即低级和高级两个类别用户上下文数据所对应的Web服务信誉度r_a,j,L＝r_a,j,M-Δ_a,1，r_a,j,H＝r_a,j,M+Δ_a,2，以得到在不同类别用户上下文数据环境下，用户u_a访问Web服务ws_j的信誉度不同的分类度量结果。

本发明已经在Web服务环境下，多终端服务访问采集到的反馈等级数据及用户上下文数据上进行了多次实例试验，试验的结果是成功的，实现了发明目的。

Claims

1.一种基于用户上下文数据的Web服务信誉度度量方法，其特征在于：首先采集用户访问Web服务时的该用户的上下文数据，并利用归一化方式对该用户以向量表示的上下文数据进行预处理，再利用k-means方法对该用户的这些预处理后的上下文数据进行聚类，以便用不同类别分别表示不同用户的上下文数据；然后，根据用户反馈等级和聚类后的用户上下文数据计算不同类别的用户上下文数据对反馈等级造成的影响，将不同类别的用户上下文数据的反馈等级转换为统一的参考级别，以弱化不同类别用户上下文数据对反馈等级的影响；最后，根据转换后的反馈等级计算用户相似度，并以此获得参考用户的上下文数据类别对应的服务信誉度，最终转化为其他用户上下文数据类别对应的服务信誉度；所述方法包括下列操作步骤：

2.根据权利要求1所述的方法，其特征在于：所述步骤1包括下述操作内容：

C_{i, j} = (c_{i, j}^{1}, c_{i, j}^{2}, c_{i, j}^{3}, c_{i, j}^{4});

3.根据权利要求1所述的方法，其特征在于：所述步骤2包括下述操作内容：

Δ_{i, 1} = \frac{Σ_{{ws}_{j} &Element; {WS}_{i, 1}} (r_{i, j, M} - r_{i, j, L})}{n_{i, 1}}, Δ_{i, 2} = \frac{Σ_{{ws}_{j} &Element; {WS}_{i, 2}} (r_{i, j, H} - r_{i, j, M})}{n_{i, 2}};

4.根据权利要求1所述的方法，其特征在于：所述步骤3包括下述操作内容：

Sim (a, b) = \frac{Σ_{{ws}_{j} &Element; P} (r_{a, j} - {\overset{&OverBar;}{r}}_{a}) (r_{b, j} - {\overset{&OverBar;}{r}}_{b})}{\sqrt{Σ_{{ws}_{j} &Element; P} {(r_{a, j} - {\overset{&OverBar;}{r}}_{a})}^{2}} \sqrt{Σ_{{ws}_{j} &Element; P} {(r_{b, j} - {\overset{&OverBar;}{r}}_{b})}^{2}}},

S (a) = {b | Sim (a, b) &GreaterEqual; {Sim}_{a}^{k}, Sim (a, b) > 0, a &NotEqual; b},

FSim (a, b) = \{\begin{matrix} 1 - \sqrt{\frac{\underset{s_{j} &Element; S^{k}}{Σ} {(r_{a, j} - r_{b, j})}^{2}}{10^{2} \cdot l}}, l &NotEqual; 0, \\ 0, l = 0 \end{matrix}

5.根据权利要求4所述的方法，其特征在于：所述反馈相似度是两个不同用户对相同的Web服务给出的反馈等级上的相似程度数值，且反馈等级的相似程度数值越大，两者就越相似，反之，则两者越不相似；而用户相似度是不同用户在操作行为之间的相似程度。

6.根据权利要求1所述的方法，其特征在于：所述步骤4包括下述操作内容：