CN102819575A

CN102819575A - 一种用于Web服务推荐的个性化搜索方法

Info

Publication number: CN102819575A
Application number: CN2012102538842A
Authority: CN
Inventors: 窦万春; 胡蓉
Original assignee: Nanjing University
Current assignee: Jiangsu Huakang Information Technology Co Ltd; Ten Party Health Management (jiangsu) Ltd
Priority date: 2012-07-20
Filing date: 2012-07-20
Publication date: 2012-12-12
Anticipated expiration: 2032-07-20
Also published as: CN102819575B

Abstract

本发明公开了一种用于Web服务推荐的个性化搜索方法，包括以下步骤：步骤1，预处理WSDL文档：通过去除停用词和提取词干两个预处理步骤，形成词袋；步骤2，抽取用户兴趣：使用改进的TF-IDF公式计算词袋中的每一个词的权重，并乘以该词的时间衰减因子，得到新的权重；选择权重由大至小前k个词作为用户的兴趣词，以及每个词的对应权重，组成k维的用户兴趣向量；步骤3，计算兴趣相似度：设定相似度阈值，超过阈值的用户入选为目标用户的邻居用户；步骤4，排序服务检索结果，根据邻居用户的相似度及其选择服务的次数计算服务的推荐预测值，并将检索结果按照推荐预测值降序排列，从而得到个性化搜索结果。

Description

一种用于Web服务推荐的个性化搜索方法

技术领域

本发明涉及一种计算机软件技术领域中网络搜索、推荐，特别是一种用于Web服务推荐的个性化搜索方法。

背景技术

为了不断满足软件***的灵活性、可拓展性、正确性和鲁棒性的需求，软件工程的实践逐步演化出一些方法，使得软件***的构建可以基于已有的软件资源，而非一切从头开发。这些方法成功地加快了软件***的开发速度，提高了生产效率。在方法的技术层面，将软件所实现的功能分解为一些相对简单的可复用功能模块，也为软件工程提供了一种更好的软件管理技术。

当前，被广泛接受的软件复用技术是基于组件的软件工程（Components-BasedSoftware Engineering，CBSE）。面向服务的计算（Service Oriented Computing，SOC）是一种新的基于组件的软件开发范式；SOC的基础设施是面向服务的体系架构（ServiceOriented Architecture，SOA）；Web服务和SOA是SOC的一种实现版本。

作为一种新兴的、面向Internet的分布式计算模式，SOC为构造松耦合、跨组织的集成应用提供了更好的使能技术。面向服务架构通过“发布-查找-绑定”的模式为使用服务资源提供了基本保障。然而，服务使用者与服务提供者相分离，增加了用户理解、得到及使用所需服务的难度。特别是当用户的需求随着应用构造过程的演进而变化时，如何让用户得到合适的服务是一个需要解决的问题。针对该问题，传统服务发现技术主要通过用户主动提供查询请求的方式获取用户的服务需求，或者直接让用户自己在资源集合中按照一定的分类体系手动的查找。当资源集合不断膨胀，手动查找服务的操作将变得繁琐、费时、易错。目前，Web服务搜索技术包括基于UDDI注册中心、通过Web服务网站（如XMethods、RemoteMethods等）、使用通用搜索引擎（如Google、Yahoo等）以及使用专业搜索引擎（如seekda、Merobase等）四种方式。这些搜索方式主要支持关键字检索方式，检索过程中并无用户参与，因而检索结果与用户兴趣无关，更不能随用户兴趣的变化而变化。

与传统搜索技术的思路不同，个性化搜索技术能够对搜索结果中的服务页面进行分析并与用户的兴趣进行比较，帮助用户从中找出更为感兴趣的服务并将之优先呈现在搜索结果列表中，从而提高用户的搜索效率。如在Google个性化搜索中，***允许用户定制自己喜欢的界面风格(包括信息过滤的级别，语言选择以及查询建议定制等)，Google个性化的Subscribed Links允许用户在自己的Google搜索引擎中创建自定义结果，为客户展现业务链接。Yahoo！推出的个性化搜索允许用户根据自己的行为方式搜索兴趣信息，并支持用户针对检索结果的管理和共享。用户可以添加注释，可以根据个体需要对Web网页进行分类和排序等。

个性化推荐技术深度挖掘用户的个性化偏好，采取主动式的信息“推送”方式，自动化地提供满足个性化需求的信息给用户，而不是需要用户自己从海量的Web信息中寻找自己感兴趣的内容，从而提高用户有效信息获取的效率。1992年，第一个推荐***Tapestry诞生，它用于电子邮件的协作过滤并获得了不错的效果。此后，推荐***以其广阔的应用价值，获得了越来越多的关注。1996年，Yahoo将推荐***引入门户网站，添加个性化用户入口MyYahoo，针对不同用户提出了个性化的服务；1997年，AT&T实验室提出了基于协同过滤的个性化推荐***Referral Web和PHOAKS；2001年，IBM公司在其电子商务平台Websphere中增加了个性化推荐***，以便商家开发个性化电子商务网站；类似的产品还有GroupLens、Amazon、Netflix等，应用领域涉及电子邮件过滤、电子商务类网站、新闻主题类网站、搜索引擎、在线DVD租赁网站以及一些web2.0社会化网站等。

个性化搜索大量使用的是个性化推荐中的基本原理，而个性化推荐也需要大量借鉴个性化搜索中的基本技术，两者作为个性化服务中紧密关联而又最为核心的两项技术，能够极大程度上地满足不同用户的差异化信息需求，具有广泛的应用前景。

搜索引擎作为有效的信息检索的工具，能够帮助用户高效、快捷地从海量Web资源中获取到自己需要的内容，从而极大地提高用户获取信息的效率。随着Web服务资源的不断丰富和搜索引擎技术的进一步发展，在用户实际需求的驱动下，个性化搜索方法逐渐成为搜索领域研究的热点。针对Web服务的个性化搜索方法，其核心是根据用户的个性化的兴趣、偏好，对服务检索结果进行“因人而异”的筛选和排序，从而为不同用户提供满足其个性化需求的差异化的检索结果输出。

然而，如何在Web网络资源中找到一种较为客观准确的搜索方法，精确地实施服务推送，满足不同使用主体的需要，是一个难点。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术中搜索不精确时间长的缺陷，提供一种用于Web服务推荐的个性化搜索方法。

为了解决上述技术问题，本发明公开了一种用于Web服务推荐的个性化搜索方法，包括以下步骤：

步骤1，预处理Web服务描述语言WSDL（Web Service Description Language，Web服务描述语言）文档，从用户使用记录中获取其选择过的WSDL文档，通过去除停用词和提取词干两个预处理步骤，形成词袋（bag ofwords）；

步骤2，抽取用户兴趣，使用改进的TF-IDF公式计算词袋中的每一个词的权重，并乘以时间衰减因子，得到新的权重δ_ij；选择新的权重δ_ij由大至小前k个词作为用户的兴趣词，以及每个词的对应权重δ_ij，组成k维的用户兴趣向量；选择前k优的权值，并相应的词一起构成用户兴趣向量。此举有利于减小用户兴趣向量空间的维度并使其维度一致，有利于高效地计算每两个用户之间的兴趣相似度。

步骤3，计算相似度，使用向量夹角余弦公式计算每两个用户之间的余弦距离作为其相似度；设定相似度阈值，超过阈值的用户入选为目标用户的邻居用户；相似度阈值的设定范围是0~1。

步骤4，排序服务检索结果：目标用户提交服务请求，由Web服务搜索引擎检索出所有符合请求的服务；根据邻居用户选择这些服务的次数及其与目标用户的相似度，采用加权平均预测公式计算每个检索结果的推荐预测值；将检索结果按照推荐预测值降序排列，从而得到个性化搜索结果。

本发明中，改进的TF-IDF（Term Frequency-Inverse Document Frequency，文档-反文档频率）公式如下：

tf (t_{ij}) = \frac{freq (t_{ij}, D_{i})}{| D_{i} |},

idf (t_{ij}) = \log \frac{| D |}{| {D_{i} : t_{ij} &Element; D_{i}} |},

ω_ij＝tf(t_ij)*idf²(t_ij)，

其中，t_ij是第i个用户词袋中的第j个词，tf(t_ij)是词t_ij的文档频率，D_i是第i个用户的词袋，freq(t_ij，D_i)是词t_ij在词袋D_i中出现的次数，|D_i|是D_i中词的数目，idf(t_ij)是词t_ij的反文档频率，|D|是语料库中WSDL文档的数目，|{D_i∶t_ij∈D_i}|表示词t_ij在多少个用户的词袋中出现过，ω_ij是词t_ij的权重；

时间衰减因子的计算方法如下：

Decay＝2-e^α*t，

其中，Decay表示时间衰减因子，e是自然对数的底，一般使用数值2.718。α为衰减率，取值范围为[0,0.1]，例如可以设定为0.1。当α取值为0时，Decay=1，表示权值不随时间衰减，α取值越大，衰减越快，t为当前时间与距离用户最近一次选择服务的时间之间的差值。对应于用户兴趣所具有的随时间衰减特征，设计了时间衰减因子。新的权重是原权重的值与时间衰减因子的乘积，对于久未被选择的词，其权重逐渐衰减为0。

每个用户词袋中词t_ij的新权重δ_ij计算公式为：

δ_ij＝ω_ij*Decay。

本发明中，计算相似度公式如下：

sim (u_{a}, u_{b}) = \frac{Σ_{j = 1}^{k} δ_{aj} * δ_{bj}}{\sqrt{Σ_{j = 1}^{k} δ_{aj}^{2}} * \sqrt{Σ_{j = 1}^{k} δ_{bj}^{2}}},

其中，u_a与u_b为两个不同的用户，sim(u_a，u_b)指的是这两个用户之间的相似度，δ_aj和δ_bj分别是用户u_a和用户u_b的词袋中第j个词的权重，k是用户兴趣词的个数。

本发明中，采用加权平均预测公式计算每个检索结果的推荐预测值的公式如下：

P_{u_{t}, s_{t}} = {\overset{&OverBar;}{c}}_{u_{t}} + \frac{Σ_{u_{i} &Element; N} (c_{u_{i}, s_{t}} - {\overset{&OverBar;}{c}}_{u_{i}}) * sim (u_{t}, u_{i})}{\sqrt{Σ_{u_{i} &Element; N} sim {(u_{t}, u_{i})}^{2}}},

其中，u_t是目标用户，s_t是目标服务，即待计算推荐预测值的服务，

是目标用户u_t对目标服务s_t的推荐预测值，

和

分别是目标用户u_t和邻居用户u_i的平均选择服务的次数，

是邻居用户u_i选择目标服务s_t的次数，sim(u_t，u_i)是目标用户u_t和邻居用户u_i的兴趣相似度，N是目标用户u_t的邻居集合。

本发明中，去除停用词指：在信息检索中，停用词是指出现频率太高、没有太大检索意义的词。停用词处理是知识抽取过程中向量分词的一个步骤，它的单独处理会加快文档处理的速度及质量。目前，已经有了一些公开发表的英文停用词表,其中比较著名的是Van Rijsbergen发表的停用词表以及Brown Corpus停用词表。中文停用词表比较著名的有哈工大停用词表、四川大学机器智能实验室停用词库、百度停用词表等。一般停用词表不仅包含一些通用的停用词，如a，by，is，at等，而且包含在Web服务领域经常出现的一些词汇，例如service，soap，response，request，set，get等，这些词对于Web服务来说区分度并不大，而且容易引入干扰。将包含于该表中的词从WSDL文档中移除。WSDL文档7个重要的参数：types、import、message、portType、operation、binding及service。这些参数嵌套在definitions根元素中。采用WSDL4J（Web ServicesDescription Language for Java Toolkit，Web服务描述语言的JAVA工具包）对用户选择过的WSDL文档进行解析，将解析出来的内容去除停用词，抽取词干，形成该用户的词袋。

本发明中，词干是指所有屈折词缀被去掉后所剩余的部分，提取词干是去除词缀得到词根的过程。本发明根据Martin Poter博士于1979年在英国剑桥大学计算机实验室发明的波特词干算法，对于WSDL文档中的词进行词干的提取，以便于更加准确无重复地抽取兴趣词。

与现有的个性化搜索方法相比，本方法有三个特点：一是不仅隐式抽取用户本身的兴趣，而且通过计算兴趣相似度得到了不同用户兴趣之间的关系，并采用协同过滤技术，对服务的搜索结果进行基于兴趣的个性化排序，在一定程度上提高了搜索结果的准确性和相关性；二是在兴趣形成的过程中加入了时间衰减因子，更加准确地表示了用户兴趣随时间演变的特点；三是方法的第一、二、三步都可离线完成，对检索效率的影响很小。

本发明正是使用个性化推荐中的基本原理，将协同过滤技术应用于Web服务的个性化搜索，提高了用户满意度和检索精度。具体而言，本发明收集用户的检索记录，从其选择过的Web服务描述文档中抽取用户兴趣，并组成兴趣向量；根据兴趣向量的余弦距离度量用户兴趣的相似度，选择与目标用户的相似度超过一定阈值的用户组成该用户的邻居；当目标用户提交服务搜索请求，服务推荐***采用以上某种搜索技术之一为其检索到多个关键字匹配的服务，但并不直接将检索结果返回给用户，而是根据邻居的选择经验及其兴趣相似度来计算这些检索结果的推荐预测值，然后按降序排列，返回给用户。这样，用户透明地参与了服务搜索结果的定制，采用服务推荐方法完成了个性化的服务搜索。

有益效果：本发明的效果体现在：用户兴趣的提取对用户透明，不需要频繁询问用户或获得用户显式的反馈，因而能得到更多用户的认同和使用。用户兴趣与时间相关，长时间没有重复选择的兴趣的权重逐渐衰减，最终退出用户兴趣向量，而最新的频繁选择的服务兴趣能及时补充到用户兴趣向量中来，因而能更准确地表达和跟踪用户兴趣的变化。采用协同过滤的方法对搜索结果进行推荐预测和排序，即使目标用户没有当前所需服务的相关经验，也能从其他相似用户的经验中获得个性化推荐。可以广泛应用于Web服务搜索的个性化，支持服务推荐，属于计算机软件技术领域。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是本发明一种用于Web服务推荐的个性化搜索方法的流程图。

具体实施方式

如图1所示，本发明公开了一种用于Web服务推荐的个性化搜索方法，包括以下步骤：

步骤1，预处理WSDL文档，从用户使用记录中获取其选择过的WSDL文档，通过去除停用词和提取词干两个预处理步骤，形成词袋。

步骤2，抽取用户兴趣，使用改进的TF-IDF公式计算词袋中的每一个词的权重，并乘以该词的时间衰减因子，得到新的权重；选择权重由大至小前k个词作为用户的兴趣词，以及每个词的对应权重，组成k维的用户兴趣向量。

步骤3，计算相似度，使用向量夹角余弦公式计算每两个用户之间的余弦距离作为其相似度；设定相似度阈值，超过阈值的用户入选为目标用户的邻居用户。

改进的TF-IDF公式如下：

tf (t_{ij}) = \frac{freq (t_{ij}, D_{i})}{| D_{i} |},

idf (t_{ij}) = \log \frac{| D |}{| {D_{i} : t_{ij} &Element; D_{i}} |},

ω_ij＝tf(t_ij)*idf²(t_ij)，

其中，t_ij是第i个用户词袋中的第j个词，tf(t_ij)是词t_ij的文档频率，D_i是第i个用户的词袋，freq(t_ij，D_i)是词t_ij在词袋D_i中出现的次数，|D_i|是D_i中词的数目，idf(t_ij)是词t_ij的反文档频率，|D|是语料库中WSDL文档的数目，|{D_i∶t_ij∈D_i}|意为t_ij在多少个用户的词袋中出现过，ω_ij是词t_ij的权重。

时间衰减因子的计算方法如下：

Decay＝2-e^α*t，

其中，Decay表示时间衰减因子，e是自然对数的底，α为衰减率，取值范围为[0,0.1]，当α取值为0时，Decay=1，表示权值不随时间衰减，α取值越大，衰减越快，t为当前时间与距离用户最近一次选择服务的时间之间的差值；

每个用户词袋中词t_ij的新权重计算公式为：

δ_ij＝ω_ij*Decay。

本发明中，计算相似度公式如下：

sim (u_{a}, u_{b}) = \frac{Σ_{j = 1}^{k} δ_{aj} * δ_{bj}}{\sqrt{Σ_{j = 1}^{k} δ_{aj}^{2}} * \sqrt{Σ_{j = 1}^{k} δ_{bj}^{2}}},

P_{u_{t}, s_{t}} = {\overset{&OverBar;}{c}}_{u_{t}} + \frac{Σ_{u_{i} &Element; N} (c_{u_{i}, s_{t}} - {\overset{&OverBar;}{c}}_{u_{i}}) * sim (u_{t}, u_{i})}{\sqrt{Σ_{u_{i} &Element; N} sim {(u_{t}, u_{i})}^{2}}},

其中，u_t是目标用户，s_t是目标服务，即待计算推荐预测值的服务，是目标用户u_t对目标服务s_t的推荐预测值，

和

分别是目标用户u_t和邻居用户u_i的平均选择服务的次数，

实施例

本实施例的基本内容来自Web服务超市（http://125.221.225.2:8080/WSSM/）后台数据库。

本实施例包括以下四个步骤：

（1）预处理WSDL文档

从Web服务超市的后台数据库中提取200个用户的使用记录，得到原始数据，部分用户的使用记录如下：

表1用户使用记录（部分）

表1中列举了四个用户，用户名分别为：“tailaoliu”，“fangfang”，“zww”，“skh”，分别选择过若干Web服务。下载并预处理每个用户选择过的Web服务描述文档，根据Van Rijsbergen发表的停用词表去除停用词，采用Martin Poter博士的poter stem算法抽取词干，形成词袋。如“taolaoliu”选择过服务名为“BookingService”，“JasonsBooking”，“HotelBookingEngine”的三个Web服务，从相应的服务网址下载三个Web服务的WSDL文档，经过去除停用词和抽取词干后形成的词袋为“render（84），hotel（99），reservation（40），invoice（33），room（269），city（81），client（13），book（194），ticket（13），basket（42），rate（25）”。该词袋共包含11个词，其中每个词后的括号里标记的是该词在文档中出现的次数。

（2）抽取用户兴趣

所有用户的词袋组成语料库，使用改进的TF-IDF公式计算词袋中每个词的权重；将每个用户词袋中的词的权重乘以时间衰减因子，得到新的权重。权重前k优的词及其相应的权重组成用户兴趣向量。如“taolaoliu”的词袋中的“render”一词，在“taolaoliu”的词袋中出现的次数为84次，在200个用户的词袋中，一共有68个用户的词袋中出现过该词，因此，按照权利要求步骤2中改进的TF-IDF公式计算“render”的权值如下，

tf ('' render'') = \frac{84}{11} = 7.64,

idf ('' render'') = \log \frac{200}{68} = 0.47,

ω_“render”＝7.64*0.47²＝1.68，

继续计算时间衰减因子，α取值为0.05，t取值为初始值1，Decay计算如下：

Decay＝2-e^0.05*1＝0.95，

新的权值计算如下：

δ_“render”＝1.68*0.95＝1.59

同样地，计算词袋中其余的词的权值，并取权值最大的前6个（即k＝6）词，得到用户“taolaoliu”的兴趣向量为：<(basket,6.42),(hotel,4.03),(room,3.15),(book,2.82),(render,1.59),(information,1.24)＞，用户“fangfang”的兴趣向量为：<(book,3.31),(price,3.26),(title,3.23),(author,3.17),(ISBN,2.15),(infomation,1.13)＞，用户“zww”的兴趣向量为：<(weather,4.42),(city，3.33),(forecast,3.29),(replication,2.12),(add,1.12),(id,1.11)＞，用户“skh”的兴趣向量为：<(weather,3.39),(comment,3.31),(forecast,2.27),(city，2.22),(replication,1.20),(add,1.10)＞。其中，兴趣词后的数字表示该词的新权值。

（3）计算兴趣相似度

使用向量夹角余弦公式计算每两个用户之间的余弦距离作为其相似度；设定相似度阈值，超过阈值的用户入选为目标用户的邻居。例如，采用相似度计算公式计算用户“taolaoliu”和用户“fangfang”的相似度如下：

sim ('' taolaoliu'','' fangfang'') =

\frac{2.82 * 3.31 + 1.24 * 1.13}{\sqrt{{6.42}^{2} + {4.03}^{2} + {3.15}^{2} + {2.82}^{2} + {1.59}^{2} + {1.24}^{2}} * \sqrt{{3.31}^{2} + {3.26}^{3} + {3.23}^{2} + {3.17}^{2} + {2.15}^{2} + {1.13}^{2}}} = 0.17,

设定相似度阈值为0.15，则“taolaoliu”和用户“fangfang”互为邻居用户。

（4）排序服务检索结果

目标用户提交服务请求，Web服务超市为之检索出所有符合请求的服务；根据邻居的服务选择经验及其与目标用户的相似度，采用加权平均预测公式计算每个检索结果的推荐预测值。例如，对于目标用户“taolaoliu”提交的服务请求，检索结果中包括服务名为“BookStoreService”的Web服务，若该服务仅被“fangfang”选择过3次，用户“taolaoliu”的平均选择服务的次数为2，用户“fangfang”的平均选择服务的次数为1.5，则该服务的推荐预测值计算如下：

P_{'' BookStoreService''} = 2 + \frac{(3 - 1.5) * 0.17}{\sqrt{{0.17}^{2}}} = 3.5

将检索结果按照推荐预测值降序排列，从而用户能从检索结果的第一页面迅速得到符合其兴趣的个性化搜索结果。

实施效果：

用户“zww”作为当前目标用户，希望获得网上购书服务。分别向seekda搜索***（http://webservices.seekda.com/，属于现有技术）和Web服务超市提交服务请求关键字“book”后，得到的前10排名的搜索结果分别如表2和表3所示。

表2.seekda搜索结果前10名服务

表2中，只有序号为2、4、5的服务提供网上购书功能，用户“zww”在得到***的返回结果后还要手动寻找符合自己需求的服务，这个过程往往是耗时、枯燥、易错的。

表3.Web服务超市搜索结果前10名的服务

表3中，除了序号为9的服务，其余服务都与网上购书相关。由此可见，个性化搜索使用协同过滤方式计算服务推荐预测值，能提高服务的搜索准确性和用户检索效率，改善用户对Web服务搜索引擎的满意度。

本发明提供了一种用于Web服务推荐的个性化搜索方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。