CN102819575A - 一种用于Web服务推荐的个性化搜索方法 - Google Patents

一种用于Web服务推荐的个性化搜索方法 Download PDF

Info

Publication number
CN102819575A
CN102819575A CN2012102538842A CN201210253884A CN102819575A CN 102819575 A CN102819575 A CN 102819575A CN 2012102538842 A CN2012102538842 A CN 2012102538842A CN 201210253884 A CN201210253884 A CN 201210253884A CN 102819575 A CN102819575 A CN 102819575A
Authority
CN
China
Prior art keywords
speech
user
service
interest
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012102538842A
Other languages
English (en)
Other versions
CN102819575B (zh
Inventor
窦万春
胡蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Huakang Information Technology Co Ltd
Ten Party Health Management (jiangsu) Ltd
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201210253884.2A priority Critical patent/CN102819575B/zh
Publication of CN102819575A publication Critical patent/CN102819575A/zh
Application granted granted Critical
Publication of CN102819575B publication Critical patent/CN102819575B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于Web服务推荐的个性化搜索方法,包括以下步骤:步骤1,预处理WSDL文档:通过去除停用词和提取词干两个预处理步骤,形成词袋;步骤2,抽取用户兴趣:使用改进的TF-IDF公式计算词袋中的每一个词的权重,并乘以该词的时间衰减因子,得到新的权重;选择权重由大至小前k个词作为用户的兴趣词,以及每个词的对应权重,组成k维的用户兴趣向量;步骤3,计算兴趣相似度:设定相似度阈值,超过阈值的用户入选为目标用户的邻居用户;步骤4,排序服务检索结果,根据邻居用户的相似度及其选择服务的次数计算服务的推荐预测值,并将检索结果按照推荐预测值降序排列,从而得到个性化搜索结果。

Description

一种用于Web服务推荐的个性化搜索方法
技术领域
本发明涉及一种计算机软件技术领域中网络搜索、推荐,特别是一种用于Web服务推荐的个性化搜索方法。
背景技术
为了不断满足软件***的灵活性、可拓展性、正确性和鲁棒性的需求,软件工程的实践逐步演化出一些方法,使得软件***的构建可以基于已有的软件资源,而非一切从头开发。这些方法成功地加快了软件***的开发速度,提高了生产效率。在方法的技术层面,将软件所实现的功能分解为一些相对简单的可复用功能模块,也为软件工程提供了一种更好的软件管理技术。
当前,被广泛接受的软件复用技术是基于组件的软件工程(Components-BasedSoftware Engineering,CBSE)。面向服务的计算(Service Oriented Computing,SOC)是一种新的基于组件的软件开发范式;SOC的基础设施是面向服务的体系架构(ServiceOriented Architecture,SOA);Web服务和SOA是SOC的一种实现版本。
作为一种新兴的、面向Internet的分布式计算模式,SOC为构造松耦合、跨组织的集成应用提供了更好的使能技术。面向服务架构通过“发布-查找-绑定”的模式为使用服务资源提供了基本保障。然而,服务使用者与服务提供者相分离,增加了用户理解、得到及使用所需服务的难度。特别是当用户的需求随着应用构造过程的演进而变化时,如何让用户得到合适的服务是一个需要解决的问题。针对该问题,传统服务发现技术主要通过用户主动提供查询请求的方式获取用户的服务需求,或者直接让用户自己在资源集合中按照一定的分类体系手动的查找。当资源集合不断膨胀,手动查找服务的操作将变得繁琐、费时、易错。目前,Web服务搜索技术包括基于UDDI注册中心、通过Web服务网站(如XMethods、RemoteMethods等)、使用通用搜索引擎(如Google、Yahoo等)以及使用专业搜索引擎(如seekda、Merobase等)四种方式。这些搜索方式主要支持关键字检索方式,检索过程中并无用户参与,因而检索结果与用户兴趣无关,更不能随用户兴趣的变化而变化。
与传统搜索技术的思路不同,个性化搜索技术能够对搜索结果中的服务页面进行分析并与用户的兴趣进行比较,帮助用户从中找出更为感兴趣的服务并将之优先呈现在搜索结果列表中,从而提高用户的搜索效率。如在Google个性化搜索中,***允许用户定制自己喜欢的界面风格(包括信息过滤的级别,语言选择以及查询建议定制等),Google个性化的Subscribed Links允许用户在自己的Google搜索引擎中创建自定义结果,为客户展现业务链接。Yahoo!推出的个性化搜索允许用户根据自己的行为方式搜索兴趣信息,并支持用户针对检索结果的管理和共享。用户可以添加注释,可以根据个体需要对Web网页进行分类和排序等。
个性化推荐技术深度挖掘用户的个性化偏好,采取主动式的信息“推送”方式,自动化地提供满足个性化需求的信息给用户,而不是需要用户自己从海量的Web信息中寻找自己感兴趣的内容,从而提高用户有效信息获取的效率。1992年,第一个推荐***Tapestry诞生,它用于电子邮件的协作过滤并获得了不错的效果。此后,推荐***以其广阔的应用价值,获得了越来越多的关注。1996年,Yahoo将推荐***引入门户网站,添加个性化用户入口MyYahoo,针对不同用户提出了个性化的服务;1997年,AT&T实验室提出了基于协同过滤的个性化推荐***Referral Web和PHOAKS;2001年,IBM公司在其电子商务平台Websphere中增加了个性化推荐***,以便商家开发个性化电子商务网站;类似的产品还有GroupLens、Amazon、Netflix等,应用领域涉及电子邮件过滤、电子商务类网站、新闻主题类网站、搜索引擎、在线DVD租赁网站以及一些web2.0社会化网站等。
个性化搜索大量使用的是个性化推荐中的基本原理,而个性化推荐也需要大量借鉴个性化搜索中的基本技术,两者作为个性化服务中紧密关联而又最为核心的两项技术,能够极大程度上地满足不同用户的差异化信息需求,具有广泛的应用前景。
搜索引擎作为有效的信息检索的工具,能够帮助用户高效、快捷地从海量Web资源中获取到自己需要的内容,从而极大地提高用户获取信息的效率。随着Web服务资源的不断丰富和搜索引擎技术的进一步发展,在用户实际需求的驱动下,个性化搜索方法逐渐成为搜索领域研究的热点。针对Web服务的个性化搜索方法,其核心是根据用户的个性化的兴趣、偏好,对服务检索结果进行“因人而异”的筛选和排序,从而为不同用户提供满足其个性化需求的差异化的检索结果输出。
然而,如何在Web网络资源中找到一种较为客观准确的搜索方法,精确地实施服务推送,满足不同使用主体的需要,是一个难点。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术中搜索不精确时间长的缺陷,提供一种用于Web服务推荐的个性化搜索方法。
为了解决上述技术问题,本发明公开了一种用于Web服务推荐的个性化搜索方法,包括以下步骤:
步骤1,预处理Web服务描述语言WSDL(Web Service Description Language,Web服务描述语言)文档,从用户使用记录中获取其选择过的WSDL文档,通过去除停用词和提取词干两个预处理步骤,形成词袋(bag ofwords);
步骤2,抽取用户兴趣,使用改进的TF-IDF公式计算词袋中的每一个词的权重,并乘以时间衰减因子,得到新的权重δij;选择新的权重δij由大至小前k个词作为用户的兴趣词,以及每个词的对应权重δij,组成k维的用户兴趣向量;选择前k优的权值,并相应的词一起构成用户兴趣向量。此举有利于减小用户兴趣向量空间的维度并使其维度一致,有利于高效地计算每两个用户之间的兴趣相似度。
步骤3,计算相似度,使用向量夹角余弦公式计算每两个用户之间的余弦距离作为其相似度;设定相似度阈值,超过阈值的用户入选为目标用户的邻居用户;相似度阈值的设定范围是0~1。
步骤4,排序服务检索结果:目标用户提交服务请求,由Web服务搜索引擎检索出所有符合请求的服务;根据邻居用户选择这些服务的次数及其与目标用户的相似度,采用加权平均预测公式计算每个检索结果的推荐预测值;将检索结果按照推荐预测值降序排列,从而得到个性化搜索结果。
本发明中,改进的TF-IDF(Term Frequency-Inverse Document Frequency,文档-反文档频率)公式如下:
tf ( t ij ) = freq ( t ij , D i ) | D i | ,
idf ( t ij ) = log | D | | { D i : t ij ∈ D i } | ,
ωij=tf(tij)*idf2(tij),
其中,tij是第i个用户词袋中的第j个词,tf(tij)是词tij的文档频率,Di是第i个用户的词袋,freq(tij,Di)是词tij在词袋Di中出现的次数,|Di|是Di中词的数目,idf(tij)是词tij的反文档频率,|D|是语料库中WSDL文档的数目,|{Di∶tij∈Di}|表示词tij在多少个用户的词袋中出现过,ωij是词tij的权重;
时间衰减因子的计算方法如下:
Decay=2-eα*t
其中,Decay表示时间衰减因子,e是自然对数的底,一般使用数值2.718。α为衰减率,取值范围为[0,0.1],例如可以设定为0.1。当α取值为0时,Decay=1,表示权值不随时间衰减,α取值越大,衰减越快,t为当前时间与距离用户最近一次选择服务的时间之间的差值。对应于用户兴趣所具有的随时间衰减特征,设计了时间衰减因子。新的权重是原权重的值与时间衰减因子的乘积,对于久未被选择的词,其权重逐渐衰减为0。
每个用户词袋中词tij的新权重δij计算公式为:
δij=ωij*Decay。
本发明中,计算相似度公式如下:
sim ( u a , u b ) = Σ j = 1 k δ aj * δ bj Σ j = 1 k δ aj 2 * Σ j = 1 k δ bj 2 ,
其中,ua与ub为两个不同的用户,sim(ua,ub)指的是这两个用户之间的相似度,δaj和δbj分别是用户ua和用户ub的词袋中第j个词的权重,k是用户兴趣词的个数。
本发明中,采用加权平均预测公式计算每个检索结果的推荐预测值的公式如下:
P u t , s t = c ‾ u t + Σ u i ∈ N ( c u i , s t - c ‾ u i ) * sim ( u t , u i ) Σ u i ∈ N sim ( u t , u i ) 2 ,
其中,ut是目标用户,st是目标服务,即待计算推荐预测值的服务,
Figure BDA00001914438300043
是目标用户ut对目标服务st的推荐预测值,
Figure BDA00001914438300044
Figure BDA00001914438300045
分别是目标用户ut和邻居用户ui的平均选择服务的次数,
Figure BDA00001914438300046
是邻居用户ui选择目标服务st的次数,sim(ut,ui)是目标用户ut和邻居用户ui的兴趣相似度,N是目标用户ut的邻居集合。
本发明中,去除停用词指:在信息检索中,停用词是指出现频率太高、没有太大检索意义的词。停用词处理是知识抽取过程中向量分词的一个步骤,它的单独处理会加快文档处理的速度及质量。目前,已经有了一些公开发表的英文停用词表,其中比较著名的是Van Rijsbergen发表的停用词表以及Brown Corpus停用词表。中文停用词表比较著名的有哈工大停用词表、四川大学机器智能实验室停用词库、百度停用词表等。一般停用词表不仅包含一些通用的停用词,如a,by,is,at等,而且包含在Web服务领域经常出现的一些词汇,例如service,soap,response,request,set,get等,这些词对于Web服务来说区分度并不大,而且容易引入干扰。将包含于该表中的词从WSDL文档中移除。WSDL文档7个重要的参数:types、import、message、portType、operation、binding及service。这些参数嵌套在definitions根元素中。采用WSDL4J(Web ServicesDescription Language for Java Toolkit,Web服务描述语言的JAVA工具包)对用户选择过的WSDL文档进行解析,将解析出来的内容去除停用词,抽取词干,形成该用户的词袋。
本发明中,词干是指所有屈折词缀被去掉后所剩余的部分,提取词干是去除词缀得到词根的过程。本发明根据Martin Poter博士于1979年在英国剑桥大学计算机实验室发明的波特词干算法,对于WSDL文档中的词进行词干的提取,以便于更加准确无重复地抽取兴趣词。
与现有的个性化搜索方法相比,本方法有三个特点:一是不仅隐式抽取用户本身的兴趣,而且通过计算兴趣相似度得到了不同用户兴趣之间的关系,并采用协同过滤技术,对服务的搜索结果进行基于兴趣的个性化排序,在一定程度上提高了搜索结果的准确性和相关性;二是在兴趣形成的过程中加入了时间衰减因子,更加准确地表示了用户兴趣随时间演变的特点;三是方法的第一、二、三步都可离线完成,对检索效率的影响很小。
本发明正是使用个性化推荐中的基本原理,将协同过滤技术应用于Web服务的个性化搜索,提高了用户满意度和检索精度。具体而言,本发明收集用户的检索记录,从其选择过的Web服务描述文档中抽取用户兴趣,并组成兴趣向量;根据兴趣向量的余弦距离度量用户兴趣的相似度,选择与目标用户的相似度超过一定阈值的用户组成该用户的邻居;当目标用户提交服务搜索请求,服务推荐***采用以上某种搜索技术之一为其检索到多个关键字匹配的服务,但并不直接将检索结果返回给用户,而是根据邻居的选择经验及其兴趣相似度来计算这些检索结果的推荐预测值,然后按降序排列,返回给用户。这样,用户透明地参与了服务搜索结果的定制,采用服务推荐方法完成了个性化的服务搜索。
有益效果:本发明的效果体现在:用户兴趣的提取对用户透明,不需要频繁询问用户或获得用户显式的反馈,因而能得到更多用户的认同和使用。用户兴趣与时间相关,长时间没有重复选择的兴趣的权重逐渐衰减,最终退出用户兴趣向量,而最新的频繁选择的服务兴趣能及时补充到用户兴趣向量中来,因而能更准确地表达和跟踪用户兴趣的变化。采用协同过滤的方法对搜索结果进行推荐预测和排序,即使目标用户没有当前所需服务的相关经验,也能从其他相似用户的经验中获得个性化推荐。可以广泛应用于Web服务搜索的个性化,支持服务推荐,属于计算机软件技术领域。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1是本发明一种用于Web服务推荐的个性化搜索方法的流程图。
具体实施方式
如图1所示,本发明公开了一种用于Web服务推荐的个性化搜索方法,包括以下步骤:
步骤1,预处理WSDL文档,从用户使用记录中获取其选择过的WSDL文档,通过去除停用词和提取词干两个预处理步骤,形成词袋。
步骤2,抽取用户兴趣,使用改进的TF-IDF公式计算词袋中的每一个词的权重,并乘以该词的时间衰减因子,得到新的权重;选择权重由大至小前k个词作为用户的兴趣词,以及每个词的对应权重,组成k维的用户兴趣向量。
步骤3,计算相似度,使用向量夹角余弦公式计算每两个用户之间的余弦距离作为其相似度;设定相似度阈值,超过阈值的用户入选为目标用户的邻居用户。
步骤4,排序服务检索结果:目标用户提交服务请求,由Web服务搜索引擎检索出所有符合请求的服务;根据邻居用户选择这些服务的次数及其与目标用户的相似度,采用加权平均预测公式计算每个检索结果的推荐预测值;将检索结果按照推荐预测值降序排列,从而得到个性化搜索结果。
改进的TF-IDF公式如下:
tf ( t ij ) = freq ( t ij , D i ) | D i | ,
idf ( t ij ) = log | D | | { D i : t ij ∈ D i } | ,
ωij=tf(tij)*idf2(tij),
其中,tij是第i个用户词袋中的第j个词,tf(tij)是词tij的文档频率,Di是第i个用户的词袋,freq(tij,Di)是词tij在词袋Di中出现的次数,|Di|是Di中词的数目,idf(tij)是词tij的反文档频率,|D|是语料库中WSDL文档的数目,|{Di∶tij∈Di}|意为tij在多少个用户的词袋中出现过,ωij是词tij的权重。
时间衰减因子的计算方法如下:
Decay=2-eα*t
其中,Decay表示时间衰减因子,e是自然对数的底,α为衰减率,取值范围为[0,0.1],当α取值为0时,Decay=1,表示权值不随时间衰减,α取值越大,衰减越快,t为当前时间与距离用户最近一次选择服务的时间之间的差值;
每个用户词袋中词tij的新权重计算公式为:
δij=ωij*Decay。
本发明中,计算相似度公式如下:
sim ( u a , u b ) = Σ j = 1 k δ aj * δ bj Σ j = 1 k δ aj 2 * Σ j = 1 k δ bj 2 ,
其中,ua与ub为两个不同的用户,sim(ua,ub)指的是这两个用户之间的相似度,δaj和δbj分别是用户ua和用户ub的词袋中第j个词的权重,k是用户兴趣词的个数。
本发明中,采用加权平均预测公式计算每个检索结果的推荐预测值的公式如下:
P u t , s t = c ‾ u t + Σ u i ∈ N ( c u i , s t - c ‾ u i ) * sim ( u t , u i ) Σ u i ∈ N sim ( u t , u i ) 2 ,
其中,ut是目标用户,st是目标服务,即待计算推荐预测值的服务,是目标用户ut对目标服务st的推荐预测值,
Figure BDA00001914438300076
Figure BDA00001914438300077
分别是目标用户ut和邻居用户ui的平均选择服务的次数,
Figure BDA00001914438300081
是邻居用户ui选择目标服务st的次数,sim(ut,ui)是目标用户ut和邻居用户ui的兴趣相似度,N是目标用户ut的邻居集合。
实施例
本实施例的基本内容来自Web服务超市(http://125.221.225.2:8080/WSSM/)后台数据库。
本实施例包括以下四个步骤:
(1)预处理WSDL文档
从Web服务超市的后台数据库中提取200个用户的使用记录,得到原始数据,部分用户的使用记录如下:
表1用户使用记录(部分)
Figure BDA00001914438300082
表1中列举了四个用户,用户名分别为:“tailaoliu”,“fangfang”,“zww”,“skh”,分别选择过若干Web服务。下载并预处理每个用户选择过的Web服务描述文档,根据Van Rijsbergen发表的停用词表去除停用词,采用Martin Poter博士的poter stem算法抽取词干,形成词袋。如“taolaoliu”选择过服务名为“BookingService”,“JasonsBooking”,“HotelBookingEngine”的三个Web服务,从相应的服务网址下载三个Web服务的WSDL文档,经过去除停用词和抽取词干后形成的词袋为“render(84),hotel(99),reservation(40),invoice(33),room(269),city(81),client(13),book(194),ticket(13),basket(42),rate(25)”。该词袋共包含11个词,其中每个词后的括号里标记的是该词在文档中出现的次数。
(2)抽取用户兴趣
所有用户的词袋组成语料库,使用改进的TF-IDF公式计算词袋中每个词的权重;将每个用户词袋中的词的权重乘以时间衰减因子,得到新的权重。权重前k优的词及其相应的权重组成用户兴趣向量。如“taolaoliu”的词袋中的“render”一词,在“taolaoliu”的词袋中出现的次数为84次,在200个用户的词袋中,一共有68个用户的词袋中出现过该词,因此,按照权利要求步骤2中改进的TF-IDF公式计算“render”的权值如下,
tf ( ′ ′ render ′ ′ ) = 84 11 = 7.64 ,
idf ( ′ ′ render ′ ′ ) = log 200 68 = 0.47 ,
ω“render”=7.64*0.472=1.68,
继续计算时间衰减因子,α取值为0.05,t取值为初始值1,Decay计算如下:
Decay=2-e0.05*1=0.95,
新的权值计算如下:
δ“render”=1.68*0.95=1.59
同样地,计算词袋中其余的词的权值,并取权值最大的前6个(即k=6)词,得到用户“taolaoliu”的兴趣向量为:<(basket,6.42),(hotel,4.03),(room,3.15),(book,2.82),(render,1.59),(information,1.24)>,用户“fangfang”的兴趣向量为:<(book,3.31),(price,3.26),(title,3.23),(author,3.17),(ISBN,2.15),(infomation,1.13)>,用户“zww”的兴趣向量为:<(weather,4.42),(city,3.33),(forecast,3.29),(replication,2.12),(add,1.12),(id,1.11)>,用户“skh”的兴趣向量为:<(weather,3.39),(comment,3.31),(forecast,2.27),(city,2.22),(replication,1.20),(add,1.10)>。其中,兴趣词后的数字表示该词的新权值。
(3)计算兴趣相似度
使用向量夹角余弦公式计算每两个用户之间的余弦距离作为其相似度;设定相似度阈值,超过阈值的用户入选为目标用户的邻居。例如,采用相似度计算公式计算用户“taolaoliu”和用户“fangfang”的相似度如下:
sim ( &prime; &prime; taolaoliu &prime; &prime; , &prime; &prime; fangfang &prime; &prime; ) =
2.82 * 3.31 + 1.24 * 1.13 6.42 2 + 4.03 2 + 3.15 2 + 2.82 2 + 1.59 2 + 1.24 2 * 3.31 2 + 3.26 3 + 3.23 2 + 3.17 2 + 2.15 2 + 1.13 2 = 0.17 ,
设定相似度阈值为0.15,则“taolaoliu”和用户“fangfang”互为邻居用户。
(4)排序服务检索结果
目标用户提交服务请求,Web服务超市为之检索出所有符合请求的服务;根据邻居的服务选择经验及其与目标用户的相似度,采用加权平均预测公式计算每个检索结果的推荐预测值。例如,对于目标用户“taolaoliu”提交的服务请求,检索结果中包括服务名为“BookStoreService”的Web服务,若该服务仅被“fangfang”选择过3次,用户“taolaoliu”的平均选择服务的次数为2,用户“fangfang”的平均选择服务的次数为1.5,则该服务的推荐预测值计算如下:
P &prime; &prime; BookStoreService &prime; &prime; = 2 + ( 3 - 1.5 ) * 0.17 0.17 2 = 3.5
将检索结果按照推荐预测值降序排列,从而用户能从检索结果的第一页面迅速得到符合其兴趣的个性化搜索结果。
实施效果:
用户“zww”作为当前目标用户,希望获得网上购书服务。分别向seekda搜索***(http://webservices.seekda.com/,属于现有技术)和Web服务超市提交服务请求关键字“book”后,得到的前10排名的搜索结果分别如表2和表3所示。
表2.seekda搜索结果前10名服务
Figure BDA00001914438300111
表2中,只有序号为2、4、5的服务提供网上购书功能,用户“zww”在得到***的返回结果后还要手动寻找符合自己需求的服务,这个过程往往是耗时、枯燥、易错的。
表3.Web服务超市搜索结果前10名的服务
Figure BDA00001914438300112
表3中,除了序号为9的服务,其余服务都与网上购书相关。由此可见,个性化搜索使用协同过滤方式计算服务推荐预测值,能提高服务的搜索准确性和用户检索效率,改善用户对Web服务搜索引擎的满意度。
本发明提供了一种用于Web服务推荐的个性化搜索方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (4)

1.一种用于Web服务推荐的个性化搜索方法,其特征在于,包括以下步骤:
步骤1,预处理Web服务描述语言WSDL文档:从用户使用记录中获取其选择过的WSDL文档,通过去除停用词和提取词干两个预处理步骤,形成词袋;
步骤2,抽取用户兴趣:计算词袋中的每一个词的权重,并乘以时间衰减因子,得到新的权重δij;选择新的权重δij由大至小前k个词作为用户的兴趣词,以及每个词的对应权重δij,组成k维的用户兴趣向量;
步骤3,计算兴趣相似度:计算每两个用户兴趣向量之间的余弦距离作为其兴趣相似度;设定相似度阈值,超过阈值的用户入选为目标用户的邻居用户;
步骤4,排序服务检索结果:目标用户提交服务请求,由Web服务搜索引擎检索出所有符合请求的服务;根据邻居用户选择这些服务的次数及其与目标用户的相似度,采用加权平均预测公式计算每个检索结果的推荐预测值;将检索结果按照推荐预测值降序排列,从而得到个性化搜索结果。
2.根据权利要求1所述的一种用于Web服务推荐的个性化搜索方法,其特征在于,步骤2中,计算词袋中的每一个词的权重,并乘以该词的时间衰减因子,得到新的权重δij包括如下步骤:
使用改进的TF-IDF公式计算权重ωij
tf ( t ij ) = freq ( t ij , D i ) | D i | ,
idf ( t ij ) = log | D | | { D i : t ij &Element; D i } | ,
ωij=tf(tij)*idf2(tij),
其中,tij是第i个用户词袋中的第j个词,tf(tij)是词tij的文档频率,Di是第i个用户的词袋,freq(tij,Di)是词tij在词袋Di中出现的次数,|Di|是Di中词的数目,idf(tij)是词tij的反文档频率,|D|是语料库中WSDL文档的数目,|{Di∶tij∈Di}|表示词tij在多少个用户的词袋中出现过,ωij是词tij的权重;
时间衰减因子的计算方法如下:
Decay=2-eα*t
其中,Decay表示时间衰减因子,e是自然对数的底,α为衰减率,取值范围为[0,0.1],当α取值为0时,Decay=1,表示权值不随时间衰减,α取值越大,衰减越快,t为当前时间与距离用户最近一次选择服务的时间之间的差值;
每个用户词袋中词tij的新权重δij计算公式为:
δij=ωij*Decay。
3.根据权利要求1所述的一种用于Web服务推荐的个性化搜索方法,其特征在于,步骤3中采用如下方法计算用户兴趣相似度:
sim ( u a , u b ) = &Sigma; j = 1 k &delta; aj * &delta; bj &Sigma; j = 1 k &delta; aj 2 * &Sigma; j = 1 k &delta; bj 2 ,
其中,ua与ub为两个不同的用户,sim(ua,ub)指的是这两个用户之间的相似度,δaj和δbj分别是用户ua和用户ub的词袋中第j个词的权重,k是用户兴趣词的个数。
4.根据权利要求1所述的一种用于Web服务推荐的个性化搜索方法,其特征在于,步骤4中,采用加权平均预测公式计算每个检索结果的推荐预测值的公式如下:
P u t , s t = c &OverBar; u t + &Sigma; u i &Element; N ( c u i , s t - c &OverBar; u i ) * sim ( u t , u i ) &Sigma; u i &Element; N sim ( u t , u i ) 2 ,
其中,ut是目标用户,st是目标服务,即待计算推荐预测值的服务,
Figure FDA00001914438200023
是目标用户ut对目标服务st的推荐预测值,
Figure FDA00001914438200024
Figure FDA00001914438200025
分别是目标用户ut和邻居用户ui的平均选择服务的次数,
Figure FDA00001914438200026
是邻居用户ui选择目标服务st的次数,sim(ut,ui)是目标用户ut和邻居用户ui的兴趣相似度,N是目标用户ut的邻居集合。
CN201210253884.2A 2012-07-20 2012-07-20 一种用于Web服务推荐的个性化搜索方法 Active CN102819575B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210253884.2A CN102819575B (zh) 2012-07-20 2012-07-20 一种用于Web服务推荐的个性化搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210253884.2A CN102819575B (zh) 2012-07-20 2012-07-20 一种用于Web服务推荐的个性化搜索方法

Publications (2)

Publication Number Publication Date
CN102819575A true CN102819575A (zh) 2012-12-12
CN102819575B CN102819575B (zh) 2015-06-17

Family

ID=47303686

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210253884.2A Active CN102819575B (zh) 2012-07-20 2012-07-20 一种用于Web服务推荐的个性化搜索方法

Country Status (1)

Country Link
CN (1) CN102819575B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324690A (zh) * 2013-06-03 2013-09-25 焦点科技股份有限公司 基于因子化条件受限玻尔兹曼机的混合推荐方法
CN103473291A (zh) * 2013-09-02 2013-12-25 中国科学院软件研究所 一种基于隐语义概率模型的个性化服务推荐***及方法
CN104102648A (zh) * 2013-04-07 2014-10-15 腾讯科技(深圳)有限公司 基于用户行为数据的兴趣推荐方法及装置
CN104111959A (zh) * 2013-04-22 2014-10-22 浙江大学 基于社交网络的服务推荐方法
CN104318268A (zh) * 2014-11-11 2015-01-28 苏州晨川通信科技有限公司 一种基于局部距离度量学习的多交易账户识别方法
CN105205139A (zh) * 2015-09-17 2015-12-30 罗旭斌 一种个性化文献检索方法
CN106055594A (zh) * 2016-05-23 2016-10-26 成都陌云科技有限公司 基于用户兴趣的信息提供方法
CN106126669A (zh) * 2016-06-28 2016-11-16 北京邮电大学 基于标签的用户协同过滤内容推荐方法及装置
CN103678652B (zh) * 2013-12-23 2017-02-01 山东大学 一种基于Web日志数据的信息个性化推荐方法
CN106708920A (zh) * 2016-10-09 2017-05-24 南京双运生物技术有限公司 一种针对个性化科研文献的筛选方法
CN107644079A (zh) * 2015-05-22 2018-01-30 广东欧珀移动通信有限公司 一种应用推荐方法及装置和相关介质产品
US9953060B2 (en) 2014-03-31 2018-04-24 Maruthi Siva P Cherukuri Personalized activity data gathering based on multi-variable user input and multi-dimensional schema
CN108268584A (zh) * 2017-08-25 2018-07-10 广州市动景计算机科技有限公司 资讯推送方法、装置和服务器
WO2019028990A1 (zh) * 2017-08-09 2019-02-14 上海壹账通金融科技有限公司 代码元素的命名方法、装置、电子设备及介质
CN109408713A (zh) * 2018-10-09 2019-03-01 哈尔滨工程大学 一种基于用户反馈信息的软件需求检索***
CN109978642A (zh) * 2017-12-27 2019-07-05 中移(杭州)信息技术有限公司 一种信息推荐方法、装置和通信设备
CN110337682A (zh) * 2016-07-15 2019-10-15 L·A·克里希纳斯瓦米 用于支持学***台
CN107562919B (zh) * 2017-09-13 2020-07-17 云南大学 一种基于信息检索的多索引集成软件构件检索方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101685456A (zh) * 2008-09-26 2010-03-31 华为技术有限公司 一种搜索的方法、***和装置
CN101996200A (zh) * 2009-08-19 2011-03-30 华为技术有限公司 一种搜索文档的方法和装置
CN102156733A (zh) * 2011-03-25 2011-08-17 清华大学 一种基于面向服务架构的搜索引擎及搜索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101685456A (zh) * 2008-09-26 2010-03-31 华为技术有限公司 一种搜索的方法、***和装置
CN101996200A (zh) * 2009-08-19 2011-03-30 华为技术有限公司 一种搜索文档的方法和装置
CN102156733A (zh) * 2011-03-25 2011-08-17 清华大学 一种基于面向服务架构的搜索引擎及搜索方法

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104102648B (zh) * 2013-04-07 2017-12-01 腾讯科技(深圳)有限公司 基于用户行为数据的兴趣推荐方法及装置
CN104102648A (zh) * 2013-04-07 2014-10-15 腾讯科技(深圳)有限公司 基于用户行为数据的兴趣推荐方法及装置
CN104111959B (zh) * 2013-04-22 2017-06-20 浙江大学 基于社交网络的服务推荐方法
CN104111959A (zh) * 2013-04-22 2014-10-22 浙江大学 基于社交网络的服务推荐方法
CN103324690A (zh) * 2013-06-03 2013-09-25 焦点科技股份有限公司 基于因子化条件受限玻尔兹曼机的混合推荐方法
CN103473291B (zh) * 2013-09-02 2017-01-18 中国科学院软件研究所 一种基于隐语义概率模型的个性化服务推荐***及方法
CN103473291A (zh) * 2013-09-02 2013-12-25 中国科学院软件研究所 一种基于隐语义概率模型的个性化服务推荐***及方法
CN103678652B (zh) * 2013-12-23 2017-02-01 山东大学 一种基于Web日志数据的信息个性化推荐方法
US9953060B2 (en) 2014-03-31 2018-04-24 Maruthi Siva P Cherukuri Personalized activity data gathering based on multi-variable user input and multi-dimensional schema
CN104318268A (zh) * 2014-11-11 2015-01-28 苏州晨川通信科技有限公司 一种基于局部距离度量学习的多交易账户识别方法
CN104318268B (zh) * 2014-11-11 2017-09-08 苏州晨川通信科技有限公司 一种基于局部距离度量学习的多交易账户识别方法
CN107644079A (zh) * 2015-05-22 2018-01-30 广东欧珀移动通信有限公司 一种应用推荐方法及装置和相关介质产品
CN105205139A (zh) * 2015-09-17 2015-12-30 罗旭斌 一种个性化文献检索方法
CN105205139B (zh) * 2015-09-17 2019-06-14 罗旭斌 一种个性化文献检索方法
CN106055594A (zh) * 2016-05-23 2016-10-26 成都陌云科技有限公司 基于用户兴趣的信息提供方法
CN106126669A (zh) * 2016-06-28 2016-11-16 北京邮电大学 基于标签的用户协同过滤内容推荐方法及装置
CN106126669B (zh) * 2016-06-28 2019-07-16 北京邮电大学 基于标签的用户协同过滤内容推荐方法及装置
CN110337682A (zh) * 2016-07-15 2019-10-15 L·A·克里希纳斯瓦米 用于支持学***台
CN106708920A (zh) * 2016-10-09 2017-05-24 南京双运生物技术有限公司 一种针对个性化科研文献的筛选方法
WO2019028990A1 (zh) * 2017-08-09 2019-02-14 上海壹账通金融科技有限公司 代码元素的命名方法、装置、电子设备及介质
CN108268584A (zh) * 2017-08-25 2018-07-10 广州市动景计算机科技有限公司 资讯推送方法、装置和服务器
CN107562919B (zh) * 2017-09-13 2020-07-17 云南大学 一种基于信息检索的多索引集成软件构件检索方法及***
CN109978642A (zh) * 2017-12-27 2019-07-05 中移(杭州)信息技术有限公司 一种信息推荐方法、装置和通信设备
CN109408713A (zh) * 2018-10-09 2019-03-01 哈尔滨工程大学 一种基于用户反馈信息的软件需求检索***
CN109408713B (zh) * 2018-10-09 2020-12-04 哈尔滨工程大学 一种基于用户反馈信息的软件需求检索***

Also Published As

Publication number Publication date
CN102819575B (zh) 2015-06-17

Similar Documents

Publication Publication Date Title
CN102819575A (zh) 一种用于Web服务推荐的个性化搜索方法
Colace et al. A collaborative user-centered framework for recommending items in Online Social Networks
White et al. Predicting user interests from contextual information
US8200617B2 (en) Automatic mapping of a location identifier pattern of an object to a semantic type using object metadata
Zhong et al. Time-aware service recommendation for mashup creation in an evolving service ecosystem
US9922344B1 (en) Serving advertisements based on partial queries
Jain et al. Aggregating functionality, use history, and popularity of APIs to recommend mashup creation
CN104035972A (zh) 一种基于微博的知识推荐方法与***
CN105468649A (zh) 一种待展示对象匹配的判断方法及其装置
KR100954842B1 (ko) 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체
Gao et al. SeCo-LDA: Mining service co-occurrence topics for composition recommendation
JP2018504686A (ja) 検索データを処理するための方法及び装置
CN102156747A (zh) 一种引入社会化标签的协作过滤评分预测方法及装置
Li et al. CoWS: An Internet-enriched and quality-aware Web services search engine
JP5048852B2 (ja) 検索装置、検索方法、検索プログラム、及びそのプログラムを記憶するコンピュータ読取可能な記録媒体
Kim et al. Automated discovery of small business domain knowledge using web crawling and data mining
JP6144799B2 (ja) 検索結果内に添付された情報データベースに基づいた検索リスト及び検索語順位の提供方法及びシステム
US11237693B1 (en) Provisioning serendipitous content recommendations in a targeted content zone
Tang et al. SCHOLAT: an innovative academic information service platform
Du et al. Scientific users' interest detection and collaborators recommendation
Anandhan et al. Expert Recommendation Through Tag Relationship In Community Question Answering
Hu et al. A personalised search approach for web service recommendation
Kanoulas et al. CLEF 2017 dynamic search evaluation lab overview
Li et al. Personalized microtopic recommendation with rich information
Al-Abdullatif et al. Using online hotel customer reviews to improve the booking process

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160310

Address after: 222000 Jinqiao Road 19, Lianyungang economic and Technological Development Zone, Jiangsu, Lianyungang

Patentee after: Ten Party health management (Jiangsu) Limited

Patentee after: JIANGSU HUAKANG INFORMATION TECHNOLOGY CO., LTD.

Address before: Qixia Xianlin Avenue District of Nanjing City, Jiangsu Province, Nanjing University No. 163 210093

Patentee before: Nanjing University