CN103761286B - 一种基于用户兴趣的服务资源检索方法 - Google Patents
一种基于用户兴趣的服务资源检索方法 Download PDFInfo
- Publication number
- CN103761286B CN103761286B CN201410015693.1A CN201410015693A CN103761286B CN 103761286 B CN103761286 B CN 103761286B CN 201410015693 A CN201410015693 A CN 201410015693A CN 103761286 B CN103761286 B CN 103761286B
- Authority
- CN
- China
- Prior art keywords
- interest
- user
- document
- classification
- user interest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
- G06F16/337—Profile generation, learning or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于用户兴趣的服务资源检索方法,具体步骤为:获取用户的兴趣信息并生成用户兴趣剖像、用二元组兴趣向量表征用户兴趣剖像、计算相关文档的兴趣相关因子、提取用户检索请求中的提问向量、分析提问向量和文档向量之间的相似度、计算文档与提问向量的兴趣相似度、根据兴趣相似度的大小对相关文档进行排序。本发明在对服务资源进行检索时,通过对用户兴趣的提取并分析,使得检索更加符合用户的实际需要,实现了基于用户兴趣的个性化服务资源检索,明显改善了检索效果,降低了对海量的网络服务资源检索的时间,效率有明显的提高。
Description
技术领域
本发明涉及到互联网服务资源的提供领域,具体的说是一种基于用户兴趣的服务资源检索方法。
背景技术
服务资源分类是指对网络中各种已存在的服务和资源按照其各自的属性和特点进行分析,并划分使其归属于特定的类别。随着互联网技术的高速发展以及计算机技术的不断普及,促使人们对网络服务资源的依赖愈加强烈,而服务资源的分类是一个复杂的加工处理过程,其涉及到服务资源的预处理、特征向量集合的提取和分类等技术环节,服务资源分类则可理解为采用一定的方法与模式,按照一定的规则将网络上的各种资源进行全面的分析、优选、加工、排列组合、整理、分类等加工处理,使其形成一个有序的、便于用户高效获取并利用的服务资源体的***过程。服务资源的分类使得繁杂零散的资源集合形成了有序化的结构,使之转化为一个有意义的整体,便于服务资源能依据某一特定形式的规则进行更高层次的存取和利用。目前网络上的服务和资源十分丰富,如何将海量的服务资源准确的分类,这已成为资源分类技术要处理的一个关键问题。
当前服务资源分类方法基本是用户依据一定规则自行手动进行人工分类。在资源量过大的时候,使用这种方法必定将消耗大量人力,并且效率相当低下。当用户定义新类别时,又要对原先未定义种类的服务资源进行再次分类,若再进行人工分类,代价过大。近年来,一些学者使用智能学习的方法来进行分类,取得了一定的成果。现在一些常用的智能分类方法有聚类算法、决策树算法等。聚类算法由于具有无监督的学习能力,但在高维数据空间中,聚类往往只存在于某些子空间中,并且不同的聚类所关联的子空间也存在差异。受“维度效应”的影响,传统的聚类算法一般无法直接对高维数据进行有效的聚类,需要通过一些特殊的处理。决策树分类的直观表示方法较容易转化为标准的数据库查询,其归纳的方法行之有效,尤其适合大型数据集。但其算法的伸缩性太差,随着数据量的增大其运行时间大大增加。
目前,个性化检索是服务资源检索领域的热点和难点。这一领域的研究范围很广,涉及到的问题也很多。许多学者从不同的角度,提出多种技术方法,主要有:①网络数据库技术(web Database),构建用户等相关数据库;②过程跟踪技术(Process Tracking),如Cookies技术等;③代理技术(Agent),代理指在分布式***中持续自主的发挥作用的计算实体,他有独立性、自主性和交互性等特性,,借助代理,可以很好地完成用户与***的交互;④数据挖掘技术(Data Mining),从海量数据中采掘出隐含的、先前未知的、对决策有潜在价值的知识和规则,并根据这些规则,预测用户即将发生的行为;⑤推送技术(Push),根据用户定义的准则,自动搜索用户感兴趣的服务资源,并主动传递至用户指定“地点”;⑥信息过滤技术(Information Filtering),信息过滤是一种用来过滤大量信息流,为用户提供相关信息子集的技术。信息过滤可以分为:基于规则的过滤、基于协作的过滤、基于内容的过滤,它们的目标都是根据用户兴趣需要将最有价值的服务资源信息自动推荐给用户,并最大限度地节省用户的阅读时间。
传统的服务资源检索技术满足了人们一定的检索需要,但受通用性限制,无法满足用户一些复杂的查询需求。随着信息***出现,人们对检索***的功能、智能化程度以及检索效果有了更高的要求,希望能提供更准确、更精炼和更符合个人需要的检索结果。
发明内容
为解决传统的检索技术难以满足人们对检索***功能、智能化程度以及检索效果的要求的问题,本发明提供了一种基于用户兴趣的服务资源检索方法,来满足用户多样化的实时需求,更加快捷的为用户提供更优质的服务。
本发明为解决上述技术问题采用的技术方案为:一种基于用户兴趣的服务资源检索方法,首先,定义文档集合D中的文档总数为N,任一属于集合D的文档都可以表示为t维向量的形式:其中,t是索引词的个数,向量分量代表第i个索引词在文档中所具有的权重,然后再根据用户的兴趣进行检索,其特征在于,所述根据用户的兴趣进行检索的具体步骤如下:
步骤一、获取用户兴趣信息,然后用向量或图形的方法将兴趣信息进行形式化的表示,即形成用户兴趣剖像;
步骤二、借助分类目录表征用户兴趣,并将分类目录映射为树状结构形成用户兴趣树,用户兴趣树中的节点表示类目,该节点的权值表示用户对该节点表示的类目的感兴趣程度;
步骤三、使用二元组兴趣向量来表征用户兴趣剖像,则用户i的兴趣剖像构成的兴趣剖像库表征如下:
式中,代表分类目录中的一个类目,表示分类目录中类目的总数;
为在用户兴趣树的权重,表示用户对的感兴趣程度, ;
步骤四、由公式
中可以得出某文档所属的各分类的类目,根据其所属的各分类的类目计算该文档的兴趣相关因子J,该文档的兴趣相关因子J等于该文档所属各类目的权重值之和;
步骤五、提取用户检索请求中的提问向量,然后利用矩阵分析中的空间两向量之间相似度公式计算提问向量与文档向量之间的相似度,记做该文档的相关因子I,并取出I值最高的前m篇文档;
步骤六、从用户兴趣剖像库中提取出该用户的兴趣剖像,然后根据步骤四和步骤五得到的兴趣相关因子J和文档相关因子I,利用如下公式计算出文档与提问向量的兴趣相似度:
式中,为兴趣权数,,用于反映文档的兴趣相关因子对结果的影响程度;
步骤七、根据步骤六得出的兴趣相似度SCOREi的大小对这m篇文档进行排序并在界面上显示,优先推荐这m篇文章中与用户兴趣相关的文档;
步骤八、跟踪并记录用户对检索结果的访问情况,以此来更新该用户的兴趣剖像库。
所述步骤八中更新该用户的兴趣剖像库,其具体步骤如下:
①始化用户兴趣树,使每个节点均对应一原始权值,该数值表征用户对此节点下所有文档的访问次数;
②子节点权值不变,重新计算每一个非叶子节点的权值: 其中是与非叶子节点的子节点,x为该非叶子节点的子节点数目;
所述叶子节点是指用户兴趣树中最小的分类类目,非叶子节点是指用户兴趣树中具有子分类的分类类目;
③若用户访问某些节点中的文档,则重复以上两个步骤;
③根据步骤②中更新后的非叶子节点的权值来更新用户兴趣剖像
式中,,为兴趣树中节点总数,则即为用户个人兴趣剖像。
有益效果:本发明在对服务资源进行检索时,通过对用户兴趣的提取并分析,并使用兴趣路径上各节点权值的和作为兴趣相关因子,准确建立用户兴趣模型,随着时间推移,用户兴趣也在不断变化,及时对该用户兴趣模型进行更新,保证了用户兴趣模型的时间可靠性,使得检索更加符合用户的实际需要,实现了基于用户兴趣的个性化服务资源检索,明显改善了检索效果,降低了对海量的网络服务资源检索的时间,效率有明显的提高。
附图说明
图1为本发明所述的用户兴趣树的示意图;
图2为本发明对分类服务资源进行检索时的检索流程图。
具体实施方式
一种基于用户兴趣的服务资源检索方法,首先,定义文档集合D中的文档总数为N,任一属于集合D的文档都可以表示为t维向量的形式:其中,t是索引词的个数,向量分量代表第i个索引词在文档中所具有的权重,然后再根据用户的兴趣进行检索,所述根据用户的兴趣进行检索的具体步骤如下:
步骤一、获取用户兴趣信息,然后用向量或图形的方法将兴趣信息进行形式化的表示,即形成用户兴趣剖像;
步骤二、借助分类目录表征用户兴趣,并将分类目录映射为树状结构形成用户兴趣树,用户兴趣树中的节点表示类目,该节点的权值表示用户对该节点表示的类目的感兴趣程度;
步骤三、使用二元组兴趣向量来表征用户兴趣剖像,则用户i的兴趣剖像构成的兴趣剖像库表征如下:
式中,代表分类目录中的一个类目,表示分类目录中类目的总数。
为在用户兴趣树的权重,表示用户对的感兴趣程度, ;
步骤四、由公式
中可以得出某文档所属的各分类的类目,根据其所属的各分类的类目计算该文档的兴趣相关因子J,该文档的兴趣相关因子J等于该文档所属各类目的权重值之和;
步骤五、提取用户检索请求中的提问向量,然后利用矩阵分析中的空间两向量之间相似度公式计算提问向量与文档向量之间的相似度,记做该文档的相关因子I,并取出I值最高的前m篇文档;
步骤六、从用户兴趣剖像库中提取出该用户的兴趣剖像,然后根据步骤四和步骤五得到的兴趣相关因子J和文档相关因子I,利用如下公式计算出文档与提问向量的兴趣相似度:
式中,为兴趣权数,,用于反映文档的兴趣相关因子对结果的影响程度;
步骤七、根据步骤六得出的兴趣相似度SCOREi的大小对这m篇文档进行排序并在界面上显示,优先推荐这m篇文章中与用户兴趣相关的文档;
步骤八、跟踪并记录用户对检索结果的访问情况,以此来更新该用户的兴趣剖像库。
所述步骤八中更新该用户的兴趣剖像库,其具体步骤如下:
①始化用户兴趣树,使每个节点均对应一原始权值,该数值表征用户对此节点下所有文档的访问次数;
②叶子节点权值不变,重新计算每一个非叶子节点的权值:其中是与非叶子节点的子节点,x为该非叶子节点的子节点数目;
所述叶子节点是指用户兴趣树中最小的分类类目,非叶子节点是指用户兴趣树中具有子分类的分类类目;
③若用户访问某些节点中的文档,则重复以上两个步骤;
④根据步骤②中更新后的非叶子节点的权值来更新用户兴趣剖像
式中,,为兴趣树中节点总数,则即为用户个人兴趣剖像。
本发明上述步骤一中,所述的获取用户兴趣信息是指采用特定的方法获取能够反映用户兴趣的信息,以生成能表示用户兴趣的特征文件,即用户兴趣剖像。如果用户经常访问某一页面或文档,或者用户在某一页面或文档上停留较长的时间,则说明用户对该页面或该文档感兴趣。这表明,用户对检索结果的访问情况等用户行为能够反映用户的兴趣。为了学习用户的兴趣,可以使用计算机对这些访问信息进行跟踪和记录并进行挖掘,从中抽取出能反映用户兴趣的信息,进而生成用户兴趣剖像;
将获取到的用户兴趣信息用向量或图形的方法进行形式化的表示,即形成用户兴趣剖像。它存储在计算机上,是高度结构化的,并且能够自动生成和动态更新。本文提到的用户兴趣剖像或兴趣剖像均指用户个人兴趣剖像。建立用户兴趣剖像是实现个性化检索的基础和关键。
本发明上述步骤二中,所述的用户兴趣树的具体含义如下:
在多数检索中,用户其实是对某一主题感兴趣。如果用户对检出的某篇文档感兴趣,则他对同一主题的其它文档应当有相同的兴趣。而分类法中同一类目下的文档拥有相同的主题,因此借助分类目录来表示用户兴趣,并将其映射为树状结构,即用户兴趣树(如附图1所示)。用户兴趣树中的节点表示类目。在实际检索中,用户对每个分类的兴趣并不相同,因此在兴趣树中,代表用户兴趣度的节点权值也不同。对语料库中的文档进行分类,则每篇文档均包含在兴趣树的某一节点中;相应地,兴趣树中每篇文档都有其“兴趣路径”。如附图1的兴趣树中,文档《姚明伤愈复出重返火箭》的兴趣路径是:体育~篮球~NBA。文档的兴趣相关因子表示用户对这篇文档的偏好程度,它等于文档所在的兴趣路径上的所有节点的权值的和。上例中,((姚明伤愈复出重返火箭》的兴趣相关因子为:J=w[体育]+w[篮球]+w[NBA]。
Claims (2)
1.一种基于用户兴趣的服务资源检索方法,首先,定义文档集合D中的文档总数为N,任一属于集合D的文档都可以表示为t维向量的形式:其中,t是索引词的个数,向量分量代表第i个索引词在文档中所具有的权重,然后再根据用户的兴趣进行检索,其特征在于,所述根据用户的兴趣进行检索的具体步骤如下:
步骤一、获取用户兴趣信息,然后用向量或图形的方法将兴趣信息进行形式化的表示,即形成用户兴趣剖像;
步骤二、借助分类目录表征用户兴趣,并将分类目录映射为树状结构形成用户兴趣树,用户兴趣树中的节点表示类目,该节点的权值表示用户对该节点表示的类目的感兴趣程度;
步骤三、使用二元组兴趣向量来表征用户兴趣剖像,则用户i的兴趣剖像构成的兴趣剖像库表征如下:
式中, 代表分类目录中的一个类目,表示分类目录中类目的总数;
为在用户兴趣树的权重,表示用户对的感兴趣程度, ;
步骤四、由公式
中可以得出某文档所属的各分类的类目,根据其所属的各分类的类目计算该文档的兴趣相关因子J,该文档的兴趣相关因子J等于该文档所属各类目的权重值之和;
步骤五、提取用户检索请求中的提问向量,然后利用矩阵分析中的空间两向量之间相似度公式计算提问向量与文档向量之间的相似度,记做该文档的相关因子I,并取出I值最高的前m篇文档;
步骤六、从用户兴趣剖像库中提取出该用户的兴趣剖像,然后根据步骤四和步骤五得到的兴趣相关因子J和文档相关因子I,利用如下公式计算出文档与提问向量的兴趣相似度:
式中,为兴趣权数,,用于反映文档的兴趣相关因子对结果的影响程度;
步骤七、根据步骤六得出的兴趣相似度SCOREi的大小对这m篇文档进行排序并在界面上显示,优先推荐这m篇文章中与用户兴趣相关的文档;
步骤八、跟踪并记录用户对检索结果的访问情况,以此来更新该用户的兴趣剖像库。
2.根据权利要求1所述的一种基于用户兴趣的服务资源检索方法,其特征在于:所述步骤八中更新该用户的兴趣剖像库,其具体步骤如下:
①初始化用户兴趣树,使每个节点均对应一原始权值,该数值表征用户对此节点下所有文档的访问次数;
②叶子节点权值不变,重新计算每一个非叶子节点的权值: 其中是与非叶子节点的子节点,x为该非叶子节点的子节点数目;
所述叶子节点是指用户兴趣树中最小的分类类目,非叶子节点是指用户兴趣树中具有子分类的分类类目;
③若用户访问某些节点中的文档,则重复以上两个步骤;
④根据步骤②中更新后的非叶子节点的权值来更新用户兴趣剖像
式中,,为兴趣树中节点总数,则即为用户个人兴趣剖像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410015693.1A CN103761286B (zh) | 2014-01-14 | 2014-01-14 | 一种基于用户兴趣的服务资源检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410015693.1A CN103761286B (zh) | 2014-01-14 | 2014-01-14 | 一种基于用户兴趣的服务资源检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103761286A CN103761286A (zh) | 2014-04-30 |
CN103761286B true CN103761286B (zh) | 2017-03-08 |
Family
ID=50528523
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410015693.1A Active CN103761286B (zh) | 2014-01-14 | 2014-01-14 | 一种基于用户兴趣的服务资源检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103761286B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105100165B (zh) * | 2014-05-20 | 2017-11-14 | 深圳市腾讯计算机***有限公司 | 网络服务推荐方法和装置 |
US10664500B2 (en) * | 2015-12-29 | 2020-05-26 | Futurewei Technologies, Inc. | System and method for user-behavior based content recommendations |
WO2018000270A1 (zh) * | 2016-06-29 | 2018-01-04 | 深圳狗尾草智能科技有限公司 | 一种基于用户画像的个性化回答生成方法及*** |
AU2018201691B2 (en) * | 2017-03-10 | 2018-12-06 | Accenture Global Solutions Limited | Job allocation |
CN107895045A (zh) * | 2017-12-02 | 2018-04-10 | 天津大行道动漫文化发展有限公司 | 一种基于用户喜爱度的动漫素材检索*** |
CN109492687A (zh) * | 2018-10-31 | 2019-03-19 | 北京字节跳动网络技术有限公司 | 用于处理信息的方法和装置 |
-
2014
- 2014-01-14 CN CN201410015693.1A patent/CN103761286B/zh active Active
Non-Patent Citations (1)
Title |
---|
"基于用户兴趣的查询扩展算法研究";马春光;《中国优秀硕士学位论文全文数据库 信息科技辑》;20090615(第6期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN103761286A (zh) | 2014-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104765769B (zh) | 一种基于词矢量的短文本查询扩展及检索方法 | |
CN104239513B (zh) | 一种面向领域数据的语义检索方法 | |
CN103761286B (zh) | 一种基于用户兴趣的服务资源检索方法 | |
Sarawagi et al. | Open-domain quantity queries on web tables: annotation, response, and consensus models | |
CN103838833A (zh) | 基于相关词语语义分析的全文检索*** | |
CN105893585B (zh) | 一种结合标签数据的二部图模型学术论文推荐方法 | |
CN103605665A (zh) | 一种基于关键词的评审专家智能检索与推荐方法 | |
CN110110225B (zh) | 基于用户行为数据分析的在线教育推荐模型及构建方法 | |
CN107291895B (zh) | 一种快速的层次化文档查询方法 | |
CN103226578A (zh) | 面向医学领域的网站识别和网页细分类的方法 | |
CN108647322B (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
Liu et al. | Efficient similar region search with deep metric learning | |
CN103778206A (zh) | 一种网络服务资源的提供方法 | |
CN111460252A (zh) | 一种基于网络舆情分析的自动化搜索引擎方法及*** | |
CN105849720A (zh) | 视觉语义复合网络以及用于形成该网络的方法 | |
Papadopoulos et al. | Image clustering through community detection on hybrid image similarity graphs | |
CN110888991A (zh) | 一种弱标注环境下的分段式语义标注方法 | |
US20140047089A1 (en) | System and method for supervised network clustering | |
Liu et al. | Behavior2vector: Embedding users’ personalized travel behavior to vector | |
CN109992784A (zh) | 一种融合多模态信息的异构网络构建和距离度量方法 | |
JP2012079187A (ja) | 特徴ベクトル生成装置、特徴ベクトル生成方法及びプログラム | |
Hu et al. | EGC: A novel event-oriented graph clustering framework for social media text | |
CN107133274B (zh) | 一种基于图知识库的分布式信息检索集合选择方法 | |
Ma et al. | Matching descriptions to spatial entities using a Siamese hierarchical attention network | |
Huang et al. | Tag refinement of micro-videos by learning from multiple data sources |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |