CN103870461B - 主题推荐方法、装置和服务器 - Google Patents

主题推荐方法、装置和服务器 Download PDF

Info

Publication number
CN103870461B
CN103870461B CN201210528164.2A CN201210528164A CN103870461B CN 103870461 B CN103870461 B CN 103870461B CN 201210528164 A CN201210528164 A CN 201210528164A CN 103870461 B CN103870461 B CN 103870461B
Authority
CN
China
Prior art keywords
keyword
correlation
degree
current page
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210528164.2A
Other languages
English (en)
Other versions
CN103870461A (zh
Inventor
卢克
郭强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201210528164.2A priority Critical patent/CN103870461B/zh
Priority to PCT/CN2013/084026 priority patent/WO2014090007A1/zh
Publication of CN103870461A publication Critical patent/CN103870461A/zh
Priority to US14/735,136 priority patent/US10169449B2/en
Application granted granted Critical
Publication of CN103870461B publication Critical patent/CN103870461B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/134Hyperlinking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种主题推荐方法、装置和服务器,属于网络技术领域。所述方法包括:根据当前页面链接,获取与所述当前页面的主题关联的推荐主题;在所述当前页面上显示所述推荐主题。采用本发明实施例提供的技术方案,以页面链接为索引,获取与主题关联的推荐主题,而不局限于与该主题相关的页面,实现了向其他主题延伸的目的,扩大了浏览范围,充分利用网络为用户提供更多的服务。

Description

主题推荐方法、装置和服务器
技术领域
本发明涉及网络技术领域,特别涉及一种主题推荐方法、装置和服务器。
背景技术
随着网络技术的发展,目前博客类和电子商务类网站中,都有实现主题相关内容的推荐。该推荐主题相关内容的实现过程一般包括:当用户浏览一个页面时,***根据当前页面的标题和正文,通过文档相似度计算,找到***中与当前页面相似其他页面,然后结合页面的热度、质量等因素,进行排序,将排名靠前的页面作为主题相关内容推荐给用户。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
在对主题相关内容进行推荐时,推荐的范围受主题的局限,仅能够推荐站内或网络上涉及该主题的一个或多个页面,而不能向其他主题延伸,限制了用户的浏览范围,不能充分利用网络为用户提供更多的服务。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种主题推荐方法、装置和服务器。所述技术方案如下:
一种主题推荐方法,所述方法包括:
根据当前页面链接,获取与所述当前页面的主题关联的推荐主题;
在所述当前页面上显示所述推荐主题。
根据当前页面链接,获取与所述当前页面的主题关联的推荐主题,包括:
获取与所述当前页面链接之间具有第一相关度的关键词,所述第一相关度的关键词为所述当前页面作为被点击的搜索结果时所使用的关键词;
和/或,
获取与所述当前页面链接之间具有第二相关度的关键词,所述第二相关度的关键词为所述当前页面作为未被点击的搜索结果时所使用的关键词;
和/或,
获取与所述当前页面链接之间具有第三相关度的关键词,所述第三相关度的关键词为与所述当前页面相关页面的推荐主题;
和/或,
获取与所述当前页面之间具有第四相关度的关键词,所述第四相关度的关键词为所述当前页面的内容中的关键词;
将获取到的关键词作为与所述当前页面的主题关联的推荐主题。
获取与所述当前页面链接之间具有第三相关度的关键词,包括:
获取与所述当前页面相关页面的推荐主题,将所述相关页面的推荐主题作为与所述当前页面链接之间具有第三相关度的关键词。
获取与所述当前页面之间具有第四相关度的关键词,包括:
根据预设规则,提取所述当前页面的内容中的关键词,将提取的关键词作为与所述当前页面之间具有第四相关度的关键词。
将获取到的关键词作为与所述当前页面的主题关联的推荐主题,包括:
去掉获取到的关键词中重复的关键词和相似度大于预设阈值的关键词,将剩余的关键词作为与所述当前页面的主题关联的推荐主题。
根据当前页面链接,获取与所述当前页面的主题关联的推荐主题之前,所述方法还包括:
当根据搜索关键词进行搜索时,关联所述搜索关键词和搜索结果的页面链接,确定所述搜索关键词和搜索结果的页面链接之间的相关度。
当根据搜索关键词进行搜索时,关联所述搜索关键词和搜索结果的页面链接,确定所述搜索关键词和搜索结果的页面链接之间的相关度,包括:
当根据搜索关键词进行搜索时,关联所述搜索关键词和搜索结果中被用户点击的页面链接,确定所述搜索关键词和搜索结果中被用户点击的页面链接之间为第一相关度;
和/或,
当根据搜索关键词进行搜索时,关联所述搜索关键词和搜索结果中未被用户点击的页面链接,确定所述搜索关键词和搜索结果中未被用户点击的页面链接之间为第二相关度;
其中,第一相关度高于第二相关度。
当根据搜索关键词进行搜索时,关联所述搜索关键词和搜索结果的页面链接,确定所述搜索关键词和搜索结果的页面链接之间的相关度,包括:
针对任一页面链接,统计所述该页面链接所关联的搜索关键词,去掉重复的搜索关键词和相似度大于预设阈值的搜索关键词,确定剩余的搜索关键词与所述任一页面链接之间的相关度。
一种主题推荐装置,包括:
推荐主题获取模块,用于根据当前页面链接,获取与所述当前页面的主题关联的推荐主题;
显示模块,用于在所述当前页面上显示所述推荐主题。
所述推荐主题获取模块包括:
第一获取单元,用于获取与所述当前页面链接之间具有第一相关度的关键词,所述第一相关度的关键词为所述当前页面作为被点击的搜索结果时所使用的关键词;和/或,第二获取单元,用于获取与所述当前页面链接之间具有第二相关度的关键词,所述第二相关度的关键词为所述当前页面作为未被点击的搜索结果时所使用的关键词;和/或,第三获取单元,用于获取与所述当前页面链接之间具有第三相关度的关键词,所述第三相关度的关键词为与所述当前页面相关页面的推荐主题;和/或,第四获取单元,用于获取与所述当前页面之间具有第四相关度的关键词,所述第四相关度的关键词为所述当前页面的内容中的关键词;
确定单元,用于将获取到的关键词作为与所述当前页面的主题关联的推荐主题。
所述第三获取单元具体用于获取与所述当前页面相关页面的推荐主题,将所述相关页面的推荐主题作为与所述当前页面链接之间具有第三相关度的关键词。
所述第四获取单元具体用于根据预设规则,提取所述当前页面的内容中的关键词,将提取的关键词作为与所述当前页面之间具有第四相关度的关键词。
所述确定单元具体用于去掉获取到的关键词中重复的关键词和相似度大于预设阈值的关键词,将剩余的关键词作为与所述当前页面的主题关联的推荐主题。
所述装置还包括:
关联模块,用于当根据搜索关键词进行搜索时,关联所述搜索关键词和搜索结果的页面链接,确定所述搜索关键词和搜索结果的页面链接之间的相关度。
所述关联模块具体用于当根据搜索关键词进行搜索时,关联所述搜索关键词和搜索结果中被用户点击的页面链接,确定所述搜索关键词和搜索结果中被用户点击的页面链接之间为第一相关度;
和/或,
所述关联模块用于当根据搜索关键词进行搜索时,关联所述搜索关键词和搜索结果中未被用户点击的页面链接,确定所述搜索关键词和搜索结果中未被用户点击的页面链接之间为第二相关度;
其中,第一相关度高于第二相关度。
所述关联模块具体用于针对任一页面链接,统计所述任一页面链接所关联的搜索关键词,去掉重复的搜索关键词和相似度大于预设阈值的搜索关键词,确定剩余的搜索关键词与所述任一页面链接之间的相关度。
一种服务器,所述服务器包括上述任一项所述的主题推荐装置。
本发明实施例提供的一种主题推荐方法、装置和服务器,通过根据当前页面链接,获取与所述当前页面的主题关联的推荐主题;在所述当前页面上显示所述推荐主题。采用本发明实施例提供的技术方案,以页面链接为索引,获取与主题关联的推荐主题,而不局限于与该主题相关的页面,实现了向其他主题延伸的目的,扩大了浏览范围,充分利用网络为用户提供更多的服务。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种主题推荐方法的流程图;
图2是本发明实施例提供的一种主题推荐方法的流程图;
图3是本发明实施例提供的一种主题推荐装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
图1是本发明实施例提供的一种主题推荐方法的流程图。参见图1,所述方法包括:
101、根据当前页面链接,获取与所述当前页面的主题关联的推荐主题;
其中,该当前页面可以是指论坛场景中的帖子、或博客中的文章、或其他网站中的网页等等,而当前页面的主题可以是指该当前页面的标题信息,如帖子标题等。
102、在所述当前页面上显示所述推荐主题。
具体地,在当前页面的指定区域显示该推荐主题,推荐主题可以为一个或多个,在本发明实施例中不作限定。
采用本发明实施例提供的技术方案,以页面链接为索引,获取与主题关联的推荐主题,而不局限于与该主题相关的页面,实现了向其他主题延伸的目的,扩大了浏览范围,充分利用网络为用户提供更多的服务。
可选地,基于图1所示实施例的技术方案,步骤101“根据当前页面链接,获取与所述当前页面的主题关联的推荐主题”,包括步骤101A1-101A4中至少一个项和步骤101B:
101A1、获取与所述当前页面链接之间具有第一相关度的关键词,所述第一相关度的关键词为所述当前页面作为被点击的搜索结果时所使用的关键词;
101A2、获取与所述当前页面链接之间具有第二相关度的关键词,所述第二相关度的关键词为所述当前页面作为未被点击的搜索结果时所使用的关键词;
其中,第一相关度的关键词和第二相关度的关键词是根据服务器保存的历史搜索记录以及用户的浏览行为得到的。
其中,所述第一相关度的关键词为所述当前页面作为被点击的搜索结果时所使用的关键词;当使用关键词进行搜索时,得到多个搜索结果,将该关键词确定为被用户点击即被用户浏览的搜索结果的页面链接所关联的第一相关度的关键词。
所述第二相关度的关键词为所述当前页面作为未被点击的搜索结果时所使用的关键词;当使用关键词进行搜索时,得到多个搜索结果,将该关键词确定为未被用户点击即被用户浏览的搜索结果的页面链接所关联的第二相关度的关键词。
101A3、获取与所述当前页面链接之间具有第三相关度的关键词,所述第三相关度的关键词为与所述当前页面相关页面的推荐主题;
在本发明实施例中,对于各个页面来说,每个页面均有其推荐主题,而对于每个页面来说,根据现有技术,可以得到其相关页面,则可获取其相关页面的推荐主题,作为当前页面链接之间具有第三相关度的关键词。
101A4、获取与所述当前页面之间具有第四相关度的关键词,所述第四相关度的关键词为所述当前页面的内容中的关键词;
在本发明实施例中,对于各个页面来说,可对其页面内容进行分析,以获取内容中的关键词,将当前页面内容中的关键词作为与当前页面链接之间具有第四相关度的关键词。
在上述步骤101A1-101A4中,服务器根据历史搜索记录,保存页面链接以及与其具有第一相关度和第二相关度的关键词的对应关系,因此,可根据该对应关系,可获取与所述当前页面链接之间具有第一相关度的关键词和与所述当前页面链接之间具有第二相关度的关键词,优选地,还可以先获取与所述当前页面链接之间具有第一相关度的关键词,当具有第一相关度的关键词的个数达到预设数值,则执行步骤101B,而当具有第一相关度的关键词的个数未达到预设数值,则获取与所述当前页面链接之间具有第二相关度的关键词,当具有第一相关度的关键词和具有第二相关度的关键词的个数和达到预设数值,则执行步骤101B,而当未达到预设数值,则执行步骤101A3,如果经过步骤101A1-101A3所获取的关键词的个数和值达到预设数值,则执行步骤101B,而当未达到预设数值,则执行步骤101A4。
101B、将获取到的关键词作为与所述当前页面的主题关联的推荐主题。
此时,获取到的关键词中可以包括步骤101A1-101A4中任一步骤得到的关键词。
进一步可选地,基于图1所示实施例的技术方案,步骤101A3“获取与所述当前页面链接之间具有第三相关度的关键词”,包括:获取与所述当前页面相关页面的推荐主题,将所述相关页面的推荐主题作为与所述当前页面链接之间具有第三相关度的关键词。
其中,当前页面的相关页面是指与当前页面的主题词或页面内容相关的页面,本领域技术人员可以获知,该相关页面可以由主题词匹配或页面标签的关联关系获取,在此不再赘述。而由于相关页面可根据其页面链接获取到推荐主题,因此可以根据相关页面的页面链接,获取相关页面的推荐主题。通过页面之间的关联关系,获取相关页面的推荐主题,可以进一步扩展推荐主题的来源,且能够通过对相关页面的挖掘,为用户提供更全面的推荐。
采用本发明实施例提供的技术方案,以页面链接为索引,获取与主题关联的推荐主题,而不局限于与该主题相关的页面,实现了向其他主题延伸的目的,扩大了浏览范围,充分利用网络为用户提供更多的服务。进一步地,在对用户的浏览行为和搜索行为进行挖掘的基础上,得到页面相关的主题词毕竟不能涵盖所有的页面,冷门的页面,很少能被用户浏览和检索到。特别是新增页面更是有这个问题,不能通过用户的浏览行为和检索行为获取到页面主题词。为了降低无主题词推荐出现的几率,采用与当前页面相关页面的推荐turion,作为当前页面的推荐主题的补充。
进一步可选地,基于图1所示实施例的技术方案,步骤101A4“获取与所述当前页面之间具有第四相关度的关键词”,包括:根据预设规则,提取所述当前页面的内容中的关键词,将提取的关键词作为与所述当前页面之间具有第四相关度的关键词。对于针对没有用户点击、用户搜索行为的帖子,除了使用其相关页面的推荐主题进行补充之外,还可以通过提取当前页面的内容中的关键词,来补充该当前页面的推荐主题。其中,页面内容的关键词提取规则可以如下:对页面标题、内容进行分词,获取分词结果;按照分词结果的词的TF*idf进行排序,高TF*idf词>低TF*idf词。对于相同TF*idf的分词结果按照词性进行排序,名词>动词>形容词。相同词性的分词结果按照长度进行排序,长词>短词。根据页面实际情况,选择排名靠前的3-5个分词结果和其同义词、扩展词作为页面内容的关键词。本领域技术人员可以获知,站点TF*idf用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在单个文档中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
可选地,基于图1所示实施例的技术方案,步骤102“将获取到的关键词作为与所述当前页面的主题关联的推荐主题”,包括:去掉获取到的关键词中重复的关键词和相似度大于预设阈值的关键词,将剩余的关键词作为与所述当前页面的主题关联的推荐主题。通过进一步对获取到的关键词的筛选,可以提高为用户推荐的准确性和直观性。
可选地,基于图1所示实施例的技术方案,步骤101“根据当前页面链接,获取与所述当前页面的主题关联的推荐主题”之前,所述方法还包括:当根据搜索关键词进行搜索时,关联所述搜索关键词和搜索结果的页面链接,确定所述搜索关键词和搜索结果的页面链接之间的相关度。网站页面的浏览中,有相当一部分页面的浏览是通过搜索引擎带来。搜索引擎同时会有用户搜索的搜索关键词,这样就建立了搜索关键词和页面链接之间的相关性,而且这种相关性是得到用户确认过的(不包括误操作),有很好的质量保证。当用户根据搜索关键词进行搜索时,会得到多个搜索结果,通过该搜索过程,可以将该搜索结果和搜索关键词关联起来,而该多个搜索结果中包括用户点击的和未被用户点击的,因此,还可以根据搜索结果的被点击情况,确定所述搜索关键词和搜索结果的页面链接之间的相关度,以便在推荐主题时,根据页面链接所关联的关键词的具体情况,为该页面进行主题推荐。
进一步可选地,基于图1所示实施例的技术方案,当根据搜索关键词进行搜索时,关联所述搜索关键词和搜索结果的页面链接,确定所述搜索关键词和搜索结果的页面链接之间的相关度,包括:当根据搜索关键词进行搜索时,关联所述搜索关键词和搜索结果中被用户点击的页面链接,确定所述搜索关键词和搜索结果中被用户点击的页面链接之间为第一相关度;和/或,当根据搜索关键词进行搜索时,关联所述搜索关键词和搜索结果中未被用户点击的页面链接,确定所述搜索关键词和搜索结果中未被用户点击的页面链接之间为第二相关度;其中,第一相关度高于第二相关度。
在本实施例中,被用户点击的搜索结果,可以认为是用户感兴趣的,则将被点击的搜索结果的页面链接和该搜索关键词之间确定为较高的相关度,即第一相关度,而对于未被用户点击的搜索结果,这部分搜索结果可能没有被用户浏览,可以认为相关性较弱,则将未被点击的搜索结果的页面链接和该搜索关键词之间确定为较低的相关度,即第二相关度。
进一步可选地,基于图1所示实施例的技术方案,当根据搜索关键词进行搜索时,关联所述搜索关键词和搜索结果的页面链接,确定所述搜索关键词和搜索结果的页面链接之间的相关度,包括:针对任一页面链接,统计所述任一页面链接所关联的搜索关键词,去掉重复的搜索关键词和/或相似度大于预设阈值的搜索关键词,确定剩余的搜索关键词与所述任一页面链接之间的相关度。可包括该下述步骤(一)、(二)和(三)种任一步骤:
(一)针对任一页面链接,统计所述任一页面链接所关联的搜索关键词的出现次数,去掉重复的搜索关键词,确定剩余的搜索关键词与所述任一页面链接之间的相关度;
在本实施例中,还可以对已经建立了相关性的搜索关键字进行进一步的处理,对于每一个页面链接来说,对于与其具有第一相关性的搜索关键词,统计搜索关键词的出现次数,去掉重复的搜索关键词,将剩余的搜索关键词确定为与页面链接具有第一相关性的关键词。对于与其具有第二相关性的搜索关键词,统计搜索关键词的出现次数,去掉重复的搜索关键词,将剩余的搜索关键词确定为与页面链接具有第二相关性的关键词。
(二)针对任一页面链接,统计所述任一页面链接所关联的搜索关键词,计算所述任一页面链接所关联的搜索关键词之间的相似度,去掉相似度大于第二预设阈值的搜索关键词,确定剩余的搜索关键词与所述任一页面链接之间的相关度;
在本实施例中,还可以对已经建立了相关性的搜索关键字进行进一步的处理,对于每一个页面链接来说,对于与其具有第一相关性的搜索关键词,计算所述任一页面链接所关联的搜索关键词之间的相似度,去掉相似度大于二预设阈值的搜索关键词,将剩余的搜索关键词确定为与页面链接具有第二相关性的关键词。对于与其具有第二相关性的搜索关键词,计算所述任一页面链接所关联的搜索关键词之间的相似度,去掉相似度大于二预设阈值的搜索关键词,将剩余的搜索关键词确定为与页面链接具有第二相关性的关键词。
(三)针对任一页面链接,统计所述任一页面链接所关联的搜索关键词,去掉重复的关键搜索词和相似度大于第二预设阈值的搜索关键词,确定剩余的搜索关键词与所述任一页面链接之间的相关度。
该步骤(三)是上述步骤(一)和(二)的结合,通过上述内容可以获知,通过对重复出现的关键搜索词和相似度的筛选,可以排除与页面关联性较小的搜索关键词,更有效而准确的将关键词和页面链接关联起来,能够在后续的推荐主题过程中提高推荐主题的准确性。
需要说明的是,本发明实施例中所提到的各种预设值均可以由技术人员进行设置,对其具体数值本发明实施例不做具体限定。
本发明实施例提供的一种主题推荐方法,通过根据当前页面链接,获取与所述当前页面的主题关联的推荐主题;在所述当前页面上显示所述推荐主题。采用本发明实施例提供的技术方案,以页面链接为索引,获取与主题关联的推荐主题,而不局限于与该主题相关的页面,实现了向其他主题延伸的目的,扩大了浏览范围,充分利用网络为用户提供更多的服务。
图2是本发明实施例提供的一种主题推荐方法的流程图。以用户浏览论坛中的任一页面为例进行说明,参见图2,该实施例具体包括:
201、服务器接收到当前页面的请求;
在本实施例中,该请求可以为对页面的浏览请求,服务器可以根据该请求为用户显示当前页面。而在另一发明实施例中,该请求可以为其他请求,如,对于音乐试听型网站来说,该请求可以为对当前页面对应的曲目的试听请求。
其中,该请求携带当前页面的页面标识,如帖子ID或曲目ID等。
202、获取与所述当前页面链接之间具有第一相关度的关键词;
其中,该具有第一相关度的关键词是根据用户的搜索时的浏览行为挖掘而得到。
203、判断获取的第一相关度的关键词的个数是否大于预设数值,如果是,执行步骤209,如果否,执行步骤204;
其中,该预设数值可以是该网页上要求显示的推荐主题个数,可由技术人员进行设置,或用户根据自身的浏览习惯进行调整。
204、获取与所述当前页面链接之间具有第二相关度的关键词;
其中,该具有第二相关度的关键词是根据用户的搜索行为获取的。
205、判断获取的第一相关度和第二相关度的关键词的个数和值是否大于预设数值,如果是,执行步骤209,如果否,执行步骤206;
206、获取与所述当前页面链接之间具有第三相关度的关键词;
需要说明的是,该第一相关度、第二相关度的关键词通过用户浏览行为和检索行为挖掘出来的主题词,可以在用户离线时生成,且该浏览行为和搜索行为并不限于当前用户的行为,而是通过搜索引擎所得到的多个用户的行为。
207、判断获取的第一相关度、第二相关度和第三相关度的关键词的个数和值是否大于预设数值,如果是,执行步骤209,如果否,执行步骤208;
208、获取与所述当前页面之间具有第四相关度的关键词;
通过相关页面的关键词,补充当前页面的关键词,降低了无结果率。
209、将获取到的关键词作为与所述当前页面的主题关联的推荐主题;
210、在所述当前页面上显示所述推荐主题。
在本实施例中,通过当前页面连接的相关行为挖掘而得到的词语更能反映用户的需求,且由于搜索行为是以页面内容为基础的,如果页面没有相关的内容,通过查询的方式也不能将用户带到当页面来,所以通过搜索行为将搜索关键词和搜索结果关联,以供后续推荐使用,在一定程度上反映了页面的主题。实践证明,该方法挖掘出来的页面推荐主题更能吸引用户,从而获得更好的用户点击。
图3是本发明实施例提供的一种主题推荐装置的结构示意图。参见图3,包括:
推荐主题获取模块31,用于根据当前页面链接,获取与所述当前页面的主题关联的推荐主题;
显示模块32,用于在所述当前页面上显示所述推荐主题。
所述推荐主题获取模块31包括:
第一获取单元,用于获取与所述当前页面链接之间具有第一相关度的关键词,所述第一相关度的关键词为所述当前页面作为被点击的搜索结果时所使用的关键词;和/或,第二获取单元,用于获取与所述当前页面链接之间具有第二相关度的关键词,所述第二相关度的关键词为所述当前页面作为未被点击的搜索结果时所使用的关键词;和/或,第三获取单元,用于获取与所述当前页面链接之间具有第三相关度的关键词,所述第三相关度的关键词为与所述当前页面相关页面的推荐主题;和/或,第四获取单元,用于获取与所述当前页面之间具有第四相关度的关键词,所述第四相关度的关键词为所述当前页面的内容中的关键词;
确定单元,用于将获取到的关键词作为与所述当前页面的主题关联的推荐主题。
所述第三获取单元具体用于获取与所述当前页面相关页面的推荐主题,将所述相关页面的推荐主题作为与所述当前页面链接之间具有第三相关度的关键词。
所述第四获取单元具体用于根据预设规则,提取所述当前页面的内容中的关键词,将提取的关键词作为与所述当前页面之间具有第四相关度的关键词。
所述确定单元具体用于去掉获取到的关键词中重复的关键词和相似度大于预设阈值的关键词,将剩余的关键词作为与所述当前页面的主题关联的推荐主题。
所述装置还包括:
关联模块33,用于当根据搜索关键词进行搜索时,关联所述搜索关键词和搜索结果的页面链接,确定所述搜索关键词和搜索结果的页面链接之间的相关度。
所述关联模块33具体用于当根据搜索关键词进行搜索时,关联所述搜索关键词和搜索结果中被用户点击的页面链接,确定所述搜索关键词和搜索结果中被用户点击的页面链接之间为第一相关度;
和/或,
所述关联模块33用于当根据搜索关键词进行搜索时,关联所述搜索关键词和搜索结果中未被用户点击的页面链接,确定所述搜索关键词和搜索结果中未被用户点击的页面链接之间为第二相关度;
其中,第一相关度高于第二相关度。
所述关联模块33具体用于针对任一页面链接,统计所述任一页面链接所关联的搜索关键词,去掉重复的搜索关键词和相似度大于预设阈值的搜索关键词,确定剩余的搜索关键词与所述任一页面链接之间的相关度。
图3所示实施例的主题推荐装置,以包括上述所有可选技术方案为例描述本发明的技术方案,实际应用中,上述所有可选技术方案可以采用任何可结合的方式构成本发明实施例的可选技术方案,在此不再一一举例。
本实施例的主题推荐装置,通过采用上述模块实现主题推荐,与上述相关方法实施例的实现机制相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
需要说明的是:上述实施例提供的主题推荐装置在主题推荐时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的主题推荐装置与主题推荐方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本发明实施例还提供一种服务器,所述服务器包括上述任一种所述的主题推荐装置。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种主题推荐方法,其特征在于,应用于服务器,所述方法包括:
当根据搜索关键词进行搜索时,关联所述搜索关键词和搜索结果中被用户点击的页面链接,确定所述搜索关键词和搜索结果中被用户点击的页面链接之间为第一相关度;关联所述搜索关键词和搜索结果中未被用户点击的页面链接,确定所述搜索关键词和搜索结果中未被用户点击的页面链接之间为第二相关度;其中,第一相关度高于第二相关度;
根据当前页面链接,获取与所述当前页面的主题关联的推荐主题;
在所述当前页面的指定区域上显示所述推荐主题;
所述根据当前页面链接,获取与所述当前页面的主题关联的推荐主题,包括:
获取与所述当前页面链接之间具有第一相关度的关键词,所述第一相关度的关键词为所述当前页面作为被点击的搜索结果时所使用的关键词;
当具有所述第一相关度的关键词的个数未达到预设数值时,获取与所述当前页面链接之间具有第二相关度的关键词,所述第二相关度的关键词为所述当前页面作为未被点击的搜索结果时所使用的关键词,所述预设数值是所当前网页上要求显示的推荐主题个数;
当具有所述第一相关度的关键词和具有所述第二相关度的关键词的个数和未达到所述预设数值时,获取与所述当前页面链接之间具有第三相关度的关键词,所述第三相关度的关键词为与所述当前页面相关页面的推荐主题;
当具有所述第一相关度的关键词、具有所述第二相关度的关键词以及具有所述第三相关度的关键词的个数和未达到所述预设数值时,获取与所述当前页面之间具有第四相关度的关键词,所述第四相关度的关键词为所述当前页面的内容中的关键词;
去掉获取到的关键词中重复的关键词和相似度大于预设阈值的关键词,将剩余的关键词作为与所述当前页面的主题关联的推荐主题。
2.根据权利要求1所述的方法,其特征在于,获取与所述当前页面链接之间具有第三相关度的关键词,包括:
获取与所述当前页面相关页面的推荐主题,将所述相关页面的推荐主题作为与所述当前页面链接之间具有第三相关度的关键词。
3.根据权利要求1所述的方法,其特征在于,获取与所述当前页面之间具有第四相关度的关键词,包括:
根据预设规则,提取所述当前页面的内容中的关键词,将提取的关键词作为与所述当前页面之间具有第四相关度的关键词。
4.一种主题推荐装置,其特征在于,应用于服务器,包括:
推荐主题获取模块,用于根据当前页面链接,获取与所述当前页面的主题关联的推荐主题;
显示模块,用于在所述当前页面的指定区域上显示所述推荐主题;
所述推荐主题获取模块包括:
第一获取单元,用于获取与所述当前页面链接之间具有第一相关度的关键词,所述第一相关度的关键词为所述当前页面作为被点击的搜索结果时所使用的关键词;第二获取单元,用于当具有所述第一相关度的关键词的个数未达到预设数值时,获取与所述当前页面链接之间具有第二相关度的关键词,所述第二相关度的关键词为所述当前页面作为未被点击的搜索结果时所使用的关键词,所述预设数值是所当前网页上要求显示的推荐主题个数;第三获取单元,用于当具有所述第一相关度的关键词和具有所述第二相关度的关键词的个数和未达到所述预设数值时,获取与所述当前页面链接之间具有第三相关度的关键词,所述第三相关度的关键词为与所述当前页面相关页面的推荐主题;第四获取单元,用于当具有所述第一相关度的关键词、具有所述第二相关度的关键词以及具有所述第三相关度的关键词的个数和未达到所述预设数值时,获取与所述当前页面之间具有第四相关度的关键词,所述第四相关度的关键词为所述当前页面的内容中的关键词;
确定单元,用于去掉获取到的关键词中重复的关键词和相似度大于预设阈值的关键词,将剩余的关键词作为与所述当前页面的主题关联的推荐主题;
其中,所述装置还包括:
关联模块,用于当根据搜索关键词进行搜索时,关联所述搜索关键词和搜索结果中被用户点击的页面链接,确定所述搜索关键词和搜索结果中被用户点击的页面链接之间为第一相关度;关联所述搜索关键词和搜索结果中未被用户点击的页面链接,确定所述搜索关键词和搜索结果中未被用户点击的页面链接之间为第二相关度;其中,第一相关度高于第二相关度。
5.根据权利要求4所述的装置,其特征在于,所述第三获取单元具体用于获取与所述当前页面相关页面的推荐主题,将所述相关页面的推荐主题作为与所述当前页面链接之间具有第三相关度的关键词。
6.根据权利要求4所述的装置,其特征在于,所述第四获取单元具体用于根据预设规则,提取所述当前页面的内容中的关键词,将提取的关键词作为与所述当前页面之间具有第四相关度的关键词。
7.一种服务器,其特征在于,所述服务器包括上述权利要求4-6中任一项所述的主题推荐装置。
8.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现权利要求1-3任一项所述的方法的步骤。
CN201210528164.2A 2012-12-10 2012-12-10 主题推荐方法、装置和服务器 Active CN103870461B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201210528164.2A CN103870461B (zh) 2012-12-10 2012-12-10 主题推荐方法、装置和服务器
PCT/CN2013/084026 WO2014090007A1 (zh) 2012-12-10 2013-09-23 用于获取推荐主题的方法、装置和服务器
US14/735,136 US10169449B2 (en) 2012-12-10 2015-06-10 Method, apparatus, and server for acquiring recommended topic

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210528164.2A CN103870461B (zh) 2012-12-10 2012-12-10 主题推荐方法、装置和服务器

Publications (2)

Publication Number Publication Date
CN103870461A CN103870461A (zh) 2014-06-18
CN103870461B true CN103870461B (zh) 2019-09-10

Family

ID=50909005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210528164.2A Active CN103870461B (zh) 2012-12-10 2012-12-10 主题推荐方法、装置和服务器

Country Status (3)

Country Link
US (1) US10169449B2 (zh)
CN (1) CN103870461B (zh)
WO (1) WO2014090007A1 (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014184919A1 (ja) * 2013-05-16 2014-11-20 楽天株式会社 報酬決定装置、報酬決定方法、プログラム、及び、記録媒体
CN105095394B (zh) * 2015-06-30 2017-06-06 百度在线网络技术(北京)有限公司 网页生成方法和装置
CN105512180B (zh) * 2015-11-25 2019-07-23 百度在线网络技术(北京)有限公司 一种搜索推荐方法及装置
CN106909564A (zh) * 2015-12-23 2017-06-30 北京奇虎科技有限公司 推荐信息的展示方法及装置
CN105760527B (zh) * 2016-03-02 2022-09-27 百度在线网络技术(北京)有限公司 第三方页面展示方法和装置
CN108280081B (zh) * 2017-01-06 2023-02-24 百度在线网络技术(北京)有限公司 生成网页的方法和装置
CN106844680A (zh) * 2017-01-25 2017-06-13 百度在线网络技术(北京)有限公司 推荐信息的展示方法和装置
CN107145543B (zh) * 2017-04-25 2020-11-03 深圳前海跨海侠跨境电子商务有限公司 网页界面中信息推荐方法及***
CN109426662A (zh) * 2017-08-25 2019-03-05 阿里巴巴集团控股有限公司 交互方法及设备
US11074303B2 (en) * 2018-05-21 2021-07-27 Hcl Technologies Limited System and method for automatically summarizing documents pertaining to a predefined domain
CN110033851B (zh) * 2019-04-02 2022-07-26 腾讯科技(深圳)有限公司 信息推荐方法、装置、存储介质及服务器
CN111274483B (zh) * 2020-01-19 2024-05-03 北京博学广阅教育科技有限公司 关联推荐方法及关联推荐交互方法
CN111680219B (zh) * 2020-06-09 2023-10-20 深圳市雅阅科技有限公司 内容推荐方法、装置、设备及可读存储介质
CN111752436A (zh) * 2020-06-28 2020-10-09 北京搜狗科技发展有限公司 一种推荐方法、装置和用于推荐的装置
CN113297468A (zh) * 2020-07-30 2021-08-24 阿里巴巴集团控股有限公司 信息展示、推荐及处理方法、信息推荐***、电子设备
CN114357278B (zh) * 2020-09-28 2024-03-19 腾讯科技(深圳)有限公司 一种话题推荐方法、装置及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101114284A (zh) * 2006-07-27 2008-01-30 阿里巴巴公司 一种显示网页内容相关信息的方法及***
CN101315624A (zh) * 2007-05-29 2008-12-03 阿里巴巴集团控股有限公司 一种文本主题推荐的方法和装置
CN101561814A (zh) * 2009-05-08 2009-10-21 华中科技大学 基于社会标注的主题爬虫***

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2792293B2 (ja) * 1991-11-29 1998-09-03 日本電気株式会社 情報検索装置
US6691103B1 (en) * 2002-04-02 2004-02-10 Keith A. Wozny Method for searching a database, search engine system for searching a database, and method of providing a key table for use by a search engine for a database
JP4124115B2 (ja) * 2003-12-02 2008-07-23 ソニー株式会社 情報処理装置及び情報処理方法、並びにコンピュータ・プログラム
US20070078832A1 (en) * 2005-09-30 2007-04-05 Yahoo! Inc. Method and system for using smart tags and a recommendation engine using smart tags
US20110066624A1 (en) * 2006-08-01 2011-03-17 Divyank Turakhia system and method of generating related words and word concepts
US7577643B2 (en) * 2006-09-29 2009-08-18 Microsoft Corporation Key phrase extraction from query logs
KR100908982B1 (ko) * 2006-10-27 2009-07-22 야후! 인크. 지능형 정보 제공 시스템 및 방법
WO2009104387A1 (ja) * 2008-02-20 2009-08-27 パナソニック株式会社 対話型番組検索装置
JP5295605B2 (ja) * 2008-03-27 2013-09-18 株式会社東芝 検索キーワード改良装置、サーバ装置、および方法
US20110225019A1 (en) * 2008-10-14 2011-09-15 David Taylor Search, analysis and categorization
JP5514486B2 (ja) * 2009-08-03 2014-06-04 株式会社日立製作所 Webページの関連性抽出方法、装置、及びプログラム
CN101847160B (zh) * 2010-05-19 2012-09-05 深圳市五巨科技有限公司 一种移动终端个性化页面推送方法和装置
US8892584B1 (en) * 2011-03-28 2014-11-18 Symantec Corporation Systems and methods for identifying new words from a meta tag
CN102693248A (zh) * 2011-04-14 2012-09-26 天脉聚源(北京)传媒科技有限公司 一种搜索网络信息的方法和***
JP5113936B1 (ja) * 2011-11-24 2013-01-09 楽天株式会社 情報処理装置、情報処理方法、情報処理装置用プログラム、および、記録媒体
CN102591948B (zh) * 2011-12-27 2014-11-19 厦门市美亚柏科信息股份有限公司 一种基于用户行为分析的搜索结果改进的方法及其***
CN103389975A (zh) * 2012-05-07 2013-11-13 腾讯科技(深圳)有限公司 一种新闻推荐方法及***
US20150201040A1 (en) * 2012-09-28 2015-07-16 Google Inc. Cloud-based browser history
KR101770599B1 (ko) * 2012-11-14 2017-08-23 한국전자통신연구원 소셜 미디어에서 영향력 있는 사용자를 검색하기 위한 장치, 시스템 및 그 방법
US20140331142A1 (en) * 2013-05-06 2014-11-06 Tencent Technology (Shenzhen) Company Limited Method and system for recommending contents
US9268825B2 (en) * 2013-09-03 2016-02-23 International Business Machines Corporation Presenting a combined search results summary in a graphical view
US9613012B2 (en) * 2013-11-25 2017-04-04 Dell Products L.P. System and method for automatically generating keywords

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101114284A (zh) * 2006-07-27 2008-01-30 阿里巴巴公司 一种显示网页内容相关信息的方法及***
CN101315624A (zh) * 2007-05-29 2008-12-03 阿里巴巴集团控股有限公司 一种文本主题推荐的方法和装置
CN101561814A (zh) * 2009-05-08 2009-10-21 华中科技大学 基于社会标注的主题爬虫***

Also Published As

Publication number Publication date
WO2014090007A1 (zh) 2014-06-19
US20150278345A1 (en) 2015-10-01
CN103870461A (zh) 2014-06-18
US10169449B2 (en) 2019-01-01

Similar Documents

Publication Publication Date Title
CN103870461B (zh) 主题推荐方法、装置和服务器
US8626768B2 (en) Automated discovery aggregation and organization of subject area discussions
US7636714B1 (en) Determining query term synonyms within query context
KR101230687B1 (ko) 링크 바탕 스팸 검출
US8255414B2 (en) Search assist powered by session analysis
CN102722498B (zh) 搜索引擎及其实现方法
US20080082486A1 (en) Platform for user discovery experience
CN103744856B (zh) 联动性扩展搜索方法及装置、***
JP5084858B2 (ja) サマリ作成装置、サマリ作成方法及びプログラム
US20130086053A1 (en) Personalized Meta-Search Method and Application Terminal Thereof
CN107193987B (zh) 获取与页面相关的搜索词的方法、装置和***
CN102737021B (zh) 搜索引擎及其实现方法
CN102722499B (zh) 搜索引擎及其实现方法
CN102591948B (zh) 一种基于用户行为分析的搜索结果改进的方法及其***
CN104035972B (zh) 一种基于微博的知识推荐方法与***
CN104252348B (zh) 一种基于浏览器的网页访问统计方法及装置
CN102722501A (zh) 搜索引擎及其实现方法
CN103970800B (zh) 网页相关关键词的抽取处理方法和***
CN105095175A (zh) 获取截短的网页标题的方法及装置
Patil et al. Search engine optimization technique importance
Klein et al. Evaluating methods to rediscover missing web pages from the web infrastructure
JP2010128917A (ja) 情報伝播ネットワーク抽出方法、情報伝播ネットワーク抽出装置、及び情報伝播ネットワーク抽出プログラム
Choudhary et al. Role of ranking algorithms for information retrieval
CN105243073A (zh) 一种书签访问方法、装置及终端
JP2010108363A (ja) クリックログを利用して専門検索用クローラのシード選択を行う検索処理装置、検索処理方法及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant