CN102855282A

CN102855282A - 一种文档推荐方法及装置

Info

Publication number: CN102855282A
Application number: CN2012102727647A
Authority: CN
Inventors: 徐兴军
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2012-08-01
Filing date: 2012-08-01
Publication date: 2013-01-02
Anticipated expiration: 2032-08-01
Also published as: CN102855282B

Abstract

本发明公开了一种文档推荐方法及装置，一种文档推荐方法包括：在预置的文档集合中，以文档A为中心，根据文档内容的相似程度对文档进行聚簇；根据当前存在的文档关联信息，确定与文档A同簇文档的关联文档；利用所确定的与文档A同簇文档的关联文档，构成文档A的第一推荐结果。与现有技术相比，应用本发明所提供的技术方案，不需要人工对新发布文档进行预处理，从而有效地节省了人力成本。这样即便是新发布的文档，也可以为其生成推荐结果，有效解决了冷启动问题与数据稀疏问题。

Description

一种文档推荐方法及装置

技术领域

本发明涉及计算机应用技术领域，特别是涉及一种文档推荐方法及装置。

背景技术

随着互联网技术的发展，互联网上的信息量呈***式增长。为了让用户能够更方便快捷地获得这些信息，推荐技术在信息***得到了广泛应用。其中，关联推荐技术又成为推荐技术的一个重要组成部分，关联推荐技术的基本思想是，基于信息的一个或多个特征，找到不同信息之间的相关性，并进一步建立信息之间的联系关系，当用户浏览某一信息时，推荐***会将与该信息具有联系关系的信息也推荐给用户。

对于关联推荐技术的研究重点，除了挖掘更多可用于推荐的特征之外，还在于如何在实际应用中根据这些特征建立起信息之间的关系。目前，较为常用的方式是根据用户行为建立信息之间的关系，以文档推荐为例，可以根据用户对文档的浏览、搜索等历史行为记录，分析用户的兴趣，然后根据单个或多个用户的兴趣相似程度，建立文档之间的联系关系，最后根据所建立的关系进行文档推荐。

但是，现有关联推荐方法，存在着很严重的冷启动问题与数据稀疏问题，所谓冷启动是指新发布的信息，数据稀疏则是指：对于有些信息，其本身的相关用户行为记录很少（或为0），因此难以根据用户行为产生推荐结果。目前常用的解决方案是通过人工干预的方式为新发布的信息预置一些推荐结果，但是这种方式需要消耗人力成本，并且要求操作人员具有丰富的先验知识，推荐结果也存在着较大的局限性和主观性，在实际应用中经常无法满足信息浏览者的实际需求。

发明内容

为解决上述技术问题，本发明实施例提供一种文档推荐方法及装置，以解决文档相关推荐中的冷启动问题与数据稀疏问题。具体技术方案如下：

一种文档推荐方法，包括：

在预置的文档集合中，以文档A为中心，根据文档内容的相似程度对文档进行聚簇；

根据当前存在的文档关联信息，确定与文档A同簇文档的关联文档；

利用所确定的与文档A同簇文档的关联文档，构成文档A的第一推荐结果。

在本发明的一种具体实施方式中，所述文档关联信息为：

根据与文档相关的用户行为记录所建立的不同文档之间的关联信息。

在本发明的一种具体实施方式中，所述文档关联信息为：

根据文档所归属的类别所建立的不同文档之间的关联信息。

在本发明的一种具体实施方式中，所述以文档A为中心，根据文档内容的相似程度对文档进行聚簇，包括：

对文档内容进行判重，将与文档A内容重复度超过预设阈值的文档聚合为一个文档簇。

在本发明的一种具体实施方式中，所述根据文档内容的相似程度对文档进行聚簇，包括：

利用文档A进行检索，根据检索结果，将与文档A内容相关度超过预设阈值的文档聚合为一个文档簇。

在本发明的一种具体实施方式中，该方法还包括：

利用文档A的同簇文档，构成文档A的第二推荐结果。

一种文档推荐装置，包括：

聚簇单元，用于在预置的文档集合中，以文档A为中心，根据文档内容的相似程度对文档进行聚簇；

关联单元，用于根据当前存在的文档关联信息，确定与文档A同簇文档的关联文档；

推荐单元，用于利用所确定的与文档A同簇文档的关联文档，构成文档A的第一推荐结果。

在本发明的一种具体实施方式中，所述文档关联信息为：

根据与文档相关的用户行为记录所建立的不同文档之间的关联信息。在本发明的一种具体实施方式中，所述文档关联信息为：

根据文档所归属的类别所建立的不同文档之间的关联信息。

在本发明的一种具体实施方式中，所述聚簇单元，具体用于：

在本发明的一种具体实施方式中，所述推荐单元，还用于：

利用文档A的同簇文档，构成文档A的第二推荐结果。

本发明实施例所提供的技术方案，基于文档具体内容的相似程度，对文档进行聚簇，然后根据聚簇结果进行文档推荐。相当于将内容相似的若干个文档，视为相同的一个点进行处理。这样即便是新发布的文档，也可以为其生成推荐结果，另一方面，对于当前已经具有推荐结果的文档，也可以根据聚簇情况对推荐结果做进一步的优化。

与现有技术相比，应用本发明所提供的技术方案，不需要人工对新发布文档进行预处理，从而有效地节省了人力成本。此外，假设文档间当前已有的关联关系是合理的，那么基于内容相似性聚簇后的推荐结果仍然是合理的，也就是说，本发明方案在推荐过程中，能够在不引入操作人员个人主观因素影响的前提下，对新发布的文档给出高置信度的推荐结果，从而进一步提升推荐***的性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例文档推荐方法的一种流程图；

图2为本发明实施例文档推荐装置的一种结构示意图。

具体实施方式

首先对本发明实施例所提供的一种文档推荐方法进行说明，该方法可以包括以下步骤：

本发明实施例中的文档，可以表现为多种形式，例如可以是TXT、DOC、PDF等文件形式的文档，也可以是网页形式的文档，这些并不影响本发明方案的实现。

本发明实施例所提供的文档推荐方法，是在一定的文档范围内进行，也就是说，根据不同的应用环境，都存在一个预置的文档集合。例如：在网络文库内进行推荐，则文库中所有的用户上传文件构成预置的文档集合；在知识平台进行推荐，则该平台中所有的知识主题构成预置的文档集合；在新闻网站进行推荐，则该网站中所有的新闻网页构成预置的文档集合。当然，根据实际的应用需要，可以灵活设置推荐范围的大小，小至某个具体的文档主题类别，大至全互联网范围，本发明对此并不需要进行限定。

本发明实施例所提供的技术方案，首先基于文档具体内容的相似程度，对文档进行聚簇，然后根据聚簇结果进行文档推荐。相当于将内容相似的若干个文档，视为相同的一个点进行处理。

假设A是新发布文档，通过以文档A为中心进行聚簇后，将与文档A内容近似的文档B、文档C、文档D聚为相同的簇。这样，如果B、C、D本身具有关联文档，那么就可以将B、C、D的关联文档作为A的推荐结果反馈给用户。

为了使本领域技术人员更好地理解本发明中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行详细地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本发明保护的范围。

图1所示为本发明实施例所提供的一种文档推荐方法的流程图，该方法可以包括以下步骤：

S101，在预置的文档集合中，以文档A为中心，根据文档内容的相似程度对文档进行聚簇；

目前，互联网中的信息量很大，但是通过研究发现，这其中会存在很多相似甚至完全重复的内容，例如，针对同一热门事件，可能有很多内容相似的新闻报导；不同用户可能会将内容相同的文档上传至文库平台，等等。对于内容相似的文档，出于多方面原因（例如发布时间的早晚、发布者自身所拥有的资源数量不同，发布方式不同等等），可能导致两者所拥有的关联文档数据量不同。例如，文档A和文档B内容相同，其中文档A为刚刚发布的文档，不具有任何可以用于建立关联关系的数据，而文档B已经拥有了大量的关联数据积累。那么，从“内容相似”的角度考虑，将文档B的关联文档也作为文档A的推荐结果，是完全合理的。

根据上述原理，本发明对于任意文档A，采用以文档A为中心、根据文档内容相似程度进行聚簇的方式，将文档集中所有与文档A内容近似的文档找到，然后根据将簇中其他成员的关联文档作为文档A的推荐候选，生成文档A的推荐结果。

在本发明的一种具体实施方式中，可以利用文本判重技术对文档进行聚簇。

基于互联网的客观应用环境，必然会存在大量的内容重复的文档，为了对这些重复文档进行有效的管理，相应产生了很多文本判重技术，例如基于文档级别的签名算法进行判重，常用算法包括MD5算法、simhash算法等等。在本申请所提供的方案中，可以直接利用这些成熟的文档判重技术，对预置文档集中不同的文档进行判重处理，将内容相同的文档归到一起。

在具体实施过程中，可以首先对文档进行分句，例如按找换行符、句号、叹号、问号等切分标识对文档进行切分；然后切分后的句子进行归一化处理，例如如全半角转化、大小写转化、繁简体转化、去除噪声字符、多空白符归一等；最后对句子进行签名，并计算两文档签名向量的公共长度或相似度，以公共长度或相似度表示内容重合度。

可以理解的是，以上所提供的文档判重流程仅作为一种示意性说明，不应该构成对本发明方案的限制。

在实际应用中，由于用户改动等原因，有些文档之间的内容可能会有一些细节上的区别，但是整体上的内容仍然趋于一致。而本发明的目的是基于文档的内容相似程度进行推荐件，因此，可以预先设定一个内容重复度阈值（例如80%、90%等），在判重过程中，如果文档间的相似度超过这个阈值，则认为文档之间的差异很小，可以聚和成为同一个文档簇，进而在同簇成员之间，关联文档可以互相通用。

在本发明的另一种具体实施方式中，还可以利用检索技术对文档进行聚簇。

搜索引擎的基本功能，就是根据给定的搜索关键词，找出与该关键词内容相同或相似的其他网络资源。根据搜索引擎的基本功能，在本发明中，可以利用文档A（即聚簇中心）的内容构成搜索关键词输入搜索引擎，在预置的文档集范围内进行搜索，然后根据搜索结果确定聚簇的成员。

一种最基本的实现方案是：可以将文档A的标题直接作为搜索关键词输入搜索引擎，如果搜索结果的标题与文档A相同或相似，则可以将该搜索结果聚入以A为中心的文档簇。例如，文档A的标题为“中考阅读（语文）”，通过检索得到另一篇文档B的标题为“中考语文阅读”，那么可以直接将该文档B聚入簇内。

当然在实际应用中，如果搜索结果的正文内容与文档A的标题相似，也可以认为满足聚簇条件，并不一定仅限定为“标题相似”。在理论上，除了标题之外，文档A的其他部分都可以用于检索，例如作者、摘要等等。在构成检索关键词的过程中，还可以进行如分词、去除停用词等等预处理。另外，目前很多搜索引擎已经非常智能，例如搜索引擎本身会自动进行分词、去除停用词等预处理，而且搜索结果一般也都会根据与关键词的相关（相似）程度进行排序，因此可以直接取搜索结果的前n（n为正整数）位，作为A的同簇成员。总之，本领域技术人员可以根据实际应用需求和应用场景，灵活设置利用搜索结果聚簇的具体策略，本发明对此并不需要进行限定。

与基于判重技术进行聚簇的方法相比，基于搜索技术的聚簇方法在相似程度判断的精确度上有所欠缺，但是可以直接利用现有的搜索引擎，因此实现成本较低。在实际应用中，两种方案既可以独立使用，也可以结合使用。当然，在不脱离本发明的基本思想的前提下，本领域技术人员也可以采用其他的聚簇方法，并且这些方法既可以独立使用，也可以与本发明实施例所提供的方法结合使用。

S102，根据当前存在的文档关联信息，确定与文档A同簇文档的关联文档；

通过聚簇得到与文档A内容相似的文档之后，为了针对文档A进行推荐，需要首先确定相似文档的关联文档。

本发明方案基于这样的假设：在预置的文档集中，存在一部分文档，这些文档本身已经具有关联信息。那么，如果这类文档与文档A被聚在同一簇中，则可以利用这些已有的关联信息来生成文档A的推荐结果。

在本发明的一种具体实施方式中，可以根据与文档相关的用户行为记录，建立的不同文档之间的关联信息。

对于文档B和文档B1，在用户的访问过程中，体现出了相关性，则可以建立文档B和文档B1的关联关系。其中“用户的访问”可以包括浏览、搜索、主动推荐等行为。例如，某用户在某次浏览过程中，先浏览了文档B“中考语文阅读”，然后又浏览了文档B1“中考语文作文”，则可以建立文档B和文档B1的关联关系。

在一种具体实施方式中，可以将预置的文档集合初始化为一个图（graph），文档集合中的每一篇文档构成该图的点集合，后续如果有新文档加入集合，则在图中相应增加一个点。

图的初始边集合为空（即任意两点间的边权重为0），对于任意的两个点，如果在一名用户的访问行为中体现出了相关性，则在这两个点之间增加一条边，如果在另一名用户的访问行为中也体现了相关性，则增加已有边的权重……如此反复，通过分析大量用户的历史行为记录，逐步增加边的数量与权重。最终得到文档集合内所有文档的关联信息。

在实际应用中，还可以给不同的用户行为赋予不同的权重值。例如：对于“搜索”行为所体现的相关性，赋予0.5单位的权重；对于“浏览”行为所体现的相关性，赋予1单位的权重；对于“用户主动推荐”行为所体现的相关性，赋予2单位的权重，等等。

在本发明的一种具体实施方式中，还可以根据文档所归属的类别，建立的不同文档之间的关联信息。

文档分类是指按照根据文档或内容的属性，对文档集合中的每一个文档确定一个类别。这样，用户不但能够方便地在特定的类别浏览文档，而且可以通过限制搜索范围来使文档的查找更为容易。

对于文档B和文档B1，如果二者本身处于相同的类别，则可以建立文档B和文档B1的关联关系。例如，文档B“中考语文阅读”和文档B1“中考语文作文”都属于“中考语文”的类别，则可以建立文档B和文档B1的关联关系。

可以理解的是，文档的“已有的关联信息”可以是以任何方式获得的，上述两种方案仅作示意性说明。在实际应用中，两种方案既可以独立使用，也可以结合使用，例如将“属于相同类别”赋予一定的加权值，与“用户访问行为所体现的相关性”共同作用。当然，在不脱离本发明的基本思想的前提下，本领域技术人员也可以采用其他的建立关联信息的方法，并且这些方法既可以独立使用，也可以与本发明实施例所提供的方法结合使用。

S103，利用所确定的与文档A同簇文档的关联文档，构成文档A的第一推荐结果。

对于文档A，假设通过以文档A为中心进行聚簇后，将与文档A内容近似的文档B、文档C、文档D聚为相同的簇。并且，B、C、D的分别具有以下关联文档：

B的关联文档为B1、B2、B3、B4（按关联权重排序，下同）；

C的关联文档为C1、C2、C3；

D的关联文档为D1、D2；

那么，作为A的同簇成员的关联文档，B1、C1、C2、C3、D1、D2就构成了A的推荐候选集合，可以根据该集合生成文档A的推荐结果。

根据实际需求，利用推荐候选集合生成推荐结果可以有不同的策略，例如：可以分别选取每个同簇成员的前N位关联文档生成推荐结果；

也可以根据簇成员到簇中心的距离远近，选取不同数量的关联文档生成推荐结果，例如：对于距离最近的簇成员，选取3个关联文档加入推荐结果，对于距离次近的簇成员，选取2个关联文档加入推荐结果，对于剩余簇成员，分别选取1个关联文档加入推荐结果，等等。

此外，如果在生成推荐结果的过程中，发现不同簇成员之间存在着相同的关联文档，则认为这样的文档关联置信度较高，可以优先加入推荐结果。例如：

B的关联文档为B1、B2、B3、B4；

C的关联文档为C1、C2、C3、X；

D的关联文档为D1、D2、X；

根据已有的关联信息，文档X同时构成文档C和文档D的关联文档，则在生成推荐结果的过程中，可以根据文档X的共现程度，给予文档X额外的排名加权。

另外，考虑到B、C、D本身就是与A内容近似的文档，因此在实际推荐过程中，也可以考虑将B、C、D也进一步加入推荐结果中。

应用上述技术方案，假设A是新发布文档，那么就可以将B、C、D的关联文档作为A的推荐结果反馈给用户。另一方面，如果文档A原本已经具有一些关联文档可供推荐，那么在聚簇之后，A就具有了更多的推荐候选，这也有利于对推荐结果做进一步的优化。

相应于上面的方法实施例，本发明还提供一种文档推荐装置，参见图2所示，该装置包括：

聚簇单元110，用于在预置的文档集合中，以文档A为中心，根据文档内容的相似程度对文档进行聚簇；

本发明对于任意文档A，采用以文档A为中心、根据文档内容相似程度进行聚簇的方式，将文档集中所有与文档A内容近似的文档找到，然后根据将簇中其他成员的关联文档作为文档A的推荐候选，生成文档A的推荐结果。

关联单元120，用于根据当前存在的文档关联信息，确定与文档A同簇文档的关联文档；

在一种具体具体实施方式中，可以将预置的文档集合初始化为一个图（graph），文档集合中的每一篇文档构成该图的点集合，后续如果有新文档加入，则相应增加一个点。

图的初始边集合为空，对于任意的两个点，如果在一名用户的访问行为中体现出了相关性，则在这两个点之间增加一条边，如果在另一名用户的访问行为中也体现了相关性，则增加已有边的权重……如此反复，通过分析大量用户的历史行为记录，逐步增加边的数量与权重。最终得到文档集合内所有文档的关联信息。

推荐单元130，用于利用所确定的与文档A同簇文档的关联文档，构成文档A的第一推荐结果。

B的关联文档为B1、B2、B3、B4（按关联权重排序，下同）；

C的关联文档为C1、C2、C3；

D的关联文档为D1、D2；

B的关联文档为B1、B2、B3、B4；

C的关联文档为C1、C2、C3、X；

D的关联文档为D1、D2、X；

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目统或设备的分布式计算环境等等。

本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

以上所述仅是本发明的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种文档推荐方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述文档关联信息为：

3.根据权利要求1所述的方法，其特征在于，所述文档关联信息为：

根据文档所归属的类别所建立的不同文档之间的关联信息。

4.根据权利要求1所述的方法，其特征在于，所述以文档A为中心，根据文档内容的相似程度对文档进行聚簇，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据文档内容的相似程度对文档进行聚簇，包括：

6.根据权利要求1所述的方法，其特征在于，该方法还包括：

利用文档A的同簇文档，构成文档A的第二推荐结果。

7.一种文档推荐装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述文档关联信息为：

9.根据权利要求7所述的装置，其特征在于，所述文档关联信息为：

根据文档所归属的类别所建立的不同文档之间的关联信息。

10.根据权利要求7所述的装置，其特征在于，所述聚簇单元，具体用于：

11.根据权利要求7所述的装置，其特征在于，所述聚簇单元，具体用于：

12.根据权利要求7所述的装置，所述推荐单元，还用于：

利用文档A的同簇文档，构成文档A的第二推荐结果。