CN108228745A

CN108228745A - 一种基于协同过滤优化的推荐算法和装置

Info

Publication number: CN108228745A
Application number: CN201711375432.0A
Authority: CN
Inventors: 陈本庚; 刘芳彤; 周海汉; 陈杰; 方勇
Original assignee: UNITED ELECTRONICS CO Ltd
Current assignee: Hubble Zhiyuan (Beijing) Technology Co., Ltd.
Priority date: 2017-12-19
Filing date: 2017-12-19
Publication date: 2018-06-29
Anticipated expiration: 2037-12-19
Also published as: CN108228745B

Abstract

本发明公开了一种基于协同过滤优化的推荐算法，包括：接收目标用户的新闻推荐申请，预估目标用户对未读基础新闻文章的第一评分，根据第一评分对未读基础新闻文章进行排序，选取预设数量的未读基础新闻文章作为一级推荐列表；计算第一推荐列表中的未读基础新闻文章与新进新闻文章的相似度，建立第一推荐列表中的未读基础新闻文章与新进新闻文章的对应关系；根据一级推荐列表以及对应关系构建候选推荐列表；计算候选推荐列表中各个元素的第二评分，根据第二评分排序生成二级推荐列表并发送给目标用户。该方法不仅能够挖掘用户潜在兴趣，还能够保证新闻的时效性，及时的将用户感兴趣的文章推送给用户。

Description

一种基于协同过滤优化的推荐算法和装置

技术领域

本发明涉及基于协同过滤的推荐方法领域，特别是指一种基于协同过滤优化的推荐算法和装置。

背景技术

目前，公知的基于用户的协同过滤的推荐算法是通过已有的用户行为数据，在海量的数据中挖掘出小部分与目标用户品味类似的用户，使这些用户成为邻居，然后根据他们喜欢的东西组织成一个排序后的目录推荐给目标用户。然而，新闻的推荐存在及时性问题，需要不断更新，协同过滤需要经过很长的时间收集用户点击日志数据，从而产生推荐。对于一般的新闻推荐***不能承受训练数据积累所消耗的时间，容易延误新闻推荐的时效性。

发明内容

有鉴于此，本发明的目的在于提出一种基于协同过滤优化的推荐算法和装置，克服了现有的协同过滤算法收集数据时间长的问题，保证新闻推荐的时效性。

基于上述目的本发明提供的一种基于协同过滤优化的推荐算法，应用于基础新闻库和新进新闻库，所述基础新闻库包括未读基础新闻文章及已读基础新闻文章，所述新进新闻库包括新进新闻文章；所述推荐算法包括：

接收目标用户的新闻推荐申请，预估所述目标用户对所述未读基础新闻文章的第一评分，根据所述第一评分对所述未读基础新闻文章进行排序，选取预设数量的所述未读基础新闻文章作为一级推荐列表；

计算所述第一推荐列表中的所述未读基础新闻文章与所述新进新闻文章的相似度，建立所述第一推荐列表中的所述未读基础新闻文章与所述新进新闻文章的对应关系；

根据所述一级推荐列表以及所述对应关系构建候选推荐列表；

计算所述候选推荐列表中各个元素的第二评分，根据所述第二评分排序生成二级推荐列表并发送给目标用户。

进一步，在所述预估所述目标用户对所述未读基础新闻文章的第一评分之前，还包括：

对所述未读基础新闻文章、所述已读基础新闻文章以及所述新进新闻文章进行文章标签化的自然语言处理，提取关键信息。

进一步，所述预估所述目标用户对所述未读基础新闻文章的第一评分，包括：

根据所述关键信息，计算所述目标用户对所述已读基础新闻文章的第三评分；

基于所述第三评分采用基于用户的协同过滤算法，计算所述目标用户对所述未读基础新闻文章的第一评分。

进一步，所述第三评分的计算公式包括：

其中，feature为所述关键信息列表，为用户的行为标签，为文章的对应标签；w为列表中各类标签所占的权重；Loved为用户收藏该文章的操作，收藏置为1，未收藏置为0；ReadingTime为用户阅读该文章的时长，ArticleLenth为文章长度；α₁、β₁和γ₁为各部分对应的计算权重。

进一步，所述相似度的计算公式包括

其中，article1表示所述未读基础新闻文章，article2表示所述新进新闻文章，hot为article2新闻文章的热度值，TimeSpan为article2新闻文章的时间衰减程度，α₂、β₂和γ₂为各部分对应的计算权重。

进一步，所述根据所述一级推荐列表以及所述对应关系构建候选推荐列表，包括：

根据所述对应关系，将所述一级推荐列表中的所述未读基础新闻文章更新为具有对应关系的所述新进新闻文章，得到所述候选推荐列表。

进一步，所述计算所述候选推荐列表中各个元素的第二评分，包括：

计算与所述候选推荐列表中的所述新进新闻文章具有对应关系的所述未读基础新闻文章的第一评分以及所述新进新闻文章、所述未读基础新闻文章的相似度的乘积作为所述第二评分。

进一步，若所述候选推荐列表中的所述新进新闻文章与多个所述未读基础新闻文章具有对应关系，则将所述未读基础新闻文章的第一评分以及所述新进新闻文章、所述未读基础新闻文章的相似度的乘积的和作为所述第二评分。

本发明还提出一种基于协同过滤优化的推荐装置，应用于基础新闻库和新进新闻库，所述基础新闻库包括未读基础新闻文章及已读基础新闻文章，所述新进新闻库包括新进新闻文章；所述推荐装置包括：

一级推荐列表生成模块，用于接收目标用户的新闻推荐申请，预估所述目标用户对所述未读基础新闻文章的第一评分，根据所述第一评分对所述未读基础新闻文章进行排序，选取预设数量的所述未读基础新闻文章作为一级推荐列表；

计算模块，用于计算所述第一推荐列表中的所述未读基础新闻文章与所述新进新闻文章的相似度，建立所述第一推荐列表中的所述未读基础新闻文章与所述新进新闻文章的对应关系；

候选推荐列表生成模块，用于根据所述一级推荐列表以及所述对应关系构建候选推荐列表；

二级推荐列表生成模块，用于计算所述候选推荐列表中各个元素的第二评分，根据所述第二评分排序生成二级推荐列表并发送给目标用户。

本发明还提出一种代理服务器，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任意一项所述的方法。

从上面所述可以看出，本发明提供的基于协同过滤优化的推荐算法和装置，延用了协同过滤算法挖掘用户潜在兴趣的功能，同时克服了现有的协同过滤算法收集数据时间长的问题，解决了***新进新闻冷启动的问题，能够合理的对用户进行推荐。

附图说明

图1为本发明实施例一种基于协同过滤优化的推荐算法的流程图；

图2为本发明实施例基础新闻库的存储结构示意图；

图3为本发明实施例采用协同过滤算法填充后的基础新闻库的存储结构示意图；

图4为本发明实施例新进新闻库结构示意图；

图5为本发明实施例未读基础新闻文章与新进新闻文章的对应关系的存储结构示意图；

图6为本发明实施例一种基于协同过滤优化的推荐装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

需要说明的是，本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量，可见“第一”“第二”仅为了表述的方便，不应理解为对本发明实施例的限定，后续实施例对此不再一一说明。

图1为本发明实施例一种基于协同过滤优化的推荐算法的流程图。本发明实施例提出了一种基于协同过滤优化的推荐算法，应用于基础新闻库和新进新闻库，其中所述基础新闻库包括用户没有读过的未读基础新闻文章及用户已经阅读过的已读基础新闻文章，所述新进新闻库包括新进新闻文章；所述推荐算法包括：

S100，接收目标用户的新闻推荐申请，预估所述目标用户对所述未读基础新闻文章的第一评分，根据所述第一评分对所述未读基础新闻文章进行排序，选取预设数量的所述未读基础新闻文章作为一级推荐列表。

S200，计算所述第一推荐列表中的所述未读基础新闻文章与所述新进新闻文章的相似度，建立所述第一推荐列表中的所述未读基础新闻文章与所述新进新闻文章的对应关系。

S300，根据所述一级推荐列表以及所述对应关系构建候选推荐列表。

S400，计算所述候选推荐列表中各个元素的第二评分，根据所述第二评分排序生成二级推荐列表并发送给目标用户。根据第二评分对候选推荐列表中各个元素进行降序排序即得到二级推荐列表。

进一步，在步骤S100中所述预估所述目标用户对所述未读基础新闻文章的第一评分之前，还包括：

对所述未读基础新闻文章、所述已读基础新闻文章以及所述新进新闻文章进行文章标签化的自然语言处理，提取关键信息。所述关键信息即文章关键词、标签等。

优选的，当有新的新进新闻文章入库时，则对新入库的新进新闻文章进行文章标签化的自然语言处理，提取关键信息。

步骤S100中所述预估所述目标用户对所述未读基础新闻文章的第一评分，包括：

S101，根据所述关键信息，计算所述目标用户对所述已读基础新闻文章的第三评分。具体的，对于基础新闻库中的文章，特别是对于已读基础新闻文章，由于已经产生了用户行为信息，因此可以根据用户行为如文章是否被用户所收藏、文章被阅读时间以及一些关键信息，如关键词、来源、地域、种类等标签与用户提供标签的匹配度，来计算出指定用户对指定的已读基础新闻文章的兴趣程度评分，即所述第三评分。

其中，所述第三评分的计算公式包括：

其中，feature为所述关键信息列表，在一个具体的实施例中，feature列表信息为{关键词，文章来源，地域，文章分类}。i表示feature列表信息中的第 i个元素，为用户的行为标签，为文章的对应标签；w 为列表中各类标签所占的权重；Loved为用户收藏该文章的操作，收藏置为1，未收藏置为0；ReadingTime为用户阅读该文章的时长，ArticleLenth为文章长度，通过用户阅读该文章的时长除以文章长度做归一化处理；α₁、β₁和γ₁为各部分对应的计算权重。

在一个具体的实施例中，参照图2所示，为根据已有的用户行为信息，计算第三评分生成的协同过滤矩阵，每一行存储用户信息，每一列存储基础新闻库的新闻文章信息，对应单元格为指定用户对指定新闻的兴趣程度评分。优选的，当产生新的用户行为信息如点击、收藏等行为时，则重新计算重新目标用户对已读基础新闻文章的第三评分，即重新计算图2中的评分。

S102，基于所述第三评分采用基于用户的协同过滤算法，计算所述目标用户对所述未读基础新闻文章的第一评分。计算得到用户对已读基础新闻文章的兴趣度评分后，采用基于用户的协同过滤算法预估目标用户对所述未读基础新闻文章的兴趣度评分，即第一评分。参照图3所示，即为用户对已读基础新闻文章的兴趣度评分后得到的协同过滤矩阵，其中”<>”内的数据表示算法预测的兴趣评分。其中，第一评分具体计算过程如下：

计算用户间的相似度，寻找与目标用户兴趣相似的相似用户，计算公式如下：

其中，r_user1表示user1对基础新闻库中新闻的评分向量，r_user2表示user2 对基础新闻库中新闻的评分向量。

根据上述公式，选择阅读过目标文章且与目标用户相似度高的预设数量的相似用户，根据所述相似用户的对目标文章的评分为目标用户预测对该目标文章的评分，公式如下：

其中，N为与目标用户相似度最高且阅读过该目标文章的k个用户的集合。

为了便于理解，本发明提供一个具体的实施例，如下所示：

其中，用户的行为标签包括：

Keyword(偏向关键词)：<新时代,0.52>，<新政策,0.23>，<农民工,0.18>， <航母,0.07>

Source(偏向来源)：<官方媒体,0.8>，<政府网站,0.2>

Region(所在地区)：<北京,0.7>，<河北,0.3>

Classification(定制分类)：<政治,0.6>，<生活,0.3>，<军事,0.1>

文章的对应标签包括：

keyword(关键词)：<新时代,0.72>，<经济改革,0.28>

Source(文章来源)：<官方媒体,1>

Region(文章所属地区)：null

Classification(文章分类)：<政治,1>

用户标注文章为收藏，置为1；文章长度为300字，阅读时间为3分钟(180 秒)。

各类标签权重设置：

标签类别	权重
		Keyword	3
Source	0.5
		Region	1
Classification	2

各部分权重设置：

α₁	2
		β₁	1
γ₁	1

根据公式，首先求出用户与文章之间的标签相似度：

由此，得到用户对文章的第三评分为：

rating(User,Article)＝2*2.722+1*1+1*0.6＝7.044

采用基于用户的协同过滤算法将第三评分作为训练数据，为目标用户计算其它未读基础新闻文章的第一评分，根据第一评分对未读基础新闻文章进行降序排序，选取第一评分较高的前N篇未读基础新闻文章生成一级推荐列表。

由于一级推荐列表中均为基础新闻库中的新闻，即使是未读基础新闻文章也有可能已经失去了时效性，因此可以将一级推荐列表中的未读基础新闻文章替换为与之具有较高相似度的新进新闻文章，而失去了时效性的未读基础新闻文章则可以直接从一级推荐列表中删除，从而可以保证推荐给用户的新闻都是用户未读且具有时效性的新闻。

其中，在计算所述第一推荐列表中的所述未读基础新闻文章与所述新进新闻文章的相似度时，所述相似度的计算公式包括

其中，article1表示所述未读基础新闻文章，article2表示所述新进新闻文章；hot为article2新闻文章的热度值，一般参考文章阅读的点击量；TimeSpan 为article2新闻文章的时间衰减程度，新闻的时间跨度越大，值越低；α₂、β₂和γ₂为各部分对应的计算权重。

计算第一推荐列表中的未读基础新闻文章与新进新闻文章的相似度后，即建立了第一推荐列表中的未读基础新闻文章与新进新闻文章的对应关系。

图4为本发明实施例新进新闻库列表。在一个具体的实施例中，根据计算得到的相似度，选择相似度高的新进新闻文章作为第一推荐列表中的未读基础新闻文章的隐含的文章关联存储在图1的协同过滤矩阵结构中，生成如图5 所示的对应关系列表。具体的，可以选择相似度满足设定阈值的新进新闻文章形成与第一推荐列表中的未读基础新闻文章的对应关系，也可以选择相似度值最高的预设篇数的新进新闻文章形成与第一推荐列表中的未读基础新闻文章的对应关系。

优选的，每当有新进新闻文章入库时，则提取其关键信息，并计算每篇新入库的新进新闻文章与库中已有新闻的相似度，并更新如图5所示的对应关系列表。

进一步，步骤S300中所述根据所述一级推荐列表以及所述对应关系构建候选推荐列表，包括：

进一步，步骤S400中所述计算所述候选推荐列表中各个元素的第二评分，包括：

进一步，若所述候选推荐列表中的所述新进新闻文章与多个所述未读基础新闻文章具有对应关系，则将所述未读基础新闻文章的第一评分以及所述新进新闻文章、所述未读基础新闻文章的相似度的乘积的和作为所述第二评分。具体计算公式如下：

FinalRating(user,art)＝∑rating(user,art.mapRev_art)*similarity(art,art.mapRev_art)

为了便于理解，本发明提出一个具体的实施例，如下所示：

一级推荐列表推荐出article1和article2，用户对它们的评分分别是7.044 和5.32。根据映射表信息，article1对应的相似文章是articleN+3,N+7,N+15，它们与article1的文章相似度分别是0.87,0.65,0.44；article2对应的相似文章是 articleN+7,N+10,N+22，它们与article1的文章相似度分别是0.76,0.68,0.54。则将articleN+3,N+7,N+15,N+10,N+22作为推荐的候选文章并分别计算它们对于用户user的FinalRating。计算过程以articleN+7举例说明：

FinalRating(user,articleN+7)

＝rating(user,article1)*similarity(article1,articleN+7)+

rating(user,article2)*similarity(article2,articleN+7)

＝7.044*0.65+5.32*0.76＝8.6218

计算FinalRating(user,articleN+3)＝6.12828，FinalRating(user,articleN+15)＝3.09936，FinalRating(user,articleN+10)＝3.6176，

FinalRating(user,articleN+12)＝2.8728，最后对该候选列表中的新闻根据最终评分进行降序排序，形成了推荐给用户的终极列表即二级推荐列表为 articleN+7，articleN+3，articleN+10，articleN+15，articleN+12。

本发明还提供了一种基于协同过滤优化的推荐装置，参照图6所示，所述推荐装置应用于基础新闻库和新进新闻库，所述基础新闻库包括未读基础新闻文章及已读基础新闻文章，所述新进新闻库包括新进新闻文章；所述推荐装置包括：

一级推荐列表生成模块11，用于接收目标用户的新闻推荐申请，预估所述目标用户对所述未读基础新闻文章的第一评分，根据所述第一评分对所述未读基础新闻文章进行排序，选取预设数量的所述未读基础新闻文章作为一级推荐列表。

计算模块12，用于计算所述第一推荐列表中的所述未读基础新闻文章与所述新进新闻文章的相似度，建立所述第一推荐列表中的所述未读基础新闻文章与所述新进新闻文章的对应关系。

候选推荐列表生成模块13，用于根据所述一级推荐列表以及所述对应关系构建候选推荐列表。

二级推荐列表生成模块14，用于计算所述候选推荐列表中各个元素的第二评分，根据所述第二评分排序生成二级推荐列表并发送给目标用户。

进一步，所述推荐装置还能够实现：在所述预估所述目标用户对所述未读基础新闻文章的第一评分之前，还包括，

进一步，一级推荐列表生成模块11还用于实现：

进一步，所述第三评分的计算公式包括：

进一步，所述相似度的计算公式包括

进一步，所述候选推荐列表生成模块13还用于实现：根据所述对应关系，将所述一级推荐列表中的所述未读基础新闻文章更新为具有对应关系的所述新进新闻文章，得到所述候选推荐列表。

进一步，二级推荐列表生成模块14还用于实现：计算与所述候选推荐列表中的所述新进新闻文章具有对应关系的所述未读基础新闻文章的第一评分以及所述新进新闻文章、所述未读基础新闻文章的相似度的乘积作为所述第二评分。若所述候选推荐列表中的所述新进新闻文章与多个所述未读基础新闻文章具有对应关系，则将所述未读基础新闻文章的第一评分以及所述新进新闻文章、所述未读基础新闻文章的相似度的乘积的和作为所述第二评分。

本发明实施例还提供一种代理服务器，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例所述的方法。

综上所述，本发明提供的基于协同过滤优化的推荐算法和装置，延用了协同过滤算法挖掘用户潜在兴趣的功能，同时克服了现有的协同过滤算法收集数据时间长的问题，解决了***新进新闻冷启动的问题，能够合理的对用户进行推荐，及时地将新闻推送到对其感兴趣的用户；同时能够保证新进新闻文章的时效性，保证了新闻的及时推广。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本发明难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源 /接地连接。此外，可以以框图的形式示出装置，以便避免使本发明难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本发明的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于协同过滤优化的推荐算法，其特征在于，应用于基础新闻库和新进新闻库，所述基础新闻库包括未读基础新闻文章及已读基础新闻文章，所述新进新闻库包括新进新闻文章；所述推荐算法包括：

2.根据权利要求1所述的基于协同过滤优化的推荐算法，其特征在于，在所述预估所述目标用户对所述未读基础新闻文章的第一评分之前，还包括：

3.根据权利要求2所述的基于协同过滤优化的推荐算法，其特征在于，所述预估所述目标用户对所述未读基础新闻文章的第一评分，包括：

4.根据权利要求3所述的基于协同过滤优化的推荐算法，其特征在于，所述第三评分的计算公式包括：

5.根据权利要求1所述的基于协同过滤优化的推荐算法，其特征在于，所述相似度的计算公式包括

6.根据权利要求1所述的基于协同过滤优化的推荐算法，其特征在于，所述根据所述一级推荐列表以及所述对应关系构建候选推荐列表，包括：

7.根据权利要求6所述的基于协同过滤优化的推荐算法，其特征在于，所述计算所述候选推荐列表中各个元素的第二评分，包括：

8.根据权利要求7所述的基于协同过滤优化的推荐算法，其特征在于，若所述候选推荐列表中的所述新进新闻文章与多个所述未读基础新闻文章具有对应关系，则将所述未读基础新闻文章的第一评分以及所述新进新闻文章、所述未读基础新闻文章的相似度的乘积的和作为所述第二评分。

9.一种基于协同过滤优化的推荐装置，其特征在于，应用于基础新闻库和新进新闻库，所述基础新闻库包括未读基础新闻文章及已读基础新闻文章，所述新进新闻库包括新进新闻文章；所述推荐装置包括：

10.一种代理服务器，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任意一项所述的方法。