CN109033241A - 新闻推荐方法、装置及电子设备 - Google Patents

新闻推荐方法、装置及电子设备 Download PDF

Info

Publication number
CN109033241A
CN109033241A CN201810728825.3A CN201810728825A CN109033241A CN 109033241 A CN109033241 A CN 109033241A CN 201810728825 A CN201810728825 A CN 201810728825A CN 109033241 A CN109033241 A CN 109033241A
Authority
CN
China
Prior art keywords
news
content
keyword
antistop list
individual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810728825.3A
Other languages
English (en)
Inventor
仝帅
王乐
刘岵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing First Video Science And Technology Research Institute Co Ltd
Original Assignee
Beijing First Video Science And Technology Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing First Video Science And Technology Research Institute Co Ltd filed Critical Beijing First Video Science And Technology Research Institute Co Ltd
Priority to CN201810728825.3A priority Critical patent/CN109033241A/zh
Publication of CN109033241A publication Critical patent/CN109033241A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种新闻推荐方法、装置及电子设备,所述新闻推荐方法,包括:获取包含目标用户感兴趣的新闻关键词的个体关键词表以及多个用户感兴趣的新闻关键词的社会关键词表;基于所述个体关键词表及所述社会关键词表中的新闻关键词确定所述目标用户的阅读词库;基于所述阅读词库中新闻关键词在预设的新闻数据库中查找目标新闻内容;将所述目标新闻内容推荐给所述目标用户,达到能够在保证向用户推荐感兴趣的新闻内容的同时,兼顾的向用户推荐社会热度,保证用户阅读范围,避免阅读范围局限在用户感兴趣的新闻内容范围内的情况的技术效果。

Description

新闻推荐方法、装置及电子设备
技术领域
本发明涉及信息处理技术领域,尤其是涉及一种新闻推荐方法、装置及电子设备。
背景技术
随着信息技术和互联网的飞速发展,网络新闻越来越受到人们的欢迎,成为人们日常生活中获取信息的一种主要的途径。近些年,在自媒体兴起的现代社会,新闻内容越来越多,人们周围充斥着大量的新闻。
为了方便用户及时阅读到感兴趣的新闻内容,众多新闻内容提供商一般会根据用户的喜好为用户推荐新闻内容,然而,发明人发现,在实际应用中,一直向用户推荐包含用户感兴趣的关键词的新闻内容,可能会导致用户所接收到的新闻内容一直局限在其感兴趣的新闻内容范围内,使得用户阅读新闻内容的范围越来越小。
发明内容
有鉴于此,本发明的目的在于提供一种新闻推荐方法、装置及电子设备,以缓解现有技术中存在的仅向用户推荐包含用户感兴趣的关键词的新闻内容,可能会导致用户所接收到的新闻内容一直局限在其感兴趣的新闻内容范围内,使得用户阅读新闻内容的范围越来越小的技术问题。
第一方面,本发明实施例提供了一种新闻推荐方法,包括:
获取包含目标用户感兴趣的新闻关键词的个体关键词表以及多个用户感兴趣的新闻关键词的社会关键词表;
基于所述个体关键词表及所述社会关键词表中的新闻关键词确定所述目标用户的阅读词库;
基于所述阅读词库中新闻关键词在预设的新闻数据库中查找目标新闻内容;
将所述目标新闻内容推荐给所述目标用户。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述基于所述个体关键词表及所述社会关键词表中的新闻关键词确定所述目标用户的阅读词库,包括:
针对所述个体关键词表中的每个内容类别,将所述内容类别下的新闻关键词分别乘以预设加权系数,得到个体中间词表;
将所述个体中间词表与所述社会关键词表取并集,得到候选词库;
基于所述候选词库中词频最高的第一预设数量个新闻关键词构建所述目标用户在所述内容类别下的阅读词库。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述基于所述阅读词库中新闻关键词在预设的新闻数据库中查找目标新闻内容,包括:
在所述新闻数据库中检索出包含所述阅读词库中新闻关键词的多个新闻内容,并获取每个所述新闻内容的作者及预设作者权重;
计算多篇新闻内容中每篇新闻内容的新闻关键词与所述阅读词库中新闻关键词的相似度;
根据所述每篇新闻内容的新闻关键词与所述阅读词库中新闻关键词之间的相似度及每篇新闻内容的作者权重计算每篇新闻内容的推荐指数;
将推荐指数最高的第二预设数量个新闻内容确定为目标新闻内容。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述预设作者权重通过以下方式确定:
获取多个作者所发新闻内容的记录,所述记录包括:新闻内容的曝光数、转发数、评论数及内容类别;
针对每个作者在任一内容类别下发布的新闻内容,按照预设作者权重计算公式计算所述作者在每个内容类别下的作者权重;
若新闻内容的曝光数、转发数或者阅读数不位于预设正常数值范围内,则按照预设比例系数对所述作者权重进行降权,得到所述预设作者权重;
若新闻内容的曝光数、转发数或者阅读数位于预设正常数值范围内,则将所述作者权重确定为所述预设作者权重。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述社会关键词表通过以下方式确定:
获取多个用户在预设日期段阅读的新闻内容的新闻关键词、每个所述新闻关键词所属新闻内容的内容类别及阅读日期;
针对每个内容类别下的新闻关键词,将不同阅读日期对应的新闻关键词数量分别乘以与阅读日期对应的预设第一降权系数,得到多个内容类别对应的社会中间词表;
获取每个内容类别对应的社会中间词表中词频最高的第三预设数量个新闻关键词,得到社会关键词表。
结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,其中,所述个体关键词表通过以下方式确定:
获取用户终端发送的在用户阅读的新闻内容中提取的新闻关键词、每个所述新闻关键词所属新闻内容的内容类别及阅读日期;
针对每个内容类别下的新闻关键词,将不同阅读日期对应的新闻关键词数量分别乘以与阅读日期对应的预设第二降权系数,得到多个内容类别对应的个体中间词表;
获取每个内容类别对应的个体中间词表中词频最高的第四预设数量个新闻关键词,得到个体关键词表。
结合第一方面,本发明实施例提供了第一方面的第六种可能的实施方式,其中,所述预设的新闻数据库通过以下方式建立:
获取基本语料库,读取所述基本语料库中的新闻内容;
将每篇新闻内容进行分词处理,清除每篇新闻内容中的停用词,并统计每篇新闻内容所有词语的词频,并对所有词语按照词频降序的顺序排序;
在得到的排序词语中提取出现次数最多的预设第四数量个关键词。
第二方面,本发明实施例还提供一种新闻推荐装置,包括:
获取模块,用于获取包含目标用户感兴趣的新闻关键词的个体关键词表以及多个用户感兴趣的新闻关键词的社会关键词表;
确定模块,用于基于所述个体关键词表及所述社会关键词表中的新闻关键词确定所述目标用户的阅读词库;
查找模块,用于基于所述阅读词库中新闻关键词在预设的新闻数据库中查找目标新闻内容;
推荐模块,用于将所述目标新闻内容推荐给所述目标用户。
第三方面,本发明实施例还提供一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法的步骤。
第四方面,本发明实施例还提供一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行第一方面所述的方法。
本发明实施例带来了以下有益效果:本发明实施例通过首先获取包含目标用户感兴趣的新闻关键词的个体关键词表以及多个用户感兴趣的新闻关键词的社会关键词表,然后基于所述个体关键词表及所述社会关键词表中的新闻关键词确定所述目标用户的阅读词库,再基于所述阅读词库中新闻关键词在预设的新闻数据库中查找目标新闻内容,最后可以将所述目标新闻内容推荐给所述目标用户。
本发明实施例通过基于包含目标用户感兴趣的新闻关键词的个体关键词表和包含多个用户感兴趣的新闻关键词的社会关键词表确定目标用户的阅读词库,进而按照阅读词库选择目标新闻内容,能够在保证向用户推荐感兴趣的新闻内容的同时,兼顾的向用户推荐社会热度,保证用户阅读范围,避免阅读范围局限在用户感兴趣的新闻内容范围内的情况。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种新闻推荐方法的流程图;
图2为图1中步骤S102的流程图;
图3为图1中步骤S103的流程图;
图4为本发明实施例提供的一种新闻推荐装置的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,在实际应用中,一直向用户推荐包含用户感兴趣的关键词的新闻内容,而用户感兴趣的关键词可能与社会热点内容偏差较大,这将使得用户无法及时了解社会热点,使得用户阅读新闻内容的范围越来越小。基于此,本发明实施例提供的一种新闻推荐方法、装置及电子设备,可以通过基于包含目标用户感兴趣的新闻关键词的个体关键词表和包含多个用户感兴趣的新闻关键词的社会关键词表确定目标用户的阅读词库,进而按照阅读词库选择目标新闻内容,能够在保证向用户推荐感兴趣的新闻内容的同时,兼顾的向用户推荐社会热度,保证用户阅读范围,避免阅读范围局限在用户感兴趣的新闻内容范围内的情况。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种新闻推荐方法进行详细介绍,所述新闻推荐方法可以应用于服务器中,如图1所示,所述方法可以包括以下步骤:
步骤S101,获取包含目标用户感兴趣的新闻关键词的个体关键词表以及多个用户感兴趣的新闻关键词的社会关键词表;
在本发明实施例中,目标用户可以指待推荐新闻内容的用户,个体关键词表中包含预先统计的目标用户感兴趣的新闻关键词,个体关键词表可以反应用户的阅读兴趣,社会关键词表中包含预先统计的多个用户感兴趣的新闻关键词,社会关键词表可以反应当前热会热点。
在本发明实施例中,所述个体关键词表可以通过以下方式确定:
(1)获取用户终端发送的在用户阅读的新闻内容中提取的新闻关键词、每个所述新闻关键词所属新闻内容的内容类别及阅读日期;
在实际应用中,可以接收用户终端每天同步的用户阅读的新闻内容中提取的新闻关键词、每个所述新闻关键词所属新闻内容的内容类别及阅读日期并存储在预设存储空间中,然后,在预设存储空间中获取预定日期范围内的新闻关键词、内容类别及阅读日期。在本发明实施例中,新闻内容可以指新闻文章,新闻关键词可以指新闻内容中反应核心内容的词语或者反复出现的词语等等,示例性的,如人物新闻,则人物的名字可以为新闻关键词,如房价趋势新闻,则房价、地区、升降幅度可以为新闻关键词等等,内容类别可以指新闻内容所属的新闻分类,示例性的,内容类别可以包括:生活、财经、汽车和娱乐等等。
通过该步骤可以获取到用户感兴趣的新闻内容关键词及内容分类,便于了解到目标用户的阅读兴趣,为后续为该目标用户推送用户感兴趣的新闻内容做准备。
(2)针对每个内容类别下的新闻关键词,将不同阅读日期对应的新闻关键词数量分别乘以与阅读日期对应的预设第二降权系数,得到多个内容类别对应的个体中间词表;
在本发明实施例中,由于在实际应用中,用户在不同时间可能关注的新闻内容不同,对同一时事的关注程度可能随着时间的推移感兴趣程度越来越低,所以可以将第二降权系数设置为与阅读日期距离当前日期的远近成反比,也就是说,阅读日期距离当前日期越远,第二降权系数越小,阅读日期距离当前日期越近,第二降权系数越大,示例性的,阅读日期距离当前日期8天,第二降权系数可以设置为0.3,阅读日期距离当前日期3天,第二降权系数可以设置为0.6等等。
在该步骤中,可以对于每个内容类别下的新闻关键词,将不同阅读日期对应的新闻关键词数量乘以该阅读日期对应的预设第二降权系数,示例性的,若某一内容类别下,阅读日期距离当前日期8天,该日期对应的新闻关键词数量为180个,则该内容类别对应的个体中间词表中可以随机保留180*0.3=54个关键词,若阅读日期距离当前日期3天,该日期对应的新闻关键词数量为240个,则该内容类别对应的个体中间词表中可以包含240*0.6=144个关键词。
通过该步骤可以得到目标用户在每个内容类别中感兴趣的新闻关键词,为后续构建包含全内容类别的个体关键词表做准备。
(3)获取每个内容类别对应的个体中间词表中词频最高的第四预设数量个新闻关键词,得到个体关键词表。
在该步骤中,可以分别在每一个内容类别对应的个体中间词表中,选取词频最高的第四预设数量个新闻关键词,也就是说,可以在每一个个体中间词表中选取出现次数最多的第四预设数量个新闻关键词,利用选取的这些关键词构建个体关键词表。
通过该步骤可以在各个个体中间词表中选取用户最感兴趣的新闻关键词,并存入个体关键词表中,便于了解用户在各个内容类别下的阅读兴趣。
所述社会关键词表可以通过以下方式确定:
(1)获取多个用户在预设日期段阅读的新闻内容的新闻关键词、每个所述新闻关键词所属新闻内容的内容类别及阅读日期;
在实际应用中,可以接收多个用户终端每天同步的用户阅读的新闻内容中提取的新闻关键词、每个所述新闻关键词所属新闻内容的内容类别及阅读日期并存储在预设存储空间中,然后,在预设存储空间中获取预定日期范围内的新闻关键词、内容类别及阅读日期。在本发明实施例中,新闻内容可以指新闻文章,新闻关键词可以指新闻内容中反应核心内容的词语或者反复出现的词语等等,示例性的,如车辆新闻,则车辆的型号及性能等可以为新闻关键词,如娱乐新闻,则明星名字、事件内容等可以为新闻关键词等等,内容类别可以指新闻内容所属的新闻分类,示例性的,内容类别可以包括:生活、财经、汽车和娱乐等等。
通过该步骤可以获取到多个用户感兴趣的新闻内容关键词及内容分类,便于了解到多个用户也即社会群众的阅读兴趣,为后续为目标用户推送社会群众感兴趣的新闻内容做准备。
(2)针对每个内容类别下的新闻关键词,将不同阅读日期对应的新闻关键词数量分别乘以与阅读日期对应的预设第一降权系数,得到多个内容类别对应的社会中间词表;
在本发明实施例中,由于在实际应用中,基本上所有用户在不同时间可能关注的新闻内容不同,对同一时事的关注程度可能随着时间的推移感兴趣程度越来越低,所以可以将第一降权系数设置为与阅读日期距离当前日期的远近成反比,也就是说,阅读日期距离当前日期越远,第一降权系数越小,阅读日期距离当前日期越近,第一降权系数越大,示例性的,阅读日期距离当前日期5天,第一降权系数可以设置为0.7,阅读日期距离当前日期1天,第一降权系数可以设置为0.9等等。
在该步骤中,可以对于每个内容类别下的新闻关键词,将不同阅读日期对应的新闻关键词数量乘以该阅读日期对应的预设第一降权系数,示例性的,若某一内容类别下,阅读日期距离当前日期5天,该日期对应的新闻关键词数量为100个,则该内容类别对应的个体中间词表中可以随机保留100*0.7=70个关键词,若阅读日期距离当前日期1天,该日期对应的新闻关键词数量为90个,则该内容类别对应的个体中间词表中可以包含90*0.9=81个关键词。
通过该步骤可以得到多个用户中每个用户在每个内容类别中感兴趣的新闻关键词,为后续构建包含全内容类别的社会关键词表做准备。
(3)获取每个内容类别对应的社会中间词表中词频最高的第三预设数量个新闻关键词,得到社会关键词表。
在该步骤中,可以分别在每一个内容类别对应的社会中间词表中,选取词频最高的第三预设数量个新闻关键词,也就是说,可以在每一个社会中间词表中选取出现次数最多的第三预设数量个新闻关键词,利用选取的这些关键词构建社会关键词表。
通过该步骤可以在各个社会中间词表中选取用户最感兴趣的新闻关键词,并存入社会关键词表中,便于了解多个用户在各个内容类别下的阅读兴趣,也即了解社会群众在各个内容类别下所关注的热点内容。
步骤S102,基于所述个体关键词表及所述社会关键词表中的新闻关键词确定所述目标用户的阅读词库;
在该步骤中,可以基于由个体关键词表及社会关键词表中的新闻关键词组成的新闻关键词集合确定目标用户的阅读词库,一同基于个体关键词表及社会关键词表能够在考虑目标用户感兴趣的新闻内容的同时考虑社会热点,兼顾用户感兴趣内容与社会热点内容。
可选地,如图2所示,所述步骤S102基于所述个体关键词表及所述社会关键词表中的新闻关键词确定所述目标用户的阅读词库,包括:
步骤S201,针对所述个体关键词表中的每个内容类别,将所述内容类别下的新闻关键词分别乘以预设加权系数,得到个体中间词表;
在实际应用中,由于个体关键词表中全部新闻关键词的总数量与社会关键词表中全部新闻关键词的总数量处于不同数量级,个体关键词库中新闻关键词的数量远远小于社会关键词表中新闻关键词的数量,如果直接将个体关键词表和社会关键词表中的新闻关键词进行组合,可能会导致来自于个体关键词表中的新闻关键词被选入阅读词库的几率过小,所以需要对个体关键词表中的新闻关键词数量进行加权处理,使得个体关键词表中新闻关键词的数量与社会关键词表中新闻关键词的数量处于同一数量级,以使得来自于个体关键词表和来自于社会关键词表的新闻关键词被选入阅读词库中的概率更加均匀。
在本发明实施例中,预设加权系数可以根据个体关键词库中新闻关键词的数量与社会关键词表中新闻关键词的数量相差的数量级决定。
在将个体关键词表中新闻关键词的数量乘以预设加权系数后,可以将个体关键词表中新闻关键词的数量级与社会关键词表中新闻关键词的数量级相同,进而,个体中间词表中新闻关键词的数量为按照将个体关键词表中新闻关键词的数量乘以预设加权系数进行加权处理后的数量。
步骤S202,将所述个体中间词表与所述社会关键词表取并集,得到候选词库;
通过步骤S202,能够针对每个内容类别,将个体中间词表中的新闻关键词与社会关键词表中的新闻关键词组合成一个集合,得到候选词库。
步骤S203,基于所述候选词库中词频最高的第一预设数量个新闻关键词构建所述目标用户在所述内容类别下的阅读词库。
在该步骤中,可以分别建立每个内容类别对应的阅读词库,每个阅读词库中包含第一预设数量个新闻关键词,这第一预设数量个新闻关键词为该内容类别对应的候选词库中词频最高的。
步骤S103,基于所述阅读词库中新闻关键词在预设的新闻数据库中查找目标新闻内容;
在本发明实施例中,所述预设的新闻数据库通过以下方式建立:
获取基本语料库,基本语料库中可以包含多篇新闻内容,读取所述基本语料库中的新闻内容;将每篇新闻内容进行分词处理,清除每篇新闻内容中的停用词,并统计每篇新闻内容所有词语的词频,并对所有词语按照词频降序的顺序排序;在得到的排序词语中提取出现次数最多的预设第四数量个关键词。
可选地,如图3所示,所述步骤S103基于所述阅读词库中新闻关键词在预设的新闻数据库中查找目标新闻内容,包括:
步骤S301,在所述新闻数据库中检索出包含所述阅读词库中新闻关键词的多个新闻内容,并获取每个所述新闻内容的作者及预设作者权重;
在本发明实施例中,可以基于步骤S102得到的阅读词库中的新闻关键词,在预设的新闻数据库最新入库的新闻内容中查找包含阅读词库中新闻关键词的新闻内容,查找出的新闻内容中可以包含所述阅读词库中的至少一个新闻关键词,示例性的,可以包含一个新闻关键词,也可以包含两个新闻关键词,还可以包含10个关键词等等。
由于作者的知名度或者其撰写的新闻内容的质量等可能会影响用户的阅读兴趣,所以在本发明实施例中将预设作者权重加入到查找目标新闻内容的过程中。
在本发明实施例中,所述预设作者权重通过以下方式确定:
(1)获取多个作者所发新闻内容的记录,所述记录包括:新闻内容的曝光数、转发数、评论数及内容类别;
新闻内容的曝光数可以指新闻内容被曝光多少次,新闻内容的转发数可以指新闻内容被转发多少次,新闻内容的评论数可以指被评论多少次,内容类别可以指新闻内容被曝光平台曝光时被划分的内容类别。
可以在各大发布新闻内容的平台上获取多个作者发布新闻内容的记录。
(2)针对每个作者在任一内容类别下发布的新闻内容,按照预设作者权重计算公式计算所述作者在每个内容类别下的作者权重;
示例性的,预设作者权重计算公式为阅读数+转发数*第一系数+评论数*第二系数,第一系数和第二系数的数值可以根据实际情况按需求设置,其取指范围为0~1之间的小数。
由于一些作者可能更善于撰写娱乐新闻,一些作者可能更善于撰写财经新闻,如果跨领域发布文章的话,可能会对用户阅读是的阅读兴趣产生影响,所以可以计算每一个作者在每个内容类别下的作者权重。
(3)若新闻内容的曝光数、转发数或者阅读数不位于预设正常数值范围内,则按照预设比例系数对所述作者权重进行降权,得到所述预设作者权重;
在新闻内容的曝光数、转发数或者阅读数不位于预设正常数值范围内时,可以对作者权重进行降权处理,也即按照预设比例降低作者权重,例如可以将作者权重从0.5降低至0.4等,通过该步骤对曝光数、转发数或者阅读数进行正常数值范围监测,可以有效降低刷热度等非公平竞争的情况。
(4)若新闻内容的曝光数、转发数或者阅读数位于预设正常数值范围内,则将所述作者权重确定为所述预设作者权重。
如果新闻内容的曝光数、转发数或者阅读数位于预设正常数值范围内,则可以直接将计算得到的作者权重确定为预设作者权重。
步骤S302,计算多篇新闻内容中每篇新闻内容的新闻关键词与所述阅读词库中新闻关键词的相似度;
示例性的,可以通过计算dice系数的方式计算每篇新闻内容的新闻关键词与所述阅读词库中新闻关键词的相似度,具体地,dice系数可以按照如下公式计算:
Dice(s1,s2)=2*comm(s1,s2)/(leng(s1)+leng(s2))。
其中,comm(s1,s2)是s1、s2中相同字符的个数,leng(s1)为字符串s1的长度,leng(s2)是字符串s2的长度,字符串s1为新闻内容的新闻关键词,字符串s2为新闻内容的新闻关键词。
步骤S303,根据所述每篇新闻内容的新闻关键词与所述阅读词库中新闻关键词之间的相似度及每篇新闻内容的作者权重计算每篇新闻内容的推荐指数;
在该步骤中,可以根据步骤S302计算得到的每篇新闻内容的新闻关键词与所述阅读词库中新闻关键词之间的相似度,以及,每篇新闻内容的作者权重来计算每篇新闻内容的推荐指数。
步骤S304,将推荐指数最高的第二预设数量个新闻内容确定为目标新闻内容。
在该步骤中,可以在计算得到的多篇新闻内容的推荐指数中,找到推荐指数最高的第二预设数量个新闻内容,将该第二预设数量个新闻内容确定为目标新闻内容。
步骤S104,将所述目标新闻内容推荐给所述目标用户。
在该步骤中,可以将目标新闻内容推送给目标用户对应的用户终端。
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
本发明实施例通过首先获取包含目标用户感兴趣的新闻关键词的个体关键词表以及多个用户感兴趣的新闻关键词的社会关键词表,然后基于所述个体关键词表及所述社会关键词表中的新闻关键词确定所述目标用户的阅读词库,再基于所述阅读词库中新闻关键词在预设的新闻数据库中查找目标新闻内容,最后可以将所述目标新闻内容推荐给所述目标用户。
本发明实施例通过基于包含目标用户感兴趣的新闻关键词的个体关键词表和包含多个用户感兴趣的新闻关键词的社会关键词表确定目标用户的阅读词库,进而按照阅读词库选择目标新闻内容,能够在保证向用户推荐感兴趣的新闻内容的同时,兼顾的向用户推荐社会热度,保证用户阅读范围,避免阅读范围局限在用户感兴趣的新闻内容范围内的情况。
如图4所示,在本发明的又一实施例中,还提供一种新闻推荐装置,包括:
获取模块11,用于获取包含目标用户感兴趣的新闻关键词的个体关键词表以及多个用户感兴趣的新闻关键词的社会关键词表;
确定模块12,用于基于所述个体关键词表及所述社会关键词表中的新闻关键词确定所述目标用户的阅读词库;
查找模块13,用于基于所述阅读词库中新闻关键词在预设的新闻数据库中查找目标新闻内容;
推荐模块14,用于将所述目标新闻内容推荐给所述目标用户。
在本发明的又一实施例中,还提供一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法实施例所述的方法的步骤。
在本发明的又一实施例中,一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行上述方法实施例所述方法。
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
附图中的流程图和框图显示了根据本发明的多个实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
本发明实施例所提供的新闻推荐方法、装置及电子设备的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种新闻推荐方法,其特征在于,包括:
获取包含目标用户感兴趣的新闻关键词的个体关键词表以及多个用户感兴趣的新闻关键词的社会关键词表;
基于所述个体关键词表及所述社会关键词表中的新闻关键词确定所述目标用户的阅读词库;
基于所述阅读词库中新闻关键词在预设的新闻数据库中查找目标新闻内容;
将所述目标新闻内容推荐给所述目标用户。
2.根据权利要求1所述的新闻推荐方法,其特征在于,所述基于所述个体关键词表及所述社会关键词表中的新闻关键词确定所述目标用户的阅读词库,包括:
针对所述个体关键词表中的每个内容类别,将所述内容类别下的新闻关键词分别乘以预设加权系数,得到个体中间词表;
将所述个体中间词表与所述社会关键词表取并集,得到候选词库;
基于所述候选词库中词频最高的第一预设数量个新闻关键词构建所述目标用户在所述内容类别下的阅读词库。
3.根据权利要求2所述的新闻推荐方法,其特征在于,所述基于所述阅读词库中新闻关键词在预设的新闻数据库中查找目标新闻内容,包括:
在所述新闻数据库中检索出包含所述阅读词库中新闻关键词的多个新闻内容,并获取每个所述新闻内容的作者及预设作者权重;
计算多篇新闻内容中每篇新闻内容的新闻关键词与所述阅读词库中新闻关键词的相似度;
根据所述每篇新闻内容的新闻关键词与所述阅读词库中新闻关键词之间的相似度及每篇新闻内容的作者权重计算每篇新闻内容的推荐指数;
将推荐指数最高的第二预设数量个新闻内容确定为目标新闻内容。
4.根据权利要求3所述的新闻推荐方法,其特征在于,所述预设作者权重通过以下方式确定:
获取多个作者所发新闻内容的记录,所述记录包括:新闻内容的曝光数、转发数、评论数及内容类别;
针对每个作者在任一内容类别下发布的新闻内容,按照预设作者权重计算公式计算所述作者在每个内容类别下的作者权重;
若新闻内容的曝光数、转发数或者阅读数不位于预设正常数值范围内,则按照预设比例系数对所述作者权重进行降权,得到所述预设作者权重;
若新闻内容的曝光数、转发数或者阅读数位于预设正常数值范围内,则将所述作者权重确定为所述预设作者权重。
5.根据权利要求1所述的新闻推荐方法,其特征在于,所述社会关键词表通过以下方式确定:
获取多个用户在预设日期段阅读的新闻内容的新闻关键词、每个所述新闻关键词所属新闻内容的内容类别及阅读日期;
针对每个内容类别下的新闻关键词,将不同阅读日期对应的新闻关键词数量分别乘以与阅读日期对应的预设第一降权系数,得到多个内容类别对应的社会中间词表;
获取每个内容类别对应的社会中间词表中词频最高的第三预设数量个新闻关键词,得到社会关键词表。
6.根据权利要求1所述的新闻推荐方法,其特征在于,所述个体关键词表通过以下方式确定:
获取用户终端发送的在用户阅读的新闻内容中提取的新闻关键词、每个所述新闻关键词所属新闻内容的内容类别及阅读日期;
针对每个内容类别下的新闻关键词,将不同阅读日期对应的新闻关键词数量分别乘以与阅读日期对应的预设第二降权系数,得到多个内容类别对应的个体中间词表;
获取每个内容类别对应的个体中间词表中词频最高的第四预设数量个新闻关键词,得到个体关键词表。
7.根据权利要求1所述的新闻推荐方法,其特征在于,所述预设的新闻数据库通过以下方式建立:
获取基本语料库,读取所述基本语料库中的新闻内容;
将每篇新闻内容进行分词处理,清除每篇新闻内容中的停用词,并统计每篇新闻内容所有词语的词频,并对所有词语按照词频降序的顺序排序;
在得到的排序词语中提取出现次数最多的预设第四数量个关键词。
8.一种新闻推荐装置,其特征在于,包括:
获取模块,用于获取包含目标用户感兴趣的新闻关键词的个体关键词表以及多个用户感兴趣的新闻关键词的社会关键词表;
确定模块,用于基于所述个体关键词表及所述社会关键词表中的新闻关键词确定所述目标用户的阅读词库;
查找模块,用于基于所述阅读词库中新闻关键词在预设的新闻数据库中查找目标新闻内容;
推荐模块,用于将所述目标新闻内容推荐给所述目标用户。
9.一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至7任一项所述的方法的步骤。
10.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行所述权利要求1-7任一所述方法。
CN201810728825.3A 2018-07-04 2018-07-04 新闻推荐方法、装置及电子设备 Pending CN109033241A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810728825.3A CN109033241A (zh) 2018-07-04 2018-07-04 新闻推荐方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810728825.3A CN109033241A (zh) 2018-07-04 2018-07-04 新闻推荐方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN109033241A true CN109033241A (zh) 2018-12-18

Family

ID=65522407

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810728825.3A Pending CN109033241A (zh) 2018-07-04 2018-07-04 新闻推荐方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN109033241A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110321478A (zh) * 2019-05-27 2019-10-11 腾讯科技(北京)有限公司 一种信息推荐方法、装置、设备及介质
CN112015982A (zh) * 2020-08-20 2020-12-01 深圳市铭数信息有限公司 定制化新闻生成方法、装置、设备及存储介质
CN116188120A (zh) * 2023-04-28 2023-05-30 北京华阅嘉诚科技发展有限公司 一种有声书的推荐方法、装置、***及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446959A (zh) * 2008-12-30 2009-06-03 深圳市迅雷网络技术有限公司 一种基于互联网的新闻推荐方法和***
CN103176982A (zh) * 2011-12-20 2013-06-26 ***通信集团浙江有限公司 一种电子图书推荐的方法及***
US20150066952A1 (en) * 2013-08-30 2015-03-05 LimeSpot Solutions Inc. Content Personalization System
CN104572855A (zh) * 2014-12-17 2015-04-29 深圳先进技术研究院 一种新闻推荐方法及装置
CN105721944A (zh) * 2016-01-29 2016-06-29 四川长虹电器股份有限公司 智能电视的新闻资讯推荐方法
CN107025310A (zh) * 2017-05-17 2017-08-08 长春嘉诚信息技术股份有限公司 一种自动实时新闻推荐方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446959A (zh) * 2008-12-30 2009-06-03 深圳市迅雷网络技术有限公司 一种基于互联网的新闻推荐方法和***
CN103176982A (zh) * 2011-12-20 2013-06-26 ***通信集团浙江有限公司 一种电子图书推荐的方法及***
US20150066952A1 (en) * 2013-08-30 2015-03-05 LimeSpot Solutions Inc. Content Personalization System
CN104572855A (zh) * 2014-12-17 2015-04-29 深圳先进技术研究院 一种新闻推荐方法及装置
CN105721944A (zh) * 2016-01-29 2016-06-29 四川长虹电器股份有限公司 智能电视的新闻资讯推荐方法
CN107025310A (zh) * 2017-05-17 2017-08-08 长春嘉诚信息技术股份有限公司 一种自动实时新闻推荐方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110321478A (zh) * 2019-05-27 2019-10-11 腾讯科技(北京)有限公司 一种信息推荐方法、装置、设备及介质
CN112015982A (zh) * 2020-08-20 2020-12-01 深圳市铭数信息有限公司 定制化新闻生成方法、装置、设备及存储介质
CN112015982B (zh) * 2020-08-20 2024-06-14 深圳市铭数信息有限公司 定制化新闻生成方法、装置、设备及存储介质
CN116188120A (zh) * 2023-04-28 2023-05-30 北京华阅嘉诚科技发展有限公司 一种有声书的推荐方法、装置、***及存储介质

Similar Documents

Publication Publication Date Title
CN105740430B (zh) 一种融合社会化信息的个性化推荐方法
CN108197330B (zh) 基于社交平台的数据挖掘方法及装置
CN110413877A (zh) 一种资源推荐方法、装置及电子设备
CN107220352A (zh) 基于人工智能构建评论图谱的方法和装置
CN103678518B (zh) 一种推荐列表调整方法和装置
CN107544982B (zh) 文本信息处理方法、装置及终端
KR101100830B1 (ko) 인터넷을 활용한 개체 검색과 이를 위한 하이브리드 기반의 의견분석 시스템 및 그 방법
CN104899246B (zh) 基于模糊机制用户评分邻域信息的协同过滤推荐方法
CN106126582A (zh) 推荐方法及装置
CN103729359A (zh) 一种推荐搜索词的方法及***
WO2018040069A1 (zh) 信息推荐***及方法
CN110334356A (zh) 文章质量的确定方法、文章筛选方法、以及相应的装置
CN109325146A (zh) 一种视频推荐方法、装置、存储介质和服务器
WO2020155877A1 (zh) 信息推荐
CN108132963A (zh) 资源推荐方法和装置、计算设备和存储介质
CN110162292A (zh) 语音播报方法及装置
CN108304373A (zh) 语义词典的构建方法、装置、存储介质和电子装置
CN109033241A (zh) 新闻推荐方法、装置及电子设备
CN107943910B (zh) 一种基于组合算法的个性化图书推荐方法
CN109511015A (zh) 多媒体资源推荐方法、装置、存储介质及设备
CN110134845A (zh) 项目舆情监控方法、装置、计算机设备及存储介质
CN109064293A (zh) 商品推荐方法、装置、计算机设备及存储介质
CN110175264A (zh) 视频用户画像的构建方法、服务器及计算机可读存储介质
CN110427546A (zh) 一种信息展示方法和装置
US7949576B2 (en) Method of providing product database

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181218