CN107562939B - 垂直领域新闻推荐方法、装置及可读储存介质 - Google Patents

垂直领域新闻推荐方法、装置及可读储存介质 Download PDF

Info

Publication number
CN107562939B
CN107562939B CN201710862705.8A CN201710862705A CN107562939B CN 107562939 B CN107562939 B CN 107562939B CN 201710862705 A CN201710862705 A CN 201710862705A CN 107562939 B CN107562939 B CN 107562939B
Authority
CN
China
Prior art keywords
news
user
module
website
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710862705.8A
Other languages
English (en)
Other versions
CN107562939A (zh
Inventor
李斌
杨宇
骆宗伟
姜珊
石欣晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Aotian Technology Co ltd
Southwest University of Science and Technology
Original Assignee
Shenzhen Aotian Technology Co ltd
Southwest University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Aotian Technology Co ltd, Southwest University of Science and Technology filed Critical Shenzhen Aotian Technology Co ltd
Priority to CN201710862705.8A priority Critical patent/CN107562939B/zh
Publication of CN107562939A publication Critical patent/CN107562939A/zh
Application granted granted Critical
Publication of CN107562939B publication Critical patent/CN107562939B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网站新闻推荐方法、装置以及可读存储介质。所述网站新闻推荐方法包括以下步骤:根据门户网站获取的用户特征数据建立用户兴趣模块;根据门户网站储存的新闻特征数据建立新闻模块;通过预设推荐规则结合用兴趣模块与新闻模块进行垂直领域的新闻推荐,并将推荐的新闻进行展示。本发明通过建立用户模块与新闻模块,从而能够准确获取用户的兴趣模块与新闻的属性,因此使得垂直领域的新闻推荐准确性与专业性大大提高,使得用户对于门户网站的粘性大大增加,使用体验也获得提升。

Description

垂直领域新闻推荐方法、装置及可读储存介质
技术领域
本发明涉及数据挖掘和机器学习领域,尤其涉及一种网站新闻推荐方法、装置及可读储存介质。
背景技术
目前绝大多数的门户网站都在使用供新闻推荐的功能,当前的新闻推荐方法一般是根据用户所点击的新闻或者搜索的关键字等信息进行对应的新闻推荐。这样的新闻推荐方法虽然能够快速推荐大量与关键字有关的新闻,但是并不能针对对用户的关注点进行深入的挖掘,用户虽然能够获得大量的新闻推荐,不过同时也会因无法通过推荐的新闻内容准确获取想要关注的内容,而丧失对网站的信任,最终导致对网站的关注度降低等不良影响。
发明内容
本发明的主要目的在于提供一种网站新闻推荐方法,旨在解决门户网站无法准对用户准确进行垂直领域的新闻推荐。
为实现上述目的,本发明提供一种网站新闻推荐方法,所述网站新闻推荐方法包括以下步骤:
根据网站获取的用户特征数据建立用户兴趣模块;
根据网站储存的新闻特征数据建立新闻模块;
根据预设推荐规则结合用户兴趣模块与新闻模块,生成垂直领域的推荐新闻,并将推荐新闻发送至用户端进行展示。
所述根据网站获取的用户特征数据建立用户兴趣模块的步骤包括:
获取所述用户特征数据中用户的基本信息数据,在用户端浏览网站冷启动时通过基本信息数据建立的第一兴趣模块,其中用户兴趣模块包括第一兴趣模块。
所述通过基本信息数据建立冷启动时的用户兴趣模块的步骤之后包括:
基于用户端的浏览历史记录获取用户分类业务拓展信息,分析用户分类业务拓展信息以得到关于用户短期偏好的第二兴趣模块,其中用户兴趣模块还包括第二兴趣模块。
所述分析用户分类业务拓展信息以得到第二兴趣模块的步骤之后包括:
获取用户的行为数据,分析用户行为数据以得到关于用户长期偏好的第三兴趣模块,其中用户兴趣模块还包括第三兴趣模块。
可选地,所述根据网站储存的新闻特征数据建立新闻模块的步骤包括:
获取网站储存的文本形式的新闻数据,并对新闻数据进行数据结构处理以生成数据化的新闻数据;
根据处理后的数据化新闻数据建立数据化的新闻模块。
所述对新闻数据进行数据结构处理以生成数据化的新闻数据的步骤包括:
将文本形式的新闻数据转化为对应关键字向量,并根据关键字向量得出数据化的新闻数据。
可选地,所述通过预设推荐规则结合用户兴趣模块与新闻模块,生成垂直领域的推荐新闻的步骤包括:
根据所述推荐规则与用户兴趣模块及新闻模块进行推荐后生成初级推荐新闻,初级推荐新闻根据专家意见进行进一步筛选,最后生成推荐新闻。
可选地,所述将推荐新闻发送至用户端进行展示的步骤包括:
将获取到的推荐新闻进行综合排列并于客户端进行展示。
此外,为实现上述目的,本发明还提供一种新闻推荐装置,所述新闻推荐装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的新闻推荐程序,所述新闻推荐程序被所述处理器执行时实现如上所述网站新闻推荐方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有新闻推荐程序,所述新闻推荐程序被处理器执行时实现如上所述的新闻推荐方法的步骤。
本发明提出的网站新闻推荐方法,通过建立用户兴趣模块来统计与获取用户的阅读习惯、兴趣与行为,并分析用户想要获取的新闻类型。再通过建立新闻模块来获取新闻的相关类型,并通过与用户兴趣进行一定规则的匹配,得出当前推荐的新闻。本发明能够对用户短中长期全面的新闻阅读跟踪,并且较为准确的获取用户的新闻阅读需求,并且能够准确的进行相关领域的新闻推荐,准确性与专业性均得到有效保证,从而使用户在门户网站能够获取到高质量的新闻推荐,提升了用户对于门户网站的使用体验。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的终端\装置结构示意图;
图2为本发明网站新闻推荐方法一实施例的流程示意图;
图3为本发明网站新闻推荐方法另一实施例中S10的步骤的细化流程示意图;
图4为本发明网站新闻推荐方法模块结构示意图;
图5为本发明网站新闻推荐方法工作流程图示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。
本发明实施例终端可以是PC,也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面3)播放器、便携计算机等具有显示功能的可移动式终端设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及网站新闻推荐程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的网站新闻推荐程序,并执行以下操作:
根据网站获取的用户特征数据建立用户兴趣模块;
根据网站储存的新闻特征数据建立新闻模块;
根据预设推荐规则结合用户兴趣模块与新闻模块,生成垂直领域的推荐新闻,并将推荐新闻发送至用户端进行展示。
进一步地,处理器1001可以调用存储器1005中存储的网站新闻推荐程序,还执行以下操作:
获取所述用户特征数据中用户的基本信息数据,在用户端浏览网站冷启动时通过基本信息数据建立的第一兴趣模块,其中用户兴趣模块包括第一兴趣模块。
参照图2,本发明第一实施例提供一种新闻推荐方法,所述网站新闻推荐方法包括:
步骤S10,根据用户特征数据建立用户模块的兴趣模块;
步骤S20,根据新闻特征数据建立新闻模块;
步骤S30,根据预设推荐规则结合用户兴趣模块与新闻模块,生成垂直领域的推荐新闻,并将推荐新闻发送至用户端进行展示。
具体地,新闻推荐***首先根据用户特征数据需要建立用户兴趣模块,来建立用户的兴趣模块,其中用户特征数据包括,基本信息、用户行为特征与分类业务扩展特征。然后根据新闻的特征数据,将互联网上以文本形式储存的新闻转化为结构化的数据形式,以方便后续的计算。最后将用户模块与新闻模块的数据通过预设的新闻推荐规则生成推荐新闻,并发送至用户端(浏览器或者客户端)。
当前大多数门户网站等都会根据用户的使用习惯进行新闻推荐,而目前的新闻推荐方法一般为根据用户的点击纪录或者搜索纪录等数据将相关联的新闻推荐(例如用户通过搜索刘德华来获取与刘德华相关的新闻,则门户网站会增加与刘德华相关的新闻,甚至是娱乐新闻的推荐)。这种新闻推荐方法或许能够短暂给用户提供信息获取的便利,但是却并非真正的智能化推荐。用户通过搜索或者点击等方式获取某条新闻,有可能是因为工作或个人的短时间需要,而并非个人的兴趣爱好,因此对相关信息没有了使用的需求后,门户网站继续推荐的相关新闻对于用户而言则如同垃圾信息,不仅起不到积极效果,反而会导致用户的反感。
如果想要增加用户粘性,则需要能够准确的找出用户的需求点,本发明通过对新闻的关键字提取、主题发现等技术对新闻进行建模,将非结构化的数据转换为可存储的结构化数据。然后通过对用户基本信息与行为的分析构造和更新用户模块。再通过混合推荐算法,结合行业的专家知识,为用户提供需要或感兴趣的信息。最后通过用户对推荐列表反馈的分析,调整列表组成成分,达到时推荐列表更加个性化与智能化的目的。
首先需要建立的是用户模块,通过获取到用户特征数据来解决推荐过程中的不同情况所面对的问题。用户特征数据包括基本信息、用户行为特征与分类业务扩展特征。基本信息为用户在网站注册时所填写的信息,用以给无阅读历史的新用户冷启动时进行简单的新闻推荐;用户行为特征主要为用户阅读历史与用户阅读操作行为,通过分析用户的阅读操作行为数据可以较为精确的获取用户的兴趣与偏好,本***会将相关新闻中的关键字或命名实体的权重进行提升,并存储在用户的长期兴趣模块中。用户部分操作行为及相关说明介绍如表1。
Figure GDA0002828623560000061
表1
而分类业务扩展信息是从用户使用的业务类别(本文指用户阅读过的新闻)抽取的可表达用户偏好的用户特征。随着用户新闻阅读量的增加,扩展信息也会随之增加,因此需要及时对其进行更新,以便精确捕捉用户短期兴趣。
最后综合三方面用户的特征,对用户进行综合建模对用户进行刻画。用户i的模块Ui为U={Ii,RHi,Pi}。其中Ii代表用户i的基本信息,Ii={gender=0,age=4...};RHi代表用户i阅读过得最有价值的文章的ID,取i=20,RHi={NT1,NT2,...NT20};Pi代表用户i行为特征与分类业务扩展信息共同获取的可以代表用户某段时期兴趣的关键字。Pi={ki1,ki2,...ki20}。
除了建立用户兴趣模块外,本发明还需要建立新闻新闻,从而可以根据用户的兴趣进行对应的新闻推荐。新闻在互联网上是以文本的形式存储的,属非结构化数据。在对新闻进行建模时需要经过一系列的数据结构化处理工作,从而将文本数据转换为可存储、计算的结构化数据。本文将新闻特征分为三类:基本特征、文本特征以及命名实体。经过新闻建模过程,一篇ID为j的新闻可被表示为Nj={NIj,Kj}。其中NIj代表新闻j的基本特征,Kj代表从新闻j中抽取的可以代替新闻的文本特征与命名实体的集合。
基本特征NIj记录了新闻的最基本的特征,大部分为新闻发布时自带属性。基本特征在新闻抓取时设计程序进行抓取,并存储在新闻模块中的NIj中,可用于解决冷启动问题。新闻基本特征列表如表2。
Figure GDA0002828623560000071
表2
除了基本特征之外,新闻还有文本特征,文本特征是从新闻的正文抽取到的可以表明新闻主题的一系列关键字(或关键词)。命名实体是文本中的固有名称、缩写及其他唯一标识,通常包括7种类别:人物、机构、地点、日期、时间、金钱以及百分比。在不同门户网站中,往往根据需要创建特有词汇的中文命名实体库,以便在新闻中快速准确地识别命名实体。然后根据根据关键字在新闻中出现的频率、位置(位于标题或副标题等位置的关键字在表达新闻内容时,有更加重要的地位)等因素决定该关键字在当前新闻中的权值。
本发明的推荐算法采用了混合推荐算法,即根据用户的阅读习惯,用三种推荐算法(AJS推荐算法、AK-means推荐算法、ABC-BC推荐算法,为目前数据挖掘的常见算法)所得结果进行融合。其中,每种推荐算法根据垂直门户的特点与需求进行改进,以获取更加精确的推荐结果(本发明***工作流程图如图5)。三种推荐方法分别为基于内容的推荐,关联规则及协同过滤,所采用均为经典算法。本专利着重介绍针对垂直门户的各模块的设计,与各个模块之间的关系与结构(模块结构示意图如图4)。
本发明网站新闻推荐方法为了让推荐列表更加合理与人性化,对于通过新闻推荐***选取出的若干条新闻(),***会根据新闻发布时间,进行排序。通过新闻排序,使得时效性强的新闻拥有更多被阅读的机会,使推荐列表更加合理、更具可读性。并且还可以由编辑(后台管理员)人工推荐以及获取一定时间内点击次数最高的新闻(即热门新闻)等方式进行立体式的新闻推荐,从而保证用户能够及时获取到最准确的新闻。
进一步地,参照图3,述根据网站获取的用户特征数据建立用户兴趣模块的步骤包括:
步骤S11,获取所述用户特征数据中用户的基本信息数据,在用户端浏览网站冷启动时通过基本信息数据建立的第一兴趣模块,其中用户兴趣模块包括第一兴趣模块。
具体地,获取用户在网站注册的基本信息,并根据基本信息建立用户的第一兴趣模块,而第一兴趣模块主要用于用户冷启动时进行新闻推荐。
用户在使用门户网站时,首先会被要求注册一个账户,而在进行账户注册的时候,则需要填写一些基本信息来帮助完成账户的注册。本发明则是通过获取注册时的基本信息,来解决用户冷启动时的新闻推荐(即用户首次浏览门户网站,或者无阅读历史时的浏览),用户冷启动时,因为用户没有阅读历史等可进行分析与参考,因此在推荐新闻时根据用户的基础信息,推荐与基础信息中数据有关的新闻,同时找出与用户具有相似兴趣的其他用户,根据与用户兴趣相似的其他用户的偏好进行推荐。不同的门户网站所要求的注册信息页不相同,往往会根据各门户网站的内容进行相应调整,例如校园网会要求填写学号(可以获取用户的专业、是否毕业等信息),而体育门户网站则会要求填写擅长或感兴趣的体育项目(可以获取到用户感兴趣的体育项目)。因此在用户进行冷启动时(即除基础信息之外,没有用户的阅读历史等其他数据),可以根据用户注册时的基础信息建立用户兴趣模块,以进行相关新闻推荐。
进一步地,所述通过基本信息数据建立冷启动时的用户兴趣模块的步骤之后包括:
步骤S12,基于用户端的浏览历史记录获取用户分类业务拓展信息,分析用户分类业务拓展信息以得到关于用户短期偏好的第二兴趣模块,其中用户兴趣模块还包括第二兴趣模块。
具体地,通过获取用户的分类业务扩展信息数据并分析,从而建立用户短期偏好的关于用户短期偏好的第二兴趣模块。
分类业务扩展信息是从用户的新闻阅历史中抽取一定数量最近阅读的新闻,通过分析所述新闻阅读历史,便可以获取较为精确的获取用户短期偏好的第二兴趣模块。为了保证能够精确的获取用户短期兴趣,分类业务拓展信息所抽取的样本也需要及时更新,并且随着用户新闻阅读量的增加,拓展信息也需要随着增加,以保证用户特征的准确性,从而能够精确的建立到用户短期的兴趣模块。
新闻具有实效性,而用户可能会因为工作或者个人等原因在短时期内增加对某个或某些领域的新闻内容的关注度,例如在世界杯期间,用户可对于足球相关的新闻的阅读频率可能会大幅增加,则表明用户对于世界杯表现出了较大的兴趣,则***会在短期内增加推送关于足球与世界杯相关的新闻,以满足用户在短期内对于足球与世界杯相关新闻的需求。通过获取用户的匪类业务拓展信息数据,建立用户短期的新闻阅读的兴趣模块,从而更加精确的获取用户的短期兴趣。
进一步地,所述分析用户分类业务拓展信息以得到第二兴趣模块的步骤之后包括:
步骤S13,获取用户的行为数据,分析用户行为数据以得到关于用户长期偏好的第三兴趣模块,其中用户兴趣模块还包括第三兴趣模块。
具体地,根据获取到的用户在阅读历史与阅读操作行为中的行为数据,并根据对用户行为数据的分析获取用户长期偏好的第三兴趣模块。
用户在阅读新闻时,会根据阅读目的与兴趣的不同而进行不同的阅读操作,根据阅读新闻的操作行为即可对用户的阅读偏好与阅读目的等进行分析判断。阅读操作行为指的是用户在进行新闻阅读时,根据兴趣或者目的的不同而进行的除阅读之外的一系列操作。其中包括收藏、打印、评论等,不同的操作行为所代表的意义也是不同的,并且会将用户阅读的新闻中有过操作行为的新闻进行权重的提升(一般而言,用户会对与更感兴趣的新闻进行操作,而仅仅是想要了解的新闻则操作相对较少),因此可以根据用户相关操作行为的操作次数来建立较为详细的长期偏好的第三兴趣模块。
而建立用户长期的兴趣模块,能够更精准的分析出用户的偏好,帮助用户更容易获取感兴趣的某个或某些领域的深层内容,而用户也会因为能够获取到有深度并且高质量的新闻,从而使得用户对门户网站产生的使用建立较高的粘连性,从而提高用户的忠臣度。
进一步地,所述根据网站储存的新闻特征数据建立新闻模块的步骤包括:
步骤S21,获取网站储存的文本形式的新闻数据,并对新闻数据进行数据结构处理以生成数据化的新闻数据;
步骤S22,根据处理后的数据化新闻数据建立数据化的新闻模块。
具体地,新闻在网络上是以文本的形式进行储存的,而文本的形式无法用于建立新闻模块,因此需要将文本形式的新闻内容转化为数据结构的处理,并根据得到的数据结构建立数据化的新闻模块。
用户在门户网站阅读到的新闻是以文本的形式储存在网站服务器中的,而文本的形式的新闻需要通过数据额结构化处理来获取数据化的结构数据,转化为数据化的结构数据对于储存于计算则更加方便(以文本的形式储存需要浪费大量的服务器空间,并且对于难以直接用于计算),从而可以更好的建立数据化的新闻模块。通过数据化的新闻模块的建立,与用户兴趣模块进行推荐规则的匹配,则可以获取到与用户兴趣相关联的新闻,并进行推荐。
进一步地,所述对新闻数据进行数据结构处理以生成数据化的新闻数据的步骤包括:
步骤S211,将文本形式的新闻数据转化为对应关键字向量,并根据关键字向量得出数据化的新闻数据。
具体地,将网站的新闻由文本形式的数据通过提取基本特征与文本特征等方法转化为关键字向量形式的数据化结构。
门户网站的新闻以文本形式储存,但是在建立新闻模块时,文本形式的新闻是无法之间使用的,因此需要进行结构转化,以便能够更好的进行新闻模块的建立。将文本形式的新闻进行数据结构化处理分为两步,首先是获取新闻基本特征。新闻基本特征记录了新闻的最基本的特征,大部分为新闻发布时自带属性。新闻基本特征表如表3。
Figure GDA0002828623560000111
表3
通过基本特征可以粗略的获取到新闻的类型等信息,从而可以在冷启动进行快速的新闻推荐。除了基本特征之外,还需要对新闻进行文本特征的识别与获取。新闻的文本特征是从新闻的正文抽取到的可以表明新闻主题的一系列词汇,命名实体是文本中的固有名称、缩写及其他唯一标识,通常包括7种类别:人物、机构、地点、日期、时间、金钱以及百分比。在不同门户网站中,往往根据需要创建特有词汇的中文命名实体库,以便在新闻中快速准确地识别命名实体。为使选出的关键字更能代表文档要旨,一般采用TF*IDF方法,公式如下:
Figure GDA0002828623560000121
计算每个关键字的权值,取权值最高的关键字进行存储。本文考虑到命名实体、词语位置对新闻描述有不同的影响,为了能够使选出来的关键字更准确的代表新闻内容,本文对TF*IDF公式进行了改进,公式如下:
Figure GDA0002828623560000122
关键字权重计算完成之后,取权值最高的10个关键字存储到新闻模块Kj中。其中Wjk表示ID为j的新闻的k关键字在本篇新闻中的权值;tfjk表示关键字kjk在新闻j中出现的次数;tdfk表示关键字kjk在所有文档中出现的次数;W表示权值,本***规定当关键字出现在标题、副标题时,关键字为命名实体时候,W大于1,否则W小于等于1(位于标题的词语以及命名实体在表达新闻内容时,有更加重要的地位,因此权值大)。公式改进的依据为,位于标题的词语以及命名实体在表达新闻内容时,有更加重要的地位,具体权值取值根据不同的***而定。经过新闻建模,可得出ID为j的新闻向量模块Nj={NIj,Kj}。其中NIj代表新闻j的基本特征,Kj代表从新闻j中抽取的可以代替新闻的文本特征与命名实体的集合。
进一步地,所述通过预设推荐规则结合用户兴趣模块与新闻模块,生成垂直领域的推荐新闻的步骤包括:
步骤S31,根据所述推荐规则与用户兴趣模块及新闻模块进行推荐后生成初级推荐新闻,初级推荐新闻根据专家意见进行进一步筛选,最后生成推荐新闻。
具体地,根据所述推荐规则与用户兴趣模块及新闻模块即可生成初级推荐新闻,而为了提高推荐新闻的精确度与内容的深度,本发明还会根据相关行业专业人员的意见对初级新闻进行筛选,筛选之后得到推荐新闻。
由于垂直门户主要面向某一特定领域(地域)提供新闻等内容,因此垂直门户位置的推荐新闻一般包含一些专业知识的相关内容。而为了确保推荐新闻的专业性,本发明会根据专家制定的关联规则,由关联规则获取的关键字间的潜在联系,由关联规则算法获取。通过对所有用户的全部阅读历史的挖掘,获取关键字间潜在的关系,用以提高算法,特别是基于内容的推荐算法的精度。将特定领域的专家知识,作为推荐***的背景知识,既可解决冷启动问题,又可提高推荐的准确性,提高用户对***的信任度。
进一步地,所述将推荐新闻发送至用户端进行展示的步骤包括:
步骤S32,将获取到的推荐新闻进行综合排列并于用户端进行展示。
具体地,通过推荐规则获取到的新闻数量较多,因此需要根据一定顺序进行组合与排列,排列完毕后进行于用户端展示。
本发明新闻展示列表主要有三种推荐方式,***根据用户模块,结合新闻模块采用混合推荐算法产生的推荐新闻;由编辑(后台管理员)根据简单映射规则产生的推荐新闻以及***根据一定时间内根据点击率,选取最高的若干条新闻,产生的推荐新闻。通过三种推荐方式,可以较为全面的为用户展现其想要获取的新闻内容,并且通过人工与***的双重推荐,避免了仅根据人类情感或者***计算的影响,造成的推荐新闻有所偏差。并且还会未用户推荐当前最热门的新闻,保证无论用户是否关注到相关领域,都不会错过时下最热门的新闻资讯。而不同的推荐规则所推荐的新闻侧重点也有所不同,可以根据用户模块判断用户的侧重点,从而更好地对推荐的新闻进行组合与排列,本发明的通过将推荐的新闻进行组合与拍了,使得用户能够获取到较为全面且精确的新闻内容。
本发明还提供一种基于网站新闻推荐方法的装置。
本发明基于网站新闻推荐方法的装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的新闻推荐程序,所述新闻推荐程序被所述处理器执行时实现如上所述的新闻推荐方法步骤。
其中,在所述处理器上运行的新闻推荐程序被执行时所实现的方法可参照本发明网站新闻推荐方法各个实施例,在此不再赘述。
此外本发明实施例还提出一种计算机可读存储介质。
本发明计算机可读存储介质上存储有新闻推荐程序,所述新闻推荐程序被处理器执行时实现如上所述的新闻推荐方法的步骤。
其中,在所述处理器上运行的新闻推荐程序被执行时所实现的方法可参照本发明网站新闻推荐方法各个实施例,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种网站新闻推荐方法,其特征在于,所述网站新闻推荐方法包括以下步骤:
根据网站获取的用户特征数据建立用户兴趣模块;
根据网站储存的新闻特征数据建立新闻模块;
根据预设推荐规则结合用户兴趣模块与新闻模块,生成垂直领域的推荐新闻,并将推荐新闻发送至用户端进行展示;
所述根据网站储存的新闻特征数据建立新闻模块的步骤包括:
获取网站储存的文本形式的新闻数据,并对新闻数据进行数据结构处理以生成数据化的新闻数据;
根据处理后的数据化新闻数据建立数据化的新闻模块;
所述对新闻数据进行数据结构处理以生成数据化的新闻数据的步骤包括:
将文本形式的新闻数据转化为对应关键字向量,并根据关键字向量得出数据化的新闻数据;
所述方法,还包括:
通过TF*IDF公式计算每个关键字的权值,取预设个数的权值最高的关键字存储到新闻模块Kj中,所述TF*IDF公式为:
Figure FDA0002826629400000011
其中,Wjk表示ID为j的新闻的k关键字在本篇新闻中的权值;tfjk表示关键字kjk在新闻j中出现的次数;tdfk表示关键字kjk在所有文档中出现的次数;W表示权值,关键字为命名实体时候,W大于1,否则W小于等于1;
根据关键字进行新闻建模,得出ID为j的新闻向量模块Nj={NIj,Kj},其中NIj代表新闻j的基本特征,新闻模块Kj代表从新闻j中抽取的可以代替新闻的文本特征与命名实体的集合。
2.如权利要求1所述的网站新闻推荐方法,其特征在于,所述根据网站获取的用户特征数据建立用户兴趣模块的步骤包括:
获取所述用户特征数据中用户的基本信息数据,在用户端浏览网站冷启动时通过基本信息数据建立的第一兴趣模块,其中用户兴趣模块包括第一兴趣模块。
3.如权利要求2所述的网站新闻推荐方法,其特征在于,所述通过基本信息数据建立冷启动时的用户兴趣模块的步骤之后包括:
基于用户端的浏览历史记录获取用户分类业务拓展信息,分析用户分类业务拓展信息以得到关于用户短期偏好的第二兴趣模块,其中用户兴趣模块还包括第二兴趣模块。
4.如权利要求3所述的网站新闻推荐方法,其特征在于,所述分析用户分类业务拓展信息以得到第二兴趣模块的步骤之后包括:
获取用户的行为数据,分析用户行为数据以得到关于用户长期偏好的第三兴趣模块,其中用户兴趣模块还包括第三兴趣模块。
5.如权利要求1所述的网站新闻推荐方法,其特征在于,所述通过预设推荐规则结合用户兴趣模块与新闻模块,生成垂直领域的推荐新闻的步骤包括:
根据所述推荐规则与用户兴趣模块及新闻模块进行推荐后生成初级推荐新闻,初级推荐新闻根据专家意见进行进一步筛选,最后生成推荐新闻。
6.如权利要求1所述的网站新闻推荐方法,其特征在于,所述将推荐新闻发送至用户端进行展示的步骤包括:
将获取到的推荐新闻进行综合排列并于用户端进行展示。
7.一种新闻推荐装置,其特征在于,所述装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的网站新闻推荐程序,所述网站新闻推荐程序被所述处理器执行时实现如权利要求1至6中任一项所述的网站新闻推荐方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有网站新闻推荐程序,所述网站新闻推荐程序被处理器执行时实现如权利要求1至6中任一项所述的新闻推荐方法的步骤。
CN201710862705.8A 2017-09-21 2017-09-21 垂直领域新闻推荐方法、装置及可读储存介质 Active CN107562939B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710862705.8A CN107562939B (zh) 2017-09-21 2017-09-21 垂直领域新闻推荐方法、装置及可读储存介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710862705.8A CN107562939B (zh) 2017-09-21 2017-09-21 垂直领域新闻推荐方法、装置及可读储存介质

Publications (2)

Publication Number Publication Date
CN107562939A CN107562939A (zh) 2018-01-09
CN107562939B true CN107562939B (zh) 2021-03-23

Family

ID=60982119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710862705.8A Active CN107562939B (zh) 2017-09-21 2017-09-21 垂直领域新闻推荐方法、装置及可读储存介质

Country Status (1)

Country Link
CN (1) CN107562939B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109300061A (zh) * 2018-08-31 2019-02-01 哈尔滨理工大学 一种基于深度学***台***
CN109660591A (zh) * 2018-11-02 2019-04-19 北京奇虎科技有限公司 个性化新闻的自动推送方法、装置和计算设备
CN110413890A (zh) * 2019-07-29 2019-11-05 武汉匠楚科技有限公司 一种新闻推荐***聚合新闻呈现的方法
CN110580317B (zh) * 2019-08-29 2022-02-22 武汉赛可锐信息技术有限公司 社交信息分析方法、装置、终端设备及存储介质
CN110688476B (zh) * 2019-09-23 2024-06-25 腾讯科技(北京)有限公司 一种基于人工智能的文本推荐方法及装置
CN110866183B (zh) * 2019-11-06 2023-06-13 北京字节跳动网络技术有限公司 一种社交界面的推荐方法、装置、电子设备及存储介质
CN110968789B (zh) * 2019-12-04 2023-05-23 掌阅科技股份有限公司 电子书推送方法、电子设备及计算机存储介质
CN111601164A (zh) * 2020-05-21 2020-08-28 广州欢网科技有限责任公司 一种智能电视新闻推送方法及***
CN111767466B (zh) * 2020-09-01 2020-12-04 腾讯科技(深圳)有限公司 基于人工智能的推荐信息推荐方法、装置及电子设备
CN114670760B (zh) * 2020-12-24 2023-08-18 九号智能(常州)科技有限公司 车辆的控制方法、装置、电子设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202131A (zh) * 2015-05-08 2016-12-07 蔡奇 一种基于用户兴趣的新闻推荐方法
US10783179B2 (en) * 2015-08-03 2020-09-22 International Business Machines Corporation Automated article summarization, visualization and analysis using cognitive services
CN106383887B (zh) * 2016-09-22 2023-04-07 深圳博沃智慧科技有限公司 一种环保新闻数据采集和推荐展示的方法及***
CN107025310A (zh) * 2017-05-17 2017-08-08 长春嘉诚信息技术股份有限公司 一种自动实时新闻推荐方法

Also Published As

Publication number Publication date
CN107562939A (zh) 2018-01-09

Similar Documents

Publication Publication Date Title
CN107562939B (zh) 垂直领域新闻推荐方法、装置及可读储存介质
CN108694223B (zh) 一种用户画像库的构建方法及装置
CN112084268A (zh) 一种搜索结果展示的方法、装置及计算机存储介质
US8909617B2 (en) Semantic matching by content analysis
CN110232137B (zh) 一种数据处理方法、装置和电子设备
KR101955463B1 (ko) 컨텐츠 분석에 따른 어플리케이션 추천 시스템 및 방법
US8359306B2 (en) Intelligent automatic recognition toolbar search method and system
CN110598098A (zh) 一种信息推荐方法、装置和用于信息推荐的装置
CN114564666B (zh) 百科信息展示方法、装置、设备和介质
KR101754371B1 (ko) 태그 첨부된 소셜 네트워크 서비스 게시 콘텐츠 제공 방법
JP2010224622A (ja) タグ付与方法およびタグ付与プログラム
KR102269061B1 (ko) 어플리케이션 사용 정보 인식을 통한 사용자 맞춤형 콘텐츠 추천 및 제공 시스템
CN110781307A (zh) 目标物品关键词和标题生成方法、搜索方法以及相关设备
CN112100513A (zh) 基于知识图谱的推荐方法、装置、设备及计算机可读介质
CN105373580A (zh) 主题显示方法及装置
CN113806588A (zh) 搜索视频的方法和装置
TWI457775B (zh) 網址分類管理方法及使用該方法之電子裝置
CN107506441B (zh) 一种数据排列方法、装置、电子设备以及存储介质
CN113869063A (zh) 数据推荐方法、装置、电子设备及存储介质
JP5805134B2 (ja) 端末装置および装置のプログラム
US20180285447A1 (en) Content recommendation apparatus, content recommendation system, content recommendation method, and program
KR20140056635A (ko) 컨텐츠 추천 서비스 제공 시스템 및 방법
KR20150045236A (ko) 스크랩 정보 관리 방법 및 장치
CN113221572B (zh) 一种信息处理方法、装置、设备及介质
JP6294279B2 (ja) コンテンツ推薦装置、コンテンツ推薦システム、コンテンツ推薦方法、及び、プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant