CN118051604A - 一种基于知识图谱的推荐新闻方法 - Google Patents

一种基于知识图谱的推荐新闻方法 Download PDF

Info

Publication number
CN118051604A
CN118051604A CN202410027854.2A CN202410027854A CN118051604A CN 118051604 A CN118051604 A CN 118051604A CN 202410027854 A CN202410027854 A CN 202410027854A CN 118051604 A CN118051604 A CN 118051604A
Authority
CN
China
Prior art keywords
news
text
target
news text
knowledge graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410027854.2A
Other languages
English (en)
Inventor
谷阳
陈丽君
尹成海
吉建安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hainan University
Original Assignee
Hainan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hainan University filed Critical Hainan University
Priority to CN202410027854.2A priority Critical patent/CN118051604A/zh
Publication of CN118051604A publication Critical patent/CN118051604A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于知识图谱的推荐新闻方法,包括:根据新闻资料库,构建新闻知识图谱;获取用户正在浏览的第一新闻文本,确定第一新闻文本对应的关键词集、关系属性;关系属性包括出版时间、出版区域、隶属领域;基于第一新闻文本对应的关键词集和关系属性,与新闻知识图谱中的三元组进行相似度计算,获得第一新闻文本与新闻知识图谱中三元组的匹配值;根据匹配值,确定目标关键词集;根据目标关键词集,在新闻资料库中确定目标新闻文本;将目标新闻文本推送至新闻客户端,用以用户浏览。由此,能够依据新闻的特殊性,构建新闻知识图谱,并且能够结合知识图谱匹配度、用户个性化特征,为用户推荐准确度高且具备一定多样化的新闻文本内容。

Description

一种基于知识图谱的推荐新闻方法
技术领域
本发明涉及推荐新闻技术领域,尤其涉及一种基于知识图谱的推荐新闻方法。
背景技术
知识图谱这一概念自被提出以来,由于其包含丰富的实体对象以及实体对象之间的关系等丰富信息,已经被应用于各种对象推荐***中,包括文本、商品、人的推荐***等。随着新闻资料数据库之间实时通信的普及,对于以相似新闻资讯智能推荐为目标的对象推荐方法的应用需求逐渐提高。
当前流行的基于知识图谱的文本推荐方法通常是从文本匹配的角度来构建知识图谱,再以知识图谱中的三元组作为训练数据集,采用机器学习的方式进行文本推荐模型的训练。这类方法本质上还是基于文本的字面特征相似度进行文本推荐,一般适用于通用文本的推荐,但是由于没有考虑到新闻文本具有一定的特殊性,当应用于新闻推荐时会导致推荐结果准确性较低,例如:新闻文本都具有一定的时效属性、出版地域属性和出版领域属性,例如即使若干年前的一篇新闻与用户所感兴趣的新闻主题相似度较高,或者出自A城市的一篇新闻资讯与用户感兴趣的出自B城市的新闻资讯相似度较高,该新闻作为推荐对象时,其推荐价值也会相对较低。
发明内容
本申请通过提供一种基于知识图谱的推荐新闻方法,实现根据用户个性化推荐新闻内容的同时,能够使得用户的新闻浏览界面存在浏览价值较高、并且具备一定多样性的新闻。
本申请提供了一种基于知识图谱的推荐新闻方法,其特征在于,包括:
根据新闻资料库,构建新闻知识图谱;
获取用户正在浏览的第一新闻文本,并确定所述第一新闻文本对应的关键词集、关系属性;所述关键词集包括出现频次满足频次阈值的关键词和与关键词相关联的子关键词;所述关系属性包括出版时间、出版区域、隶属领域;
基于所述第一新闻文本对应的关键词集和关系属性,与所述新闻知识图谱中的三元组进行相似度计算,获得所述第一新闻文本与新闻知识图谱中三元组的匹配值;
根据所述匹配值,确定所述第一新闻文本对应的目标关键词集;
根据所述第一新闻文本对应的目标关键词集,在新闻资料库中确定目标新闻文本;
将所述目标新闻文本推送至所述新闻客户端,用以用户浏览。
优选地,根据新闻资料库,构建新闻知识图谱,包括:
根据新闻资料库的所有新闻文本,实时获取若干三元组,得到第一三元组集合;
将第一三元组集合中相同实体对应的三元组进行合并,得到第二三元组集合;
根据所述第二三元组集合,生成所述新闻知识图谱;
其中,所述三元组的头实体是新闻文本中的关键词,尾实体是新闻文本中与关键词相关联的子关键词,实体关系为表示关系属性的特征向量。
优选地,所述与所述新闻知识图谱中的三元组进行相似度计算,获得所述第一新闻文本与新闻知识图谱中三元组的匹配值,包括:
对于所述关键词集中的任一关键词,若查找到新闻知识图谱中的实体与其匹配,则确定新闻知识图谱中与所述实体相连的其他实体对应的关键词为候选关键词;
根据所述候选关键词在新闻知识图谱中对应三元组的实体关系所表征的关系属性,得到第一特征向量;
根据所述第一新闻文本对应实体关系所表征的关系属性,得到第二特征向量;
根据所述第一特征向量和所述第二特征向量,得到匹配值。
优选地,所述根据所述第一特征向量和所述第二特征向量,得到匹配值,还包括:
通过余弦值计算所述第一特征向量和第二特征向量的相似度,得到相似权重;
根据所述候选关键词在新闻知识图谱中对应三元组的出版时间、当前时间,得到时间权重;
将所述时间权重和所述相似权重做乘积运算,得到匹配值;
其中,时间权重根据以下公式得到:α_i=e^(-λ×Δt),α_i为时间权重,λ为预设的衰减率,Δt为当前时间与出版时间的差值。
优选地,所述新闻客户端包括评价模块,所述评价模块用于用户对正在浏览的新闻文本进行评价,生成评价文本。
优选地,所述新闻知识图谱的构建还包括:
获取新闻资料库中新闻文本及对应的评价文本;
基于预设的情感词典,对所述评价文本进行查询,获得所述评价文本对应的目标分值;
若所述目标分值在阈值区间内,则为所述目标分值对应的新闻文本赋予第一情感标签;
若所述目标分值大于阈值区间的上限,则为所述目标分值对应的新闻文本赋予第二情感标签;
若所述目标分值不大于阈值区间的下限,则为所述目标分值对应的新闻文本赋予第三情感标签;
其中,所述新闻文本的关系属性还包括情感标签。
优选地,确定所述第一新闻文本对应的目标关键词集,包括:
若所述匹配值大于预设权重,则将所述匹配值对应的候选关键词作为目标关键词;
根据所述目标关键词和所述第一新闻文本对应的关键词集,确定目标关键词集。
优选地,所述根据所述第一新闻文本对应的目标关键词集,在新闻资料库中确定目标新闻文本,还包括:
基于所述第一新闻文本对应的目标关键词集和所述目标关键词集对应三元组中的情感标签,在所述新闻资料库中进行关键词、情感标签的匹配,得到第一推荐新闻文本集;
根据所述目标关键词集中每一个关键词分别在第一推荐新闻文本集中的出现频次,将第一推荐新闻文本集中的新闻文本进行优先级排序,得到第二推荐新闻文本集;
根据用户在目标时间段内点击的新闻标题,得到摘要关键词;
将所述摘要关键词与所述第二推荐新闻文本集中的新闻文本进行相似度计算,根据相似度对第二推荐新闻文本集中的新闻文本进行优先级排序;
根据预设推荐数量,筛选所述第二推荐新闻文本集中新闻文本,得到第三推荐新闻文本集。
优选地,所述方法还包括:
根据所述摘要关键词与所述第三推荐新闻文本集中的新闻文本的相似度,确定目标摘要关键词;
根据所述目标摘要关键词在所述新闻资料库中匹配,获取所述目标摘要关键词在新闻文本中的出现频次,根据出现频次确定补充推荐数量的新闻文本,得到补充新闻文本集;
合并所述补充新闻文本集和所述第三推荐新闻文本集,得到所述目标新闻文本;
其中,所述补充推荐数量是根据所述预设推荐数量、目标占比确定,将目标占比与预设推荐数量相乘得到补充推荐数量。
优选地,所述方法还包括:
确定所述新闻客户端对应的归属信息,所述归属信息包括用户信息、IP地址;
根据所述归属信息和预先设置的敏感归属信息,判断所述新闻客户终端是否为特殊客户端;
其中,对于所述新闻客户端对应的归属信息被判定为特殊客户端,在特殊客户端与中央服务器的通信连接口处,设置审核终端,所述中央服务器通过审核终端与特殊客户端进行通信连接;
若所述新闻客户端为特殊客户端,向所述审核终端发送目标新闻文本,审核终端根据敏感词典对接受的目标新闻文本进行检索,若在预设大小的窗口内连接检索到敏感词汇达到预警值,则触发反馈信号,否则,审核通过,向所述新闻客户端推送目标新闻文本;
接收审核终端发送的反馈信号,调整预设权重为权重区间,若匹配值在权重区间内,则将匹配值对应的候选关键词作为目标关键词,所述权重区间能够限定第一新闻文本与对应的目标关键词集的匹配值接近于0;
根据目标关键词,在新闻资料库中确定目标新闻文本,直至审核终端审核通过成功推送;
实时监控特殊客户端调整的权重区间维持时长,若维持时长大于预警时间,将权重区间调整回预设权重。
本申请中提供的一个或多个技术方案,至少具有如下技术效果或优点:
考虑到新闻文本的特殊性,在构建新闻知识图谱时添加了新闻文本的关系属性,包括出版时间、出版区域和隶属领域,作为实体关系,根据用户正在阅读的第一新闻文本提取关键词集,并且通过新闻知识图谱进行关键词匹配和关系属性匹配,利用余弦算法计算得到相似权重,但是考虑到了新闻文本具备一定的时效性,过于老旧的新闻并不具备推荐价值,所以通过引入时间权重的计算,结合相似权重,得到最终的匹配值,得到更准确、更丰富的与第一新闻文本相匹配的关键词集,并且确保了用户在浏览新闻客户端的用户体验,满足用户获取到的新闻文本都是最新、最相关、最有价值的。
通过预设的情感词典,对新闻文本的评价文本进行情感标签识别,并得到每篇新闻文本的情感分值,根据该情感分值为每篇新闻文本赋予情感标签,作为新闻知识图谱构建的实体关系内容,多维度地表征新闻文本的关系属性匹配度,进一步丰富和完善新闻知识图谱,能够有效捕捉不同用户的阅读倾向和性格区别对应的情感需求,满足用户群体的多样性。
基于获取的目标摘要关键词,并对新闻资料库进行动态筛选,将目标摘要关键词在具备时效性的新闻资料库中进行匹配,选择一定数量的补充推荐新闻文本,确保用户阅读的新闻文本内容既符合用户阅读特点,又具备一定的多样性和新鲜感,降低阅读疲劳,避免内容单一化,提高用户的阅读体验;通过实时检测用户对推荐的新闻文本的点击率,动态调整预设的推荐数量和补充推荐数量,能够根据点击率反应用户阅读的极限数量,从而根据不同用户群体对新闻内容接受度,调整新闻客户端界面推荐新闻文本的数量,更好地满足用户的需求。
基于特殊客户端,通过在中央服务器和特殊客户端之间建立审核终端,用以对在向新闻客户端推送目标新闻文本之前进行内容审核,避免在特殊场所下推送给用户的新闻文本篇幅连续出现敏感词汇,提高用户的阅读体验和心态,避免由于连续敏感的新闻文本导致用户出现心态变化,从而影响集体学习的效果;通过调整预设权重,能够保证目标新闻文本不过于敏感的同时,仍能为用户提供一些相关的新闻文本。
附图说明
图1为本发明实施例的一种基于知识图谱的推荐新闻方法的流程示意图;
图2为本发明实施例的构建新闻知识图谱的流程示意图;
图3为本发明实施例的获得第一新闻文本与新闻知识图谱中三元组的匹配值的流程示意图;
图4为本发明实施例的根据第一特征向量和第二特征向量得到匹配值的流程示意图;
图5为本发明实施例的根据匹配值确定第一新闻文本对应的目标关键词集的流程示意图;
图6为本发明另一个实施例的构建新闻知识图谱的流程示意图;
图7为本发明实施例的根据第一新闻文本对应的目标关键词集在新闻资料库中确定目标新闻文本的流程示意图;
图8为本发明另一个实施例的一种基于知识图谱的推荐新闻方法的流程示意图;
图9为本发明一个示例的基于知识图谱的推荐新闻方法的流程示意图;
图10为本发明一个示例的向新闻客户端推送目标新闻文本的流程示意图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本申请进行更全面的描述;附图中给出了本发明的较佳实施方式,但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施方式;相反地,提供这些实施方式的目的是使对本发明的公开内容理解的更加透彻全面。
需要说明的是,本文所使用的术语“垂直”、“水平”、“上”、“下”、“左”、“右”以及类似的表述只是为了说明的目的,并不表示是唯一的实施方式。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同;本文中在本发明的说明书中所使用的术语只是为了描述具体的实施方式的目的,不是旨在于限制本发明;本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
实施例一
图1是本发明实施例的一种基于知识图谱的推荐新闻方法的流程示意图。
用户通过用户终端打开新闻客户端对推荐的新闻文本进行阅读,新闻客户端与中央服务器进行连接,进行数据信息的交互。
用户终端可以是智能手机、平板、电脑中的一种或种。
中央服务器包括处理单元、调取单元、推荐单元,处理单元通过对新闻文本进行实体抽取和关系属性提取,并进行相似度、匹配值的计算处理;调取单元获取新闻资料库构建新闻知识图谱、调取新闻客户端的新闻文本;推荐单元根据处理单元的处理结果向新闻客户端推荐新闻文本。
如图1所示,本发明实施例的一种基于知识图谱的推荐新闻方法,应用于中央服务器,包括以下步骤:
S101,根据新闻资料库,构建新闻知识图谱。
一些实施例中,根据新闻资料库,构建新闻知识图谱,如图2所示,具体包括:
S201,根据新闻资料库的所有新闻文本,实时获取若干三元组,得到第一三元组集合。
具体而言,知识图谱通常以三元组,即头实体、实体关系和尾实体的方式进行存储,三元组的头实体是新闻文本中的关键词,尾实体是新闻文本中与关键词相关联的子关键词,实体关系为表示关系属性的特征向量。
具体而言,实时获取若干三元组,具体包括:
A1、对新闻资料库中的所有新闻文本进行预处理,包括分词、去除停用词、词性标注。
A2、使用TF-IDF算法在新闻资料库的任一新闻文本进行高频实词检索,提取新闻文本的关键词。
A3、基于已经提取的关键词,在预设范围的窗口进行关键词上下文的实词检索,提取与关键词相关联的实词作为子关键词。
A4、关系属性包括出版时间、出版区域、隶属领域。出版时间是指该新闻文本的出版或生效日期,代表新闻文本的时效性;出版区域是指该新闻文本出版的地域范围,代表新闻文本对于内容阐述的区域指向性;隶属领域是指该新闻文本所归档的领域范围。由于新闻文本设置的关系属性的特殊性,新闻文本的关系属性可以在新闻资料库的归档规则中准确获取。将关系属性表征为特征向量,该特征向量中包含了出版时间、出版区域、隶属领域多维度信息。
A5、将提取的关键词作为新闻知识图谱中的头实体,子关键词作为与关键词实体相关联的尾实体,将抽取的实体关系作为实体之间的关系边,构建知识图谱。
S202,将第一三元组集合中相同实体对应的三元组进行合并,得到第二三元组集合。
S203,根据第二三元组集合,生成新闻知识图谱。
需要说明的是,根据新闻资料库的实时变化,实时更新新闻知识图谱,以适应新闻文本的动态变化。
S102,获取用户正在浏览的第一新闻文本,并确定第一新闻文本对应的关键词集、关系属性;关键词集包括出现频次满足频次阈值的关键词和与关键词相关联的子关键词;关系属性包括出版时间、出版区域、隶属领域。
其中对于第一新闻文本对应的关键词集和关系属性的提取方法与上述步骤S201中的提取方法一致,不做赘述。
S103,基于第一新闻文本对应的关键词集和关系属性,与新闻知识图谱中的三元组进行相似度计算,获得第一新闻文本与新闻知识图谱中三元组的匹配值。
一些实施例中,与新闻知识图谱中的三元组进行相似度计算,获得第一新闻文本与新闻知识图谱中三元组的匹配值,如图3所示,具体包括:
S301,对于关键词集中的任一关键词,若查找到新闻知识图谱中的实体与其匹配,则确定新闻知识图谱中与该实体相连的其他实体对应的关键词为候选关键词。
S302,根据候选关键词在新闻知识图谱中对应三元组的实体关系所表征的关系属性,得到第一特征向量。
其中,第一特征向量表征任一候选关键词在新闻知识图谱中对应的三元组中的实体关系。
S303,根据第一新闻文本对应实体关系所表征的关系属性,得到第二特征向量。
其中,第二特征向量表征第一新闻文本对应关键词集中任一关键词在新闻知识图谱中匹配到的实体所在三元组的实体关系。
S304,根据第一特征向量和第二特征向量,得到匹配值。
一些实施例中,根据第一特征向量和第二特征向量,得到匹配值,如图4所示,具体包括:
S401,通过余弦值计算所述第一特征向量和第二特征向量的相似度,得到相似权重。
举例而言,某一个新闻文本有对应的出版时间、出版区域和隶属领域,这些关系属性表示为特征向量,即第二特征向量,记为A=(a_{time},a_{location},a_{department})。同样地,新闻知识图谱中候选关键词的三元组实体关系也有对应的出版时间、出版区域和隶属领域,表示为特征向量,即第一特征向量,记为B=(b_{time},b_{location},b_{department})。
为了验证候选关键词是否适用于第一新闻文本,需要计算两个特征向量之间的相似度,在本发明实施例中,选择余弦相似度的计算公式:
similarity=cos(θ)=(A·B)/(|A||B|),其中,θ是向量A和向量B之间的夹角,“·”表示点积,|A|和|B|分别是向量A和B的长度。
其中,点积A·B=Σ(A[i]×B[i]),i是向量的每个维度,向量A的长度为|A|=√(Σ(A[i]^2)),向量B的长度为|B|=√(Σ(B[i]^2))。
由此,计算得到向量A和向量B之间的余弦相似度,即相似权重。
S402,根据候选关键词在新闻知识图谱中对应三元组的出版时间、当前时间,得到时间权重。
举例而言,假设某一个候选关键词i在新闻知识图谱中对应三元组的出版时间为t_i,当前时间为t_c,时间差Δt为t_c-t_i,使用时间差Δt来定义一个时间权重α_i,介于0和1之间的数值,用于表示相似权重随时间衰减的程度。
在本发明实施例中,选择指数衰减函数来计算时间权重:
α_i=e^(-λ×Δt),其中,λ是衰减率,决定衰减的速度,λ设置为0.5,可以根据实际应用进行调整。
S403,将时间权重和相似权重做乘积运算,得到匹配值。
举例而言,假设特征向量A和特征向量B的相似权重为0.9,但是特征向量B对应的时间权重为0.6,那么最终得到的匹配值为0.54,所以,考虑到新闻文本的时效性对推荐价值具有很大的影响,即使相似权重高达0.9,但是由于时间权重的悬殊,最终的匹配值仅仅只有0.54。
S104,根据匹配值,确定第一新闻文本对应的目标关键词集。
一些实施例中,根据匹配值,确定第一新闻文本对应的目标关键词集,如图5所示,具体包括:
S501,若匹配值大于预设权重,则将匹配值对应的候选关键词作为目标关键词。
S502,根据目标关键词和第一新闻文本对应的关键词集,确定目标关键词集。
S105,根据第一新闻文本对应的目标关键词集,在新闻资料库中确定目标新闻文本。
S106,将目标新闻文本推送至新闻客户端,用以用户浏览。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
1、考虑到新闻文本的特殊性,在构建新闻知识图谱时添加了新闻文本的关系属性,包括出版时间、出版区域和隶属领域,作为实体关系,根据用户正在阅读的第一新闻文本提取关键词集,并且通过新闻知识图谱进行关键词匹配和关系属性匹配,得到更准确、更丰富的与第一新闻文本相匹配的关键词集,根据该关键词集在新闻资料库中进行匹配,得到的推荐新闻文本更加具有鲁棒性,避免了由于新闻文本中对于固有的撰写词汇导致推荐的局限性。
2、在进行候选关键词与第一新闻文本对应的关键词集的关系属性匹配计算时,利用余弦算法计算得到相似权重,但是考虑到了新闻文本具备一定的时效性,过于老旧的新闻并不具备推荐价值,所以通过引入时间权重的计算,结合相似权重,得到最终的匹配值,该匹配值能够更加准确全面地判断候选关键词与第一新闻文本的关联程度,从而确保后续在新闻资料库中的匹配准确性;并且确保了用户在浏览新闻客户端的用户体验,满足用户获取到的新闻文本都是最新、最相关、最有价值的。
实施例二
在实施例一种,考虑到新闻内容存在特殊性,在进行新闻内容报道时,出版社一般会根据实时主题基于特定的情感倾向,例如积极、消极或者中立态度,用户在进行阅读新闻时,都有个人的阅读倾向,如果仅仅是根据文本主题或关系属性进行推荐,并不能满足用户群体性格的多样性。
所以,本申请实施例在上述实施例一的基础上进行一定的优化。
一些实施例中,新闻客户端包括评价模块,评价模块用于用户对正在浏览的新闻文本进行评价,生成评价文本。
任一新闻文本对应的所有评价文本通过互联网通信接口随其对应的新闻文本存储至新闻资料库中。
一些实施例中,如图6所示,所述新闻知识图谱的构建还包括:
S601,获取新闻资料库中新闻文本及对应的评价文本。
S602,基于预设的情感词典,对评价文本进行查询,获得评价文本对应的目标分值。
S603,若目标分值在阈值区间内,则为目标分值对应的新闻文本赋予第一情感标签。
S604,若目标分值大于阈值区间的上限,则为目标分值对应的新闻文本赋予第二情感标签。
S605,若目标分值不大于阈值区间的下限,则为目标分值对应的新闻文本赋予第三情感标签。
一些实施例中,实施例一中新闻文本的关系属性还包括情感标签。
具体而言,利用已有的情感词典资源,如HowNet、NTUSD等,构建预设的情感词典,其中包括带有积极、消极和中立情感标签的词汇;并且第一情感标签对应“中立”,第二情感标签对应“积极”,第三情感标签对应“消极”。
为每一个情感标签赋予对应的情感分值,第一情感标签赋予第一分值,第二情感标签赋予第二分值,第三情感标签赋予第三分值。
举例而言,对某篇新闻文本所附带的评价文本进行情感词典查询,得到该篇新闻文本对应的所有情感标签,为每个情感标签设置情感分值,具体为:“积极”赋予1分,“中立”赋予0分,“消极”赋予-1分,将该篇新闻文本对应所有情感标签的情感分值进行累积加和处理,得到目标分值。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
1、通过预设的情感词典,对新闻文本的评价文本进行情感标签识别,并得到每篇新闻文本的情感分值,根据该情感分值为每篇新闻文本赋予情感标签,作为新闻知识图谱构建的实体关系内容,多维度地表征新闻文本的关系属性匹配度,进一步丰富和完善新闻知识图谱,能够有效捕捉不同用户的阅读倾向和性格区别对应的情感需求,满足用户群体的多样性。
2、由于评价模块是实时生成的,因此可以动态捕捉新闻文本的情感变化和用户的实时反馈,根据实时变化,能够实时更新新闻资料库和新闻知识图谱,为后续的推荐选择提供更加准确的匹配环境。
3、综合考虑候选关键词与第一新闻文本对应的关键词之间关系属性的相似度、时间权重和情感标签,可以进一步提高推荐的质量和准确性的同时,适应于不同用户群体的阅读习惯和情感价值倾向。
实施例三
在上述实施例中,是根据用户正在点击或浏览的新闻文本进行新闻推荐,可能存在一定的局限性,虽然用户当下浏览的新闻文本可能能够代表用户所关注的新闻领域或者主题,但参考范围过于局限。
所以,本申请实施例在上述实施例的基础上进行一定的优化。
一些实施例中,根据第一新闻文本对应的目标关键词集,在新闻资料库中确定目标新闻文本,如图7所示,还包括:
S701,基于第一新闻文本对应的目标关键词集和目标关键词集对应三元组中的情感标签,在新闻资料库中进行关键词、情感标签的匹配,得到第一推荐新闻文本集。
S702,根据目标关键词集中每一个关键词分别在第一推荐新闻文本集中的出现频次,将第一推荐新闻文本集中的新闻文本进行优先级排序,得到第二推荐新闻文本集。
具体而言,分别获得第一推荐新闻文本集中每一个新闻文本出现目标关键词集中关键词的频次,根据频次大小按照由高到低的次序对第一推荐新闻文本集中新闻文本进行排序,得到第二推荐新闻文本集。
S703,根据用户在目标时间段内点击的新闻标题,得到摘要关键词。
具体而言,获取该用户在目标时间段内点击的新闻标题汇总文本,对新闻标题汇总文本进行实体抽取,得到摘要关键词。
S704,将摘要关键词与第二推荐新闻文本集中的新闻文本进行相似度计算,根据相似度对第二推荐新闻文本集中的新闻文本进行优先级排序。
具体而言,在该步骤中,评判相似度的指标可以根据摘要关键词分别在第二推荐新闻文本集中每一个新闻文本的出现次数,根据出现次数大小按照由高到低的次序对第二推荐新闻文本集中两两新闻文本进行次序对调,得到二次排序后的第二推荐新闻文本集。
在另一种实施例方式中,也可以将摘要关键词使用词向量的平均值作为整个摘要关键词的特征向量的表示,将第二推荐新闻文本集中的新闻文本中的所有实体进行TF-IDF加权的词向量平均值计算,作为新闻文本的特征向量表示,根据特征向量之间的余弦相似度计算,得到相似度大小,按照相似度大小,对第二推荐新闻文本集中新闻文本进行优先级排序。
S705,根据预设推荐数量,筛选二次排序后的第二推荐新闻文本集中新闻文本,得到第三推荐新闻文本集。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
1、通过目标关键词集的出现频次,对第一推荐新闻文本集进行一次排序,并结合用户在目标历史时间段内浏览的新闻标题摘要关键词与第一推荐新闻文本集的相似程度,在一次排序的基础上进行二次排序,最后选取排序靠前的新闻文本作为推送新闻文本,在基于用户当下阅读相似度的前提下,考虑用户历史浏览的阅读倾向,使得新闻文本的推送顺序更加符合用户的阅读习惯和兴趣,更加适应用户的个性化需求。
实施例四
在上述实施例中,根据用户浏览的新闻文本在知识图谱中进行关键词拓展,能够在新闻资料库中进行更多可能的匹配,但是所匹配的新闻文本是与用户正在浏览的新闻文本相似度较高的内容,这样可能会导致新闻客户端界面的新闻文本内容过于单一化,用户可能产生阅读疲劳,影响新闻文本的阅读效果。
所以,本申请实施例在上述实施例的基础上进行一定的优化。
一些实施例中,如图8所示,基于知识图谱的推荐新闻方法还包括:
S801,根据摘要关键词与第三推荐新闻文本集中的新闻文本的相似度,确定目标摘要关键词。
具体而言,分别获取每个摘要关键词在第三推荐新闻文本集中出现的频次,并且将出现频次最高的摘要关键词作为目标摘要关键词。
S802,根据目标摘要关键词在新闻资料库中匹配,获取目标摘要关键词在新闻文本中的出现频次,根据出现频次确定补充推荐数量的新闻文本,得到补充新闻文本集。
具体而言,首先对新闻资料库中的所有新闻文本进行筛选,将出版时间与当前时间之差大于1天的排除掉,得到筛选后的新闻文本集;
获得目标摘要关键词分别在筛选后的新闻文本集中所有新闻文本的命中频次,对筛选后的新闻文本集中所有新闻文本进行排序,得到初始补充新闻文本集;
补充推荐数量是根据预设推荐数量、目标占比确定,将目标占比与预设推荐数量相乘得到补充推荐数量;
按照初始补充新闻文本集中新闻文本的排列顺序,依次选择新闻文本直至选择数量达到补充推荐数量。
S803,合并补充新闻文本集和第三推荐新闻文本集,得到目标新闻文本。
一些实施例中,在将目标新闻文本推送至新闻客户端的界面上之后,如图9所示,还包括:
S901,根据用户对于推荐的目标新闻文本的点击数量,得到实际数量值。
S902,在固定时间内,计算实际数量值与目标推荐新闻文本的数量值的比值,得到点击率。
S903,判断点击率是否处于比值范围内。
S904,如果点击率大于比值范围的上限值,则说明推荐的新闻文本数量可能比较少,并不能满足用户的需求,则提高预设推荐数量。
S905,如果点击率小于比值范围的下限值,则说明推荐的新闻文本数量偏多,用户并不需要这么多的推荐,则降低预设推荐数量。
S906,如果点击率处于比值范围内,则保持预设推荐数量不变。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
1、基于获取的目标摘要关键词,并对新闻资料库进行动态筛选,将目标摘要关键词在具备时效性的新闻资料库中进行匹配,选择一定数量的补充推荐新闻文本,确保用户阅读的新闻文本内容既符合用户阅读特点,又具备一定的多样性和新鲜感,降低阅读疲劳,避免内容单一化,提高用户的阅读体验。
2、通过实时检测用户对推荐的新闻文本的点击率,动态调整预设的推荐数量和补充推荐数量,能够根据点击率反应用户阅读的极限数量,从而根据不同用户群体对新闻内容接受度,调整新闻客户端界面推荐新闻文本的数量,更好地满足用户的需求。
实施例五
针对场景的特殊性,例如某单位或学习中心通常会使用集中的新闻客户端为在场的用户推送新闻资讯进行集中学习,且集中的新闻客户端通常绑定所有用户的个人客户端,所以可能导致在集体学习时个人浏览的内容过于敏感而影响集中学习效果。为了保证推送的新闻文本在该场景的适宜性和教育性,直接将确定的目标新闻文本推送至新闻客户端,必然会存在一定的教育和学习影响。
所以,本申请实施例在上述实施例的基础上进行一定的优化。
对于新闻客户端对应的归属信息被判定为特殊客户端,在特殊客户端与中央服务器的通信连接口处,设置审核终端,中央服务器通过审核终端与特殊客户端进行通信连接。
一些实施例中,在向新闻客户端推送目标新闻文本前,如图10所示,还包括:
S110,确定新闻客户端对应的归属信息,归属信息包括用户信息、IP地址。
S120,根据归属信息和预先设置的敏感归属信息,判定新闻客户终端的类型。
具体而言,预先设置的敏感归属信息包括敏感信息库和敏感IP地址,将归属信息与预先设置的敏感信息库和敏感IP地址进行匹配,若匹配成功,则判定对应的新闻客户端为特殊客户端。
S130,若新闻客户端为特殊客户端,向审核终端发送目标新闻文本,审核终端根据敏感词典对接受的目标新闻文本进行检索,若在预设大小的窗口内连接检索到敏感词汇达到预警值,则触发反馈信号,否则,审核通过,向新闻客户端推送目标新闻文本。
举例而言,预设大小的窗口可以设置为若干篇新闻文本的窗口大小,避免连续几篇的新闻文本涉及敏感词汇。
S140,接收审核终端发送的反馈信号,返回步骤S501中,调整预设权重为权重区间,若匹配值在权重区间内,则将匹配值对应的候选关键词作为目标关键词。
其中,权重区间尽量靠近0,使得候选关键词的匹配值相对降低,使得上述连续触发敏感词汇的可能性降低。
S150,根据目标关键词,在新闻资料库中确定目标新闻文本,重复步骤S130,直至审核终端审核通过成功推送。
S160,实时监控特殊客户端调整的权重区间维持时长,若维持时长大于预警时间,将权重区间调整回预设权重,确定目标关键词集。
举例而言,若某一特殊客户端存在于某单位会议室的终端设备内,该终端设备可以是设置在会议室内的显示设备,向该特殊客户端推送目标新闻文本时,审核终端在预设窗口大小内连续检索到与该单位无关的敏感词汇时,触发反馈信号,将预设权重调整为权重区间,在预警时间内,为用户推送与敏感词汇相关性较低的新闻文本,预警时间可以根据特殊场所的实际情况进行设置,可以设置为2天。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
1、基于特殊客户端,通过在中央服务器和特殊客户端之间建立审核终端,用以对在向新闻客户端推送目标新闻文本之前进行内容审核,避免在特殊场所下推送给用户的新闻文本篇幅连续出现敏感词汇,提高用户的阅读体验和心态,避免由于连续敏感的新闻文本导致用户出现心态变化;通过调整预设权重,能够保证目标新闻文本不过于敏感的同时,仍能为用户提供一些相关的新闻文本。
2、通过审核终端,能够避免与特殊客户端绑定的个人客户端对集中学习的过程产生影响,并且对于调整预设权重限制了预警时间,等到预警时间之后,将预设权重调整回正常的推荐机制,避免长时间影响用户的阅读体验。
以上所述仅为本发明的优选实施方式,并不用于限制本发明,对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明精神和原则内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于知识图谱的推荐新闻方法,应用于中央服务器,新闻客户端安装于用户终端内,与所述中央服务器建立连接,其特征在于,包括:
根据新闻资料库,构建新闻知识图谱;
获取用户正在浏览的第一新闻文本,并确定所述第一新闻文本对应的关键词集、关系属性;所述关键词集包括出现频次满足频次阈值的关键词和与关键词相关联的子关键词;所述关系属性包括出版时间、出版区域、隶属领域;
基于所述第一新闻文本对应的关键词集和关系属性,与所述新闻知识图谱中的三元组进行相似度计算,获得所述第一新闻文本与新闻知识图谱中三元组的匹配值;
根据所述匹配值,确定所述第一新闻文本对应的目标关键词集;
根据所述第一新闻文本对应的目标关键词集,在新闻资料库中确定目标新闻文本;
将所述目标新闻文本推送至所述新闻客户端,用以用户浏览。
2.如权利要求1所述的基于知识图谱的推荐新闻方法,其特征在于,根据新闻资料库,构建新闻知识图谱,包括:
根据新闻资料库的所有新闻文本,实时获取若干三元组,得到第一三元组集合;
将第一三元组集合中相同实体对应的三元组进行合并,得到第二三元组集合;
根据所述第二三元组集合,生成所述新闻知识图谱;
其中,所述三元组的头实体是新闻文本中的关键词,尾实体是新闻文本中与关键词相关联的子关键词,实体关系为表示关系属性的特征向量。
3.如权利要求1所述的基于知识图谱的推荐新闻方法,其特征在于,所述与所述新闻知识图谱中的三元组进行相似度计算,获得所述第一新闻文本与新闻知识图谱中三元组的匹配值,包括:
对于所述关键词集中的任一关键词,若查找到新闻知识图谱中的实体与其匹配,则确定新闻知识图谱中与所述实体相连的其他实体对应的关键词为候选关键词;
根据所述候选关键词在新闻知识图谱中对应三元组的实体关系所表征的关系属性,得到第一特征向量;
根据所述第一新闻文本对应实体关系所表征的关系属性,得到第二特征向量;根据所述第一特征向量和所述第二特征向量,得到匹配值。
4.如权利要求3所述的基于知识图谱的推荐新闻方法,其特征在于,所述根据所述第一特征向量和所述第二特征向量,得到匹配值,还包括:
通过余弦值计算所述第一特征向量和第二特征向量的相似度,得到相似权重;
根据所述候选关键词在新闻知识图谱中对应三元组的出版时间、当前时间,得到时间权重;将所述时间权重和所述相似权重做乘积运算,得到匹配值;
其中,时间权重根据以下公式得到:α_i=e^(-λ×Δt),α_i为时间权重,λ为预设的衰减率,Δt为当前时间与出版时间的差值。
5.如权利要求4所述的基于知识图谱的推荐新闻方法,其特征在于,所述新闻客户端包括评价模块,所述评价模块用于用户对正在浏览的新闻文本进行评价,生成评价文本。
6.如权利要求5所述的基于知识图谱的推荐新闻方法,其特征在于,所述新闻知识图谱的构建还包括:
获取新闻资料库中新闻文本及对应的评价文本;
基于预设的情感词典,对所述评价文本进行查询,获得所述评价文本对应的目标分值;
若所述目标分值在阈值区间内,则为所述目标分值对应的新闻文本赋予第一情感标签;
若所述目标分值大于阈值区间的上限,则为所述目标分值对应的新闻文本赋予第二情感标签;
若所述目标分值不大于阈值区间的下限,则为所述目标分值对应的新闻文本赋予第三情感标签;
其中,所述新闻文本的关系属性还包括情感标签。
7.如权利要求1所述的基于知识图谱的推荐新闻方法,其特征在于,所述根据所述匹配值,确定所述第一新闻文本对应的目标关键词集,包括:
若所述匹配值大于预设权重,则将所述匹配值对应的候选关键词作为目标关键词;
根据所述目标关键词和所述第一新闻文本对应的关键词集,确定目标关键词集。
8.如权利要求1所述的基于知识图谱的推荐新闻方法,其特征在于,所述根据所述第一新闻文本对应的目标关键词集,在新闻资料库中确定目标新闻文本,还包括:基于所述第一新闻文本对应的目标关键词集和所述目标关键词集对应三元组中的情感标签,在所述新闻资料库中进行关键词、情感标签的匹配,得到第一推荐新闻文本集;
根据所述目标关键词集中每一个关键词分别在第一推荐新闻文本集中的出现频次,将第一推荐新闻文本集中的新闻文本进行优先级排序,得到第二推荐新闻文本集;
根据用户在目标时间段内点击的新闻标题,得到摘要关键词;
将所述摘要关键词与所述第二推荐新闻文本集中的新闻文本进行相似度计算,根据相似度对第二推荐新闻文本集中的新闻文本进行优先级排序;
根据预设推荐数量,筛选所述第二推荐新闻文本集中新闻文本,得到第三推荐新闻文本集。
9.如权利要求8所述的基于知识图谱的推荐新闻方法,其特征在于,所述方法还包括:根据所述摘要关键词与所述第三推荐新闻文本集中的新闻文本的相似度,确定目标摘要关键词;
根据所述目标摘要关键词在所述新闻资料库中匹配,获取所述目标摘要关键词在新闻文本中的出现频次,根据出现频次确定补充推荐数量的新闻文本,得到补充新闻文本集;
合并所述补充新闻文本集和所述第三推荐新闻文本集,得到所述目标新闻文本;
其中,所述补充推荐数量是根据所述预设推荐数量、目标占比确定,将目标占比与预设推荐数量相乘得到补充推荐数量。
10.如权利要求7所述的基于知识图谱的推荐新闻方法,其特征在于,所述方法还包括:确定所述新闻客户端对应的归属信息,所述归属信息包括用户信息、IP地址;
根据所述归属信息和预先设置的敏感归属信息,判断所述新闻客户终端是否为特殊客户端;其中,对于所述新闻客户端对应的归属信息被判定为特殊客户端,在特殊客户端与中央服务器的通信连接口处,设置审核终端,所述中央服务器通过审核终端与特殊客户端进行通信连接;
若所述新闻客户端为特殊客户端,向所述审核终端发送目标新闻文本,审核终端根据敏感词典对接受的目标新闻文本进行检索,若在预设大小的窗口内连接检索到敏感词汇达到预警值,则触发反馈信号,否则,审核通过,向所述新闻客户端推送目标新闻文本;
接收审核终端发送的反馈信号,调整预设权重为权重区间,若匹配值在权重区间内,则将匹配值对应的候选关键词作为目标关键词,所述权重区间能够限定第一新闻文本与对应的目标关键词集的匹配值接近于0;
根据目标关键词,在新闻资料库中确定目标新闻文本,直至审核终端审核通过成功推送;
实时监控特殊客户端调整的权重区间维持时长,若维持时长大于预警时间,将权重区间调整回预设权重。
CN202410027854.2A 2024-01-09 2024-01-09 一种基于知识图谱的推荐新闻方法 Pending CN118051604A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410027854.2A CN118051604A (zh) 2024-01-09 2024-01-09 一种基于知识图谱的推荐新闻方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410027854.2A CN118051604A (zh) 2024-01-09 2024-01-09 一种基于知识图谱的推荐新闻方法

Publications (1)

Publication Number Publication Date
CN118051604A true CN118051604A (zh) 2024-05-17

Family

ID=91049488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410027854.2A Pending CN118051604A (zh) 2024-01-09 2024-01-09 一种基于知识图谱的推荐新闻方法

Country Status (1)

Country Link
CN (1) CN118051604A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570144A (zh) * 2016-02-05 2017-04-19 中科鼎富(北京)科技发展有限公司 推荐信息的方法和装置
CN108446274A (zh) * 2018-03-15 2018-08-24 北京科技大学 一种基于时间敏感tf-idf的关键词提取方法
CN115170216A (zh) * 2022-01-17 2022-10-11 昆明理工大学 一种基于知识图谱融入评论情感和评分的商品推荐方法
CN115168567A (zh) * 2022-09-07 2022-10-11 北京慧点科技有限公司 一种基于知识图谱的对象推荐方法
CN115391489A (zh) * 2022-08-29 2022-11-25 浙江极氪智能科技有限公司 基于知识图谱的话题推荐方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106570144A (zh) * 2016-02-05 2017-04-19 中科鼎富(北京)科技发展有限公司 推荐信息的方法和装置
CN108446274A (zh) * 2018-03-15 2018-08-24 北京科技大学 一种基于时间敏感tf-idf的关键词提取方法
CN115170216A (zh) * 2022-01-17 2022-10-11 昆明理工大学 一种基于知识图谱融入评论情感和评分的商品推荐方法
CN115391489A (zh) * 2022-08-29 2022-11-25 浙江极氪智能科技有限公司 基于知识图谱的话题推荐方法
CN115168567A (zh) * 2022-09-07 2022-10-11 北京慧点科技有限公司 一种基于知识图谱的对象推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
樊兆欣: "个性化新闻推荐***关键技术研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》, 15 March 2016 (2016-03-15), pages 4 *

Similar Documents

Publication Publication Date Title
AU2018383346B2 (en) Domain-specific natural language understanding of customer intent in self-help
CN100465954C (zh) 用于搜索术语建议的多种类型数据的加强群集
CN110543598B (zh) 信息推荐方法、装置及终端
US7840538B2 (en) Discovering query intent from search queries and concept networks
CN110795542B (zh) 对话方法及相关装置、设备
KR20210040868A (ko) 정보 검색 방법, 장치, 기기, 저장 매체 및 컴퓨터 프로그램
CN109271574A (zh) 一种热词推荐方法及装置
US20160048754A1 (en) Classifying resources using a deep network
JP4071805B2 (ja) 広告送信サーバ、広告送信プログラム及びユーザ検索方法
Shi et al. Learning-to-rank for real-time high-precision hashtag recommendation for streaming news
CN110110225B (zh) 基于用户行为数据分析的在线教育推荐模型及构建方法
CN110888990A (zh) 文本推荐方法、装置、设备及介质
CN110633407B (zh) 信息检索方法、装置、设备及计算机可读介质
CN112052387B (zh) 一种内容推荐方法、装置和计算机可读存储介质
KR20060047636A (ko) 요약을 이용하여 디스플레이 페이지를 분류하는 방법 및시스템
US11620283B2 (en) Method and system for analytic based connections among user types in an online platform
CN106462644B (zh) 标识来自多个结果页面标识的优选结果页面
KR20100029581A (ko) 사용자별 검색어 추천 시스템과 방법 및 이를 구현할 수 있는 컴퓨터로 읽을 수 있는 기록 매체
CN113934941A (zh) 一种基于多维度信息的用户推荐***及方法
CN110889024A (zh) 一种用于计算资讯关联股票的方法和装置
JP3984473B2 (ja) 広告送信システム
CN104050243A (zh) 一种将搜索与社交相结合的网络搜索方法及其***
CN112749330A (zh) 信息推送方法、装置、计算机设备和存储介质
CN113672793A (zh) 一种信息召回方法、装置、电子设备及存储介质
EP2073131A1 (en) Method and apparatus for processing a search query for text content items

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination