CN115658862A - 一种科技文献推荐方法 - Google Patents

一种科技文献推荐方法 Download PDF

Info

Publication number
CN115658862A
CN115658862A CN202211291535.XA CN202211291535A CN115658862A CN 115658862 A CN115658862 A CN 115658862A CN 202211291535 A CN202211291535 A CN 202211291535A CN 115658862 A CN115658862 A CN 115658862A
Authority
CN
China
Prior art keywords
user
scientific
entity
model
technical literature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211291535.XA
Other languages
English (en)
Inventor
杨柳
谢冰媛
龙军
陈庭轩
王子冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202211291535.XA priority Critical patent/CN115658862A/zh
Publication of CN115658862A publication Critical patent/CN115658862A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种科技文献推荐方法通过采集科技文献相关数据构建科技文献知识图谱,同时收集并处理用户在***产生的交互数据,设计融合用户行为特征与知识表示的推荐模型。相较于现有推荐模型,一方面基于用户面向科技文献资源提出的自然语言查询,分析用户偏好对科技文献知识图谱产生的语义影响,提取隐含在用户信息中的关系语义特征,建立融入关系语义的知识表示学习模型,用以提高科技文献等知识的语义表征;另一方面基于用户的历史行为交互数据,结合知识表示学习模型深入分析关系与实体对用户偏好的语义影响,建立多层次偏好感知的推荐模型,用以提高用户与科技文献之间的语义关联。

Description

一种科技文献推荐方法
技术领域
本发明涉及知识图谱技术领域,具体涉及一种科技文献推荐方法,更具体的涉及一种融合用户交互特征和知识表示的科技文献推荐方法。
背景技术
科技文献作为当前科技创新的重要载体之一,体现了国家科技创新能力。在科技发展日新月异的今天,国内外各个研究领域的科技文献层出不穷,各大文献数据库和知识服务平台汇聚了多方数据,并提供查询检索服务,帮助用户查找所需要的科技文献资源,如中国知网等服务平台。然而,随着科技文献数量和覆盖领域的不断扩增,单纯提供以字符串匹配为核心的查询检索方式难以满足用户对科技文献快速精准的查阅,造成用户体验不佳。
并且现有的基于知识图谱的推荐模型忽略了人类历史经验对关系、实体和事实三元组产生的语义影响,导致知识的语义表征无法表达用户的特征与需求,同时限制了知识图谱在个性化推荐任务中的应用。
综上所述,急需一种新型的科技文献推荐方法以解决现有技术中存在的问题。
发明内容
本发明目的在于提供一种科技文献推荐方法,具体技术方案如下:
一种科技文献推荐方法,包括以下步骤:
S1:构建科技文献知识图谱:对科技文献资源数据进行爬取,得到非结构化文本数据;从非结构化文本数据中抽取与科技文献相关的实体和关系,得到实体集和关系集,并通过实体集和关系集构建三元组集合,结合实体集、关系集以及三元组集合,构建科技文献知识图谱;
S2:构建用户的交互数据库:收集用户对于科技文献知识图谱的历史行为交互数据;收集用户面向科技文献知识图谱提出的自然语言查询,并将自然语言查询转化为SPARQL查询语句;存储历史行为交互数据以及SPARQL查询语句;
S3:基于用户的交互数据库和科技文献知识图谱建立用户偏好模型,所述用户偏好模型包括知识表示学习模型以及推荐模型,用户偏好模型构建过程具体包括:
S3-1:基于SPARQL查询语句结合科技文献知识图谱构建知识表示学习模型;
S3-2:基于历史行为交互数据构建推荐模型;
S4:构建平衡函数平衡知识表示学习模型中的实体和推荐模型中的项目并同时训练知识表示学习模型和推荐模型,得到既具有图结构特征又具有交互语义特征的用户向量值和实体向量值,并依据用户向量值与实体向量值的相似度由高至低依次排列生成推荐列表。
优选的,所述步骤S3-1具体为:
S3-1-1:分析SPARQL查询语句中二元谓词的时序特征与频率特征,并构建关系语义矩阵,其表达式如下:
Figure BDA0003898361350000021
其中,S(r)表示关系r的语义权重值,
Figure BDA0003898361350000022
为时间信任增长因子;
Figure BDA0003898361350000023
表示二元谓词组(Pj,Pk)在时间帧τi内的SPARQL查询语句集合出现的频率;β为平衡非频繁谓词组总频率的超参数;
Figure BDA0003898361350000024
为非频繁谓词组集合,FP为频繁谓词组集合;
S3-1-2:将关系语义矩阵作为输入,利用加权编码器来计算科技文献知识图谱中每个由不同关系链接的三元组的关联度,关联度函数的表达式如下:
Figure BDA0003898361350000025
其中,w(h,r,t)为三元组关联度函数;(h,r,t)为三元组,h为头实体,r为关系,t为尾实体;
Figure BDA0003898361350000026
是头实体为h的三元组集合;
S3-1-3:基于翻译模型结合三元组的关联度函数,构建得到能量函数,通过能量函数构建关联度感知的知识表示学习模型的损失函数,通过梯度下降不断迭代损失函数得到具有知识图谱结构特征的实体的向量值和关系的向量值,并生成知识表示学习模型,知识表示学习模型的损失函数的表达式如下:
Figure BDA0003898361350000027
其中,Lkg为知识表示学习模型的损失函数,
Figure BDA0003898361350000028
为正例三元组即真实存在于知识图谱中的三元组,
Figure BDA0003898361350000029
为负例三元组即通过替换头实体或尾实体构造出来的三元组,h'表示替换的头实体,t'表示替换的尾实体;E(h,r,t)表示翻译模型的正例三元组的距离分数,E(h',r,t')表示翻译模型的负例三元组的距离分数,γ为边界距离值。
优选的,所述步骤S3-2具体为:
S3-2-1:计算历史行为交互数据中用户u和项目i与步骤S3-1的科技文献知识图谱中关系r的相似性;并进一步计算关系r在其关系集合中的注意力权重分布并进行归一化处理得到注意力权重的最终值,将注意力权重与对应的关系r相乘,建立指定用户-项目交互对与科技文献知识图谱中关系的偏好诱导模型,其表达式如下:
Figure BDA0003898361350000031
其中,
Figure BDA0003898361350000032
表示指定用户-项目交互对与科技文献知识图谱中关系的偏好诱导模型,
Figure BDA0003898361350000033
表示关系r在其关系集合中的注意力权重归一化处理得到的最终值,u表示用户,i表示项目,
Figure BDA0003898361350000034
表示在科技文献知识图谱中与交互项目i直接关联的关系集合;
S3-2-2:计算历史行为交互数据中用户u和项目i与步骤S3-1的科技文献知识图谱中实体e的相似性;并计算实体e在其实体集合中的注意力权重分布并进行归一化处理得到注意力权重的最终值,将注意力权重与对应的实体e相乘,建立用户-项目交互对与科技文献知识图谱中实体的偏好诱导模型,其表达式如下:
Figure BDA0003898361350000035
其中,e表示实体,其包括头实体h和尾实体t,
Figure BDA0003898361350000036
表示在科技文献知识图谱中与交互项目i直接关联的实体集合;
S3-2-3:基于步骤S3-2-1中的用户对关系的偏好诱导模型以及步骤S3-2-2中的用户对实体的偏好诱导模型,建立用户对项目的偏好模型,通过用户对项目的偏好模型构建推荐模型的损失函数,通过梯度下降的方式不断迭代损失函数得到具有用户交互特征的用户的向量值和项目的向量值,并生成推荐模型,推荐模型的损失函数的表达式如下:
Lrs=∑(u,i)∈y(u,i′)∈y′-logσ[g(u,i′;p′)-g(u,i;p)];
其中,Lrs表示推荐模型的损失函数,(u,i)表示用户-项目交互对,(u,i′)表示随机替换项目构造的负交互对,i′表示替换后的项目,logσ表示BPR损失函数计算,y′表示用户与项目的负交互列表集合,y表示用户与项目的交互列表集合,g(u,i;p)表示用户对项目的偏好模型,g(u,i′;p′)表示用户对替换项目的偏好模型。
优选的,所述步骤S3-1-3中能量函数表达式如下:
Figure BDA0003898361350000041
其中,E(h,r,t/w)表示能量函数,E(h,r,t)表示翻译模型。
优选的,所述步骤S3-2-3中用户对项目的偏好模型表达式如下:
Figure BDA0003898361350000042
其中,p表示交互关系向量,
Figure BDA0003898361350000043
表示聚合用户对关系的偏好后的交互关系向量,
Figure BDA0003898361350000044
表示聚合用户对实体的偏好后的项目,L1即L1范式,L2即L2范式。
优选的,所述步骤S4中平衡函数表达式如下:
L=λLrs+(1-λ)Lkg
其中,L为平衡函数,λ为超参数。
应用本发明的技术方案,具有以下有益效果:
(1)本发明提供的科技文献推荐方法通过采集科技文献相关数据构建科技文献知识图谱,同时收集并处理用户在***产生的交互数据,设计融合用户行为特征与知识表示的推荐模型。相较于现有推荐模型,将交互数据划分为用户面向科技文献资源提出的自然语言查询和用户的历史行为交互数据,一方面基于用户面向科技文献资源提出的自然语言查询,分析用户偏好对科技文献知识图谱产生的语义影响,提取隐含在用户信息中的关系语义特征,建立融入关系语义的知识表示学习模型,用以提高科技文献等知识的语义表征;另一方面基于用户的历史行为交互数据,结合知识表示学习模型深入分析关系与实体对用户偏好的语义影响,建立多层次偏好感知的推荐模型,用以提高用户与科技文献之间的语义关联。
(2)本发明还设置了平衡函数,通过联合学习知识表示学习模型与推荐模型,学习过程中实体、关系和项目的信息共享与互补,实现建模语义关联更为丰富的用户与科技文献,根据用户与科技文献向量之间的相似度计算,在海量科技文献资源中为用户提供更加智能与快速的个性化推荐服务。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1至本发明优选实施例1的科技文献推荐方法的流程示意图
图2是用户-项目交互对在科技文献知识图谱中的多个关系和实体的连接示意图。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以根据权利要求限定和覆盖的多种不同方式实施。
实施例1:
参见图1,一种科技文献推荐方法,包括以下步骤:
S1:构建科技文献知识图谱:对科技文献资源数据进行爬取,得到非结构化文本数据;从非结构化文本数据中抽取与科技文献相关的实体和关系(例如:文献名、发表年份、关键字等文献信息和作者名、所属机构、邮箱等作者信息),得到实体集和关系集,并通过实体集和关系集构建三元组集合,结合实体集、关系集以及三元组集合,构建科技文献知识图谱;
S2:构建用户的交互数据库:收集用户对于科技文献知识图谱的历史行为交互数据;收集用户面向科技文献知识图谱提出的自然语言查询,并将自然语言查询转化为SPARQL查询语句;存储历史行为交互数据以及SPARQL查询语句;
用户的交互数据库是实现科技文献推荐方法的基础数据源,本发明将用户在***上产生的交互数据分为两部分,一方面是收集用户对于科技文献知识图谱的历史行为交互数据,如用户对知识图谱中科技文献的收藏或下载;另一方面是收集用户面向科技文献知识图谱提出的自然语言查询,如用户搜索“刘知远老师发表的论文集”,同时将自然语言查询转化为底层的SPARQL查询语句,本发明中将用户的历史行为交互数据表示为一组用户集合U={u1,u2,...,un}、一组项目集合I={i1,i2,...,in}和一个用户-项目的交互列表集合y={(u,i)u∈U,i∈I},其中,u表示用户,i表示项目;
同时将用户面向科技文献知识图谱提出的自然语言查询数据即SPARQL查询语句集合表示为L。
S3:基于用户的交互数据库和科技文献知识图谱建立用户偏好模型,所述用户偏好模型包括知识表示学习模型以及推荐模型,用户偏好模型构建过程具体包括:
S3-1:基于SPARQL查询语句结合科技文献知识图谱构建知识表示学习模型;具体包括:
S3-1-1:分析SPARQL查询语句中二元谓词的时序特征与频率特征(多元谓词能够更好地描述实体之间的语义关联。谓词中包含的关联数目称为谓词的元数,谓词P(x1,x2,…,xn)即为n元谓词。常见的有一元谓词P(x),二元谓词P(x,y)。SPARQL查询语句中存在大量的二元谓词关联),具体是,对SPARQL查询语句集合L中的每条原始数据进行格式清洗与转换,将乱码的SPARQL查询语句转化为标准的SPARQL查询语句;同时,仅保留每条标准的SPARQL查询语句中的谓词,将主词和宾词均转换为变量,得到一条模式化的SPARQL查询语句Qi,最终得到模式化的SPARQL查询语句集合Q={Q1,Q2,...,Qn};遍历每一条模式化的SPARQL查询语句Qi,挖掘可能存在的二元谓词组(Pj,Pk),计算每个二元谓词组(Pj,Pk)在SPARQL查询语句集合Q中出现的频率|(Pj,Pk)|,表达式如下:
Figure BDA0003898361350000061
其中,count[Qi,(Pj,Pk)]函数用于判断二元谓词组(Pj,Pk)是否存在于查询语句Qi,存在则赋值为1,不存在则为0;为了区分二元谓词组的频繁性,本实施例还设置阈值δ,阈值δ的取值根据需求选择,判断二元谓词组(Pj,Pk)是否为频繁谓词。如果|(Pj,Pk)|≤δ,则(Pj,Pk)属于频繁谓词组集合FP,反之则(Pj,Pk)属于非频繁谓词组集合
Figure BDA0003898361350000062
特别地,SPARQL查询具有时间序列特征,历史查询越接近当前时间,用户信息对关系的语义影响就越大。因此,考虑了SPARQL查询随时间变化的规律,将时间划分t个时间帧,每个时间帧τi设置对应的时间信任增长因子
Figure BDA0003898361350000063
所有时间帧的时间信任增长因子总和为1,表达式如下:
Figure BDA0003898361350000064
Figure BDA0003898361350000071
其中,随着SPARQL查询时间帧越接近当前时间,
Figure BDA0003898361350000072
取值越大,其信任度越高。
基于谓词的频率统计和SPARQL查询的时间序列特征分析,通过加权协同表示来建模用户对关系的语义影响,即构建关系语义矩阵,其表达式如下:
Figure BDA0003898361350000073
其中,S(r)表示关系r的语义权重值,
Figure BDA0003898361350000074
为时间信任增长因子;
Figure BDA0003898361350000075
表示二元谓词组(Pj,Pk)在时间帧τi内的SPARQL查询语句集合出现的频率;β为平衡非频繁谓词组总频率的超参数;
Figure BDA0003898361350000076
为非频繁谓词组集合,FP为频繁谓词组集合;
S3-1-2:将关系语义矩阵作为输入,利用加权编码器来计算科技文献知识图谱中每个由不同关系链接的三元组的关联度,关联度函数的表达式如下:
Figure BDA0003898361350000077
其中,w(h,r,t)为三元组关联度函数;(h,r,t)为三元组,h为头实体,r为关系,t为尾实体;
Figure BDA0003898361350000078
是头实体为h的三元组集合;
S3-1-3:基于翻译模型(E(h,r,t)=||h+r-t||)中h+r≈t的假设结合三元组的关联度函数,构建得到能量函数,能量函数的表示式如下:
Figure BDA0003898361350000079
其中,E(h,r,t/w)表示能量函数,E(h,r,t)表示翻译模型。
通过能量函数构建关联度感知的知识表示学习模型的损失函数,通过梯度下降不断迭代损失函数得到具有知识图谱结构特征的实体的向量值和关系的向量值,并生成知识表示学习模型,知识表示学习模型的损失函数的表达式如下:
Figure BDA00038983613500000710
其中,Lkg为知识表示学习模型的损失函数,
Figure BDA00038983613500000711
为正例三元组(即真实存在于知识图谱中的三元组),
Figure BDA00038983613500000712
为负例三元组(即通过替换头实体或尾实体构造出来的三元组),h'表示替换的头实体,t'表示替换的尾实体;E(h,r,t)表示翻译模型的正例三元组的距离分数,E(h′,r,t′)表示翻译模型下的负例三元组的距离分数;E(h,r,t)的分值越低,代表实体和关系的表示越符合知识表示学习模型框架,使正例三元组的距离分数低于负例三元组的距离分数;w(h,r,t)是三元组关联度函数,分值越高代表关系r越重要,由关系r链接的实体间的语义关联程度越大,在嵌入过程应当被更多地考虑,γ为边界距离值。
S3-2:基于历史行为交互数据结合知识表示学习模型构建推荐模型;具体包括:
S3-2-1:计算历史行为交互数据中用户u与步骤S3-1的科技文献知识图谱中关系r的相似性;用户对项目的交互一定存在某种意图,结合科技文献知识图谱,关系可能影响着用户的选择,用户对不同关系的偏好存在差异,比如,相比科技文献类型,某用户更看重科技文献的关键词,参见图2。因此,定义
Figure BDA0003898361350000081
用于衡量关系r对用户u的重要程度,表达式如下:
Figure BDA0003898361350000082
每个用户-项目的历史交互对(u,i)中的i在科技文献知识图谱中包含多个关系,参见图1,用户-项目交互对(用户u,文献i),针对实体文献,科技文献知识图谱包含了与其关联的关系集合{作者、关键词、文献类型},因此,针对每个交互对(u,i),定义公式:
Figure BDA0003898361350000083
Figure BDA0003898361350000084
Figure BDA0003898361350000085
表示在科技文献知识图谱中与交互项目i直接关联的关系集合;同时对于交互对(u,i),进一步计算关系r在其关系集合中的注意力权重分布并进行归一化处理得到注意力权重的最终值,其表达式如下:
Figure BDA0003898361350000086
其中,
Figure BDA0003898361350000087
表示关系r在其关系集合中的注意力权重归一化处理得到的最终值。
不同的用户对关系的偏好是不一样的。比如,某些用户是因为文献的关键词,而选择下载查看文献;而某些用户的选择则是因为文献的作者。因此,针对每一个用户-项目交互对(u,i),将注意力权重与对应的关系r相乘,建立指定用户-项目交互对科技文献知识图谱中关系的偏好诱导模型,其表达式如下:
Figure BDA0003898361350000088
其中,
Figure BDA0003898361350000091
表示指定用户-项目交互对科技文献知识图谱中关系的偏好诱导模型,
Figure BDA0003898361350000092
表示关系r在其关系集合中的注意力权重归一化处理得到的最终值,u表示用户,i表示项目,
Figure BDA0003898361350000093
表示在科技文献知识图谱中与交互项目i直接关联的关系集合;
S3-2-2:计算历史行为交互数据中用户u与步骤S3-1的科技文献知识图谱中实体e的相似性;不仅科技文献知识图谱中的关系可能影响着用户的选择,同一关系下不同的实体对用户偏好的贡献程度也不同,用户对不同实体的偏好存在差异。比如,相比文献类型,某用户更看重文献关键词。因此,定义
Figure BDA0003898361350000094
用于衡量实体e对用户u的重要程度,表达式如下:
Figure BDA0003898361350000095
每个用户-项目的历史交互对(u,i)中的i在科技文献知识图谱中对应多个实体,参见图1,用户-项目交互对(用户u,文献i),针对实体文献1,科技文献知识图谱包含了与其关联的实体集合{作者A1、作者A2、推荐算法、知识推理}。因此,针对每个交互对(u,i),定义
Figure BDA0003898361350000096
Figure BDA0003898361350000097
表示在科技文献知识图谱中与交互项目i直接关联的实体集合;同时对于交互对(u,i),定义公式进一步计算实体e在其实体集合中的注意力权重分布并进行归一化处理得到注意力权重的最终值,表达式如下:
Figure BDA0003898361350000098
此外,不同的用户对实体的偏好是不一样的。比如,某些用户是因为对作者A1感兴趣,而选择下载查看文献;而某些用户的选择则是因为作者A2。因此,针对每一个用户-项目交互对(u,i),将注意力权重与对应的实体e相乘,建立用户-项目交互对实体的偏好诱导模型,其表达式如下:
Figure BDA0003898361350000099
其中,e表示实体,其包括头实体h和尾实体t,
Figure BDA00038983613500000910
表示在科技文献知识图谱中与交互项目i直接关联的实体集合;
S3-2-3:针对用户与项目交互的三元组(u,interact,i),将交互关系向量p视为是用户u到项目i的平移操作,即用户与项目存在交互则满足:u+p≈i。
然而,科技文献知识图谱关系和实体对用户与项目的交互产生了不同程度的影响。因此,基于步骤S3-2-1中的用户对关系的偏好诱导模型以及步骤S3-2-2中的用户对实体的偏好诱导模型,将用户对关系的偏好聚合给交互关系向量p,其公式表达式如下,保证该用户与权重值大的关系对应的实体在向量空间中更接近:
Figure BDA0003898361350000101
同时,将用户对实体的偏好聚合给项目i,其表达式如下,保证权重值大的实体对用户的生成提供更高的贡献:
Figure BDA0003898361350000102
根据项目与实体对齐的概念,项目i即对齐的科技文献知识图谱中的实体e。
然后,建立用户对项目的偏好模型,用户对项目的偏好模型表达式如下:
Figure BDA0003898361350000103
其中,p表示交互关系向量,
Figure BDA0003898361350000104
表示聚合用户对关系的偏好后的交互关系向量,
Figure BDA0003898361350000105
表示聚合用户对实体的偏好后的项目,L1即L1范式,L2即L2范式,g(u,i;p)分数越低表示用户与项目越有可能进行交互。
通过用户对项目的偏好模型构建推荐模型的损失函数,通过梯度下降的方式不断迭代损失函数得到具有用户交互特征的用户的向量值和项目的向量值,并生成推荐模型,推荐模型的损失函数的表达式如下:
Lrs=∑(u,i)∈y(u,i′)∈y′-logσ[g(u,i′;p′)-g(u,i;p)];
其中,Lrs表示推荐模型的损失函数,(u,i)表示用户-项目交互对,(u,i′)表示随机替换项目构造的负交互对,i′表示替换后的项目,logσ表示BPR损失函数计算,y′表示用户与项目的负交互列表集合,y表示用户与项目的交互列表集合,g(u,i;p)表示用户对项目的偏好模型,g(u,i′;p′)表示用户对替换项目的偏好模型。
S4:构建平衡函数平衡知识表示学***衡函数表达式如下:
L=λLrs+(1-λ)Lkg
其中,L为平衡函数,λ为超参数,可根据需求选择,通过平衡函数使知识表示学习模型中的实体和推荐模型中的项目一一对应,实现项目与实体语义信息的共享和互补,用以增强推荐效果同时提升知识表示的准确性。
实验数据集
本章将Wikidata数据集作为知识图谱数据集,其中包含有关导演、演员和电影类型等知识。Natalia等人发现类似FB15K-237数据集中有95%的实体出现在至少三个训练三元组中,但Wikidata的原始数据很大并且非常稀疏。因此,本发明使用已过滤的Wikidata数据集,仅保留出现在至少两个三元组中的实体。Wikidata数据集分为Wikidata-300K和Wikidata-1000k两个版本,分别包含300K个和1M个三元组。本发明将这些三元组分为训练集、验证集和测试集,表3-2显示了Wikidata数据集的统计情况。
表1Wikidata数据集
Datasets #Rel #Ent #Train #Valid #Test
Wikidata-300k 294 36001 240000 23310 23373
Wikidata-1000k 394 104500 950000 18912 18984
此外,本发明从***网站提供的SPARQL端点中,收集了Wikidata知识图谱对应的SPARQL历史查询日志集,总共包括六个时期的历史查询日志,每个时期统计为期28天的SPARQL查询,SPARQL历史查询日志的统计数据详见表3-3。
表2SPARQL历史查询数据集
Start-End #Total #Valid #Robotic #Organic
1 2017.06.12-2017.07.09 79,082,916 59,555,701 59,364,020 191,681
2 2017.07.10-2017.08.06 82,110,141 70,397,955 70,199,977 197,978
3 2017.08.07-2017.09.03 90,733,013 78,393,731 78,142,971 250,760
4 2018.01.01-2018.01.28 106,074,877 92,100,077 91,504,428 595,649
5 2018.01.29-2018.02.25 109,617,007 96,407,008 95,526,402 880,606
6 2018.02.26-2018.03.25 100,133,104 84,861,808 83,998,328 863,480
其中,Malyshev等人通过有效的查询数量(Valid),发现存在机器人查询(Robotic)和有机查询(Organic)两种类型。有机查询由许多用户需要即时信息的查询所主导,更能体现用户的需求,因此本发明主要针对有机查询进行分析和挖掘。
参数设置
训练过程中,关于模型所涉及的所有参数,本发明进行了不同范围内数值的探索。针对超参数λ,本发明探索了{0.1,0.01,0.001}内的取值;针对边界距离值γ,本发明探索了{1,2,4}内的取值;针对关系和实体的向量维度d,本发明探索了{20,50,100}内的取值;针对训练时的迭代次数epoch,本发明探索了{200,500,1000}内的取值。此外,各数据集上的小批量样本batch取值为100,采用L2范数度量距离。根据关联度感知的知识表示学***,本发明在所有对比模型上取相同的参数设置。
评价指标
链路预测通常被用于测评知识表示学习算法的效果,其核心思想是通过给定三元组(h,r,t)中的任意两项,预测缺失的那一项。以预测尾实体为例(对头实体的操作类似),具体来说,先将测试集中三元组转化为不完整的三元组(h,r,?);用实体集ε中的任意实体e代替尾实体t,形成新的三元组(h,r,e);最后利用分数函数f(h,r,e)计算三元组的距离得分,得分越低表示三元组越有可能存在,反之越小。
参考Bordes等人论文中的实验方法,升序排序所有测试三元组的距离得分,基于升序列表,本章在链接预测任务中采用平均排名MeanRank和命中率Hits@N作为评价指标。在链接预测任务中MeanRank越低、Hits@10越高,代表知识表示学习模型效果越好。此外,本发明采用不同的负样本过滤方法,一种是随机过滤“Raw”方法;另一种是在随机生成的负例样本中过滤掉原本就存在于知识图谱中的负例三元组,称为“Filter”方法。同时,针对负样本采样方式,本发明使用了两种不同的随机采样方法,均匀替换头尾实体的采样“unif”;不同概率替换的采样“bern”。
结果分析
为了验证本发明提出模型的有效性,本章除了将关联度函数融入到翻译模型TransE得到wTransE模型(即知识表示学习模型),并且以相同的方式将关联度函数融入TransH和TransR模型上得到wTransH和wTransR模型,进行大量实验。针对Wikidata_300k数据集,实体链接预测结果如表3-5所示。
表3Wikidata_300k数据集的链路预测对比结果
Figure BDA0003898361350000131
从表3-5可以看出,负例三元组的过滤和采样方式很大程度上影响了知识表示学习在链路预测任务上的性能;无论是本发明提出的模型还是经典的基于翻译的知识表示学习模型,采用Filter过滤方式均比采用Raw过滤方式得到更好地预测性能。同时,对比伯努利采样bern和均匀采样unif,发现以不同概率去替换头实体或尾实体要比均匀替换得到更好地结果。这说明过滤掉本身就存在于知识图谱的负例三元组,且使用一定概率去采样负例三元组,能得到更加精准的知识表示,提高链路预测的结果。
关系语义的区分在一定程度上影响了知识表示学习在链路预测任务上的性能;对比TransE、TransH与TransR模型,本发明提出wTransE、wTransH与wTransR模型均展现出了更佳的效果,在Hits@10指标上提升了约2%~3%。这说明不同的关系的确具有不同的语义特征,而人类历史经验中蕴含对知识图谱关系的语义偏好很好地辅助了关系语义特征建模,用户对关系产生了不同的语义影响。本发明提出的基于SPARQL查询语句的知识表示学习模型,通过翻译模型上融入关系语义特征,实现了对实体与关系更好的建模,提高了链接预测的表现。
此外,无论是本发明提出的模型还是经典的翻译模型,TransH、TransR模型对比TransE模型表现出的优化效果并不明显甚至更差。这是因为Wikidata数据集的三元组多数是一对一的简单关系,针对多对多复杂关系提出的优化模型TransH与TransR,在该数据集上不占优势。
同样,针对Wikidata_1000k数据集,本发明仍然对比在三个经典模型上的差异。通过在Wikidata_300k数据集上的实验,本发明在Wikidata_1000k数据集上仅选取伯努利采样进行实验,实体链接预测结果如表3-6所示。
表4Wikidata_1000k数据集的链路预测对比结果
Figure BDA0003898361350000141
从表3-6可以看出,wTransE、wTransH和wTransR模型均展现出更有优势的实体预测,在Hits@10指标上提升了约3%~4%;本发明发现模型在Wikidata_1000k数据集上的优化结果比Wikidata_300k数据集上的优化结果提升更明显,这是Wikidata_1000k数据集和关系集比Wikidata_300k多了不止一倍的数量。这一提升充分表明了关系存在不同语义程度,在关系更多的数据集上建立关联度感知的知识表示学习模型,能够实现更加精准的实体建模,显著提升链接预测效果。此外,由于数据量的增大导致MeanRank值随之变大。
实验结果表明本发明提出的知识表示学习模型提升了知识表示的准确性,从而能够用以提升科技文献领域的个性化推荐效果。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种科技文献推荐方法,其特征在于,包括以下步骤:
S1:构建科技文献知识图谱:对科技文献资源数据进行爬取,得到非结构化文本数据;从非结构化文本数据中抽取与科技文献相关的实体和关系,得到实体集和关系集,并通过实体集和关系集构建三元组集合,结合实体集、关系集以及三元组集合,构建科技文献知识图谱;
S2:构建用户的交互数据库:收集用户对于科技文献知识图谱的历史行为交互数据;收集用户面向科技文献知识图谱提出的自然语言查询,并将自然语言查询转化为SPARQL查询语句;存储历史行为交互数据以及SPARQL查询语句;
S3:基于用户的交互数据库和科技文献知识图谱建立用户偏好模型,所述用户偏好模型包括知识表示学习模型以及推荐模型,用户偏好模型构建过程具体包括:
S3-1:基于SPARQL查询语句结合科技文献知识图谱构建知识表示学习模型;
S3-2:基于历史行为交互数据构建推荐模型;
S4:构建平衡函数平衡知识表示学习模型中的实体和推荐模型中的项目并同时训练知识表示学习模型和推荐模型,得到既具有图结构特征又具有交互语义特征的用户向量值和实体向量值,并依据用户向量值与实体向量值的相似度由高至低依次排列生成推荐列表。
2.根据权利要求1所述的科技文献推荐方法,其特征在于,所述步骤S3-1具体为:
S3-1-1:分析SPARQL查询语句中二元谓词的时序特征与频率特征,并构建关系语义矩阵,其表达式如下:
Figure FDA0003898361340000011
其中,S(r)表示关系r的语义权重值,
Figure FDA0003898361340000012
为时间信任增长因子;
Figure FDA0003898361340000013
表示二元谓词组(Pj,Pk)在时间帧τi内的SPARQL查询语句集合出现的频率;β为平衡非频繁谓词组总频率的超参数;
Figure FDA0003898361340000014
为非频繁谓词组集合,FP为频繁谓词组集合;
S3-1-2:将关系语义矩阵作为输入,利用加权编码器来计算科技文献知识图谱中每个由不同关系链接的三元组的关联度,关联度函数的表达式如下:
Figure FDA0003898361340000015
其中,w(h,r,t)为三元组关联度函数;(h,r,t)为三元组,h为头实体,r为关系,t为尾实体;
Figure FDA0003898361340000021
是头实体为h的三元组集合;
S3-1-3:基于翻译模型结合三元组的关联度函数,构建得到能量函数,通过能量函数构建关联度感知的知识表示学习模型的损失函数,通过梯度下降不断迭代损失函数得到具有知识图谱结构特征的实体的向量值和关系的向量值,知识表示学习模型的损失函数的表达式如下:
Figure FDA0003898361340000022
其中,Lkg为知识表示学习模型的损失函数,
Figure FDA0003898361340000023
为正例三元组即真实存在于知识图谱中的三元组,
Figure FDA0003898361340000024
为负例三元组即通过替换头实体或尾实体构造出来的三元组,h'表示替换的头实体,t'表示替换的尾实体;E(h,r,t)表示翻译模型的正例三元组的距离分数,E(h',,t')表示翻译模型的负例三元组的距离分数,γ为边界距离值。
3.根据权利要求2所述的科技文献推荐方法,其特征在于,所述步骤S3-2具体为:
S3-2-1:计算历史行为交互数据中用户u和项目i与步骤S3-1的科技文献知识图谱中关系r的相似性;并进一步计算关系r在其关系集合中的注意力权重分布并进行归一化处理得到注意力权重的最终值,将注意力权重与对应的关系r相乘,建立指定用户-项目交互对与科技文献知识图谱中关系的偏好诱导模型,其表达式如下:
Figure FDA0003898361340000025
其中,
Figure FDA0003898361340000026
表示指定用户-项目交互对与科技文献知识图谱中关系的偏好诱导模型,
Figure FDA0003898361340000027
表示关系r在其关系集合中的注意力权重归一化处理得到的最终值,u表示用户,i表示项目,
Figure FDA0003898361340000028
表示在科技文献知识图谱中与交互项目i直接关联的关系集合;
S3-2-2:计算历史行为交互数据中用户u和项目i与步骤S3-1的科技文献知识图谱中实体e的相似性;并计算实体e在其实体集合中的注意力权重分布并进行归一化处理得到注意力权重的最终值,将注意力权重与对应的实体e相乘,建立用户-项目交互对与科技文献知识图谱中实体的偏好诱导模型,其表达式如下:
Figure FDA0003898361340000031
其中,e表示实体,其包括头实体h和尾实体t,
Figure FDA0003898361340000032
表示在科技文献知识图谱中与交互项目i直接关联的实体集合;
S3-2-3:基于步骤S3-2-1中的用户对关系的偏好诱导模型以及步骤S3-2-2中的用户对实体的偏好诱导模型,建立用户对项目的偏好模型,通过用户对项目的偏好模型构建推荐模型的损失函数,通过梯度下降的方式不断迭代损失函数得到具有用户交互特征的用户的向量值和项目的向量值,推荐模型的损失函数的表达式如下:
Lrs=∑(u,i)∈y(u,i′)∈y′-logσ[g(u,i′;p′)-g(u,i;p)];
其中,Lrs表示推荐模型的损失函数,(u,i)表示用户-项目交互对,(u,i′)表示随机替换项目构造的负交互对,i′表示替换后的项目,logσ表示BPR损失函数计算,y′表示用户与项目的负交互列表集合,y表示用户与项目的交互列表集合,g(u,i;p)表示用户对项目的偏好模型,g(u,i′;p′)表示用户对替换项目的偏好模型。
4.根据权利要求3所述的科技文献推荐方法,其特征在于,所述步骤S3-1-3中能量函数表达式如下:
Figure FDA0003898361340000033
其中,E(h,r,t/w)表示能量函数,E(h,r,t)表示翻译模型。
5.根据权利要求4所述的科技文献推荐方法,其特征在于,所述步骤S3-2-3中用户对项目的偏好模型表达式如下:
Figure FDA0003898361340000034
其中,p表示交互关系向量,
Figure FDA0003898361340000035
表示聚合用户对关系的偏好后的交互关系向量,
Figure FDA0003898361340000036
表示聚合用户对实体的偏好后的项目,L1即L1范式,L2即L2范式。
6.根据权利要求5所述的科技文献推荐方法,其特征在于,所述步骤S4中平衡函数表达式如下:
L=λLrs+(1-λ)Lkg
其中,L为平衡函数,λ为超参数。
CN202211291535.XA 2022-10-19 2022-10-19 一种科技文献推荐方法 Pending CN115658862A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211291535.XA CN115658862A (zh) 2022-10-19 2022-10-19 一种科技文献推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211291535.XA CN115658862A (zh) 2022-10-19 2022-10-19 一种科技文献推荐方法

Publications (1)

Publication Number Publication Date
CN115658862A true CN115658862A (zh) 2023-01-31

Family

ID=84989026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211291535.XA Pending CN115658862A (zh) 2022-10-19 2022-10-19 一种科技文献推荐方法

Country Status (1)

Country Link
CN (1) CN115658862A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117725222A (zh) * 2023-11-20 2024-03-19 中国科学院成都文献情报中心 融合知识图谱与大语言模型的文献复杂知识对象抽取方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117725222A (zh) * 2023-11-20 2024-03-19 中国科学院成都文献情报中心 融合知识图谱与大语言模型的文献复杂知识对象抽取方法

Similar Documents

Publication Publication Date Title
CN108052583B (zh) 电商本体构建方法
Richardson et al. Markov logic networks
Domingos et al. Markov logic: A unifying framework for statistical relational learning
Ilyas et al. CORDS: Automatic discovery of correlations and soft functional dependencies
Pezzoni et al. How to kill inventors: testing the Massacrator© algorithm for inventor disambiguation
Pazzani et al. Learning from hotlists and coldlists: Towards a WWW information filtering and seeking agent
CN109447266B (zh) 一种基于大数据的农业科技服务智能分拣方法
CN105975584B (zh) 一种数学表达式相似距离测量方法
CN110990718A (zh) 一种公司形象提升***的社会网络模型构建模块
Elayidom et al. A generalized data mining framework for placement chance prediction problems
CN115658862A (zh) 一种科技文献推荐方法
Wang et al. Robust supervised topic models under label noise
CN113190684B (zh) 一种基于路径质量判别的强化学习知识图谱推理方法
CN116662564A (zh) 一种基于深度矩阵分解与知识图谱的服务推荐方法
Deng et al. Association pattern discovery via theme dictionary models
Hassan et al. Sampling technique selection framework for knowledge discovery
Kyaw et al. Traditional and swarm intelligent based text feature selection for document classification
Jia et al. Research on joint ranking recommendation model based on Markov chain
CN112948238A (zh) 推荐***的多样性的量化方法
Baali et al. A Multi-Criteria Analysis and Advanced Comparative Study of Recommendation Systems
CN117556118B (zh) 基于科研大数据预测的可视化推荐***及方法
De Fausti et al. Multilayer perceptron models for the estimation of the attained level of education in the Italian Permanent Census
KR102605929B1 (ko) 서로 다른 프로세서 자원을 할당하여 정형 데이터와 비정형 데이터를 처리하는 방법 및 이러한 방법을 제공하는 데이터 처리 시스템
CN115168408B (zh) 基于强化学习的查询优化方法、装置、设备及存储介质
AU2020104033A4 (en) CDM- Separating Items Device: Separating Items into their Corresponding Class using Iris Dataset Machine Learning Classification Device

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination