CN113342994A - 一种基于无采样协作知识图网络的推荐*** - Google Patents

一种基于无采样协作知识图网络的推荐*** Download PDF

Info

Publication number
CN113342994A
CN113342994A CN202110758174.4A CN202110758174A CN113342994A CN 113342994 A CN113342994 A CN 113342994A CN 202110758174 A CN202110758174 A CN 202110758174A CN 113342994 A CN113342994 A CN 113342994A
Authority
CN
China
Prior art keywords
user
knowledge graph
sampling
module
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110758174.4A
Other languages
English (en)
Other versions
CN113342994B (zh
Inventor
熊熙
蒋雯静
李中志
马腾
徐孟奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu University of Information Technology
Original Assignee
Chengdu University of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu University of Information Technology filed Critical Chengdu University of Information Technology
Priority to CN202110758174.4A priority Critical patent/CN113342994B/zh
Publication of CN113342994A publication Critical patent/CN113342994A/zh
Application granted granted Critical
Publication of CN113342994B publication Critical patent/CN113342994B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Artificial Intelligence (AREA)
  • General Business, Economics & Management (AREA)
  • Finance (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Accounting & Taxation (AREA)
  • Educational Administration (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Operations Research (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Animal Behavior & Ethology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种基于无采样协作知识图网络的推荐***,包括:嵌入模块设置为获取知识图谱中三元组的初始嵌入向量;无采样知识图卷积模块设置为包含若干线性聚合器的单层卷积网络,对初始嵌入向量进行无采样的预计算,获得三元组的深层次信息;将嵌入向量和深层次信息结合作为更新嵌入向量;协作传播模块设置为同时编码用户和项目交互中的协作信号作为用户和项目的初始偏好,与更新嵌入向量结合作为预测模块的输入向量;预测模块设置为根据输入向量获得推荐结果。本发明仅通过设计较为复杂的传播矩阵和预计算操作,实现了不差于深度模型的性能和更快的速度,已经更准确的预测结果。

Description

一种基于无采样协作知识图网络的推荐***
技术邻域
本发明涉及推荐方法技术邻域,尤其涉及一种基于无采样协作知识图网络的推荐***。
背景技术
推荐***是利用电子商务网站向客户提供商品信息和建议,帮助用户决定应该购买什么产品,模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。随着电子商务规模的不断扩大,商品个数和种类快速增长,顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。为了解决这些问题,个性化推荐***应运而生。个性化推荐***是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
知识图谱(Knowledge Graph,KG)是一种新兴的知识载体,它将文档数据整合成简单易懂的三元组形式,并通过节点之间深层次的语义关联来补偿数据稀疏性。例如,(王家卫,导演,阿飞正传)表明王家卫是《阿飞正传》的导演。KG作为一种有向异构图,节点和边分别对应于不同类型的实体和语义关系。这样的图结构意味着KG具有很强的关系表示能力和建模灵活性,近年来已经被成功应用于许多邻域。
目前针对KG结合推荐的代表性研究很多沿袭了基于GNN的技术路线。然而,引入GNN同样面临以下问题:(1)信息传播过程中指数级增长的节点数量导致了巨大的内存和时间成本。为了缓解这种情况,现有的方法通常使用采样策略在训练时保留节点邻居或子图的子集来减轻计算成本。然而,采样操作可能在优化过程引入误差。(2)深度图神经网络架构中固有的梯度消失和特征平滑等问题,导致模型训练难度较大。尽管最近一些工作表明能在一定程度上改善这些问题,但广泛的实验证明深度往往不会带来显著的收益性。平衡模型的深度和效率,使图神经网络能处理大规模的网络是现阶段的挑战。
发明内容
本发明的目的在于提供一种兼具简单性和表达性的知识图推荐***,其技术方案如下:
一种基于无采样协作知识图网络的推荐***,包括依次连接的嵌入模块、无采样知识图卷积模块、协作传播模块和预测模块;
所述嵌入模块设置为获取知识图谱中三元组的初始嵌入向量;
所述无采样知识图卷积模块设置为包含若干线性聚合器的单层卷积网络,对所述初始嵌入向量进行无采样的预计算,获得所述三元组的深层次信息;将所述嵌入向量和深层次信息结合作为更新嵌入向量;
所述协作传播模块设置为同时编码用户和项目交互中的协作信号作为用户和项目的初始偏好,与所述更新嵌入向量结合作为预测模块的输入向量;
所述预测模块设置为根据所述输入向量获得推荐结果。
在一些较优的实施例中,所述嵌入模块在获取到所述初始嵌入向量后,还包括步骤:
将所述知识图谱中的三元组分别建模到实体和关系两个空间,并根据下述公式评价其可信度:
Figure BDA0003148019440000021
其中,h和t为实体,r为实体h和t间存在的关系,eh,er,et分别是h,r,t的嵌入表示,Wr为关系r的转换矩阵;
g(h,r,t)的值越低意味着三元组(h,r,t)的可信度越高;反之,三元组(h,r,t)的可信度越低。
在一些较优的实施例中,所述无采样知识图卷积模块还包括:注意力组件、信息传播组件和邻域聚合组件;
所述注意力组件设置为通过关系注意力机制来确定所述单层卷积网络的注意力参数π(h,r,t);
所述信息传播组件设置为根据所述注意力参数π(h,r,t)计算出初始传播矩阵Bi,j=π(hi,r,tj),对所述初始传播矩阵Bi,j=π(hi,r,tj)进行幂运算Bn,获取实体n跳以内的邻域信息;其中,hi为头实体h的第i个邻居;tj为尾实体t的第j个邻居;
所述邻域聚合组件设置为通过在单个卷积层中使用大小不同的线性聚合器来实现无采样预计算,获得所述三元组的深层次信息。
在一些较优的实施例中,所述协作传播模块编码用户和项目交互中的协作信号作为用户的初始偏好的方法包括:
将用户历史交互中的相关项目集与知识图中的实体对齐,并转换为在知识图中计算的特征集Eu:Eu={Ee|(v,e)∈A,v∈{v|yuv=1}};其中,A={(v,e)|v∈V,e∈E}表示存在映射关系的集合,(v,e)表明项目v可以与知识图中的实体e对齐;yuv为用户反馈参数,yuv=1表明用户与项目间存在反馈行为,否则yuv=0;
将用户特征集Eu进行归一化处理,得到:
Figure BDA0003148019440000022
在一些较优的实施例中,所述协作传播模块编码用户和项目交互中的协作信号作为项目的初始偏好的方法包括:
获取与目标项目v交互的用户集合存在交互的其他项目,作为目标项目v的协作项目集Vv
Figure BDA0003148019440000031
其中,
Figure BDA0003148019440000032
为用户反馈参数,
Figure BDA0003148019440000033
表示用户u和项目vu间存在交互;
将协作项目集Vv与知识图中的实体对齐,得到目标项目v的特征集Ev,Ev={Ee|(vu,e)∈A,vu∈Vv};
将项目的初始集归一化,并加上项目自身对齐实体的特征,得到:
Figure BDA0003148019440000034
有益效果
1.在无采样知识传播模块中,使用单个图卷积层聚合来自多层的邻域信息,由于输入参数固定,这一步可以直接预计算,不进行邻域采样而是考虑全部的邻域信息,避免了采样产生的误差;
2.堆叠多个图卷积层的方法不同,该模型仅使用一个卷积层,但通过设计较为复杂的传播矩阵和预计算操作,实现了不差于深度模型的性能,且在速度上更佳;
3.在协作传播模块中,将用户交互中的关键协作信号编码为用户和项目的偏好,并和KG嵌入相结合,最终得到的向量充分利用了这两种关键信息,更有效地表示向量空间中用户和项目的潜在语义。
附图说明
图1为本发明一种实施例中的***结构简化示意图;
图2为本发明另一种实施例中的***结构详细示意图;
图3为本发明一种较优实施例中基于Last.FM数据集的预测结果对比图;
图4为本发明一种较优实施例中基于Book-Crossing数据集的预测结果对比图;
图5为本发明一种较优实施例中基于MoiveLens数据集的预测结果对比图;
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步阐述。在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
本发明提供了一种基于无采样协作知识图网络的推荐***,如图1所示,包括依次连接的嵌入模块、无采样知识图卷积模块、协作传播模块和预测模块;应当理解的是,本发明所述的连接无特别说明的情况下均值信号连接,其具体连接方式可以是有线连接或无线连接中的至少一种。
所述嵌入模块设置为获取知识图谱中三元组的初始嵌入向量。本发明所述三元组的定义为:给定项目知识图谱G={(h,r,t)|h,t∈E,r∈R},其中每个三元组表示实体h和实体t间存在关系r,E和R分别对应于实体和关系集合。例如,三元组(刘亦菲,演员,花木兰)陈述了刘亦菲是电影《花木兰》的演员的事实。在实际推荐场景中,项目V可能与G中的一个或多个实体存在映射关系。例如,图书《傲慢与偏见》与KG中的一个实体同名,而标题为“刘亦菲出席花木兰首映礼”的新闻则于“刘亦菲”和“花木兰”多个实体有关。使用A={(v,e)|v∈V,e∈E}来表示存在映射关系的集合,其中(v,e)表明项目v可以与知识图中的实体e对齐。
本邻域的技术人员应当知晓,所述嵌入向量的获取方法有很多,其目的在于将知识图中的实体和关系转换为低维的向量表示。在本发明的一些较优实施例中,可以采用Translate模型来进行嵌入向量的获得,包括TransE,TransH,TransR,TransD等方法。下面本申请给出一种基于TransR的嵌入向量获取方法:
考虑同一关系对应的实体往往具有不同层面的信息,因此将知识图中的实体和关系分别建模到关系和实体两个不同的空间中,利用可信度评分函数来评价其可信度:
Figure BDA0003148019440000041
其中eh,er,et分别是h,r,t的嵌入表示,Wr为关系r的转换矩阵。g(h,r,t)的值越低意味着三元组的可信度越高;反之,三元组的可信度越低。
所述无采样知识图卷积模块设置为包含若干线性聚合器的单层卷积网络,对所述初始嵌入向量进行无采样的预计算,获得所述三元组的深层次信息;将所述嵌入向量和深层次信息结合作为更新嵌入向量。
其中,本发明仅通过单个卷积层进行预计算,尽管只使用了浅层的网络,但是通过设计更有效的传播矩阵且考虑所有邻居信息,实现了和深层网络相当的性能。所述无采样的预计算具体是指:预先计算出卷积后的向量值,由于本发明的卷积层输入均为固定的值,且卷积层只有一个,因此不需要去训练更新参数,直接进行计算得到终值即可。所述三元组的深层次信息是指除了三元组本身的信息外,与其相关的其他信息,该部分信息通过常规方式并不容易直接提取。在一些较优的实施例中,所述深层次信息包括三元组的邻居信息。
在另一些较优的实施例中,考虑到实体之间连通性的重要性不同,给出了一种无采样知识图卷积模块的组成结构,包括:注意力组件、信息传播组件和邻域聚合组件;
所述注意力组件设置为通过关系注意力机制来确定所述单层卷积网络的注意力参数π(h,r,t)。所述注意力参数的计算方法有很多,本发明给出一种计算的实例:
使用非线性激活函数tanh计算注意力参数π(h,r,t):π(h,r,t)=(Wret)Ttanh(Wreh+et);
由此可知注意力分数由关系空间中eh和et的距离决定。
然后通过softmax激活函数,对整个三元组的系数归一化处理:
Figure BDA0003148019440000051
其中,Nh为以实体h为头实体的三元组集合;r′、t′为以实体h为头实体的三元组集合中的其他关系和尾实体。
在本申请中,,为了不破坏图聚合操作时高效的预计算,本发明的方案仅需要通过训练图的一个小子集来预先确定注意力参数,然后进行下一步。
所述信息传播组件设置为根据所述注意力参数π(h,r,t)计算出初始传播矩阵Bi,j=π(hi,r,tj),对所述初始传播矩阵Bi,j=π(hi,r,tj)进行幂运算Bn,获取实体n跳以内的邻域信息;其中,hi为头实体h的第i个邻居;tj为尾实体t的第j个邻居。
其中,由于知识图中的实体和邻居之间有着不同程度的关联性,为了有效扩展用户和项目的潜在偏好,本发明在传播过程中考虑节点的高阶邻居信息。在一些较优的实施例中,为了权衡实体邻接信息的完整度与计算邻接矩阵所需时间,设置跳数n最大值为3。
所述邻域聚合组件设置为通过在单个卷积层中使用大小不同的线性聚合器来实现无采样预计算,获得所述三元组的深层次信息。
所述线性聚合器是可计算相邻节点信息的多重集的连续函数。在本邻域的常见方案中,大多使用一种聚合方法,如mean,sum,max等,这样的方式无法区分邻域消息。或使用多种聚合方法结合,如使用平均值、最大值、最小值以及标准差等,但这样的方式同样不足以准确地描述邻域信息的情形。本发明提出使用大小不同的线性聚合器来实现无采样预计算,并给出一种具体的示例:
在线性聚合器AX中,设置不同幂级数的传播矩阵(A0=B0,A1=B,A2=B2,...,An=Bn),并将其连接。这个思想类似于卷积神经网络中的初始模块(在同一卷积层结合不同大小的卷积核)。由于AX可以预计算,该方法考虑传播过程中的所有邻居信息而不进行选择性采样。具体公式为:
Figure BDA0003148019440000061
其中,E为知识图特征集;X为初始节点特征矩阵;i为预设的幂级数。
所述协作传播模块设置为同时编码用户和项目交互中的协作信号作为用户和项目的初始偏好,与所述更新嵌入向量结合作为预测模块的输入向量;
与传统推荐算法中使用独立的潜在向量不同,本发明在协作传播模块中同时获取用户和项目的初始偏好,以便于同知识嵌入结合得到用户和项目的扩展偏好。直观来说,用户的历史交互项目能一定程度上表示该用户的偏好。通过将用户历史交互中的相关项目集与知识图中的实体对齐,转换为在知识图中计算的特征集。
在一些较优的实施例中,给出了一种所述协作传播模块编码用户和项目交互中的协作信号作为用户的初始偏好的较优方法:
将用户历史交互中的相关项目集与知识图中的实体对齐,并转换为在知识图中计算的特征集Eu:Eu={Ee|(v,e)∈A,v∈{v|yuv=1}};其中,A={(v,e)|v∈V,e∈E}表示存在映射关系的集合,(v,e)表明项目v可以与知识图中的实体e对齐;yuv为用户反馈参数,yuv=1表明用户与项目间存在反馈行为,否则yuv=0;
将用户特征集Eu进行归一化处理,得到:
Figure BDA0003148019440000062
在另一些较优的实施例中,给出了一种类似的编码用户和项目交互中的协作信号作为项目的初始偏好的较优方法:
获取与目标项目v交互的用户集合存在交互的其他项目,作为目标项目v的协作项目集Vv
Figure BDA0003148019440000063
其中,
Figure BDA0003148019440000064
为用户反馈参数,
Figure BDA0003148019440000065
表示用户u和项目vu间存在交互;其中,可以认为和同一个项目交互过的用户集合,其相似的行为偏好也能描述项目的潜在表示。
将协作项目集Vv与知识图中的实体对齐,得到目标项目v的特征集Ev,Ev={Ee|(vu,e)∈A,vu∈Vv};
将项目的初始集归一化,并加上项目自身对齐实体的特征,得到:
Figure BDA0003148019440000071
所述预测模块设置为根据所述输入向量获得推荐结果。本邻域技术人员应当知晓,在推荐***邻域,最后对输入进行预测并得出推荐结果的推荐算法有很多,由于其不是本发明想保护的重点,在此不再赘述。为了整个发明方案的完整性,本发明给出了额一种利用预测函数得出推荐结果,并使用损失函数评价预测精度的示例,具体如下:
定义输出用户u与项目v的交互概率为
Figure BDA0003148019440000072
则预测函数为:
Figure BDA0003148019440000073
其中,Θ为可学习的模型参数;进一步的,输出的预测评分记作
Figure BDA0003148019440000074
真实预测评分记作yuv。将yuv
Figure BDA0003148019440000075
的交叉熵损失函数记作
Figure BDA0003148019440000076
公式如下:
Figure BDA0003148019440000077
其中,交叉熵损失函数J能够体现预测分数与真实分数之间的距离,能够更加准确的评估模型的性能。
实施例
本发明提供了一种基于无采样协作知识图网络的推荐***,如图2所示,本实施例还给出了一种将本发明的技术方案与现有技术对比,针对音乐、书籍和电影三个真实数据集来评估模型性能。为了方便简述,将本发明提出的一种名为无采样协作知识图网络(Non-Sampling Collaborative Knowledge Graph Network)简称为NCKN。
在本实施例中,使用以下三种真实数据集评估模型性能:Last.FM(Music)、Book-Crossing(Book)、MovieLens-20M(Movie),如表1所述,给出了相关统计信息。三个数据集均允许公开访问,且规模和稀疏性有所不同。
(1)Last.FM:由Last.FM在线音乐***提供的用户听歌行为和项目知识。
(2)Book-Crossing:从图书社区统计的读者评分数据(0到10不等)。
(3)MovieLens-20M:是一个被广泛使用在电影推荐邻域的测试数据集,文件中包含了在电影网站上的反馈信息,即用户对每部电影的明确评分(从1到5不等)。
表1实验数据集统计信息
Figure BDA0003148019440000078
Figure BDA0003148019440000081
鉴于隐式反馈能提供更丰富的交互内容,有利于缓解冷启动问题,我们首先在数据预处理部分将显式反馈转换为隐式反馈。其中1表示用户正面评分的样本,而0为从未交互集合中随机采样的负样本。Last.FM和Book-Crossing的交互数据稀疏,故未设阈值,MovieLens-20M正面评分阈值设置为4。
除了对用户和项目的交互数据进行预处理,本实施例在MicrosoftSatori中生成每个数据集的项目知识图谱。具体来说,首先从整个KG中提取置信度高于0.9的三元组作为子KGs。对于确定的子KGs,通过匹配头节点和尾节点的名字来收集全部有效的实体id。最后,将项目id映射到KG中的实体中,并在子KGs中匹配对应的三元组集。请注意,为了简化整个过程,我们将排除不存在匹配或存在多个匹配的项目。
本实施例采用的对比算法包括:
BPRMF:一种采用矩阵分解进行优化的经典CF方法。
CKE:将CF和多种知识图融合进行训练,分别提取了项目知识图谱中的结构信息、文本信息和视觉信息的特征嵌入。本实施例仅将结构知识同CF的结合。
PER:利用项目知识图谱中的关系异构性,引入元路径来表示不同关系路径中用户和项目的连通性,并基于路径相似度来推荐项目。本实施例将元路径定义为项目-属性-项目属性。
RippleNet:最近提出的基于偏好传播的模型。通过将用户历史交互项作为KG传播中的初始集,在KG中进行扩散并聚合多层邻居信息,得到更深入的用户潜在偏好表示。
KGCN:最先进的将KG与图卷积神经网络融合的模型,利用图卷积从知识图的邻居中获得丰富的项目嵌入,导致推荐任务的巨大提升。
KGAT:也是最先进的融合图卷积网络的模型。它将项目知识图和用户交互数据结合组成协同知识图,并在该图结构上递归传播邻居来更新目标节点的嵌入。另外在传播期间使用注意力机制来区分邻居节点的重要性。
本实施例的实验设置如下:
对每个数据集,按照7:2:1的比例随机划分为训练集、测试集和验证集。本实施例在以下两个推荐场景中进行评估:(1)点击率预测(Click-Tthrough Rate,CTR),在训练完成的推荐模型中预测特定用户和项目间的交互概率。(2)top-k推荐,使用从训练集学习到的推荐模型来选择测试集中指定用户预测概率最高的k项物品。为了验证这些方法的有效性,本实施例应用了以下评估指标:
Precision:模型推荐项目的准确率。其中R(u)为根据训练集对用户推荐的项目列表,T(u)为根据测试集对用户推荐的项目列表。
Figure BDA0003148019440000091
Recall:候选推荐列表的命中率。
Figure BDA0003148019440000092
F1:Precision与Recall的加权结合,F1的值更能体现模型的性能。
Figure BDA0003148019440000093
AUC:用于评估推荐***将用户喜欢和不喜欢的商品区分的性能。a为用户喜欢的商品,b为用户不喜欢的商品,每次比较推荐***对a和b的打分,n为比较的总次数,n′为a的评分大于b的评分的次数,n″为a的评分等于b的评分的次数,AUC计算方式如下。
Figure BDA0003148019440000094
本实施例在pytorch1.3.0的环境中编程,并对所有对比算法的参数进行了调整。学习速率在[10-3,5×10-3,10-2,5×10-2]中进行调整,并在[8,16,32,64,128,256]中调整嵌入的维度大小。
实验结果对比:
本实施例给出了所有方法在三个数据集中的性能,在CTR和top-k中的预测结果分别如下表2和附图3-图5所示。现对实验结果有如下分析:
表2基于AUC和F1指标的CTR预测结果
Figure BDA0003148019440000101
基于KG的推荐方法远远优于基于CF的方法,这说明引入KG中的额外信息对推荐方法有很大的提升。但是,在个别指标上BPRMF的性能超过了CKE,这表明仅建模KG中的一阶关系可能无法充分发挥KG的作用。这同时也验证了,NCKN聚合来自多层高阶邻居信息的有效性。
KGAT在Recall@k中取得了显著的结果,尤其在音乐和图书数据集中性能表现最佳,但值得注意的是,在20M的电影数据集中,本实施例的模型NCKN性能超越了KGAT。我们的推断是当数据集规模较小且稀疏性大时,KGAT能做出更准确的预测。但是对于大规模且信息更稠密的电影数据集,KGAT在用户交互图中的高阶传播会引入过多的噪声,而NCKN使用一阶协作信号和KG相结合取得了更佳的效果。
通过观察发现所有的方法在三个数据集上的性能排名分别是电影、音乐、书籍。这可能是三个数据集上的用户平均交互数量和KG中实体的平均链接数量不同导致的。例如,相比于音乐数据集和图书数据集,电影数据集具有更多的交互行为和关系链接数量,其丰富的信息可供推荐模型更准确的学习潜在的特征表示。
与所有的方法相比,我们的无采样协作知识图模型在所有三个数据集上都取得了竞争优势。具体来说,在CTR预测中比其他方法平均增长了1.2%、2.3%、1.5%。请注意,NCKN在音乐数据集上表现不足但仅次于KGAT,因为音乐数据集中KG平均链接数量太低,NCKN中的无采样策略无法发挥其最佳效果。在top-k中,NCKN性能是优秀的,特别是在电影数据集中表现最佳,和RippleNet相比,证明了NCKN无采样和协作传播的积极意义。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (5)

1.一种基于无采样协作知识图网络的推荐***,其特征在于:包括依次连接的嵌入模块、无采样知识图卷积模块、协作传播模块和预测模块;
所述嵌入模块设置为获取知识图谱中三元组的初始嵌入向量;
所述无采样知识图卷积模块设置为包含若干线性聚合器的单层卷积网络,对所述初始嵌入向量进行无采样的预计算,获得所述三元组的深层次信息;将所述嵌入向量和深层次信息结合作为更新嵌入向量;
所述协作传播模块设置为同时编码用户和项目交互中的协作信号作为用户和项目的初始偏好,与所述更新嵌入向量结合作为预测模块的输入向量;
所述预测模块设置为根据所述输入向量获得推荐结果。
2.如权利要求1所述的基于无采样协作知识图网络的推荐***,其特征在于,所述嵌入模块在获取到所述初始嵌入向量后,还包括步骤:
将所述知识图谱中的三元组分别建模到实体和关系两个空间,并根据下述公式评价其可信度:
Figure FDA0003148019430000011
其中,h和t为实体,r为实体h和t间存在的关系,eh,er,et分别是h,r,t的嵌入表示,Wr为关系r的转换矩阵;
g(h,r,t)的值越低意味着三元组(h,r,t)的可信度越高;反之,三元组(h,r,t)的可信度越低。
3.如权利要求2所述的基于无采样协作知识图网络的推荐***,其特征在于,所述无采样知识图卷积模块还包括:注意力组件、信息传播组件和邻域聚合组件;
所述注意力组件设置为通过关系注意力机制来确定所述单层卷积网络的注意力参数π(h,r,t);
所述信息传播组件设置为根据所述注意力参数π(h,r,t)计算出初始传播矩阵Bi,j=π(hi,r,tj),对所述初始传播矩阵Bi,j=π(hi,r,tj)进行幂运算Bn,获取实体n跳以内的邻域信息;其中,hi为头实体h的第i个邻居;tj为尾实体t的第j个邻居;
所述邻域聚合组件设置为通过在单个卷积层中使用大小不同的线性聚合器来实现无采样预计算,获得所述三元组的深层次信息。
4.如权利要求1所述的基于无采样协作知识图网络的推荐***,其特征在于,所述协作传播模块编码用户和项目交互中的协作信号作为用户的初始偏好的方法包括:
将用户历史交互中的相关项目集与知识图中的实体对齐,并转换为在知识图中计算的特征集Eu:Eu={Ee|(v,e)∈A,v∈{v|yuv=1}};其中,A={(v,e)|v∈V,e∈E}表示存在映射关系的集合,(v,e)表明项目v可以与知识图中的实体e对齐;yuv为用户反馈参数,yuv=1表明用户与项目间存在反馈行为,否则yuu=0;
将用户特征集Eu进行归一化处理,得到:
Figure FDA0003148019430000021
5.如权利要求1或4所述的基于无采样协作知识图网络的推荐***,其特征在于,所述协作传播模块编码用户和项目交互中的协作信号作为项目的初始偏好的方法包括:
获取与目标项目u交互的用户集合存在交互的其他项目,作为目标项目u的协作项目集Vv
Figure FDA0003148019430000022
其中,
Figure FDA0003148019430000023
为用户反馈参数,
Figure FDA0003148019430000024
表示用户u和项目vu间存在交互;
将协作项目集Vv与知识图中的实体对齐,得到目标项目v的特征集Ev,Eu={Ee|(vu,e)∈A,vu∈Vv};
将项目的初始集归一化,并加上项目自身对齐实体的特征,得到:
Figure FDA0003148019430000025
CN202110758174.4A 2021-07-05 2021-07-05 一种基于无采样协作知识图网络的推荐*** Active CN113342994B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110758174.4A CN113342994B (zh) 2021-07-05 2021-07-05 一种基于无采样协作知识图网络的推荐***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110758174.4A CN113342994B (zh) 2021-07-05 2021-07-05 一种基于无采样协作知识图网络的推荐***

Publications (2)

Publication Number Publication Date
CN113342994A true CN113342994A (zh) 2021-09-03
CN113342994B CN113342994B (zh) 2022-07-05

Family

ID=77482524

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110758174.4A Active CN113342994B (zh) 2021-07-05 2021-07-05 一种基于无采样协作知识图网络的推荐***

Country Status (1)

Country Link
CN (1) CN113342994B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114240539A (zh) * 2021-11-26 2022-03-25 电子科技大学 一种基于Tucker分解和知识图谱的商品推荐方法
CN115618108A (zh) * 2022-10-24 2023-01-17 云南中烟工业有限责任公司 新零售模式下基于知识图谱的卷烟品牌推荐方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563379A (zh) * 2017-09-02 2018-01-09 西安电子科技大学 用于对自然场景图像中文本的定位方法
US20200218948A1 (en) * 2019-01-03 2020-07-09 Beijing Jingdong Shangke Information Technology Co., Ltd. Thundernet: a turbo unified network for real-time semantic segmentation
US20200250734A1 (en) * 2019-02-01 2020-08-06 Target Brands, Inc. Item recommendations using convolutions on weighted graphs
CN112396166A (zh) * 2020-12-07 2021-02-23 中山大学 基于混合粒度聚合器的图卷积神经网络训练方法及装置
CN112488791A (zh) * 2020-11-30 2021-03-12 中国传媒大学 一种基于知识图谱卷积算法的个性化推荐方法
CN112800334A (zh) * 2021-02-04 2021-05-14 河海大学 一种基于知识图谱和深度学习的协同过滤推荐方法及设备
CN112989064A (zh) * 2021-03-16 2021-06-18 重庆理工大学 一种聚合知识图神经网络和自适应注意力的推荐方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563379A (zh) * 2017-09-02 2018-01-09 西安电子科技大学 用于对自然场景图像中文本的定位方法
US20200218948A1 (en) * 2019-01-03 2020-07-09 Beijing Jingdong Shangke Information Technology Co., Ltd. Thundernet: a turbo unified network for real-time semantic segmentation
US20200250734A1 (en) * 2019-02-01 2020-08-06 Target Brands, Inc. Item recommendations using convolutions on weighted graphs
CN112488791A (zh) * 2020-11-30 2021-03-12 中国传媒大学 一种基于知识图谱卷积算法的个性化推荐方法
CN112396166A (zh) * 2020-12-07 2021-02-23 中山大学 基于混合粒度聚合器的图卷积神经网络训练方法及装置
CN112800334A (zh) * 2021-02-04 2021-05-14 河海大学 一种基于知识图谱和深度学习的协同过滤推荐方法及设备
CN112989064A (zh) * 2021-03-16 2021-06-18 重庆理工大学 一种聚合知识图神经网络和自适应注意力的推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHONG CHEN 等: "Jointly Non-Sampling Learning for Knowledge Graph Enhanced Recommendation", 《SIGIR "20: PROCEEDINGS OF THE 43RD INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION 》 *
林裕鹏: "基于深度神经网络的单幅图像去雨研究", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114240539A (zh) * 2021-11-26 2022-03-25 电子科技大学 一种基于Tucker分解和知识图谱的商品推荐方法
CN114240539B (zh) * 2021-11-26 2022-08-02 电子科技大学 一种基于Tucker分解和知识图谱的商品推荐方法
CN115618108A (zh) * 2022-10-24 2023-01-17 云南中烟工业有限责任公司 新零售模式下基于知识图谱的卷烟品牌推荐方法
CN115618108B (zh) * 2022-10-24 2023-05-26 云南中烟工业有限责任公司 新零售模式下基于知识图谱的品牌推荐方法

Also Published As

Publication number Publication date
CN113342994B (zh) 2022-07-05

Similar Documents

Publication Publication Date Title
Wang et al. Diversified service recommendation with high accuracy and efficiency
Lin et al. Multiobjective personalized recommendation algorithm using extreme point guided evolutionary computation
CN113918832B (zh) 基于社交关系的图卷积协同过滤推荐***
CN112417313A (zh) 一种基于知识图卷积网络的模型混合推荐方法
CN113918833B (zh) 通过社交网络关系的图卷积协同过滤实现的产品推荐方法
Chai et al. Recommendation system based on singular value decomposition and multi-objective immune optimization
CN113342994B (zh) 一种基于无采样协作知识图网络的推荐***
Agarwal et al. Trust-enhanced recommendation of friends in web based social networks using genetic algorithms to learn user preferences
CN113918834B (zh) 融合社交关系的图卷积协同过滤推荐方法
CN114519147A (zh) 一种基于gcn增强影响扩散的社交推荐方法
CN113918764A (zh) 一种基于交叉模态融合的电影推荐***
Liu et al. Siga: social influence modeling integrating graph autoencoder for rating prediction
Jalal Big data and intelligent software systems
Deng et al. A multiuser identification algorithm based on internet of things
Meng et al. Community discovery in social networks via heterogeneous link association and fusion
CN115391555A (zh) 一种用户感知的知识图谱推荐***及方法
Chen et al. A hierarchical knowledge and interest propagation network for recommender systems
Bai et al. Meta-graph embedding in heterogeneous information network for top-n recommendation
Li et al. A collaborative filtering recommendation method based on TagIEA expert degree model
Nie Research on Personalized Recommendation Algorithm of Internet Platform Goods Based on Knowledge Graph
Joshi et al. A Personalized Video Recommendation Model Based on Multi-Graph Neural Network and Attention Mechanism
CN113239265B (zh) 基于连接矩阵的个性化推荐方法及***
CN114491055B (zh) 基于知识图谱的推荐方法
Wang et al. [Retracted] Research on the Spectral Domain Graph Convolution Collaborative Filtering Algorithm Based on Reinforcement Learning and Chebyshev
Wan et al. A Recommendation Approach Based on Heterogeneous Network and Dynamic Knowledge Graph

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant