CN112559764A

CN112559764A - 一种基于领域知识图谱的内容推荐方法

Info

Publication number: CN112559764A
Application number: CN202011435336.2A
Authority: CN
Inventors: 郑晨烨; 孙剑; 乔胜勇
Original assignee: China Television Information Technology Beijing Co ltd
Current assignee: China Television Information Technology Beijing Co ltd
Priority date: 2020-12-10
Filing date: 2020-12-10
Publication date: 2021-03-26
Anticipated expiration: 2040-12-10
Also published as: CN112559764B

Abstract

本发明提供一种基于领域知识图谱的内容推荐方法，包括：将用户历史点击内容输入基于实体表示的候选内容生成模型，生成用户可能感兴趣的第一候选内容；基于知识图谱兴趣采样的内容表示学习模型，生成内容表示向量；再根据内容表示向量，得到用户对内容的点击概率分布，生成用户可能感兴趣的第二候选内容；将第一候选内容和第二候选内容中的各个内容进行排序，得到内容推荐列表。优点为：本发明实现的基于知识图谱的内容推荐方法，能够通过知识图谱建立内容之间的关系，使得向用户推荐的内容与用户历史点击内容具有关联关系，推荐结果更具有解释性。本发明能够解决内容冷启动问题，同时，在缺乏用户历史行为数据的情况下，提高了推荐性能。

Description

一种基于领域知识图谱的内容推荐方法

技术领域

本发明属于信息处理技术领域，具体涉及一种基于领域知识图谱的内容推荐方法。

背景技术

近年来，随着互联网和大数据技术的快速发展，人们面临着在海量信息中快速找到有效信息的挑战，推荐***可以通过分析人们的历史行为，帮助人们有效过滤信息，并为用户推荐其感兴趣的信息。

现有推荐方法一般分为两种：1、使用协同过滤的方式建立用户与用户之间的相似度关系，或内容与内容之间的相似度关系，然后，为用户推荐与其历史观看相似的内容。2、对内容和用户历史行为进行编码，然后，使用深度学习方法对用户历史行为和内容进行建模，使用模型计算用户对内容的点击概率，进而为用户推荐点击概率最高的内容。

上述两种方法存在以下问题：一方面，需要大量用户历史行为数据，在缺乏用户历史行为数据的情况下，存在冷启动的问题。另一方面，上述方法仅使用用户历史行为数据，或数据标签信息，缺乏内容相关的多源特征，对用户潜在兴趣挖掘的能力较差，推荐内容具有较大局限性。此外，上述两种方法使用的特征均具有稀疏性，导致推荐效果不佳，且计算资源消耗大。

发明内容

针对现有技术存在的缺陷，本发明提供一种基于领域知识图谱的内容推荐方法，可有效解决上述问题。

本发明采用的技术方案如下：

本发明提供一种基于领域知识图谱的内容推荐方法，包括以下步骤：

步骤1，构建知识图谱G(V，E)；其中，V为知识图谱中所有实体的集合；知识图谱中每个实体用v表示；E为知识图谱中所有实体与实体之间关系的集合；

步骤2，使用图表示学习模型GraphSAGE，对知识图谱G(V，E)中的实体进行学习，每个实体v均学习得到对应的一个低维稠密的实体表示向量h_v，其中，h_v∈H，H为所有实体表示向量集合；实体表示向量h_v包含了实体v的邻域信息，知识图谱中存在路径的两个实体的实体表示向量相似度更大；

步骤3，建立内容库C；内容库C包括N_C个内容c；

步骤4，对于内容库C中的每个内容c_i，通过实体链接方法，建立内容c_i与知识图谱G(V，E)中实体之间的关系，得到内容-实体映射表；其中，内容c_i映射到知识图谱G(V，E)中多个实体，多个实体形成实体集合；

步骤5，将用户历史点击内容输入基于实体表示的候选内容生成模型，生成用户可能感兴趣的第一候选内容；

步骤5.1，内容库C中的每个内容c_i，映射到对应的一个实体集合；实体集合包括L个实体；实体集合中的每个实体对应一个实体表示向量，因此，共得到L个内容c_i相关的实体表示向量，分别为：

形成实体表示向量集合

内容c_i和相关的实体表示向量集合

表示为：

其中，

步骤5.2，预设置实体表示向量集合包括的实体表示向量的最大数量L₀，即：实体表示向量集合长度的最大数量；

对于内容库C中的每个内容c_i，判断步骤5.1得到的实体表示向量集合长度是否达到最大数量L₀，如果没有达到，则在末位补0，从而使每个内容c_i对应的实体表示向量集合的长度相等，均为L₀；

步骤5.3，对于内容库C中的每个内容c_i，生成对应的内容特征向量r_i，方法为：

对内容c_i对应的实体表示向量集合中的各个实体表示向量，即：

进行平均加权，得到对应的内容特征向量r_i，其中，采用的公式为：

内容特征向量r_i保存了内容c_i相关的所有实体信息；

步骤5.4，内容相似性分析：

使用KD树的最近邻搜索算法，在内容库C中对内容特征向量r_i进行最近邻搜索，得到与内容c_i∈C最相似的N个相似内容

即：

步骤5.5，根据用户历史点击内容产生候选内容：

用户u的历史点击内容序列具有时序性，表示为

其中，

表示用户u点击的第i个内容，K为用户u最大历史点击内容数量；将每个内容

对应的最相似的N个相似内容，作为用户u可能感兴趣的第一候选内容cand1(u)，即

步骤6，基于知识图谱兴趣采样的内容表示学习模型，生成内容表示向量；再根据内容表示向量，得到用户对内容的点击概率分布；

步骤6.1，构造训练样本：

用户u的历史点击内容序列

令k依次等于1，2，...，K-1；对于每个k值，均按序截取用户u的历史点击内容序列的前k个内容作为一个样本，然后在该样本中进行(K-k)次重复采样，形成长度为K的训练样本，该样本对应的标签为多分类标签，该多分类标签由两部分组成：

(1)用户u的历史点击内容序列中第k+1个内容作为样本多分类标签中的一个标签，即，

(2)在内容库C中对用户未点击过的内容进行负采样，得到K_negtive个负采样内容，即：

作为负采样标签。

多分类标签表示为：

步骤6.2，构造基于知识图谱兴趣采样的内容表示学习模型；所述基于知识图谱兴趣采样的内容表示学习模型，包括实体卷积网络层、全连接神经网络层和softmax层；

使用正态分布对基于知识图谱兴趣采样的内容表示学习模型的模型参数进行初始化；模型参数包括实体卷积层参数、全连接层参数以及softmax层参数；其中，softmax层参数

的意义为融合了用户兴趣的内容表示向量，N_C为内容库中的内容总数，C₀为内容表示向量的维度；

向基于知识图谱兴趣采样的内容表示学习模型输入用户内容偏好特征、用户直接兴趣偏好特征和用户间接兴趣偏好特征，模型使用交叉熵作为模型训练的损失函数，模型输出用户对内容库中各个内容的用户点击概率分布；具体方法为：

1)获取用户内容偏好特征R_c：

将用户u的历史点击内容序列

转化为初始的内容表示向量序列

其中，内容表示向量w_i∈W_softmax；对K个内容表示向量进行加权平均计算，得到用户内容偏好特征R_c；

2)获取用户直接兴趣偏好特征R_E：

对于用户u的历史点击内容序列

中的每个内容

根据步骤4得到的内容-实体映射表，映射得到的实体集合称为用户直接兴趣实体集合M_E∈R^K×L×D；其中，D为内容

映射的每个实体的实体表示向量的维度；

将M_E作为实体卷积网络的输入，实体卷积网络分别使用d个形状为[1，D，K]的卷积核和d个形状为[2，D，K]的卷积核，对M_E进行卷积计算，最后，将不同卷积核的计算结果进行拼接，得到用户直接兴趣偏好特征R_E∈R^1×2d；

3)获取用户间接兴趣偏好特征R_E′：

3.1，基于知识图谱的用户兴趣采样，得到与直接兴趣实体v关联的N个间接兴趣实体：

将用户u的历史点击内容序列

中的每个内容

映射到的实体称为直接兴趣实体v，在知识图谱G(V，E)中，对直接兴趣实体v进行长度为L的N次随机游走采样，采样结果表示为

v_l∈V，n∈N为当前随机游走的次数；每个采样结果称为间接兴趣实体；因此，得到与直接兴趣实体v关联的N个间接兴趣实体，完成对用户潜在兴趣的挖掘和扩展；

其中，随机游走采样方法为：通过知识图谱G(V，E)中实体间关系，计算实体之间的转移概率，第1实体到第2实体的转移概率表示为p₁₂＝1/N₁，其中，N₁为第1实体的一阶邻域内的实体数量；

基于实体之间的转移概率，在知识图谱G(V，E)中进行随机游走；

3.2，通过聚合函数对N个间接兴趣实体进行聚合，得到直接兴趣实体v的间接兴趣偏好特征R_E′：

聚合函数表示为

其中，

为第n次随机游走时，第l个被采样到的实体表示向量；聚合函数的目的是将直接兴趣实体v的N个间接兴趣实体进行聚合，将用户点击的内容转化为间接兴趣表示向量M_E′∈R^K×L×D，设计实体卷积网络，将M_E′作为实体卷积网络的输入，实体卷积网络分别使用d个形状为[1，D，K]的卷积核和d个形状为[2，D，K]的卷积核对M_E′进行卷积计算，然后，将不同卷积核的计算结果进行拼接，得到间接兴趣偏好特征R_E′∈R^1×2d；

4)将用户内容偏好特征R_c、用户直接兴趣偏好特征R_E和用户间接兴趣偏好特征R_E′按照(R_c，R_E，R_E′)的顺序进行拼接，然后，输入到全连接神经网络层中，全连接神经网络层的输出为表示用户整体偏好的用户表示向量U；将用户表示向量U输入到softmax层，通过softmax层计算多标签分类的概率分布，即计算用户对内容库中各个内容的点击概率分布，用户对内容库中每个内容c_i的点击概率分布称为内容表示向量R_i；

步骤7，基于内容表示向量的候选内容生成模型，使用KD树的最近邻搜索算法，对每个内容表示向量R_i进行最近邻计算，得到与内容c_i∈C最相似的Ni个内容；

将与内容c_i∈C最相似的N_i个内容，作为用户可能感兴趣的第二候选内容；

步骤8，将步骤5得到的用户可能感兴趣的第一候选内容和步骤7得到的用户可能感兴趣的第二候选内容中的各个内容进行排序，得到内容推荐列表。

优选的，步骤8具体为：

基于内容实体的候选内容排序模型，对第一候选内容和第二候选内容中的各个内容进行排序。

优选的，步骤8具体为：

步骤8.1，确定候选内容集合：

将步骤5得到的用户可能感兴趣的第一候选内容和步骤7得到的用户可能感兴趣的第二候选内容进行并集操作，得到候选内容集合；

步骤8.2，生成候选内容向量：

候选内容集合中的每个候选内容c_h，对应L₀个实体表示向量h₁，h₂，...，

将L₀个实体表示向量h₁，h₂，...，

拼接后，输入全连接神经网络中，得到候选内容c_h对应的候选内容向量

其中，W₁和b₁为全连接神经网络的参数；

步骤8.3，生成用户向量：

对于用户u的历史点击内容序列

中的每个内容

对应L个实体表示向量

将L个实体表示向量

拼接后，输入全连接神经网络中，得到用户点击内容

对应的点击内容向量

其中，W₂和b₂为全连接神经网络的参数；

对用户u的历史点击内容序列中各个内容对应的点击内容向量z_ui进行加权计算，得到用户向量z_u；

步骤8.4，将候选内容c_h对应的候选内容向量z_h与用户向量z_u进行拼接，然后，输入全连接神经网络

中，得到用户u点击候选内容c_h的点击概率

步骤8.5，对于用户u，取点击概率最高的N”个候选内容，作为推荐结果列表，并推荐给用户u。

本发明提供的一种基于领域知识图谱的内容推荐方法具有以下优点：

1、本发明实现的基于知识图谱的内容推荐方法，能够有效挖掘用户潜在兴趣，同时，利用知识图谱，对用户兴趣进行合理扩展，使推荐内容具有多样性。

2、本发明实现的基于知识图谱的内容推荐方法，能够通过知识图谱建立内容之间的关系，使得向用户推荐的内容与用户历史点击内容具有关联关系，推荐结果更具有解释性。

3、本发明实现的基于知识图谱的内容推荐方法，能够解决内容冷启动问题，同时，在缺乏用户历史行为数据的情况下，提高了推荐性能。

附图说明

图1是本发明实现的基于领域知识图谱的内容推荐方法流程图；

图2是图1所示基于实体表示的候选内容生成流程图；

图3是图1所示基于知识图谱兴趣采样的内容表示学习模型的流程图；

图4是图1所示基于知识图谱兴趣采样的内容表示学习模型示意图；

图5是图3所示实体卷积网络结构示意图；

图6是图1所示基于内容实体的候选内容排序模型结构示意图。

具体实施方式

为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供了一种基于知识图谱的个性化内容推荐方法，使用实体链接的方法建立内容与知识图谱之间的关系，并使用知识图谱习得的实体表示构建内容特征，使内容特征不依赖于用户行为数据，解决了推荐***内容冷启动的问题。使用随机游走的方式，在知识图谱中对用户直接兴趣实体进行采样，得到用户间接兴趣实体。使用基于知识图谱兴趣采样的内容表示学习模型对用户直接兴趣和间接兴趣进行学习，从而提高推荐***对用户潜在兴趣挖掘的能力。使用KD树最近邻算法，对基于实体表示的候选内容生成模型和基于知识图谱兴趣采样的内容表示学习模型输出的内容表示，进行相似内容计算，可以基于用户历史点击内容快速得到用户感兴趣的候选内容。使用基于内容实体的候选内容排序模型对候选内容进行排序，从而得到最终的推荐结果。

本发明能够利用知识图谱中的先验知识挖掘用户的潜在兴趣，推荐更符合用户兴趣的内容，增强用户体验，解决了推荐***冷启动问题，并在一定程度上增加了推荐***的可解释性。

知识图谱将真实世界中纷繁复杂的信息，以拓扑图的方式组织起来，建立了信息之间的关联关系。知识图谱中的知识以(实体，关系，实体)或(实体，属性，属性值)的三元组方式存储。

针对现有推荐***存在冷启动问题，对用户潜在兴趣挖掘能力差，以及在缺乏用户历史行为数据的情况下，推荐性能较差的问题，本发明提出了一种基于领域知识图谱的内容推荐方法，该方法包括基于实体表示的候选内容生成模型，基于知识图谱兴趣采样的内容表示学习模型和基于内容实体的候选内容排序模型。

步骤3，建立内容库C；内容库C包括N_C个内容c；

内容-实体映射表具体通过以下方式实现：

1)建立分词词表。使用知识图谱中的全部实体的实体名和其对应的别名属性建立分词词表。

2)内容分词。对内容库中的内容进行分词，得到每个内容对应的分词词表。

3)实体链接。将内容对应的分词词表与实体名列表进行交集计算，得到内容-实体映射表。

形成实体表示向量集合

内容c_i和相关的实体表示向量集合

表示为：

其中，

内容特征向量r_i保存了内容c_i相关的所有实体信息；

当内容库有新增内容时，可以通过实体链接方法快速得到内容相关的实体集合，并根据实体集合得到实体表示向量集合；最后，根据实体表示向量集合构建内容特征向量，从而实现在不依赖于用户行为数据的情况下，建立内容之间的关联。同时，基于实体表示向量得到的低维稠密的内容特征向量相较稀疏特征向量，节省了后续模型的计算资源，增加模型性能。

步骤5.4，内容相似性分析：

即：

步骤5.5，根据用户历史点击内容产生候选内容：

用户u的历史点击内容序列具有时序性，表示为

其中，

基于知识图谱兴趣采样的内容表示学习模型。在本实施例中，如图3所示，基于知识图谱兴趣采样的内容表示学习模型的输入为用户内容偏好特征，用户直接兴趣偏好特征和用户间接兴趣偏好特征，其中，间接兴趣通过基于知识图谱的用户兴趣采样得到。模型由实体卷积网络层、全连接神经网络层和softmax层构成，其中实体卷积网络用于处理用户直接兴趣以及间接兴趣，softmax层参数为用户表示向量。通过上述网络结构进行内容特征向量学习，输出内容对应的内容表示向量。

步骤6.1，构造训练样本：

用户u的历史点击内容序列

作为负采样标签。

多分类标签表示为：

步骤6.2，构造基于知识图谱兴趣采样的内容表示学习模型；所述基于知识图谱兴趣采样的内容表示学习模型，包括实体卷积网络层、全连接神经网络层和softmax层；实体卷积网络层用于提取用户偏好特征，包括用户直接兴趣偏好特征和用户间接兴趣偏好特征，全连接神经网络层用于对两类用户偏好特征进行特征融合，softmax层用于根据融合后的用户偏好特征计算用户对内容的点击概率分布。

1)获取用户内容偏好特征R_c：

将用户u的历史点击内容序列

转化为初始的内容表示向量序列

2)获取用户直接兴趣偏好特征R_E：

对于用户u的历史点击内容序列

中的每个内容

映射的每个实体的实体表示向量的维度；

在本实施例中，如图5所示实体卷积网络结构示意图，其中实体卷积网络的输入为M_E∈R^3×8×6，即用户点击了3个内容，每个内容包含8个实体，每个实体的表示向量的维度为6。分别使用3个形状为[1，6，3]和3个形状为[2，6，3]的卷积核，对M_E进行卷积计算，每个卷积核计算得到1个卷积特征图。然后，对得到的卷积特征图进行最大池化，最后，将计算结果进行拼接，得到用户直接兴趣偏好特征R_E∈R^1×6。

3)获取用户间接兴趣偏好特征R_E′：

将用户u的历史点击内容序列

中的每个内容

聚合函数表示为

其中，

4)将用户内容偏好特征R_c、用户直接兴趣偏好特征R_E和用户间接兴趣偏好特征R_E′按照(R_c，R_E，R_E′)的顺序进行拼接，然后，输入到全连接神经网络层中，全连接神经网络层的输出为表示用户整体偏好的用户表示向量U；将用户表示向量U输入到softmax层，通过softmax层计算多标签分类的概率分布，即计算用户对内容库中各个内容的点击概率分布，用户对内容库中每个内容c_i的点击概率分布称为内容表示向量R_i；在模型训练过程中，将模型参数R迭代的作为步骤模型输入，可以增加模型收敛速度，提高模型性能。

在本实施例中，如图4所示，用户表示向量的计算过程可表示为U＝ReLU(W₂ReLU(W₁(concat(R_c，R_E)+b₁))+b₂)，其中，W₁，W₂，b₁，b₂为模型参数。用户点击各内容的概率分布

其中，u为用户表示，R为softmax层参数，即模型习得的内容表示向量。

将与内容c_i∈C最相似的Ni个内容，作为用户可能感兴趣的第二候选内容；

步骤8具体为：

步骤8.1，确定候选内容集合：

步骤8.2，生成候选内容向量：

将L₀个实体表示向量h₁，h₂，...，

其中，W₁和b₁为全连接神经网络的参数；

步骤8.3，生成用户向量：

对于用户u的历史点击内容序列

中的每个内容

对应L个实体表示向量

将L个实体表示向量

拼接后，输入全连接神经网络中，得到用户点击内容

对应的点击内容向量

其中，W₂和b₂为全连接神经网络的参数；

中，得到用户u点击候选内容c_h的点击概率

本发明提供的一种基于领域知识图谱的内容推荐方法，具有以下特点：

1、本发明使用实体链接的方法建立内容与知识图谱之间的关系，并使用知识图谱习得的实体表示向量构建内容特征向量，使内容特征向量不依赖于用户行为数据，解决了推荐***内容冷启动的问题。

2、本发明利用知识图谱的拓扑图结构，采用随机游走的方式对用户直接兴趣实体进行间接兴趣实体采样，并使用兴趣聚合函数进行特征聚合，得到实体的间接兴趣表示。

3、本发明使用实体卷积网络与全连接神经网络构成基于知识图谱兴趣采样的内容表示学习模型，将用户历史点击内容相关的内容、直接兴趣特征以及间接兴趣特征作为模型的输入，习得内容表示向量，从而完成潜在兴趣的挖掘。

4、本发明在基于知识图谱兴趣采样的内容表示学习模型训练过程中，迭代的将习得的内容表示向量，作为模型的输入，可以增加模型收敛速度，提高模型性能。

5、本发明使用KD树最近邻算法，计算得到与该内容相似的内容集合，并根据用户历史点击内容，将相似内容作为用户的候选内容。

6、本发明使用基于内容实体的候选内容排序模型对候选内容进行内容点击概率计算。

本发明提供的一种基于领域知识图谱的内容推荐方法，具有以下优点：

因此，本发明利用知识图谱将内容与知识图谱中的先验知识进行关联，可以对新增内容快速建立特征，解决了在缺乏用户行为数据情况下的内容冷启动问题。此外，通过知识图谱挖掘用户历史点击内容中包含的兴趣点，并在图谱上进行兴趣扩展，提高了对用户潜在兴趣挖掘的能力，同时一定程度上增加了推荐内容的多样性。此外，使用知识图谱习得的实体表示，得到内容对应的稠密特征，减少了计算资源的消耗，且提高了推荐结果指标和效率。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。