CN112559764A - 一种基于领域知识图谱的内容推荐方法 - Google Patents
一种基于领域知识图谱的内容推荐方法 Download PDFInfo
- Publication number
- CN112559764A CN112559764A CN202011435336.2A CN202011435336A CN112559764A CN 112559764 A CN112559764 A CN 112559764A CN 202011435336 A CN202011435336 A CN 202011435336A CN 112559764 A CN112559764 A CN 112559764A
- Authority
- CN
- China
- Prior art keywords
- content
- user
- entity
- vector
- interest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 239000013598 vector Substances 0.000 claims abstract description 130
- 239000013604 expression vector Substances 0.000 claims abstract description 32
- 238000012163 sequencing technique Methods 0.000 claims abstract description 6
- 238000005070 sampling Methods 0.000 claims description 44
- 238000004364 calculation method Methods 0.000 claims description 28
- 238000013528 artificial neural network Methods 0.000 claims description 27
- 238000013507 mapping Methods 0.000 claims description 20
- 238000005295 random walk Methods 0.000 claims description 17
- 230000006870 function Effects 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 11
- 230000002776 aggregation Effects 0.000 claims description 10
- 238000004220 aggregation Methods 0.000 claims description 10
- 239000000126 substance Substances 0.000 claims description 9
- 230000007704 transition Effects 0.000 claims description 9
- 238000005065 mining Methods 0.000 claims description 8
- 238000010845 search algorithm Methods 0.000 claims description 6
- 239000007787 solid Substances 0.000 claims description 5
- 101100112111 Caenorhabditis elegans cand-1 gene Proteins 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 claims description 3
- 230000006399 behavior Effects 0.000 abstract description 14
- 238000010586 diagram Methods 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Animal Behavior & Ethology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于领域知识图谱的内容推荐方法,包括:将用户历史点击内容输入基于实体表示的候选内容生成模型,生成用户可能感兴趣的第一候选内容;基于知识图谱兴趣采样的内容表示学习模型,生成内容表示向量;再根据内容表示向量,得到用户对内容的点击概率分布,生成用户可能感兴趣的第二候选内容;将第一候选内容和第二候选内容中的各个内容进行排序,得到内容推荐列表。优点为:本发明实现的基于知识图谱的内容推荐方法,能够通过知识图谱建立内容之间的关系,使得向用户推荐的内容与用户历史点击内容具有关联关系,推荐结果更具有解释性。本发明能够解决内容冷启动问题,同时,在缺乏用户历史行为数据的情况下,提高了推荐性能。
Description
技术领域
本发明属于信息处理技术领域,具体涉及一种基于领域知识图谱的内容推荐方法。
背景技术
近年来,随着互联网和大数据技术的快速发展,人们面临着在海量信息中快速找到有效信息的挑战,推荐***可以通过分析人们的历史行为,帮助人们有效过滤信息,并为用户推荐其感兴趣的信息。
现有推荐方法一般分为两种:1、使用协同过滤的方式建立用户与用户之间的相似度关系,或内容与内容之间的相似度关系,然后,为用户推荐与其历史观看相似的内容。2、对内容和用户历史行为进行编码,然后,使用深度学习方法对用户历史行为和内容进行建模,使用模型计算用户对内容的点击概率,进而为用户推荐点击概率最高的内容。
上述两种方法存在以下问题:一方面,需要大量用户历史行为数据,在缺乏用户历史行为数据的情况下,存在冷启动的问题。另一方面,上述方法仅使用用户历史行为数据,或数据标签信息,缺乏内容相关的多源特征,对用户潜在兴趣挖掘的能力较差,推荐内容具有较大局限性。此外,上述两种方法使用的特征均具有稀疏性,导致推荐效果不佳,且计算资源消耗大。
发明内容
针对现有技术存在的缺陷,本发明提供一种基于领域知识图谱的内容推荐方法,可有效解决上述问题。
本发明采用的技术方案如下:
本发明提供一种基于领域知识图谱的内容推荐方法,包括以下步骤:
步骤1,构建知识图谱G(V,E);其中,V为知识图谱中所有实体的集合;知识图谱中每个实体用v表示;E为知识图谱中所有实体与实体之间关系的集合;
步骤2,使用图表示学习模型GraphSAGE,对知识图谱G(V,E)中的实体进行学习,每个实体v均学习得到对应的一个低维稠密的实体表示向量hv,其中,hv∈H,H为所有实体表示向量集合;实体表示向量hv包含了实体v的邻域信息,知识图谱中存在路径的两个实体的实体表示向量相似度更大;
步骤3,建立内容库C;内容库C包括NC个内容c;
步骤4,对于内容库C中的每个内容ci,通过实体链接方法,建立内容ci与知识图谱G(V,E)中实体之间的关系,得到内容-实体映射表;其中,内容ci映射到知识图谱G(V,E)中多个实体,多个实体形成实体集合;
步骤5,将用户历史点击内容输入基于实体表示的候选内容生成模型,生成用户可能感兴趣的第一候选内容;
步骤5.1,内容库C中的每个内容ci,映射到对应的一个实体集合;实体集合包括L个实体;实体集合中的每个实体对应一个实体表示向量,因此,共得到L个内容ci相关的实体表示向量,分别为:形成实体表示向量集合
步骤5.2,预设置实体表示向量集合包括的实体表示向量的最大数量L0,即:实体表示向量集合长度的最大数量;
对于内容库C中的每个内容ci,判断步骤5.1得到的实体表示向量集合长度是否达到最大数量L0,如果没有达到,则在末位补0,从而使每个内容ci对应的实体表示向量集合的长度相等,均为L0;
步骤5.3,对于内容库C中的每个内容ci,生成对应的内容特征向量ri,方法为:
步骤5.4,内容相似性分析:
步骤5.5,根据用户历史点击内容产生候选内容:
用户u的历史点击内容序列具有时序性,表示为其中,表示用户u点击的第i个内容,K为用户u最大历史点击内容数量;将每个内容对应的最相似的N个相似内容,作为用户u可能感兴趣的第一候选内容cand1(u),即
步骤6,基于知识图谱兴趣采样的内容表示学习模型,生成内容表示向量;再根据内容表示向量,得到用户对内容的点击概率分布;
步骤6.1,构造训练样本:
用户u的历史点击内容序列令k依次等于1,2,...,K-1;对于每个k值,均按序截取用户u的历史点击内容序列的前k个内容作为一个样本,然后在该样本中进行(K-k)次重复采样,形成长度为K的训练样本,该样本对应的标签为多分类标签,该多分类标签由两部分组成:
步骤6.2,构造基于知识图谱兴趣采样的内容表示学习模型;所述基于知识图谱兴趣采样的内容表示学习模型,包括实体卷积网络层、全连接神经网络层和softmax层;
使用正态分布对基于知识图谱兴趣采样的内容表示学习模型的模型参数进行初始化;模型参数包括实体卷积层参数、全连接层参数以及softmax层参数;其中,softmax层参数的意义为融合了用户兴趣的内容表示向量,NC为内容库中的内容总数,C0为内容表示向量的维度;
向基于知识图谱兴趣采样的内容表示学习模型输入用户内容偏好特征、用户直接兴趣偏好特征和用户间接兴趣偏好特征,模型使用交叉熵作为模型训练的损失函数,模型输出用户对内容库中各个内容的用户点击概率分布;具体方法为:
1)获取用户内容偏好特征Rc:
2)获取用户直接兴趣偏好特征RE:
将ME作为实体卷积网络的输入,实体卷积网络分别使用d个形状为[1,D,K]的卷积核和d个形状为[2,D,K]的卷积核,对ME进行卷积计算,最后,将不同卷积核的计算结果进行拼接,得到用户直接兴趣偏好特征RE∈R1×2d;
3)获取用户间接兴趣偏好特征RE′:
3.1,基于知识图谱的用户兴趣采样,得到与直接兴趣实体v关联的N个间接兴趣实体:
将用户u的历史点击内容序列中的每个内容映射到的实体称为直接兴趣实体v,在知识图谱G(V,E)中,对直接兴趣实体v进行长度为L的N次随机游走采样,采样结果表示为vl∈V,n∈N为当前随机游走的次数;每个采样结果称为间接兴趣实体;因此,得到与直接兴趣实体v关联的N个间接兴趣实体,完成对用户潜在兴趣的挖掘和扩展;
其中,随机游走采样方法为:通过知识图谱G(V,E)中实体间关系,计算实体之间的转移概率,第1实体到第2实体的转移概率表示为p12=1/N1,其中,N1为第1实体的一阶邻域内的实体数量;
基于实体之间的转移概率,在知识图谱G(V,E)中进行随机游走;
3.2,通过聚合函数对N个间接兴趣实体进行聚合,得到直接兴趣实体v的间接兴趣偏好特征RE′:
聚合函数表示为其中,为第n次随机游走时,第l个被采样到的实体表示向量;聚合函数的目的是将直接兴趣实体v的N个间接兴趣实体进行聚合,将用户点击的内容转化为间接兴趣表示向量ME′∈RK×L×D,设计实体卷积网络,将ME′作为实体卷积网络的输入,实体卷积网络分别使用d个形状为[1,D,K]的卷积核和d个形状为[2,D,K]的卷积核对ME′进行卷积计算,然后,将不同卷积核的计算结果进行拼接,得到间接兴趣偏好特征RE′∈R1×2d;
4)将用户内容偏好特征Rc、用户直接兴趣偏好特征RE和用户间接兴趣偏好特征RE′按照(Rc,RE,RE′)的顺序进行拼接,然后,输入到全连接神经网络层中,全连接神经网络层的输出为表示用户整体偏好的用户表示向量U;将用户表示向量U输入到softmax层,通过softmax层计算多标签分类的概率分布,即计算用户对内容库中各个内容的点击概率分布,用户对内容库中每个内容ci的点击概率分布称为内容表示向量Ri;
步骤7,基于内容表示向量的候选内容生成模型,使用KD树的最近邻搜索算法,对每个内容表示向量Ri进行最近邻计算,得到与内容ci∈C最相似的Ni个内容;
将与内容ci∈C最相似的Ni个内容,作为用户可能感兴趣的第二候选内容;
步骤8,将步骤5得到的用户可能感兴趣的第一候选内容和步骤7得到的用户可能感兴趣的第二候选内容中的各个内容进行排序,得到内容推荐列表。
优选的,步骤8具体为:
基于内容实体的候选内容排序模型,对第一候选内容和第二候选内容中的各个内容进行排序。
优选的,步骤8具体为:
步骤8.1,确定候选内容集合:
将步骤5得到的用户可能感兴趣的第一候选内容和步骤7得到的用户可能感兴趣的第二候选内容进行并集操作,得到候选内容集合;
步骤8.2,生成候选内容向量:
候选内容集合中的每个候选内容ch,对应L0个实体表示向量h1,h2,...,将L0个实体表示向量h1,h2,...,拼接后,输入全连接神经网络中,得到候选内容ch对应的候选内容向量其中,W1和b1为全连接神经网络的参数;
步骤8.3,生成用户向量:
对用户u的历史点击内容序列中各个内容对应的点击内容向量zui进行加权计算,得到用户向量zu;
步骤8.5,对于用户u,取点击概率最高的N”个候选内容,作为推荐结果列表,并推荐给用户u。
本发明提供的一种基于领域知识图谱的内容推荐方法具有以下优点:
1、本发明实现的基于知识图谱的内容推荐方法,能够有效挖掘用户潜在兴趣,同时,利用知识图谱,对用户兴趣进行合理扩展,使推荐内容具有多样性。
2、本发明实现的基于知识图谱的内容推荐方法,能够通过知识图谱建立内容之间的关系,使得向用户推荐的内容与用户历史点击内容具有关联关系,推荐结果更具有解释性。
3、本发明实现的基于知识图谱的内容推荐方法,能够解决内容冷启动问题,同时,在缺乏用户历史行为数据的情况下,提高了推荐性能。
附图说明
图1是本发明实现的基于领域知识图谱的内容推荐方法流程图;
图2是图1所示基于实体表示的候选内容生成流程图;
图3是图1所示基于知识图谱兴趣采样的内容表示学习模型的流程图;
图4是图1所示基于知识图谱兴趣采样的内容表示学习模型示意图;
图5是图3所示实体卷积网络结构示意图;
图6是图1所示基于内容实体的候选内容排序模型结构示意图。
具体实施方式
为了使本发明所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提供了一种基于知识图谱的个性化内容推荐方法,使用实体链接的方法建立内容与知识图谱之间的关系,并使用知识图谱习得的实体表示构建内容特征,使内容特征不依赖于用户行为数据,解决了推荐***内容冷启动的问题。使用随机游走的方式,在知识图谱中对用户直接兴趣实体进行采样,得到用户间接兴趣实体。使用基于知识图谱兴趣采样的内容表示学习模型对用户直接兴趣和间接兴趣进行学习,从而提高推荐***对用户潜在兴趣挖掘的能力。使用KD树最近邻算法,对基于实体表示的候选内容生成模型和基于知识图谱兴趣采样的内容表示学习模型输出的内容表示,进行相似内容计算,可以基于用户历史点击内容快速得到用户感兴趣的候选内容。使用基于内容实体的候选内容排序模型对候选内容进行排序,从而得到最终的推荐结果。
本发明能够利用知识图谱中的先验知识挖掘用户的潜在兴趣,推荐更符合用户兴趣的内容,增强用户体验,解决了推荐***冷启动问题,并在一定程度上增加了推荐***的可解释性。
知识图谱将真实世界中纷繁复杂的信息,以拓扑图的方式组织起来,建立了信息之间的关联关系。知识图谱中的知识以(实体,关系,实体)或(实体,属性,属性值)的三元组方式存储。
针对现有推荐***存在冷启动问题,对用户潜在兴趣挖掘能力差,以及在缺乏用户历史行为数据的情况下,推荐性能较差的问题,本发明提出了一种基于领域知识图谱的内容推荐方法,该方法包括基于实体表示的候选内容生成模型,基于知识图谱兴趣采样的内容表示学习模型和基于内容实体的候选内容排序模型。
本发明提供一种基于领域知识图谱的内容推荐方法,包括以下步骤:
步骤1,构建知识图谱G(V,E);其中,V为知识图谱中所有实体的集合;知识图谱中每个实体用v表示;E为知识图谱中所有实体与实体之间关系的集合;
步骤2,使用图表示学习模型GraphSAGE,对知识图谱G(V,E)中的实体进行学习,每个实体v均学习得到对应的一个低维稠密的实体表示向量hv,其中,hv∈H,H为所有实体表示向量集合;实体表示向量hv包含了实体v的邻域信息,知识图谱中存在路径的两个实体的实体表示向量相似度更大;
步骤3,建立内容库C;内容库C包括NC个内容c;
步骤4,对于内容库C中的每个内容ci,通过实体链接方法,建立内容ci与知识图谱G(V,E)中实体之间的关系,得到内容-实体映射表;其中,内容ci映射到知识图谱G(V,E)中多个实体,多个实体形成实体集合;
内容-实体映射表具体通过以下方式实现:
1)建立分词词表。使用知识图谱中的全部实体的实体名和其对应的别名属性建立分词词表。
2)内容分词。对内容库中的内容进行分词,得到每个内容对应的分词词表。
3)实体链接。将内容对应的分词词表与实体名列表进行交集计算,得到内容-实体映射表。
步骤5,将用户历史点击内容输入基于实体表示的候选内容生成模型,生成用户可能感兴趣的第一候选内容;
步骤5.1,内容库C中的每个内容ci,映射到对应的一个实体集合;实体集合包括L个实体;实体集合中的每个实体对应一个实体表示向量,因此,共得到L个内容ci相关的实体表示向量,分别为:形成实体表示向量集合
步骤5.2,预设置实体表示向量集合包括的实体表示向量的最大数量L0,即:实体表示向量集合长度的最大数量;
对于内容库C中的每个内容ci,判断步骤5.1得到的实体表示向量集合长度是否达到最大数量L0,如果没有达到,则在末位补0,从而使每个内容ci对应的实体表示向量集合的长度相等,均为L0;
步骤5.3,对于内容库C中的每个内容ci,生成对应的内容特征向量ri,方法为:
当内容库有新增内容时,可以通过实体链接方法快速得到内容相关的实体集合,并根据实体集合得到实体表示向量集合;最后,根据实体表示向量集合构建内容特征向量,从而实现在不依赖于用户行为数据的情况下,建立内容之间的关联。同时,基于实体表示向量得到的低维稠密的内容特征向量相较稀疏特征向量,节省了后续模型的计算资源,增加模型性能。
步骤5.4,内容相似性分析:
步骤5.5,根据用户历史点击内容产生候选内容:
用户u的历史点击内容序列具有时序性,表示为其中,表示用户u点击的第i个内容,K为用户u最大历史点击内容数量;将每个内容对应的最相似的N个相似内容,作为用户u可能感兴趣的第一候选内容cand1(u),即
步骤6,基于知识图谱兴趣采样的内容表示学习模型,生成内容表示向量;再根据内容表示向量,得到用户对内容的点击概率分布;
基于知识图谱兴趣采样的内容表示学习模型。在本实施例中,如图3所示,基于知识图谱兴趣采样的内容表示学习模型的输入为用户内容偏好特征,用户直接兴趣偏好特征和用户间接兴趣偏好特征,其中,间接兴趣通过基于知识图谱的用户兴趣采样得到。模型由实体卷积网络层、全连接神经网络层和softmax层构成,其中实体卷积网络用于处理用户直接兴趣以及间接兴趣,softmax层参数为用户表示向量。通过上述网络结构进行内容特征向量学习,输出内容对应的内容表示向量。
步骤6.1,构造训练样本:
用户u的历史点击内容序列令k依次等于1,2,...,K-1;对于每个k值,均按序截取用户u的历史点击内容序列的前k个内容作为一个样本,然后在该样本中进行(K-k)次重复采样,形成长度为K的训练样本,该样本对应的标签为多分类标签,该多分类标签由两部分组成:
步骤6.2,构造基于知识图谱兴趣采样的内容表示学习模型;所述基于知识图谱兴趣采样的内容表示学习模型,包括实体卷积网络层、全连接神经网络层和softmax层;实体卷积网络层用于提取用户偏好特征,包括用户直接兴趣偏好特征和用户间接兴趣偏好特征,全连接神经网络层用于对两类用户偏好特征进行特征融合,softmax层用于根据融合后的用户偏好特征计算用户对内容的点击概率分布。
使用正态分布对基于知识图谱兴趣采样的内容表示学习模型的模型参数进行初始化;模型参数包括实体卷积层参数、全连接层参数以及softmax层参数;其中,softmax层参数的意义为融合了用户兴趣的内容表示向量,NC为内容库中的内容总数,C0为内容表示向量的维度;
向基于知识图谱兴趣采样的内容表示学习模型输入用户内容偏好特征、用户直接兴趣偏好特征和用户间接兴趣偏好特征,模型使用交叉熵作为模型训练的损失函数,模型输出用户对内容库中各个内容的用户点击概率分布;具体方法为:
1)获取用户内容偏好特征Rc:
2)获取用户直接兴趣偏好特征RE:
将ME作为实体卷积网络的输入,实体卷积网络分别使用d个形状为[1,D,K]的卷积核和d个形状为[2,D,K]的卷积核,对ME进行卷积计算,最后,将不同卷积核的计算结果进行拼接,得到用户直接兴趣偏好特征RE∈R1×2d;
在本实施例中,如图5所示实体卷积网络结构示意图,其中实体卷积网络的输入为ME∈R3×8×6,即用户点击了3个内容,每个内容包含8个实体,每个实体的表示向量的维度为6。分别使用3个形状为[1,6,3]和3个形状为[2,6,3]的卷积核,对ME进行卷积计算,每个卷积核计算得到1个卷积特征图。然后,对得到的卷积特征图进行最大池化,最后,将计算结果进行拼接,得到用户直接兴趣偏好特征RE∈R1×6。
3)获取用户间接兴趣偏好特征RE′:
3.1,基于知识图谱的用户兴趣采样,得到与直接兴趣实体v关联的N个间接兴趣实体:
将用户u的历史点击内容序列中的每个内容映射到的实体称为直接兴趣实体v,在知识图谱G(V,E)中,对直接兴趣实体v进行长度为L的N次随机游走采样,采样结果表示为vl∈V,n∈N为当前随机游走的次数;每个采样结果称为间接兴趣实体;因此,得到与直接兴趣实体v关联的N个间接兴趣实体,完成对用户潜在兴趣的挖掘和扩展;
其中,随机游走采样方法为:通过知识图谱G(V,E)中实体间关系,计算实体之间的转移概率,第1实体到第2实体的转移概率表示为p12=1/N1,其中,N1为第1实体的一阶邻域内的实体数量;
基于实体之间的转移概率,在知识图谱G(V,E)中进行随机游走;
3.2,通过聚合函数对N个间接兴趣实体进行聚合,得到直接兴趣实体v的间接兴趣偏好特征RE′:
聚合函数表示为其中,为第n次随机游走时,第l个被采样到的实体表示向量;聚合函数的目的是将直接兴趣实体v的N个间接兴趣实体进行聚合,将用户点击的内容转化为间接兴趣表示向量ME′∈RK×L×D,设计实体卷积网络,将ME′作为实体卷积网络的输入,实体卷积网络分别使用d个形状为[1,D,K]的卷积核和d个形状为[2,D,K]的卷积核对ME′进行卷积计算,然后,将不同卷积核的计算结果进行拼接,得到间接兴趣偏好特征RE′∈R1×2d;
4)将用户内容偏好特征Rc、用户直接兴趣偏好特征RE和用户间接兴趣偏好特征RE′按照(Rc,RE,RE′)的顺序进行拼接,然后,输入到全连接神经网络层中,全连接神经网络层的输出为表示用户整体偏好的用户表示向量U;将用户表示向量U输入到softmax层,通过softmax层计算多标签分类的概率分布,即计算用户对内容库中各个内容的点击概率分布,用户对内容库中每个内容ci的点击概率分布称为内容表示向量Ri;在模型训练过程中,将模型参数R迭代的作为步骤模型输入,可以增加模型收敛速度,提高模型性能。
在本实施例中,如图4所示,用户表示向量的计算过程可表示为U=ReLU(W2ReLU(W1(concat(Rc,RE)+b1))+b2),其中,W1,W2,b1,b2为模型参数。用户点击各内容的概率分布其中,u为用户表示,R为softmax层参数,即模型习得的内容表示向量。
步骤7,基于内容表示向量的候选内容生成模型,使用KD树的最近邻搜索算法,对每个内容表示向量Ri进行最近邻计算,得到与内容ci∈C最相似的Ni个内容;
将与内容ci∈C最相似的Ni个内容,作为用户可能感兴趣的第二候选内容;
步骤8,将步骤5得到的用户可能感兴趣的第一候选内容和步骤7得到的用户可能感兴趣的第二候选内容中的各个内容进行排序,得到内容推荐列表。
步骤8具体为:
基于内容实体的候选内容排序模型,对第一候选内容和第二候选内容中的各个内容进行排序。
步骤8.1,确定候选内容集合:
将步骤5得到的用户可能感兴趣的第一候选内容和步骤7得到的用户可能感兴趣的第二候选内容进行并集操作,得到候选内容集合;
步骤8.2,生成候选内容向量:
候选内容集合中的每个候选内容ch,对应L0个实体表示向量h1,h2,...,将L0个实体表示向量h1,h2,...,拼接后,输入全连接神经网络中,得到候选内容ch对应的候选内容向量其中,W1和b1为全连接神经网络的参数;
步骤8.3,生成用户向量:
对用户u的历史点击内容序列中各个内容对应的点击内容向量zui进行加权计算,得到用户向量zu;
步骤8.5,对于用户u,取点击概率最高的N”个候选内容,作为推荐结果列表,并推荐给用户u。
本发明提供的一种基于领域知识图谱的内容推荐方法,具有以下特点:
1、本发明使用实体链接的方法建立内容与知识图谱之间的关系,并使用知识图谱习得的实体表示向量构建内容特征向量,使内容特征向量不依赖于用户行为数据,解决了推荐***内容冷启动的问题。
2、本发明利用知识图谱的拓扑图结构,采用随机游走的方式对用户直接兴趣实体进行间接兴趣实体采样,并使用兴趣聚合函数进行特征聚合,得到实体的间接兴趣表示。
3、本发明使用实体卷积网络与全连接神经网络构成基于知识图谱兴趣采样的内容表示学习模型,将用户历史点击内容相关的内容、直接兴趣特征以及间接兴趣特征作为模型的输入,习得内容表示向量,从而完成潜在兴趣的挖掘。
4、本发明在基于知识图谱兴趣采样的内容表示学习模型训练过程中,迭代的将习得的内容表示向量,作为模型的输入,可以增加模型收敛速度,提高模型性能。
5、本发明使用KD树最近邻算法,计算得到与该内容相似的内容集合,并根据用户历史点击内容,将相似内容作为用户的候选内容。
6、本发明使用基于内容实体的候选内容排序模型对候选内容进行内容点击概率计算。
本发明提供的一种基于领域知识图谱的内容推荐方法,具有以下优点:
1、本发明实现的基于知识图谱的内容推荐方法,能够有效挖掘用户潜在兴趣,同时,利用知识图谱,对用户兴趣进行合理扩展,使推荐内容具有多样性。
2、本发明实现的基于知识图谱的内容推荐方法,能够通过知识图谱建立内容之间的关系,使得向用户推荐的内容与用户历史点击内容具有关联关系,推荐结果更具有解释性。
3、本发明实现的基于知识图谱的内容推荐方法,能够解决内容冷启动问题,同时,在缺乏用户历史行为数据的情况下,提高了推荐性能。
因此,本发明利用知识图谱将内容与知识图谱中的先验知识进行关联,可以对新增内容快速建立特征,解决了在缺乏用户行为数据情况下的内容冷启动问题。此外,通过知识图谱挖掘用户历史点击内容中包含的兴趣点,并在图谱上进行兴趣扩展,提高了对用户潜在兴趣挖掘的能力,同时一定程度上增加了推荐内容的多样性。此外,使用知识图谱习得的实体表示,得到内容对应的稠密特征,减少了计算资源的消耗,且提高了推荐结果指标和效率。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。
Claims (3)
1.一种基于领域知识图谱的内容推荐方法,其特征在于,包括以下步骤:
步骤1,构建知识图谱G(V,E);其中,V为知识图谱中所有实体的集合;知识图谱中每个实体用v表示;E为知识图谱中所有实体与实体之间关系的集合;
步骤2,使用图表示学习模型GraphSAGE,对知识图谱G(V,E)中的实体进行学习,每个实体v均学习得到对应的一个低维稠密的实体表示向量hv,其中,hv∈H,H为所有实体表示向量集合;实体表示向量hv包含了实体v的邻域信息,知识图谱中存在路径的两个实体的实体表示向量相似度更大;
步骤3,建立内容库C;内容库C包括NC个内容c;
步骤4,对于内容库C中的每个内容ci,通过实体链接方法,建立内容ci与知识图谱G(V,E)中实体之间的关系,得到内容-实体映射表;其中,内容ci映射到知识图谱G(V,E)中多个实体,多个实体形成实体集合;
步骤5,将用户历史点击内容输入基于实体表示的候选内容生成模型,生成用户可能感兴趣的第一候选内容;
步骤5.1,内容库C中的每个内容ci,映射到对应的一个实体集合;实体集合包括L个实体;实体集合中的每个实体对应一个实体表示向量,因此,共得到L个内容ci相关的实体表示向量,分别为:形成实体表示向量集合
步骤5.2,预设置实体表示向量集合包括的实体表示向量的最大数量L0,即:实体表示向量集合长度的最大数量;
对于内容库C中的每个内容ci,判断步骤5.1得到的实体表示向量集合长度是否达到最大数量L0,如果没有达到,则在末位补0,从而使每个内容ci对应的实体表示向量集合的长度相等,均为L0;
步骤5.3,对于内容库C中的每个内容ci,生成对应的内容特征向量ri,方法为:
步骤5.4,内容相似性分析:
步骤5.5,根据用户历史点击内容产生候选内容:
用户u的历史点击内容序列具有时序性,表示为其中,表示用户u点击的第i个内容,K为用户u最大历史点击内容数量;将每个内容对应的最相似的N个相似内容,作为用户u可能感兴趣的第一候选内容cand1(u),即
步骤6,基于知识图谱兴趣采样的内容表示学习模型,生成内容表示向量;再根据内容表示向量,得到用户对内容的点击概率分布;
步骤6.1,构造训练样本:
该样本对应的标签为多分类标签,该多分类标签由两部分组成:
步骤6.2,构造基于知识图谱兴趣采样的内容表示学习模型;所述基于知识图谱兴趣采样的内容表示学习模型,包括实体卷积网络层、全连接神经网络层和softmax层;
使用正态分布对基于知识图谱兴趣采样的内容表示学习模型的模型参数进行初始化;模型参数包括实体卷积层参数、全连接层参数以及softmax层参数;其中,softmax层参数的意义为融合了用户兴趣的内容表示向量,NC为内容库中的内容总数,C0为内容表示向量的维度;
向基于知识图谱兴趣采样的内容表示学习模型输入用户内容偏好特征、用户直接兴趣偏好特征和用户间接兴趣偏好特征,模型使用交叉熵作为模型训练的损失函数,模型输出用户对内容库中各个内容的用户点击概率分布;具体方法为:
1)获取用户内容偏好特征Rc:
2)获取用户直接兴趣偏好特征RE:
将ME作为实体卷积网络的输入,实体卷积网络分别使用d个形状为[1,D,K]的卷积核和d个形状为[2,D,K]的卷积核,对ME进行卷积计算,最后,将不同卷积核的计算结果进行拼接,得到用户直接兴趣偏好特征RE∈R1×2d;
3)获取用户间接兴趣偏好特征RE′:
3.1,基于知识图谱的用户兴趣采样,得到与直接兴趣实体v关联的N个间接兴趣实体:
将用户u的历史点击内容序列中的每个内容映射到的实体称为直接兴趣实体v,在知识图谱G(V,E)中,对直接兴趣实体v进行长度为L的N次随机游走采样,采样结果表示为 n∈N为当前随机游走的次数;每个采样结果称为间接兴趣实体;因此,得到与直接兴趣实体v关联的N个间接兴趣实体,完成对用户潜在兴趣的挖掘和扩展;
其中,随机游走采样方法为:通过知识图谱G(V,E)中实体间关系,计算实体之间的转移概率,第1实体到第2实体的转移概率表示为p12=1/N1,其中,N1为第1实体的一阶邻域内的实体数量;
基于实体之间的转移概率,在知识图谱G(V,E)中进行随机游走;
3.2,通过聚合函数对N个间接兴趣实体进行聚合,得到直接兴趣实体v的间接兴趣偏好特征RE′:
聚合函数表示为其中,为第n次随机游走时,第l个被采样到的实体表示向量;聚合函数的目的是将直接兴趣实体v的N个间接兴趣实体进行聚合,将用户点击的内容转化为间接兴趣表示向量ME′∈RK×L×D,设计实体卷积网络,将ME′作为实体卷积网络的输入,实体卷积网络分别使用d个形状为[1,D,K]的卷积核和d个形状为[2,D,K]的卷积核对ME′进行卷积计算,然后,将不同卷积核的计算结果进行拼接,得到间接兴趣偏好特征RE′∈R1×2d;
4)将用户内容偏好特征Rc、用户直接兴趣偏好特征RE和用户间接兴趣偏好特征RE′按照(Rc,RE,RE′)的顺序进行拼接,然后,输入到全连接神经网络层中,全连接神经网络层的输出为表示用户整体偏好的用户表示向量U;将用户表示向量U输入到softmax层,通过softmax层计算多标签分类的概率分布,即计算用户对内容库中各个内容的点击概率分布,用户对内容库中每个内容ci的点击概率分布称为内容表示向量Ri;
步骤7,基于内容表示向量的候选内容生成模型,使用KD树的最近邻搜索算法,对每个内容表示向量Ri进行最近邻计算,得到与内容ci∈C最相似的Ni个内容;
将与内容ci∈C最相似的Ni个内容,作为用户可能感兴趣的第二候选内容;
步骤8,将步骤5得到的用户可能感兴趣的第一候选内容和步骤7得到的用户可能感兴趣的第二候选内容中的各个内容进行排序,得到内容推荐列表。
2.根据权利要求1所述的基于领域知识图谱的内容推荐方法,其特征在于,步骤8具体为:
基于内容实体的候选内容排序模型,对第一候选内容和第二候选内容中的各个内容进行排序。
3.根据权利要求2所述的基于领域知识图谱的内容推荐方法,其特征在于,步骤8具体为:
步骤8.1,确定候选内容集合:
将步骤5得到的用户可能感兴趣的第一候选内容和步骤7得到的用户可能感兴趣的第二候选内容进行并集操作,得到候选内容集合;
步骤8.2,生成候选内容向量:
步骤8.3,生成用户向量:
对用户u的历史点击内容序列中各个内容对应的点击内容向量zui进行加权计算,得到用户向量zu;
步骤8.5,对于用户u,取点击概率最高的N″个候选内容,作为推荐结果列表,并推荐给用户u。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011435336.2A CN112559764B (zh) | 2020-12-10 | 2020-12-10 | 一种基于领域知识图谱的内容推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011435336.2A CN112559764B (zh) | 2020-12-10 | 2020-12-10 | 一种基于领域知识图谱的内容推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112559764A true CN112559764A (zh) | 2021-03-26 |
CN112559764B CN112559764B (zh) | 2023-12-01 |
Family
ID=75060613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011435336.2A Active CN112559764B (zh) | 2020-12-10 | 2020-12-10 | 一种基于领域知识图谱的内容推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112559764B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113094587A (zh) * | 2021-04-23 | 2021-07-09 | 东南大学 | 一种基于知识图谱路径的隐式推荐方法 |
CN113159891A (zh) * | 2021-04-24 | 2021-07-23 | 桂林电子科技大学 | 一种基于多种用户表示融合的商品推荐方法 |
CN113254789A (zh) * | 2021-06-30 | 2021-08-13 | 中国气象局公共气象服务中心(国家预警信息发布中心) | 一种推送气象服务内容的方法及装置 |
CN113590965A (zh) * | 2021-08-05 | 2021-11-02 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种融合知识图谱与情感分析的视频推荐方法 |
CN113704440A (zh) * | 2021-09-06 | 2021-11-26 | 中国计量大学 | 一种基于物品图网络中路径表征的会话推荐方法 |
CN114817737A (zh) * | 2022-05-13 | 2022-07-29 | 北京世纪超星信息技术发展有限责任公司 | 一种基于知识图谱的文物热点推送方法及*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109063188A (zh) * | 2018-08-28 | 2018-12-21 | 国信优易数据有限公司 | 一种实体推荐方法和装置 |
CN110188208A (zh) * | 2019-06-04 | 2019-08-30 | 河海大学 | 一种基于知识图谱的信息资源查询推荐方法和*** |
CN110717106A (zh) * | 2019-10-14 | 2020-01-21 | 支付宝(杭州)信息技术有限公司 | 信息推送的方法及装置 |
WO2020083020A1 (zh) * | 2018-10-23 | 2020-04-30 | 腾讯科技(深圳)有限公司 | 确定用户对物品的兴趣度的方法与装置、设备和存储介质 |
CN111680219A (zh) * | 2020-06-09 | 2020-09-18 | 腾讯科技(深圳)有限公司 | 内容推荐方法、装置、设备及可读存储介质 |
-
2020
- 2020-12-10 CN CN202011435336.2A patent/CN112559764B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109063188A (zh) * | 2018-08-28 | 2018-12-21 | 国信优易数据有限公司 | 一种实体推荐方法和装置 |
WO2020083020A1 (zh) * | 2018-10-23 | 2020-04-30 | 腾讯科技(深圳)有限公司 | 确定用户对物品的兴趣度的方法与装置、设备和存储介质 |
CN110188208A (zh) * | 2019-06-04 | 2019-08-30 | 河海大学 | 一种基于知识图谱的信息资源查询推荐方法和*** |
CN110717106A (zh) * | 2019-10-14 | 2020-01-21 | 支付宝(杭州)信息技术有限公司 | 信息推送的方法及装置 |
CN111680219A (zh) * | 2020-06-09 | 2020-09-18 | 腾讯科技(深圳)有限公司 | 内容推荐方法、装置、设备及可读存储介质 |
Non-Patent Citations (1)
Title |
---|
谭珺琳: "基于知识图谱技术的推荐算法研究及应用", 中国优秀硕士学位论文全文数据库 信息科技辑, no. 03 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113094587A (zh) * | 2021-04-23 | 2021-07-09 | 东南大学 | 一种基于知识图谱路径的隐式推荐方法 |
CN113094587B (zh) * | 2021-04-23 | 2024-04-16 | 东南大学 | 一种基于知识图谱路径的隐式推荐方法 |
CN113159891A (zh) * | 2021-04-24 | 2021-07-23 | 桂林电子科技大学 | 一种基于多种用户表示融合的商品推荐方法 |
CN113159891B (zh) * | 2021-04-24 | 2022-05-17 | 桂林电子科技大学 | 一种基于多种用户表示融合的商品推荐方法 |
CN113254789A (zh) * | 2021-06-30 | 2021-08-13 | 中国气象局公共气象服务中心(国家预警信息发布中心) | 一种推送气象服务内容的方法及装置 |
CN113254789B (zh) * | 2021-06-30 | 2021-09-17 | 中国气象局公共气象服务中心(国家预警信息发布中心) | 一种推送气象服务内容的方法及装置 |
CN113590965A (zh) * | 2021-08-05 | 2021-11-02 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种融合知识图谱与情感分析的视频推荐方法 |
CN113590965B (zh) * | 2021-08-05 | 2023-06-13 | 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) | 一种融合知识图谱与情感分析的视频推荐方法 |
CN113704440A (zh) * | 2021-09-06 | 2021-11-26 | 中国计量大学 | 一种基于物品图网络中路径表征的会话推荐方法 |
CN114817737A (zh) * | 2022-05-13 | 2022-07-29 | 北京世纪超星信息技术发展有限责任公司 | 一种基于知识图谱的文物热点推送方法及*** |
CN114817737B (zh) * | 2022-05-13 | 2024-01-02 | 北京世纪超星信息技术发展有限责任公司 | 一种基于知识图谱的文物热点推送方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN112559764B (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112559764B (zh) | 一种基于领域知识图谱的内容推荐方法 | |
CN111523047B (zh) | 基于图神经网络的多关系协同过滤算法 | |
CN111291212B (zh) | 基于图卷积神经网络的零样本草图图像检索方法和*** | |
CN112214685B (zh) | 一种基于知识图谱的个性化推荐方法 | |
CN111563164B (zh) | 一种基于图神经网络的特定目标情感分类方法 | |
CN111709518A (zh) | 一种基于社区感知和关系注意力的增强网络表示学习的方法 | |
CN111950594A (zh) | 基于子图采样的大规模属性图上的无监督图表示学习方法和装置 | |
CN111061856A (zh) | 一种基于知识感知的新闻推荐方法 | |
CN110837602A (zh) | 基于表示学习和多模态卷积神经网络的用户推荐方法 | |
CN111143705B (zh) | 一种基于图卷积网络的推荐方法 | |
CN112988917B (zh) | 一种基于多种实体上下文的实体对齐方法 | |
CN112115377A (zh) | 一种基于社交关系的图神经网络链路预测推荐方法 | |
CN112417289B (zh) | 一种基于深度聚类的资讯信息智能推荐方法 | |
CN110264372B (zh) | 一种基于节点表示的主题社团发现方法 | |
CN109740106A (zh) | 基于图卷积神经网络的大规模网络介数逼近方法、存储装置及存储介质 | |
CN114565053A (zh) | 基于特征融合的深层异质图嵌入模型 | |
CN107491782A (zh) | 利用语义空间信息的针对少量训练数据的图像分类方法 | |
CN111340187B (zh) | 基于对抗注意力机制的网络表征方法 | |
CN111368176B (zh) | 基于监督语义耦合一致的跨模态哈希检索方法及*** | |
CN114942998B (zh) | 融合多源数据的知识图谱邻域结构稀疏的实体对齐方法 | |
Wang et al. | Accelerated manifold embedding for multi-view semi-supervised classification | |
Sun et al. | Graph force learning | |
CN114202035B (zh) | 一种多特征融合的大规模网络社区检测算法 | |
CN115687760A (zh) | 一种基于图神经网络的用户学习兴趣标签预测方法 | |
CN112905906B (zh) | 一种融合局部协同与特征交叉的推荐方法及*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |