CN112732936A - 一种基于知识图谱和用户微观行为的广电节目推荐方法 - Google Patents

一种基于知识图谱和用户微观行为的广电节目推荐方法 Download PDF

Info

Publication number
CN112732936A
CN112732936A CN202110033041.0A CN202110033041A CN112732936A CN 112732936 A CN112732936 A CN 112732936A CN 202110033041 A CN202110033041 A CN 202110033041A CN 112732936 A CN112732936 A CN 112732936A
Authority
CN
China
Prior art keywords
user
behavior
program
behaviors
microscopic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110033041.0A
Other languages
English (en)
Other versions
CN112732936B (zh
Inventor
詹会兰
向超
雷航
杨茂林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110033041.0A priority Critical patent/CN112732936B/zh
Publication of CN112732936A publication Critical patent/CN112732936A/zh
Application granted granted Critical
Publication of CN112732936B publication Critical patent/CN112732936B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明提出了一种基于知识图谱和用户微观行为的广电节目推荐方法,将item2vec与随机游走结合,将属性子图的随机游走序列与用户行为序列一起训练,得出融合了节目内容属性和用户交互会话两个层面的相似性的嵌入向量。然后,在获得节目嵌入和分类型的融合微观行为嵌入的情况下,根据用户与节目的历史交互记录,把行为嵌入和对应的节目嵌入拼接,再通过语义空间网络映射,得到了具有相同维度的行为‑节目的语义表示,形成用户历史行为的嵌入序列;最后基于Transformer编码‑解码机制将用户的历史行为序列进行自注意力编码映射得到隐含动态偏好的用户语义特征,并利用目标节目注意力解码用户语义特征映射得到用户语义偏好。

Description

一种基于知识图谱和用户微观行为的广电节目推荐方法
技术领域
本发明属于广电节目推荐技术领域,具体地说,涉及一种基于知识图谱和用户微观行为的广电节目推荐方法。
背景技术
随着电信网、广播电视网和计算机通信网的三网服务融合,广电网络提供的服务越来越丰富且更新越来越快。由于电视频道数量的增加和IPTV服务与新媒体服务的出现,暴露在电视终端的用户可获得的电视节目内容也越来越多。然而,如此过量的电视节目给电视观众也带来了负担,因为搜索他们喜欢的电视节目内容需要更长的时间。推荐***能帮助用户高效筛选出感兴趣的信息,有利于电视观众方便而有效地获取自己喜欢的节目内容。
现有的广电领域推荐***算法研究可以归纳为几个主要的内容。一种为一般推荐方法,包括简单统计算法和传统协同过滤。从用户偏好建模的角度看,这些工作侧重于挖掘用户和项目之间的静态相关性,忽略了用户偏好随时间推进的动态变化。有的研究将电视观众依据观看的节目类型进行聚类后进行协同过滤推荐。有的研究根据经验值设置节目类型阈值来聚类电视节目,再根据用户观看的节目类型和时长等指标进行用户聚类,用于协同过滤推荐。一部分研究设置隐式评分函数,将用户的观看行为转化为用户对节目的评分用以提出推荐策略,并实现了Hadoop分布式框架。一部分研究将用户观看时间长短与偏好程度大小看成正比关系,进行排序推荐。
另一种内容是考虑用户的兴趣动态变化,引入时间衰减函数表征用户兴趣在时间跨度上的漂移。这些模型中的时间衰减函数多为主观构造,效果不尽相同,在大数据环境中,面临数据稀疏和冷启动问题。有的研究在潜在因子模型中引入时间衰减函数,使得因子分解结果和时间有关。有的研究设置时间周期函数,建立衰减因子模拟用户兴趣变化。
还有一种内容是基于序列模式挖掘为用户推荐感兴趣项目,这些基于序列的模型将用户项目的交互序列等同于用户的行为,而忽略了用户的多种行为类型,没有考虑到用户对物品的不同反馈行为所隐含的用户兴趣差异性,而且这些工作在挖掘用户偏好的动态变化时,从特征角度获得项目的嵌入往往忽略了项目之间内容属性的内在联系。
发明内容
本发明针对现有技术忽略用户的多种行为类型,没有考虑到用户的不同反馈行为所隐含的用户兴趣差异,且在挖掘用户偏好的动态变化时,从特征角度获得项目的嵌入往往忽略了项目之间内容属性的内在联系等问题,提出了一种基于知识图谱和用户微观行为的广电节目推荐方法,通过将item2vec与随机游走相结合,将知识图谱属性子图获取的随机游走序列与基于会话的用户行为序列一起训练,训练得出的嵌入向量融合了节目内容属性和用户交互会话两个层面的相似性。然后,在获得节目嵌入和分类型的融合微观行为嵌入的情况下,根据用户与节目的历史交互记录,把行为嵌入和行为对应的节目嵌入拼接,再通过语义空间网络映射,得到了具有相同维度的每个行为-节目的语义表示,形成用户历史行为的嵌入序列;最后,基于Transformer编码-解码机制将用户的历史行为序列进行自注意力编码映射得到隐含动态偏好的用户语义特征,并利用目标节目注意力解码用户语义特征映射得到用户语义偏好。本发明通过上述操作实现了更深入联系了用户行为和节目内容属性等等多方关联的内容推荐,在推荐上更加贴近用户的兴趣和喜好。
本发明具体实现内容如下:
本发明提出了一种基于知识图谱和用户微观行为的广电节目推荐方法,具体包括以下步骤:
步骤S1:构建广电领域知识图谱;
步骤S2:梳理用户微观行为数据:将用户的行为交互数据根据行为存续时间分为连续性微观行为和离散型微观行为;
步骤S3:提取步骤S1中构建的广电领域知识图谱的属性子图,并采用随机游走的方式根据属性子图提取出随机游走节目序列Q;一个所述属性子图提取出一条随机游走序列Q,所有属性子图的随机游走序列Q共同构成一个项目序列集合Hk
步骤S4:利用步骤S2梳理的用户的行为交互数据,构建时间会话-行为类型矩阵,并计算出会话相似度;最后抽取出基于会话的用户交互节目序列H;
步骤S5:将步骤S3得到的项目序列集合Hk和步骤S4得到的用户交互节目序列H共同作为Item2vec算法的输入,通过训练得到节目嵌入;
步骤S6:根据步骤S2梳理的用户的行为交互数据生成用户微观行为嵌入;然后根据用户与节目的历史交互记录,将用户微观行为嵌入和对应的节目嵌入进行拼接,再通过语义空间网络映射,生成具有相同维度的每个行为-节目的语义表示,所有行为-节目的语义表示构成用户历史行为的嵌入序列,即用户-行为潜在语义序列;
步骤S7:基于transformer机制进行用户动态偏好学习:所述transformer机制包括基于多头注意力机制的自注意力机制和普通注意力机制,首先根据自注意力机制学习用户-行为潜在语义序列中的各项的相关性,获得用户潜在的语义特征,然后通过普通注意力机制根据目标节目对用户潜在的语义特征进行解码,获得用户语义偏好,根据用户语义偏好对用户进行节目推荐。
为了更好地实现本发明,进一步地,所述步骤S3的具体操作包括:
步骤S3.1:确定广电节目的属性,根据属性关键词,采用sparql三元组查询语句查询知识图谱信息,形成多个基于属性的属性子图;所述属性包括导演、演员、语言、种类、编剧、地域;
步骤S3.2:在每个属性子图中进行随机游走,生成随机游走序列Q,并将得到的所有随机游走序列Q共同构成项目序列集合Hk={Q1,Q2,...,Qn},其中Qi={x1,x2,...,xn}表示生成的一条随机游走序列,i=1,2,3,...,n;
在随机游走的过程中,给定的起始节点为u,随机游走的第i个节点为ci,c0=u,随机游走的概率为:
Figure BDA0002892219270000031
其中,∏vx是节点v和节点x之间未归一化的转换概率,z为归一化常数;∏vx由实体边权重乘以系数得到,表示为:
vx=αpq(t,x)·wvx
其中,系数αpq(t,x)的计算公式为:
Figure BDA0002892219270000032
在系数αpq(t,x)的计算公式中,t表示随机游走的上一个节点,x表示接下来随机游走可能的一个节点目标,通过p和q的值来控制深度和广度的游走,表示节点t和节点x之间的最短距离。
为了更好地实现本发明,进一步地,所述步骤S4具体包括以下步骤:
步骤S4.1:构建时间会话-行为类型矩阵:假设一个用户的历史交互序列长度为h,行为类型数为n,每个会话交互的节目数是k,则该用户的历史交互记录含有m=h/k个会话,每个会话的时间段为ti(i=1,2,...,m),则可以形成时间会话-行为类型矩阵TSA为:
Figure BDA0002892219270000041
即:TSA={xij}m×n,(1≤i≤m,1≤j≤n);
其中,xij表示在时间段ti内,用户在第i个会话中的微观行为是j的频率,m,n分别为矩阵的行和列;
步骤S4.2:首先,根据时间会话-行为类型矩阵计算时间段ti和时间段tj之间的行为相似度
Figure BDA0002892219270000042
具体计算公式为:
Figure BDA0002892219270000043
其中,a为行为类型,A为行为类型集合,
Figure BDA0002892219270000044
表示ti时间段内用户于会话s产生行为类型为a的频率,相当于TSA矩阵中的xij
然后,计算时间时间段ti与时间段tj之间的间隔dist(ti,tj),具体计算公式为:
Figure BDA0002892219270000045
接着,计算会话i和会话j的相似度,具体计算公式为:
Figure BDA0002892219270000046
步骤S4.3:梳理出用户交互节目序列,按照时间增长方向划分会话,依次计算相邻会话之间的相似度,会话相似度叠加和的计算公式为:
Figure BDA0002892219270000047
其中,m为按照一定会话长度k划分的会话的个数,假设会话相似度叠加和的阈值为Y,则当用户u的Sum(se)大于Y时的k取为该用户的会话长度,抽取得到用户的交互节目序列H={S1,S2,...Sn}。
为了更好地实现本发明,进一步地,所述步骤S6的具体操作为:
步骤S6.1:计算用户微观行为权重:
首先,设定所述步骤S2中得到的用户微观行为有N种,所述N种用户微观行为包括连续性微观行为和离散型微观行为;每种用户微观行为发生的总次数分别记为A1,A2,...,AN
其次,分别计算每种用户微观行为类型对应的归一化权重a1,α2,...,aN,具体的计算公式如下:
Figure BDA0002892219270000051
Figure BDA0002892219270000052
步骤S6.2:获得用户微观行为的类型向量vec(am):对于用户微观行为,使用one-hot编码为每个隐式反馈行为获得一个向量表示,公式如下:
vec(am)∈R|A| m=1,2,...,|A|
步骤S6.3:获得用户微观行为的持续时长向量表征vec(ad):
对于连续性微观行为,按照用户在节目中的连续性微观行为占节目总时长的比例划分为[0.0.1),[0.1,0.2),[0.2,0.3),...,[0.9,1]共十个等级,使用one-hot编码为十个等级的微观行为时间生成一个向量表示vec(ad),且vec(ad)∈R10
对于离散型微观行为,采用全零的等长向量进行占位从而生成一个向量表示vec(ad),且vec(ad)=[0,0,0,...,0];
步骤S6.4:对用户u对于节目i的用户微观行为进行向量化表示,表示为:
vec(au,i)=ai·vec(am)+vec(ad)
式中的“+”号表示向量的连接操作,ai为微观行为权重,vec(am)为微观行为的类型向量,vec(ad)为微观行为的持续时长向量;
步骤S6.5:进行时间编码,将连续的时间离散化,然后获得时间的嵌入并引入模型进行训练和学习:
对于连续性微观行为:首先,提取用户的历史行为交互序列
Figure BDA0002892219270000061
然后将历史行为交互序列
Figure BDA0002892219270000062
的行为时间戳序列提取为T=[t1,t2,t3...],设定目标节目被点击的时间戳为tp
然后,计算目标节目与用户的历史交互节目之间的时间间隔序列TΔ,具体计算公式为:
TΔ=[tp-t1,tp-t2,tp-t3,...]=[Δt1,Δtz,Δt3,...];
对于离散型微观行为:定义离散化的时间间隔,表示为[0,1),[1,2),[2,4),...[2k,2k+1),...;其中,每个时间间隔的单位为小时,将TΔ的每一项映射到的离散时间间隔里,再映射到one-hot编码中,获得项目交互行为的时间编码vec(ti);
步骤S6.6:进行行为语义空间嵌入:在获得了不同的行为表示、项目嵌入和时间编码的基础上,定义用户行为ui为用户u对项目i的行为,表示为:
ui=vec(au,i)+vec(xi)+vec(ti);
其中,vec(xi)表示用户u采用行为au,i与项目i交互的嵌入表示,vec(xi)为融合知识图谱和用户交互特征的项目嵌入,vec(ti)为行为的时间编码,公式中的“+”表示向量的连接操作;进而根据如下公式进行用户-行为序列计算:
Figure BDA0002892219270000063
式中,dx表示维度大小,|L|表示用户-行为序列的长度;
然后采用一层全连接层将用户-行为序列Lu转化为用户-行为潜在语义序列
Figure BDA0002892219270000064
具体的转换公式如下所示:
Bu=στ(WτL+bτ);
其中,Wτ和bτ为全连接层的权重和偏置,στ为激活函数。
为了更好地实现本发明,进一步地,所述步骤S7具体包括以下步骤:
步骤S7.1:对用户潜在的语义特征U进行矩阵计算,具体计算方法如下:
Figure BDA0002892219270000071
其中,Self_Attention表示自注意力机制运算,Bu为用户-行为潜在语义序列,设序列长度为S,每一项的嵌入维度为K,则Bu∈RS×K;式中的
Figure BDA0002892219270000072
为自设置的用于避免产生过大值的常数项,softmax为用于使产生的注意力分数在0-1之间,且和1的函数;
步骤S7.2:采用普通注意力机制对用户的用户语义偏好Bemb进行矩阵计算,具体计算公式如下:
Figure BDA0002892219270000073
其中,Attention表示普通注意力机制,U为用户潜在的语义特征,U∈Rs×K,常数项
Figure BDA0002892219270000074
也为避免产生过大值,P为目标节目的融合知识图谱和用户交互特征的嵌入。
为了更好地实现本发明,进一步地,所述步骤S7中,在进行了步骤S7.2后,还进行了以下操作:
步骤S7.3:进行非线性处理:在进行了自注意力机制和普通注意力机制的计算后,增加点式前馈网络计算,具体为:
对于自注意力机制增加的点式前馈网络计算:
U=Normalize(Conv1D(Conv1D(U))+U);
其中,Normalize为用于解决梯度消失问题的归一化操作,Conv1D表示一维卷积网络;经过两层卷积网络将U进行两次非线性映射;公式中等式左侧的U为点式前馈后的用户潜在的语义特征,等式右侧的U为电视前馈前的用户潜在的语义特征;
对于普通注意力机制增加的点式前馈网络计算为:普通注意力计算之后的点式前馈网络结构与自注意力机制增加的点式前馈网络的相同;
且在多头注意力机制和点式前馈网络的输出后都增加一个用于防止原始信息丢失的残差网络,在进行计算时,经过了残差网络后才进行归一化处理;
步骤S7.4:在获得了用户语义偏好向量后,通过预测函数g计算用户u与候选项目v发生交互的概率,具体计算公式为:
pu,v=σ(g(Bemb,τv));
其中,预测函数g为内积或者L层感知机;Bemb为用户u的语义偏好,τv为候选节目v的融合知识图谱和用户交互特征的嵌入。
为了更好地实现本发明,进一步地,在进行了步骤S7之后,还需要进行以下步骤:
步骤S8:模型训练与优化:采用sigmoid交叉熵损失函数训练和优化算法模型,具体计算公式为:
Figure BDA0002892219270000081
其中,u表示所有训练用户的实例,yi=1表示正实例,即用户与节目发生过交互,yi=0表示负实例,即用户与节目没有发现交互;pu,v∈[0,1]是模型的输出,表示用户的点击率;以上模型的优化过程就是最小化上述损失函数的过程。
为了更好地实现本发明,进一步地,所述步骤S1的具体操作为:
通过爬取广电影视节目的网络资源,经过实体对齐形成结构化数据,利用本体建模工具protégé完成本体构建;在本体构建完成之后,使用d2rq将原本存储在关系型数据库中的数据转化为相应的rdf格式,后续以图数据库的方式存储,进而完成广电领域知识图谱的构建。
为了更好地实现本发明,进一步地,在构建所述广电领域知识图谱时,采用自顶向下的方式构建知识图谱,从最顶层概念构建数据模式,逐步向下细化,形成结构分明逻辑清晰的分类学层次,完成本体构建;且在本体构建中,概念层继承于事物的类有地域、人物、种类、节目和语言;对象属性的顶层概念包括节目种类、节目产地、人物故乡、参演于、有演员、导演于、有导演、编剧于、有编剧和节目语言;数据属性的顶层概念包括地域编号、地域名称、人物生日、人物外文姓名、人物性别、人物编号、人物姓名、种类编号、种类名称、节目编号、节目评分、节目发行日期、节目简介、节目名称、语言编号、语言名称。
为了更好地实现本发明,进一步地,所述步骤S2的具体操作为:将用户的行为交互数据根据行为存续时间分为连续性微观行为和离散型微观行为;所述连续性微观行为是可以持续一定时间的用户行为,包括直播观看、点播观看、搜索观看行为;所述离散型微观行为是只发生在某个时刻的用户行为,包括购买、收藏、点赞行为;将广电***后台检测的数据进行收集,形成记录用户编号、媒资编号、行为类型、行为时间戳、行为持续时间的结构化数据,其中,连续型微观行为的行为持续时间为对应的有效值,离散型行为类型的行为持续时间为null。
本发明与现有技术相比具有以下优点及有益效果:
(1)采用游走属性子图的方式,使得基于某个属性存在关联关系的节目更容易游走形成一条路径,抽取的节目序列更能体现彼此之间基于属性的相似性。Node2vec有广度遍历和深度遍历两种方式,能很好的抽取实体间的同质性和同构性;使得节目的推荐隐含的关联性更强;
(2)考虑到用户在每个会话里的行为模式保持统计学上的相似性,根据用户在某时间段的行为模式相似性来划分会话时间窗口,这样每个用户的时间窗口都是基于自身行为模式来划分,充分考虑到交互行为的稠密度;
(3)通过知识图谱属性子图抽取序列获得的项目嵌入,从项目属性层面考虑项目自身内容的相似性,基于会话的用户交互序列获得的项目嵌入从交互上下文层面考虑项目的相似性,两者的融合弥补了序列嵌入较少考虑项目内容信息的不足,增强了交互序列会话的个性化;
(4)将用户的微观行为划分为连续型行为和离散型行为,进行不同的向量化后,融合并投影到一个共同的潜在语义空间进行推荐,让算法自己去捕获不同行为对用户偏好的影响。一方面,收藏、点赞、购买等离散型行为与直播观看、点播观看等连续型行为体现的用户兴趣度是不同的,是不同性质的行为,需要不同的向量化方式。另一方面,对于同是连续型行为的直播观看、点播观看等行为,不同的行为持续时间体现的用户兴趣度也是不同的。从定性和定量两个层面来分析用户的微观行为,进行向量化融合,更能体现用户对节目的不同微观反馈行为所隐含的用户兴趣差异性;
(5)通过计算现有场景中的微观行为权重,可以获得微观行为基于性质层面体现的用户兴趣度,对基于性质层面获得的微观行为向量化进行矫正;
(6)引入时间编码,考虑目标节目的交互时间与历史交互序列中的节目交互时间的差进行编码,能很好的建模序列的时间漂移;
(7)最终得到的用户语义偏好隐含了用户历史交互中的项目侧基于属性的信息、基于会话上下文的信息、交互的微观行为信息和交互的时间信息,很好地刻画了用户的动态偏好;
(8)通过sigmoid交叉熵损失函数训练和优化模型,使得算法越发精准。
附图说明
图1为本发明流程示意图;
图2为本发明知识图谱概念模式示意图。
具体实施方式
为了更清楚地说明本发明实施例的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,应当理解,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例,因此不应被看作是对保护范围的限定。基于本发明中的实施例,本领域普通技术工作人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“设置”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;也可以是直接相连,也可以是通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1:
本发明提出了一种基于知识图谱和用户微观行为的广电节目推荐方法,如图1所示,具体包括以下步骤:
步骤S1:构建广电领域知识图谱;
步骤S2:梳理用户微观行为数据:将用户的行为交互数据根据行为存续时间分为连续性微观行为和离散型微观行为;
步骤S3:提取步骤S1中构建的广电领域知识图谱的属性子图,并采用随机游走的方式根据属性子图提取出随机游走节目序列Q;一个所述属性子图提取出一条随机游走序列Q,所有属性子图的随机游走序列Q共同构成一个项目序列集合Hk
步骤S4:利用步骤S2梳理的用户的行为交互数据,构建时间会话-行为类型矩阵,并计算出会话相似度;最后抽取出基于会话的用户交互节目序列H;
步骤S5:将步骤S3得到的项目序列集合Hk和步骤S4得到的用户交互节目序列H共同作为Item2vec算法的输入,通过训练得到节目嵌入;
步骤S6:根据步骤S2梳理的用户的行为交互数据生成用户微观行为嵌入;然后根据用户与节目的历史交互记录,将用户微观行为嵌入和对应的节目嵌入进行拼接,再通过语义空间网络映射,生成具有相同维度的每个行为-节目的语义表示,所有行为-节目的语义表示构成用户历史行为的嵌入序列,即用户-行为潜在语义序列;
步骤S7:基于transformer机制进行用户动态偏好学习:所述transformer机制包括基于多头注意力机制的自注意力机制和普通注意力机制,首先根据自注意力机制学习用户-行为潜在语义序列中的各项的相关性,获得用户潜在的语义特征,然后通过普通注意力机制根据目标节目对用户潜在的语义特征进行解码,获得用户语义偏好,根据用户语义偏好对用户进行节目推荐;
步骤S8:模型训练与优化:采用sigmoid交叉熵损失函数训练和优化算法模型。
工作原理:本发明提出一种基于知识图谱和用户微观行为的广电内容推荐方法,该方法主要包括三个部分:节目嵌入、用户微观行为嵌入和用户动态偏好学习。本文将item2vec与随机游走相结合,将知识图谱属性子图获取的随机游走序列与基于会话的用户行为序列一起训练,训练得出的嵌入向量融合了节目内容属性和用户交互会话两个层面的相似性。然后,在获得节目嵌入和分类型的融合微观行为嵌入的情况下,根据用户与节目的历史交互记录,把行为嵌入和行为对应的节目嵌入拼接,再通过语义空间网络映射,得到了具有相同维度的每个行为-节目的语义表示,形成用户历史行为的嵌入序列。其中,考虑到用户行为序列的时序性,在后续实施例中还将在用户行为嵌入层引入时间编码。最后,基于Transformer编码-解码机制将用户的历史行为序列进行自注意力编码映射得到隐含动态偏好的用户语义特征,并利用目标节目注意力解码用户语义特征映射得到用户语义表示向量。通过本文获得的用户语义表示向量与目标节目的乘积计算进行点击率预测。同时在步骤S5中将步骤3和步骤4获得的节目序列相结合,共同作为item2vec的输入,最终得到项目的嵌入向量。其中,通过知识图谱属性子图抽取序列获得的项目嵌入,从项目属性层面考虑项目自身内容的相似性,基于会话的用户交互序列获得的项目嵌入从交互上下文层面考虑项目的相似性,两者的融合弥补了序列嵌入较少考虑项目内容信息的不足,增强了交互序列会话的个性化。
实施例2:
本实施例在上述实施例1的基础上,为了更好地实现本发明,进一步地,如图2所示,具体操作为:
步骤S1:构建广电领域知识图谱:通过爬取广电影视节目的网络资源,经过实体对齐形成结构化数据,利用本体建模工具protégé完成本体构建;在本体构建完成之后,使用d2rq将原本存储在关系型数据库中的数据转化为相应的rdf格式,后续以图数据库的方式存储,进而完成广电领域知识图谱的构建。
为了更好地实现本发明,进一步地,在构建所述广电领域知识图谱时,采用自顶向下的方式构建知识图谱,从最顶层概念构建数据模式,逐步向下细化,形成结构分明逻辑清晰的分类学层次,完成本体构建;且在本体构建中,概念层继承于事物的类有地域、人物、种类、节目和语言;对象属性的顶层概念包括节目种类、节目产地、人物故乡、参演于、有演员、导演于、有导演、编剧于、有编剧和节目语言;数据属性的顶层概念包括地域编号、地域名称、人物生日、人物外文姓名、人物性别、人物编号、人物姓名、种类编号、种类名称、节目编号、节目评分、节目发行日期、节目简介、节目名称、语言编号、语言名称。
本实施例的其他部分与上述实施例1相同,故不再赘述。
实施例3:
本实施例在上述实施例1-2任一项的基础上,为了更好地实现本发明,进一步地,所述步骤S2的具体操作为:将用户的行为交互数据根据行为存续时间分为连续性微观行为和离散型微观行为;所述连续性微观行为是可以持续一定时间的用户行为,包括直播观看、点播观看、搜索观看行为;所述离散型微观行为是只发生在某个时刻的用户行为,包括购买、收藏、点赞行为;将广电***后台检测的数据进行收集,形成记录用户编号、媒资编号、行为类型、行为时间戳、行为持续时间的结构化数据,其中,连续型微观行为的行为持续时间为对应的有效值,离散型行为类型的行为持续时间为null。
本实施例的其他部分与上述实施例1-2任一项相同,故不再赘述。
实施例4:
本实施例在上述实施例1-3任一项的基础上,为了更好地实现本发明,进一步地,所述步骤S3的具体操作包括:
步骤S3.1:确定广电节目的属性,根据属性关键词,采用sparql三元组查询语句查询知识图谱信息,形成多个基于属性的属性子图;所述属性包括导演、演员、语言、种类、编剧、地域;
步骤S3.2:在每个属性子图中进行随机游走,生成随机游走序列Q,并将得到的所有随机游走序列Q共同构成项目序列集合Hk={Q1,Q2,...,Qn},其中Qi={x1,x2,...,xn}表示生成的一条随机游走序列,i=1,2,3,...,n;
在随机游走的过程中,给定的起始节点为u,随机游走的第i个节点为ci,c0=u,随机游走的概率为:
Figure BDA0002892219270000131
其中,∏vx是节点v和节点x之间未归一化的转换概率,z为归一化常数;∏vx由实体边权重乘以系数得到,表示为:
vx=αpq(t,x)·wvx
其中,系数αpq(t,x)的计算公式为:
Figure BDA0002892219270000132
在系数αpq(t,x)的计算公式中,t表示随机游走的上一个节点,x表示接下来随机游走可能的一个节点目标,通过p和q的值来控制深度和广度的游走,表示节点t和节点x之间的最短距离。
工作原理:利用步骤S1中的知识图谱提取出每一种属性对应的属性子图,在每一个属性子图上采用Node2vec随机游走的方式提取游走节目序列。采用游走属性子图的方式,使得基于某个属性存在关联关系的节目更容易游走形成一条路径,抽取的节目序列更能体现彼此之间基于属性的相似性。Node2vec有广度遍历和深度遍历两种方式,能很好的抽取实体间的同质性和同构性。
本实施例的其他部分与上述实施例1-3任一项相同,故不再赘述。
实施例5:
本实施例在上述实施例1-4任一项的基础上,为了更好地实现本发明,进一步地,所述步骤S4具体包括以下步骤:
步骤S4.1:构建时间会话-行为类型矩阵:假设一个用户的历史交互序列长度为h,行为类型数为n,每个会话交互的节目数是k,则该用户的历史交互记录含有m=h/k个会话,每个会话的时间段为ti(i=1,2,...,m),则可以形成时间会话-行为类型矩阵TSA为:
Figure BDA0002892219270000141
即:TSA={xij}m×n,(1≤i≤m,1≤j≤n);
其中,xij表示在时间段ti内,用户在第i个会话中的微观行为是j的频率,m,n分别为矩阵的行和列;
步骤S4.2:首先,根据时间会话-行为类型矩阵计算时间段ti和时间段tj之间的行为相似度
Figure BDA0002892219270000142
具体计算公式为:
Figure BDA0002892219270000143
其中,a为行为类型,A为行为类型集合,
Figure BDA0002892219270000144
表示ti时间段内用户于会话s产生行为类型为a的频率,相当于TSA矩阵中的xij
然后,计算时间时间段ti与时间段tj之间的间隔dist(ti,tj),具体计算公式为:
Figure BDA0002892219270000145
接着,计算会话i和会话j的相似度,具体计算公式为:
Figure BDA0002892219270000146
步骤S4.3:梳理出用户交互节目序列,按照时间增长方向划分会话,依次计算相邻会话之间的相似度,会话相似度叠加和的计算公式为:
Figure BDA0002892219270000147
其中,m为按照一定会话长度k划分的会话的个数,假设会话相似度叠加和的阈值为Y,则当用户u的Sum(se)大于Y时的k取为该用户的会话长度,抽取得到用户的交互节目序列H={S1,S2,...Sn}。
工作原理:利用步骤S2中的用户交互数据,提取基于会话的用户交互节目序列。随着用户与节目内容的交互,用户的观看历史形成按时间推进的序列,且序列的长度越来越长。使用用户的整个交互序列来捕获项目的交互上下文信息显然是不妥的。一是用户的兴趣会随着时间发生变化,二是大量的数据带来的计算和空间的成本太高。考虑到一定时间内,用户的兴趣是稳定的,交互的项目之间存在的相关性更高,采用基于会话的形式抽取用户交互序列。一般解决方案是设置一个固定时间窗口,固定时间窗口中包含固定的时间长度和固定的交互项目数两种,将时间窗口在用户的行为交互序列上滑动,每次只抽取时间窗口内的用户交互项目。实际上,用户的交互行为稠密度不一样,时间窗口的大小设置也应该不一样。考虑到用户在每个会话里的行为模式保持统计学上的相似性,根据用户在某时间段的行为模式相似性来划分会话时间窗口,这样每个用户的时间窗口都是基于自身行为模式来划分,充分考虑到交互行为的稠密度。
本实施例的其他部分与上述实施例1-4任一项相同,故不再赘述。
实施例6:
本实施例在上述实施例1-5任一项的基础上,为了更好地实现本发明,进一步地,所述步骤S6的具体操作为:
步骤S6.1:计算用户微观行为权重:
首先,设定所述步骤S2中得到的用户微观行为有N种,所述N种用户微观行为包括连续性微观行为和离散型微观行为;每种用户微观行为发生的总次数分别记为A1,A2,...,AN
其次,分别计算每种用户微观行为类型对应的归一化权重a1,a2,...,aN,具体的计算公式如下:
Figure BDA0002892219270000151
Figure BDA0002892219270000152
步骤S6.2:获得用户微观行为的类型向量vec(am):对于用户微观行为,使用one-hot编码为每个隐式反馈行为获得一个向量表示,公式如下:
vec(am)∈R|A| m=1,2,...,|A|
步骤S6.3:获得用户微观行为的持续时长向量表征vec(ad):
对于连续性微观行为,按照用户在节目中的连续性微观行为占节目总时长的比例划分为[0.0.1),[0.1,0.2),[0.2,0.3),...,[0.9,1]共十个等级,使用one-hot编码为十个等级的微观行为时间生成一个向量表示vec(ad),且vec(ad)∈R10
对于离散型微观行为,采用全零的等长向量进行占位从而生成一个向量表示vec(ad),且vec(ad)=[0,0,0,...,0];
步骤S6.4:对用户u对于节目i的用户微观行为进行向量化表示,表示为:
vec(αu,i)=αi·vec(am)+vec(ad)
式中的“+”号表示向量的连接操作,ai为微观行为权重,vec(am)为微观行为的类型向量,vec(ad)为微观行为的持续时长向量;
步骤S6.5:进行时间编码,将连续的时间离散化,然后获得时间的嵌入并引入模型进行训练和学习:
对于连续性微观行为:首先,提取用户的历史行为交互序列
Figure BDA0002892219270000161
然后将历史行为交互序列
Figure BDA0002892219270000162
的行为时间戳序列提取为T=[t1,t2,t3...],设定目标节目被点击的时间戳为tp
然后,计算目标节目与用户的历史交互节目之间的时间间隔序列TΔ,具体计算公式为:
TΔ=[tp-t1,tp-t2,tp-t3,...]=[Δt1,Δt2,Δt3,...];
对于离散型微观行为:定义离散化的时间间隔,表示为[0,1),[1,2),[2,4),...[2k,2k+1),...;其中,每个时间间隔的单位为小时,将TΔ的每一项映射到的离散时间间隔里,再映射到one-hot编码中,获得项目交互行为的时间编码vec(ti);例如,目标节目与某个历史交互节目的时间间隔为0.5小时,那么该历史交互影片的时间编码为[1,0,0,...,0]。
步骤S6.6:进行行为语义空间嵌入:在获得了不同的行为表示、项目嵌入和时间编码的基础上,定义用户行为ui为用户u对项目i的行为,表示为:
ui=vec(αu,i)+vec(xi)+vec(ti);
其中,vec(xi)表示用户u采用行为au,i与项目i交互的嵌入表示,vec(xi)为融合知识图谱和用户交互特征的项目嵌入,vec(ti)为行为的时间编码,公式中的“+”表示向量的连接操作;进而根据如下公式进行用户-行为序列计算:
Figure BDA0002892219270000171
式中,dx表示维度大小,|L|表示用户-行为序列的长度;
然后采用一层全连接层将用户-行为序列Lu转化为用户-行为潜在语义序列
Figure BDA0002892219270000172
具体的转换公式如下所示:
Bu=στ(WτL+bτ);
其中,Wτ和bτ为全连接层的权重和偏置,στ为激活函数。
工作原理:在广电领域的推荐场景中,用户没有显示评分,后端***采集到的用户-项目的交互为一系列具有异质性、多义性和动态性的微观反馈行为(如浏览、收看、收藏等)。基于该场景应用的特点,与直观对行为赋权或转化为评分的方法不同,本发明将用户的微观行为划分为连续型行为和离散型行为,进行不同的向量化后,融合并投影到一个共同的潜在语义空间进行推荐,让算法自己去捕获不同行为对用户偏好的影响。一方面,收藏、点赞、购买等离散型行为与直播观看、点播观看等连续型行为体现的用户兴趣度是不同的,是不同性质的行为,需要不同的向量化方式。另一方面,对于同是连续型行为的直播观看、点播观看等行为,不同的行为持续时间体现的用户兴趣度也是不同的。从定性和定量两个层面来分析用户的微观行为,进行向量化融合,更能体现用户对节目的不同微观反馈行为所隐含的用户兴趣差异性。通过计算现有场景中的微观行为权重,可以获得微观行为基于性质层面体现的用户兴趣度,对基于性质层面获得的微观行为向量化进行矫正。引入时间编码,考虑目标节目的交互时间与历史交互序列中的节目交互时间的差进行编码,能很好的建模序列的时间漂移。对于点播观看、直播观看等连续型行为,将用户行为于节目的时间占节目总时长的比例划分为[0.0.1),[0.1,0.2),...,[0.9,1]的十个等级,然后使用one-hot编码为十个等级的微观行为时间获得一个向量表示,即vec(ad)∈R10。对于连续型行为,不同的连续时长向量表征了用户行为持续时间隐含的不同的兴趣度,观看节目时长越长肯定体现了用户对该节目越感兴趣。而对于收藏、点赞等离散型行为的持续时长表征,采用全零的等长向量进行占位,即vec(ad)=[0,0,0,...,0]。对于离散型行为,对用户偏好度的度量就在于行为类型本身,比如对某个节目收藏或点赞这两种行为,表现了用户对该节目的不同兴趣度。全零向量没有过多信息,占位对齐便于后续模型训练。
本实施例的其他部分与上述实施例1-5任一项相同,故不再赘述。
实施例7:
本实施例在上述实施例1-6任一项的基础上,为了更好地实现本发明,进一步地,所述步骤S7具体包括以下步骤:
步骤S7.1:对用户潜在的语义特征U进行矩阵计算,具体计算方法如下:
Figure BDA0002892219270000181
其中,Self_Attention表示自注意力机制运算,Bu为用户-行为潜在语义序列,设序列长度为S,每一项的嵌入维度为K,则Bu∈RS×K;式中的
Figure BDA0002892219270000182
为自设置的用于避免产生过大值的常数项,softmax为用于使产生的注意力分数在0-1之间,且和1的函数;
步骤S7.2:采用普通注意力机制对用户的用户语义偏好Bemb进行矩阵计算,具体计算公式如下:
Figure BDA0002892219270000183
其中,Attention表示普通注意力机制,U为用户潜在的语义特征,U∈RS×K,常数项
Figure BDA0002892219270000184
也为避免产生过大值,P为目标节目的融合知识图谱和用户交互特征的嵌入。
为了更好地实现本发明,进一步地,所述步骤S7中,在进行了步骤S7.2后,还进行了以下操作:
步骤S7.3:进行非线性处理:在进行了自注意力机制和普通注意力机制的计算后,增加点式前馈网络计算,具体为:
对于自注意力机制增加的点式前馈网络计算:
U=Normalize(Conv1D(Conv1D(U))+U);
其中,Normalize为用于解决梯度消失问题的归一化操作,Conv1D表示一维卷积网络;经过两层卷积网络将U进行两次非线性映射;公式中等式左侧的U为点式前馈后的用户潜在的语义特征,等式右侧的U为电视前馈前的用户潜在的语义特征;
对于普通注意力机制增加的点式前馈网络计算为:普通注意力计算之后的点式前馈网络结构与自注意力机制增加的点式前馈网络的相同;
且在多头注意力机制和点式前馈网络的输出后都增加一个用于防止原始信息丢失的残差网络,在进行计算时,经过了残差网络后才进行归一化处理;
步骤S7.4:在获得了用户语义偏好向量后,通过预测函数g计算用户u与候选项目v发生交互的概率,具体计算公式为:
pu,v=σ(g(Bemb,τv));
其中,预测函数g为内积或者L层感知机;Bemb为用户u的语义偏好,τv为候选节目v的融合知识图谱和用户交互特征的嵌入。
工作原理:该用户语义偏好隐含了用户历史交互中的项目侧基于属性的信息、基于会话上下文的信息、交互的微观行为信息和交互的时间信息,很好地刻画了用户的动态偏好。
本实施例的其他部分与上述实施例1-6任一项相同,故不再赘述。
实施例8:
本实施例在上述实施例1-7任一项的基础上,为了更好地实现本发明,进一步地,
步骤S8:模型训练与优化:采用sigmoid交叉熵损失函数训练和优化算法模型,具体计算公式为:
Figure BDA0002892219270000191
其中,u表示所有训练用户的实例,yi=1表示正实例,即用户与节目发生过交互,yi=0表示负实例,即用户与节目没有发现交互;pu,v∈[0,1]是模型的输出,表示用户的点击率;以上模型的优化过程就是最小化上述损失函数的过程。
工作原理:本发明的模型为点击率预测模型,将推荐任务定义为二元分类问题,采用sigmoid交叉熵损失函数训练和优化模型。
以上所述,仅是本发明的较佳实施例,并非对本发明做任何形式上的限制,凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化,均落入本发明的保护范围之内。

Claims (10)

1.一种基于知识图谱和用户微观行为的广电节目推荐方法,其特征在于,具体包括以下步骤:
步骤S1:构建广电领域知识图谱;
步骤S2:梳理用户微观行为数据:将用户的行为交互数据根据行为存续时间分为连续性微观行为和离散型微观行为;
步骤S3:提取步骤S1中构建的广电领域知识图谱的属性子图,并采用随机游走的方式根据属性子图提取出随机游走节目序列Q;一个所述属性子图提取出一条随机游走序列Q,所有属性子图的随机游走序列Q共同构成一个项目序列集合Hk
步骤S4:利用步骤S2梳理的用户的行为交互数据,构建时间会话-行为类型矩阵,并计算出会话相似度;最后抽取出基于会话的用户交互节目序列H;
步骤S5:将步骤S3得到的项目序列集合Hk和步骤S4得到的用户交互节目序列H共同作为Item2vec算法的输入,通过训练得到节目嵌入;
步骤S6:根据步骤S2梳理的用户的行为交互数据生成用户微观行为嵌入;然后根据用户与节目的历史交互记录,将用户微观行为嵌入和对应的节目嵌入进行拼接,再通过语义空间网络映射,生成具有相同维度的每个行为-节目的语义表示,所有行为-节目的语义表示构成用户历史行为的嵌入序列,即用户-行为潜在语义序列;
步骤S7:基于transformer机制进行用户动态偏好学习:所述transformer机制包括基于多头注意力机制的自注意力机制和普通注意力机制,首先根据自注意力机制学习用户-行为潜在语义序列中的各项的相关性,获得用户潜在的语义特征,然后通过普通注意力机制根据目标节目对用户潜在的语义特征进行解码,获得用户语义偏好,根据用户语义偏好对用户进行节目推荐。
2.如权利要求1所述的一种基于知识图谱和用户微观行为的广电节目推荐方法,其特征在于,所述步骤S3的具体操作包括:
步骤S3.1:确定广电节目的属性,根据属性关键词,采用sparql三元组查询语句查询知识图谱信息,形成多个基于属性的属性子图;所述属性包括导演、演员、语言、种类、编剧、地域;
步骤S3.2:在每个属性子图中进行随机游走,生成随机游走序列Q,并将得到的所有随机游走序列Q共同构成项目序列集合Hk={Q1,Q2,...,Qn},其中Qi={x1,x2,...,xn}表示生成的一条随机游走序列,i=1,2,3,...,n;
在随机游走的过程中,给定的起始节点为u,随机游走的第i个节点为ci,c0=u,随机游走的概率为:
Figure FDA0002892219260000021
其中,Πvx是节点v和节点x之间未归一化的转换概率,z为归一化常数;Πvx由实体边权重乘以系数得到,表示为:
vx=αpq(t,x)·wvx
其中,系数αpq(t,χ)的计算公式为:
Figure FDA0002892219260000022
在系数αpq(t,χ)的计算公式中,t表示随机游走的上一个节点,x表示接下来随机游走可能的一个节点目标,通过p和q的值来控制深度和广度的游走,表示节点t和节点x之间的最短距离。
3.如权利要求2所述的一种基于知识图谱和用户微观行为的广电节目推荐方法,其特征在于,所述步骤S4具体包括以下步骤:
步骤S4.1:构建时间会话-行为类型矩阵:假设一个用户的历史交互序列长度为h,行为类型数为n,每个会话交互的节目数是k,则该用户的历史交互记录含有m=h/k个会话,每个会话的时间段为ti(i=1,2,...,m),则可以形成时间会话-行为类型矩阵TSA为:
Figure FDA0002892219260000023
即:TSA={xij}m×n,(1≤i≤m,1≤j≤n);
其中,xij表示在时间段ti内,用户在第i个会话中的微观行为是j的频率,m,n分别为矩阵的行和列;
步骤S4.2:首先,根据时间会话-行为类型矩阵计算时间段ti和时间段tj之间的行为相似度
Figure FDA0002892219260000031
具体计算公式为:
Figure FDA0002892219260000032
其中,a为行为类型,A为行为类型集合,
Figure FDA0002892219260000036
表示ti时间段内用户于会话s产生行为类型为a的频率,相当于TSA矩阵中的xij
然后,计算时间段ti与时间段tj之间的间隔dist(ti,tj),具体计算公式为:
Figure FDA0002892219260000033
接着,计算会话i与会话j的相似度,具体计算公式为:
Figure FDA0002892219260000034
步骤S4.3:梳理出用户交互节目序列,按照时间增长方向划分会话,依次计算相邻会话之间的相似度,会话相似度叠加和的计算公式为:
Figure FDA0002892219260000035
其中,m为按照一定会话长度k划分的会话的个数,假设会话相似度叠加和的阈值为Y,则当用户u的Sum(se)大于Y时的k取为该用户的会话长度,抽取得到用户的交互节目序列H={S1,S2,...Sn}。
4.如权利要求3所述的一种基于知识图谱和用户微观行为的广电节目推荐方法,其特征在于,所述步骤S6的具体操作为:
步骤S6.1:计算用户微观行为权重:
首先,设定所述步骤S2中得到的用户微观行为有N种,所述N种用户微观行为包括连续性微观行为和离散型微观行为;每种用户微观行为发生的总次数分别记为A1,A2,...,AN
其次,分别计算每种用户微观行为类型对应的归一化权重a1,a2,...,aN,具体的计算公式如下:
Figure FDA0002892219260000041
Figure FDA0002892219260000042
步骤S6.2:获得用户微观行为的类型向量vec(am):对于用户微观行为,使用one-hot编码为每个隐式反馈行为获得一个向量表示,公式如下:
vec(am)∈R|A|m=1,2,...,|A|
步骤S6.3:获得用户微观行为的持续时长向量表征vec(ad):
对于连续性微观行为,按照用户在节目中的连续性微观行为占节目总时长的比例划分为[0.0.1),[0.1,0.2),[0.2,0.3),...,[0.9,1]共十个等级,使用one-hot编码为十个等级的微观行为时间生成一个向量表示vec(αd),且vec(αd)∈R10
对于离散型微观行为,采用全零的等长向量进行占位从而生成一个向量表示vec(αd),且vec(αd)=[0,0,0,...,0];
步骤S6.4:对用户u对于节目i的用户微观行为进行向量化表示,表示为:
vec(αu,i)=αi·vec(αm)+vec(αd)
式中的“+”号表示向量的连接操作,αi为微观行为权重,vec(αm)为微观行为的类型向量,vec(ad)为微观行为的持续时长向量;
步骤S6.5:进行时间编码,将连续的时间离散化,然后获得时间的嵌入并引入模型进行训练和学习:
对于连续性微观行为:首先,提取用户的历史行为交互序列
Figure FDA0002892219260000043
然后将历史行为交互序列
Figure FDA0002892219260000044
的行为时间戳序列提取为T=[t1,t2,t3…],设定目标节目被点击的时间戳为tp
然后,计算目标节目与用户的历史交互节目之间的时间间隔序列TΔ,具体计算公式为:
TΔ=[tp-t1,tp-t2,tp-t3,...]=[Δt1,Δt2,Δt3,...];
对于离散型微观行为:定义离散化的时间间隔,表示为[0,1),[1,2),[2,4),...[2k,2k +1),...;其中,每个时间间隔的单位为小时,将TΔ的每一项映射到的离散时间间隔里,再映射到one-hot编码中,获得项目交互行为的时间编码vec(ti);
步骤S6.6:进行行为语义空间嵌入:在获得了不同的行为表示、项目嵌入和时间编码的基础上,定义用户行为ui为用户u对项目i的行为,表示为:
ui=vec(au,i)+vec(xi)+vec(ti);
其中,vec(xi)表示用户u采用行为au,i与项目i交互的嵌入表示,vec(xi)为融合知识图谱和用户交互特征的项目嵌入,vec(ti)为行为的时间编码,公式中的“+”表示向量的连接操作;进而根据如下公式进行用户-行为序列计算:
Figure FDA0002892219260000051
式中,dx表示维度大小,|L|表示用户-行为序列的长度;
然后采用一层全连接层将用户-行为序列Lu转化为用户-行为潜在语义序列
Figure FDA0002892219260000052
具体的转换公式如下所示:
Bu=στ(WτL+bτ);
其中,Wτ和bτ为全连接层的权重和偏置,στ为激活函数。
5.如权利要求4所示的一种基于知识图谱和用户微观行为的广电节目推荐方法,其特征在于,所述步骤S7具体包括以下步骤:
步骤S7.1:对用户潜在的语义特征U进行矩阵计算,具体计算方法如下:
Figure FDA0002892219260000053
其中,Self_Attention表示自注意力机制运算,Bu为用户-行为潜在语义序列,设序列长度为S,每一项的嵌入维度为K,则Bu∈RS×K;式中的
Figure FDA0002892219260000061
为自设置的用于避免产生过大值的常数项,softmax为用于使产生的注意力分数在0-1之间,且和1的函数;
步骤S7.2:采用普通注意力机制对用户的用户语义偏好Bemb进行矩阵计算,具体计算公式如下:
Figure FDA0002892219260000062
其中,Attention表示普通注意力机制,U为用户潜在的语义特征,U∈RS×K,常数项
Figure FDA0002892219260000063
也为避免产生过大值,P为目标节目的融合知识图谱和用户交互特征的嵌入。
6.如权利要求5所述的一种基于知识图谱和用户微观行为的广电节目推荐方法,其特征在于,所述步骤S7中,在进行了步骤S7.2后,还进行了以下操作:
步骤S7.3:进行非线性处理:在进行了自注意力机制和普通注意力机制的计算后,增加点式前馈网络计算,具体为:
对于自注意力机制增加的点式前馈网络计算:
U=Normalize(Conv1D(Conv1D(U))+U);
其中,Normalize为用于解决梯度消失问题的归一化操作,Conv1D表示一维卷积网络;经过两层卷积网络将U进行两次非线性映射;公式中等式左侧的U为点式前馈后的用户潜在的语义特征,等式右侧的U为电视前馈前的用户潜在的语义特征;
对于普通注意力机制增加的点式前馈网络计算为:普通注意力计算之后的点式前馈网络结构与自注意力机制增加的点式前馈网络的相同;
且在多头注意力机制和点式前馈网络的输出后都增加一个用于防止原始信息丢失的残差网络,在进行计算时,经过了残差网络后才进行归一化处理;
步骤S7.4:在获得了用户语义偏好向量后,通过预测函数g计算用户u与候选项目v发生交互的概率,具体计算公式为:
pu,v=σ(g(Bemb,τv));
其中,预测函数g为内积或者L层感知机;Bemb为用户u的语义偏好,τv为候选节目v的融合知识图谱和用户交互特征的嵌入。
7.如权利要求6所述的一种基于知识图谱和用户微观行为的广电节目推荐方法,其特征在于,在进行了步骤S7之后,还需要进行以下步骤:
步骤S8:模型训练与优化:采用sigmoid交叉熵损失函数训练和优化算法模型,具体计算公式为:
Figure FDA0002892219260000071
其中,u表示所有训练用户的实例,yi=1表示正实例,即用户与节目发生过交互,yi=0表示负实例,即用户与节目没有发现交互;pu,v∈[0,1]是模型的输出,表示用户的点击率;以上模型的优化过程就是最小化上述损失函数的过程。
8.如权利要求1-7任一项所述的一种基于知识图谱和用户微观行为的广电节目推荐方法,其特征在于,所述步骤S1的具体操作为:
通过爬取广电影视节目的网络资源,经过实体对齐形成结构化数据,利用本体建模工具protégé完成本体构建;在本体构建完成之后,使用d2rq将原本存储在关系型数据库中的数据转化为相应的rdf格式,后续以图数据库的方式存储,进而完成广电领域知识图谱的构建。
9.如权利要求8所述的一种基于知识图谱和用户微观行为的广电节目推荐方法,其特征在于,在构建所述广电领域知识图谱时,采用自顶向下的方式构建知识图谱,从最顶层概念构建数据模式,逐步向下细化,形成结构分明逻辑清晰的分类学层次,完成本体构建;且在本体构建中,概念层继承于事物的类有地域、人物、种类、节目和语言;对象属性的顶层概念包括节目种类、节目产地、人物故乡、参演于、有演员、导演于、有导演、编剧于、有编剧和节目语言;数据属性的顶层概念包括地域编号、地域名称、人物生日、人物外文姓名、人物性别、人物编号、人物姓名、种类编号、种类名称、节目编号、节目评分、节目发行日期、节目简介、节目名称、语言编号、语言名称。
10.如权利要求1-7任一项所述的一种基于知识图谱和用户微观行为的广电节目推荐方法,其特征在于,所述步骤S2的具体操作为:将用户的行为交互数据根据行为存续时间分为连续性微观行为和离散型微观行为;所述连续性微观行为是可以持续一定时间的用户行为,包括直播观看、点播观看、搜索观看行为;所述离散型微观行为是只发生在某个时刻的用户行为,包括购买、收藏、点赞行为;将广电***后台检测的数据进行收集,形成记录用户编号、媒资编号、行为类型、行为时间戳、行为持续时间的结构化数据,其中,连续型微观行为的行为持续时间为对应的有效值,离散型行为类型的行为持续时间为null。
CN202110033041.0A 2021-01-11 2021-01-11 一种基于知识图谱和用户微观行为的广电节目推荐方法 Expired - Fee Related CN112732936B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110033041.0A CN112732936B (zh) 2021-01-11 2021-01-11 一种基于知识图谱和用户微观行为的广电节目推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110033041.0A CN112732936B (zh) 2021-01-11 2021-01-11 一种基于知识图谱和用户微观行为的广电节目推荐方法

Publications (2)

Publication Number Publication Date
CN112732936A true CN112732936A (zh) 2021-04-30
CN112732936B CN112732936B (zh) 2022-03-29

Family

ID=75590255

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110033041.0A Expired - Fee Related CN112732936B (zh) 2021-01-11 2021-01-11 一种基于知识图谱和用户微观行为的广电节目推荐方法

Country Status (1)

Country Link
CN (1) CN112732936B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113255597A (zh) * 2021-06-29 2021-08-13 南京视察者智能科技有限公司 一种基于transformer的行为分析方法、装置及其终端设备
CN113378045A (zh) * 2021-06-08 2021-09-10 深圳Tcl新技术有限公司 数字内容分发方法、装置及存储介质
CN113822742A (zh) * 2021-09-18 2021-12-21 电子科技大学 一种基于自注意力机制的推荐方法
CN113919923A (zh) * 2021-12-15 2022-01-11 北京达佳互联信息技术有限公司 直播推荐模型训练方法、直播推荐方法及相关设备
CN114282687A (zh) * 2021-12-31 2022-04-05 复旦大学 一种基于因子分解机的多任务时序推荐方法
CN114827728A (zh) * 2022-06-23 2022-07-29 中国传媒大学 节目数据推荐方法及***
CN114925273A (zh) * 2022-05-23 2022-08-19 天津众群科技有限公司 基于大数据分析的用户行为预测方法及ai预测分析***
CN115018453A (zh) * 2022-05-23 2022-09-06 电子科技大学 一种岗位人才画像自动生成方法
CN115379293A (zh) * 2022-04-15 2022-11-22 大连理工大学 智能电视点播用户时序行为预测方法、设备和计算机可读存储介质
WO2023019427A1 (en) * 2021-08-17 2023-02-23 Robert Bosch Gmbh Method and apparatus for graph-based recommendation
CN116204737A (zh) * 2023-05-04 2023-06-02 海看网络科技(山东)股份有限公司 一种基于用户行为编码的推荐方法、***、设备及介质
CN116612843A (zh) * 2023-03-10 2023-08-18 武汉大学 一种心理测评掩饰性行为识别方法及***
CN117436550A (zh) * 2023-12-15 2024-01-23 深圳须弥云图空间科技有限公司 推荐模型训练方法及装置
CN117540935A (zh) * 2024-01-09 2024-02-09 上海银行股份有限公司 一种基于区块链技术的dao运营管理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190050443A1 (en) * 2017-08-11 2019-02-14 International Business Machines Corporation Method and system for improving training data understanding in natural language processing
CN111143684A (zh) * 2019-12-30 2020-05-12 腾讯科技(深圳)有限公司 基于人工智能的泛化模型的训练方法及装置
CN112100440A (zh) * 2020-08-21 2020-12-18 腾讯科技(深圳)有限公司 视频推送方法、设备及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190050443A1 (en) * 2017-08-11 2019-02-14 International Business Machines Corporation Method and system for improving training data understanding in natural language processing
CN111143684A (zh) * 2019-12-30 2020-05-12 腾讯科技(深圳)有限公司 基于人工智能的泛化模型的训练方法及装置
CN112100440A (zh) * 2020-08-21 2020-12-18 腾讯科技(深圳)有限公司 视频推送方法、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TAKAFUMI SUZUKI等: "A Framework for Recommendation Algorithms Using Knowledge Graph and Random Walk Methods", 《2020 IEEE INTERNATIONAL CONFERENCE ON BIG DATA (BIG DATA)》 *
赵宇等: "基于马尔可夫聚类和混合协同过滤的电视节目推荐", 《计算机应用与软件》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378045A (zh) * 2021-06-08 2021-09-10 深圳Tcl新技术有限公司 数字内容分发方法、装置及存储介质
CN113378045B (zh) * 2021-06-08 2024-02-09 深圳Tcl新技术有限公司 数字内容分发方法、装置及存储介质
CN113255597A (zh) * 2021-06-29 2021-08-13 南京视察者智能科技有限公司 一种基于transformer的行为分析方法、装置及其终端设备
WO2023019427A1 (en) * 2021-08-17 2023-02-23 Robert Bosch Gmbh Method and apparatus for graph-based recommendation
CN113822742A (zh) * 2021-09-18 2021-12-21 电子科技大学 一种基于自注意力机制的推荐方法
CN113822742B (zh) * 2021-09-18 2023-05-12 电子科技大学 一种基于自注意力机制的推荐方法
CN113919923A (zh) * 2021-12-15 2022-01-11 北京达佳互联信息技术有限公司 直播推荐模型训练方法、直播推荐方法及相关设备
CN114282687A (zh) * 2021-12-31 2022-04-05 复旦大学 一种基于因子分解机的多任务时序推荐方法
CN114282687B (zh) * 2021-12-31 2023-03-07 复旦大学 一种基于因子分解机的多任务时序推荐方法
CN115379293B (zh) * 2022-04-15 2023-10-03 大连理工大学 智能电视点播用户时序行为预测方法、设备和计算机可读存储介质
CN115379293A (zh) * 2022-04-15 2022-11-22 大连理工大学 智能电视点播用户时序行为预测方法、设备和计算机可读存储介质
CN114925273B (zh) * 2022-05-23 2023-01-10 厦门亿加网络科技有限公司 基于大数据分析的用户行为预测方法及ai预测分析***
CN115018453A (zh) * 2022-05-23 2022-09-06 电子科技大学 一种岗位人才画像自动生成方法
CN114925273A (zh) * 2022-05-23 2022-08-19 天津众群科技有限公司 基于大数据分析的用户行为预测方法及ai预测分析***
CN115018453B (zh) * 2022-05-23 2024-04-09 电子科技大学 一种岗位人才画像自动生成方法
CN114827728A (zh) * 2022-06-23 2022-07-29 中国传媒大学 节目数据推荐方法及***
CN116612843A (zh) * 2023-03-10 2023-08-18 武汉大学 一种心理测评掩饰性行为识别方法及***
CN116204737A (zh) * 2023-05-04 2023-06-02 海看网络科技(山东)股份有限公司 一种基于用户行为编码的推荐方法、***、设备及介质
CN117436550A (zh) * 2023-12-15 2024-01-23 深圳须弥云图空间科技有限公司 推荐模型训练方法及装置
CN117436550B (zh) * 2023-12-15 2024-04-16 深圳须弥云图空间科技有限公司 推荐模型训练方法及装置
CN117540935A (zh) * 2024-01-09 2024-02-09 上海银行股份有限公司 一种基于区块链技术的dao运营管理方法
CN117540935B (zh) * 2024-01-09 2024-04-05 上海银行股份有限公司 一种基于区块链技术的dao运营管理方法

Also Published As

Publication number Publication date
CN112732936B (zh) 2022-03-29

Similar Documents

Publication Publication Date Title
CN112732936B (zh) 一种基于知识图谱和用户微观行为的广电节目推荐方法
CN113051468B (zh) 一种基于知识图谱和强化学习的电影推荐方法及***
CN111241394B (zh) 数据处理方法、装置、计算机可读存储介质及电子设备
CN112989212B (zh) 媒体内容推荐方法、装置和设备及计算机存储介质
Yang et al. Personalized channel recommendation deep learning from a switch sequence
CN112464100A (zh) 信息推荐模型训练方法、信息推荐方法、装置及设备
Chen et al. DPM-IEDA: dual probabilistic model assisted interactive estimation of distribution algorithm for personalized search
Gupta et al. Machine learning enabled models for YouTube ranking mechanism and views prediction
Feng et al. Recommendations based on comprehensively exploiting the latent factors hidden in items’ ratings and content
Gan et al. CDMF: a deep learning model based on convolutional and dense-layer matrix factorization for context-aware recommendation
Yin et al. Neural TV program recommendation with heterogeneous attention
CN116010696A (zh) 融合知识图谱和用户长短期兴趣的新闻推荐方法、***及介质
CN113254794B (zh) 基于建模的节目数据推荐方法及***
CN113688281B (zh) 一种基于深度学习行为序列的视频推荐方法及***
CN115809339A (zh) 跨领域推荐方法、***、设备及存储介质
Koorathota et al. Editing like humans: a contextual, multimodal framework for automated video editing
Nawi et al. Issues and challenges in the extraction and mapping of linked open data resources with recommender systems datasets
CN114022233A (zh) 一种新型的商品推荐方法
Xu BanditMF: Multi-Armed Bandit Based Matrix Factorization Recommender System
Xiong et al. An intelligent film recommender system based on emotional analysis
CN114996561B (zh) 一种基于人工智能的信息推荐方法及装置
Crainic et al. Live It-Recommendation System based on Emotion Detection.
Hao Cross-domain recommender system through tag-based models
Sang Graph Representation Learning-Based Recommender Systems
Cano Rating aware feature selection in content-based recommender systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220329

CF01 Termination of patent right due to non-payment of annual fee