CN114020999A - 一种电影社交网络的社区结构检测方法及*** - Google Patents
一种电影社交网络的社区结构检测方法及*** Download PDFInfo
- Publication number
- CN114020999A CN114020999A CN202111221461.8A CN202111221461A CN114020999A CN 114020999 A CN114020999 A CN 114020999A CN 202111221461 A CN202111221461 A CN 202111221461A CN 114020999 A CN114020999 A CN 114020999A
- Authority
- CN
- China
- Prior art keywords
- movie
- social network
- community
- network
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 95
- 239000011159 matrix material Substances 0.000 claims abstract description 128
- 238000000034 method Methods 0.000 claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000005457 optimization Methods 0.000 claims abstract description 21
- 230000006870 function Effects 0.000 claims description 72
- 239000013598 vector Substances 0.000 claims description 47
- 238000010276 construction Methods 0.000 claims description 24
- 230000004913 activation Effects 0.000 claims description 18
- 238000010586 diagram Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 14
- 239000000126 substance Substances 0.000 claims description 12
- 230000006399 behavior Effects 0.000 claims description 7
- 230000006855 networking Effects 0.000 claims description 7
- 238000011160 research Methods 0.000 claims description 7
- 230000009286 beneficial effect Effects 0.000 description 3
- 240000006677 Vicia faba Species 0.000 description 2
- 235000010749 Vicia faba Nutrition 0.000 description 2
- 235000002098 Vicia faba var. major Nutrition 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 206010044565 Tremor Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种电影社交网络的社区结构检测方法及***,所述方法包括:获取用户数据集,根据用户之间的关注关系构建电影社交网络结构,将用户的观影数据作为用户节点属性,基于所述电影社交网络结构和所述用户节点属性建立邻接矩阵和属性矩阵;基于建立的邻接矩阵和属性矩阵,利用图自动编码器构建电影社交网络社区结构检测模型;对于构建的电影社交网络社区结构检测模型,设计一个联合优化目标函数,通过最小化所述联合优化目标函数进行模型训练;利用训练好的电影社交网络社区结构检测模型,实现对电影社交网络的社区结构检测,并将电影社交网络社区结构检测结果进行输出。本发明能够对电影社交网络中的社区结构进行有效可靠的划分。
Description
技术领域
本发明涉及数据挖掘技术领域,特别涉及一种电影社交网络的社区结构检测方法及***。
背景技术
随着计算机网络技术的快速发展和广泛应用,互联网领域中出现了越来越多的网络社交平台,如Facebook、抖音、微博等,这些社交平台迅猛发展并崛起,逐渐成为人们社交生活中不可或缺的一部分。基于不同社交平台产生了规模庞大且形式多样的社交网络,这种社交网络反映了社会个体之间的互动关系,大大提高了人们建立联系和交流信息的便捷性。电影社交网络作为一种常见的虚拟社交网络,已成为数千万热爱电影的网友使用最多的社交平台。例如,豆瓣是一个社区网站,提供关于书籍、电影、音乐等作品的信息,是Web2.0网站中具有特色的一个网站。豆瓣电影作为豆瓣旗下的一款产品,是中国最大的电影分享与评论社区,汇聚了数千万热爱电影的用户,这些用户之间通过互相关注来建立联系,从而实现信息传递。具有相同或相似兴趣的用户之间往往会存在关联关系,从而聚集在一起形成社区。同一社区的用户联系紧密且互动频繁,有利于信息的传播,便于用户进行兴趣交流。对电影社交网络中的社区结构进行检测,有利于研究人员进行用户兴趣分析、兴趣社区分析、用户观影行为预测等相关任务的研究,能够帮助网站为用户及时推送感兴趣的影片,同时,对于院线定位用户需求进行精准营销具有重要的商业价值。
现实世界中的社交网络蕴含着丰富的节点属性信息,这些属性信息在社区结构的形成中也产生着积极的影响。早期的社区发现方法主要包括:图分割方法、层次聚类方法、模块度优化方法、标签传播方法,这些方法通常是基于网络的拓扑结构来发现社区,而忽略了节点属性在社区结构形成中的重要作用。为此,本发明提出一种能够有效融合空间结构信息和节点属性信息,实现对电影社交网络中社区结构进行可靠划分的方法及***。
发明内容
本发明的目的在于提供一种电影社交网络的社区结构检测方法及***,能够对电影社交网络中的社区结构进行有效可靠的划分。
为解决上述技术问题,本发明的实施例提供如下方案:
一方面,提供了一种电影社交网络的社区结构检测方法,包括以下步骤:
S10、获取用户数据集,根据用户之间的关注关系构建电影社交网络结构,将用户的观影数据作为用户节点属性,基于所述电影社交网络结构和所述用户节点属性建立邻接矩阵和属性矩阵;所述观影数据包括:电影名称、电影类型、主要演员、地区;
S20、基于建立的邻接矩阵和属性矩阵,利用图自动编码器构建电影社交网络社区结构检测模型;
S30、对于构建的电影社交网络社区结构检测模型,设计一个联合优化目标函数,通过最小化所述联合优化目标函数进行模型训练;
S40、利用训练好的电影社交网络社区结构检测模型,实现对电影社交网络的社区结构检测,并将电影社交网络社区结构检测结果进行输出。
优选地,所述步骤S10具体包括以下步骤:
S11、从电影社交平台中获取用户数据集,根据用户之间的关注关系构建电影社交网络结构,将社交网络用户表示为网络中的用户节点,将用户之间的关注关系表示为用户节点间的边,将用户的观影数据作为用户节点的属性;将网络记为G=(V,E,X),V={v1,v2,…,vN}表示网络中N个用户节点的集合,其中第n个用户记为用户节点vn,1≤n≤N;E={e1,e2,…,eM}表示用户节点之间存在的M条边,其中第m条边记为em,1≤m≤M;X是N×D维的用户节点属性矩阵,其第n行xn=[xn1,xn2,…,xnD]表示网络中用户节点vn的D个属性,其中元素xnd表示用户节点vn的第d个属性,1≤d≤D;
S12、构建网络G=(V,E,X)的N×N维邻接矩阵,将该邻接矩阵记为A,令A中每个元素的值表示网络G=(V,E,X)中两个相应用户节点间的邻接关系,即A中第i行第j列的元素Aij代表网络中第i个用户节点vi和第j个用户节点vj之间的邻接关系,1≤i≤N,1≤j≤N,如果vi和vj之间存在边,则Aij=1,否则Aij=0。
优选地,所述步骤S20中构建的电影社交网络社区结构检测模型包含编码器、结构解码器、属性解码器、模块度优化器四个部分;所述步骤S20具体包括以下步骤:
其中,和分别为用户节点vi在经过第一层图注意力网络和第二层图注意力网络后得到的低维嵌入向量;s是非线性激活函数;Ni表示用户节点vi的邻居节点;αij称为标准化的注意力系数,由式(4)定义;W(0)和W(1)分别为第一层图注意力网络和第二层图注意力网络中的连接权重矩阵,是待定参数,在后续步骤中通过输入电影社交网络进行确定;Z为编码后的嵌入向量构成的集合,zt表示由用户节点vt编码得到的低维空间中的嵌入向量,且
式中,LeakyReLU()是非线性激活函数,由式(5)定义;a是权重向量;W是权重矩阵;xi代表用户节点vi的属性;||是连接操作;
式中,λ是负输入斜率,取值为0.2;
其中δ()为狄拉克函数;
使用交叉熵函数作为结构重构的损失函数,由式(7)定义:
S23、所述属性解码器使用与所述编码器中对称的2层图注意力网络来重构用户节点属性信息,每一层利用其邻居用户节点的表示来重构节点的属性,解码过程可以形式化的表示为:
其中,和分别为经过所述属性解码器中第一层图注意力网络和第二层图注意力网络后得到的低维嵌入向量;s是非线性激活函数;Ni表示用户节点vi的邻居节点;称为标准化的注意力系数;和分别为第一层图注意力网络和第二层图注意力网络中的连接权重矩阵;
属性重构的损失函数如式(11)定义:
S24、结合所述模块度优化器对社交网络社区结构进行检测;使用softmax函数对节点的低维嵌入向量Z进行分类得到社区分配矩阵P:
P=softmax(Z) (12)
为了使获得的社区内部更紧密,结合模块度对社区结构进行优化;模块度函数被定义为社区内边的数量与所有用户节点对上期望的边数之间的差值,表示为:
模块度的矩阵形式可以表示为:
为了优化式(14),定义了模块度损失:
其中,Tr()是矩阵的迹,Tr(PTP)=N。
优选地,所述步骤S30具体包括以下步骤:
S31、将所述编码器、所述结构解码器、所述属性解码器、所述模块度优化器四个部分联合训练,定义一个联合优化目标函数如式(16)所示:
L=La+Lx-βLmod (16)
其中,La是结构重构损失,Lx是属性重构损失,Lmod是模块度损失,β是超参数,用来衡量模块度损失的重要性;
S32、利用梯度方法进行反向传播,对电影社交网络社区结构检测模型中的连接权重矩阵进行更新。
优选地,所述步骤S40具体包括以下步骤:
S41、将电影社交网络中兴趣相似的用户划分到同一社区中;用户节点vi的社区标签t通过式(17)得到:
其中,piu是社区分配矩阵P中的元素,代表用户节点vi属于社区u的概率;
S42、将电影社交网络社区结构检测结果发送至相关分析人员或科研人员,用于进行包括用户兴趣分析、兴趣社区分析、用户观影行为预测、多样化影片推荐在内的相关任务。
一方面,提供了一种电影社交网络的社区结构检测***,包括连接计算机处理器和内存的电影社交网络结构构建以及邻接矩阵和属性矩阵构建单元、电影社交网络社区结构检测模型训练单元、电影社交网络社区结构检测结果输出单元;
所述电影社交网络结构构建以及邻接矩阵和属性矩阵构建单元用于执行步骤S10:获取用户数据集,根据用户之间的关注关系构建电影社交网络结构,将用户的观影数据作为用户节点属性,基于所述电影社交网络结构和所述用户节点属性建立邻接矩阵和属性矩阵,并加载到计算机内存中;所述观影数据包括:电影名称、电影类型、主要演员、地区;
所述电影社交网络社区结构检测模型训练单元用于执行步骤S20和步骤S30:基于建立的邻接矩阵和属性矩阵,利用图自动编码器构建电影社交网络社区结构检测模型;对于构建的电影社交网络社区结构检测模型,设计一个联合优化目标函数,通过最小化所述联合优化目标函数进行模型训练;
所述电影社交网络社区结构检测结果输出单元用于执行步骤S40:利用训练好的电影社交网络社区结构检测模型,实现对电影社交网络的社区结构检测,并将电影社交网络社区结构检测结果进行输出。
优选地,所述电影社交网络结构构建以及邻接矩阵和属性矩阵构建单元具体用于执行以下步骤:
S11、从电影社交平台中获取用户数据集,根据用户之间的关注关系构建电影社交网络结构,将社交网络用户表示为网络中的用户节点,将用户之间的关注关系表示为用户节点间的边,将用户的观影数据作为用户节点的属性;将网络记为G=(V,E,X),V={v1,v2,…,vN}表示网络中N个用户节点的集合,其中第n个用户记为用户节点vn,1≤n≤N;E={e1,e2,…,eM}表示用户节点之间存在的M条边,其中第m条边记为em,1≤m≤M;X是N×D维的用户节点属性矩阵,其第n行xn=[xn1,xn2,…,xnD]表示网络中用户节点vn的D个属性,其中元素xnd表示用户节点vn的第d个属性,1≤d≤D;
S12、构建网络G=(V,E,X)的N×N维邻接矩阵,将该邻接矩阵记为A,令A中每个元素的值表示网络G=(V,E,X)中两个相应用户节点间的邻接关系,即A中第i行第j列的元素Aij代表网络中第i个用户节点vi和第j个用户节点vj之间的邻接关系,1≤i≤N,1≤j≤N,如果vi和vj之间存在边,则Aij=1,否则Aij=0。
优选地,构建的电影社交网络社区结构检测模型包含编码器、结构解码器、属性解码器、模块度优化器四个部分,所述电影社交网络社区结构检测模型训练单元具体用于执行以下步骤:
其中,和分别为用户节点vi在经过第一层图注意力网络和第二层图注意力网络后得到的低维嵌入向量;s是非线性激活函数;Ni表示用户节点vi的邻居节点;αij称为标准化的注意力系数,由式(4)定义;W(0)和W(1)分别为第一层图注意力网络和第二层图注意力网络中的连接权重矩阵,是待定参数,在后续步骤中通过输入电影社交网络进行确定;Z为编码后的嵌入向量构成的集合,zt表示由用户节点vt编码得到的低维空间中的嵌入向量,且
式中,LeakyReLU()是非线性激活函数,由式(5)定义;a是权重向量;W是权重矩阵;xi代表用户节点vi的属性;||是连接操作;
式中,λ是负输入斜率,取值为0.2;
其中δ()为狄拉克函数;
使用交叉熵函数作为结构重构的损失函数,由式(7)定义:
S23、所述属性解码器使用与所述编码器中对称的2层图注意力网络来重构用户节点属性信息,每一层利用其邻居用户节点的表示来重构节点的属性,解码过程可以形式化的表示为:
其中,和分别为经过所述属性解码器中第一层图注意力网络和第二层图注意力网络后得到的低维嵌入向量;s是非线性激活函数;Ni表示用户节点vi的邻居节点;称为标准化的注意力系数;和分别为第一层图注意力网络和第二层图注意力网络中的连接权重矩阵;
属性重构的损失函数如式(11)定义:
S24、结合所述模块度优化器对社交网络社区结构进行检测;使用softmax函数对节点的低维嵌入向量Z进行分类得到社区分配矩阵P:
P=softmax(Z)(12)
为了使获得的社区内部更紧密,结合模块度对社区结构进行优化;模块度函数被定义为社区内边的数量与所有用户节点对上期望的边数之间的差值,表示为:
模块度的矩阵形式可以表示为:
为了优化式(14),定义了模块度损失:
其中,Tr()是矩阵的迹,Tr(PTP)=N。
优选地,所述电影社交网络社区结构检测模型训练单元还用于执行以下步骤:
S31、将所述编码器、所述结构解码器、所述属性解码器、所述模块度优化器四个部分联合训练,定义一个联合优化目标函数如式(16)所示:
L=La+Lx-βLmod (16)
其中,La是结构重构损失,Lx是属性重构损失,Lmod是模块度损失,β是超参数,用来衡量模块度损失的重要性;
S32、利用梯度方法进行反向传播,对电影社交网络社区结构检测模型中的连接权重矩阵进行更新。
优选地,所述电影社交网络社区结构检测结果输出单元具体用于执行以下步骤:
S41、将电影社交网络中兴趣相似的用户划分到同一社区中;用户节点vi的社区标签t通过式(17)得到:
其中,piu是社区分配矩阵P中的元素,代表用户节点vi属于社区u的概率;
S42、将电影社交网络社区结构检测结果发送至相关分析人员或科研人员,用于进行包括用户兴趣分析、兴趣社区分析、用户观影行为预测、多样化影片推荐在内的相关任务。
本发明实施例提供的技术方案带来的有益效果至少包括:
(1)本发明提供的电影社交网络的社区结构检测方法及***,构建电影社交网络的邻接矩阵和属性矩阵,不但可以记录用户之间的关联信息,还有效利用了用户的属性信息,有助于获得鲁棒性和可解释性更强的电影社交网络社区结构检测结果。
(2)本发明提供的电影社交网络的社区结构检测方法及***,利用图自动编码器结构建立电影社交网络社区结构检测模型,使模型具有一定的生成能力,从而使电影社交网络社区结构检测过程具有更强的泛化能力。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的电影社交网络的社区结构检测方法的流程图;
图2是本发明实施例提供的电影社交网络社区结构检测模型的结构图;
图3是本发明实施例提供的电影社交网络的社区结构检测***的结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明的实施例首先提供了一种电影社交网络的社区结构检测方法,如图1所示,所述方法包括以下步骤:
S10、获取用户数据集,根据用户之间的关注关系构建电影社交网络结构,将用户的观影数据(包括电影名称、电影类型、主要演员、地区等)作为用户节点属性,基于所述电影社交网络结构和所述用户节点属性建立邻接矩阵和属性矩阵。
本步骤具体包括以下步骤:
S11、从电影社交平台中获取用户数据集,根据用户之间的关注关系构建电影社交网络结构,将社交网络用户表示为网络中的用户节点,将用户之间的关注关系表示为用户节点间的边,将用户的观影数据作为用户节点的属性;将网络记为G=(V,E,X),V={v1,v2,…,vN}表示网络中N个用户节点的集合,其中第n个用户记为用户节点vn,1≤n≤N;E={e1,e2,…,eM}表示用户节点之间存在的M条边,其中第m条边记为em,1≤m≤M;X是N×D维的用户节点属性矩阵,其第n行xn=[xn1,xn2,…,xnD]表示网络中用户节点vn的D个属性,其中元素xnd表示用户节点vn的第d个属性,1≤d≤D;
S12、构建网络G=(V,E,X)的N×N维邻接矩阵,将该邻接矩阵记为A,令A中每个元素的值表示网络G=(V,E,X)中两个相应用户节点间的邻接关系,即A中第i行第j列的元素Aij代表网络中第i个用户节点vi和第j个用户节点vj之间的邻接关系,1≤i≤N,1≤j≤N,如果vi和vj之间存在边,则Aij=1,否则Aij=0。
S20、基于建立的邻接矩阵和属性矩阵,利用图自动编码器构建电影社交网络社区结构检测模型。
本步骤构建的电影社交网络社区结构检测模型包含编码器、结构解码器、属性解码器、模块度优化器四个部分,如图2所示,本步骤具体包括以下步骤:
其中,和分别为用户节点vi在经过第一层图注意力网络和第二层图注意力网络后得到的低维嵌入向量;s是非线性激活函数;Ni表示用户节点vi的邻居节点;αij称为标准化的注意力系数,由式(4)定义;W(0)和W(1)分别为第一层图注意力网络和第二层图注意力网络中的连接权重矩阵,是待定参数,在后续步骤中通过输入电影社交网络进行确定;Z为编码后的嵌入向量构成的集合,zt表示由用户节点vt编码得到的低维空间中的嵌入向量,且
式中,LeakyReLU()是非线性激活函数,由式(5)定义;a是权重向量;W是权重矩阵;xi代表用户节点vi的属性;||是连接操作;
式中,λ是负输入斜率,取值为0.2;
其中δ()为狄拉克函数;
使用交叉熵函数作为结构重构的损失函数,由式(7)定义:
S23、所述属性解码器使用与所述编码器中对称的2层图注意力网络来重构用户节点属性信息,每一层利用其邻居用户节点的表示来重构节点的属性,解码过程可以形式化的表示为:
其中,和分别为经过所述属性解码器中第一层图注意力网络和第二层图注意力网络后得到的低维嵌入向量;s是非线性激活函数;Ni表示用户节点vi的邻居节点;称为标准化的注意力系数;和分别为第一层图注意力网络和第二层图注意力网络中的连接权重矩阵;
属性重构的损失函数如式(11)定义:
S24、结合所述模块度优化器对社交网络社区结构进行检测;使用softmax函数对节点的低维嵌入向量Z进行分类得到社区分配矩阵P:
P=softmax(Z) (12)
为了使获得的社区内部更紧密,结合模块度对社区结构进行优化;模块度函数被定义为社区内边的数量与所有用户节点对上期望的边数之间的差值,表示为:
模块度的矩阵形式可以表示为:
为了优化式(14),定义了模块度损失:
其中,Tr()是矩阵的迹,Tr(PTP)=N。
S30、对于构建的电影社交网络社区结构检测模型,设计一个联合优化目标函数,通过最小化所述联合优化目标函数进行模型训练。
本步骤具体包括以下步骤:
S31、将所述编码器、所述结构解码器、所述属性解码器、所述模块度优化器四个部分联合训练,定义一个联合优化目标函数如式(16)所示:
L=La+Lx-βLmod (16)
其中,La是结构重构损失,Lx是属性重构损失,Lmod是模块度损失,β是超参数,用来衡量模块度损失的重要性;
S32、利用梯度方法进行反向传播,对电影社交网络社区结构检测模型中的连接权重矩阵进行更新。
S40、利用训练好的电影社交网络社区结构检测模型,实现对电影社交网络的社区结构检测,并将电影社交网络社区结构检测结果进行输出。
本步骤具体包括以下步骤:
S41、将电影社交网络中兴趣相似的用户划分到同一社区中;用户节点vi的社区标签t通过式(17)得到:
其中,piu是社区分配矩阵P中的元素,代表用户节点vi属于社区u的概率;
S42、将电影社交网络社区结构检测结果发送至相关分析人员或科研人员,用于进行包括用户兴趣分析、兴趣社区分析、用户观影行为预测、多样化影片推荐在内的相关任务。
为验证本发明所述方法的有效性和先进性,将本发明与几种经典的社区检测方法进行比较,对比方法包括基于信息论的Infomap方法、标签传播(LPA)方法、图自编码器(GAE)方法,以及基于GCN的无监督社区发现(JGE-CD)方法,以20次实验的平均准确率和归一化互信息为评价指标,将上述匹配结果进行对比分析,比较结果如表1所示:
表1结果对比
由表中结果可以看出,本发明方法在对电影社交网络进行社区结构检测时,能获得更优的准确率和归一化互信息。
相应地,本发明的实施例还提供了一种电影社交网络的社区结构检测***,如图3所示,所述***包括:连接计算机处理器和内存的电影社交网络结构构建以及邻接矩阵和属性矩阵构建单元、电影社交网络社区结构检测模型训练单元、电影社交网络社区结构检测结果输出单元;
所述电影社交网络结构构建以及邻接矩阵和属性矩阵构建单元用于执行步骤S10:获取用户数据集,根据用户之间的关注关系构建电影社交网络结构,将用户的观影数据作为用户节点属性,基于所述电影社交网络结构和所述用户节点属性建立邻接矩阵和属性矩阵,并加载到计算机内存中;所述观影数据包括:电影名称、电影类型、主要演员、地区;
所述电影社交网络社区结构检测模型训练单元用于执行步骤S20和步骤S30:基于建立的邻接矩阵和属性矩阵,利用图自动编码器构建电影社交网络社区结构检测模型;对于构建的电影社交网络社区结构检测模型,设计一个联合优化目标函数,通过最小化所述联合优化目标函数进行模型训练;
所述电影社交网络社区结构检测结果输出单元用于执行步骤S40:利用训练好的电影社交网络社区结构检测模型,实现对电影社交网络的社区结构检测,并将电影社交网络社区结构检测结果进行输出。
进一步地,所述电影社交网络结构构建以及邻接矩阵和属性矩阵构建单元具体用于执行以下步骤:
S11、从电影社交平台中获取用户数据集,根据用户之间的关注关系构建电影社交网络结构,将社交网络用户表示为网络中的用户节点,将用户之间的关注关系表示为用户节点间的边,将用户的观影数据作为用户节点的属性;将网络记为G=(V,E,X),V={v1,v2,…,vN}表示网络中N个用户节点的集合,其中第n个用户记为用户节点vn,1≤n≤N;E={e1,e2,…,eM}表示用户节点之间存在的M条边,其中第m条边记为em,1≤m≤M;X是N×D维的用户节点属性矩阵,其第n行xn=[xn1,xn2,…,xnD]表示网络中用户节点vn的D个属性,其中元素xnd表示用户节点vn的第d个属性,1≤d≤D;
S12、构建网络G=(V,E,X)的N×N维邻接矩阵,将该邻接矩阵记为A,令A中每个元素的值表示网络G=(V,E,X)中两个相应用户节点间的邻接关系,即A中第i行第j列的元素Aij代表网络中第i个用户节点vi和第j个用户节点vj之间的邻接关系,1≤i≤N,1≤j≤N,如果vi和vj之间存在边,则Aij=1,否则Aij=0。
进一步地,构建的电影社交网络社区结构检测模型包含编码器、结构解码器、属性解码器、模块度优化器四个部分,所述电影社交网络社区结构检测模型训练单元具体用于执行以下步骤:
S21、所述编码器将电影社交网络G=(V,E,X)编码为低维空间中的嵌入向量,使用2层结构相同的图注意力网络作为编码器,将xi=hi (0)作为输入,其编码过程的形式化表示如下所示:
其中,和分别为用户节点vi在经过第一层图注意力网络和第二层图注意力网络后得到的低维嵌入向量;s是非线性激活函数;Ni表示用户节点vi的邻居节点;αij称为标准化的注意力系数,由式(4)定义;W(0)和W(1)分别为第一层图注意力网络和第二层图注意力网络中的连接权重矩阵,是待定参数,在后续步骤中通过输入电影社交网络进行确定;Z为编码后的嵌入向量构成的集合,zt表示由用户节点vt编码得到的低维空间中的嵌入向量,且
式中,LeakyReLU()是非线性激活函数,由式(5)定义;a是权重向量;W是权重矩阵;xi代表用户节点vi的属性;||是连接操作;
式中,λ是负输入斜率,取值为0.2;
其中δ()为狄拉克函数;
使用交叉熵函数作为结构重构的损失函数,由式(7)定义:
S23、所述属性解码器使用与所述编码器中对称的2层图注意力网络来重构用户节点属性信息,每一层利用其邻居用户节点的表示来重构节点的属性,解码过程可以形式化的表示为:
其中,和分别为经过所述属性解码器中第一层图注意力网络和第二层图注意力网络后得到的低维嵌入向量;s是非线性激活函数;Ni表示用户节点vi的邻居节点;称为标准化的注意力系数;和分别为第一层图注意力网络和第二层图注意力网络中的连接权重矩阵;
属性重构的损失函数如式(11)定义:
S24、结合所述模块度优化器对社交网络社区结构进行检测;使用softmax函数对节点的低维嵌入向量Z进行分类得到社区分配矩阵P:
P=softmax(Z) (12)
为了使获得的社区内部更紧密,结合模块度对社区结构进行优化;模块度函数被定义为社区内边的数量与所有用户节点对上期望的边数之间的差值,表示为:
模块度的矩阵形式可以表示为:
为了优化式(14),定义了模块度损失:
其中,Tr()是矩阵的迹,Tr(PTP)=N。
进一步地,所述电影社交网络社区结构检测模型训练单元还用于执行以下步骤:
S31、将所述编码器、所述结构解码器、所述属性解码器、所述模块度优化器四个部分联合训练,定义一个联合优化目标函数如式(16)所示:
L=La+Lx-βLmod (16)
其中,La是结构重构损失,Lx是属性重构损失,Lmod是模块度损失,β是超参数,用来衡量模块度损失的重要性;
S32、利用梯度方法进行反向传播,对电影社交网络社区结构检测模型中的连接权重矩阵进行更新。
进一步地,所述电影社交网络社区结构检测结果输出单元具体用于执行以下步骤:
S41、将电影社交网络中兴趣相似的用户划分到同一社区中;用户节点vi的社区标签t通过式(17)得到:
其中,piu是社区分配矩阵P中的元素,代表用户节点vi属于社区u的概率;
S42、将电影社交网络社区结构检测结果发送至相关分析人员或科研人员,用于进行包括用户兴趣分析、兴趣社区分析、用户观影行为预测、多样化影片推荐在内的相关任务。
与现有技术相比,本发明提供的电影社交网络的社区结构检测方法及***,构建电影社交网络的邻接矩阵和属性矩阵,不但可以记录用户之间的关联信息,还有效利用了用户的属性信息,有助于获得鲁棒性和可解释性更强的电影社交网络社区结构检测结果。并且,本发明利用图自动编码器结构建立电影社交网络社区结构检测模型,使模型具有一定的生成能力,从而使电影社交网络社区结构检测过程具有更强的泛化能力。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种电影社交网络的社区结构检测方法,其特征在于,包括以下步骤:
S10、获取用户数据集,根据用户之间的关注关系构建电影社交网络结构,将用户的观影数据作为用户节点属性,基于所述电影社交网络结构和所述用户节点属性建立邻接矩阵和属性矩阵;所述观影数据包括:电影名称、电影类型、主要演员、地区;
S20、基于建立的邻接矩阵和属性矩阵,利用图自动编码器构建电影社交网络社区结构检测模型;
S30、对于构建的电影社交网络社区结构检测模型,设计一个联合优化目标函数,通过最小化所述联合优化目标函数进行模型训练;
S40、利用训练好的电影社交网络社区结构检测模型,实现对电影社交网络的社区结构检测,并将电影社交网络社区结构检测结果进行输出。
2.根据权利要求1所述的电影社交网络的社区结构检测方法,其特征在于,所述步骤S10具体包括以下步骤:
S11、从电影社交平台中获取用户数据集,根据用户之间的关注关系构建电影社交网络结构,将社交网络用户表示为网络中的用户节点,将用户之间的关注关系表示为用户节点间的边,将用户的观影数据作为用户节点的属性;将网络记为G=(V,E,X),V={v1,v2,…,vN}表示网络中N个用户节点的集合,其中第n个用户记为用户节点vn,1≤n≤N;E={e1,e2,…,eM}表示用户节点之间存在的M条边,其中第m条边记为em,1≤m≤M;X是N×D维的用户节点属性矩阵,其第n行xn=[xn1,xn2,…,xnD]表示网络中用户节点vn的D个属性,其中元素xnd表示用户节点vn的第d个属性,1≤d≤D;
S12、构建网络G=(V,E,X)的N×N维邻接矩阵,将该邻接矩阵记为A,令A中每个元素的值表示网络G=(V,E,X)中两个相应用户节点间的邻接关系,即A中第i行第j列的元素Aij代表网络中第i个用户节点vi和第j个用户节点vj之间的邻接关系,1≤i≤N,1≤j≤N,如果vi和vj之间存在边,则Aij=1,否则Aij=0。
3.根据权利要求2所述的电影社交网络的社区结构检测方法,其特征在于,所述步骤S20中构建的电影社交网络社区结构检测模型包含编码器、结构解码器、属性解码器、模块度优化器四个部分;所述步骤S20具体包括以下步骤:
其中,和分别为用户节点vi在经过第一层图注意力网络和第二层图注意力网络后得到的低维嵌入向量;s是非线性激活函数;Ni表示用户节点vi的邻居节点;αij称为标准化的注意力系数,由式(4)定义;W(0)和W(1)分别为第一层图注意力网络和第二层图注意力网络中的连接权重矩阵,是待定参数,在后续步骤中通过输入电影社交网络进行确定;Z为编码后的嵌入向量构成的集合,zt表示由用户节点vt编码得到的低维空间中的嵌入向量,且
式中,LeakyReLU()是非线性激活函数,由式(5)定义;a是权重向量;W是权重矩阵;xi代表用户节点vi的属性;||是连接操作;
式中,λ是负输入斜率,取值为0.2;
其中δ()为狄拉克函数;
使用交叉熵函数作为结构重构的损失函数,由式(7)定义:
S23、所述属性解码器使用与所述编码器中对称的2层图注意力网络来重构用户节点属性信息,每一层利用其邻居用户节点的表示来重构节点的属性,解码过程可以形式化的表示为:
其中,和分别为经过所述属性解码器中第一层图注意力网络和第二层图注意力网络后得到的低维嵌入向量;s是非线性激活函数;Ni表示用户节点vi的邻居节点;称为标准化的注意力系数;和分别为第一层图注意力网络和第二层图注意力网络中的连接权重矩阵;
属性重构的损失函数如式(11)定义:
S24、结合所述模块度优化器对社交网络社区结构进行检测;使用softmax函数对节点的低维嵌入向量Z进行分类得到社区分配矩阵P:
P=softmax(Z) (12)
为了使获得的社区内部更紧密,结合模块度对社区结构进行优化;模块度函数被定义为社区内边的数量与所有用户节点对上期望的边数之间的差值,表示为:
模块度的矩阵形式可以表示为:
为了优化式(14),定义了模块度损失:
其中,Tr()是矩阵的迹,Tr(PTP)=N。
4.根据权利要求3所述的电影社交网络的社区结构检测方法,其特征在于,所述步骤S30具体包括以下步骤:
S31、将所述编码器、所述结构解码器、所述属性解码器、所述模块度优化器四个部分联合训练,定义一个联合优化目标函数如式(16)所示:
L=La+Lx-βLmod (16)
其中,La是结构重构损失,Lx是属性重构损失,Lmod是模块度损失,β是超参数,用来衡量模块度损失的重要性;
S32、利用梯度方法进行反向传播,对电影社交网络社区结构检测模型中的连接权重矩阵进行更新。
6.一种电影社交网络的社区结构检测***,其特征在于,包括连接计算机处理器和内存的电影社交网络结构构建以及邻接矩阵和属性矩阵构建单元、电影社交网络社区结构检测模型训练单元、电影社交网络社区结构检测结果输出单元;
所述电影社交网络结构构建以及邻接矩阵和属性矩阵构建单元用于执行步骤S10:获取用户数据集,根据用户之间的关注关系构建电影社交网络结构,将用户的观影数据作为用户节点属性,基于所述电影社交网络结构和所述用户节点属性建立邻接矩阵和属性矩阵,并加载到计算机内存中;所述观影数据包括:电影名称、电影类型、主要演员、地区;
所述电影社交网络社区结构检测模型训练单元用于执行步骤S20和步骤S30:基于建立的邻接矩阵和属性矩阵,利用图自动编码器构建电影社交网络社区结构检测模型;对于构建的电影社交网络社区结构检测模型,设计一个联合优化目标函数,通过最小化所述联合优化目标函数进行模型训练;
所述电影社交网络社区结构检测结果输出单元用于执行步骤S40:利用训练好的电影社交网络社区结构检测模型,实现对电影社交网络的社区结构检测,并将电影社交网络社区结构检测结果进行输出。
7.根据权利要求6所述的电影社交网络的社区结构检测***,其特征在于,所述电影社交网络结构构建以及邻接矩阵和属性矩阵构建单元具体用于执行以下步骤:
S11、从电影社交平台中获取用户数据集,根据用户之间的关注关系构建电影社交网络结构,将社交网络用户表示为网络中的用户节点,将用户之间的关注关系表示为用户节点间的边,将用户的观影数据作为用户节点的属性;将网络记为G=(V,E,X),V={v1,v2,…,vN}表示网络中N个用户节点的集合,其中第n个用户记为用户节点vn,1≤n≤N;E={e1,e2,…,eM}表示用户节点之间存在的M条边,其中第m条边记为em,1≤m≤M;X是N×D维的用户节点属性矩阵,其第n行xn=[xn1,xn2,…,xnD]表示网络中用户节点vn的D个属性,其中元素xnd表示用户节点vn的第d个属性,1≤d≤D;
S12、构建网络G=(V,E,X)的N×N维邻接矩阵,将该邻接矩阵记为A,令A中每个元素的值表示网络G=(V,E,X)中两个相应用户节点间的邻接关系,即A中第i行第j列的元素Aij代表网络中第i个用户节点vi和第j个用户节点vj之间的邻接关系,1≤i≤N,1≤j≤N,如果vi和vj之间存在边,则Aij=1,否则Aij=0。
8.根据权利要求7所述的电影社交网络的社区结构检测***,其特征在于,构建的电影社交网络社区结构检测模型包含编码器、结构解码器、属性解码器、模块度优化器四个部分,所述电影社交网络社区结构检测模型训练单元具体用于执行以下步骤:
其中,和分别为用户节点vi在经过第一层图注意力网络和第二层图注意力网络后得到的低维嵌入向量;s是非线性激活函数;Ni表示用户节点vi的邻居节点;αij称为标准化的注意力系数,由式(4)定义;W(0)和W(1)分别为第一层图注意力网络和第二层图注意力网络中的连接权重矩阵,是待定参数,在后续步骤中通过输入电影社交网络进行确定;Z为编码后的嵌入向量构成的集合,zt表示由用户节点vt编码得到的低维空间中的嵌入向量,且
式中,LeakyReLU()是非线性激活函数,由式(5)定义;a是权重向量;W是权重矩阵;xi代表用户节点vi的属性;||是连接操作;
式中,λ是负输入斜率,取值为0.2;
其中δ()为狄拉克函数;
使用交叉熵函数作为结构重构的损失函数,由式(7)定义:
S23、所述属性解码器使用与所述编码器中对称的2层图注意力网络来重构用户节点属性信息,每一层利用其邻居用户节点的表示来重构节点的属性,解码过程可以形式化的表示为:
其中,和分别为经过所述属性解码器中第一层图注意力网络和第二层图注意力网络后得到的低维嵌入向量;s是非线性激活函数;Ni表示用户节点vi的邻居节点;称为标准化的注意力系数;和分别为第一层图注意力网络和第二层图注意力网络中的连接权重矩阵;
属性重构的损失函数如式(11)定义:
S24、结合所述模块度优化器对社交网络社区结构进行检测;使用softmax函数对节点的低维嵌入向量Z进行分类得到社区分配矩阵P:
P=softmax(Z) (12)
为了使获得的社区内部更紧密,结合模块度对社区结构进行优化;模块度函数被定义为社区内边的数量与所有用户节点对上期望的边数之间的差值,表示为:
模块度的矩阵形式可以表示为:
为了优化式(14),定义了模块度损失:
其中,Tr()是矩阵的迹,Tr(PTP)=N。
9.根据权利要求8所述的电影社交网络的社区结构检测***,其特征在于,所述电影社交网络社区结构检测模型训练单元还用于执行以下步骤:
S31、将所述编码器、所述结构解码器、所述属性解码器、所述模块度优化器四个部分联合训练,定义一个联合优化目标函数如式(16)所示:
L=La+Lx-βLmod (16)
其中,La是结构重构损失,Lx是属性重构损失,Lmod是模块度损失,β是超参数,用来衡量模块度损失的重要性;
S32、利用梯度方法进行反向传播,对电影社交网络社区结构检测模型中的连接权重矩阵进行更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111221461.8A CN114020999A (zh) | 2021-10-20 | 2021-10-20 | 一种电影社交网络的社区结构检测方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111221461.8A CN114020999A (zh) | 2021-10-20 | 2021-10-20 | 一种电影社交网络的社区结构检测方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114020999A true CN114020999A (zh) | 2022-02-08 |
Family
ID=80056817
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111221461.8A Pending CN114020999A (zh) | 2021-10-20 | 2021-10-20 | 一种电影社交网络的社区结构检测方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114020999A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115964626A (zh) * | 2022-10-27 | 2023-04-14 | 河南大学 | 一种基于动态多尺度特征融合网络的社区检测方法 |
CN116563049A (zh) * | 2023-04-24 | 2023-08-08 | 华南师范大学 | 一种有向带权符号社交网络社区发现方法 |
CN117113240A (zh) * | 2023-10-23 | 2023-11-24 | 华南理工大学 | 动态网络社区发现方法、装置、设备及存储介质 |
-
2021
- 2021-10-20 CN CN202111221461.8A patent/CN114020999A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115964626A (zh) * | 2022-10-27 | 2023-04-14 | 河南大学 | 一种基于动态多尺度特征融合网络的社区检测方法 |
CN116563049A (zh) * | 2023-04-24 | 2023-08-08 | 华南师范大学 | 一种有向带权符号社交网络社区发现方法 |
CN117113240A (zh) * | 2023-10-23 | 2023-11-24 | 华南理工大学 | 动态网络社区发现方法、装置、设备及存储介质 |
CN117113240B (zh) * | 2023-10-23 | 2024-03-26 | 华南理工大学 | 动态网络社区发现方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110162700B (zh) | 信息推荐及模型的训练方法、装置、设备以及存储介质 | |
Darban et al. | GHRS: Graph-based hybrid recommendation system with application to movie recommendation | |
CN114020999A (zh) | 一种电影社交网络的社区结构检测方法及*** | |
CN114048350A (zh) | 一种基于细粒度跨模态对齐模型的文本-视频检索方法 | |
CN112507246B (zh) | 一种融合全局和局部社会兴趣影响的社会推荐方法 | |
CN110069713B (zh) | 一种基于用户上下文感知的个性化推荐方法 | |
CN112417313A (zh) | 一种基于知识图卷积网络的模型混合推荐方法 | |
CN112948625B (zh) | 一种基于属性异质信息网络嵌入的电影推荐方法 | |
Huang et al. | Neural embedding collaborative filtering for recommender systems | |
CN114461907B (zh) | 一种基于知识图谱的多元环境感知推荐方法及*** | |
CN114065048A (zh) | 基于多异构图图神经网络的物品推荐方法 | |
Hazrati et al. | Addressing the New Item problem in video recommender systems by incorporation of visual features with restricted Boltzmann machines | |
CN114357201B (zh) | 基于信息感知的视听推荐方法、*** | |
CN115600017A (zh) | 特征编码模型训练方法及装置、媒体对象推荐方法及装置 | |
Yin et al. | An efficient recommendation algorithm based on heterogeneous information network | |
CN113590965B (zh) | 一种融合知识图谱与情感分析的视频推荐方法 | |
Wang et al. | Research on BP neural network recommendation model fusing user reviews and ratings | |
CN113918711B (zh) | 一种基于多视图多层注意力的面向学术论文的分类方法 | |
Khan et al. | Cross‐modal retrieval based on deep regularized hashing constraints | |
Nazari et al. | Scalable and data-independent multi-agent recommender system using social networks analysis | |
CN111930926B (zh) | 结合评论文本挖掘的个性化推荐算法 | |
CN113342994A (zh) | 一种基于无采样协作知识图网络的推荐*** | |
CN112765490A (zh) | 一种基于知识图谱和图卷积网络的信息推荐方法及*** | |
Ntalianis et al. | Social relevance feedback based on multimedia content power | |
Deng et al. | A Trust-aware Neural Collaborative Filtering for Elearning Recommendation. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |