CN112084418A - 一种基于邻居信息和属性网络表征学习的微博用户社团发现方法 - Google Patents

一种基于邻居信息和属性网络表征学习的微博用户社团发现方法 Download PDF

Info

Publication number
CN112084418A
CN112084418A CN202010742856.1A CN202010742856A CN112084418A CN 112084418 A CN112084418 A CN 112084418A CN 202010742856 A CN202010742856 A CN 202010742856A CN 112084418 A CN112084418 A CN 112084418A
Authority
CN
China
Prior art keywords
user
attribute
microblog
information
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010742856.1A
Other languages
English (en)
Other versions
CN112084418B (zh
Inventor
徐新黎
肖云月
杨旭华
徐齐婧
周艳波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202010742856.1A priority Critical patent/CN112084418B/zh
Publication of CN112084418A publication Critical patent/CN112084418A/zh
Application granted granted Critical
Publication of CN112084418B publication Critical patent/CN112084418B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于邻居信息和属性网络表征学习的微博用户社团发现方法,利用现有的微博数据构建属性网络G=(V,E,F),根据用户关注信息的邻接矩阵A计算节点相似度SAij,根据用户属性信息矩阵F计算属性接近度矩阵SF,对网络拓扑和属性信息联合建模,采用分布式算法进行求解,最小化目标函数J,得到每个用户的嵌入向量H,对每个用户的嵌入向量H进行k‑means聚类,得到用户的类别标签,实现社团发现。本发明使用属性网络表征学习框架融合了微博用户的关注信息和属性信息,将高维用户信息转化为低维特征空间的向量,用k‑means聚类算法实现社团发现。降低了社团划分的复杂度,提高了社团发现的准确性,具有良好的性能。

Description

一种基于邻居信息和属性网络表征学习的微博用户社团发现 方法
技术领域
本发明涉及网络科学领域,特别是指一种基于邻居信息和属性网络表征学习的微博用户社团发现方法。
背景技术
随着信息技术的极大发展,逐渐出现了以Facebook、微博为代表的大型属性网络,这些社交网络是在人们日常工作和娱乐生活中占重要一部分。而微博是在当今中国社交网络中具有极大的代表性,可以实时看到最新最热的新闻消息,也可以发布自己的动态或者及时看到明星的动态,深受广大年轻人的喜爱。微博中的用户社区是一种大型节点属性网络,社团内部的成员往往连接较紧密并且爱好相同或相似。
在节点属性网络中划分社团有很多的作用,微博平台可以利用不同社团内的用户的联系和爱好为用户定制个性化推荐,可以利用划分的社团判断机器人用户。同样的,平台可以依此精准投放广告,用户可以找到更多自己感兴趣的其他用户或者内容。
近年来已经提出一些属性网络社团发现方法,例如Block-LDA算法、Circles算法、CESNA算法等,这些社团发现的算法对网络拓扑的挖掘不够,而且准确率并不高,不能很好地将相似的用户划分到同一社团。
发明内容
为了克服目前在大型属性社交网络的社区发现方法存在的无法有效融合网络拓扑和属性信息、社团划分准确率不高等方面的缺陷,本发明提出了一种有效的基于邻居信息和属性网络表征学习的微博用户社区发现方法,首先将微博网络的拓扑信息和用户属性信息通过属性表征框架转化成特征空间的嵌入向量,该框架深入挖掘了用户的邻居信息并将拓扑结构和属性信息很好地融合在一起,然后使用k-means聚类划分社团,提高属性网络社团发现的准确率和效率。
本发明解决其技术问题所采用的技术方案是:
一种基于邻居信息和属性网络表征学习的微博用户社区发现方法,包括如下步骤:
步骤一:微博网络表示为一个属性网络G=(V,E,F),其中V={v1,v2,...,vn}为节点集合,每个节点表示一个用户,节点数即用户总数n=|V|,E为边集合,所有微博用户的连边关系构成一个邻接矩阵A,每个用户的属性F’={f1,f2,...,fm},微博用户属性数量m=|F’|,所有微博用户的属性表示为一个n行m列的属性信息矩阵F;
步骤二:根据微博用户的连边关系矩阵A,计算节点相似度SAij
Figure BDA0002607328120000021
其中,cij为用户i与用户j的共同邻居数,wij为邻接矩阵A中用户i与用户j相连的边权,即在用户i与用户j有关注的情况下,节点相似度SAij为两用户的共同邻居数比上节点总数,在两用户没有关注的情况下,SAij为0;
步骤三:对属性信息矩阵F,采用余弦相似度度量标准计算属性接近度矩阵SF;
步骤四:对网络拓扑和属性信息联合建模,设置嵌入向量H的维度d,采用分布式算法进行求解,最小化目标函数J,得到每个用户的嵌入向量H,
Figure BDA0002607328120000022
其中,等式右边第1项为属性信息的损失函数,等式右边第2项为网络拓扑损失函数,λ为一个标量,是拓扑信息与属性信息所占比例的权衡,当λ=0时,表示嵌入模型只考虑了属性信息,hi、hj分别代表用户i和用户j的向量表征;
步骤五:对每个用户的嵌入向量H进行k-means聚类,得到用户的类别标签,实现社团发现。
本发明的技术构思为:根据微博网络的网络拓扑信息和属性信息,分别计算节点相似度和属性接近度,将两者联合表征,利用分布式算法求解得到嵌入向量,然后通过k-means聚类得到社团划分,具有融合微博网络用户邻居信息和属性信息的优点,提高了社团发现的准确率和有效性。
本发明的有益效果为:利用属性网络表征学习,融合了网络拓扑结构信息和节点属性信息,提高了社团发现的正确率和有效性。
附图说明
图1为一个简单的微博网络示意图,图中的节点表示微博网络的用户,数字1,2,3,...,7为相应的用户编号,如果用户之间有相互的关注,则两节点之间有一条连边。
图2为本发明的流程图。
具体实施方式
下面结合附图对本发明做进一步说明。
参照图1~图2,一种基于邻居信息和属性网络表征学习微博用户社区发现方法,包括如下步骤:
步骤一:微博网络表示为一个属性网络G=(V,E,F),其中V={v1,v2,...,vn}为节点集合,每个节点表示一个用户,节点数即用户总数n=|V|,E为边集合,所有微博用户的连边关系构成一个邻接矩阵A,每个用户的属性F’={f1,f2,...,fm},微博用户属性数量m=|F’|,所有微博用户的属性表示为一个n行m列的属性信息矩阵F;
步骤二:根据微博用户的连边关系矩阵A,计算节点相似度SAij
Figure BDA0002607328120000031
其中,cij为用户i与用户j的共同邻居数,wij为邻接矩阵A中用户i与用户j相连的边权,即在用户i与用户j有关注的情况下,节点相似度SAij为两用户的共同邻居数比上节点总数,在两用户没有关注的情况下,SAij为0;
步骤三:对属性信息矩阵F,采用余弦相似度度量标准计算属性接近度矩阵SF;
步骤四:对网络拓扑和属性信息联合建模,设置嵌入向量H的维度d,采用分布式算法进行求解,最小化目标函数J,得到每个用户的嵌入向量H,
Figure BDA0002607328120000032
其中,等式右边第1项为属性信息的损失函数,等式右边第2项为网络拓扑损失函数,λ为一个标量,是拓扑信息与属性信息所占比例的权衡,当λ=0时,表示嵌入模型只考虑了属性信息,hi、hj分别代表用户i和用户j的向量表征;
步骤五:对每个用户的嵌入向量H进行k-means聚类,得到用户的类别标签,实现社团发现。
如上所述,本专利实施的具体实现步骤使本发明更加清晰。在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (1)

1.一种基于邻居信息和属性网络表征学习的微博用户社团发现方法,其特征在于:所述方法包括如下步骤:
步骤一:微博网络表示为一个属性网络G=(V,E,F),其中V={v1,v2,...,vn}为节点集合,每个节点表示一个用户,节点数即用户总数n=|V|,E为边集合,所有微博用户的连边关系构成一个邻接矩阵A,每个用户的属性F’={f1,f2,...,fm},微博用户属性数量m=|F’|,所有微博用户的属性表示为一个n行m列的属性信息矩阵F;
步骤二:根据微博用户的连边关系矩阵A,计算节点相似度SAij
Figure FDA0002607328110000011
其中,cij为用户i与用户j的共同邻居数,wij为邻接矩阵A中用户i与用户j相连的边权,即在用户i与用户j有关注的情况下,节点相似度SAij为两用户的共同邻居数比上节点总数,在两用户没有关注的情况下,SAij为0;
步骤三:对属性信息矩阵F,采用余弦相似度度量标准计算属性接近度矩阵SF;
步骤四:对网络拓扑和属性信息联合建模,设置嵌入向量H的维度d,采用分布式算法进行求解,最小化目标函数J,得到每个用户的嵌入向量H,
Figure FDA0002607328110000012
其中,等号右边第1项为属性信息的损失函数,等号右边第2项为网络拓扑损失函数,λ为一个标量,是拓扑信息与属性信息所占比例的权衡,当λ=0时,表示嵌入模型只考虑了属性信息,hi、hj分别代表用户i和用户j的向量表征;
步骤五:对每个用户的嵌入向量H进行k-means聚类,得到用户的类别标签,实现社团发现。
CN202010742856.1A 2020-07-29 2020-07-29 一种基于邻居信息和属性网络表征学习的微博用户社团发现方法 Active CN112084418B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010742856.1A CN112084418B (zh) 2020-07-29 2020-07-29 一种基于邻居信息和属性网络表征学习的微博用户社团发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010742856.1A CN112084418B (zh) 2020-07-29 2020-07-29 一种基于邻居信息和属性网络表征学习的微博用户社团发现方法

Publications (2)

Publication Number Publication Date
CN112084418A true CN112084418A (zh) 2020-12-15
CN112084418B CN112084418B (zh) 2023-07-28

Family

ID=73735234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010742856.1A Active CN112084418B (zh) 2020-07-29 2020-07-29 一种基于邻居信息和属性网络表征学习的微博用户社团发现方法

Country Status (1)

Country Link
CN (1) CN112084418B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113159976A (zh) * 2021-05-13 2021-07-23 电子科技大学 一种微博网络重要用户的识别方法
CN113407784A (zh) * 2021-05-28 2021-09-17 桂林电子科技大学 一种基于社交网络的社团划分方法、***及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105608624A (zh) * 2015-12-29 2016-05-25 武汉理工大学 基于用户体验的微博大数据兴趣社区分析优化方法
CN108334580A (zh) * 2018-01-25 2018-07-27 重庆邮电大学 一种结合链接和属性信息的社区发现方法
US20180341696A1 (en) * 2017-05-27 2018-11-29 Hefei University Of Technology Method and system for detecting overlapping communities based on similarity between nodes in social network
CN108920678A (zh) * 2018-07-10 2018-11-30 福州大学 一种基于谱聚类与模糊集的重叠社区发现方法
CN110569415A (zh) * 2019-08-28 2019-12-13 浙江工业大学 一种基于网络表征学习和邻居合力的微博用户社区发现方法
CN111026919A (zh) * 2019-11-14 2020-04-17 西北师范大学 一种基于双视图的自适应两级加权目标社区发现及检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105608624A (zh) * 2015-12-29 2016-05-25 武汉理工大学 基于用户体验的微博大数据兴趣社区分析优化方法
US20180341696A1 (en) * 2017-05-27 2018-11-29 Hefei University Of Technology Method and system for detecting overlapping communities based on similarity between nodes in social network
CN108334580A (zh) * 2018-01-25 2018-07-27 重庆邮电大学 一种结合链接和属性信息的社区发现方法
CN108920678A (zh) * 2018-07-10 2018-11-30 福州大学 一种基于谱聚类与模糊集的重叠社区发现方法
CN110569415A (zh) * 2019-08-28 2019-12-13 浙江工业大学 一种基于网络表征学习和邻居合力的微博用户社区发现方法
CN111026919A (zh) * 2019-11-14 2020-04-17 西北师范大学 一种基于双视图的自适应两级加权目标社区发现及检测方法

Non-Patent Citations (13)

* Cited by examiner, † Cited by third party
Title
FANRONG MENG 等: "Coupled Node Similarity Learning for Community Detection in Attributed Networks", pages 1 - 5, Retrieved from the Internet <URL:https://www.mdpi.com/1099-4300/20/6/471> *
FATANEH DABAGHI ZARANDI 等: "Community detection in complex networks using structural similarity", PHYSICA A: STATISTICAL MECHANICS AND ITS APPLICATIONS, pages 882 - 891 *
YE LI 等: "Community Detection in Attributed Graphs: An Embedding Approach", AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE, pages 338 - 345 *
伍杰华;沈静;周蓓;: "基于迁移成分分析的多层社交网络链接分类", 数据分析与知识发现, no. 09, pages 88 - 98 *
余传明;林奥琛;钟韵辞;安璐;: "基于网络表示学习的科研合作推荐研究", 情报学报, no. 05, pages 500 - 511 *
刘维;陈?;: "复杂网络中的链接预测", 信息与控制, no. 01, pages 65 *
尹康: "基于局部扩张的社团发现算法研究", 中国优秀硕士学位论文全文数据库 信息科技辑, no. 9, pages 138 - 7 *
李青青;马慧芳;吴玉泽;刘海姣;: "面向属性网络的可重叠多向谱社区检测算法", 计算机工程与科学, no. 06, pages 984 - 992 *
李鹏;李英乐;王凯;何赞园;李星;常振超;: "基于交互行为和连接分析的社交网络社团检测", 计算机科学, no. 07, pages 197 - 202 *
杨旭华 等: "基于局部社团和节点相关性的链路预测算法", 计算机科学, no. 1, pages 155 - 160 *
赵琪琪;马慧芳;刘海姣;贾俊杰;: "融合节点属性与结构信息的子空间异常社区检测方法", 计算机工程, no. 06, pages 94 - 101 *
郭进时;汤红波;王晓雷;: "基于社会网络增量的动态社区组织探测", 电子与信息学报, no. 09, pages 2240 - 2245 *
黄新宇 等: "多关系网络社团发现算法", 东北大学学报(自然科学版), pages 1375 - 1379 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113159976A (zh) * 2021-05-13 2021-07-23 电子科技大学 一种微博网络重要用户的识别方法
CN113159976B (zh) * 2021-05-13 2022-05-24 电子科技大学 一种微博网络重要用户的识别方法
CN113407784A (zh) * 2021-05-28 2021-09-17 桂林电子科技大学 一种基于社交网络的社团划分方法、***及存储介质

Also Published As

Publication number Publication date
CN112084418B (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
CN112214685B (zh) 一种基于知识图谱的个性化推荐方法
CN110263280B (zh) 一种基于多视图的动态链路预测深度模型及应用
CN111160954B (zh) 基于图卷积网络模型的面向群组对象的推荐方法
CN110795619B (zh) 一种融合多目标的教育资源个性化推荐***及方法
CN110677284B (zh) 一种基于元路径的异构网络链路预测的方法
CN112650929B (zh) 一种融入评论信息的图神经网络推荐方法
CN108509607A (zh) 一种基于Louvain算法的社区发现方法及***
CN112149000B (zh) 一种基于网络嵌入的在线社交网络用户社区发现方法
CN112507246B (zh) 一种融合全局和局部社会兴趣影响的社会推荐方法
CN112100514B (zh) 一种基于全局注意力机制表征学习的好友推荐方法
CN112084418B (zh) 一种基于邻居信息和属性网络表征学习的微博用户社团发现方法
CN116340646A (zh) 一种基于超图基序优化多元用户表示的推荐方法
CN111242218A (zh) 融合用户多属性信息的跨社交网络用户身份识别方法
CN112784118A (zh) 一种对三角形结构敏感的图中的社区发现方法和装置
CN114444693A (zh) 一种基于协同知识图谱的人机交互话题转移方法
CN117495511A (zh) 一种基于对比学习和社区感知的商品推荐***及方法
CN112765490A (zh) 一种基于知识图谱和图卷积网络的信息推荐方法及***
CN110569415B (zh) 一种基于网络表征学习和邻居合力的微博用户社区发现方法
Stoica et al. To be a star is not only metaphoric: from popularity to social linkage
CN115168609A (zh) 一种文本匹配方法、装置、计算机设备和存储介质
CN112131486B (zh) 基于图卷积神经网络的电商网络平台用户社区发现方法
CN115147154A (zh) 一种面向社交网络群体影响力最大化的实现方法
CN108063810A (zh) 一种基于网络局部结构信息过滤的推荐方法
CN114491029A (zh) 基于图神经网络的短文本相似度计算方法
CN103260060A (zh) 一种基于社团发现的数字电视节目推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant