CN105183909B - 基于高斯混合模型的社交网络用户兴趣预测方法 - Google Patents
基于高斯混合模型的社交网络用户兴趣预测方法 Download PDFInfo
- Publication number
- CN105183909B CN105183909B CN201510646248.XA CN201510646248A CN105183909B CN 105183909 B CN105183909 B CN 105183909B CN 201510646248 A CN201510646248 A CN 201510646248A CN 105183909 B CN105183909 B CN 105183909B
- Authority
- CN
- China
- Prior art keywords
- formula
- microblogging
- user
- social network
- characteristic vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 239000000203 mixture Substances 0.000 title claims abstract description 8
- 239000013598 vector Substances 0.000 claims abstract description 19
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 230000008901 benefit Effects 0.000 claims description 3
- 238000013480 data collection Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于高斯混合模型的社交网络用户兴趣预测方法,包括以下步骤:步骤S1:从社交网络中获取用户数据;步骤S2:对获取的用户数据进行特征向量提取,生成一系列的特征向量;步骤S3:采用高斯混合模型构建预测模型;步骤S4:采用EM算法优化参数并计算预测结果。本发明采用高斯混合模型,以实现更高的预测精度,缩短使用时间,有效预测用户的短期兴趣。
Description
技术领域
本发明涉及社交网络信息分析技术领域,特别是一种基于高斯混合模型的社交网络用户兴趣预测方法。
背景技术
信息的快速扩散和社交网络的便利方便大量用户分享他们的日常活动,交换意见,或与他人建立友谊。一份报告显示,在2017年底,全球社交网络用户的数量估计有23.3亿。因此,有效的特征学习和兴趣预测不仅对用户(如寻找有相似兴趣的用户),还同样对服务提供者(如在一组应用场景中分析用户行为从而进行个性化推荐)具有重要的意义。
然而,鉴于社交数据的特征(如数量巨大、多样性、数据价值高低不一等),高精度地预测用户兴趣,同时保证计算复杂性和延迟在可接受的范围内是很困难的。此外,用户兴趣特征中,短期兴趣可能会动态改变(如受朋友影响)。因此,提出基于高斯混合模型的社交网络用户兴趣预测方法,它能够有效预测用户的短期兴趣。
发明内容
有鉴于此,本发明的目的是提供一种基于高斯混合模型的社交网络用户兴趣预测方法,以实现更高的预测精度,缩短使用时间,有效预测用户的短期兴趣。
本发明采用以下方案实现:一种基于高斯混合模型的社交网络用户兴趣预测方法,包括以下步骤:
步骤S1:从社交网络中获取用户数据;
步骤S2:对获取的用户数据进行特征向量提取,生成一系列的特征向量;
步骤S3:采用高斯混合模型构建预测模型;
步骤S4:采用EM算法优化参数并计算预测结果。
进一步地,所述步骤S1具体为:获取p个微博用户发表或转发的微博信息作为训练数据,获取q个微博用户发表或者转发的微博信息作为测试数据,获取r个热门微博类别以及每个热门微博类别中的s条热门微博。
进一步地,所述步骤S2具体为:对热门微博进行预处理,所述预处理包括分词、词频统计和去重,可得出t个热门关键词作为热门微博类的兴趣特征值,从而生成r个t维的热门微博特征向量;同时以微博用户为单位,对所述训练数据,测试数据进行预处理,包括中文分词、停用词处理以及词频统计;再根据所述r个t维的热门微博特征向量,从微博用户发表或转发的微博信息中提取该用户对应的t个兴趣特征值,转换为该微博用户的特征向量。
较佳的,所述中文分词的方法为:采用中文分词***,结合自定义用户词典对微博星系进行分词;所述停用词处理的方法为:采用HashMap快速索引查表法对无用信息进行过滤降低微博信息的噪音。
进一步地,所述步骤S3中的高斯混合模型的定义表示为一个线性叠加的高斯模型,如公式(1)所示:
其中,高斯密度N(x|μk,Σk)为一混合组件,其均值为μk,其协方差为Σk,πk为混合系数;对公式(1)的两边关于x求积分,并标准化p(x)和单个高斯组件,可得公式(2)如下:
由于要求p(x)≥0,N(x|μk,Σk)≥0,则πk≥0;
结合公式(2),可到得到公式(3):
0≤πk≤1 (3)
因此,混合系数满足成为概率的条件,根据加乘原理,可得到边际密度如公式(4)所示:
所述公式(4)相当于公式(1),其中,πk=p(k),是第k个元素的先验概率,密度N(x|μk,Σk)=p(x|k)是k条件下x的概率;因此,根据贝叶斯定理,生成下列公式(5):
假定需要进行预测的特征向量数据集为{x1,……,xN},将所述数据集表示为一个N×D矩阵X,其中,xn T表示第N行;相应的隐形随机变量采用一个用zn T表示行的N×K矩阵Z表示;
则高斯混合分布的形可由参数π,μ和Σ控制的,其中π≡{π1,…,πk},μ≡{μ1,…,μk},Σ≡{Σ1,…,Σk};执行最大似然估计后,所述公式(1)转化为如下公式(6):
其中X={x1,……,xN}。
进一步地,所述步骤S4具体包括以下步骤:
步骤S41:采用EM算法,初始化均值μk,协方差Σkπk和混合系数πk,并评估初始对数似然估计函数值;
步骤S42:采用以下公式(7)估计隐含类别变量:
步骤S43:采用以下公式(8)、公式(9)、公式(10)以及公式(12)进行参数更新:
其中,
步骤S44:采用以下公式(12)评估对数似然估计函数值
若所述公式(12)不满足收敛准则,则返回所述步骤S42。
与现有技术相比,本发明采用高斯混合模型,对社交网络用户兴趣可实现更高的预测精度,缩短使用时间,有效预测用户的短期兴趣。
附图说明
图1为本发明的方法流程图。
图2为本发明中的兴趣预测的***框架图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
本实施例提供一种基于高斯混合模型的社交网络用户兴趣预测方法,如图1和图2所示,包括以下步骤:
步骤S1:从社交网络中获取用户数据;
步骤S2:对获取的用户数据进行特征向量提取,生成一系列的特征向量;
步骤S3:采用高斯混合模型构建预测模型;
步骤S4:采用EM算法优化参数并计算预测结果。
在本实施例中,所述步骤S1具体为:获取p个微博用户发表或转发的微博信息作为训练数据,获取q个微博用户发表或者转发的微博信息作为测试数据,获取r个热门微博类别以及每个热门微博类别中的s条热门微博。
在本实施例中,所述步骤S2具体为:对热门微博进行预处理,所述预处理包括分词、词频统计和去重,可得出t个热门关键词作为热门微博类的兴趣特征值,从而生成r个t维的热门微博特征向量;同时以微博用户为单位,对所述训练数据,测试数据进行预处理,包括中文分词、停用词处理以及词频统计;再根据所述r个t维的热门微博特征向量,从微博用户发表或转发的微博信息中提取该用户对应的t个兴趣特征值,转换为该微博用户的特征向量。
在本实施例中,较佳的,所述中文分词的方法为:采用中文分词***,结合自定义用户词典对微博星系进行分词;所述停用词处理的方法为:采用HashMap快速索引查表法对无用信息进行过滤降低微博信息的噪。
在本实施例中,进行去重是考虑到不同类别可能包含相同的关键字,重复数据删除功能是必要的,以减少冗余的手动操作的过程。
在本实施例中,所述步骤S3中的高斯混合模型的定义表示为一个线性叠加的高斯模型,如公式(1)所示:
其中,高斯密度N(x|μk,Σk)为一混合组件,其均值为μk,其协方差为Σk,πk为混合系数;对公式(1)的两边关于x求积分,并标准化p(x)和单个高斯组件,可得公式(2)如下:
由于要求p(x)≥0,N(x|μk,Σk)≥0,则πk≥0;
结合公式(2),可到得到公式(3):
0≤πk≤1 (3)
因此,混合系数满足成为概率的条件,根据加乘原理,可得到边际密度如公式(4)所示:
所述公式(4)相当于公式(1),其中,πk=p(k),是第k个元素的先验概率,密度N(x|μk,Σk)=p(x|k)是k条件下x的概率;因此,根据贝叶斯定理,生成下列公式(5):
假定需要进行预测的特征向量数据集为{x1,……,xN},将所述数据集表示为一个N×D矩阵X,其中,xn T表示第N行;相应的隐形随机变量采用一个用zn T表示行的N×K矩阵Z表示;
则高斯混合分布的形可由参数π,μ和Σ控制的,其中π≡{π1,…,πk},μ≡{μ1,…,μk},Σ≡{Σ1,…,Σk};执行最大似然估计后,所述公式(1)转化为如下公式(6):
其中X={x1,……,xN}。
在本实施例中,所述步骤S4具体包括以下步骤:
步骤S41:采用EM算法,初始化均值μk,协方差Σkπk和混合系数πk,并评估初始对数似然估计函数值;
步骤S42:采用以下公式(7)估计隐含类别变量:
步骤S43:采用以下公式(8)、公式(9)、公式(10)以及公式(12)进行参数更新:
其中,
步骤S44:采用以下公式(12)评估对数似然估计函数值
若所述公式(12)不满足收敛准则,则返回所述步骤S42。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (2)
1.一种基于高斯混合模型的社交网络用户兴趣预测方法,其特征在于:包括以下步骤:
步骤S1:从社交网络中获取用户数据;
步骤S2:对获取的用户数据进行特征向量提取,生成一系列的特征向量;
步骤S3:采用高斯混合模型构建预测模型;
步骤S4:采用EM算法优化参数并计算预测结果;
所述步骤S1具体为:获取p个微博用户发表或转发的微博信息作为训练数据,获取q个微博用户发表或者转发的微博信息作为测试数据,获取r个热门微博类别以及每个热门微博类别中的s条热门微博;
所述步骤S2具体为:对热门微博进行预处理,所述预处理包括分词、词频统计和去重,可得出t个热门关键词作为热门微博类的兴趣特征值,从而生成r个t维的热门微博特征向量;同时以微博用户为单位,对所述训练数据,测试数据进行预处理,包括中文分词、停用词处理以及词频统计;再根据所述r个t维的热门微博特征向量,从微博用户发表或转发的微博信息中提取该用户对应的t个兴趣特征值,转换为该微博用户的特征向量;
所述步骤S3中的高斯混合模型的定义表示为一个线性叠加的高斯模型,如公式(1)所示:
其中,高斯密度N(x|μk,Σk)为一混合组件,其均值为μk,其协方差为Σk,πk为混合系数;对公式(1)的两边关于x求积分,并标准化p(x)和单个高斯组件,可得公式(2)如下:
由于要求p(x)≥0,N(x|μk,Σk)≥0,则πk≥0;
结合公式(2),可到得到公式(3):
0≤πk≤1 (3)
因此,混合系数满足成为概率的条件,根据加乘原理,可得到边际密度如公式(4)所示:
所述公式(4)相当于公式(1),其中,πk=p(k),是第k个元素的先验概率,密度N(x|μk,Σk)=p(x|k)是k条件下x的概率;因此,根据贝叶斯定理,生成下列公式(5):
假定需要进行预测的特征向量数据集为{x1,……,xN},将所述数据集表示为一个N×D矩阵X,其中,xn T表示第N行;相应的隐形随机 变量采用一个用zn T表示行的N×K矩阵Z表示;
则高斯混合分布的形可由参数π,μ和Σ控制的,其中π≡{π1,…,πk},μ≡{μ1,…,μk},Σ≡{Σ1,…,Σk};执行最大似然估计后,所述公式(1)转化为如下公式(6):
其中X={x1,……,xN};
所述步骤S4具体包括以下步骤:
步骤S41:采用EM算法,初始化均值μk,协方差Σk和混合系数π k,并评估初始对数似然估计函数值;
步骤S42:采用以下公式(7)估计隐含类别变量:
步骤S43:采用以下公式(8)、公式(9)、公式(10)以及公式(11)进行参数更新:
其中,
步骤S44:采用以下公式(12)评估对数似然估计函数值
若所述公式(12)不满足收敛准则,则返回所述步骤S42。
2.根据权利要求1所述的一种基于高斯混合模型的社交网络用户兴趣预测方法,其特征在于:所述中文分词的方法为:采用中文分词***,结合自定义用户词典对微博星系进行分词;所述停用词处理的方法为:采用HashMap快速索引查表法对无用信息进行过滤降低微博信息的噪音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510646248.XA CN105183909B (zh) | 2015-10-09 | 2015-10-09 | 基于高斯混合模型的社交网络用户兴趣预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510646248.XA CN105183909B (zh) | 2015-10-09 | 2015-10-09 | 基于高斯混合模型的社交网络用户兴趣预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105183909A CN105183909A (zh) | 2015-12-23 |
CN105183909B true CN105183909B (zh) | 2017-04-12 |
Family
ID=54905990
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510646248.XA Active CN105183909B (zh) | 2015-10-09 | 2015-10-09 | 基于高斯混合模型的社交网络用户兴趣预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105183909B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220233A (zh) * | 2017-05-09 | 2017-09-29 | 北京理工大学 | 一种基于高斯混合模型的用户知识需求模型构建方法 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105786711A (zh) * | 2016-03-25 | 2016-07-20 | 广州华多网络科技有限公司 | 一种数据分析的方法及装置 |
CN109949938B (zh) * | 2017-12-20 | 2024-04-26 | 北京亚信数据有限公司 | 用于将医疗非标准名称标准化的方法及装置 |
CN110869953A (zh) * | 2018-02-06 | 2020-03-06 | 北京嘀嘀无限科技发展有限公司 | 推荐交通出行服务的***和方法 |
CN110119827A (zh) * | 2018-02-06 | 2019-08-13 | 北京嘀嘀无限科技发展有限公司 | 用车类型的预测方法及装置 |
CN108182339B (zh) * | 2018-03-20 | 2021-08-13 | 北京工业大学 | 一种基于高斯分布的窗户状态预测方法及*** |
CN109190040B (zh) * | 2018-08-31 | 2021-05-28 | 合肥工业大学 | 基于协同演化的个性化推荐方法及装置 |
CN111241821B (zh) * | 2018-11-28 | 2023-04-28 | 杭州海康威视数字技术股份有限公司 | 确定用户的行为特征的方法和装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104077412A (zh) * | 2014-07-14 | 2014-10-01 | 福州大学 | 一种基于多Markov链的微博用户兴趣预测方法 |
CN104636496A (zh) * | 2015-03-04 | 2015-05-20 | 重庆理工大学 | 基于高斯分布和距离相似度的混合聚类的推荐方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140358630A1 (en) * | 2013-05-31 | 2014-12-04 | Thomson Licensing | Apparatus and process for conducting social media analytics |
-
2015
- 2015-10-09 CN CN201510646248.XA patent/CN105183909B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104077412A (zh) * | 2014-07-14 | 2014-10-01 | 福州大学 | 一种基于多Markov链的微博用户兴趣预测方法 |
CN104636496A (zh) * | 2015-03-04 | 2015-05-20 | 重庆理工大学 | 基于高斯分布和距离相似度的混合聚类的推荐方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107220233A (zh) * | 2017-05-09 | 2017-09-29 | 北京理工大学 | 一种基于高斯混合模型的用户知识需求模型构建方法 |
CN107220233B (zh) * | 2017-05-09 | 2020-06-16 | 北京理工大学 | 一种基于高斯混合模型的用户知识需求模型构建方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105183909A (zh) | 2015-12-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105183909B (zh) | 基于高斯混合模型的社交网络用户兴趣预测方法 | |
CN105608179B (zh) | 确定用户标识的关联性的方法和装置 | |
CN104750705B (zh) | 信息回复方法及装置 | |
CN104615608B (zh) | 一种数据挖掘处理***及方法 | |
CN104077417B (zh) | 社交网络中的人物标签推荐方法和*** | |
CN104077412B (zh) | 一种基于多Markov链的微博用户兴趣预测方法 | |
CN108052639A (zh) | 基于运营商数据的行业用户推荐方法及装置 | |
EP3138058A1 (en) | Method and apparatus for classifying object based on social networking service, and storage medium | |
CN106096066A (zh) | 基于随机近邻嵌入的文本聚类方法 | |
McCool et al. | Session variability modelling for face authentication | |
CN111583911B (zh) | 基于标签平滑的语音识别方法、装置、终端及介质 | |
CN111159404B (zh) | 文本的分类方法及装置 | |
CN109992781B (zh) | 文本特征的处理方法、装置和存储介质 | |
CN105069129B (zh) | 自适应多标签预测方法 | |
Ristić et al. | A mixed INAR (p) model | |
CN109299379B (zh) | 文章推荐方法、装置、存储介质和电子设备 | |
JP2013134752A (ja) | トピックモデル学習方法、装置、及びプログラム | |
CN110969172A (zh) | 一种文本的分类方法以及相关设备 | |
CN106803092B (zh) | 一种标准问题数据的确定方法及装置 | |
CN107220233B (zh) | 一种基于高斯混合模型的用户知识需求模型构建方法 | |
CN107133268B (zh) | 一种用于Web服务推荐的协同过滤方法 | |
Guo et al. | 3d-pruning: A model compression framework for efficient 3d action recognition | |
CN108073567B (zh) | 一种特征词提取处理方法、***及服务器 | |
CN117035059A (zh) | 一种通信高效的隐私保护推荐***及方法 | |
CN104572820B (zh) | 模型的生成方法及装置、重要度获取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |