CN105183909B

CN105183909B - 基于高斯混合模型的社交网络用户兴趣预测方法

Info

Publication number: CN105183909B
Application number: CN201510646248.XA
Authority: CN
Inventors: 郑相涵; 赖太平; 郭文忠
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2015-10-09
Filing date: 2015-10-09
Publication date: 2017-04-12
Anticipated expiration: 2035-10-09
Also published as: CN105183909A

Abstract

本发明涉及一种基于高斯混合模型的社交网络用户兴趣预测方法，包括以下步骤：步骤S1：从社交网络中获取用户数据；步骤S2：对获取的用户数据进行特征向量提取，生成一系列的特征向量；步骤S3：采用高斯混合模型构建预测模型；步骤S4：采用EM算法优化参数并计算预测结果。本发明采用高斯混合模型，以实现更高的预测精度，缩短使用时间，有效预测用户的短期兴趣。

Description

基于高斯混合模型的社交网络用户兴趣预测方法

技术领域

本发明涉及社交网络信息分析技术领域，特别是一种基于高斯混合模型的社交网络用户兴趣预测方法。

背景技术

信息的快速扩散和社交网络的便利方便大量用户分享他们的日常活动，交换意见，或与他人建立友谊。一份报告显示，在2017年底，全球社交网络用户的数量估计有23.3亿。因此，有效的特征学习和兴趣预测不仅对用户(如寻找有相似兴趣的用户)，还同样对服务提供者(如在一组应用场景中分析用户行为从而进行个性化推荐)具有重要的意义。

然而，鉴于社交数据的特征(如数量巨大、多样性、数据价值高低不一等)，高精度地预测用户兴趣，同时保证计算复杂性和延迟在可接受的范围内是很困难的。此外，用户兴趣特征中，短期兴趣可能会动态改变(如受朋友影响)。因此，提出基于高斯混合模型的社交网络用户兴趣预测方法，它能够有效预测用户的短期兴趣。

发明内容

有鉴于此，本发明的目的是提供一种基于高斯混合模型的社交网络用户兴趣预测方法，以实现更高的预测精度，缩短使用时间，有效预测用户的短期兴趣。

本发明采用以下方案实现：一种基于高斯混合模型的社交网络用户兴趣预测方法，包括以下步骤：

步骤S1：从社交网络中获取用户数据；

步骤S2：对获取的用户数据进行特征向量提取，生成一系列的特征向量；

步骤S3：采用高斯混合模型构建预测模型；

步骤S4：采用EM算法优化参数并计算预测结果。

进一步地，所述步骤S1具体为：获取p个微博用户发表或转发的微博信息作为训练数据，获取q个微博用户发表或者转发的微博信息作为测试数据，获取r个热门微博类别以及每个热门微博类别中的s条热门微博。

进一步地，所述步骤S2具体为：对热门微博进行预处理，所述预处理包括分词、词频统计和去重，可得出t个热门关键词作为热门微博类的兴趣特征值，从而生成r个t维的热门微博特征向量；同时以微博用户为单位，对所述训练数据，测试数据进行预处理，包括中文分词、停用词处理以及词频统计；再根据所述r个t维的热门微博特征向量，从微博用户发表或转发的微博信息中提取该用户对应的t个兴趣特征值，转换为该微博用户的特征向量。

较佳的，所述中文分词的方法为：采用中文分词***，结合自定义用户词典对微博星系进行分词；所述停用词处理的方法为：采用HashMap快速索引查表法对无用信息进行过滤降低微博信息的噪音。

进一步地，所述步骤S3中的高斯混合模型的定义表示为一个线性叠加的高斯模型，如公式(1)所示：

其中，高斯密度N(x|μ_k,Σk)为一混合组件，其均值为μ_k，其协方差为Σ_k，π_k为混合系数；对公式(1)的两边关于x求积分，并标准化p(x)和单个高斯组件，可得公式(2)如下：

由于要求p(x)≥0，N(x|μ_k,Σk)≥0，则π_k≥0；

结合公式(2)，可到得到公式(3)：

0≤π_k≤1 (3)

因此，混合系数满足成为概率的条件，根据加乘原理，可得到边际密度如公式(4)所示：

所述公式(4)相当于公式(1)，其中，π_k＝p(k)，是第k个元素的先验概率，密度N(x|μ_k,Σk)＝p(x|k)是k条件下x的概率；因此，根据贝叶斯定理，生成下列公式(5)：

假定需要进行预测的特征向量数据集为{x₁,……,x_N}，将所述数据集表示为一个N×D矩阵X，其中，x_n ^T表示第N行；相应的隐形随机变量采用一个用z_n ^T表示行的N×K矩阵Z表示；

则高斯混合分布的形可由参数π，μ和Σ控制的，其中π≡{π₁,…,π_k}，μ≡{μ₁,…,μ_k}，Σ≡{Σ₁,…,Σ_k}；执行最大似然估计后，所述公式(1)转化为如下公式(6)：

其中X＝{x₁,……,x_N}。

进一步地，所述步骤S4具体包括以下步骤：

步骤S41：采用EM算法，初始化均值μ_k,协方差Σ_kπ_k和混合系数π_k，并评估初始对数似然估计函数值；

步骤S42：采用以下公式(7)估计隐含类别变量：

步骤S43：采用以下公式(8)、公式(9)、公式(10)以及公式(12)进行参数更新：

其中，

步骤S44：采用以下公式(12)评估对数似然估计函数值

若所述公式(12)不满足收敛准则，则返回所述步骤S42。

与现有技术相比，本发明采用高斯混合模型，对社交网络用户兴趣可实现更高的预测精度，缩短使用时间，有效预测用户的短期兴趣。

附图说明

图1为本发明的方法流程图。

图2为本发明中的兴趣预测的***框架图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

本实施例提供一种基于高斯混合模型的社交网络用户兴趣预测方法，如图1和图2所示，包括以下步骤：

步骤S1：从社交网络中获取用户数据；

步骤S3：采用高斯混合模型构建预测模型；

步骤S4：采用EM算法优化参数并计算预测结果。

在本实施例中，所述步骤S1具体为：获取p个微博用户发表或转发的微博信息作为训练数据，获取q个微博用户发表或者转发的微博信息作为测试数据，获取r个热门微博类别以及每个热门微博类别中的s条热门微博。

在本实施例中，所述步骤S2具体为：对热门微博进行预处理，所述预处理包括分词、词频统计和去重，可得出t个热门关键词作为热门微博类的兴趣特征值，从而生成r个t维的热门微博特征向量；同时以微博用户为单位，对所述训练数据，测试数据进行预处理，包括中文分词、停用词处理以及词频统计；再根据所述r个t维的热门微博特征向量，从微博用户发表或转发的微博信息中提取该用户对应的t个兴趣特征值，转换为该微博用户的特征向量。

在本实施例中，较佳的，所述中文分词的方法为：采用中文分词***，结合自定义用户词典对微博星系进行分词；所述停用词处理的方法为：采用HashMap快速索引查表法对无用信息进行过滤降低微博信息的噪。

在本实施例中，进行去重是考虑到不同类别可能包含相同的关键字，重复数据删除功能是必要的，以减少冗余的手动操作的过程。

在本实施例中，所述步骤S3中的高斯混合模型的定义表示为一个线性叠加的高斯模型，如公式(1)所示：

由于要求p(x)≥0，N(x|μ_k,Σk)≥0，则π_k≥0；

结合公式(2)，可到得到公式(3)：

0≤π_k≤1 (3)

其中X＝{x₁,……,x_N}。

在本实施例中，所述步骤S4具体包括以下步骤：

步骤S42：采用以下公式(7)估计隐含类别变量：

其中，

步骤S44：采用以下公式(12)评估对数似然估计函数值

若所述公式(12)不满足收敛准则，则返回所述步骤S42。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于高斯混合模型的社交网络用户兴趣预测方法，其特征在于：包括以下步骤：

步骤S1：从社交网络中获取用户数据；

步骤S3：采用高斯混合模型构建预测模型；

步骤S4：采用EM算法优化参数并计算预测结果；

所述步骤S1具体为：获取p个微博用户发表或转发的微博信息作为训练数据，获取q个微博用户发表或者转发的微博信息作为测试数据，获取r个热门微博类别以及每个热门微博类别中的s条热门微博；

所述步骤S2具体为：对热门微博进行预处理，所述预处理包括分词、词频统计和去重，可得出t个热门关键词作为热门微博类的兴趣特征值，从而生成r个t维的热门微博特征向量；同时以微博用户为单位，对所述训练数据，测试数据进行预处理，包括中文分词、停用词处理以及词频统计；再根据所述r个t维的热门微博特征向量，从微博用户发表或转发的微博信息中提取该用户对应的t个兴趣特征值，转换为该微博用户的特征向量；

所述步骤S3中的高斯混合模型的定义表示为一个线性叠加的高斯模型，如公式(1)所示：

由于要求p(x)≥0，N(x|μ_k,Σk)≥0，则π_k≥0；

结合公式(2)，可到得到公式(3)：

0≤π_k≤1 (3)

其中X＝{x₁,……,x_N}；

所述步骤S4具体包括以下步骤：

步骤S41：采用EM算法，初始化均值μ_k,协方差Σ_k和混合系数π _k，并评估初始对数似然估计函数值；

步骤S42：采用以下公式(7)估计隐含类别变量：

步骤S43：采用以下公式(8)、公式(9)、公式(10)以及公式(11)进行参数更新：

其中，

步骤S44：采用以下公式(12)评估对数似然估计函数值

若所述公式(12)不满足收敛准则，则返回所述步骤S42。

2.根据权利要求1所述的一种基于高斯混合模型的社交网络用户兴趣预测方法，其特征在于：所述中文分词的方法为：采用中文分词***，结合自定义用户词典对微博星系进行分词；所述停用词处理的方法为：采用HashMap快速索引查表法对无用信息进行过滤降低微博信息的噪音。