CN106372072A

CN106372072A - 一种基于位置的移动社会网络用户关系的识别方法

Info

Publication number: CN106372072A
Application number: CN201510427877.3A
Authority: CN
Inventors: 宋国杰; 刘丹萌
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2015-07-20
Filing date: 2015-07-20
Publication date: 2017-02-01
Anticipated expiration: 2035-07-20
Also published as: CN106372072B

Abstract

本发明公布了一种基于位置的移动社会网络用户关系识别方法，基于用户数据构建移动社会网络，通过对用户行为进行特征提取建立因子图模型，再进行模型参数学习和多元关系并行推断，得到用户关系；包括对用户数据进行预处理，获得抽样数据；利用抽样数据提取用户行为特征，包括交互行为特征和空间行为特征；得到用户关系的交互因子、空间因子和团因子；建立因子图模型；针对因子图模型进行参数学习训练；利用训练好的因子图模型通过多元关系并行推断方法进行关系识别，得到用户多元关系。本发明考虑空间位置交互特征、用户周边环境以及家庭和同事关系之间的相互作用，可提高关系识别的准确率。

Description

一种基于位置的移动社会网络用户关系的识别方法

技术领域

本发明涉及用户关系识别方法，尤其涉及一种基于位置的移动社会网络的用户关系的识别方法。

背景技术

关系识别是社会网络研究的关键问题之一。在社会网络中，人们往往因不同类别的关系(家人、同事、朋友等)连接在一起，而分析关系的类型，在诸多领域都具有非常重要的意义。如在营销领域，通过分析用户的家人和同事关系，能对其进行精准的营销推荐；在安全领域，通过掌握犯罪分子的家人和好友关系，则能帮助相关部门寻找线索，更有效率地进行嫌疑犯排查。随着手机的大规模普及，移动通话数据的人群覆盖率已经接近100％，这为基于移动通信数据进行真实社会人际间社会关系的识别提供了天然的平台。同时，移动用户关系的识别也为运营商自身的业务开展提供帮助，如家庭套餐、集团套餐等业务的个性化定制等。

关系识别问题的本质是分类。目前，大多数识别方法都是将关系抽象为几类，如“强与弱”、“信任与怀疑”、“友好与敌对”等类的关系，没有将关系赋予具体的语义(如家人、同事等)。也有一些方法对关系进行了语义分类，例如“指导-被指导关系”或“讲授-指导-助教关系”，这些方法建立的关系识别模型是特定领域的专用模型，无法直接套用在“家庭-同事关系”分类上；也有方法基于***网络数据等特定数据集进行关系识别，无法直接套用在移动通话数据集上。

基于移动社会网络的社交关系识别，需重点解决如下几个关键问题：

一，空间关系特征的提取：目前进行社会网络关系的识别方法，大多采用网络拓扑结构特征来进行关系的判定，而对用户空间行为特征对所要识别的关系的影响缺少考虑；

二，基于图模型的多元关系的识别：现在的关系识别方法一般采用传统的识别方法，如决策树、SVM等方法，没有充分考虑关系识别数据的网络化特征；

三，多元关系的判定：现在的关系识别方法一般对单一关系进行判定，如朋友和非朋友关系，没有考虑推断识别过程中不同关系之间的相互作用对模型识别精度的提升。

发明内容

为了克服上述现有技术的不足，本发明提供一种基于位置的移动社会网络用户关系识别方法，根据移动社会网络数据对用户间多元社会关系进行识别。

本发明提供的技术方案是：

一种基于位置的移动社会网络用户关系识别方法，基于用户数据构建移动社会网络，通过对用户行为进行特征提取，建立因子图模型，再进行模型参数学习和多元关系的并行推断，识别得到用户关系；具体包括如下步骤：

1)对用户数据进行预处理，获得用于关系识别的抽样数据；

2)利用抽样数据提取用户行为特征；所述用户行为特征包括交互行为特征和空间行为特征；通过用户行为特征提取，得到用户关系的交互因子、空间因子和团因子；

3)基于提取的用户行为特征，建立因子图模型，作为用户关系识别模型；

4)针对因子图模型进行参数学习训练；

5)利用训练好的因子图模型通过多元关系并行推断方法进行关系识别，得到用户多元关系。

上述基于位置的移动社会网络用户关系识别方法中，用户数据包括基本数据和辅助数据；所述基本数据为用户通话详单；辅助数据包括基站信息表、家庭信息表和集团信息表；步骤1)所述预处理具体包括基于家庭信息表对数据进行抽样和通过删除用户来解决噪声干扰。

交互行为特征包括交互强度特征和交互稳定性特征；空间行为特征包括空间同现特征和地理语义特征。

针对上述基于位置的移动社会网络用户关系识别方法，其中，交互因子通过式6表示：

f (r_{i, j}, x_{i, j}) = \frac{1}{w_{e}} \exp {α_{e_{i, j}} \cdot x_{i, j}}

(式6)

式6中，交互因子f(r_i，j，x_i，j)描述两个用户之间的关系r_i，j和交流关系属性x_i，j之间的关系；w_e为用来标准化的参数；对于每一对有关系的用户i和j，参数是一个|x_i，j|维长度的参数，并且参数的第k维描述x_i，jk对于两个用户i和j之间关系的贡献；

空间因子通过式7表示：

g (r_{i, j}, s_{i, j}) = \frac{1}{w_{e s}} \exp {β_{e_{i, j}} \cdot s_{i, j}}

(式7)

式7中，空间因子g(r_i，j，s_i，j)描述两个用户之间的关系r_i，j和在物理空间属性之间s_i，j的关系；对于每对有关系的用户i和j，参数的第k维描述的是两个用户同现的地点语义对于用户之间关系的贡献；

社团因子通过式8表示：

h (r_{i, j}, c_{i, j, k}) = \{\begin{matrix} \frac{1}{w_{c 1}} \exp {γ_{1} \cdot h_{1}^{'} (r_{i, k}, r_{j, k})} \\ \frac{1}{w_{c 2}} \exp {γ_{2} \cdot h_{2}^{'} (r_{i, k}, r_{j, k})} \\ \frac{1}{w_{c 3}} \exp {γ_{3} \cdot h_{3}^{'} (r_{i, k}, r_{j, k})} \end{matrix}

(式8)

式8中，社交因子h(r_i，j，c_i，j，k)描述两个用户之间的关系r_i，j与他们和其他用户所构成的团之间的影响；w_cp为标准化参数；函数h′₁(r_i，k，r_j，k)为向量函数，在集团中用向量函数来描述集团中另外两边的关系对于用户i和j关系预测的贡献。

上述基于位置的移动社会网络用户关系识别方法中，步骤3)建立因子图模型包括如下步骤：

首先，使用无向图结构表达出移动社交网络拓扑结构，在网络的节点属性中表达用户行为的特征向量，在网络边的属性中表达用户之间交互行为的特征向量；

然后，基于因子图模型建模方法定义一个全局函数来描述用户之间关系的条件概率分布的表达，将全局函数分解为交互因子、空间因子和团因子，分别用来刻画所提取的移动用户行为特征；

最后，使用极大似然估计的方法，求得使得模型达到最大似然值的参数，得到用于关系识别的因子图模型。

步骤3)所述因子图模型为一个全局概率分布函数，描述为式5：

P (R | G, X) = Π_{e_{i, j} &Element; E} f (r_{i, j}, x_{i, j}) \times Π_{e_{i, j} &Element; E} g (r_{i, j}, s_{i, j}) \times Π_{c_{i, j, k} &Element; G} h (r_{i, j}, c_{i, j, k})

(式5)

式5中，R代表用户之间的关系类型(包括家庭关系、同事关系、朋友关系)；G表示网络结构图；X表示特征矩阵，X特征矩阵的每一行代表一个用户的特征；r_i，j代表用户i，j之间的关系；x_i，j代表用户i，j之间的交流因子特征；s_i，j代表用户i，j之间的空间因子；c_i，j，k代表用户i，j之间的社交因子；e_i，j表示图中i，j的连接边；c_i，j，k表示用户i，j与其他用户构成的团因子；

定义目标函数式9作为所述因子图模型的极大似然值：

O (α, β, γ) = Σ_{e_{i, j} &Element; E} α_{e_{i, j}} \cdot x_{i, j} + Σ_{e_{i, j} &Element; E} β_{e_{i, j}} \cdot s_{i, j} + Σ_{c_{i, j, k &Element; G}} Σ_{q = 1}^{3} γ_{q} h_{q}^{'} (\cdot) - \log W

(式9)

式9中，O(α，β，γ)是P(R|G，X)的对数函数；e_i，j表示用户i,j之间的边，如果用户i,j之间有通话等交互动作，则认为这两个用户之间存在边；E表示数据集中所有的边的集合；γ_q为需要学习的参数，实质上表达不同特征的权重；x_i，j、s_i，j、h′_q(·)表示三种因子，分别是交流因子、空间因子和社团因子；W＝W_eW_esW_cp是全局标准化参数。

步骤4)所述针对因子图模型进行参数学习训练，具体采用经典的梯度下降方法，所述梯度下降方法每次迭代需要进行的操作为式10：

θ_{n e w} = θ_{o l d} + η . \frac{\partial O (θ)}{\partial θ}

(式10)

式10中，θ_new表示每一次迭代获取的新θ值；θ_old表示每一次迭代之前的θ值，初始是随机赋值的θ；η表示梯度下降法更新的速率值，η越大，更新越快，但是波动也越大；θ＝{α，β，γ}，其中α，β，γ分别为交互因子、空间因子和团因子；O(θ)为极大似然目标函数；表示梯度下降法中的梯度选取量。

上述模型参数学习时同时考虑家庭、同事和朋友三类关系。

步骤5)所述多元关系并行推断方法具体包括运用梯度下降的参数估计方法和基于多元关系的概率值进行关系推断的方法。

与现有技术相比，本发明的有益效果是：

本发明提供一种基于位置的移动社会网络用户关系识别方法，根据移动社会网络数据对用户间多元社会关系进行识别；本发明技术方案考虑了空间信息对关系的影响、利用因子图模型并进行多元关系并行识别，其优点体现在以下几方面：

第一，不同关系的用户具备不同的空间交互特征；现有针对用户关系识别的方法大多基于facebook等具备位置信息的网站进行的；而本发明具体是基于“移动通话数据”考虑空间位置交互特征对关系的影响；

第二，已有的关系识别方法大多利用传统分类器进行关系识别，没有考虑用户之间的交互网络结构；而本发明利用因子图模型将用户周边环境的影响考虑进来；

第三，已有的关系识别方法大多基于单元关系串行识别，通过进行两次识别进行。比如首先进行“家庭关系”和“朋友关系”的识别，之后再进行“同事关系”和“朋友关系”的识别；而本发明进行多元并行关系识别，在一次识别过程中获取最终结果；相比于现有方法，本发明考虑了家庭关系和同事关系之间的相互作用，可提高关系识别的准确率。

附图说明

图1是本发明提供的基于位置的移动社会网络用户关系识别方法的流程框图；

其中，实线边框表示每一个步骤；虚线边框表示用户行为特征/属性；特征抽取实质上是抽取三个因子；三个因子用实线箭头连接到下一步骤“因子图模型建立”；步骤“用户行为特征提取”到下一步骤“因子图模型建立”用虚线箭头连接。

图2是本发明方法中用户行为特征提取步骤的流程框图。

图3是本发明建立的用于用户关系识别的因子图模型包括三个因子的示意图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供一种基于位置的移动社会网络用户关系识别方法，基于通话详单数据构建移动社会网络，提取移动用户的交互行为特征和空间行为特征，建立包含三类因子(交互因子、空间因子和团因子)的图模型，进而实现家庭、同事和朋友关系的并行推断；图1是本发明的整体流程，方法步骤包括移动数据预处理、用户行为特征提取、建立关系识别模型和关系学习，再推断得到识别结果。

本实施例选定训练集和测试集的用户，分别为：训练集包括10个用户，分别是用户A、用户B…用户J；测试集包括8个用户，分别是用户a、用户b...用户h。本实施例在进行特征提取和模型训练的基础上进行关系预测识别，使用的数据包括基本数据和辅助数据，其中，基本数据为用户通话详单，比如说用户A和用户B打过几次电话。对于每一次通话，通话详单中会记录相应的“主叫电话号码”、“被叫电话号码”、“通话发生时间”、“通话持续时长”、“主叫人所在基站”、“被叫所在基站”等信息。除去基本信息以外，还包括一些其他的辅助信息如基站信息表、家庭信息表和集团信息表。其中，基站信息表中记录了“基站号码”，“基站的经纬度”，“基站内部的地点语义”(即在此基站中有多少个学校、医院、商业街等)；家庭信息表中记录了“家庭ID”、“用户ID”等信息，可以通过该表确认两个用户是否属于一个家庭；集团信息表中记录了“公司ID”、“用户ID”等信息，可以通过该表确认两个用户是否属于一个公司。

本实施例主要采用sql语言进行数据处理和特征提取，获得多个因子的取值。基于上述数据，本实施例实现基于位置的移动社会网络用户关系识别方法，具体按如下操作实施：

1)移动数据预处理；

由于总体样本数据过大，存在不方便进行实验等问题，所以需要进行数据抽样。数据预处理主要解决数据抽样的完整性问题，以及解决噪声干扰。

11)基于家庭关系表对数据进行抽样，解决数据抽样的完整性问题；

如果不考虑数据完整性，在整体样本中完全随机抽取的话，我们会得到一个没有完整网络结构的用户交流图，无法进行分析处理。所以需要通过数据预处理方法，获得用于关系识别的抽样数据。

本实施例基于家庭关系表对数据进行抽样，以解决数据抽样的完整性问题；具体方法包括如下步骤：

a)从家庭关系表中完全随机抽取一定数量的家庭ID；

b)根据家庭ID，抽取属于该家庭的全部用户；这些用户即构成抽样集合，最为待识别用户数据。

12)通过删除用户来解决噪声干扰；

本实施例中，删除的用户种类包括：一个月内，总通话数量少于10的用户；一个月内，暴露的联系人数量超过500的用户。

2)用户行为特征提取；

本发明涉及的移动用户行为特征提取涉及两类：第一种是交互行为特征，它侧重于描述两个用户之间关系的交流特征，比如通话时间、通话强度等特征；第二种是空间行为特征，侧重于描述的是两个用户之间在空间上的同现行为特征(比如他们最常同现的地方分布)，以及地理语义特征(比如家人常在家里、商场等场所同现，而同事则在单位办公场所位置同现)。

用户行为特征提取通过利用通话详单等原始数据抽取特征。输入通话详单、家庭关系表，集团关系表和基站信息表；通过用户行为特征提取方法，得到用户关系的三个因子(交互因子、空间因子和团因子)。

21)交互行为特征提取：主要包括如下刻画关系强度和稳定性的两类特征：

(1)交互强度特征：社会学中将关系描述为连接强度，通过式1定义连接强度tie strength，用来表示通话交流特征，在识别过程中具有辅助提高准确率的作用；我们对于不同的通话特征(即参数k1～k4)赋予不同的权值：

(式1)

式1中，参数k1～k4分别代表“两人交流次数”、“两人忙时交流次数”、“两人闲时交流次数”和“两人周末交流次数”；参数k1～k4的值代表不同的通话特征的权值，可利用回归拟合计算得到。

不同关系的用户之间，会有不同的通话特征；比如说家庭用户在闲时和周末通话较多；而同事关系的用户在忙时交流次数较多。我们用svm训练器训练出K＝{k1，k2，k3，k4}值，目的是进一步扩大不同关系之间的区分度。

具体训练过程包括如下步骤：

a)首先根据用户通话详单数据，获取训练集中A～J十个用户两两之间的数据，包括：“两人交流次数”、“两人忙时交流次数”、“两人闲时交流次数”和“两人周末交流次数”。

举例说明，根据通话详单，我们可以获取用户的通话发生时间，根据不同的通话时间，进行加和运算，即可得出上述数据，作为通话特征。

b)根据家庭信息表和集团信息表，获取用户之间的关系；

c)将“两人交流次数、两人忙时交流次数、两人闲时交流次数、两人周末交流次数”四项属性作为x值，他们之间的关系作为y值，进行svm训练，最终训练出相应的K＝{k1，k2，k3，k4}值，该值会在测试集中使用。

具体地，本实施例中，因为“原始信息表”分为通话表和短信表，所以每一步特征提取都需要进行两次提取操作，分别获取“短信总数量”和“电话总数量”。将四个特征整合成交互因子。开始我们不知道不同特征的权重，所以会在训练集上，利用svm分类器求得分类权重。

输入：X(四项基本特征x1,x2,x3,x4)，Y(用户之间的关系属性)

处理：利用svm分类器，进行迭代分类

输出：最终在分类准确率高的结果上，获取目标向量k(k1,k2,k3,k4)

分类过程具体为：

输入在学习过程中获取的k(k1,k2,k3,k4)值和在特征获取中获取的相应的特征；

处理过程：利用公式tie strength＝k₁*x₁+k₂*x₂+k₃*x₃+k₄*x₄，计算出交互因子数值。其中x₁＝两人通话次数总通话次数+两人短信条数总短信条数；x₂＝忙时通话次数两人通话总次数+忙时短信条数两人短信条数；x₃＝闲时通话次数两人通话总次数+闲时短信条数两人短信总条数；x₄＝周末通话次数两人通话总次数+周末短信条数两人短信总条数；

输出为交互强度值。

(2)交互稳定性特征：不同关系用户的通话行为在时间上具有差异性，总体来说工作关系的用户对之间通话集中在工作时段，而家庭通话时间随机性较强。为了量化这一特征，提出通话熵的概念，用于衡量不同关系用户通话的稳定性。通话熵Entropy的计算公式如下：

E n t r o p y = - Σ_{i = 1}^{T} p (x_{i}) \cdot \log_{2} p (x_{i})

(式2)

其中，p(x_i)为用户对在第i个小时时段内的通话概率，i＝1,2，…,T；典型的T的取值为24，对应于一天中24个小时时段。

22)空间行为特征提取：主要包括刻画空间同现性和地理语义的两类特征：

(1)地理语义特征：

在已知的基站信息中，每一个基站都具备各自的语义—即在这个基站的覆盖范围内，有几个医院、学校、娱乐设施等。基于最简单的累加法进行试验——即如果用户在这个基站出现同现，那么将这个基站覆盖范围内的所有语义分别进行累加。但是，这样最终得到一个毫无区分度的整个地区的设施分布结果。

为避免这种现象的出现，我们引进了TF-IDF方法。该方法作为一种统计方法，用于评估字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。在本专利中主要用于评估某个地点语义的重要性。比如说“学校”这一关键词在整个城市中出现了100次，我们就定义“学校”的IDF为1/100；用户x、y在基站l相遇，而l中“学校”这一关键词出现了5次，那么我们定义本次相遇中，“学校”的TF为5；最终可以求得本次相遇中，“学校语义”所占的权值：TF*IDF＝5*1/100＝0.05。最后我们用该基站权值最大的语义来代表该基站。

本实施例中，根据通话详单，可以获取用户的地点信息，比如说用户A在xxx时间在yyy基站发生一次通话。我们可以简化理解为：用户A在xxx时间出现在yyy地点。

(2)空间同现性特征：

如果用户a、b在一个小时时间内，都在同一基站c出现，则记录同现一次。根据时间，将同现特征分三类，分别是夜晚同现频率，工作日白天的同现频率，周末同现频率等。则定义同现公式：其中a∩b表示用户a和用户b的空间同现次数；a∪b表示用户a空间位置暴露次数以及b空间位置暴露次数的总和。举例说明：抽取夜晚同现频率，此时公式的时间限定为夜晚，有a∩b表示在晚上，用户a和用户b的空间同现次数；a+b表示在晚上，用户a空间位置暴露次数以及b空间位置暴露次数的总和。

根据用户的地点信息，我们可以获取用户的同现信息。比如说用户A在今天10点出现在y基站，用户B在今天10点也出现在y基站，那么我们认为两个用户有一次同现。

模型中主要用到三个同现信息：

第一个是用户同现的频率，比如说“用户A和用户B同现的总次数”除以“他们分别同现的次数之和”；

第二个是用户同现地点语义，每一个基站都有相应的地点语义，比如说基站y覆盖范围下，有10个医院，2个学校等；用tf-idf方法计算基站的地点语义；

第三个是用户同现的分布规律，根据用户同现的时空信息计算分布熵。

3)建立因子图模型，作为关系识别模型；

用G＝(V，C，R，S)来描述移动社交网络，其中V是网络中|V|＝N个用户的集合，表述网络中用户之间的团，R用来表示两个用户之间的关系，分朋友、同事和家庭三类。S描述了两个用户之间在空间上的关系。用X是描述两个用户之间的基本属性关系矩阵；X中每一个x_i，j代表的是一个用来描述用户i和用户j之间关系属性的|x_i，j|维特征向量。

给定一个社交网络G＝(V，C，R，S)和关系特征属性矩阵X，我们的目标是学习如下函数：

f:G＝(V，C，R，S)，X→(R) (式3)

用来进行判别用户之间的社交关系。

为充分利用移动社会网络数据集中所包含的信息，所设计的模型不仅要考虑到用户关系本身所具有的属性，也需考虑用户在空间上的行为特征，以及社交行为特征。为综合融入上述信息，本发明构建因子图模型来进行多元关系识别。因子图模型建模包括如下步骤：

首先，使用无向图结构表达出移动社交网络拓扑结构，在网络的节点属性中表达用户自身行为的特征向量，在网络边的属性中表达用户之间交互行为的特征向量；

然后，基于因子图模型建模理论，定义一个全局函数来描述用户之间关系的条件概率分布的表达，进而将全局函数分解为三个因子，分别用来刻画所提取的移动用户行为特征；

最后，使用极大似然估计的方法，求得使得模型达到最大似然值的参数，即完成了关系识别模型的构建。

在因子图模型中，定义一个全局函数使得描述用户关系的条件概率达到最大，将全局函数分解为局部函数乘积，本发明将全局函数分解为三个因子(交互因子、空间因子、社交因子)：

\begin{matrix} P (R | G, X) = \frac{P (x, G | R) P (R)}{P (X, G)} &Proportional; P (R | G) P (X | R) \\ &Proportional; Π_{e_{i, j &Element; E}} P (x_{i, j} | r_{i, j}) Π_{c_{i, j, k &Element; E}} P (s_{i, j} | r_{i, j}) Π_{c_{i, j, k &Element; E}} P (c_{i, j, k} | r_{i, j}) \end{matrix}

(式4)

具体地，三个因子分别为：1)交互因子描述两个用户之间关系的交流特征，比如通话时间、通话强度等特征；2)空间因子描述两个用户之间在物理空间上的联系，比如他们最常同现的地方分布；3)社团因子描述用户之间的关系受到所属社团的影响。

因此，整个总的全局概率分布可以被下面公式描述：

P (R | G, X) = Π_{e_{i, j} &Element; E} f (r_{i, j}, x_{i, j}) \times Π_{e_{i, j} &Element; E} g (r_{i, j}, s_{i, j}) \times Π_{c_{i, j, k} &Element; G} h (r_{i, j}, c_{i, j, k})

(式5)

其中，R代表用户之间的关系类型(包括家庭关系、同事关系、朋友关系)，G表示网络结构图；X表示特征矩阵，比如10个用户，那么X特征矩阵就有10行，每一行代表一个用户的特征；r_i，j代表用户i，j之间的关系；x_i，j代表用户i，j之间的交流因子特征；s_i，j代表用户i，j之间的空间因子特征；c_i，j，k代表用户i，j之间的社交因子；e_i，j表示图中i，j的连接边；c_i，j，k表示用户i，j与其他用户构成的团。

三个因子函数的构建过程：

交互因子：使用因子f(r_i，j，x_i，j)来描述两个用户之间的关系r_i，j和交流关系属性x_i，j之间的关系；用一个指数线性函数(式6)来描述交互因子(函数)：

f (r_{i, j}, x_{i, j}) = \frac{1}{w_{e}} \exp {α_{e_{i, j}} \cdot x_{i, j}}

(式6)

是模型中需要进行学习的参数；w_e用来标准化的参数，对于每一对有关系的用户i和j，参数是一个|x_i，j|维长度的参数，并且参数的第k维描述了x_i，jk对于两个用户之间关系的贡献。比如说x_i，j的第k维代表的是两者之间的通话强度，那么参数的第k维则描述的是两者之间的通话强度对于他们之间的关系的贡献。交互因子的主要作用是用来描述两个用户之间通话属性对于整个用户关系的影响。

空间因子:用因子g(r_i，j，s_i，j)来描述两个用户之间的关系r_i，j和在物理空间属性之间s_i，j的关系,使用同现地点(两者同时出现在某个地点)的频率刻画，用一个线性指数函数来描述这个因子(函数)：

g (r_{i, j}, s_{i, j}) = \frac{1}{w_{e s}} \exp {β_{e_{i, j}} \cdot s_{i, j}}

(式7)

其中，是模型中需要进行学习的参数，w_es是用来进行标准化的参数。对于每对有关系的用户i和j，参数的第k维描述的是两个用户同现的地点语义对于他们关系的贡献。比如，s_i，j的第k维描述的是两个用户在公司出现的频率，那么如果这个频率够高的话，那么他们两者之间很有可能是同事关系。还比如两个用户同时在小区出现的频率较高，那么他们之间很有可能是家庭关系。

社团因子：社交因子h(r_i，j，c_i，j，k)描述两个用户之间的关系r_i，j与他们和其他用户所构成的团之间的影响。更具体用一个函数来描述这个因子：

h (r_{i, j}, c_{i, j, k}) = \{\begin{matrix} \frac{1}{w_{c 1}} \exp {γ_{1} \cdot h_{1}^{'} (r_{i, k}, r_{j, k})} \\ \frac{1}{w_{c 2}} \exp {γ_{2} \cdot h_{2}^{'} (r_{i, k}, r_{j, k})} \\ \frac{1}{w_{c 3}} \exp {γ_{3} \cdot h_{3}^{'} (r_{i, k}, r_{j, k})} \end{matrix}

(式8)

其中，函数h′₁(r_i，k，r_j，k)为向量函数，w_cp为标准化参数。在集团中用向量函数来描述集团中另外两边的关系对于用户i和j关系预测的贡献。比如，如果另外两遍均为家庭关系，那么很有可能需要进行预测的边也是家庭关系。根据另外两条边的类型不同可以构造三种不同的函数。

本实施中，社团因子的获得具体是：输入原始通话详单，处理过程是运用sql语言，抽取所有的三元团；比如说用户A和用户B、C都有通话，同时用户B、C之间也具有通话，那么A、B、C构成三元团；输出为所有三元团信息。

综合以上三个因子，定义目标函数作为所提出模型的极大似然值(log-likelihood)，

O (α, β, γ) = Σ_{e_{i, j} &Element; E} α_{e_{i, j}} \cdot x_{i, j} + Σ_{e_{i, j} &Element; E} β_{e_{i, j}} \cdot s_{i, j} + Σ_{c_{i, j, k &Element; G}} Σ_{q = 1}^{3} γ_{q} h_{q}^{'} (\cdot) - \log W

(式9)

其中，O(α，β，γ)是P(R|G，X)的对数函数；e_i，j表示用户i,j之间的边，如果用户i,j之间有通话等交互动作，则认为这两个用户之间存在边；E表示数据集中所有的边的集合；γ_q为需要学习的参数，实质上表达不同特征的权重；x_i，j、s_i，j、h′_q(·)表示三种因子，分别是交流因子、空间因子和社团因子；W＝W_eW_esW_cp是全局标准化参数。

4)通过关系学习与推断，得到识别结果。

目前，常被采用的关系预测方法分别对家庭、同事和朋友关系分别进行预测。但是，在推断过程中，不同关系的相互协同有助于识别精度的提升，因此本发明采用多元社交关系的并行推断方法，识别得到的结果将更为合理。

本发明从两个角度来实现移动社会网络中多元关系的并行推断：一，运用梯度下降的参数估计方法，同时对因子图模型中三种关系类别进行参数推断；二，基于多元关系的概率值进行关系推断：对于网络中的任意一条边，在参数学习的基础上用因子图模型进行推断的时候，三种关系都可以得到一个概率，则选取概率最大值所对应的关系类别作为关系识别的结果。

多元关系学习和并行推断，包括：

41)模型参数学习

本专利将图模型中任意两个用户的关系定义关系属性R∈{0,1,2}，其中0代表朋友关系，1代表同事关系，2代表家庭关系。因为家庭关系是一种比同事关系联系强度更强的关系类型，所以在本发明中，在模型参数学习阶段，将既是家庭又是同事的关系类型仅仅标识为家庭关系。

模型学习(训练)的输入是特征提取得到的数据和用户之间的具体关系属性R；本实施例在训练集中进行模型训练。模型学习的输入训练集数据，抽取的所有因子和用户之间的具体关系。对于训练集A～J，我们已知他们之间的关系属性R(比如说AB为一家人，那么R_AB＝2；同事为1；普通朋友为0)，在输入数据之后(需要输入交流特征x_i，j，空间特征s_i，j，三元交互特征c_i，j，k)，我们需要求出P(R|G，X)中的θ＝{α，β，γ}值(用于决定不同的因子的权重)来确定模型。

模型学习的目标是找到一个适合的值θ＝{α，β，γ}在给定的训练集上使得极大似然目标函数O(θ)达到最大。即θ^*＝argmaxO(θ)。通过模型学习输出分类模型的θ＝{α，β，γ}值。

采用经典的梯度下降的方法来解决训练的问题。下面即为每次迭代需要进行的操作：

θ_{n e w} = θ_{o l d} + η \cdot \frac{\partial O (θ)}{\partial θ}

(式10)

式10中，θ_new表示每一次迭代获取的新θ值；θ_old表示每一次迭代之前的θ值，初始是随机赋值的θ；η表示梯度下降法更新的速率值，η越大，更新越快，但是波动也越大；表示梯度下降法中的梯度选取量。

θ＝{α，β，γ}，开始时，随机赋值θ，之后，用梯度下降法进行迭代运算。

42)多元关系的识别：

完成参数值θ估计之后，得到相应的参数值，就可以对于网络中未知边的关系类别进行识别。

基于图模型的多元关系学习和推断过程中：1)模型参数学习时同时考虑了家庭、同事和朋友三类关系；2)在关系推断的过程中，同时推断三类关系(家庭、同事和朋友)，采用的方法是依据每条边计算出的三类关系的概率值，取其概率最大值所对应的关系。对于网络中的任意一条边用因子图模型进行推断的时候，三种关系都可以得到一个概率，则选取概率最大值所对应的关系类别作为关系识别的结果。

对于测试集用户a～h，我们最终目标是求出他们的关系属性R。类似于模型训练，通过测试集数据的通话详单获取用户的三元社交关系，输入三个因子，同时输入训练过程中求得的θ＝{α，β，γ}值，找到式5所表示的函数中使得P(R|G，X)值最大的R，R就是用户之间的关系。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于位置的移动社会网络用户关系识别方法，基于用户数据构建移动社会网络，通过对用户行为进行特征提取，建立因子图模型，再进行模型参数学习和多元关系的并行推断，识别得到用户关系；具体包括如下步骤：

1)对用户数据进行预处理，获得用于关系识别的抽样数据；

4)针对因子图模型进行参数学习训练；

2.如权利要求1所述基于位置的移动社会网络用户关系识别方法，其特征是，所述用户数据包括基本数据和辅助数据；所述基本数据为用户通话详单；所述辅助数据包括基站信息表、家庭信息表和集团信息表；步骤1)所述预处理具体包括基于家庭信息表对数据进行抽样和通过删除用户来解决噪声干扰。

3.如权利要求1所述基于位置的移动社会网络用户关系识别方法，其特征是，所述交互行为特征包括交互强度特征和交互稳定性特征；所述空间行为特征包括空间同现特征和地理语义特征。

4.如权利要求1所述基于位置的移动社会网络用户关系识别方法，其特征是，

所述交互因子通过式6表示：

f (r_{i, j}, x_{i, j}) = \frac{1}{w_{e}} \exp {α_{e_{i, j}} \cdot x_{i, j}}

(式6)

式6中，交互因子f(r_i，j，x_i，j)描述两个用户之间的关系r_i，j和交流关系属性x_i，j之间的关系；w_e为用来标准化的参数；对于每一对有关系的用户i和j，参数是一个|x_i，j|维长度的参数，并且参数的第k维描述x_{i，j k}对于两个用户i和j之间关系的贡献；

所述空间因子通过式7表示：

g (r_{i, j}, s_{i, j}) = \frac{1}{w_{e s}} \exp {β_{e_{i, j}} \cdot s_{i, j}}

(式7)

所述社团因子通过式8表示：

h (r_{i, j}, c_{i, j, k}) = \{\begin{matrix} \frac{1}{w_{c 1}} \exp {γ_{1} \cdot h_{1}^{'} (r_{i, k}, r_{j, k})} \\ \frac{1}{w_{c 2}} \exp {γ_{2} \cdot h_{2}^{'} (r_{i, k}, r_{j, k})} \\ \frac{1}{w_{c 3}} \exp {γ_{3} \cdot h_{3}^{'} (r_{i, k}, r_{j, k})} \end{matrix}

(式8)

5.如权利要求1所述基于位置的移动社会网络用户关系识别方法，其特征是，步骤3)所述建立因子图模型包括如下步骤：

6.如权利要求1所述基于位置的移动社会网络用户关系识别方法，其特征是，步骤3)所述因子图模型为一个全局概率分布函数，描述为式5：

P (R | G, X) = Π_{e_{i, j} &Element; E} f (r_{i, j}, x_{i, j}) \times Π_{e_{i, j} &Element; E} g (r_{i, j}, s_{i, j}) \times Π_{c_{i, j, k} &Element; G} h (r_{i, j}, c_{i, j, k})

(式5)

定义目标函数式9作为所述因子图模型的极大似然值：

O (α, β, γ) = Σ_{e_{i, j} &Element; E} α_{e_{i, j}} \cdot x_{i, j} + Σ_{e_{i, j} &Element; E} β_{e_{i, j}} \cdot s_{i, j} + Σ_{c_{i, j, k &Element; G}} Σ_{q = 1}^{3} γ_{q} h_{q}^{'} (\cdot) - \log W

(式9)

式9中，O(α，β，γ)是P(R|G，X)的对数函数；e_i，j表示用户i，j之间的边，如果用户i，j之间有通话等交互动作，则认为这两个用户之间存在边；E表示数据集中所有的边的集合；γ_q为需要学习的参数，实质上表达不同特征的权重；x_i，j、s_i，j、h′_q(·)表示三种因子，分别是交流因子、空间因子和社团因子；W＝W_eW_esW_cp是全局标准化参数。

7.如权利要求1所述基于位置的移动社会网络用户关系识别方法，其特征是，步骤4)所述针对因子图模型进行参数学习训练，具体采用经典的梯度下降方法，所述梯度下降方法每次迭代需要进行的操作为式10：

θ_{n e w} = θ_{o l d} + η \cdot \frac{\partial O (θ)}{\partial θ}

(式10)

8.如权利要求7所述基于位置的移动社会网络用户关系识别方法，其特征是，所述模型参数学习时同时考虑家庭、同事和朋友三类关系。

9.如权利要求1所述基于位置的移动社会网络用户关系识别方法，其特征是，步骤5)所述多元关系并行推断方法具体包括运用梯度下降的参数估计方法和基于多元关系的概率值进行关系推断的方法。