CN113052712B

CN113052712B - 社交数据的分析方法、***及存储介质

Info

Publication number: CN113052712B
Application number: CN202110246341.7A
Authority: CN
Inventors: 李明; 张�林; 黄昌勤; 梁吉业
Original assignee: Zhejiang Normal University CJNU
Current assignee: Zhejiang Normal University CJNU
Priority date: 2021-03-05
Filing date: 2021-03-05
Publication date: 2022-05-31
Anticipated expiration: 2041-03-05
Also published as: CN113052712A

Abstract

本发明公开了一种社交数据分析方法、***及存储介质，涉及人工智能领域。其中，社交数据的分析方法包括以下步骤：获取社交数据，其中，所述社交数据包括用户数据和社交资源数据；将所述社交数据处理为带有语义信息的图数据；构建语义图卷积神经网络模型，其中，所述语义图卷积神经网络模型由多个网络残差模块构成；采用所述语义图卷积神经网络模型处理所述图数据得到所述社交数据的处理分析结果。能够处理海量的多源异构数据，且数据的分析结果准确度高。

Description

社交数据的分析方法、***及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种社交数据分析方法、***及存储介质。

背景技术

随着网络技术的发展，社交平台越来越多，网络也越来越多，产生的社交大数据也呈现***式的增长。社交网络的广泛使用，产生了前所未有的海量数据，这些社交大数据由于来源较多，结构较为复杂等特点，如果不经过处理，很难对其进行统一化利用。社交大数据处理的一般流程包括数据采集、数据集成及数据分析。数据集成通过数据库存储、数据清洗、转换、降维等一系列预处理，为数据分析阶段提供相适应的数据源。但是，社交大数据的海量多样性增加了数据处理的难度，这些社交大数据通常来自不同的来源和不同的类型，结构化、半结构化、完全非结构化的数据使得数据源具有不同形式的异构、高维、非线性数据特性。解决这些问题的关键方法是数据集成，其目的是组合不同来源的数据，并为用户提供这些数据的统一视图，而数据集成的核心则是如何进行数据表示。

相关技术中，图神经网络(Graph neuralnetworks)在保存图的全局结构信息，处理结构关系的复杂问题上具有明显优势，因此可以图神经网络来处理关系复杂的结构和捕捉数据之间的语义关系。尽管图神经网络可以在任意的拓扑节点上运作，但是为处理每个图节点有不同的邻居节点，卷积滤波器共享一个权值矩阵，这样则无法很好的利用整个图的内部结构；(2)图神经网络中的卷积神经网络可以考虑数据背后的一些局部语义信息，但是无法获取图中没有明显表示的语义信息，例如全局和局部的节点的语义关系；(3)图神经网络虽然使用了每个节点，但是感受野局域太小，在网络结构较深时，影响信息交换的效率，不利于学习全局特征。这些缺陷导致在分析处理多源异构的社交数据时准确度低。

发明内容

为了解决上述技术问题的至少之一，本发明提出一种社交数据的分析方法、***及存储介质，能够处理海量的多源异构数据，且数据的分析结果准确度高。

第一方面，本发明实施例提供了一种社交数据的分析方法，包括以下步骤：

获取社交数据，其中，所述社交数据包括用户数据和社交资源数据；

将所述社交数据处理为带有语义信息的图数据；

构建语义图卷积神经网络模型，其中，所述语义图卷积神经网络模型由多个网络残差模块构成；

采用所述语义图卷积神经网络模型处理所述图数据得到所述社交数据的处理分析结果。

在一些实施例中，所述社交数据采用图结构的表示形式，所述社交数据的表示形式为：

G＝(U，I，E)；

其中，G表示社交数据；U＝{u₁，u₂，...，u_m}表示用户节点，m代表用户节点的个数；I＝{i₁，i₂，...，i_n}代表社交资源节点，n代表资源节点的个数；

表示用户和资源之间产生交互。

在一些实施例中，将所述社交数据处理为带有语义信息的图数据包括以下步骤：

根据所述社交资源的来源不同构建多个用户资源二部图，其中，用户资源二部图表示为：

G＝{(u，i，e)|u∈U，i∈I，e∈E}；

其中，U表示用户集合，I表示资源集合，E表示用户和资源之间边的集合，当他们之间的边e_ui＝1时表示用户u和资源i产生社交数据交互，e_ui＝0时则表示用户u和资源i不产生社交数据交互；

将所述用户数据和所述资源数据嵌入至所述用户资源二部图中。

在一些实施例中，所述将所述社交数据处理为带有语义信息的图数据还包括以下步骤：

分别将每个所述用户资源二部图输入到图卷积神经网络模型中得到每个所述用户资源二部图的高阶特征矩阵；

利用全局平均池化聚合每个所述用户资源二部图的所述高阶特征矩阵顶点获得每个所述用户资源二部图的表示向量；

利用每个所述用户资源二部图的表示向量形成图数据。

在一些实施例中，所述分别将每个所述用户资源二部图输入到图卷积神经网络模型中得到每个所述用户资源二部图的高阶特征矩阵包括以下步骤：

提取所述用户资源二部图中的节点特征形成输入特征矩阵；

根据所述用户资源二部图中节点间的关系形成所述用户资源二部图的邻接矩阵；

将所述输入特征矩阵和所述邻接矩阵输入到图卷积神经网络模型中获得高阶特征矩阵。

在一些实施例中，所述图卷积神经网络模型表示为：

Z⁽⁰⁾＝X；

Z^(j+1)＝σ(WZ^(j)A)；

其中，A∈R^m*n表示邻接矩阵，m表示用户节点个数，n表示资源节点个数，度矩阵D表示用户节点与资源节点之间的权值，基于邻接矩阵A和度矩阵D，所述图卷积神经网络模型第一层的输入特征矩阵为

第j层输入特征矩阵Z^(j)∈R^m*d(j)，第j层输出高阶特征矩阵z^(j+1)∈R^m*d(j+1)，

是一个可训练的权重矩阵，σ为激活函数，d用于描述节点的d维度特征。

在一些实施例中，所述语义图卷积神经网络模型包括多层语义图卷积神经网络，每层语义图卷积神经网络表示为：

其中，

表示所述图数据的顶点i在第j层语义图卷积神经网络之后的节点表示，

表示所述图数据的顶点在第j层语义图卷积神经网络之前的节点表示，W_z表示可训练的权重矩阵，W_z初始化为0，

表示顶点i和顶点l的亲和度，K表示节点的数量，

表示所述图数据的顶点i在第j层语义图卷积神经网络的表示向量。

在一些实施例中，所述社交数据的分析方法还包括以下步骤：

可视化显示所述社交数据的处理分析结果。

第二方面，本发明实施例还提供了一种社交数据的分析***，包括：

采集模块，用于获取社交数据，其中，所述社交数据包括用户数据和社交资源数据；

数据处理模块，用于将所述社交数据处理为带有语义信息的图数据；

模型构建模块，用于构建语义图卷积神经网络模型，其中，所述语义图卷积神经网络模型由多个网络残差模块构成；

分析模块，采用所述语义图卷积神经网络模型处理所述图数据得到所述社交数据的处理分析结果。

第三方面，本发明实施例还提供了一种计算机存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由所述处理器执行时用于实现如上述第一方面实施例所述的社交数据的分析方法。

本发明上述的技术方案至少具有如下优点或有益效果之一：首先获取各种网络平台的多源异构社交数据，包括用户数据以及资源数据，然后将复杂的多源异构社交数据统一处理为带有语义信息的图数据；构建由多个网络残差模块构成且多个网络残差模块之间通过非局部层连接的语义图卷积神经网络模型；将图数据输入语义图卷积神经网络模型获取社交数据的处理分析结果。本发明把多源异构社交数据问题建模成一个语义图卷积任务，把用户和资源的交互社交数据处理成带有语义信息的图数据，来使语义图卷积模型获得更精准的语义表达，从而提高模型的性能与分析精度。

附图说明

图1是根据本发明实施例提供的社交数据的分析方法流程图；

图2是根据本发明实施例提供的语义图卷积神经网络模型结构示意图；

图3是根据本发明实施例提供的可视化用户社交数据示意图；

图4是根据本发明实施例提供的可视化社交数据分析结果示意图。

具体实施方式

本申请实施例所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

本发明实施例提供了一种社交数据的分析方法，参照图1，本发明实施例的方法包括但不限于步骤S110、步骤S120、步骤S130和步骤S140。

步骤S110，获取社交数据，其中，社交数据包括用户数据和社交资源数据。

在一些实施例中，社交数据采用图结构的表示形式，所述社交数据的表示形式为：

G＝(U，I，E)；

表示用户和资源之间产生交互。

步骤S120，将社交数据处理为带有语义信息的图数据。

在一些实施例中，将社交数据处理为带有语义信息的图数据的规则是：将带有用户节点特征和资源节点特征的数据，利用图卷积神经网络进行聚合操作，不断更新节点的特征表示，处理之后不同来源的数据可进行组合，此时的图数据已能够捕捉语义信息。

具体地，将从多个社交平台中获取到的用户和资源的交互数据，并针对不同的数据来源，分别创建一个用户资源二部图，用来模拟用户和资源的交互关系。一个用户资源二部图表示为：

G＝{(u，i，e)|u∈U，i∈I，e∈E}；

其中，U表示用户集合，I表示资源集合，E表示用户和资源之间边的集合，当用户和资源之间的边e_ui＝1时表示用户u和资源i进行交互，产生社交数据，e_ui＝0时则表示用户u和资源i未进行交互，不产生社交数据。社交数据来源越多，用户资源二部图结构越复杂，然后将用户数据和资源数据嵌入对应的用户资源二部图中。示例性地，使用4种不同来源的结构数据m∈M＝{v，a，t，b}作为不同数据来源的指示符，其中v，a，t，b分别表示4种不同用户和不同资源进行社交互动时产生的多源异构社交数据。分别采用用户资源二部图表示社交数据后，将用户ID和资源ID嵌入对应的用户资源二部图中，其中e_u∈R^u表示用户u的ID嵌入，e_i∈Rⁱ表示资源i的ID嵌入。

接着，将构造好的用户资源二部图输入到图卷积神经网络模型中，并根据每个邻居节点的属性更新节点的嵌入向量。采用n表示用户节点的个数，m表示资源节点的个数，特征矩阵来

表示用户节点特征，则第h行代表用户节点h的特征向量。模型引入邻接矩阵A∈R^m*n来表示边的集合E，A_ij表示用户节点i和资源j之间边的权重，度矩阵D，D_ij＝∑_jA_ij，基于邻接矩阵A和度矩阵D，图卷积神经网络模型第1层的输入特征矩阵为

图卷积神经网络模型第j层输入特征矩阵输入特征矩阵Z^(j)∈R^m*d(j)，图卷积神经网络模型第j层输出高阶特征矩阵Z^(j+1)∈R^m*d(j+1)，且遵循：

Z⁽⁰⁾＝X；

Z^(j+1)＝σ(WZ^(j)A)；

其中，

是一个可训练的权重矩阵，σ是一个激活函数，如Relu函数。

根据本发明一些具体实施例，经过图卷积神经网络模型获得高阶特征矩阵之后，选择全局平均池化来聚合每个用户资源二部图上的顶点，得到每个用户资源二部图的表示向量，利用每个用户资源二部图的表示向量形成图数据。需要说明的是，全局平均池化操作时对用户资源二部图中所有节点的特征进行平均操作，这种聚合方法基于假设：不同的邻居节点对本节点有不同的贡献度，即用户节点和资源节点也会受邻居节点的影响。

具体地，图卷积神经网络模型纳入了用户和资源的交互数据来丰富节点表示，因为这些数据不仅可以描述用户的兴趣、使用习惯等，还可以捕捉同类节点之间的行为相似性。对于用户资源二部图中的用户节点，使用聚合函数f来量化邻居节点的影响，输出表示为：

h_m＝f(N_u)；

其中，N_u＝{j|(u，j)∈G}表示用户u的邻居节点，j表示与用户u的交互资源，G表示用户资源二部图。

通过平均聚合来表示函数f_avg，对某种特定结构中的节点特征采取平均池化操作，并进行非线性变换：

其中，

是模态m的节点j的表示，

是可训练的转换矩阵，Leakyrelu是一个非线性激活函数。

根据本发明一些具体实施例，针对图卷积神经网络模型提出一个新的结合层，将节点的结构信息、内在信息、数据来源三部分通过下列公式集成为统一表示：

其中，

是在数据来源为m时节点u的用户表示，u_id是用户ID的嵌入，h_m表示节点的结构信息。

将u_m和u_id投射到潜在空间中，得到：

u_m＝LeakyReLU(W_2，mju_m)+u_id；

其中，

是一个可训练的权重矩阵，将u_m转换成ID嵌入空间。

通过非线性转换的连接方式，有：

g_co(h_m，u_m，u_id)＝LeakyReLU(W_3，m(h_m||u_m))；

其中，||表示连接操作，W_3，m表示可训练的模型参数。

步骤S130，构建语义图卷积神经网络模型，其中，语义图卷积神经网络模型由多个网络残差模块构成。

具体地，捕捉节点之间全局和长期的关系能够有效的解决图卷积中感受野较小的问题。然而，传统的图卷积网络网络是基于用户和资源节点的表示，来计算用户和资源之间的交互程度，这限制了节点特征更新机制，而不能学习新的卷积滤波器。因此根据非局部均值的概念构建语义图卷积神经网络模型，语义图卷积神经网络模型的每层语义图卷积神经网络运算为：

其中，

表示顶点i和顶点l的亲和度，K表示节点的数量，

表示所述图数据的顶点i在第j层语义图卷积神经网络的表示向量。语义图卷积神经网络模型的结构，可以有效捕捉局部节点和全局节点的语义关系。语义图卷积神经网络模型结构如图3所示，语义图卷积神经网络模型包括多个网络残差模块，其中网络残差模块网络残差模块包括两个具有128个通道的SemGConv层和一个非局部层，NonLocal层为非局部层，通过重复使用来加深网络结构。在网络的起始阶段，一个网络残差模块中的SemGConv层负责将输入向量映射到潜在空间，而相邻的下一个网络残差模块中的SemGConv层负责将编码后的特征投射回输出空间。另外，除最后一层之外，所有的语义图卷积神经网络层都需经过批处理标准化和ReLU函数激活。语义图卷积神经网络模型可以被看作一种消息传递***，通过分阶段轮流处理消息来提高信息交换效率。其正向传播信息的两个阶段为：消息局部更新以及由***的全局状态进行细化。

步骤S140，采用所述语义图卷积神经网络模型处理所述图数据得到所述社交数据的处理分析结果。

经过多图聚合之后的图数据便可在语义图卷积神经网络中使用，以得到社交数据的处理分析结果。需要说明的是，在上述图卷积神经网络基础上，增加一个可学习的权重矩阵M∈R^k*k，则之前在图卷积中的公式Z^(j+1)＝σ(WZ^(j)A)演变为：

Z^(j+1)＝σ(WZ^(j)ρ_i(M⊙A))；

其中，ρ_i是对顶点i的所有输入特征矩阵进行的Softmax非线性化变换，⊙是一个矩阵元素运算操作。

经过语义图神经网络模型的训练后，可以通过学习权重矩阵M进一步拓展上面公式，将不同的权重矩阵应用于输出节点特征：

其中，||表示连接操作，W_d为参数矩阵的第d行。

根据本发明一些具体实施例，社交数据的分析方法还包括：

步骤S150，可视化显示所述社交数据的处理分析结果。

具体地，可视化显示社交数据的处理分析结果方便直观检验本方案的社交数据分析方法的准确性，示例性地，根据每个用户使用不同的社交资源产生的社交大数据分析每个用户的社交偏好状况。首先随机抽取5个用户，并收集他们使用过的社交资源。然后在二维图中使用t分布随机邻居嵌入来可视化用户的社交数据表示。最后将5个用户的社交数据输入到构建语义图卷积神经网络模型然后依次输出其分类结果。

参照图3，左边的正方形框图表示结构化数据，右边的正方形框图表示非结构化数据，图中的每个点代表了用户和资源交互产生的数据，点的灰度不同代表了不同的用户。椭圆框的数据表示数据来源，数据来源包括视频类社交资源和文字类社交资源。分类结果如图4所示，一部分用户偏好使用视频类社交资源，一部分偏好使用文字类社交资源。可视化可以较为直观的反应数据的来源和结构，不同的交互数据的聚集可分析用户对某一类社交资源的偏好。

本发明的一个实施例还提供了一种社交数据的分析***，其特征在于，包括：

采集模块，用于获取社交数据，其中，社交数据包括用户数据和社交资源数据。

数据处理模块，用于将社交数据处理为带有语义信息的图数据。

模型构建模块，用于构建语义图卷积神经网络模型，其中，语义图卷积神经网络模型由多个网络残差模块构成。

本发明的一个实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个控制处理器执行，例如，执行以上实施例描述的步骤。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、***可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

Claims

1.一种社交数据的分析方法，其特征在于，包括以下步骤：

G＝{(u，i，e_ui)|u∈U，i∈I，e_ui∈E}；

其中，G表示用户资源二部图，U表示用户集合，I表示资源集合，E表示用户和资源之间边的集合，当他们之间的边e_ui＝1时表示用户u和资源i产生社交数据交互，e_ui＝0时则表示用户u和资源i不产生社交数据交互；

将所述用户数据和所述资源数据嵌入至所述用户资源二部图中；

利用全局平均池化聚合每个所述用户资源二部图的所述高阶特征矩阵顶点，获得每个所述用户资源二部图的表示向量；

利用每个所述用户资源二部图的表示向量形成图数据；

采用所述语义图卷积神经网络模型处理所述图数据得到所述社交数据的处理分析结果；

其中，语义图卷积神经网络模型的每层语义图卷积神经网络运算定义为：

其中，

表示顶点i和顶点l的亲和度，K表示节点的数量，

表示所述图数据的顶点l在第j层语义图卷积神经网络的向量表示。

2.根据权利要求1所述的社交数据的分析方法，其特征在于，所述社交数据采用图结构的表示形式，所述社交数据的表示形式为：

G′＝(U，I，E)；

其中，G’表示所述社交数据；U＝{u₁，u₂，...，u_m}，u_m表示用户节点，m代表用户节点的个数；I＝{i₁，i₂，...，i_n}，i_n代表社交资源节点，n代表资源节点的个数；

表示用户和资源之间产生交互。

3.根据权利要求2所述的社交数据的分析方法，其特征在于，所述分别将每个所述用户资源二部图输入到图卷积神经网络模型中得到每个所述用户资源二部图的高阶特征矩阵包括以下步骤：

提取所述用户资源二部图中的节点特征形成输入特征矩阵；

4.根据权利要求3所述的社交数据的分析方法，其特征在于，所述图卷积神经网络模型表示为：

Z⁽⁰⁾＝X；

Z^(j+1)＝σ(WZ^(j)A)；

其中，A∈R^m*n表示邻接矩阵，m表示用户节点个数，n表示资源节点个数，度矩阵D表示用户节点与资源节点之间的权值，基于邻接矩阵A和度矩阵D，所述图卷积神经网络模型第1层的输入特征矩阵为

所述图卷积神经网络模型第j层输入特征矩阵Z^(j)∈R^m*d(j)，所述图卷积神经网络模型第j层输出高阶特征矩阵Z^(j+1)∈R^m*d(j+1)，W∈R^d(j)*d(j+1)是一个可训练的权重矩阵，σ为激活函数，d用于描述节点的维度特征。

5.根据权利要求4所述的社交数据的分析方法，其特征在于，所述社交数据的分析方法还包括以下步骤：

可视化显示所述社交数据的处理分析结果。

6.一种社交数据的分析***，其特征在于，包括：

数据处理模块，用于根据所述社交资源的来源不同构建多个用户资源二部图，将所述用户数据和所述资源数据嵌入至所述用户资源二部图中，分别将每个所述用户资源二部图输入到图卷积神经网络模型中得到每个所述用户资源二部图的高阶特征矩阵，利用全局平均池化聚合每个所述用户资源二部图的所述高阶特征矩阵顶点获得每个所述用户资源二部图的表示向量，利用每个所述用户资源二部图的表示向量形成图数据；

分析模块，采用所述语义图卷积神经网络模型处理所述图数据得到所述社交数据的处理分析结果；

其中，用户资源二部图表示为：

G＝{(u，i，e_ui)|u∈U，i∈I，e_ui∈E}；

其中，

表示顶点i和顶点l的亲和度，K表示节点的数量，

7.一种计算机存储介质，其中存储有处理器可执行的程序，其特征在于，所述处理器可执行的程序在由所述处理器执行时用于实现如权利要求1-5任一项所述的社交数据的分析方法。