WO2023000574A1

WO2023000574A1 - 一种模型训练方法、装置、设备及可读存储介质

Info

Publication number: WO2023000574A1
Application number: PCT/CN2021/134051
Authority: WO
Inventors: 胡克坤; 董刚; 赵雅倩; 李仁刚
Original assignee: 浪潮(北京)电子信息产业有限公司
Priority date: 2021-07-21
Filing date: 2021-11-29
Publication date: 2023-01-26
Also published as: CN113705772A

Abstract

一种模型训练方法、装置、设备及可读存储介质。上述方法设计了两个切比雪夫图卷积神经网络，一个基于顶点特征矩阵、邻接矩阵、标签矩阵进行有监督训练，另一个基于顶点特征矩阵、正逐点互信息矩阵和前一个网络在训练过程中的输出，进行无监督训练；当基于二者的损失值所确定的目的损失值符合预设收敛条件时，将两个切比雪夫图卷积神经网络组合为对偶顶点分类模型，从而训练得到了性能更佳的顶点分类模型。该方法能够充分发挥有监督训练和无监督训练各自的优势，提升了顶点分类模型的性能。

Description

一种模型训练方法、装置、设备及可读存储介质

本申请要求在2021年7月21日提交中国专利局、申请号为202110825194.9、发明名称为“一种模型训练方法、装置、设备及可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，特别涉及一种模型训练方法、装置、设备及可读存储介质。

背景技术

随着云计算、物联网、移动通信和智能终端等信息技术的快速发展，以社交网络、社区和博客为代表的新型应用得到广泛使用。这些应用不断产生大量数据，方便用图来建模分析。其中，图的顶点表示个人或团体，连接边表示他们之间的联系；顶点上通常附有标签信息，用以表示所建模对象的年龄、性别、位置、兴趣爱好和宗教信仰，以及其他许多可能的特征。这些特征从各个方面反映了个人的行为偏好，理想情况下，每个社交网络用户都附有所有与自己特征相关的标签。但现实情况却并非如此。这是因为，用户出于保护个人隐私的目的，越来越多的社交网络用户在分享个人信息时，显得更加谨慎，导致社交网络媒体仅能搜集用户的部分信息。因此，如何根据已知用户的标签信息，推测剩余用户的标签，显得尤为重要和迫切。该问题即顶点分类问题。

针对传统机器学习方法难以处理图数据的不足，学术界和工业界逐渐兴起一股图神经网络的研究热潮。图神经网络，简单地说，是一种用于图结构数据的深度学习架构，它将端到端学习与归纳推理相结合，有望解决传统深度学习架构无法处理的因果推理、可解释性等一系列瓶颈问题。

根据实现原理的不同，图卷积神经网络可分为基于空间方法的和基于谱方法的两种类型。其中，前者利用图上显示的信息传播机制，缺乏可解释性；后者以图的拉普拉斯矩阵为工具，具有良好的理论基础，是图卷积神经网络研究的主流方向。但是，目前基于谱方法的图卷积神经网络在应用图顶点分类任务时，表现并不理想，即现有的基于图卷积神经网络的顶点分类模型性能不佳。

因此，如何提高顶点分类模型的性能，是本领域技术人员需要解决的问题。

发明内容

有鉴于此，本申请的目的在于提供一种模型训练方法、装置、设备及可读存储介质，以提高顶点分类模型的性能。其具体方案如下：

第一方面，本申请提供了一种模型训练方法，包括：

获取基于图数据集构建的顶点特征矩阵、邻接矩阵和标签矩阵；

基于所述邻接矩阵进行随机游走和采样，得到正逐点互信息矩阵；

将所述顶点特征矩阵和所述邻接矩阵输入第一切比雪夫图卷积神经网络，以输出第一训练结果；

将所述顶点特征矩阵和所述正逐点互信息矩阵输入第二切比雪夫图卷积神经网络，以输出第二训练结果；

计算所述第一训练结果和所述标签矩阵之间的第一损失值；

计算所述第二训练结果和所述第一训练结果之间的第二损失值；

基于所述第一损失值和所述第二损失值确定目的损失值；

若所述目的损失值符合预设收敛条件，则将所述第一切比雪夫图卷积神经网络和所述第二切比雪夫图卷积神经网络组合为对偶顶点分类模型。

优选地，所述基于所述邻接矩阵进行随机游走和采样，得到正逐点互信息矩阵，包括：

基于所述邻接矩阵，对所述图数据集中的每个顶点进行预设长度的随机游走，得到每个顶点的上下文路径；

对所有上下文路径进行随机采样，以确定任意两个顶点的共现次数，并构建顶点共现次数矩阵；

基于顶点共现次数矩阵，计算顶点与上下文共现概率和相应的边缘概率，并确定所述正逐点互信息矩阵中的每个元素。

优选地，所述计算所述第一训练结果和所述标签矩阵之间的第一损失值，包括：

基于交叉熵原理，将所述第一训练结果和所述标签矩阵之间的概率分布差异程度作为所述第一损失值。

优选地，所述计算所述第二训练结果和所述第一训练结果之间的第二损失值，包括：

计算所述第二训练结果和所述第一训练结果中具有相同坐标的元素的差值，并将所有差值的平方和作为所述第二损失值。

优选地，所述基于所述第一损失值和所述第二损失值确定目的损失值，包括：

将所述第一损失值和所述第二损失值输入损失函数，以输出所述目的损失值；

其中，所述损失函数为：ls＝ls _S+αls _U，ls为所述目的损失值，ls _S为所述第一损失值，ls _U为所述第二损失值，α为调节第二损失值在目的损失值中所占比例的常数。

优选地，若所述目的损失值不符合预设收敛条件，则根据所述目的损失值更新所述第一切比雪夫图卷积神经网络和所述第二切比雪夫图卷积神经网络的网络参数，并对更新后的第一切比雪夫图卷积神经网络和更新后的第二切比雪夫图卷积神经网络进行迭代训练，直至所述目的损失值符合预设收敛条件；

其中，所述根据所述目的损失值更新所述第一切比雪夫图卷积神经网络和所述第二切比雪夫图卷积神经网络的网络参数，包括：

根据所述目的损失值更新所述第一切比雪夫图卷积神经网络的网络参数后，将更新后的该网络参数共享至所述第二切比雪夫图卷积神经网络；

或

根据所述目的损失值更新所述第二切比雪夫图卷积神经网络的网络参数后，将更新后的该网络参数共享至所述第一切比雪夫图卷积神经网络；

或

根据所述目的损失值计算得到新网络参数后，将所述新网络参数共享至所述第一切比雪夫图卷积神经网络和所述第二切比雪夫图卷积神经网络。

优选地，所述第一切比雪夫图卷积神经网络和所述第二切比雪夫图卷积神经网络均包括L层图卷积层，该L层图卷积层用于对输入数据进行特征变换和图卷积操作；

其中，第l(1≤l≤L)层图卷积层的特征变换公式为：

第l(1≤l≤L)层图卷积层的图卷积操作公式为：

其中，Q _l为图卷积神经网络第l图卷积层经特征变换后的顶点特征矩阵；H _l为图卷积神经网络的第l图卷积层的输入数据，H _l+1为图卷积神经网络的第l图卷积层的输出数据；

是图卷积神经网络的第l图卷积层需学习的特征变换矩阵的转置矩阵；σ为非线性激活函数；K<<n，为多项式的阶数；n为所述图数据集中的顶点个数；θ _k是多项式的系数；T _k(x)＝2xT _k-1(x)-T _k-2(x)，且T ₀＝1，T ₁＝x为切比雪夫多项式；

为所述图数据集的拉普拉斯矩阵，

为经过线性变换后的拉普拉斯矩阵。

第二方面，本申请提供了一种模型训练装置，包括：

获取模块，用于获取基于图数据集构建的顶点特征矩阵、邻接矩阵和标签矩阵；

采样模块，用于基于所述邻接矩阵进行随机游走和采样，得到正逐点互信息矩阵；

第一训练模块，用于将所述顶点特征矩阵和所述邻接矩阵输入第一切比雪夫图卷积神经网络，以输出第一训练结果；

第二训练模块，用于将所述顶点特征矩阵和所述正逐点互信息矩阵输入第二切比雪夫图卷积神经网络，以输出第二训练结果；

第一计算模块，用于计算所述第一训练结果和所述标签矩阵之间的第一损失值；

第二计算模块，用于计算所述第二训练结果和所述第一训练结果之间的第二损失值；

确定模块，用于基于所述第一损失值和所述第二损失值确定目的损失值；

组合模块，用于若所述目的损失值符合预设收敛条件，则将所述第一切比雪夫图卷积神经网络和所述第二切比雪夫图卷积神经网络组合为对偶顶点分类模型。

第三方面，本申请提供了一种模型训练设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现前述公开的模型训练方法。

第四方面，本申请提供了一种可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述公开的模型训练方法。

通过以上方案可知，本申请提供了一种模型训练方法，包括：获取基于图数据集构建的顶点特征矩阵、邻接矩阵和标签矩阵；基于所述邻接矩阵进行随机游走和采样，得到正逐点互信息矩阵；将所述顶点特征矩阵和所述邻接矩阵输入第一切比雪夫图卷积神经网络，以输出第一训练结果；将所述顶点特征矩阵和所述正逐点互信息矩阵输入第二切比雪夫图卷积神经网络，以输出第二训练结果；计算所述第一训练结果和所述标签矩阵之间的第一损失值；计算所述第二训练结果和所述第一训练结果之间的第二损失值；基于所述第一损失值和所述第二损失值确定目的损失值；若所述目的损失值符合预设收敛条件，则将所述第一切比雪夫图卷积神经网络和所述第二切比雪夫图卷积神经网络组合为对偶顶点分类模型。

可见，本申请设计了两个切比雪夫图卷积神经网络，第一切比雪夫图卷积神经网络基于顶点特征矩阵、邻接矩阵、标签矩阵进行有监督训练，同时第二切比雪夫图卷积神经网络基于顶点特征矩阵、正逐点互信息矩阵和第一切比雪夫图卷积神经网络在训练过程中的输出，进行无监督训练；当基于二者的损失值所确定的目的损失值符合预设收敛条件时，将两个切比雪夫图卷积神经网络组合为对偶顶点分类模型，从而训练得到了性能更佳的顶点分类模型。该方案能够充分发挥有监督训练和无监督训练各自的优势，提升了顶点分类模型的性能。

相应地，本申请提供的一种模型训练装置、设备及可读存储介质，也同样具有上述技术效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的一种图卷积神经网络的结构示意图；

图2为本申请公开的一种模型训练方法流程图；

图3为本申请公开的一种对偶切比雪夫图卷积神经网络的数据走向示意图；

图4为本申请公开的一种对偶切比雪夫图卷积神经网络示意图；

图5为本申请公开的一种模型构建及训练方法流程图；

图6为本申请公开的一种模型训练装置示意图；

图7为本申请公开的一种模型训练设备示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为方便理解本申请，先对图神经网络和图数据集进行介绍。

需要说明的是，用图对数据及数据之间的关系进行建模分析，具有重要的学术和经济价值。例如，(1)研究传染性疾病和思想观点等在社交网络中随着时间传播扩散的规律；(2)研究社交网络中的群体如何围绕特定利益或隶属关系形成社团，以及社团连接的强度；(3)社交网络根据“人以群分”的规律，发现具有相似兴趣的人，向他们建议或推荐新的链接或联系；(4)问答***将问题引导给最有相关经验的人；广告***向最有兴趣并愿意接受特定主题广告的个人显示广告。

因此需要根据已知用户的标签信息，推测剩余用户的标签，该问题即顶点分类问题，它可形式化地描述为：给定一个图G＝(V,E)，V表示顶点集合，E表示连接边的集合，V _L是V的一个子集，V _L中的顶点有指定的标签。图顶点分类问题解决的是：如何推断剩余顶点构成的集合V\V _L中，每个顶点的标签。与传统分类问题不同，它不能直接应用传统机器学习中的分类方法，如支持向量机、k近邻、决策树和朴素贝叶斯，来解决。这是因为，传统分类方法通常假设对象是独立的，分类结果不精确。但在图顶点分类中，不同对象即顶点之间并非相互独立，相反，它们有着复杂的依赖关系，必须充分利用这些关系，来提高分类的质量。

图神经网络通常由输入层、一个或多个图卷积层，以及输出层组成。根据结构特点，图神经网络可分为图卷积神经网络、图递归神经网络、图自编码器、图生成网络和时空图神经网络。其中，图卷积神经网络由于传统的卷积神经网络在图像处理、自然语言理解等领域取得巨大成功而吸引众多学者的注意。

参见图1所示，图1展示了一个典型的图卷积神经网络的结构，它由一个输入层(Input layer)、两个图卷积层(Gconv layer)，和一个输出层(Output layer)组成。其中，输入层读取n*d维的顶点属性矩阵X；图卷积层对X进行特征提取，经由非线性激活函数如ReLu变换后传递给下一个图卷积层；最后，输出层即任务层，完成特定的任务如顶点分类、聚类等；图中展示的是一个顶点分类任务层，输出每个顶点的类别标签Y。

但由于基于谱方法的图卷积神经网络在应用图顶点分类任务时，表现并不理想，其主要原因是：(1)拉普拉斯矩阵进行特征分解的计算开销较大，为O(n ³)；(2)通过添加正则项定义的目标损失函数(ls＝ls _s+αls _reg,ls _S和ls _reg分别表示有监督学习损失函数和基于图拓扑结构定义的正则项)依赖于“相邻顶点具有类似标签”的局部一致性假设，该假设会限制图神经网络模型的能力，因为图中的连接边并没有对节点间相似性进行编码，但其实它们可以包含附加信息的。

为此，本申请提供了一种模型训练方案，能够结合有监督和无监督学习，有效提高分类的准确度，并有效降低网络的计算复杂性，提高分类效率。

参见图2所示，本申请实施例公开了一种模型训练方法，包括：

S201、获取基于图数据集构建的顶点特征矩阵、邻接矩阵和标签矩阵。

假设待分类的图数据集为G＝(V，E)，V表示顶点集合，它分为少量具有类别标签的顶点集合V _L和大部分无类别标签的顶点集合V _U两部分，并满足V _L∪V _U＝V，

E表示连接边集合。除标签外，G的每个顶点v都拥有d个特征，所有顶点的特征构成了n*d维的顶点特征矩阵X。G的邻接矩阵记为A，元素A _ij表示顶点i和j之间的连接边的权重。

根据已有标签的顶点集合V _L，构建n*C维的标签矩阵Y。其中，n＝|V|表示图中所有顶点个数，C表示所有顶点的标签类别数，矩阵元素Y _ij表示顶点i的类别标签是否为j(j＝1，2，…，C)。当顶点i已有类别标签时，置其第j列元素为1，其余列元素为0，即有：Y _ij＝1(k＝j时)或0(k≠j时)。当顶点i为无类别标签时，将该行对应的每一列元素都置为0。

例如：基于Pubmed数据集构建图数据集。Pubmed数据集包含3个类别的19717种科学出版物，出版物之间含有44,338个引用链接。出版物及它们之间的链接形成引文网络，网络中的每个出版物都用词频-逆文本频率指数(Term Frequency-Inverse Document Frequency，TF-IDF)矢量描述特征向量，该矢量从具有500个术语的字典中得出。所有文档的特征向量组成特征矩阵X。目标是将每个文档归类，每个类别随机抽取20个实例作为标记数据，将1000个实例作为测试数据，其余用作未标记的数据；构建顶点标签矩阵Y。根据论文间的引用关系，构建其邻接矩阵A。根据A计算任意两个顶点间的转移概率；对每个顶点v _j开展长度为u的随机游走得到路径π _j；对π _j随机采样计算顶点v _i出现在路径π _j上的频率P _ij，进而得到正逐点互信息矩阵P。

当然，还可以基于蛋白质、图形图像等构建图数据集，以对蛋白质、图形图像等进行分类。

S202、基于邻接矩阵进行随机游走和采样，得到正逐点互信息矩阵。

根据邻接矩阵A，基于随机游走和随机采样技术可以构造编码图全局一致信息的正逐点互信息矩阵。具体的，邻接矩阵在随机游走工程中有两种作用，第一，表征图拓扑结构，根据它可以知道哪些顶点之间有连接关系，可以从一个顶点游走到相邻的顶点；第二，用于确定随机游走的概率，详见公式(1)，一个顶点可能有多个邻居，在一个随机游走步中，游走者可在它的所有邻居中随机挑一个。

在一种具体实施方式中，基于邻接矩阵进行随机游走和采样，得到正逐点互信息矩阵，包括：基于邻接矩阵，对图数据集中的每个顶点进行预设长度的随机游走，得到每个顶点的上下文路径；对所有上下文路径进行随机采样，以确定任意两个顶点的共现次数，并构建顶点共现次数矩阵；基于顶点共现次数矩阵，计算顶点与上下文共现概率和相应的边缘概率，并确定正逐点互信息矩阵中的每个元素。

其中，“顶点与上下文共现概率”是指：某个顶点v _i出现在某个上下文ct _j中的概率pr(v _i,ct _j)。或者说，ct _j中包含顶点v _i的概率pr(v _i,ct _j)。在得到所有的顶点与上下文共现概率后，它们组成了一个矩阵，即顶点共现次数矩阵。顶点v _i的边缘概率等于该矩阵中第i行元素的加和除以该矩阵中所有元素的加和。上下文ct _j的边缘概率等于第j列元素的加和除以该矩阵中所有元素的加和。

正逐点互信息矩阵可以用P表示，其能够编码图全局一致性信息，具体可参照如下内容进行确定：

假设行向量pi, _:是顶点v _i的嵌入式表示，列向量p _:,j是上下文ct _j的嵌入式表示，而pi _j表示顶点v _i出现在上下文ct _j中的概率，那么正逐点互信息矩阵P可通过对图数据集的随机游走获得。具体地说，将顶点v _j的上下文ct _j视为以v _j为根节点、长度为u的路径π _j，则p _ij可通过计算顶点v _i出现在路径π _j上的频率得到。不失一般性，设某随机游走者时刻τ所在的图顶点编号为x(τ)，且x(τ)＝v _i，则τ+1时刻游走到其邻居顶点v _j的概率t _ij用公式(1)表示为：t _ij＝pr(x(τ+1)＝v _j|x(τ)＝v _i)＝A _ij/∑ _jA _ij。

按照公式(1)对图数据集中每个顶点开展长度为u步的随机游走，即可得到表征该顶点上下文的路径π，对π实施随机采样计算任意两个顶点的共现次数，得到顶点-上下文共现次数矩阵O(即顶点共现次数矩阵)。在该矩阵O中，元素o _ij表示顶点v _i出现在上下文ct _j即以顶点v _j为根节点的路径π _j上的次数，它可用于随后计算p _ij。基于顶点共现次数矩阵O计算顶点与上下文共现概率和相应的边缘概率。记顶点v _i和上下文ct _j的共现概率以及相应的边缘概率分别为pr(v _i,ct _j)、pr(v _i)和pr(ctj)，则有公式(2)：

结合公式(2)，则正逐点互信息矩阵P中元素P _ij的值可通过以下公式计算得到：p _ij＝max(log(pr(v _i，ct _j)/(pr(v _i)pr(ct _j))，0)。

据此即可确定正逐点互信息矩阵P中每个元素的值，从而确定正逐点互信息矩阵P。

S203、将顶点特征矩阵和邻接矩阵输入第一切比雪夫图卷积神经网络，以输出第一训练结果。

S204、将顶点特征矩阵和正逐点互信息矩阵输入第二切比雪夫图卷积神经网络，以输出第二训练结果。

在一种具体实施方式中，第一切比雪夫图卷积神经网络和第二切比雪夫图卷积神经网络完全相同，均包括L层图卷积层，该L层图卷积层用于对输入数据进行特征变换和图卷积操作；

其中，第l(1≤l≤L)层图卷积层的特征变换公式为：

第l(1≤l≤L)层图卷积层的图卷积操作公式为：

是图卷积神经网络的第l图卷积层需学习的特征变换矩阵的转置矩阵；σ为非线性激活函数；K<<n，为多项式的阶数；n为图数据集中的顶点个数；θ _k是多项式的系数；T _k(x)＝2xT _k-1(x)-T _k-2(x)，且T ₀＝1，T ₁＝x为切比雪夫多项式；

为图数据集的拉普拉斯矩阵，

为经过线性变换后的拉普拉斯矩阵。

其中，

λ _max为

中最大的特征值，I _n为n*n维的恒等矩阵。

S205、计算第一训练结果和标签矩阵之间的第一损失值。

在一种具体实施方式中，计算第一训练结果和标签矩阵之间的第一损失值，包括：基于交叉熵原理，将第一训练结果和标签矩阵之间的概率分布差异程度作为第一损失值(即有监督损失)。

S206、计算第二训练结果和第一训练结果之间的第二损失值。

在一种具体实施方式中，计算第二训练结果和第一训练结果之间的第二损失值，包括：计算第二训练结果和第一训练结果中具有相同坐标的元素的差值，并将所有差值的平方和作为第二损失值(即无监督损失)。

S207、基于第一损失值和第二损失值确定目的损失值。

在一种具体实施方式中，基于第一损失值和第二损失值确定目的损失值，包括：将第一损失值和第二损失值输入损失函数，以输出目的损失值；其中，损失函数为：ls＝ls _S+αls _U，ls为目的损失值，ls _S为第一损失值，ls _U为第二损失值，α为调节第二损失值在目的损失值中所占比例的常数。

S208、若目的损失值符合预设收敛条件，则将第一切比雪夫图卷积神经网络和第二切比雪夫图卷积神经网络组合为对偶顶点分类模型。

在一种具体实施方式中，若目的损失值不符合预设收敛条件，则根据目的损失值更新第一切比雪夫图卷积神经网络和第二切比雪夫图卷积神经网络的网络参数，并对更新后的第一切比雪夫图卷积神经网络和更新后的第二切比雪夫图卷积神经网络进行迭代训练，直至目的损失值符合预设收敛条件。

其中，根据目的损失值更新第一切比雪夫图卷积神经网络和第二切比雪夫图卷积神经网络的网络参数，包括：根据目的损失值更新第一切比雪夫图卷积神经网络的网络参数后，将更新后的该网络参数共享至第二切比雪夫图卷积神经网络；或根据目的损失值更新第二切比雪夫图卷积神经网络的网络参数后，将更新后的该网络参数共享至第一切比雪夫图卷积神经网络；或根据目的损失值计算得到新网络参数后，将新网络参数共享至第一切比雪夫图卷积神经网络和第二切比雪夫图卷积神经网络。

可见，本实施例设计了两个切比雪夫图卷积神经网络，第一切比雪夫图卷积神经网络基于顶点特征矩阵、邻接矩阵、标签矩阵进行有监督训练，同时第二切比雪夫图卷积神经网络基于顶点特征矩阵、正逐点互信息矩阵和第一切比雪夫图卷积神经网络在训练过程中的输出，进行无监督训练；当基于二者的损失值所确定的目的损失值符合预设收敛条件时，将两个切比雪夫图卷积神经网络组合为对偶顶点分类模型，从而训练得到了性能更佳的顶点分类模型。该方案能够充分发挥有监督训练和无监督训练各自的优势，提升了顶点分类模型的性能。

基于上述实施例，需要说明的是，对偶顶点分类模型也可称为对偶切比雪夫图卷积神经网络(DCGCN，Dual Chebyshev Graph Convolutional Neural Network)。为训练得到对偶切比雪夫图卷积神经网络，需要首先确定网络结构、损失函数、初始化策略、网络参数更新方式等。

1、网络结构。

对偶切比雪夫图卷积神经网络包括两个完全相同的、共享参数的切比雪夫图卷积神经网络ChebyNet，每个ChebyNet都由输入层、L个图卷积层和输出层组成。

请参见图3，记两个ChebyNet分别为ChebyNet _A和ChebyNet _P。ChebyNet _A以编码图局部一致性信息的邻接矩阵A和顶点特征矩阵X作为输入数据，输出顶点类别标签预测矩阵Z _A；ChebyNet _P以编码图全局一致性信息的正逐点互信息矩阵P和顶点特征矩阵X为作为输入数据，输出顶点类别标签预测矩阵Z _P。

其中，ChebyNet _A根据部分有标签的图顶点进行有监督学习，预测准确度较高；ChebyNet _P在前者的指导下(利用其预测结果Z _A)利用无标签的图顶点进行无监督学习，以提高预测准确度，获得更好的顶点分类模型。当ChebyNet _A和ChebyNet _P训练结束后，Z _A和Z _P一致或差别可忽略不计，因此可以Z _A或Z _P作为对偶切比雪夫图卷积神经网络的输出。

图4示意了对偶切比雪夫图卷积神经网络的结构。图4中的卷积层即下文所述的图卷积层。

其中，输入层主要负责读取待分类图数据，包括顶点特征矩阵X、表示图拓扑结构的邻接矩阵A、编码图全局一致性信息的正逐点互信息矩阵P。

第l(1≤l≤L)图卷积层定义：为减少网络参数，将第l隐藏层图卷积操作分解为特征变换和图卷积先后两个阶段。

其中，特征变换公式为：

图卷积操作公式为：

为图数据集的拉普拉斯矩阵，

为经过线性变换后的拉普拉斯矩阵。其中，H ₁为顶点特征矩阵X。

其中，

λ _max为

中最大的特征值，I _n为n*n维的恒等矩阵。

需要说明的是，

由

(记为公式)简化得到，简化过程可参照如下内容：

其中，U是由对图G的拉普拉斯矩阵

进行特征分解得到的特征向量所组成的矩阵；U ^-1是U的逆矩阵；Λ是特征值的对角阵，对角线上的各元素分别为λ ₁,λ ₂,…,λ _n。

是第l层图卷积层的图卷积核矩阵，并定义为：

需要说明的是，θ _k表示多项式的阶数，能够限制信息在每个顶点最多传播K步。因此仅需K+1个参数，大大降低了模型训练过程的复杂度。由于公式

计算卷积核矩阵时涉及到图拉普拉斯矩阵的特征分解，计算开销大。因此本实施例在此基础上，借助切比雪夫多项式设计近似计算方案，并将

近似为：

其中，T _k(x)＝2xT _k-1(x)-T _k-2(x)，且T ₀＝1，T ₁＝x为切比雪夫多项式，可循环递归求解；

是一个对角阵，能将特征值对角阵映射到[-1,1]。

将

代入

即可得到

其中，

输出层定义为

Z是一个n*C维的矩阵，其每个列向量Z _j表示所有顶点属于类别j的概率，即它的第k(1≤k≤n)个元素表示顶点k属于类别j(j＝1,2,…,C)的概率。

2、损失函数。

对偶切比雪夫图卷积神经网络的损失函数由带标签顶点有监督学习损失ls _S和无标签顶点无监督学习损失ls _U两部分组成。

其中，ChebyNet _A以邻接矩阵A和顶点特征矩阵X为输入，进行有监督学习，并将顶点标签预测结果Z _A和已知的顶点标签矩阵Y进行比较，计算有监督学习损失。ChebyNet _P以正逐点互信息矩阵和顶点特征矩阵X作为输入，进行无监督学习，并将其预测结果Z _P和ChebyNet _A的预测结果Z _A进行比较，计算无监督学习损失。据此，对偶切比雪夫图卷积神经网络的损失函数可以表示为：

其中，α是一个常数，用以调节无监督学习损失在整个损失函数中所占的比例。

其中，有监督学习损失函数基于交叉熵原理，计算顶点实际标签概率分布和预测标签概率分布的差异程度；无监督学习损失函数计算Z _P和Z _A相同坐标元素之间差值的平方和。

3、初始化策略。

网络参数的初始化策略可以选择正态分布随机初始化、Xavier初始化或He Initialization初始化等。网络参数包含特征变换矩阵Θ _l和卷积核F _l。

4、网络参数更新方式。

可以按照随机梯度下降(StochasticGradientDescent，SGD)、动量梯度下降(MomentumGradientDescent，MGD)、NesterovMomentum、AdaGrad、RMSprop和Adam(AdaptiveMomentEstimation)或批量梯度下降(BatchGradientDescent，BGD)等，对网络参数进行修正和更新，以优化损失函数值。

确定网络结构、损失函数、初始化策略、网络参数更新方式等内容后，对偶切比雪夫图卷积神经网络的训练过程可参照图5进行，具体包括：对于图数据集G，构造顶点特征矩阵X、编码图全局一致性信息的正逐点互信息矩阵P、编码图局部一致性信息的邻接矩阵A、顶点标签矩阵Y；将顶点特征矩阵X和邻接矩阵A输入ChebyNet _A，将正逐点互信息矩阵P和顶点特征矩阵X输入ChebyNet _P，并按照上述损失函数更新网络参数，以训练ChebyNet _A和ChebyNet _P。若损失函数值达到一个指定的较小值或迭代次数达到指定的最大值时，训练结束，得到对偶切比雪夫图卷积神经网络。此时，对于无类别标签的顶点i∈V _U，可根据顶点标签矩阵Y得到其应归属的类别j。

在训练过程中，根据图卷积层的定义，结合该层输入的特征矩阵，计算每一个层的输出特征矩阵；按照输出层的定义，预测所有顶点属于每一类别j的概率Z _j(1≤j≤C)，并根据前述定义的损失函数计算损失函数值；对于无标签顶点v _i∈V _U，取概率最大的那一类别作为该顶点的最新类别，来更新顶点标签矩阵Y。

在该方案中，对偶切比雪夫图卷积神经网络由两个同结构的、共享参数的切比雪夫图卷积神经网络组成，此二者分别进行有监督学习和无监督学习，可以提高网络的收敛速率和预测准确度；同时，基于图傅里叶变换定义图卷积层，将图卷积操作分为特征变换和图卷积两个阶段，可以减少网络参数量；基于谱图理论，定义图卷积核为多项式卷积核，保证了图卷积计算的局部性；为降低计算复杂度，利用切比雪夫多项式近似计算图卷积。

可见，本实施例提供了一种对偶切比雪夫图卷积神经网络的训练方法，能够解决顶点分类问题。首先，对搜集到的数据集进行图建模，得到其邻接矩阵和顶点特征矩阵；以邻接矩阵为基础，对于每个顶点，在图上开展特定长度的随机游走，通过对产生的游走序列采样得到正逐点互信息矩阵，该矩阵表征顶点的上下文信息；根据谱图理论定义卷积操作，构造用于特征提取的图卷积层和用于顶点分类任务的输出层，搭建并训练切比雪夫图卷积神经网络；训练结束时，即可得到图中未标记顶点的分类预测结果。

与仅含有单个图卷积神经网络的分类***相比，该方法因采用对偶图卷积神经网络的设计策略，可学习到更多图拓扑结构信息，包括每个顶点的局部一致性和全局一致性信息，大大提升了模型的学习能力；并且，同时利用图拓扑结构和顶点的属性特征，结合监督和无监督学习，有效提高了分类的准确度；借助切比雪夫多项式近似计算图卷积，避免运算代价高昂的矩阵特征分解操作，有效降低了网络的计算复杂性，提高了网络的分类效率。

下面对本申请实施例提供的一种模型训练装置进行介绍，下文描述的一种模型训练装置与上文描述的一种模型训练方法可以相互参照。

参见图6所示，本申请实施例公开了一种模型训练装置，包括：

获取模块601，用于获取基于图数据集构建的顶点特征矩阵、邻接矩阵和标签矩阵；

采样模块602，用于基于邻接矩阵进行随机游走和采样，得到正逐点互信息矩阵；

第一训练模块603，用于将顶点特征矩阵和邻接矩阵输入第一切比雪夫图卷积神经网络，以输出第一训练结果；

第二训练模块604，用于将顶点特征矩阵和正逐点互信息矩阵输入第二切比雪夫图卷积神经网络，以输出第二训练结果；

第一计算模块605，用于计算第一训练结果和标签矩阵之间的第一损失值；

第二计算模块606，用于计算第二训练结果和第一训练结果之间的第二损失值；

确定模块607，用于基于第一损失值和第二损失值确定目的损失值；

组合模块608，用于若目的损失值符合预设收敛条件，则将第一切比雪夫图卷积神经网络和第二切比雪夫图卷积神经网络组合为对偶顶点分类模型。

在一种具体实施方式中，采样模块具体用于：

基于邻接矩阵，对图数据集中的每个顶点进行预设长度的随机游走，得到每个顶点的上下文路径；

基于顶点共现次数矩阵，计算顶点与上下文共现概率和相应的边缘概率，并确定正逐点互信息矩阵中的每个元素。

在一种具体实施方式中，第一计算模块具体用于：

基于交叉熵原理，将第一训练结果和标签矩阵之间的概率分布差异程度作为第一损失值。

在一种具体实施方式中，第二计算模块具体用于：

计算第二训练结果和第一训练结果中具有相同坐标的元素的差值，并将所有差值的平方和作为第二损失值。

在一种具体实施方式中，确定模块具体用于：

将第一损失值和第二损失值输入损失函数，以输出目的损失值；

其中，损失函数为：ls＝ls _S+αls _U，ls为目的损失值，ls _S为第一损失值，ls _U为第二损失值，α为调节第二损失值在目的损失值中所占比例的常数。

在一种具体实施方式中，若目的损失值不符合预设收敛条件，则根据目的损失值更新第一切比雪夫图卷积神经网络和第二切比雪夫图卷积神经网络的网络参数，并对更新后的第一切比雪夫图卷积神经网络和更新后的第二切比雪夫图卷积神经网络进行迭代训练，直至目的损失值符合预设收敛条件；

其中，根据目的损失值更新第一切比雪夫图卷积神经网络和第二切比雪夫图卷积神经网络的网络参数，包括：

根据目的损失值更新第一切比雪夫图卷积神经网络的网络参数后，将更新后的该网络参数共享至第二切比雪夫图卷积神经网络；

或

根据目的损失值更新第二切比雪夫图卷积神经网络的网络参数后，将更新后的该网络参数共享至第一切比雪夫图卷积神经网络；

或

根据目的损失值计算得到新网络参数后，将新网络参数共享至第一切比雪夫图卷积神经网络和第二切比雪夫图卷积神经网络。

在一种具体实施方式中，第一切比雪夫图卷积神经网络和第二切比雪夫图卷积神经网络均包括L层图卷积层，该L层图卷积层用于对输入数据进行特征变换和图卷积操作；

其中，第l(1≤l≤L)层图卷积层的特征变换公式为：

第l(1≤l≤L)层图卷积层的图卷积操作公式为：

为图数据集的拉普拉斯矩阵，

为经过线性变换后的拉普拉斯矩阵。

其中，关于本实施例中各个模块、单元更加具体的工作过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

可见，本实施例提供了一种模型训练装置，该装置能够充分发挥有监督训练和无监督训练各自的优势，提升了顶点分类模型的性能。

下面对本申请实施例提供的一种模型训练设备进行介绍，下文描述的一种模型训练设备与上文描述的一种模型训练方法及装置可以相互参照。

参见图7所示，本申请实施例公开了一种模型训练设备，包括：

存储器701，用于保存计算机程序；

处理器702，用于执行所述计算机程序，以实现上述任意实施例公开的方法。

下面对本申请实施例提供的一种可读存储介质进行介绍，下文描述的一种可读存储介质与上文描述的一种模型训练方法、装置及设备可以相互参照。

一种可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述实施例公开的模型训练方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容，在此不再进行赘述。

本申请涉及的“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法或设备固有的其它步骤或单元。

需要说明的是，在本申请中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的可读存储介质中。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种模型训练方法，其特征在于，包括：

获取基于图数据集构建的顶点特征矩阵、邻接矩阵和标签矩阵；

基于所述邻接矩阵进行随机游走和采样，得到正逐点互信息矩阵；

将所述顶点特征矩阵和所述邻接矩阵输入第一切比雪夫图卷积神经网络，以输出第一训练结果；

将所述顶点特征矩阵和所述正逐点互信息矩阵输入第二切比雪夫图卷积神经网络，以输出第二训练结果；

计算所述第一训练结果和所述标签矩阵之间的第一损失值；

计算所述第二训练结果和所述第一训练结果之间的第二损失值；

基于所述第一损失值和所述第二损失值确定目的损失值；

若所述目的损失值符合预设收敛条件，则将所述第一切比雪夫图卷积神经网络和所述第二切比雪夫图卷积神经网络组合为对偶顶点分类模型。
根据权利要求1所述的模型训练方法，其特征在于，所述基于所述邻接矩阵进行随机游走和采样，得到正逐点互信息矩阵，包括：

基于所述邻接矩阵，对所述图数据集中的每个顶点进行预设长度的随机游走，得到每个顶点的上下文路径；

对所有上下文路径进行随机采样，以确定任意两个顶点的共现次数，并构建顶点共现次数矩阵；

基于顶点共现次数矩阵，计算顶点与上下文共现概率和相应的边缘概率，并确定所述正逐点互信息矩阵中的每个元素。
根据权利要求1所述的模型训练方法，其特征在于，所述计算所述第一训练结果和所述标签矩阵之间的第一损失值，包括：

基于交叉熵原理，将所述第一训练结果和所述标签矩阵之间的概率分布差异程度作为所述第一损失值。
根据权利要求1所述的模型训练方法，其特征在于，所述计算所述第二训练结果和所述第一训练结果之间的第二损失值，包括：

计算所述第二训练结果和所述第一训练结果中具有相同坐标的元素的差值，并将所有差值的平方和作为所述第二损失值。
根据权利要求1所述的模型训练方法，其特征在于，所述基于所述第一损失值和所述第二损失值确定目的损失值，包括：

将所述第一损失值和所述第二损失值输入损失函数，以输出所述目的损失值；

其中，所述损失函数为：ls＝ls _S+αls _U，ls为所述目的损失值，ls _S为所述第一损失值，ls _U为所述第二损失值，α为调节第二损失值在目的损失值中所占比例的常数。
根据权利要求1至5任一项所述的模型训练方法，其特征在于，

若所述目的损失值不符合预设收敛条件，则根据所述目的损失值更新所述第一切比雪夫图卷积神经网络和所述第二切比雪夫图卷积神经网络的网络参数，并对更新后的第一切比雪夫图卷积神经网络和更新后的第二切比雪夫图卷积神经网络进行迭代训练，直至所述目的损失值符合预设收敛条件；

其中，所述根据所述目的损失值更新所述第一切比雪夫图卷积神经网络和所述第二切比雪夫图卷积神经网络的网络参数，包括：

根据所述目的损失值更新所述第一切比雪夫图卷积神经网络的网络参数后，将更新后的该网络参数共享至所述第二切比雪夫图卷积神经网络；

或

根据所述目的损失值更新所述第二切比雪夫图卷积神经网络的网络参数后，将更新后的该网络参数共享至所述第一切比雪夫图卷积神经网络；

或

根据所述目的损失值计算得到新网络参数后，将所述新网络参数共享至所述第一切比雪夫图卷积神经网络和所述第二切比雪夫图卷积神经网络。
根据权利要求1至5任一项所述的模型训练方法，其特征在于，所述第一切比雪夫图卷积神经网络和所述第二切比雪夫图卷积神经网络均包括L层图卷积层，该L层图卷积层用于对输入数据进行特征变换和图卷积操作；

其中，第l(1≤l≤L)层图卷积层的特征变换公式为：
第l(1≤l≤L)层图卷积层的图卷积操作公式为：

其中，Q _l为图卷积神经网络第l图卷积层经特征变换后的顶点特征矩阵；H _l为图卷积神经网络的第l图卷积层的输入数据，H _l+1为图卷积神经网络的第l图卷积层的输出数据；
是图卷积神经网络的第l图卷积层需学习的特征变换矩阵的转置矩阵；σ为非线性激活函数；K<<n，为多项式的阶数；n为所述图数据集中的顶点个数；θ _k是多项式的系数；T _k(x)＝2xT _k-1(x)-T _k-2(x)，且T ₀＝1，T ₁＝x为切比雪夫多项式；
为所述图数据集的拉普拉斯矩阵，
为经过线性变换后的拉普拉斯矩阵。
一种模型训练装置，其特征在于，包括：

获取模块，用于获取基于图数据集构建的顶点特征矩阵、邻接矩阵和标签矩阵；

采样模块，用于基于所述邻接矩阵进行随机游走和采样，得到正逐点互信息矩阵；

第一训练模块，用于将所述顶点特征矩阵和所述邻接矩阵输入第一切比雪夫图卷积神经网络，以输出第一训练结果；

第二训练模块，用于将所述顶点特征矩阵和所述正逐点互信息矩阵输入第二切比雪夫图卷积神经网络，以输出第二训练结果；

第一计算模块，用于计算所述第一训练结果和所述标签矩阵之间的第一损失值；

第二计算模块，用于计算所述第二训练结果和所述第一训练结果之间的第二损失值；

确定模块，用于基于所述第一损失值和所述第二损失值确定目的损失值；

组合模块，用于若所述目的损失值符合预设收敛条件，则将所述第一切比雪夫图卷积神经网络和所述第二切比雪夫图卷积神经网络组合为对偶顶点分类模型。
一种模型训练设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至7任一项所述的模型训练方法。
一种可读存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的模型训练方法。