CN112037850A

CN112037850A - 基于动量加速的缺失蛋白质间相互作用预测装置和方法

Info

Publication number: CN112037850A
Application number: CN202010953657.5A
Authority: CN
Inventors: 陈际秋; 钟裕荣; 刘志刚; 袁野
Original assignee: Chongqing University; Chongqing Institute of Green and Intelligent Technology of CAS
Current assignee: Chongqing University; Chongqing Institute of Green and Intelligent Technology of CAS
Priority date: 2020-09-04
Filing date: 2020-09-11
Publication date: 2020-12-04
Anticipated expiration: 2040-09-11
Also published as: CN112037850B

Abstract

本发明公开一种基于动量加速的缺失蛋白质间相互作用预测装置和方法，包括S1：输入初始蛋白质间相互作用数据并构造对称稀疏矩阵W；S2：构建目标损失函数Q并进行迭代优化；S3：对目标损失函数Q的迭代优化进行动量加速；S4：计算缺失蛋白质间相互作用预测值。本发明通过利用动量加速的对称非负隐特征分解方法，能够快速且准确度高的蛋白质相互作用预测，提高考虑数据对称性状态下的缺失蛋白质间相互作用预测精度。

Description

基于动量加速的缺失蛋白质间相互作用预测装置和方法

技术领域

本发明涉及数据处理技术领域，特别涉及基于动量加速的缺失蛋白质间相互作用预测装置和方法。

背景技术

蛋白质间的相互作用在人们对生命活动的理解过程中起到了十分重要的作用。由于蛋白质种类众多，所以通过传统的生物实验方法难以完全确定物种所有的蛋白质间相互作用，然而，我们可以通过计算机设计来对物种的所有的蛋白质间相互作用来进行全预测。因此，如何通过计算机设计来快速且精确地预测出蛋白质间缺失的相互作用成为了业界所急需解决的问题。

一般而言，由于蛋白质众多，且蛋白质间的相互作用信息只有部分是已知的，所以蛋白质间的相互作用网络是一个无向高维稀疏网络。近年来，许多学者提出了用于预测缺失蛋白质间相互作用的算法，其中，使用协同过滤的非负矩阵分解方法可以进行缺失值的有效预测。然而，这种方法不仅无法处理高维数据，而且也没有考虑到数据的对称性问题，即是说算法的建模并不是针对蛋白质间相互作用这个无向网络来进行设计的。另一方面，有学者使用对称非负矩阵分解方法来对其他对称数据问题来进行缺失值的预测。然而，对称非负矩阵分解并不能高效地去处理庞大的高维网络。面向由蛋白质间相互作用数据所构建的庞大的无向高维稀疏网络，如何在考虑数据对称性的前提下来对缺失蛋白质间相互作用进行快速且精确地预测，已成为学者们所关注的问题。

发明内容

针对现有技术中考虑数据对称性的前提下对缺失蛋白质间相互作用预测精度较低的问题，本发明提出一种基于动量加速的缺失蛋白质间相互作用预测装置和方法，通过利用动量加速的对称非负隐特征分解方法，能够快速且准确度高的蛋白质相互作用预测，提高考虑数据对称性状态下的缺失蛋白质间相互作用预测精度。

为了实现上述目的，本发明提供以下技术方案：

基于动量加速的缺失蛋白质间相互作用预测装置，包括依次相连的数据转换模块、数据训练模块、动量加速模块和预测数据生成模块；其中，

所述数据转换模块，用于将接收的初始蛋白质间相互作用数据构建为对应的对称稀疏矩阵W；

所述数据训练模块，用于根据已生成的对称稀疏矩阵W中的所有非缺失值，从而训练得到隐特征矩阵；

所述动量加速模块，用于对训练得到的隐特征矩阵进行动量加速；

所述预测数据生成模块，用于根据经过动量加速后的隐特征矩阵，计算缺失蛋白质间相互作用的预测值。

优选的,所述数据转换模块包括对称稀疏矩阵生成单元和蛋白质间相互作用数据存储单元；其中，

所述对称稀疏矩阵生成单元，用于将接收到的初始蛋白质间相互作用数据构建为对称稀疏矩阵W；

所述蛋白质间相互作用数据存储单元，用于存储已构建完成的对称稀疏矩阵W内所有的非缺失值。

优选的,所述数据训练模块包括初始化单元和参数训练单元；其中，

所述初始化单元，用于初始化蛋白质间相互作用预测过程中所涉及的参数，所述参数包括隐特征矩阵P、隐特征维数D、最大训练迭代轮数T、训练过程中迭代轮数控制变量t、收敛终止阈值τ、正则化因子λ、动量系数γ；

所述参数训练单元，用于根据已生成的对称稀疏矩阵W中的所有非缺失值和初始化后的参数来训练蛋白质间相互作用的隐特征。

优选的,所述动量加速模块包括增量生成单元、增量控制单元以及增量更新单元；其中，

增量生成单元，用于生成当前迭代的动量增量值；

增量控制单元，用于判断当前迭代的动量增量值是否满足非负条件；

增量更新单元，用于更新下一次迭代的动量增量值，以提高预测精度。

本发明还提供基于动量加速的缺失蛋白质间相互作用预测方法，具体包括以下步骤：

S1：输入初始蛋白质间相互作用数据并构造对称稀疏矩阵W；

S2：构建目标损失函数Q并进行迭代优化；

S3：对目标损失函数Q的迭代优化进行动量加速；

S4：计算缺失蛋白质间相互作用预测值。

优选的,所述S1包括：

S1-1:构造对称稀疏矩阵W：

对于接收到的初始蛋白质间相互作用数据，都是以三元组条目存储的，该三元组条目的表示形式为(p_i,p_j,v_ij)，其中p_i表示第i个蛋白质，p_j表示第j个蛋白质，v_ij表示第i个蛋白质与第j个蛋白质间的相互作用值；将每个三元组条目所对应的对称条目给生成出来，从而构建成一个对称稀疏矩阵W；

S1-2:初始化用于预测的参数并进行训练：

对蛋白质间相互作用数据的参数进行初始化并进行训练，用于预测的参数包括蛋白质间相互作用隐特征矩阵P、隐特征维数D、最大训练迭代轮数T、训练过程中迭代轮数控制变量t、收敛终止阈值τ、正则化因子λ、动量系数γ、训练过程中最近两轮与隐特征矩阵P内元素相对应的动量增量值

和

i表示隐特征矩阵P内第i行，d表示隐特征矩阵P内第d列。

优选的,所述S2包括：

S2-1：构造目标损失函数Q：

公式(1)中，P为M行D列的隐特征矩阵；w_i,j表示蛋白质i与蛋白质j间相互作用值；Γ表示蛋白质间相互作用数据所对应的对称稀疏矩阵W中的非缺失值集合；D表示隐特征维数；p_i,d表示蛋白质间相互作用隐特征矩阵P中第i个蛋白质所对应隐特征的第d个元素，p_j,d表示蛋白质间相互作用隐特征矩阵P中第j个蛋白质所对应隐特征的第d个元素；λ表示正则化参数；

S2-2：对目标损失函数Q进行迭代优化：

采用乘法更新规则对目标损失函数Q进行迭代优化，表达式如下所示：

公式(2)中，p_i,d表示蛋白质间相互作用隐特征矩阵P中第i个蛋白质所对应隐特征的第d个元素；Γ(i)表示非缺失值集合Γ中与蛋白质i相关的所有非缺失值集合；w_i,j表示蛋白质i与蛋白质j间相互作用值；λ表示正则化参数；

表示蛋白质间相互作用预测值，D表示隐特征维数。

优选的,所述S3包括：

S3-1：判断当前迭代优化是否需要进行动量加速，若是进入S3-2，若不是则进入S3-3；如果当前为首轮迭代，则此时不生成动量增量值；如果当前不是首轮迭代，采用动量来对当前迭代优化进行加速；

S3-2:采用动量来对目标损失函数Q的迭代优化进行加速：

针对非首轮迭代，用最近两轮所记录的决策参数值

和

的差值乘上动量系数γ来作为本轮的动量增量值，即

其中，γ是动量系数，

和

分别表示在第t轮、第t-1轮和t-2轮迭代中所记录的蛋白质间相互作用隐特征矩阵P中第i个蛋白质所对应隐特征的第d个元素的动量增量值；

S3-3：对动量增量进行更新：

在每轮迭代完毕后，则需要对最近两轮的决策参数p_i,d来进行更新，即

公式(3)中，

和

分别表示在第t-1轮和t轮迭代中蛋白质间相互作用隐特征矩阵P中第i个蛋白质所对应隐特征的第d个元素；

和

分别表示在第t-1轮和t-2轮迭代中所记录的蛋白质间相互作用隐特征矩阵P中第i个蛋白质所对应隐特征的第d个元素的动量增量值；

S3-4：判断目标损失函数Q的迭代过程是否终止：

判断条件为目标损失函数Q每迭代一轮，训练迭代轮数控制变量t的值加1，当t的值达到最大训练迭代轮数T时，Q停止训练；或目标损失函数Q训练过程中，本轮迭代结束后计算得到的Q值与上一轮Q值的差的绝对值已经小于收敛终止阈值τ时，Q停止训练。

优选的,所述缺失蛋白质间相互作用预测值的计算公式为：

公式(4)中，

表示蛋白质间相互作用预测值，D表示隐特征维数，p_i,d表示蛋白质间相互作用隐特征矩阵P中第i个蛋白质所对应隐特征的第d个元素，p_j,d表示蛋白质间相互作用隐特征矩阵P中第j个蛋白质所对应隐特征的第d个元素。

综上所述，由于采用了上述技术方案，与现有技术相比，本发明至少具有以下有益效果：

本发明提出一种基于动量加速的缺失蛋白质间相互作用预测装置和方法，通过利用动量加速的对称非负隐特征分解方法，能够快速且准确度高的蛋白质相互作用预测，提高考虑数据对称性状态下的缺失蛋白质间相互作用预测精度。

附图说明：

图1为根据本发明示例性实施例的基于动量加速的缺失蛋白质间相互作用预测装置示意图。

图2为根据本发明示例性实施例的基于动量加速的缺失蛋白质间相互作用预测方法示意图。

具体实施方式

下面结合实施例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

在本发明的描述中，需要理解的是，术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

如图1所示，本发明提供一种基于动量加速的缺失蛋白质间相互作用预测装置，包括数据转换模块10、数据训练模块20、动量加速模块30和预测数据生成模块40；数据转换模块10的输入端输入初始蛋白质间相互作用数据，数据转换模块10的输出端与数据训练模块20的输入端连接，数据训练模块20的输出端与动量加速模块30的输入端连接，动量加速模块30的输出端与预测数据生成模块40的输入端连接，预测数据生成模块40的输出端输出蛋白质间相互作用预测数据。

数据转换模块10，用于将接收的初始蛋白质间相互作用数据构建为对应的对称稀疏矩阵W，并将对称稀疏矩阵W中所有的非缺失值进行存储。

数据训练模块20，用于根据已生成的对称稀疏矩阵W中的所有非缺失值，执行缺失蛋白质间相互作用训练得到隐特征矩阵。

动量加速模块30，用于对每轮训练得到的蛋白质间相互作用的隐特征矩阵来进行动量加速。

预测数据生成模块40，用于根据经过动量加速后的蛋白质间相互作用的隐特征矩阵，计算缺失蛋白质间相互作用的预测值。

本实施例中，数据转换模块10包括对称稀疏矩阵生成单元101和蛋白质间相互作用数据存储单元102，对称稀疏矩阵生成单元101的输出端与蛋白质间相互作用数据存储单元102的输入端连接。

对称稀疏矩阵生成单元101，用于将接收到的初始蛋白质间相互作用数据构建为对称稀疏矩阵W。其中，对于接收到的初始蛋白质间相互作用数据，都是以三元组形式存储的。

蛋白质间相互作用数据存储单元102，用于存储已构建完成的对称稀疏矩阵W内所有的非缺失值，其中每个非缺失值也是以三元组的形式来进行存储的。

本实施例中，数据训练模块20包括初始化单元201和参数训练单元202；初始化单元201的输出端与参数训练单元202的输入端连接。

初始化单元201，用于初始化蛋白质间相互作用预测过程中所涉及的参数，用于预测的参数包括隐特征的矩阵P、隐特征维数D、最大训练迭代轮数T、训练过程中迭代轮数控制变量t、收敛终止阈值τ、正则化因子λ、动量系数γ、训练过程中最近两轮与隐特征的矩阵P内元素相对应的动量增量值

和

参数训练单元202，用于根据已生成的对称稀疏矩阵W中的所有非缺失值，结合初始化单元所初始的参数来训练蛋白质间相互作用的隐特征。

本实施例中，动量加速模块30包括增量生成单元301和增量控制单元302，以及增量更新单元303。

增量生成单元301，用于结合最近两次生成的决策参数值来生成当前迭代的动量增量值。

增量控制单元302，用于判断当前迭代的动量增量值是否满足非负条件。

增量更新单元303，用于蛋白质间相互作用隐特征在每次迭代训练完成后更新下一次迭代的动量增量值，以提高预测精度。

本实施例中，预测数据生成模块40包括预测数据存储单元，用于存储预测的缺失蛋白质间相互作用值，其中每个缺失蛋白质间相互作用预测值也是以三元组的形式来进行存储的。

本装置可部署于一个现有的服务器中，也可部署于一个单独设置的、专用于进行蛋白质间相互作用预测的服务器中。

基于上述装置，本发明还提出一种基于动量加速的缺失蛋白质间相互作用预测方法，作用于缺失蛋白质间相互作用预测，能够进行高效的、准确度高的缺失蛋白质间相互作用预测，如图2所示，具体包括以下步骤：

S1：输入初始蛋白质间相互作用数据并构造对称稀疏矩阵W。

本实施例中，服务器将要求预测蛋白质间相互作用的指令和初始蛋白质间相互作用数据发送给装置，指令包括定期、装置的通知、服务器的通知等。

S1-1:构造对称稀疏矩阵W。

本实施例中，对于接收到的初始蛋白质间相互作用数据，都是以三元组形式存储的，该三元组的表示形式为ppi＝(p_i,p_j,v_ij)，其中p_i表示第i个蛋白质，p_j表示第j个蛋白质，v_ij表示第i个蛋白质与第j个蛋白质间的相互作用值。

此时接收到的初始蛋白质间相互作用数据并不是真正的全部的蛋白质间相互作用数据，在接收到的初始蛋白质间相互作用数据中，以蛋白质i与蛋白质j的相互作用为例，在初始数据集中只有(p_i,p_j,v_ij)条目，并没有对应的(p_j,p_i,v_ij)(因为由蛋白质相互作用数据形成的矩阵是一个对称矩阵，所以有v_ij＝v_ji，因此，为了节省存储数据的空间，因此初始数据集中只需包含(p_i,p_j,v_ij)条目即可)。因此，在做其他数据处理之前先将接收到的初始蛋白质间相互作用数据中的每条条目所对应的对称条目给生成出来，从而构建成一个对称稀疏矩阵W。对称稀疏矩阵W的行列所对应的就是同一蛋白质序列，由于蛋白质众多，所以，已知的蛋白质间相互作用数据肯定是远远小于对称稀疏矩阵W中的元素总个数。

S1-2:初始化用于预测的参数并进行训练。

在本步骤中，为更好的提高预测的准确性，需对蛋白质间相互作用数据的一些参数进行初始化并进行训练，用于预测的参数包括蛋白质间相互作用隐特征矩阵P(隐特征矩阵P中的每个元素用开区间(0,0.004)的随机正数进行初始化、)、隐特征维数D、最大训练迭代轮数T、训练过程中迭代轮数控制变量t、收敛终止阈值τ、正则化因子λ、动量系数γ、训练过程中最近两轮与隐特征矩阵P内元素相对应的动量增量值

和

其中:

隐特征维数D决定了隐特征矩阵P的隐特征空间维数，初始化为正整数，如初始化为30；

隐特征矩阵P的结构大小由接收到的初始蛋白质间相互作用数据中所涉及到的蛋白质的个数M和隐特征维数D确定，即P为M行D列的隐特征矩阵，对于隐特征矩阵P用开区间(0,0.004)的随机正数进行初始化；

最大训练迭代轮数T是控制迭代过程上限的变量，初始化为较大的正整数，如初始化为1500；

迭代轮数控制变量t初始化为0；

收敛终止阈值τ是用于判断迭代过程是否以收敛的参数，用极小的正数初始化，如初始化为0.000001；

正则化因子λ是用于控制提取迭代过程中，隐特征矩阵P相关元素的正则化效应的常数，初始化为较小的正数，如隐特征矩阵正则化因子初始为0.006；

动量系数γ是用于对隐特征矩阵P相关元素的学习更新过程来进行加速控制的，初始化为较小的正数；

初始时最近两轮的动量增量值

和

都初始化为隐特征矩阵P中对应元素的初始值，即有

i表示第i个蛋白质，p_i,d表示蛋白质间相互作用隐特征矩阵P中第i个蛋白质所对应隐特征的第d个元素，

表示蛋白质间相互作用隐特征矩阵P中第i个蛋白质所对应隐特征的第d个元素的初始值。

S2：构建目标损失函数并进行迭代优化。

在本步骤中，根据由接收到的初始蛋白质间相互作用数据所生成的对称稀疏矩阵W，遍历对称稀疏矩阵W上三角中的非缺失值元素，在每次遍历中，对于所遍历到的上三角非缺失值元素，根据对称矩阵的特性，生成对应下三角中非缺失值元素，然后将这两个元素添加到非缺失值集合中，当遍历完成后，则可以得到所有非缺失值的集合Γ。

S2-1：基于这些非缺失值来构造目标损失函数Q,使用以下公式表示：

公式(1)中，P为M行D列的隐特征矩阵；w_i,j表示蛋白质i与蛋白质j间相互作用值；Γ表示蛋白质间相互作用数据所对应的对称稀疏矩阵W中的非缺失值集合；这里D表示隐特征维数；p_i,d表示蛋白质间相互作用隐特征矩阵P中第i个蛋白质所对应隐特征的第d个元素，p_j,d表示蛋白质间相互作用隐特征矩阵P中第j个蛋白质所对应隐特征的第d个元素。

这里以欧式距离作为优化目标；使用正则化，对优化过程进行约束，稀疏化模型的决策参数，从而可以排除掉那些对预测值不怎么产生影响的特征，达到简化模型的目的；λ是正则化参数，用于衡量正则化项对模型的限制效果。

S2-2：对目标损失函数Q进行迭代优化。

在本步骤中，采用乘法更新规则对目标损失函数Q进行迭代优化，表达式如下所示：

公式(2)中，p_i,d表示蛋白质间相互作用隐特征矩阵P中第i个蛋白质所对应隐特征的第d个元素；Γ(i)表示非缺失值集合Γ中与蛋白质i相关的所有非缺失值集合；w_i,j表示蛋白质i与蛋白质j间相互作用值；λ是正则化参数，用于衡量正则化项对模型的限制效果；

表示根据隐特征矩阵所计算得到的蛋白质间相互作用估计值，D表示隐特征维数，i,j:(i,j,d)∈Γ，i,d:(i,j,d)∈Γ，j,d:(i,j,d)∈Γ分别表示在矩阵W和矩阵P中所包含元素的下标集合。

S3：对目标损失函数Q的迭代优化进行动量加速。

S3-1：判断当前迭代优化是否需要进行动量加速，若是进入S3-2，若不是则进入S3-4；

在本步骤中，目标损失函数Q的迭代优化是否需要动量加速可以通过判断当前迭代是否为首轮迭代。如果当前为首轮迭代，则此时不生成动量增量值，也就是说，当前的决策参数p_i,d的更新仍保持不变，由于此时没有动量增量值的生成，所以不需要对动量增量值进行控制；反之，如果当前迭代不是首轮迭代的话，那就需要采用动量来对当前迭代优化进行加速了。然而不管是否为首轮迭代，在本轮迭代优化完成后都需要对动量增量来进行更新。

S3-2:采用动量来对目标损失函数Q的迭代优化进行加速。

在本步骤中，针对非首轮迭代(第t轮迭代)的情况，首先利用最近两轮所记录的决策参数值

和

的差值乘上动量系数γ来作为本轮的动量增量值，即有

其中，γ是动量系数，用于衡量隐特征矩阵P迭代优化过程中的加速效果，

和

分别表示在第t轮、第t-1轮和t-2轮迭代中所记录的蛋白质间相互作用隐特征矩阵P中第i个蛋白质所对应隐特征的第d个元素的动量增量值。

然后，判断当前迭代所生成的动量增量值

是否满足非负条件，如果满足的话，则动量增量值不变，否则动量增量值设为0，即有

其中，γ是动量系数，用于衡量隐特征特征矩阵P迭代优化过程中的加速效果；

和

分别表示在第t-1轮和t-2轮迭代中所记录的蛋白质间相互作用隐特征矩阵P中第i个蛋白质所对应隐特征的第d个元素的动量增量值；max函数为求给定两项中的最大值。

在每轮迭代优化完成后，就可以得到迭代优化所生成的隐特征矩阵P。

S3-3：对动量增量来进行更新。

在本步骤中，在每轮迭代对隐特征矩阵P生成完毕后，则需要对最近两轮的决策参数p_i,d来进行更新：最近一轮的决策参数p_i,d变为了最近第二轮的决策参数值，而当前迭代得到的p_i,d则变为最近一轮的决策参数值。即有：

公式(3)中，

和

和

分别表示在第t-1轮和t-2轮迭代中所记录的蛋白质间相互作用隐特征矩阵P中第i个蛋白质所对应隐特征的第d个元素的动量增量值。

S3-4：判断目标损失函数Q的迭代过程是否终止。

在本步骤中，判断目标损失函数Q在Γ上训练迭代过程达到终止条件有两种情况：第一是目标损失函数Q每迭代一轮，训练迭代轮数控制变量t的值加1，当t的值达到最大训练迭代轮数T时，目标损失函数Q停止训练；第二种是目标损失函数Q训练过程中，本轮迭代结束后，根据公式(1)中Q的定义，将非缺失值集合Γ中的元素、当前迭代训练完成的隐特征矩阵P以及正则化参数λ代入目标损失函数Q中计算得到损失值，然后判断当前轮中的损失值与上一轮损失值的差的绝对值已经小于收敛终止阈值τ时，目标损失函数Q停止训练。

否则重新开始S2步骤，直到目标损失函数Q的迭代过程终止。

S4：计算缺失蛋白质间相互作用预测值。

在本步骤中，当目标损失函数Q在Γ上收敛后，我们可以得到使得目标损失函数Q达到最小的隐特征矩阵P，运用它的值来计算蛋白质i和蛋白质j间的相互作用估计值

其中i,j∈N，N表示蛋白质个数,计算公式为

并将计算得到的蛋白质间相互作用估计值

输出存储至预测数据存储单元。

本实施例中，基于非缺失值集合构建的目标损失函数是已知的，因此对该目标损失函数进行训练后，再对缺失蛋白质间相互作用进行预测。

由上述技术方案可见，本发明实施例提供了一种基于动量加速的缺失蛋白质间相互作用预测方法，其专门作用于缺失蛋白质间相互作用数据，能够进行快速且准确地对缺失蛋白质间相互作用来进行预测，以解决针对考虑数据对称性的缺失蛋白质间相互作用预测问题。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。