CN113592095B

CN113592095B - 一种基于量子计算的模型训练方法及装置

Info

Publication number: CN113592095B
Application number: CN202110893355.8A
Authority: CN
Inventors: 龙桂鲁; 高攀
Original assignee: Beijing Institute Of Quantum Information Science
Current assignee: Beijing Institute Of Quantum Information Science
Priority date: 2021-08-04
Filing date: 2021-08-04
Publication date: 2024-01-16
Anticipated expiration: 2041-08-04
Also published as: CN113592095A

Abstract

本发明实施例提供了一种基于量子计算的模型训练方法，该方法包括：获取第一模型的训练数据集和第一模型的初始参数；针对训练数据集和初始参数，根据牛顿方法设置量子线路；运行量子线路，得到第一模型的优化参数。

Description

一种基于量子计算的模型训练方法及装置

技术领域

本发明涉及量子计算领域，尤其涉及一种基于量子计算的模型训练方法及装置。

背景技术

在很多业务领域中需要用到推荐***。例如，用户产品推荐，包括电商产品推荐、短视频推送等，是几乎所有资源整合型网络平台的核心任务。在推荐***中使用机器学习模型进行推荐产品的选取是现在业界常使用的技术手段。其中的一些方案，例如使用分解机模型，在用户与产品的历史相互作用信息呈现稀疏特征时具有极好的作用效果。然而，由于例如为分解机模型的优化训练过程的复杂度是与其参数维度呈线性关系的，随着用户和产品信息的丰富，其训练任务越来越难以完成。

因此，需要一种更好的模型训练方法。

发明内容

本发明的实施例提供一种基于量子计算的模型训练及装置，相较于基于经典计算机的模型训练方法，可以大大减少消耗的计算资源。

本发明为解决上述技术问题采用的技术方案为，一方面提供一种基于量子计算的模型训练方法，包括：

获取第一模型的训练数据集和所述第一模型的初始参数；

针对所述训练数据集和所述初始参数，根据牛顿方法设置量子线路；

运行所述量子线路，得到所述第一模型的优化参数。

优选地，所述针对所述训练数据集和所述初始参数，根据牛顿方法设置量子线路包括：

根据所述训练数据集，确定第一矩阵；

根据所述第一矩阵和所述初始参数，确定用于训练所述第一模型的损失函数；

根据所述损失函数，基于牛顿方法设置所述量子线路。

优选地，所述量子线路至少包括第一模块和第二模块，所述第一模块用于实现对所述损失函数的等效梯度，所述第二模块用于实现对所述损失函数的二阶导数的逆。

优选地，运行所述量子线路，得到所述第一模型的优化参数包括，运行所述量子线路，将表示所述初始参数的第一量子态演化为表示所述优化参数第二量子态。优选地，所述方法还包括，

对所述第二量子态进行投影测量，确定所述第二量子态是否达到预定精度，在达到预定精度的情况中，结束对所述第一模型的训练。

优选地，所述量子线路包括，第一单比特量子寄存器up、第二单比特量子寄存器d、第三单比特量子寄存器h，以及第一多比特量子寄存器e和第二多比特量子寄存器v；

运行所述量子线路，将第一量子态演化为第二量子态，包括：

将up、d、h均置于量子态|0>，将e置于量子态将v置于第一量子态|X>，其中，χ为比特数；

对up执行绕y轴且角度为η的旋转操作后，在e和v上做关于等效梯度算符的量子相位估计操作；

对d做由寄存器up和e控制的旋转操作；

对e和v做所述等效梯度算符的量子相位估计操作的逆操作；

对e和v做等效Hessian算符的量子相位估计操作；

对h做由寄存器up和e控制的旋转操作；

对e和v做所述等效Hessian算符的量子相位估计操作的逆操作；

对up做绕y轴且角度为η的旋转操作后，从v获取第二量子态。

优选地，所述第一模型为分解机模型。

第二方面提供一种基于量子计算的模型训练装置，所述装置包括：

训练数据和初始参数获取单元，配置为，获取第一模型的训练数据集和所述第一模型的初始参数；

量子线路设置单元，配置为，针对所述训练数据集和所述初始参数，根据牛顿方法设置量子线路；

模型训练单元，配置为，运行所述量子线路，得到所述第一模型的优化参数。

第三方面提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面所述的方法。

第四方面提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面所述的方法。

附图说明

为了更清楚说明本发明实施例的技术方案，下面将对实施例描述中所需使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种基于量子计算的模型训练方法的流程图；

图2为本发明实施例提供的一种基于量子计算的模型训练方法、以及利用该模型进行预测的整体流程图；

图3为本发明实施例提供的一种牛顿优化量子线路的示意图；

图4为本发明实施例提供的一种基于量子计算的模型训练装置的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如前所述，在进行一些例如为分解机模型的机器学习模型的训练时，由于这些模型的优化过程(通常即训练过程)的复杂度是与其参数维度呈线性关系，因此其训练过程的复杂度会随着因为处理数据维度变大而提高很快，可能导致消耗过多的计算资源。量子计算机具有潜在的强大的计算能力，利用量子处理器来进行数据处理，在很多情况下相比于经典方法具有明显的加速优势。本发明实施例提供的一种基于量子计算的模型训练方法，该方法的核心思路是基于量子处理器，通过对应于量子牛顿方法的量子线路来训练机器学习模型。通过该方法进行模型训练，在模型训练的变量迭代更新过程中所需要的量子比特资源、计算复杂度均关于参数维度成对数相关，即相对于经典训练，可以实现指数级加速。这在以分解机为代表的一系列机器学习模型的训练中具有巨大优势。目前还有一些技术方案在模型训练利用了量子梯度方法，相对于这些方案，本说明书实施例提供的方法，在训练中具有更快的收敛速率，也就是说具有更快的训练速度。

图1为本发明实施例提供的一种基于量子计算的模型训练方法的流程图。如图所示，该方法的流程至少包括：

步骤11，获取第一模型的训练数据集和所述第一模型的初始参数。

该步骤中，获取用于训练待训练模型的数据集，以及待训练模型的初始参数。在一个实施例中，初始参数可以是随机的。在另一个实施例中，初始参数可以根据经验确定。

在一个实施例中，第一模型可以为分解机模型。在其他实施例中，第一模型还可以是其他可以以牛顿法优化模型参数的机器学习模型，本说明书对此不做限制。

步骤12，针对所述训练数据集和所述初始参数，根据牛顿方法设置量子线路。

牛顿法(Newton method)是一种深度学习模型参数的优化方法，相对于一般模型训练中基于损失函数的梯度的优化方法，例如梯度下降法，牛顿法具有收敛速度快的优点。其原因在于，基于牛顿法的训练是针对损失函数的二阶收敛，而梯度下降则是针对损失函数的一阶收敛，所以基于牛顿法的训练收敛地更快，也就是训练速度更快，效率更高。

根据牛顿方法设置量子线路，需要先获取模型训练的损失函数。因此，在一个实施例中，可以根据所述训练数据集，确定第一矩阵；根据所述第一矩阵和初始参数，确定用于训练所述第一模型的损失函数；根据所述损失函数，基于牛顿方法设置所述量子线路。

在一个实施例中，量子线路可以至少包括第一模块和第二模块，所述第一模块用于实现对所述损失函数的等效梯度，所述第二模块用于实现对所述损失函数的二阶导数的逆。

步骤13，运行所述量子线路，得到所述第一模型的优化参数。

该步骤中，可以基于该量子线路，将表示初始参数的量子态，演化为优化后的参数的量子态。

在一个实施例中，可以运行所述量子线路，将表示初始参数的第一量子态演化为表示优化参数的第二量子态。

在一个实施例中，还可以对所述第二量子态进行投影测量，确定所述第二量子态是否达到预定精度，在达到预定精度的情况中，结束对所述第一模型的训练。

在一个实施例中，第一量子线路可以包括，第一单比特量子寄存器up、第二单比特量子寄存器d、第三单比特量子寄存器h，以及第一多比特量子寄存器e和第二多比特量子寄存器v。

将第一量子态演化为第二量子态，可以通过以下步骤：

将up、d、h均置于量子态|0>，将e置于量子态将v置于第一随机量子态|X>，其中，χ为比特数；

对d做由寄存器up和e控制的旋转操作；

对e和v做所述等效梯度算符的量子相位估计操作的逆操作；

对e和v做等效Hessian算符的量子相位估计操作；

对h做由寄存器up和e控制的旋转操作；

对e和v做所述等效Hessian算符的量子相位估计操作的逆操作；

对up做绕y轴且角度为η的旋转操作后，分别对up、d、h做Z基投影测量，若up、d、h的量子态为|0>_up|0>_d|0>_h，从v获取第二量子态。

在一个实施例中，可以基于得到的第二量子态，进行针对待测数据的预测。在一个例子中，可以获取待测数据，根据待测数据获得第二矩阵；获得第四量子态，所述第四量子态根据图1所示的方法获得；针对第四量子态，进行关于第二矩阵的量子测量，得到第一结果；以所述第一结果，作为依据待测数据的预测结果并输出。

下面通过一个完整的实施例，进一步说明本发明实施例提供基于量子计算的模型训练方法，以及如何利用训练好的模型进行预测。图2为本发明实施例提供的一种基于量子计算的模型训练方法、以及利用该模型进行预测的整体流程图。根据图2所示，该流程例如包括如下步骤：

步骤I，可以将例如为分解机模型的第一模型的损失函数写成矩阵乘积的形式，所述损失函数的数学表达式为其中，待优化参数(即初始参数)表示为矢量X＝(1,x₁,x₂,…,x_d)^T的形式，p为矢量参数数量，x₁-x_d为X的矢量元素,A为训练数据的矩阵形式(即第一矩阵)，A为对称矩阵。注意，本说明书实施例提供基于量子计算的模型训练方法在一个实施例中，可以例如通过经典计算机，将训练数据映射为对称矩阵A。

步骤II，针对损失函数f，设置量子牛顿方法对应的、至少由若干个量子门构成的量子线路(例如图3所示，详细描述见后文)。

步骤III，确定一个直积量子态|X>，对其所述量子线路，将该量子态|X>演化至更新了的量子态|X'>。

步骤IV，对得到的更新后的量子态|X'>做量子测量，判断是否满足优化精度：若满足，停止该过程并将更新态|X'>输出。若未达到，以更新态|X'>为新的输入量子态|X>，继续执行步骤3；

步骤IV，将待预测数据重排映射为对称矩阵B，对由步骤4得到的输出量子态|X'>做关于B的量子测量，所述量子测量的数学表达式为<X'|B|X'>，并输出该结果。该结果即为第一模型的推荐预测值。在一个实施例中，待预测数据可以例如为收集的用户历史数据。在一个实施例中，还可以例如通过经典计算机，将待预测数据重排映射为对称矩阵B。

从上述描述可以看到，本发明实施例提供基于量子计算的模型训练方法的核心在于实现从量子态|X>到量子态|X'>的量子动力学演化过程。在一个实施例中，所述量子动力学的演化过程的数学表达式可以为，|X'>∝|X>-ξ(KHK)^-1D|X>，其中，D为损失函数(多项式函数)的等效梯度算符。在一个例子中，该等效梯度算符可以由输入数据矩阵A经过矩阵变换得到。KHK为损失函数(多项式函数)的等效Hessian矩阵(由损失函数的二阶偏导数构成的矩阵)。在一个例子中，该等效Hessian矩阵还可以由输入数据矩阵A经过矩阵变换得到。ξ为可预设的迭代步长。

图3为本发明实施例提供的一种牛顿优化量子线路的示意图。下面进一步说明，如何在量子处理器上执行如图3所示的量子线路，实现从量子态|X>到量子态|X'>的量子动力学演化过程。图3所示中，R_y表示绕y轴旋转的单比特量子门操作，H表示Hadamard量子门操作，U_F和分别表示量子傅立叶变换操作和量子逆傅立叶变换操作，e^-iDt及e^-iKHKt为第一和第二哈密顿量模拟门。

量子线路,即由量子逻辑门组成，对量子比特进行操作的线路。图3所示中的阶段-1，可以对应于前述的第一模块。在一个实施例中，可以采用具有HHL结构的量子模块实现第一模块。图3所示中的阶段-2，可以对应于前述的第二模块。在一个实施例中，可以采用具有HHL结构的量子模块实现第二模块。在其他实施例中，所述量子线路还可以包括量子态初始化模块、测量与确定结果模块。考虑到训练的迭代优化中，参数初值的不敏感性，以及为了提高操作的执行效率，在一个实施例中，量子态初始化模块，可以在训练的第一次迭代过程中，初始化量子态X为一个简单直积态或其他易于制备的量子态。在此后的迭代过程中，则以前一步迭代输出的量子态X更新态作为该步输入的量子态。

下面通过一个具体的实施例，进一步阐述该量子线路的执行过程，该实施例中，所述量子线路的执行过程可以包括如下步骤：

首先，在步骤A，将单比特量子寄存器up、d、h均置于量子态|0>，多比特量子寄存器e置于量子态χ为该寄存器所含比特数，在一个例子中可以预先设置。在一个实施例中，在训练的第一次迭代过程中，可以将多比特量子寄存器v置于某任意的易制备量子态|X>。而后续迭代过程中，该寄存器状态为前一次的输出状态。

然后，在步骤B，在对单比特寄存器up执行绕y轴且角度为η的旋转操作后，在寄存器e和v上做关于等效梯度算符D的量子相位估计操作。该步骤中的旋转操作，其作用为确定状态叠加时的叠加系数。因此，在如前述量子动力学演化过程为|X'>∝|X>-ξ(KHK)^-1D|X>的实施例中，可以利用该旋转操作确定训练的迭代步长ξ。

在一个实施例中，所述等效梯度算符D的数学表达式为

其中，P_k为将p重量子直积空间中的第1重和第k重做交换的置换操作。在一个例子中，参等效梯度算符D的演化过程，可以根据量子主成分分析方法或基于量子信号处理的哈密顿量演化方法，在消耗多个量子态备份|X>的代价下实现。

在一个实施例中，所述关于等效梯度算符D的量子相位估计操作，可以包括：对e做Hadamard门操作；对v做由e控制的第一哈密顿模拟门操作；对e做量子傅立叶变换操作。其中，第一哈密顿模拟门操作的数学表达式为e^-iDt，D为等效梯度算符，t为时间，e为自然对数，i为虚部单位。该量子相位估计操作后，v上的表示D的相位转化为了e上的表示D的量子态。其作用为，虽然等效梯度算符D本身不是一个么正算符，通过上述过程，e上的状态为表示等效梯度算符D的量子态。

接着，在步骤C，对单比特寄存器d做由寄存器up和e控制的旋转操作。该步骤中的旋转操作，其作用为根据e上的量子态(用于表示D，在一个例子中，具体可以为表示D的量子态的本证态|λ>)、以及up的状态,控制d，使得d与e、up建立关联。在一个例子中，其中寄存器up状态处于|1>时使能，e的状态|λ>则用于控制旋转角度。

随后，在步骤D，做步骤B中所述的关于等效梯度算符D的量子相位估计过程的逆操作，用以擦除寄存器e的状态并将其重新置于量子态

在一个实施例中，该逆操作可以包括：对e做量子逆傅立叶变换操作；对v做由e控制的第一哈密顿模拟门操作的逆操作；对e做Hadamard门操作。其中，第一哈密顿模拟门操作的逆操作的数学表达式为e^iDt，D为等效梯度算符，t为时间，e为自然对数，i为虚部单位。

接着，在步骤E，在e和v上做关于等效Hessian矩阵

的量子相位估计，其中，K＝diag(0,1,1,...1)为对角矩阵，在一个实施例中，K可在基于量子信号处理的哈密顿量模拟过程中通过调整相应的量子黑箱操作等效实现。/>和/>分别为交换第1重与第k₁重、第2重与第k₂重量子直积空间的置换操作，S为交换第1重和第2重子空间的置换操作，|X>为待优化参数X的量子态形式，p为矢量参数数量，A为训练数据的矩阵形式。

在一个实施例中，关于等效Hessian矩阵的量子相位估计操作，可以包括：对e做Hadamard门操作；对v做由e控制的第二哈密顿模拟门操作；对e做量子傅立叶变换操作。其中，第二哈密顿模拟门操作的数学表达式为e^-iKHKt，KHK为等效Hessian矩阵，t为时间，e为自然对数，i为虚部单位。

然后，在步骤F，对单比特寄存器h做由寄存器up和e控制的旋转操作。该步骤中的旋转操作，其作用为根据e上的量子态(表示KHK，在一个例子中，具体可以为表示KHK的量子态的本证态|λ>)、以及up的状态,控制h，使得h与e、up建立关联。在一个实施例中，可以当寄存器up状态处于|1>时使能，可以将e的状态|λ>用于控制旋转角度。

随后，在步骤G，做步骤E的逆操作，即在e和v上做关于等效Hessian矩阵的量子相位估计的逆操作。在一个实施例中，该逆操作可以包括：对e做量子逆傅立叶变换操作；对v做由e控制的第二哈密顿模拟门操作的逆操作；对e做Hadamard门操作。其中，第二哈密顿模拟门操作的逆操作的数学表达式为e^iKHKt，KHK为等效Hessian矩阵，t为时间，e为自然对数，i为虚部单位。

需要注意的是，在步骤H之前，e、v由于被施加的均为相对应的操作与逆操作，其状态可以等效于没有施加阶段-1和阶段-2的操作，即为|X>。在对up做所述旋转操作，以及对up、d、h分别做所述投影测量之后，由于v与up、d、h之间的关联关系(通过步骤C、F建立)，其状态演变为|X＇>,即cos²(η)|X>-sin²(η)KHK^-1D|X>。

还需要注意的是，由于投影测试为破坏性测试，所以若对于up、d、h的投影测量没有测到三者的状态处于|0>_up|0>_d|0>_h，则需要重新执行步骤A-H，直到测到三者状态均为|0〉时，才可获取所述更新量子态，完成一次迭代。

采用本发明实施例提供基于量子计算的模型训练方法，具有以下优点：一方面，相对于基于经典计算机的模型训练方法中，计算复杂度最低只能达到关于变量维度成线性相关的量级。本发明实施例提供的基于量子计算的模型训练方法，可以将训练的复杂度降到关于变量维度成对数相关的量级，因此训练过程中消耗的计算资源更少。另一方面，相对于基于量子梯度优化的模型训练方法，本发明实施例提供的方法在训练中可能更快的达到收敛，因此模型训练速度也更快。

根据另一方面的实施例，还提供一种计算机可读介质，包括存储于其上的计算机可执行指令，其中所述计算机可执行指令当在量子计算机上执行时使得所述量子计算机执行以上所示的方法。

根据另一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现以上所述的方法。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于量子计算的模型训练方法，包括：

获取第一模型的训练数据集和所述第一模型的初始参数；

针对所述训练数据集和所述初始参数，根据牛顿方法设置量子线路；其中，所述量子线路包括，第一单比特量子寄存器up、第二单比特量子寄存器d、第三单比特量子寄存器h，以及第一多比特量子寄存器e和第二多比特量子寄存器v；

运行所述量子线路，将第一量子态演化为第二量子态，所述第一量子态表示所述初始参数，所述第二量子态表示所述第一模型的优化参数，其中，将第一量子态演化为第二量子态，包括：将up、d、h均置于量子态|0>，将e置于量子态将v置于第一量子态|X>，其中，χ为比特数；对up执行绕y轴且角度为η的旋转操作后，在e和v上做关于等效梯度算符的量子相位估计操作；对d做由寄存器up和e控制的旋转操作；对e和v做所述等效梯度算符的量子相位估计操作的逆操作；对e和v做等效Hessian算符的量子相位估计操作；对h做由寄存器up和e控制的旋转操作；对e和v做所述等效Hessian算符的量子相位估计操作的逆操作；对up做绕y轴且角度为η的旋转操作后，分别对up、d、h做Z基投影测量，若up、d、h的量子态为|0>_up|0>_d|0>_h，从v获取第二量子态。

2.根据权利要求1所述的方法，其中，所述针对所述训练数据集和所述初始参数，根据牛顿方法设置量子线路包括：

根据所述训练数据集，确定第一矩阵；

根据所述损失函数，基于牛顿方法设置所述量子线路。

3.根据权利要求2所述的方法，其中，所述量子线路至少包括第一模块和第二模块，所述第一模块用于实现对所述损失函数的等效梯度，所述第二模块用于实现对所述损失函数的二阶导数的逆。

4.根据权利要求1所述的方法，还包括，

5.根据权利要求1所述的方法，其中，所述第一模型为分解机模型。

6.一种基于量子计算的模型训练装置，所述装置包括：

量子线路设置单元，配置为，针对所述训练数据集和所述初始参数，根据牛顿方法设置量子线路；其中，所述量子线路包括，第一单比特量子寄存器up、第二单比特量子寄存器d、第三单比特量子寄存器h，以及第一多比特量子寄存器e和第二多比特量子寄存器v；

模型训练单元，配置为，运行所述量子线路，将第一量子态演化为第二量子态，所述第一量子态表示所述初始参数，所述第二量子态表示所述第一模型的优化参数，其中，将第一量子态演化为第二量子态，包括：将up、d、h均置于量子态|0>，将e置于量子态将v置于第一量子态|X>，其中，χ为比特数；对up执行绕y轴且角度为η的旋转操作后，在e和v上做关于等效梯度算符的量子相位估计操作；对d做由寄存器up和e控制的旋转操作；对e和v做所述等效梯度算符的量子相位估计操作的逆操作；对e和v做等效Hessian算符的量子相位估计操作；对h做由寄存器up和e控制的旋转操作；对e和v做所述等效Hessian算符的量子相位估计操作的逆操作；对up做绕y轴且角度为η的旋转操作后，分别对up、d、h做Z基投影测量，若up、d、h的量子态为|0>_up|0＞_d|0＞_h，从v获取第二量子态。

7.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-5中任一项的所述的方法。

8.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-5中任一项所述的方法。