WO2023168814A1

WO2023168814A1 - 句子向量生成方法、装置、计算机设备及存储介质

Info

Publication number: WO2023168814A1
Application number: PCT/CN2022/089817
Authority: WO
Inventors: 陈浩
Original assignee: 平安科技（深圳）有限公司
Priority date: 2022-03-09
Filing date: 2022-04-28
Publication date: 2023-09-14
Also published as: CN114444471A

Abstract

本申请公开了句子向量生成方法、装置、计算机设备及存储介质，涉及人工智能技术领域，可以提升句子向量生成的准确性。其中方法包括：对获取到的初始句子文本进行语义分割，得到分割后的句子文本；利用预先构建的句子向量生成模型，通过用于预测所述句子文本上下文的编码处理，得到所述句子文本的向量表示，所述句子向量生成模型为训练好的序列到序列模型的编码层。本申请适用于基于图书文本句子向量的图书推荐。

Description

句子向量生成方法、装置、计算机设备及存储介质

本申请要求于2022年3月9日提交中国专利局、申请号为202210232057.9、申请名称为“句子向量生成方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在申请中。

技术领域

本申请涉及人工智能技术领域，尤其涉及句子向量生成方法、装置、计算机设备及存储介质。

背景技术

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向，句子向量(sentence embedding)作为文本数据的向量表示被广泛应用在自然语言处理的诸多应用场景中。通过将文本数据映射到可量化的向量空间，得到表征文本数据特征、语义、语法等信息的句子向量表示，进而利用向量聚类，分类等方法得到文本句子之间的关系，能够实现句子向量在实际场景中的应用。

现有用于句子向量构造的解决方案主要包括基于词向量平均值的构造方法和基于对比学***均值的构造方法如word2vec、glove、bert等；基于对比学***均值的构造方法，其破坏了句子中词语之间的依赖关系，特征提取的准确性较低；2)基于对比学习的构造方法，虽然获取正样本的方法很多，但随机选取的负样本和原始句子之间的相似度较低，导致模型的训练难度较低，模型在实际任务中的迁移能力不足，进而导致生成的句子向量的准确度较低。

发明内容

有鉴于此，本申请提供了句子向量生成方法、装置、计算机设备及存储介质，主要目的在于解决现有技术中，基于词向量平均值的构造方法存在句子特征提取的准确性较低，以及基于对比学习的构造方法存在模型在实际任务中的迁移能力不足，导致生成的句子向量的准确度较低的技术问题。

根据本申请的一个方面，提供了一种句子向量生成方法，该方法包括：

对获取到的初始句子文本进行语义分割，得到分割后的句子文本；

利用预先构建的句子向量生成模型，通过用于预测所述句子文本上下文的编码处理，得到所述句子文本的向量表示，所述句子向量生成模型为训练好的序列到序列模型的编码层；

其中，所述训练好的序列到序列模型通过下述步骤得到：

利用初始序列到序列模型，对构建的句子样本集中的上下文句子对序列中的当前句子进行编码处理和上下文解码处理，得到所述当前句子的上文预测句子和下文预测句子；

根据上文预测句子和下文预测句子，得到训练好的序列到序列模型。

根据本申请的另一方面，提供了一种句子向量生成装置，该装置包括：

模型训练模块，可以用于利用初始序列到序列模型，对构建的句子样本集中的上下文句子对序列中的当前句子进行编码处理和上下文解码处理，得到所述当前句子的上文预测句子和下文预测句子；以及，根据上文预测句子和下文预测句子，得到训练好的序列到序列模型；

预处理模块，用于对获取到的初始句子文本进行语义分割，得到分割后的句子文本；

编码模块，用于利用预先构建的句子向量生成模型，通过用于预测所述句子文本上下文的编码处理，得到所述句子文本的向量表示，所述句子向量生成模型为训练好的序列到序列模型的编码层。

依据本申请又一个方面，提供了一种存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述句子向量生成方法，包括：

其中，所述训练好的序列到序列模型通过下述步骤得到：

依据本申请再一个方面，提供了一种计算机设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述句子向量生成方法，包括：

其中，所述训练好的序列到序列模型通过下述步骤得到：

借由上述技术方案，基于上下文句子对序列进行序列到序列模型训练，利用训练好的序列到序列模型的编码层生成句子向量，能够在提升模型训练难度的基础上，有效提升句子向量生成的准确性，保证生成的句子向量语义信息和语法信息的完整性，从而有效避免现有基于词向量平均值的构造方法，破坏句子中词语之间的依赖关系，导致句子特征提取的准确性较低，以及基于对比学习的构造方法，模型的训练难度较低，模型在实际任务中的迁移能力不足，生成的句子向量的准确度较低的技术问题。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了本申请实施例提供的一种句子向量生成方法的流程示意图；

图2示出了本申请实施例提供另一种句子向量生成方法的流程示意图；

图3示出了本申请实施例提供的初始序列到序列模型架构示意图；

图4示出了本申请实施例提供的一种句子向量生成装置的结构示意图；

图5示出了本申请实施例提供的另一种句子向量生成装置的结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(AI：Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

针对现有技术中基于词向量平均值的构造方法存在句子特征提取的准确性较低，以及基于对比学***台等基础云计算服务的云服务器。上述方法包括以下步骤：

步骤101、对获取到的初始句子文本进行语义分割，得到分割后的句子文本。

在本实施例中，以图书推荐场景为例，适用于基于获取到的图书文本内容推荐其他相似图书，具体为，当接收到图书推荐请求时，根据图书推荐请求中的图书书名，获取与图书书名对应的图书文本内容，基于中文标点对图书文本内容进行断句，通过文本分割得到用于输入句子向量生成模型的多个句子文本。根据实际应用场景的需要，图书文本内容可以为图书摘要文本、图书简介文本等，此处不具体限定。

步骤102、利用预先构建的句子向量生成模型，通过用于预测所述句子文本上下文的编码处理，得到所述句子文本的向量表示，所述句子向量生成模型为训练好的序列到序列模型的编码层；其中，所述训练好的序列到序列模型通过下述步骤得到：利用初始序列到序列模型，对构建的句子样本集中的上下文句子对序列中的当前句子进行编码处理和上下文解码处理，得到所述当前句子的上文预测句子和下文预测句子；根据上文预测句子和下文预测句子，得到训练好的序列到序列模型。

在本实施例中，基于构建的包括上下文句子对序列的句子样本集训练初始序列到序列模型，其中，上下文句子对序列包括当前句子和当前句子对应的上下文句子，将当前句子输入初始序列到序列模型的编码层进行编码处理，得到包含当前句子上下文特征信息的向量表示，将包含当前句子上下文特征信息的向量表示分别输入初始序列到序列模型并行设置的两个解码层，通过解码处理得到当前句子的上文预测句子和下文预测句子，进一步地，通过将上下文句子对序列中当前句子的上文句子和下文句子作为上文预测句子和下文预测句子的训练目标，得到训练好的序列到序列模型。可见，训练好的序列到序列模型的编码层具有准确预测当前句子上下文的编码能力，能够保留当前句子上下文的语义信息和语法信息的完整性，因此在此基础上输出的向量表示能够包含当前句子的完整上下文特征信息，进而保证后续图书推荐的准确性。

其中，将基于当前句子及其上下文句子构建的上下文句子对序列作为初始序列到序列模型的输入数据，能够不破坏文本数据的整体结构，保留词语之间相互依赖，相互影响的文本特征，从而保证模型能够学习到句子文本蕴含的完整语义信息和语法信息，提升模型对上下文句子特征提取的准确性。

对于本实施例可以按照上述方案，对获取到的初始句子文本进行语义分割，得到分割后的句子文本，并利用预先构建的句子向量生成模型，通过用于预测所述句子文本上下文的编码处理，得到所述句子文本的向量表示，所述句子向量生成模型为训练好的序列到序列模型的编码层；其中，所述训练好的序列到序列模型通过下述步骤得到：利用初始序列到序列模型，对构建的句子样本集中的上下文句子对序列中的当前句子进行编码处理和上下文解码处理，得到所述当前句子的上文预测句子和下文预测句子；根据上文预测句子和下文预测句子，得到训练好的序列到序列模型。与现有基于词向量平均值的构造、基于对比学习的构造等句子向量生成方案相比，本实施例利用上下文句子对序列进行序列到序列模型训练，利用训练好的序列到序列模型的编码层生成的句子文本的句子向量，能够保证句子文本语义信息和语法信息的完整性，从而有效提升句子向量生成的准确性。

进一步的，作为上述实施例具体实施方式的细化和扩展，为了完整说明本实施例的具体实施过程，提供了另一种句子向量生成方法，如图2所示，该方法包括：

步骤201、利用初始序列到序列模型，对构建的句子样本集中的上下文句子对序列中的当前句子进行编码处理和上下文解码处理，得到所述当前句子的上文预测句子和下文预测句子。

其中，所述上下文句子对序列具体包括：用于输入至所述初始序列到序列模型的编码层进行上下文句子预测的当前句子；以及，用于训练所述初始序列到序列模型输出结果的上文目标句子和下文目标句子，所述输出结果为模型训练过程中输出的上文预测句子和下文预测句子。

为了说明步骤201的具体实施方式，作为一种优选实施例，步骤201具体可以包括：根据所述上下文句子对序列，利用分词工具进行分词处理得到分词后的上下文句子对序列；根据所述分词后的上下文句子对序列中的当前句子，利用所述初始序列到序列模型的编码层，得到所述当前句子的句子嵌入向量；根据所述当前句子的句子嵌入向量，利用所述初始序列到序列模型中并行设置的两个解码层，分别得到上文预测句子和下文预测句子；其中，所述两个解码层是指用于预测上文的第一解码层，以及用于预测下文的第二解码层。

为了说明步骤201的具体实施方式，作为另一种优选实施例，所述用于预测上文的第一解码层为第一GRU模型，所述用于预测下文的第二解码层为第二GRU模型，所述根据所述当前句子的句子嵌入向量，利用所述初始序列到序列模型中并行设置的两个解码层，分别得到上文预测句子和下文预测句子的步骤，具体包括；将所述当前句子的句子嵌入向量分别作为第一GRU模型中重置门、更新门和候选记忆单元的输入数据，通过解码处理得到当前句子的上文预测句子；将所述当前句子的句子嵌入向量作为第二GRU模型的输入数据，通过解码处理得到当前句子的下文预测句子。

实施中，根据上下文句子对序列中的当前句子，利用初始序列到序列模型得到当前句子的上文预测句子和下文预测句子的步骤之前，还包括：构建句子样本集，所述句子样本集包括上下文句子对序列。具体步骤包括：

1)随机选取任意的图书文本，基于中文标点对选取的图书文本进行语句分割，得到图书文本D，D＝[S ₁,S ₂,S ₃,S ₄,S ₅…S _i,…,S _n]，其中，S _i表示图书文本D中的第i个句子，n表示图书文本D经语句分割得到的句子个数。例如，图书文本集合包括3727本图书，以及每本图书的所有文本内容，从中随机选取任意图书文本，并对所选取的图书文本的所有文本内容进行语句分割。

2)基于图书文本D构建上下文句子对序列sentence pairs，即通过遍历图书文本D中的每个句子构建上下文句子对序列，得到句子样本集G。其中，上下文句子对序列表示为 (S ₁,S ₂,S ₃)、(S ₂,S ₃,S ₄)、(S ₃,S ₄,S ₅)、(S _i-1,S _i,S _i+1)、…、(S _n-2,S _n-1,S _n)，其中S _i表示当前句子，S _i-1表示与S _i相邻的上文目标句子，S _i+1表示与S _i相邻的下文目标句子。

实施中，利用初始序列到序列模型的编码层Encoder输出当前句子的句子嵌入向量sentence embedding h _s，并同步输入用于预测上文句子序列的第一解码层pre-Decoder和用于预测下文句子序列的第二解码层next-Decoder，利用第一解码层pre-Decoder和第二解码层next-Decoder分别得到当前句子的上文预测句子和当前句子的下文预测句子。如图3所示，具体步骤包括：

1)利用分词工具(哈工大LTP模型)对句子样本集G的每个上下文句子对序列中的句子进行分词处理，得到分词后的句子表示为S _i[t ₁,t ₂,…,t _p,…,t _l]，其中，t _p表示S _i中第p个token，l表示S _i分词后得到的token个数。

2)基于encoder-decoder模型架构构建初始序列到序列模型，初始序列到序列模型包括一个编码层和两个解码层，编码层和解码层的基础模型均为门控循环单元(GRU：Gate Recurrent Unit)。

3)将分词处理后的句子样本集G作为初始序列到序列模型的输入，将每个句子对序列中的当前句子输入初始序列到序列模型的编码层Encoder，通过编码处理得到当前句子的句子嵌入向量sentence embedding h _s，利用第一解码层pre-Decoder和第二解码层

next-Encoder对句子嵌入向量sentence embedding h _s同步进行解码处理，分别得到当前句子的上文预测句子和当前句子对应的下文预测句子。具体包括：

①将上下文句子对序列中的当前句子作为初始序列到序列模型编码层Encoder的输入，以(S _i-1,S _i,S _i+1)为例，将分词后的(S _i-1,S _i,S _i+1)中的句子S _i＝[t ₁,t ₂,…,t _p,…,t _l]输入编码层Encoder，通过编码处理得到S _i的句子嵌入向量sentence embedding h _s。

②将句子嵌入向量sentence embedding h _s作为第一解码层pre-Decoder(上文解码)的输入，通过解码处理得到当前句子对应的上文预测句子Y _i-1。其中，根据当前句子S _i的句子嵌入向量sentence embedding h _s预测当前句子对应的上文预测句子Y _i-1，由于向上预测不符合自然语言的特点，因此第一解码层的训练难度大于第二解码层next-Decoder(下文解码)，对GRU模型架构进行改进，在提升上文预测准确性的同时，保证训练效率，防止梯度消失。具体为，通过向第一解码层中的更新门、重置门及候选记忆单元的输入端增加当前句子的嵌入向量sentence embedding h _s并设置相应参数，以保证在token-by-token生成的过程中，每个时刻的GRU模型均能够结合当前句子S _i的句子嵌入向量sentence embedding h _s，具体公式如下：

z _t＝σ(W _zx _t+U _zh _t-1+V _zh _s)

r _t＝σ(W _rx _t+U _rh _t-1+V _rh _s)

其中，z _t表示GRU模型的更新门，W _z，U _z为原始GRU模型更新门参数，x _t表示当前时刻t的输入向量，h _t-1表示前一时刻，即t-1时刻传到当前时刻t的向量，V _z表示针对句子嵌入向量sentence embedding h _s设置的参数。同理，GRU模型的重置门r _t和候选记忆单元

都融合了sentence embedding h _s，W _r，U _r，V _r表示重置门的参数，tanh表示激活函数，W _k，U _k，V _k表示候选记忆单元的参数，h _t表示当前时刻t的输出向量，σ表示带有激活函数的全连接层，☉表示向量对应元素相乘运算。

③与第一解码层同步，将句子嵌入向量sentence embedding h _s输入第二解码层

next-Encoder，通过解码处理得到当前句子对应的下文预测句子Y _i+1。其中，基于当前句子预测下文句子，符合自然语言自上而下的特点，因此第二解码层next-Encoder采用现有GRU模型，句子嵌入向量sentence embedding h _s仅作为第二解码层的初始向量。

可见，基于encoder-decoder模型框架对当前句子的上文句子进行预测，打破了自然语言自上而下的规律，提升了模型训练的难度，使得模型得以充分的训练，从而输出包含完整语义信号和语法信息的句子向量表示，进一步地，通过对GRU模型的更新门、重置门及候选记忆单元的改进，能够在提升模型训练的难度的同时，有效保证模型的训练效率。

步骤202、根据所述当前句子的上文预测句子和下文预测句子，利用目标损失函数对所述初始序列到序列模型进行训练，得到训练好的序列到序列模型。其中，所述目标损失函数是根据第一损失函数与第二损失函数之和确定的，所述目标损失函数中的第一损失函数是基于用于预测上文的第一解码层设定的，所述目标损失函数中的第二损失函数是基于用于预测下文的第二解码层设定的。

实施中，根据上文目标句子S _i-1、下文目标句子S _i+1，以及上文预测句子Y _i-1、下文预测句子Y _i+1，利用目标损失函数训练初始化的序列到序列模型的网络参数，直至初始化的序列到序列模型收敛，得到训练好的序列到序列模型。具体地，利用交叉熵损失函数作为基础损失函数，具体公式为：

其中，CE表示交叉熵损失函数，S表示当前句子，Y表示解码层Decoder生成的预测句子，l表示当前句子S分词后确定的token个数，t _j表示当前句子S经过分词得到的第j个token，y _j表示预测句子Y中的第j个token。

进一步地，基于分别用于输出上文预测句子和下文预测句子的第一解码层pre-Decoder和第二解码层next-Encoder，确定相应的上文句子损失函数(第一损失函数)和下文句子损失函数(第二损失函数)，进而得到初始化的序列到序列模型的目标损失函数，即上文句子损失函数和下文句子损失函数之和，具体公式如下：

其中，

表示上文句子损失函数pre-loss，

表示下文句子损失函数next-loss。

根据实际应用场景的需要，通过设定批大小batch size为128，时期epoch为50，学习率lr为0.005，对初始化的序列到序列模型进行训练，直到初始化的序列到序列模型的目标损失函数值趋于稳定，训练结束，得到训练好的序列到序列模型。

步骤203、对获取到的初始句子文本进行语义分割，得到分割后的句子文本。

步骤204、利用预先构建的句子向量生成模型，通过用于预测所述句子文本上下文的编码处理，得到所述句子文本的向量表示，所述句子向量生成模型为训练好的序列到序列模型的编码层。

实施中，提取训练好的序列到序列模型的编码层作为句子向量生成模型，以便在接收到图书推荐请求后，根据图书推荐请求中的图书书名，获取与图书书名对应的简介文本，基于中文标点对简介文本进行语句分割，并利用哈工大LTP模型对分割后的简介文本进行分词处理，得到分词后的句子文本，进而利用句子向量生成模型对句子文本进行编码处理，得到句子文本的向量表示。

步骤205、计算所述句子文本的向量表示与预设图书样本库中的句子嵌入向量之间的相似度值，其中，所述预设图书样本库中的句子嵌入向量是利用所述句子向量生成模型输出得到的。

实施中，根据初始图书样本库中每本图书的简介文本，利用所述句子向量生成模型输出对应简介文本的句子嵌入向量，从而基于输出的句子嵌入向量构建预设图书样本库，利用余弦值相似性算法，计算出根据图书推荐请求输出的相应句子向量与预设图书样本库中每本图书对应的句子嵌入向量的相似度值。

步骤206、根据所述预设图书样本库中相似度值满足预设条件的句子嵌入向量，生成所述句子文本的图书推荐信息。

实施中，当用户在平台上浏览一本图书时，将该图书作为目标图书，生成包含该目标图书书名的图书推荐请求，根据目标图书书名对应的简介文本，利用句子向量生成模型生成相应的句子向量，进而分别计算出所生成的句子向量与该平台对应的预设图书样本库中每组句子嵌入向量的相似度值，并进行降序排列，以便将相似度值满足预设条件的句子嵌入向量对应的图书信息作为相似图书推荐给用户，实验发现，线上ABtest结果显示，基于本实施例得到的用户点击率能够有效提升2.31％。

通过应用本实施例的技术方案，对获取到的初始句子文本进行语义分割，得到分割后的句子文本，并利用预先构建的句子向量生成模型，通过用于预测所述句子文本上下文的编码处理，得到所述句子文本的向量表示，所述句子向量生成模型为训练好的序列到序列模型的编码层；其中，所述训练好的序列到序列模型通过下述步骤得到：利用初始序列到序列模型，对构建的句子样本集中的上下文句子对序列中的当前句子进行编码处理和上下文解码处理，得到所述当前句子的上文预测句子和下文预测句子；根据上文预测句子和下文预测句子，得到训练好的序列到序列模型。可见，基于上下文句子对序列进行序列到序列模型训练，利用训练好的序列到序列模型的编码层生成句子向量，能够在提升模型训练难度的基础上，有效提升句子向量生成的准确性，保证生成的句子向量语义信息和语法信息的完整性，从而有效避免现有基于词向量平均值的构造方法，破坏句子中词语之间的依赖关系，导致句子特征提取的准确性较低，以及基于对比学习的构造方法，模型的训练难度较低，模型在实际任务中的迁移能力不足，生成的句子向量的准确度较低的技术问题。

进一步地，作为图1方法的具体实现，本申请实施例提供了一种句子向量生成装置，如图4所示，该装置包括：模型训练模块41、预处理模块42、编码模块43。

模型训练模块41，可以用于利用初始序列到序列模型，对构建的句子样本集中的上下文句子对序列中的当前句子进行编码处理和上下文解码处理，得到所述当前句子的上文预测句子和下文预测句子；根据上文预测句子和下文预测句子，得到训练好的序列到序列模型。

预处理模块42，可以用于对获取到的初始句子文本进行语义分割，得到分割后的句子文本。

编码模块43，可以用于利用预先构建的句子向量生成模型，通过用于预测所述句子文本上下文的编码处理，得到所述句子文本的向量表示，所述句子向量生成模型为训练好的序列到序列模型的编码层。

在具体的应用场景中，如图5所示，还包括图书推荐模块44。

在具体的应用场景中，模型训练模块41包括训练单元411。

训练单元411，可以用于根据所述当前句子的上文预测句子和下文预测句子，利用目标损失函数对所述初始序列到序列模型进行训练，得到训练好的序列到序列模型；其中，所述目标损失函数是根据第一损失函数与第二损失函数之和确定的。

在具体的应用场景中，所述上下文句子对序列具体包括：用于输入至所述初始序列到序列模型的编码层进行上下文句子预测的当前句子；以及，用于训练所述初始序列到序列模型输出结果的上文目标句子和下文目标句子，所述输出结果为模型训练过程中输出的上文预测句子和下文预测句子。

在具体的应用场景中，所述模型训练模块41，具体可以用于根据所述上下文句子对序列，利用分词工具进行分词处理得到分词后的上下文句子对序列，根据所述分词后的上下文句子对序列中的当前句子，利用所述初始序列到序列模型的编码层，得到所述当前句子的句子嵌入向量，根据所述当前句子的句子嵌入向量，利用所述初始序列到序列模型中并行设置的两个解码层，分别得到上文预测句子和下文预测句子，其中，所述两个解码层是指用于预测上文的第一解码层，以及用于预测下文的第二解码层。

在具体的应用场景中，所述用于预测上文的第一解码层为第一GRU模型，所述用于预测下文的第二解码层为第二GRU模型，所述根据所述当前句子的句子嵌入向量；所述根据所述当前句子的句子嵌入向量，利用所述初始序列到序列模型中并行设置的两个解码层，分别得到上文预测句子和下文预测句子的步骤，具体包括：将所述当前句子的句子嵌入向量分别作为第一GRU模型中重置门、更新门和候选记忆单元的输入数据，通过解码处理得到当前句子的上文预测句子；将所述当前句子的句子嵌入向量作为第二GRU模型的输入数据，通过解码处理得到当前句子的下文预测句子。

在具体的应用场景中，所述目标损失函数中的第一损失函数是基于用于预测上文的第一解码层设定的，所述目标损失函数中的第二损失函数是基于用于预测下文的第二解码层设定的。

在具体的应用场景中，图书推荐模块44包括相似度计算单元441、生成单元442。

相似度计算单元441，可以用于计算所述句子文本的向量表示与预设图书样本库中的句子嵌入向量之间的相似度值。

生成单元442，可以用于根据所述预设图书样本库中相似度值满足预设条件的句子嵌入向量，生成所述句子文本的图书推荐信息；其中，所述预设图书样本库中的句子嵌入向量是利用所述句子向量生成模型输出得到的。

需要说明的是，本申请实施例提供的一种句子向量生成装置所涉及各功能单元的其他相应描述，可以参考图1和图2中的对应描述，在此不再赘述。

基于上述如图1和图2所示方法，相应的，本申请实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述如图1和图2的句子向量生成方法，包括：

其中，所述训练好的序列到序列模型通过下述步骤得到：

可选的，所述根据上文预测句子和下文预测句子，得到训练好的序列到序列模型的步骤，具体包括：

根据所述当前句子的上文预测句子和下文预测句子，利用目标损失函数对所述初始序列到序列模型进行训练，得到训练好的序列到序列模型；

其中，所述目标损失函数是根据第一损失函数与第二损失函数之和确定的。

可选的，所述上下文句子对序列具体包括：

用于输入至所述初始序列到序列模型的编码层进行上下文句子预测的当前句子；

以及，用于训练所述初始序列到序列模型输出结果的上文目标句子和下文目标句子，所述输出结果为模型训练过程中输出的上文预测句子和下文预测句子。

可选的，所述存储介质为计算机可读存储介质，可以是非易失性，也可以是易失性。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

基于上述如图1、图2所示的方法，以及图4、图5所示的虚拟装置实施例，为了实现上述目的，本申请实施例还提供了一种计算机设备，具体可以为个人计算机、服务器、网络设备等，该实体设备包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述如图1和图2所示的句子向量生成方法，包括：

其中，所述训练好的序列到序列模型通过下述步骤得到：

可选的，所述上下文句子对序列具体包括：

可选的，该计算机设备还可以包括用户接口、网络接口、摄像头、射频(Radio Frequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的一种计算机设备结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储介质中还可以包括操作***、网络通信模块。操作***是管理计算机设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与该实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。通过应用本申请的技术方案，与现有基于词向量平均值的构造以及基于对比学***均值的构造方法，破坏句子中词语之间的依赖关系，导致句子特征提取的准确性较低，以及基于对比学习的构造方法，模型的训练难度较低，模型在实际任务中的迁移能力不足，生成的句子向量的准确度较低的技术问题。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

一种句子向量生成方法，其中，包括：

对获取到的初始句子文本进行语义分割，得到分割后的句子文本；

利用预先构建的句子向量生成模型，通过用于预测所述句子文本上下文的编码处理，得到所述句子文本的向量表示，所述句子向量生成模型为训练好的序列到序列模型的编码层；

其中，所述训练好的序列到序列模型通过下述步骤得到：

利用初始序列到序列模型，对构建的句子样本集中的上下文句子对序列中的当前句子进行编码处理和上下文解码处理，得到所述当前句子的上文预测句子和下文预测句子；

根据上文预测句子和下文预测句子，得到训练好的序列到序列模型。
根据权利要求1所述的方法，其中，所述根据上文预测句子和下文预测句子，得到训练好的序列到序列模型的步骤，具体包括：

根据所述当前句子的上文预测句子和下文预测句子，利用目标损失函数对所述初始序列到序列模型进行训练，得到训练好的序列到序列模型；

其中，所述目标损失函数是根据第一损失函数与第二损失函数之和确定的。
根据权利要求1或2所述的方法，其中，所述上下文句子对序列具体包括：

用于输入至所述初始序列到序列模型的编码层进行上下文句子预测的当前句子；

以及，用于训练所述初始序列到序列模型输出结果的上文目标句子和下文目标句子，所述输出结果为模型训练过程中输出的上文预测句子和下文预测句子。
根据权利要求1所述的方法，其中，所述利用初始序列到序列模型，对构建的句子样本集中的上下文句子对序列中的当前句子进行编码处理和上下文解码处理，得到所述当前句子的上文预测句子和下文预测句子的步骤，具体包括：

根据所述上下文句子对序列，利用分词工具进行分词处理得到分词后的上下文句子对序列；

根据所述分词后的上下文句子对序列中的当前句子，利用所述初始序列到序列模型的编码层，得到所述当前句子的句子嵌入向量；

根据所述当前句子的句子嵌入向量，利用所述初始序列到序列模型中并行设置的两个解码层，分别得到上文预测句子和下文预测句子；

其中，所述两个解码层是指用于预测上文的第一解码层，以及用于预测下文的第二解码层。
根据权利要求4所述的方法，其中，所述用于预测上文的第一解码层为第一GRU模型，所述用于预测下文的第二解码层为第二GRU模型，所述根据所述当前句子的句子嵌入向量，利用所述初始序列到序列模型中并行设置的两个解码层，分别得到上文预测句子和下文预测句子的步骤，具体包括：

将所述当前句子的句子嵌入向量分别作为第一GRU模型中重置门、更新门和候选记忆单元的输入数据，通过解码处理得到当前句子的上文预测句子；

将所述当前句子的句子嵌入向量作为第二GRU模型的输入数据，通过解码处理得到当前句子的下文预测句子。
根据权利要求2或4所述的方法，其中，所述目标损失函数中的第一损失函数是基于用于预测上文的第一解码层设定的，所述目标损失函数中的第二损失函数是基于用于预测下文的第二解码层设定的。
根据权利要求1所述的方法，其中，所述利用所述句子向量生成模型，通过用于预测所述句子文本上下文的编码处理，得到所述句子文本的向量表示的步骤之后，还包括：

计算所述句子文本的向量表示与预设图书样本库中的句子嵌入向量之间的相似度值；

根据所述预设图书样本库中相似度值满足预设条件的句子嵌入向量，生成所述句子文本的图书推荐信息；

其中，所述预设图书样本库中的句子嵌入向量是利用所述句子向量生成模型输出得到的。
一种句子向量生成装置，其中，包括：

模型训练模块，用于利用初始序列到序列模型，对构建的句子样本集中的上下文句子对序列中的当前句子进行编码处理和上下文解码处理，得到所述当前句子的上文预测句子和下文预测句子；以及，根据上文预测句子和下文预测句子，得到训练好的序列到序列模型；

预处理模块，用于对获取到的初始句子文本进行语义分割，得到分割后的句子文本；

编码模块，用于利用预先构建的句子向量生成模型，通过用于预测所述句子文本上下文的编码处理，得到所述句子文本的向量表示，所述句子向量生成模型为训练好的序列到序列模型的编码层。
根据权利要求8所述的装置，其中，所述模型训练模块，具体包括：

训练单元，用于根据所述当前句子的上文预测句子和下文预测句子，利用目标损失函数对所述初始序列到序列模型进行训练，得到训练好的序列到序列模型；

其中，所述目标损失函数是根据第一损失函数与第二损失函数之和确定的。
根据权利要求8或9所述的装置，其中，所述上下文句子对序列具体包括：

用于输入至所述初始序列到序列模型的编码层进行上下文句子预测的当前句子；

以及，用于训练所述初始序列到序列模型输出结果的上文目标句子和下文目标句子，所述输出结果为模型训练过程中输出的上文预测句子和下文预测句子。
根据权利要求8所述的装置，其中，所述模型训练模块，具体包括：

根据所述上下文句子对序列，利用分词工具进行分词处理得到分词后的上下文句子对序列；

根据所述分词后的上下文句子对序列中的当前句子，利用所述初始序列到序列模型的编码层，得到所述当前句子的句子嵌入向量；

根据所述当前句子的句子嵌入向量，利用所述初始序列到序列模型中并行设置的两个解码层，分别得到上文预测句子和下文预测句子；

其中，所述两个解码层是指用于预测上文的第一解码层，以及用于预测下文的第二解码层。
根据权利要求11所述的装置，其中，所述用于预测上文的第一解码层为第一GRU模型，所述用于预测下文的第二解码层为第二GRU模型，所述根据所述当前句子的句子嵌入向量，利用所述初始序列到序列模型中并行设置的两个解码层，分别得到上文预测句子和下文预测句子的步骤，具体包括：

将所述当前句子的句子嵌入向量分别作为第一GRU模型中重置门、更新门和候选记忆单元的输入数据，通过解码处理得到当前句子的上文预测句子；

将所述当前句子的句子嵌入向量作为第二GRU模型的输入数据，通过解码处理得到当前句子的下文预测句子。
根据权利要求9或11所述的装置，其中，所述目标损失函数中的第一损失函数是基于用于预测上文的第一解码层设定的，所述目标损失函数中的第二损失函数是基于用于预测下文的第二解码层设定的。
根据权利要求8所述的装置，其中，还包括图书推荐模块，具体包括：

相似度计算单元，用于计算所述句子文本的向量表示与预设图书样本库中的句子嵌入向量之间的相似度值；

生成单元，用于根据所述预设图书样本库中相似度值满足预设条件的句子嵌入向量，生成所述句子文本的图书推荐信息；

其中，所述预设图书样本库中的句子嵌入向量是利用所述句子向量生成模型输出得到的。
一种计算机设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现句子向量生成方法，包括：

对获取到的初始句子文本进行语义分割，得到分割后的句子文本；

利用预先构建的句子向量生成模型，通过用于预测所述句子文本上下文的编码处理，得到所述句子文本的向量表示，所述句子向量生成模型为训练好的序列到序列模型的编码层；

其中，所述训练好的序列到序列模型通过下述步骤得到：

利用初始序列到序列模型，对构建的句子样本集中的上下文句子对序列中的当前句子进行编码处理和上下文解码处理，得到所述当前句子的上文预测句子和下文预测句子；

根据上文预测句子和下文预测句子，得到训练好的序列到序列模型。
根据权利要求15所述的计算机设备，其中，所述根据上文预测句子和下文预测句子，得到训练好的序列到序列模型的步骤，具体包括：

根据所述当前句子的上文预测句子和下文预测句子，利用目标损失函数对所述初始序列到序列模型进行训练，得到训练好的序列到序列模型；

其中，所述目标损失函数是根据第一损失函数与第二损失函数之和确定的。
根据权利要求15或16所述的计算机设备，其中，所述上下文句子对序列具体包括：

用于输入至所述初始序列到序列模型的编码层进行上下文句子预测的当前句子；

以及，用于训练所述初始序列到序列模型输出结果的上文目标句子和下文目标句子，所述输出结果为模型训练过程中输出的上文预测句子和下文预测句子。
一种存储介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现句子向量生成方法，包括：

对获取到的初始句子文本进行语义分割，得到分割后的句子文本；

利用预先构建的句子向量生成模型，通过用于预测所述句子文本上下文的编码处理，得到所述句子文本的向量表示，所述句子向量生成模型为训练好的序列到序列模型的编码层；

其中，所述训练好的序列到序列模型通过下述步骤得到：

利用初始序列到序列模型，对构建的句子样本集中的上下文句子对序列中的当前句子进行编码处理和上下文解码处理，得到所述当前句子的上文预测句子和下文预测句子；

根据上文预测句子和下文预测句子，得到训练好的序列到序列模型。
根据权利要求18所述的计算机设备，其中，所述根据上文预测句子和下文预测句子，得到训练好的序列到序列模型的步骤，具体包括：

根据所述当前句子的上文预测句子和下文预测句子，利用目标损失函数对所述初始序列到序列模型进行训练，得到训练好的序列到序列模型；

其中，所述目标损失函数是根据第一损失函数与第二损失函数之和确定的。
根据权利要求18或19所述的计算机设备，其中，所述上下文句子对序列具体包括：

用于输入至所述初始序列到序列模型的编码层进行上下文句子预测的当前句子；

以及，用于训练所述初始序列到序列模型输出结果的上文目标句子和下文目标句子，所述输出结果为模型训练过程中输出的上文预测句子和下文预测句子。