CN113761124A

CN113761124A - 文本编码模型的训练方法、信息检索方法及设备

Info

Publication number: CN113761124A
Application number: CN202110572323.8A
Authority: CN
Inventors: 欧子菁; 赵瑞辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2021-12-07
Anticipated expiration: 2041-05-25
Also published as: CN113761124B

Abstract

本申请实施例公开了一种文本编码模型的训练方法、信息检索方法及设备，属于机器学习技术领域。该方法包括：将文本关系网络中的样本文本输入文本编码模型，得到各个样本文本对应的样本特征向量；基于样本特征向量以及目标函数确定模型损失；基于模型损失对文本编码模型进行迭代训练。响应于文本检索操作，基于文本检索操作获取检索信息；将检索信息输入文本编码模型，得到检索信息对应的检索信息特征向量；基于检索信息特征向量从文本库中确定目标文本；通过检索结果展示界面显示目标文本。基于样本文本的网络关系进行建模，同时在文本关系网络的网络边稀疏、噪声较多的情况下，模型也能够通过捕捉文本本身的语义信息得到较为准确的向量表示。

Description

文本编码模型的训练方法、信息检索方法及设备

技术领域

本申请实施例涉及机器学习技术领域，特别涉及一种文本编码模型的训练方法、信息检索方法及设备。

背景技术

信息检索是日常生活中使用较为频繁的操作，例如论文检索、新闻检索以及医疗咨询检索等。用户在检索框中输入关键词或关键句，终端依据文档搜索规则从文档库中检索出与关键词或关键句相关的内容，并显示检索结果供用户查看。

相关技术通常是将用户输入的文本内容编码成一个连续型向量，然后利用模型计算其与文档库中各个文档的向量表示之间的相似度，进而基于向量距离确定检索结果。对于模型的训练过程，相关技术采用对比学习的方式构建模型，并利用正负样本最大化似然函数。

然而，上述对比式学习更注重文本网络中各个节点之间的关系，当文本网络边较为稀疏、边噪声较大时，模型性能会下降；并且该方法需要正样本之间的向量内积尽可能大，负样本之间的向量内积尽可能小，若不能恰当地选取负样本，则会对模型性能有较大负面影响。

发明内容

本申请实施例提供了一种文本编码模型的训练方法、信息检索方法及设备，能够提高文本编码模型的文本编码性能，提高信息检索准确率。所述技术方案如下：

一方面，本申请实施例提供了一种文本编码模型的训练方法，所述方法包括：

将文本关系网络中的样本文本输入文本编码模型，得到各个样本文本对应的样本特征向量，所述文本关系网络是以所述样本文本为节点，以邻居节点之间的连线为边的无向图，所述邻居节点之间具有相同的文本属性；

基于所述样本特征向量以及目标函数确定模型损失，所述目标函数包含第一函数项和第二函数项，所述第一函数项用于表征所述样本特征向量对所述样本文本中语义信息的表示质量，所述第二函数项用于表征所述样本特征向量之间的相关性对所述文本关系网络的模拟质量；

基于所述模型损失对所述文本编码模型进行迭代训练。

另一方面，本申请实施例提供了一种信息检索方法，所述方法包括：

响应于文本检索操作，基于所述文本检索操作获取检索信息；

将所述检索信息输入文本编码模型，得到所述检索信息对应的检索信息特征向量，所述文本编码模型是以目标函数为训练目标，基于文本关系网络训练得到的模型，所述文本关系网络是以文本为节点，以文本之间的关系为边的无向图，所述目标函数包含第一函数项和第二函数项，所述第一函数项用于表征样本特征向量对样本文本中语义信息的表示质量，所述第二函数项用于表征所述样本特征向量之间的相关性对所述文本关系网络的模拟质量；

基于所述检索信息特征向量从文本库中确定目标文本，所述目标文本是与所述检索信息之间存在相关性的文本；

通过检索结果展示界面显示所述目标文本。

另一方面，本申请实施例提供了一种文本编码模型的训练装置，所述装置包括：

第一输入模块，用于将文本关系网络中的样本文本输入文本编码模型，得到各个样本文本对应的样本特征向量，所述文本关系网络是以所述样本文本为节点，以邻居节点之间的连线为边的无向图，所述邻居节点之间具有相同的文本属性；

第一确定模块，用于基于所述样本特征向量以及目标函数确定模型损失，所述目标函数包含第一函数项和第二函数项，所述第一函数项用于表征所述样本特征向量对所述样本文本中语义信息的表示质量，所述第二函数项用于表征所述样本特征向量之间的相关性对所述文本关系网络的模拟质量；

训练模块，用于基于所述模型损失对所述文本编码模型进行迭代训练。

另一方面，本申请实施例提供了一种信息检索装置，所述装置包括：

获取模块，用于响应于文本检索操作，基于所述文本检索操作获取检索信息；

第二输入模块，用于将所述检索信息输入文本编码模型，得到所述检索信息对应的检索信息特征向量，所述文本编码模型是以目标函数为训练目标，基于文本关系网络训练得到的模型，所述文本关系网络是以文本为节点，以文本之间的关系为边的无向图，所述目标函数包含第一函数项和第二函数项，所述第一函数项用于表征样本特征向量对样本文本中语义信息的表示质量，所述第二函数项用于表征所述样本特征向量之间的相关性对所述文本关系网络的模拟质量；

第二确定模块，用于基于所述检索信息特征向量从文本库中确定目标文本，所述目标文本是与所述检索信息之间存在相关性的文本；

显示模块，用于通过检索结果展示界面显示所述目标文本。

另一方面，本申请提供了一种计算机设备，所述计算机设备包括处理器和存储器；所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的文本编码模型的训练方法，或，信息检索方法。

另一方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现如上述方面所述的文本编码模型的训练方法，或，信息检索方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备实现上述方面的各种可选实现方式中提供的文本编码模型的训练方法，或，信息检索方法。

本申请实施例提供的技术方案至少包括以下有益效果：

本申请实施例中，目标函数既能够约束样本特征向量对样本文本内容的表征情况，也能够约束文本编码模型使样本特征向量之间的相关性符合文本关系网络，通过目标函数训练文本编码模型，能够基于样本文本的网络关系进行建模，同时使得在文本关系网络的网络边稀疏、噪声较多的情况下，模型也能够通过捕捉文本本身的语义信息得到较为准确的向量表示，从而提高文本编码模型的文本编码性能。在模型应用阶段，利用上述文本编码模型对检索信息进行编码，基于得到的检索信息特征向量查询并显示目标文件，提高了信息检索的效率和准确率。

附图说明

图1是相关技术中的文本关系网络的示意图；

图2是本申请一个示例性实施例提供的文本编码模型的训练方法的流程图；

图3是本申请另一个示例性实施例提供的文本编码模型的训练方法的流程图；

图4是本申请一个示例性实施例提供的文本关系网络的示意图；

图5是本申请一个示例性实施例提供的信息检索方法的流程图；

图6是本申请一个示例性实施例提供的检索结果展示界面的示意图；

图7是本申请一个示例性实施例提供的检索过程的流程图；

图8是本申请一个示例性实施例提供的文本编码模型的训练装置的结构框图；

图9是本申请一个示例性实施例提供的信息检索装置的结构框图；

图10是本申请一个示例性实施例提供的计算机设备的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

相关技术中，当计算机设备接收到文本检索操作时，通常是将用户输入的文本内容编码成一个连续型向量，然后利用模型计算其与文档库中各个文档的向量表示之间的相似度，进而基于向量距离确定检索结果。对于模型的训练过程，通常基于学习图结构学习方法进行训练，该方法主要由两个部分组成：学习结构的向量表示和学习文本的向量表示，最后节点的向量表示是由两部分拼接而成。其中结构的向量表示目的是捕获网络的拓扑结构信息，如图1所示，节点A和B相连，节点A和C不相连，则A和B的向量表示的距离将小于A和C的向量表示的距离。在学习文本的向量表示中，若两个节点的文本属性是相似的，则他们的向量表示也应该相似。如图1所示，A和B，A和C的文本属性相似，则他们向量表示的距离应该也是相近的。为了捕获这两种信息，相关技术的方案采取的是对比学习的方法。具体的来说，就是最大化似然函数：

但由于网络节点数目过于庞大，直接计算该式子的运算非常大，所以通常将其近似为：

该式子第一项为正采样，第二项为负采样，相关技术通常希望正样本之间向量内积尽可能大，而负样本之间的内积尽可能小。然而，该方法存在两个缺点：数据增强非常重要，能否选取恰当的负样本对模型的性能有非常大的影响；当网络边的数目较为稀疏、边噪声较大、或者存在未见过的节点时，该方法性能通常会大大下降。

为了解决上述技术问题，本申请提供了一种文本编码模型的训练方法和信息检索方法，通过目标函数训练文本编码模型，能够基于样本文本的网络关系进行建模，同时使得在文本关系网络的网络边稀疏、噪声较多的情况下，模型也能够通过捕捉文本本身的语义信息得到较为准确的向量表示，从而提高文本编码模型的文本编码性能。

下面对本申请实施例提供的文本编码模型的训练方法和信息检索方法的应用场景进行示意性说明。

1、为用户提供信息检索服务

当利用本申请实施例提供的文本编码模型的训练方法和信息检索方法为用户提供信息检索服务时，信息检索方法可以实现成为独立的信息检索程序，并安装在计算机设备或者提供信息检索服务的后台服务器中。

在该场景下，用户将想要查询的信息(例如关键字、关键词等)输入计算机设备，计算机设备根据检索信息，利用文本编码模型确定目标文本，或者将检索信息发送至后台服务器，由后台服务器确定目标文本，并将目标文本返回至医学检索结果展示界面。

2、辅助用户进行疾病预测和治疗

当利用本申请实施例提供的文本编码模型的训练方法和信息检索方法帮助用户进行疾病预测时，该方法可以实现成为独立的线上诊断类应用程序或健康类应用程序，并安装在用户使用的计算机设备或者提供医学文本搜索服务的后台服务器中，方便用户使用该程序对疾病进行查询。

在该场景下，用户在应用程序界面输入症状或疾病名称，计算机设备将症状、疾病名称等用户输入的内容输入文本编码模型，得到对应的检索信息特征向量，从而基于检索信息特征向量从医学文本库中查询得到目标文本，并将检索结果返回对应的应用程序界面，提示用户可能患有的疾病或者治疗方法。

当然，除了应用于上述场景外，本申请实施例提供方法还可以应用于其他需要信息检索的场景，本申请实施例并不对具体的应用场景进行限定。

本申请实施例提供的文本编码模型的训练方法以及信息检索方法可以应用于终端或者服务器等计算机设备中。在一种可能的实施方式中，本申请实施例提供的信息检索方法可以实现成为应用程序或应用程序的一部分，并被安装到终端中，使终端具备根据检索信息进行文本搜索的功能；本申请实施例提供的文本编码模型的训练方法可以应用于应用程序的后台服务器中，从而由服务器进行模型训练和更新。为了方便表述，下述各个实施例中，以文本编码模型的训练方法和信息检索方法应用于计算机设备为例进行说明，但并不对此构成限定。

图2示出了本申请一个示例性实施例提供的文本编码模型的训练方法的流程图。本实施例以该方法用于计算机设备为例进行说明，该方法包括如下步骤。

步骤201，将文本关系网络中的样本文本输入文本编码模型，得到各个样本文本对应的样本特征向量，文本关系网络是以样本文本为节点，以邻居节点之间的连线为边的无向图，邻居节点之间具有相同的文本属性。

文本关系网络是以样本文本为节点，以邻居节点之间的连线为边的无向图。其中，图(Graph)由顶点(Vertex)的有穷非空集合和顶点之间边(edge)的集合组成，通常表示为G(V,E)，G表示一个图，V是图G中顶点的集合，E是图G中边的集合，无向图是指图中任意两个顶点之间的边都是无向边的图。

在一种可能的实施方式中，在进行模型训练之前，计算机设备首先基于获取到的样本文本将具有相同文本属性的节点相连，使其成为邻居节点，从而形成文本关系网络。文本关系网络中每个节点带有自身的文本属性，该文本属性是通过内容提取得到的，例如，对于医学领域的文章，计算机设备通过提取文章中的症状、药物、疾病名称等实体，生成样本文本的文本属性。

计算机设备将文本关系网络输入文本编码模型进行模型训练，使模型能够基于样本文本的文本内容，以及文本关系网络中样本文本之间的相关性两方面进行学习，使得模型生成的特征向量既能够表征文本内容，也能够表征文本之间的拓扑结构信息。

步骤202，基于样本特征向量以及目标函数确定模型损失，目标函数包含第一函数项和第二函数项，第一函数项用于表征样本特征向量对样本文本中语义信息的表示质量，第二函数项用于表征样本特征向量之间的相关性对文本关系网络的模拟质量。

在一种可能的实施方式中，文本编码模型本质为编码器，对输入模型的文本进行编码，输出用于表征文本的特征向量，为了使模型的编码性能进一步提升，使特征向量能够更好地表示文本内容，计算机设备基于模型输出的样本特征向量以及目标函数计算模型损失，从而基于模型损失反向更新模型参数。

为了实现模型输出的特征向量既能够表征文本内容，也能够表征文本之间的拓扑结构信息，计算机设备基于样本文本以及文本关系网络构建目标函数，使得生成的目标函数中含有用于表征样本特征向量对样本文本中语义信息的表示质量的第一函数项，以及用于表征样本特征向量之间的相关性对文本关系网络的模拟质量的第二函数项。其中，表示质量越高，表明样本特征向量对样本文本中语义信息的表达越准确充分，即样本特征向量的质量越高；模拟质量越高，表明样本特征向量之间的相关性与文本关系网络中文本相关性的匹配度越高，即利用样本特征向量之间的相关性表示文本之间相关性的准确度越高。

步骤203，基于模型损失对文本编码模型进行迭代训练。

计算机设备基于目标函数计算模型损失，在模型损失满足训练结束条件时，结束模型训练，若模型损失不满足训练结束条件，则基于模型损失反向调整模型参数，并基于参数更新后的模型进行下一轮训练，直至模型收敛。

综上所述，本申请实施例中，目标函数既能够约束样本特征向量对样本文本内容的表征情况，也能够约束文本编码模型使样本特征向量之间的相关性符合文本关系网络，通过目标函数训练文本编码模型，能够基于样本文本的网络关系进行建模，同时使得在文本关系网络的网络边稀疏、噪声较多的情况下，模型也能够通过捕捉文本本身的语义信息得到较为准确的向量表示，从而提高文本编码模型的文本编码性能。

图3示出了本申请另一个示例性实施例提供的文本编码模型的训练方法的流程图。本实施例以该方法用于计算机设备为例进行说明，该方法包括如下步骤。

步骤301，对样本文本进行语义信息提取，得到样本文本的文本属性。

为了快速获取到各个样本文本之间的相关性，确定网络关系，计算机设备对样本文本进行语义信息提取，得到样本文本的文本属性，从而基于文本属性构建文本关系网络。

示意性的，对于医学领域的样本文本，计算机设备对样本文本进行语义信息提取，获取文章中的症状、药物、疾病名称等实体，生成样本文本的文本属性。如图4所示，计算机设备提取样本文本的语义信息后，标注其文本属性，图中五个样本文本的文本属性分别为“腹痛”、“头痛”、“头痛；腹痛”、“腹痛”、“头痛”。

对于其他领域的文本，计算机设备提取到的语义信息可能包含对应领域的词汇，例如对于气象领域，样本文本的文本属性可能为“温度”、“湿度”、“地震”等，对于金融领域，样本文本的文本属性可能为“基金”、“股票”、“债券”等。

可选的，计算机设备直接将提取到的语义信息作为样本文本的文本属性，或者，基于提取到的语义信息确定对应的属性标识，将属性标识作为样本文本的文本属性。

步骤302，将具有相同文本属性的样本文本相连，生成文本关系网络。

在一种可能的实施方式中，计算机设备对获取到的样本文本进行预处理，构建隐式文本图结构，例如基于最近邻(K-Nearest Neighbor，KNN)算法构建文本关系网络。将得到的文本关系网络记为G＝(V，E)，网络中包含N个节点(即样本文本)v_i∈V，以及边(v_i，v_j)∈E，其中每个节点带有自身的文本属性x_i∈X，其中X表示样本文本。

示意性的，如图4所示，计算机设备将含有相同文本属性的样本文本两两相连(将均包含“腹痛”的样本文本两两相连，并将均包含“头痛”的样本文本两两相连)，构建文本关系网络。

步骤303，基于文本关系网络的网络结构生成邻接矩阵，邻接矩阵是用于表征文本关系网络中节点之间关系的二维数组。

对于本申请实施例中的无向图，即文本关系网络，开发人员可以预先定义一个没有自环的邻接矩阵A∈R^N×N，即如果(v_i，v_j)∈E，则A_ij等于1，否则等于0。例如对于仅包含两个样本文本的文本关系网络，若该两个样本文本之间存在边，则对应的邻接矩阵为

上述邻接矩阵可以被归一化为

所以，文本关系网络的拉普拉斯矩阵可以表示为

步骤304，将邻接矩阵输入文本编码模型，得到目标函数。

本申请实施例中的文本编码模型为生成模型。生成模型的目标是对数据的联合概率分布p(X，Z)进行建模，并通过最大对数似然的方法训练模型，即maxlogp(X)＝maxlog∫p(X，Z)dZ。

在一种可能的实施方式中，步骤304还包括如下步骤。

步骤304a，将邻接矩阵输入文本编码模型，得到目标函数中的先验分布函数，先验分布函数是以目标协方差矩阵为方差的高斯分布函数，目标协方差矩阵为邻接矩阵对应的精度矩阵的逆矩阵。

为了将文本关系网络的网络结构(即样本文本之间的关系)引入到生成模型中，计算机设备在先验分布中加入节点之间的连结信息。具体的，开发人员预先将目标函数中的先验分布定义为如下的高斯分布：

其中，精度矩阵

是协方差矩阵∑的逆矩阵，Z为样本特征向量。

首先假设每个节点的向量表示均为1维，则对协方差矩阵∑进行如下泰勒展开：

基于协方差矩阵的特点，可以得出，节点i和节点j之间的相关性等于其多阶邻接矩阵的权重相加。当节点的向量表示扩展到多维时，上述先验分布可以改写为：

其中，d表示特征向量的维度，

是克罗内克积，τ是一个用于保证计算数值稳定性的正整数。

步骤304b，基于先验分布函数构建目标函数。

计算机设备基于输入模型的邻接矩阵确定先验分布函数，并基于先验分布函数构建目标函数。由于模型训练完毕后，每个数据点的隐变量(即节点的特征向量)可以通过计算后验分布获得，然而计算后验分布和直接最大化似然函数难以计算，因此可以采取变分推断的方法进行训练。可选的，通过引入一个变分分布q(Z∣X)去近似真实的后验分布。

在一种可能的实施方式中，步骤304b还包括如下步骤。

以目标期望为第一函数项，以目标相对熵的相反数为第二函数项，构建目标函数，目标期望为样本文本与样本特征向量的联合概率分布的期望，目标相对熵为后验分布函数与先验分布函数之间的相对熵，后验分布函数为样本特征向量与样本文本之间联合概率分布的变分分布。

示意性的，将上述变分分布假设成各维度相互独立的高斯分布：

其中，N(z_i；μ_i，diag(σ²))为q(z_i∣x_i)，x_i为文本关系网络中的第i个样本文本，Z_i为第i个样本文本的样本特征向量，μ_i为第i个样本文本对应概率分布的期望，σ²为概率分布的方差。

因此，计算机设备构建如下目标函数：

logp(X)≥E_q(Z∣X)[logp(X∣Z)]-KL(q(Z∣X)||p(Z)

其中，p(Z)为先验分布，目标函数中的第一项函数项为logp(X∣Z)的期望，用于约束模型使每一个特征向量都能够重构回样本文本的内容，第二项为先验分布与后验分布之间的相对熵的相反数，用于约束模型使各个特征向量之间的相关性能够模拟文本关系网络的网络结构。

若将近似的后验分布设置为相互独立的形式即

则目标函数展开得到：

利用高斯分布的性质，可以得到H(q(Z∣X))和E_q(Z∣X)[logp(Z)]的显示表达式，最终的目标函数可以展开为：

其中，P为

的简写形式。

可选的，上述目标函数是通过特殊的高斯分布实现对节点关系的引入，除高斯分布以外，其余能够表示数据相关性的分布也可以实现目标函数的构建，本申请实施例对此不作限定。

步骤305，将文本关系网络中的样本文本输入文本编码模型，得到各个样本文本对应的样本特征向量。

目标函数构建完毕后，计算机设备开始进行模型训练。计算机设备将文本关系网络中所有样本文本同时输入文本编码模型，

可选的，本申请实施例中计算机设备在对样本文本进行表示时，采用独热编码(one-hot编码)向量对文本进行表示，此外，还可以利用文本的词频特征(Term Frequency–Inverse Document Frequency，TF-IDF)、词向量如全局向量(Global Vectors，GloVe)，或者，通过预训练模型如长短时记忆网络(Long Short-Term Memory，LSTM)、循环神经网络(Recurrent Neural Network，RNN)、门控循环单元(Gated Recurrent Unit，GRU)等方法对文本进行表示。

步骤306，基于样本特征向量以及目标函数确定模型损失。

步骤307，基于模型损失对文本编码模型进行迭代训练。

步骤305至步骤306的具体实施方式可以参考上述步骤201至步骤203，本申请实施例对此不作限定。

本申请实施例中，基于样本文本的文本属性构建文本关系网络，并基于文本关系网络的邻接矩阵确定目标函数中的先验分布，使得目标函数从文本语义以及网络结构两方面对模型进行约束并训练，提高了文本编码模型的文本编码性能以及模型训练效率。

本申请在链路预测的任务上，利用公开的数据集进行测试。可选的，给定两篇文本，判断该两篇文本之间是否存在连边，以准确率作为模型的评价指标，利用相关技术中的模型以及本申请所提供的文本编码模型进行测试，测试结果如下：

表1

由表1可以看出，由于本申请同时考虑节点本身的语义信息，同时也基于节点与节点之间的连接关系进行建模，因此相比于相关技术中的方法，本申请实施例提供的文本编码模型能够取得良好的表现。

上述各个实施例示出了文本编码模型的训练过程，在一种可能的实施方式中，文本编码模型可以应用于信息检索。图5示出了本申请一个示例性实施例提供的信息检索方法的流程图。本实施例以该方法用于计算机设备为例进行说明，该方法包括如下步骤。

步骤501，响应于文本检索操作，基于文本检索操作获取检索信息。

在一种可能的实施方式中，应用程序具有文本检索功能。用户通过输入检索信息，使计算机设备返回检索结果，该检索结果为检索信息对应的文本。

可选的，应用程序的用户界面中显示有文本检索区域，当接收到文本检索区域内的内容输入操作时，将获取到的输入内容确定为检索信息；或者应用程序能够接收语音信息，用户可以语音输入检索信息。

示意性的，用户在文本检索区域中输入“皮肤过敏应该注意什么”，并触发检索控件，计算机设备则获取到检索信息“皮肤过敏应该注意什么”。

步骤502，将检索信息输入文本编码模型，得到检索信息对应的检索信息特征向量。

其中，文本编码模型是以目标函数为训练目标，基于文本关系网络训练得到的模型，文本关系网络是以文本为节点，以文本之间的关系为边的无向图，目标函数包含第一函数项和第二函数项，第一函数项用于表征样本特征向量对样本文本中语义信息的表示质量，第二函数项用于表征样本特征向量之间的相关性对文本关系网络的模拟质量。具体的模型训练过程可以参考上述实施例。

训练完成后的文本编码模型为一编码器，计算机设备将获取到的检索信息输入该编码器，得到检索信息特征向量。

步骤503，基于检索信息特征向量从文本库中确定目标文本，目标文本是与检索信息之间存在相关性的文本。

计算机设备需要检索与检索信息相关的文本，在一种可能的实施方式中，应用程序对应有文本库，且该文本库中的各个文本均对应有文本特征向量，步骤503包括如下步骤：

步骤503a，获取文本库中各个候选文本的候选文本特征向量，候选文本特征向量是通过将候选文本输入文本编码模型得到的。

在一种可能的实施方式中，计算机设备预先将文本库中的候选文本输入训练完成的文本编码模型，得到各个候选文本的候选文本特征向量。

步骤503b，计算检索信息特征向量与各个候选文本特征向量之间的相似度。

计算机设备通过计算检索信息特征向量与各个候选文本特征向量之间的相似度，通过特征向量之间的相似度，以及候选文本特征向量与候选文本之间的对应关系，筛选出目标文本。

可选的，特征向量之间的相似度采用余弦距离或欧拉距离等距离进行表征。

步骤503c，将相似度大于相似度阈值的候选文本确定为目标文本。

可选的，计算机设备中预先设置有相似度阈值(例如80％)，将相似度大于相似度阈值的候选文本确定为目标文本；或者，计算机设备按照相似度由高到低对候选文本进行排列，将前n个候选文本确定为目标文本，n为正整数。

步骤504，通过检索结果展示界面显示目标文本。

如图6所示，检索结果展示界面601中显示有检索区域602，计算机设备接收到检索区域602的文本检索操作时，获取到检索信息“皮肤过敏应该注意什么”，基于检索信息确定出目标文本603后，在检索结果展示界面601中显示目标文本603。对于计算机设备基于检索信息确定目标文本的过程，示意性的，如图7所示，计算机设备的执行步骤包括：步骤701，获取检索信息：皮肤过敏应该注意什么；步骤702，输出检索信息特征向量；步骤703，计算检索信息特征向量与候选文本特征向量的余弦距离；步骤704，基于余弦距离确定目标文档。

在一种可能的实施方式中，当接收到文本上传操作时，计算机设备基于文本上传操作获取待存储文本，并将待存储文本输入文本编码模型，得到待存储文本对应的特征向量，将待存储文本以及对应的特征向量关联存储至文本库中。

本申请实施例中，在模型应用阶段，利用上述文本编码模型对检索信息进行编码，基于得到的检索信息特征向量查询并显示目标文件，提高了信息检索的效率和准确率。

为了证明本申请提供的文本编码模型在医疗资讯检索场景下的适用性，开发人员利用医疗文本数据进行对比实验。示意性的，对于一篇给定的医疗领域的文章，分别利用相关技术中的几种模型以及本申请实施例提供的文本编码模型进行检索，分别检索1000篇与给定文章最相似的文章，通过计算检索结果中同类别文章的占比，进行模型检索性能测试，测试结果如下：

表2

由表2可以看出，与相关技术中的模型相比，本申请实施例在医疗文章检索场景中取得了更优的效果。

图8是本申请一个示例性实施例提供的文本编码模型的训练装置的结构框图，该装置包括：

第一输入模块801，用于将文本关系网络中的样本文本输入文本编码模型，得到各个样本文本对应的样本特征向量，所述文本关系网络是以所述样本文本为节点，以邻居节点之间的连线为边的无向图，所述邻居节点之间具有相同的文本属性；

第一确定模块802，用于基于所述样本特征向量以及目标函数确定模型损失，所述目标函数包含第一函数项和第二函数项，所述第一函数项用于表征所述样本特征向量对所述样本文本中语义信息的表示质量，所述第二函数项用于表征所述样本特征向量之间的相关性对所述文本关系网络的模拟质量；

训练模块803，用于基于所述模型损失对所述文本编码模型进行迭代训练。

可选的，所述装置还包括：

信息提取模块，用于对所述样本文本进行语义信息提取，得到所述样本文本的所述文本属性；

第一生成模块，用于将具有相同所述文本属性的所述样本文本相连，生成所述文本关系网络；

第二生成模块，用于基于所述文本关系网络的网络结构生成邻接矩阵，所述邻接矩阵是用于表征所述文本关系网络中节点之间关系的二维数组；

第二输入模块，用于将所述邻接矩阵输入所述文本编码模型，得到所述目标函数。

可选的，所述文本编码模型为生成模型；

所述第二输入模块，包括：

输入单元，用于将所述邻接矩阵输入所述文本编码模型，得到所述目标函数中的先验分布函数，所述先验分布函数是以目标协方差矩阵为方差的高斯分布函数，所述目标协方差矩阵为所述邻接矩阵对应的精度矩阵的逆矩阵；

函数构建单元，用于基于所述先验分布函数构建所述目标函数。

可选的，所述函数构建单元，还用于以目标期望为所述第一函数项，以目标相对熵的相反数为所述第二函数项，构建所述目标函数，所述目标期望为所述样本文本与所述样本特征向量的联合概率分布的期望，所述目标相对熵为后验分布函数与所述先验分布函数之间的相对熵，所述后验分布函数为所述样本特征向量与所述样本文本之间联合概率分布的变分分布。

图9是本申请一个示例性实施例提供的信息检索装置的结构框图，该装置包括：

显示模块，用于通过检索结果展示界面显示所述目标文本。

可选的，所述第二确定模块，包括：

获取单元，用于获取所述文本库中各个候选文本的候选文本特征向量，所述候选文本特征向量是通过将所述候选文本输入所述文本编码模型得到的；

计算单元，用于计算所述检索信息特征向量与各个候选文本特征向量之间的相似度；

确定单元，用于将所述相似度大于相似度阈值的所述候选文本确定为所述目标文本。

需要说明的是：上述实施例提供的装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的文本编码模型的训练装置与文本编码模型的训练方法实施例属于同一构思，信息检索装置与信息检索方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图10，其示出了本申请一个示例性实施例提供的计算机设备的结构示意图。具体来讲：所述计算机设备1000包括中央处理单元(Central Processing Unit，CPU)1001、包括随机存取存储器(Random Access Memory，RAM)1002和只读存储器(Read-OnlyMemory，ROM)1003的***存储器1004，以及连接***存储器1004和中央处理单元1001的***总线1005。所述计算机设备1000还包括帮助计算机内的各个器件之间传输信息的基本输入/输出***(Input/Output***，I/O***)1006，和用于存储操作***1013、应用程序1014和其他程序模块1015的大容量存储设备1007。

所述基本输入/输出***1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中所述显示器1008和输入设备1009都通过连接到***总线1005的输入输出控制器1010连接到中央处理单元1001。所述基本输入/输出***1006还可以包括输入输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1007通过连接到***总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。所述大容量存储设备1007及其相关联的计算机可读介质为计算机设备1000提供非易失性存储。也就是说，所述大容量存储设备1007可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory，EEPROM)、闪存或其他固态存储其技术，CD-ROM、数字通用光盘(Digital Versatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的***存储器1004和大容量存储设备1007可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元1001执行，一个或多个程序包含用于实现上述方法的指令，中央处理单元1001执行该一个或多个程序实现上述各个方法实施例提供的方法。

根据本申请的各种实施例，所述计算机设备1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1000可以通过连接在所述***总线1005上的网络接口单元1011连接到网络1012，或者说，也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机***(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本申请实施例提供的方法中由计算机设备所执行的步骤。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如上各个实施例所述的文本编码模型的训练方法，或，信息检索方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面的各种可选实现方式中提供的文本编码模型的训练方法，或，信息检索方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读存储介质中或者作为计算机可读存储介质上的一个或多个指令或代码进行传输。计算机可读存储介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种文本编码模型的训练方法，其特征在于，所述方法包括：

基于所述模型损失对所述文本编码模型进行迭代训练。

2.根据权利要求1所述的方法，其特征在于，所述将文本关系网络中的样本文本输入文本编码模型之前，所述方法包括：

对所述样本文本进行语义信息提取，得到所述样本文本的所述文本属性；

将具有相同所述文本属性的所述样本文本相连，生成所述文本关系网络；

基于所述文本关系网络的网络结构生成邻接矩阵，所述邻接矩阵是用于表征所述文本关系网络中节点之间关系的二维数组；

将所述邻接矩阵输入所述文本编码模型，得到所述目标函数。

3.根据权利要求2所述的方法，其特征在于，所述文本编码模型为生成模型；

所述将所述邻接矩阵输入所述文本编码模型，得到所述目标函数，包括：

将所述邻接矩阵输入所述文本编码模型，得到所述目标函数中的先验分布函数，所述先验分布函数是以目标协方差矩阵为方差的高斯分布函数，所述目标协方差矩阵为所述邻接矩阵对应的精度矩阵的逆矩阵；

基于所述先验分布函数构建所述目标函数。

4.根据权利要求3所述的方法，其特征在于，所述基于所述先验分布函数构建所述目标函数，包括：

以目标期望为所述第一函数项，以目标相对熵的相反数为所述第二函数项，构建所述目标函数，所述目标期望为所述样本文本与所述样本特征向量的联合概率分布的期望，所述目标相对熵为后验分布函数与所述先验分布函数之间的相对熵，所述后验分布函数为所述样本特征向量与所述样本文本之间联合概率分布的变分分布。

5.一种信息检索方法，其特征在于，所述方法包括：

通过检索结果展示界面显示所述目标文本。

6.根据权利要求5所述的方法，其特征在于，所述基于所述检索信息特征向量从文本库中确定目标文本，包括：

获取所述文本库中各个候选文本的候选文本特征向量，所述候选文本特征向量是通过将所述候选文本输入所述文本编码模型得到的；

计算所述检索信息特征向量与各个候选文本特征向量之间的相似度；

将所述相似度大于相似度阈值的所述候选文本确定为所述目标文本。

7.一种文本编码模型的训练装置，其特征在于，所述装置包括：

8.一种信息检索装置，其特征在于，所述装置包括：

第二输入模块，用于将所述检索信息输入文本编码模型，得到所述检索信息对应的检索信息特征向量，所述文本编码模型是以目标函数为训练目标，基于文本关系网络训练得到的模型，所述文本关系网络是以文本为节点，以文本之间的关系为边的无向图，所述目标函数包含第一函数项和第二函数项，所述第一函数项用于表征样本特征向量对所述文本中语义信息的表示质量，所述第二函数项用于表征所述样本特征向量之间的相关性对所述文本关系网络的模拟质量；

显示模块，用于通过检索结果展示界面显示所述目标文本。

9.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器；所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至4任一所述的文本编码模型的训练方法，或，权利要求5或6所述的信息检索方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条计算机程序，所述计算机程序由处理器加载并执行以实现如权利要求1至4任一所述的文本编码模型的训练方法，或，权利要求5或6所述的信息检索方法。