CN112148831B

CN112148831B - 图文混合检索方法、装置、存储介质、计算机设备

Info

Publication number: CN112148831B
Application number: CN202011343386.8A
Authority: CN
Inventors: 熊智; 江琳; 陈科第; 张铨; 王耿鑫; 庞磊; 郭志伟
Original assignee: Guangzhou Huaduo Network Technology Co Ltd
Current assignee: Guangzhou Huaduo Network Technology Co Ltd
Priority date: 2020-11-26
Filing date: 2020-11-26
Publication date: 2021-03-19
Anticipated expiration: 2040-11-26
Also published as: CN112148831A

Abstract

本发明涉及一种图文混合检索方法、装置、存储介质、计算机设备，所述图文混合检索方法包括：获取用户输入的待检索信息，若所述待检索信息中同时包含文本数据和图像数据，则将所述文本数据分词后进行倒排索引查询操作，得到第一候选集；将所述图像数据输入到预先训练好的神经网络模型中，得到与所述图像数据对应的特征向量，对所述特征向量编码处理后进行倒排索引查询操作，得到第二候选集；将所述第一候选集和所述第二候选集中的文档进行合并，统计合并后的文档在所述第一候选集和/或所述第二候选集中的命中次数，根据统计结果对所述合并后的文档进行排序，并将排序结果返回至展示页面；提升了检索准确度的同时，有效降低了***的维护成本。

Description

图文混合检索方法、装置、存储介质、计算机设备

技术领域

本发明涉及信息检索技术领域，尤其涉及一种图文混合检索方法、装置、存储介质、计算机设备。

背景技术

以往的检索***主要包括单模态检索和跨模态检索两种方式，不管是单模态检索还是跨模态检索，其查询数据仅包含一种模态的数据。然而，近年来，随着移动互联网的发展，人们的查询需求也发生了变化，逐渐产生了新的检索需求，混合模态检索就是其中一种。混合模态检索指的是输入检索***查询数据时包含多种模态的数据的检索，例如，在教育领域，输入查询数据时一般会包含一段题目的文本描述和相关的图形图像，此时，检索***需要返回同时与文本描述以及图形图像相似的题目。

现阶段，对于混合模态检索的相关研究和技术相对较少。通常情况下，最直观地做法是对文本和图像建立两套检索模型，对于一个给定的文本图像查询对，将文本和图像分别在其单模态检索***中查询，最后取两者的交集，并返回最终的结果。然而，这种方法存在两个问题：一是对于文本和图像的检索需要分别维护一套索引***，当数据量较大时，维护两套索引***所付出的存储代价和计算代价是非常高的；二是通过文本索引和图像索引检索得到候选图像文本对集合后，很难找到一个排序策略能够综合两套检索结果进行排序，并得到最终的查询结果。

发明内容

本发明的目的旨在至少能解决上述的技术缺陷之一，特别是现有技术中进行混合模态检索时使用多套检索模型分别进行检索，不仅提高了维护成本，还降低了检索准确度的技术缺陷。

本发明提供了一种图文混合检索方法，所述方法包括：

获取用户输入的待检索信息，若所述待检索信息中同时包含文本数据和图像数据，则将所述文本数据分词后进行倒排索引查询操作，得到第一候选集；

将所述图像数据输入到预先训练好的神经网络模型中，得到与所述图像数据对应的特征向量，对所述特征向量编码处理后进行倒排索引查询操作，得到第二候选集；

将所述第一候选集和所述第二候选集中的文档进行合并，统计合并后的文档在所述第一候选集和/或所述第二候选集中的命中次数，根据统计结果对所述合并后的文档进行排序，并将排序结果返回至展示页面。

可选地，将所述文本数据分词后进行倒排索引查询操作，得到第一候选集的步骤，包括：

将所述文本数据进行分词后得到多个词项，根据所述词项构建倒排索引，并在所述倒排索引中进行查询操作，得到与所述文本数据对应的第一候选集；

其中，所述第一候选集包含所述词项在所述倒排索引中查询得到的多个文档。

可选地，对所述特征向量编码处理后进行倒排索引查询操作，得到第二候选集的步骤，包括：

对所述特征向量进行取整操作，得到整型特征向量，将所述整型特征向量映射为文本向量后进行分组编码，得到所述图像数据对应的多个特征编码；

根据所述特征编码构建倒排索引，并在所述倒排索引中进行查询操作，得到与所述图像数据对应的第二候选集；

其中，所述第二候选集包含所述特征编码在所述倒排索引中查询得到的多个文档。

可选地，统计合并后的文档在所述第一候选集和/或所述第二候选集中的命中次数的步骤，包括：

若合并后的文档为所述第一候选集中的文档，则统计所述文档在所述第一候选集中的命中次数；

若合并后的文档为所述第二候选集中的文档，则统计所述文档在所述第二候选集中的命中次数；

若合并后的文档为所述第一候选集和所述第二候选集中的文档，则统计所述文档在所述第一候选集和所述第二候选集中的加权命中次数。

可选地，若合并后的文档为所述第一候选集和所述第二候选集中的文档，则统计所述文档在所述第一候选集和所述第二候选集中的加权命中次数的步骤，包括：

若合并后的文档为所述第一候选集和所述第二候选集中的文档，则统计所述文档在所述第一候选集中的第一命中次数，以及所述文档在所述第二候选集中的第二命中次数；

获取加权因子，并利用所述加权因子对所述第一命中次数和所述第二命中次数进行加权融合，得到加权命中次数。

可选地，所述神经网络模型的训练方法包括：

获取数据库中的样本数据，并将所述样本数据划分为训练集和测试集，其中，所述样本数据包括图像数据及对应的标签类别；

利用所述训练集中的图像数据对神经网络模型进行训练，得到所述图像数据对应的特征向量，根据所述特征向量和所述标签类别调整所述神经网络模型的参数，直到调整后的神经网络模型收敛；

利用所述测试集中的样本数据对收敛后的神经网络模型进行分类效果验证，并调整所述神经网络模型的超参数，直到得到分类效果最优的神经网络模型。

可选地，所述神经网络模型包括卷积层、池化层、全连接层、整型特征层和损失函数；

利用所述训练集中的图像数据对神经网络模型进行训练，得到所述图像数据对应的特征向量的步骤，包括：

将所述训练集中的图像数据依次输入到所述神经网络模型，并通过所述卷积层、所述池化层、所述全连接层以及所述整型特征层对所述图像数据进行特征提取，得到与所述图像数据对应的特征向量。

可选地，所述损失函数包括分类损失函数和取整损失函数；

根据所述特征向量和所述标签类别调整所述神经网络模型的参数，直到调整后的神经网络模型收敛的步骤，包括：

将所述图像数据对应的特征向量以及标签类别输入到所述分类损失函数中，利用所述分类损失函数计算所述特征向量与所述标签类别之间的差值，并根据所述差值调整所述神经网络模型的参数，直到所述神经网络模型训练得到与所述标签类别对应的特征向量；

将所述图像数据对应的特征向量输入到所述取整函数中，利用所述取整函数计算所述特征向量与取整后的特征向量之间的差值，并根据所述差值调整所述神经网络模型的参数，直到所述神经网络模型训练得到在预设差值区间的特征向量。

可选地，所述神经网络模型的超参数为所述分类损失函数和所述取整损失函数加权融合时对应的加权因子。

本发明还提供了一种图文混合检索装置，包括：

第一索引模块，用于获取用户输入的待检索信息，若所述待检索信息中同时包含文本数据和图像数据，则将所述文本数据分词后进行倒排索引查询操作，得到第一候选集；

第二索引模块，用于将所述图像数据输入到预先训练好的神经网络模型中，得到与所述图像数据对应的特征向量，对所述特征向量编码处理后进行倒排索引查询操作，得到第二候选集；

综合排序模块，用于将所述第一候选集和所述第二候选集中的文档进行合并，统计合并后的文档在所述第一候选集和/或所述第二候选集中的命中次数，根据统计结果对所述合并后的文档进行排序，并将排序结果返回至展示页面。

本发明还提供了一种存储介质，所述存储介质中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如上述实施例中任一项所述图文混合检索方法的步骤。

本发明还提供了一种计算机设备，所述计算机设备中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如上述实施例中任一项所述图文混合检索方法的步骤。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明涉及一种图文混合检索方法、装置、存储介质、计算机设备，所述图文混合检索方法包括：获取用户输入的待检索信息，若所述待检索信息中同时包含文本数据和图像数据，则将所述文本数据分词后进行倒排索引查询操作，得到第一候选集；将所述图像数据输入到预先训练好的神经网络模型中，得到与所述图像数据对应的特征向量，对所述特征向量编码处理后进行倒排索引查询操作，得到第二候选集；将所述第一候选集和所述第二候选集中的文档进行合并，统计合并后的文档在所述第一候选集和/或所述第二候选集中的命中次数，根据统计结果对所述合并后的文档进行排序，并将排序结果返回至展示页面；本发明提出的基于深度学习的图文混合检索方法，在检索的过程中既考虑了文本数据，又考虑了图像数据，使得同时包含图像数据和文本数据的查询准确度得到提升；并且，本发明还兼容了文本对文本的查询以及图像对图像的查询，使得整个图像文本混合检索***仅需维护一套倒排索引结果，就能够实现对图像和文本的混合检索，有效降低了***的维护成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的第一应用环境示意图；

图2为本发明实施例提供的一种图文混合检索方法的流程示意图；

图3为本发明实施例提供的倒排索引结构示意图；

图4为本发明实施例提供的第二应用环境示意图；

图5为本发明实施例提供的一种模型训练方法的流程示意图；

图6为本发明实施例提供的卷积神经网络的结构示意图；

图7为本发明实施例提供的一种图文混合检索装置的结构示意图；

图8为本发明实施例提供的一种计算机设备的内部结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语（包括技术术语和科学术语），具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像本申请实施例中一样被特定定义，否则不会用理想化或过于正式的含义来解释。

在对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，并简单阐述本发明的相关技术背景，具体阐述如下：

以往的检索***主要包括单模态检索和跨模态检索两种方式，其中，单模态检索指的是模态内的检索；例如，对于文本模态，输入一段查询文字，检索***返回包含查询文本的网页；对于图片模态，给定一张查询图像，检索***返回和查询图像相似的图像。跨模态检索指的是模态间的检索；例如，给定一段查询文本，检索***返回这段文本所描述的图像。不管是单模态检索还是跨模态检索，其查询中的数据仅包含一种模态的数据。

然而，近年来，随着移动互联网的发展，人们的查询需求也发生了变化，逐渐产生了新的检索需求，混合模态检索就是其中一种。混合模态检索指的是输入检索***查询数据时包含多种模态的数据的检索，例如，在教育领域，输入查询数据时一般会包含一段题目的文本描述和相关的图形图像，此时，检索***需要返回同时与文本描述以及图形图像相似的题目。

因此，本发明为了解决现有技术中进行混合模态检索时使用多套检索模型分别进行检索，不仅提高了维护成本，还降低了检索准确度的技术缺陷，提出了以下解决方案。

示意性地，参见图1，图1是本发明实施例提供的第一应用环境示意图；本申请的技术方案可以基于服务器110上实现，如图1中，服务器110响应客户端120中的查询请求，并获取用户输入的待检索信息，以实现相关功能；在本申请实施例中，服务器110中部署有预先训练好的神经网络模型，当服务器110获取用户在客户端120中输入的待检索信息后，需要将待检索信息中的文本数据分词后进行倒排索引查询操作，得到第一候选集；然后将待检索信息中的图像数据输入到神经网络模型中，得到与该图像数据对应的特征向量，利用对特征向量编码处理后进行倒排索引查询操作，得到第二候选集；最后将第一候选集和第二候选集中的文档进行合并后排序，并将排序结果返回至客户端120中的展示页面，从而实现图文混合检索的功能。

需要说明的是，这里的客户端120包括智能手机、平板电脑、电子阅读器、台式电脑或笔记本电脑等，对此并不做限定；本实施例中的客户端120为具有检索功能的产品，该产品可以是检索题目信息的教育方向矩阵产品，如Quesgo。

下面将通过多个实施例来对本申请中的图文混合检索方法进行详细的阐述，具体见下文。

在一个实施例中，如图2所示，图2为本发明实施例提供的一种图文混合检索方法的流程示意图；本发明还提供了一种图文混合检索方法，具体包括如下：

S110：获取用户输入的待检索信息，若所述待检索信息中同时包含文本数据和图像数据，则将所述文本数据分词后进行倒排索引查询操作，得到第一候选集。

本步骤中，在客户端120根据用户输入的待检索信息向服务器110请求查询服务之前，需要在客户端120的后端服务中构建该查询服务，当构建好查询服务后，该查询服务可接收用户的查询请求，并将该查询请求发送至服务器110，以便服务器110根据该查询请求获取用户输入的待检索信息。

可以理解的是，这里的待检索信息包括但不限于文本对、图像对，以及文本图像对，因此，在服务器110获取到该查询请求对应的待检索信息后，需要判断当前接收到的待检索信息包含哪些信息，并针对不同的信息采取不同的处理方式。

例如，当接收到的待检索信息同时包含文本数据和图像数据，即文本图像对时，可在当前的混合检索***中使用一套检索模型来对该文本图像对进行检索。

具体地，该检索模型对文本数据进行检索时，可将该文本数据进行分词，然后对分词后的文本数据使用倒排索引的方式进行查询操作，得到与分词后的文本数据对应的多个文档，将多个文档集合后即可得到第一候选集。

需要说明的是，这里的混合检索***在对文本数据和/或图像数据进行检索之前，需要预先构建一套图文混合的倒排索引结构，该倒排索引结构包括词项和倒排记录表两部分，其中词项部分可以通过事先收集到的网页库中的数据得到，倒排记录表中记录有通过倒排索引结构在数据库中对各个词项进行查询后得到的与各个词项对应的多个文档。

另外，这里的倒排索引结构中的词项和倒排记录表可根据收集到的网页库中的数据进行实时更新，以便提升其检索能力。

下面通过一组示例来进行说明，示意性地，如图3所示，图3为本发明实施例提供的倒排索引结构示意图，图3中，对文本数据进行分词后的词项包括苹果树、开花、有、上、这里、梨树，利用构建好的倒排索引结构进行倒排索引查询操作后，得到的倒排记录表中包括与各个词项对应的文档1，文档2和文档3，其中，文档1表示苹果树开花了，文档2表示苹果树上有苹果，文档3表示这里有苹果树和梨树，将文档1、文档2和文档3组合后即可得到第一候选集。

S120：将所述图像数据输入到神经网络模型中，得到与所述图像数据对应的特征向量，对所述特征向量编码处理后进行倒排索引查询操作，得到第二候选集；其中，所述神经网络模型基于上述实施例中任一项所述模型训练方法训练得到。

本步骤中，当通过步骤S110判断出待检索信息中同时包含文本数据和图像数据时，可分别对文本数据和图像数据进行相应的处理。例如，在对文本数据进行分词并通过倒排索引查询操作后得到第一候选集的同时，可将图像数据输入到神经网络模型中，以便通过神经网络模型提取图像数据中的特征向量，并将该特征向量进行相应的处理后实现倒排索引查询操作，以得到第二候选集。

具体地，由于本申请使用的索引方式为倒排索引，因此，在进行倒排索引前，需要将检索信息分为多个关键词，其中各个关键词与提前构建好的倒排索引结构中的词项相关联后，利用倒排索引结构在数据库中查找与之相关的文档。另外，由于图像数据与文本数据的类型不同，无法对图像数据直接分词后进行倒排索引查询操作，因而，可通过神经网络模型提取图像数据的特征向量，并对该特征向量进行取整操作以及编码处理等，以使其实现如文本数据一般的分词操作。

其中，将图像数据输入到神经网络模型后，可通过神经网络模型的多层网络提取图像数据的特征信息，并得到对应的特征向量。特别地，由于该神经网络模型中的最后一层输出为整型特征层，且神经网络模型在前期训练过程中，通过分类损失函数以及取整损失函数共同调整神经网络模型的参数，使得神经网络模型通过训练后能够保留图像类别信息的整型特征向量。

但是，本申请中通过神经网络模型得到的图像数据的特征向量，即使通过模型训练后趋近于整型特征向量，但为了方便对图像数据进行倒排索引查询操作，在倒排索引之前，还可以继续对神经网络模型输出的特征向量进行取整操作，以使其成为真正意义上的整型特征向量，且该整型特征向量能够在一定程度上保留其语义信息。

随后，对得到的整型特征向量进行字符编码。例如，图像数据经取整操作后得到的向量为[-1，3，3，4]，由于损失函数的设置，特征向量的每一维数值取值范围在-α到α之间（1<=α<=17），在进行编码时，按顺序依次将数值转换为与之对应的字母，实现字符编码操作。

以α取值17为例，字符“a”对应数值“-17”，字符“b”对应数值“-16”，以此类推，将整型特征向量映射为文本向量后，按步长为k进行分组编码，并在每一组编码前加上标记符“#”，随后，利用已有的倒排索引结构构建与图像数据对应的倒排索引。

需要说明的是，这里的α为一个超参数，可根据具体情况设定具体的数值；并且，这里的α的最大值取17，是因为当α等于17时，特征向量的每一维的取值范围在-17到17之间，一共可能的取值有25个，正好可以使用26个英文字母来一一对应。

这里的步长k的选择是人为设定的，可设定任意长度；标记符“#”用于区分该词项是来自于图像的特征编码，而非来自于文本模态的词项，且该标记符可以替换为其他形式的符号。

接着，根据构建好的倒排索引对编码处理后得到的与图像数据对应的多个词项进行倒排索引查询操作，得到与特征编码后的图像数据对应的多个文档，将多个文档集合后即可得到第二候选集。

S130：将所述第一候选集和所述第二候选集中的文档进行合并，统计合并后的文档在所述第一候选集和/或所述第二候选集中的命中次数，根据统计结果对所述合并后的文档进行排序，并将排序结果返回至展示页面。

本步骤中，通过步骤S110和步骤S120得到第一候选集与第二候选集后，可将两个候选集中的文档进行合并，以便统一进行排序。

具体地，进行排序之前，还需要统计合并后的文档在第一候选集和/或第二候选集中的命中次数。例如，若合并后的文档为第一候选集中的文档，则直接统计该文档在第一候选集中的命中次数；若合并后的文档为第二候选集中的文档，则统计该文档在第二候选集中的命中次数；若合并后的文档为第一候选集和第二候选集中的文档，则统计该文档在第一候选集和第二候选集中的加权命中次数。

可以理解的是，这里的命中次数指的是同一个文档在第一候选集或第二候选集中出现的次数；这里的加权命中次数指的是同一个文档分别在第一候选集和第二候选集中出现的次数的加权和。

需要说明的是，这里的加权命中次数中的加权因子为超参数，是手工设定的参数，可以根据检索效果的好坏人工调整，加权因子的数值越大，表示***越重视图像的匹配，越小就表示***越重视文本的匹配；并且，加权因子的设定，可根据具体的应用场景人工手动调节。

如图2所示，当统计好合并后的文档在第一候选集和/或第二候选集中的命中次数后，可根据统计结果对多个文档进行排序，并将排序结果返回至展示页面。

可以理解的是，用户在输入待检索信息后，为了得到与该待检索信息相匹配的文档信息，需要对第一候选集和第二候选集中的文档进行合并后排序，以便在展示页面为用户提供更为有效的检索结果，提高用户体验。

上述实施例中提出的基于深度学习的图文混合检索方法，在检索的过程中既考虑了文本数据，又考虑了图像数据，使得同时包含图像数据和文本数据的查询准确度得到提升；并且，本发明还兼容了文本对文本的查询以及图像对图像的查询，使得整个图像文本混合检索***仅需维护一套倒排索引结果，就能够实现对图像和文本的混合检索，有效降低了***的维护成本。

在一个实施例中，步骤S110中将所述文本数据分词后进行倒排索引查询操作，得到第一候选集的步骤，可以包括：

S111：将所述文本数据进行分词后得到多个词项，根据所述词项构建倒排索引，并在所述倒排索引中进行查询操作，得到与所述文本数据对应的第一候选集；

S112：其中，所述第一候选集包含所述词项在所述倒排索引中查询得到的多个文档。

本实施例中，如图3所示，倒排索引结构可分为词项和倒排记录表两部分，其中，文本数据的词项可通过对文本进行分词得到。例如，对于文本“如图所示，等边三角形的三个角都相等”，进行分词后，可以得到一个词项列表：“如图”、“所示”、“等边三角形”、“的”、“三个”、“角”、“都”、“相等”，通过该词表进行倒排索引的构建，并通过构建好的倒排索引在数据库中进行查询操作，得到对应的第一倒排记录表。

其中，第一倒排记录表中记录有各个词项在数据库中进行倒排索引查询后得到的多个文档，将多个文档集合后，即可得到文本数据的第一候选集。

在一个实施例中，步骤S120中对所述特征向量编码处理后进行倒排索引查询操作，得到第二候选集的步骤，可以包括：

S121：对所述特征向量进行取整操作，得到整型特征向量，将所述整型特征向量映射为文本向量后进行分组编码，得到所述图像数据对应的多个特征编码；

S122：根据所述特征编码构建倒排索引，并在所述倒排索引中进行查询操作，得到与所述图像数据对应的第二候选集；

S123：其中，所述第二候选集包含所述特征编码在所述倒排索引中查询得到的多个文档。

本实施例中，将图像数据输入到神经网络模型后，可通过神经网络模型的多层网络提取图像数据的特征信息，并得到对应的特征向量。特别地，由于该神经网络模型中的最后一层输出为整型特征层，且神经网络模型在前期训练过程中，通过分类损失函数以及取整损失函数共同调整神经网络模型的参数，使得神经网络模型通过训练后能够保留图像类别信息的整型特征向量。

但是，本申请中通过神经网络模型得到的图像数据的特征向量，即使通过模型训练后趋近于整型特征向量，但为了方便对图像数据进行倒排索引查询操作，在利用预先构建的倒排索引结构构建与图像数据对应的倒排索引之前，还可以继续对神经网络模型输出的特征向量进行取整操作，以使其成为真正意义上的整型特征向量，且该整型特征向量能够在一定程度上保留其语义信息。

具体地，该取整操作可通过

取整函数进行。例如，对图像数据x进行特征提取后得到的特征向量为[1.10，-2.01，3.07，4.09，2.09，9.07]，进行

操作后，设超参数α=10，得到的整型特征向量为[1，-2，3，4，2，9]。

得到整型特征向量后，可将该整型特征向量转换为文本向量。继续上述示例说明，由于超参数α=10，那么从数字到字符的映射关系为：-10对应字符“a”，-9对应字符“b”，-8对应字符“c”，以此类推，得到的字符向量为[l，i，n，o，m，t]。

得到字符向量后，可对其进行分组编码，如对其进行步长为2的切块操作，得到的分组为：[“li”，“no”，“mt”]，添加上标记符“#”之后，得到的分块码为：“#li”、“#no”和“#mt”。

接下来，通过分块码来构建倒排索引，并通过构建好的倒排索引在数据库中进行查询操作，找到每一个分块码所对应的第二倒排记录表，并根据第二倒排记录表中的多个文档生成第二候选集。

在一个实施例中，步骤S130中统计合并后的文档在所述第一候选集和/或所述第二候选集中的命中次数的步骤，可以包括：

S131：若合并后的文档为所述第一候选集中的文档，则统计所述文档在所述第一候选集中的命中次数；

S132：若合并后的文档为所述第二候选集中的文档，则统计所述文档在所述第二候选集中的命中次数；

S133：若合并后的文档为所述第一候选集和所述第二候选集中的文档，则统计所述文档在所述第一候选集和所述第二候选集中的加权命中次数。

本实施例中，进行排序之前，还需要统计合并后的文档在第一候选集和/或第二候选集中的命中次数。

例如，若合并后的文档为第一候选集中的文档，则直接统计该文档在第一候选集中的命中次数；若合并后的文档为第二候选集中的文档，则统计该文档在第二候选集中的命中次数；若合并后的文档为第一候选集和第二候选集中的文档，则统计该文档在第一候选集和第二候选集中的加权命中次数。

这样则可以根据所有文档的命中次数对文档进行排序，将命中次数高的文档排序靠前，命中次数低的文档排序靠后，以便用户能够直观地看到相关度较高的检索结果。

在一个实施例中，步骤S133中若合并后的文档为所述第一候选集和所述第二候选集中的文档，则统计所述文档在所述第一候选集和所述第二候选集中的加权命中次数的步骤，包括：

S331：若合并后的文档为所述第一候选集和所述第二候选集中的文档，则统计所述文档在所述第一候选集中的第一命中次数，以及所述文档在所述第二候选集中的第二命中次数；

S332：获取加权因子，并利用所述加权因子对所述第一命中次数和所述第二命中次数进行加权融合，得到加权命中次数。

本实施例中，若合并后的文档为第一候选集和第二候选集中的文档，则分别统计该文档在第一候选集中的第一命中次数，以及第二候选集中的第二命中次数，然后利用加权因子对第一命中次数和第二命中次数进行加权融合，得到加权命中次数。

具体地，若合并后的文档为第一候选集和第二候选集中的文档，则统计第一候选集

中该文档对应的第一命中次数

，以及第二候选集

中该文档对应的第二命中次数

，然后获取当前人工设定的加权因子

，计算第一候选集

和第二候选集

中交集的文档对应的加权命中次数

，即可得到该文档对应的最终的加权命中次数。

可以理解的是，这里的加权命中次数中的加权因子

为超参数，是手工设定的参数，可以根据检索效果的好坏人工调整，

的数值越大，表示***越重视图像的匹配，

越小就表示***越重视文本的匹配；并且，加权因子的设定，可根据具体的应用场景人工手动调节。

下面将结合具体实施例来说明神经网络模型的具体训练过程，在此之前，示意性地，参见图4，图4是本发明实施例提供的第二应用环境示意图；本申请的技术方案可以基于服务器110上实现，如图1中，服务器110获取数据库111中的样本数据，并将该样本数据划分为训练集和测试集，以便将训练集和测试集中的样本数据分别输入至模型训练单元112中，以实现相关功能；在本申请实施例中，服务器110中通过模型训练单元112部署有待训练的神经网络模型，当需要对该神经网络模型进行训练时，服务器110获取数据库111中的样本数据，并将该样本数据划分为训练集和测试集后，在模型训练单元112中利用训练集中的图像数据对神经网络模型进行训练，并调整神经网络模型的参数，直到调整后的神经网络模型收敛；然后再利用测试集中的样本数据对收敛后的神经网络模型进行分类效果验证，并调整神经网络模型的超参数，直到得到分类效果最优的神经网络模型，从而根据该训练好的神经网络模型实现图像数据的特征提取以及分类预测功能。

这里的服务器110指的是能够进行数据处理和模型训练的服务器，可以用独立服务器或多个服务器组成的服务器集群来实现；这里的数据库111指的是能够存储海量数据信息的软件，该数据信息可以是题库内的题目信息，也可以是其他形式的存储信息。

在一个实施例中，如图5所示，图5为本发明实施例提供的一种模型训练方法的流程示意图，本发明实施例提供了一种神经网络模型的训练方法，具体包括如下：

S210：获取数据库中的样本数据，并将所述样本数据划分为训练集和测试集，其中，所述样本数据包括图像数据及对应的标签类别。

本发明中的混合模态检索主要依赖于单一的检索模型，该检索模型可以同时检索文本图像对，也可以单独检索文本对或图像对，因此，在进行检索前，需要提前将检索模型中用到的相关模型进行训练，以便检索使用。

本步骤中，在对模型进行训练时，可基于服务器110来实现，如图4所示，服务器110可获取数据库111中存储的样本数据，利用该样本数据来对模型训练单元112中部署的相关模型进行训练；其中，数据库111可以部署在服务器110中，以便服务器110对数据进行收集和处理。

具体地，当使用样本数据对相关模型进行训练之前，如对卷积神经网络进行训练，可预先对从数据库111中获取的样本数据进行预处理，然后再输入到卷积神经网络中进行训练。

该预处理过程可以包括对样本数据进行划分，如按照一定比例划分为训练集、测试集，或按照一定比例划分为训练集、验证集和测试集；其中，训练集用于模型拟合的数据样本；验证集是模型训练过程中单独留出的样本集，它可以用于调整模型的超参数和用于对模型的能力进行初步评估；测试集用于评估最终模型的泛化能力。训练集、验证集和测试集的比例划分可以人为设定，但需要保证训练集中的样本足够，能够通过模型训练学习得到效果较好的特征数据。

对于本申请而言，可以将数据库111中获取到的样本数据划分为训练集和测试集，该测试集的功能包含验证集中调整模型超参数的能力，也同样具有评估最终模型的泛化能力。

另外，需要说明的是，这里的样本数据包括图像数据及对应的标签类别，这样，利用该样本数据进行模型训练时，训练模型即可学习并保存与该图像数据的标签类别对应的特征信息。

S220：利用所述训练集中的图像数据对神经网络模型进行训练，得到所述图像数据对应的特征向量，根据所述特征向量和所述标签类别调整所述神经网络模型的参数，直到调整后的神经网络模型收敛。

本步骤中，通过步骤S210对数据库111中获取到的样本数据划分为训练集和测试集后，可先将该训练集中的样本数据输入到相应的模型中进行训练，如训练的模型为卷积神经网络时，可将该样本数据输入到卷积神经网络中，以便通过样本数据对卷积神经网络中的各层网络进行训练。

举例来说，卷积神经网络（CNN）是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。典型的卷积神经网络由3部分构成：卷积层、池化层、全连接层。其中，卷积层负责提取图像中的局部特征；池化层用来大幅降低参数量级(降维)；全连接层类似传统神经网络的部分，用来输出想要的结果。

但是，典型的CNN并非只是上面提到的3层结构，而是多层结构，如图6所示，图6为本发明实施例提供的卷积神经网络的结构示意图；图6中的卷积神经网络中的多层结构为：卷积层-池化层-卷积层-池化层……全连接层-整型特征层，其中，整型特征层为最后一层全连接层，也是激活层，其激活函数如下：

其中，

为全连接层的输出，

为双曲正切函数，

是一个大于零的超参数，用来控制输出数值的范围，并且，由于

函数输出的数据取值范围在

之间，超参数

使其输出的取值范围变为

。

利用卷积神经网络的各层网络对图像数据进行特征提取得到对应的特征向量后，可根据该图像数据的特征向量以及对应的标签类别调整神经网络模型的参数，直到调整后的神经网络模型收敛为止。

例如，当利用卷积神经网络计算训练样本的输出后，可使用损失函数，来度量训练样本计算出的输出和真实的训练样本对应的标签类别之间的损失。

具体地，可通过反向传播算法来更新卷积神经网络中的参数，直到模型收敛为止。其中的反向传播算法可以通过对损失函数使用梯度下降法进行迭代优化求极小值，找到合适的隐藏层和全连接层对应的线性系数矩阵和偏倚向量，让所有的训练样本输入计算出的输出尽可能地等于或接近样本数据的标签类别。

另外，由于卷积神经网络对图像数据进行特征识别后输出的是实数值特征向量，而本申请中为了能够更好地进行混合检索，需要使用整型特征向量。因此，在使用损失函数来度量训练样本计算出的输出和真实的训练样本对应的标签类别之间的损失时，可分别使用两组损失函数，如一组为分类损失函数，另一组为取整损失函数，这样模型经过训练后，即可为图像提取图像特征并将其映射为能够保留图像类别信息的整型特征向量。

例如，在训练的过程中，图像数据输入到卷积神经网络中，整个网络的训练方式是对图像进行分类任务，并且，在计算损失函数的时候，同时计算了取整损失和分类损失，这样，经过模型训练的过程中，即可通过反向传播算法调整卷积神经网络模型的参数，直到调整后的卷积神经网络能够保留图像类别信息的整型特征向量。

当然，这里得到的整型特征向量只是无限趋近于离散数值的特征向量，并非完全的整型特征向量；并且，神经网络模型的结构不仅仅局限于有卷积层、池化层、全连接层组成的网络结构，任何能够为图像生成特征向量的神经网络模型都可以用于本发明中，以用于为图像生成特征向量。

S230：利用所述测试集中的样本数据对收敛后的神经网络模型进行分类效果验证，并调整所述神经网络模型的超参数，直到得到分类效果最优的神经网络模型。

本步骤中，当通过步骤S220中利用训练集中的图像数据对神经网络模型进行训练，得到图像数据对应的特征向量，然后根据特征向量和图像数据的标签类别调整神经网络模型的参数，直到调整后的神经网络模型收敛后，可继续利用测试集中的样本数据对收敛后的神经网络模型进行分类效果验证，并调整神经网络模型的超参数，直到得到分类效果最优的神经网络模型。

举例来说，本申请在使用损失函数来度量训练样本计算出的输出和真实的训练样本对应的标签类别之间的损失时，可分别使用两组损失函数，如一组为分类损失函数，另一组为取整损失函数，这样模型经过训练后，即可为图像提取图像特征并将其映射为能够保留图像类别信息的整型特征向量。

但是，由于损失函数中存在一些超参数，这些超参数是人为设定的，它们的数值会影响网络训练的效果。因此，为了使神经网络模型的分类效果达到最优，每当手工选定一组超参数时，可利用该超参数训练神经网络模型，并在网络迭代结束之后，用测试集中的样本数据来评价此次手工选取的超参数的好坏，然后不断调整手工选取的超参数，继续训练网络，直到某一次训练完之后，在测试集上的效果最好，此时的超参数以及网络中的参数就是我们最终需要的神经网络模型中的超参数和参数。

上述实施例中，利用数据库中已有的图像数据对神经网络模型进行训练，并且，在训练之前将图像数据划分为训练集和测试集，以便神经网络模型通过训练集中的数据来学习能够保存其语义信息的特征向量，然后利用测试集中的样本数据在神经网络模型中进行类别预测，判断此时网络分类的准确率，并不断调整神经网络模型中的超参数，保存最优时的神经网络模型以及相关超参数，以便后续使用。

在一个实施例中，所述神经网络模型可以包括卷积层、池化层、全连接层、整型特征层和损失函数；步骤S220中利用所述训练集中的图像数据对神经网络模型进行训练，得到所述图像数据对应的特征向量的步骤，包括：

本实施例中，如图6所示，图6中的卷积神经网络中的多层结构为：卷积层-池化层-卷积层-池化层……全连接层-整型特征层，其中，整型特征层为最后一层全连接层，也是激活层。

在将训练集中的图像数据输入到卷积神经网络中后，卷积层通过卷积核的过滤提取出图像数据中局部的特征，池化层相比卷积层可以更有效的降低数据维度，这么做不但可以大大减少运算量，还可以有效的避免过拟合，经过卷积层和池化层处理过的数据输入到全连接层，得到最终的特征向量。

在一个实施例中，所述损失函数可以包括分类损失函数和取整损失函数；

步骤S220中根据所述特征向量和所述标签类别调整所述神经网络模型的参数，直到调整后的神经网络模型收敛的步骤，包括：

S221：将所述图像数据对应的特征向量以及标签类别输入到所述分类损失函数中，利用所述分类损失函数计算所述特征向量与所述标签类别之间的差值，并根据所述差值调整所述神经网络模型的参数，直到所述神经网络模型训练得到与所述标签类别对应的特征向量；

S222：将所述图像数据对应的特征向量输入到所述取整函数中，利用所述取整函数计算所述特征向量与取整后的特征向量之间的差值，并根据所述差值调整所述神经网络模型的参数，直到所述神经网络模型训练得到在预设差值区间的特征向量。

本实施例中，在模型训练时，图像数据输入到卷积神经网络中，整个网络的训练方式是对图像进行分类任务，并且，在计算损失函数的时候，由于损失函数包括分类损失函数和取整损失函数，因而同时计算了取整损失和分类损失。这样，经过模型训练的过程中，即可通过反向传播算法调整卷积神经网络模型的参数，直到调整后的卷积神经网络能够保留图像类别信息的整型特征向量。

具体地，计算分类损失函数后，可以使得网络在训练的过程中为图像生成能够保存其标签类别的特征向量，分类损失函数的表达式可以表示如下：

其中，

为分类损失函数，

为神经网络模型输入的第

个图像数据生成的特征向量，

为第

个类别的预测矩阵，

为第

个类别的标签，

为图像数据的总量，

为标签类别的总量，

为监督向量，如果第

张图像数据属于第

类别，那么

，否则

。

接着，计算取整损失函数后，可以使得网络为图像数据生成的特征向量的数值趋近为整型数值，以便后续倒排索引的构建，取整损失函数的表达式可以表示如下：

其中，

为取整损失函数，

为神经网络模型输入的第

个图像数据生成的特征向量，

为取整函数，

为

的范数，通过取整损失函数参与训练，网络将为图像学习到近似整型数值的特征向量。

另外，在计算完分类损失和取整损失后，还需要对两者进行加权，加权后总的损失函数公式如下：

其中，

为超参数，需要通过测试集中的样本数据来评价此次手工选取的超参数的好坏，然后不断调整手工选取的超参数，继续训练网络，直到某一次训练完之后，在测试集上的效果最好，此时的超参数就是我们最终需要的神经网络模型中的超参数。

在一个实施例中，所述神经网络模型的超参数为所述分类损失函数和所述取整损失函数加权融合时对应的加权因子。

在一个实施例中，如图7所示，图7为本发明实施例提供的一种图文混合检索装置的结构示意图；图7中，本发明还提供了一种图文混合检索装置，包括第一索引模块210、第二索引模块220、综合排序模块230，具体步骤如下：

第一索引模块210，用于获取用户输入的待检索信息，若所述待检索信息中同时包含文本数据和图像数据，则将所述文本数据分词后进行倒排索引查询操作，得到第一候选集；

第二索引模块220，用于将所述图像数据输入到预先训练好的神经网络模型中，得到与所述图像数据对应的特征向量，对所述特征向量编码处理后进行倒排索引查询操作，得到第二候选集；

综合排序模块230，用于将所述第一候选集和所述第二候选集中的文档进行合并，统计合并后的文档在所述第一候选集和/或所述第二候选集中的命中次数，根据统计结果对所述合并后的文档进行排序，并将排序结果返回至展示页面。

上述实施例中提出的基于深度学习的图文混合检索装置，在检索的过程中既考虑了文本数据，又考虑了图像数据，使得同时包含图像数据和文本数据的查询准确度得到提升；并且，本发明还兼容了文本对文本的查询以及图像对图像的查询，使得整个图像文本混合检索***仅需维护一套倒排索引结果，就能够实现对图像和文本的混合检索，有效降低了***的维护成本。

关于图文混合检索装置的具体限定可以参见上文中对于图文混合检索方法的限定，在此不再赘述。上述图文混合检索装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于终端设备中的处理器中，也可以以软件形式存储于终端设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，本发明还提供了一种存储介质，所述存储介质中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如上述实施例中任一项所述图文混合检索方法的步骤。

在一个实施例中，本发明还提供了一种计算机设备，所述计算机设备中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如上述实施例中任一项所述图文混合检索方法的步骤。

示意性地，如图8所示，图8为本发明实施例提供的一种计算机设备的内部结构示意图，该计算机设备300可以被提供为一服务器。参照图8，计算机设备300包括处理组件302，其进一步包括一个或多个处理器，以及由存储器301所代表的存储器资源，用于存储可由处理组件302的执行的指令，例如应用程序。存储器301中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件302被配置为执行指令，以执行上述任意实施例的图文混合检索方法。

计算机设备300还可以包括一个电源组件303被配置为执行计算机设备300的电源管理，一个有线或无线网络接口304被配置为将计算机设备300连接到网络，和一个输入输出（I/O）接口305。计算机设备300可以操作基于存储在存储器301的操作***，例如WindowsServer TM、Mac OS XTM、Unix TM、Linux TM、Free BSDTM或类似。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图文混合检索方法，其特征在于，所述方法包括：

获取用户输入的待检索信息，若所述待检索信息中同时包含文本数据和图像数据，则将所述文本数据分词后通过预先构建的倒排索引结构进行倒排索引查询操作，得到第一候选集；

其中，所述倒排索引结构包括词项和倒排记录表，所述词项通过事先收集到的网页库中的数据得到，所述倒排记录表中记录有通过所述倒排索引结构在数据库中对各个词项进行查询后得到的与各个词项对应的多个文档；

将所述图像数据输入到预先训练好的神经网络模型中，得到与所述图像数据对应的特征向量，对所述特征向量编码处理后得到对应的词项，通过所述倒排索引结构对所述词项进行倒排索引查询操作，得到第二候选集；

将所述第一候选集和所述第二候选集中的文档进行合并，统计合并后的文档在所述第一候选集或所述第二候选集中的命中次数，以及在所述第一候选集和所述第二候选集中的加权命中次数，根据统计结果对所述合并后的文档进行排序，并将排序结果返回至展示页面；

其中，所述加权命中次数中加权因子的设定是根据具体的应用场景人工手动调节得到的。

2.根据权利要求1所述的图文混合检索方法，其特征在于，将所述文本数据分词后通过预先构建的倒排索引结构进行倒排索引查询操作，得到第一候选集的步骤，包括：

3.根据权利要求1所述的图文混合检索方法，其特征在于，对所述特征向量编码处理后得到对应的词项，通过所述倒排索引结构对所述词项进行倒排索引查询操作，得到第二候选集的步骤，包括：

4.根据权利要求1所述的图文混合检索方法，其特征在于，统计合并后的文档在所述第一候选集或所述第二候选集中的命中次数，以及在所述第一候选集和所述第二候选集中的加权命中次数的步骤，包括：

5.根据权利要求4所述的图文混合检索方法，其特征在于，若合并后的文档为所述第一候选集和所述第二候选集中的文档，则统计所述文档在所述第一候选集和所述第二候选集中的加权命中次数的步骤，包括：

6.根据权利要求1所述的图文混合检索方法，其特征在于，所述神经网络模型的训练方法包括：

7.根据权利要求6所述的图文混合检索方法，其特征在于，所述神经网络模型包括卷积层、池化层、全连接层、整型特征层和损失函数；

8.根据权利要求7所述的图文混合检索方法，其特征在于，所述损失函数包括分类损失函数和取整损失函数；

将所述图像数据对应的特征向量输入到所述取整损失函数中，利用所述取整损失函数计算所述特征向量与取整后的特征向量之间的差值，并根据所述差值调整所述神经网络模型的参数，直到所述神经网络模型训练得到在预设差值区间的特征向量。

9.根据权利要求8所述的图文混合检索方法，其特征在于，所述神经网络模型的超参数为所述分类损失函数和所述取整损失函数加权融合时对应的加权因子。

10.一种图文混合检索装置，其特征在于，包括：

第一索引模块，用于获取用户输入的待检索信息，若所述待检索信息中同时包含文本数据和图像数据，则将所述文本数据分词后通过预先构建的倒排索引结构进行倒排索引查询操作，得到第一候选集；

第二索引模块，用于将所述图像数据输入到预先训练好的神经网络模型中，得到与所述图像数据对应的特征向量，对所述特征向量编码处理后得到对应的词项，通过所述倒排索引结构对所述词项进行倒排索引查询操作，得到第二候选集；

综合排序模块，用于将所述第一候选集和所述第二候选集中的文档进行合并，统计合并后的文档在所述第一候选集或所述第二候选集中的命中次数，以及在所述第一候选集和所述第二候选集中的加权命中次数，根据统计结果对所述合并后的文档进行排序，并将排序结果返回至展示页面；

11.一种存储介质，其特征在于：所述存储介质中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至9中任一项所述图文混合检索方法的步骤。

12.一种计算机设备，其特征在于：所述计算机设备中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至9中任一项所述图文混合检索方法的步骤。