CN110069650A

CN110069650A - 一种搜索方法和处理设备

Info

Publication number: CN110069650A
Application number: CN201710936315.0A
Authority: CN
Inventors: 刘瑞涛; 刘宇; 徐良鹏
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2017-10-10
Filing date: 2017-10-10
Publication date: 2019-07-30
Anticipated expiration: 2037-10-10
Also published as: US20190108242A1; TW201915787A; WO2019075123A1; CN110069650B

Abstract

本申请提供了一种搜索方法和处理设备，其中，该方法包括：提取目标图像的图像特征向量，其中，所述图像特征向量用于表征所述目标图像的图像内容；在同一向量空间中，根据所述图像特征向量与文本的文本特征向量之间的相关度，确定所述目标图像对应的文本，其中，所述文本特征向量用于表征文本的语义。通过上述方式解决了现有的推荐文本方式所存在的效率较低、对***处理能力要求较高的问题，达到了可以简单准确的实现图像打标的技术效果。

Description

一种搜索方法和处理设备

技术领域

本申请属于互联网技术领域，尤其涉及一种搜索方法和处理设备。

背景技术

随着互联网、电子商务等技术的不断发展，对图像数据的需求越来越大，如何对图像数据进行更为有效的分析和利用，对电子商务会产生很大的影响。在对图像数据进行处理的过程中，为图像推荐标签可以更为有效地实现图像的聚合、图像分类、图像检索等等，因此，对图像数据推荐标签的需求也就越来越大。

例如，用户A希望通过图像搜索产品的方式来搜索产品，这种情况下，如果可以自动对图像进行打标，那么用户在上传图像之后，就可以自动推荐出与图像相关的品类关键词和属性关键词。或者是在其他存在图像数据的场景，可以自动为图像推荐文本(例如：标签等)，不需要人为进行分类打标。

针对如何简单高效地对图像进行打标，目前尚未提出有效的解决方案。

发明内容

本申请目的在于提供一种搜索方法和处理设备，可以简单高效地对图像进行打标。

本申请提供一种搜索方法和处理设备是这样实现的：

一种搜索方法，所述方法包括：

提取目标图像的图像特征向量，其中，所述图像特征向量用于表征所述目标图像的图像内容；

在同一向量空间中，根据所述图像特征向量与标签的文本特征向量之间的相关度，确定所述目标图像对应的标签，其中，所述文本特征向量用于表征标签的语义。

一种处理设备，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现：

一种搜索方法，所述方法包括：

提取目标图像的图像特征，其中，所述图像特征用于表征所述目标图像的图像内容；

在同一向量空间中，根据所述图像特征与文本的文本特征之间的相关度，确定所述目标图像对应的文本，其中，所述文本特征用于表征文本的语义。

一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现上述方法的步骤。

本申请提供的确定图像标签的方法和处理设备，考虑到可以采用以图搜文的方式，基于输入的目标图像直接搜索确定出推荐的文本，而不需要在匹配的过程中增加图像匹配的操作，可以直接通过确定图像特征向量与文本特征向量之间的相关度来匹配得到对应的文本。通过上述方式解决了现有的推荐文本方式所存在的效率较低、对***处理能力要求较高的问题，达到了可以简单准确的实现图像打标的技术效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的搜索方法一种实施例的方法流程图；

图2是本申请提供的图像编码模型和标签编码模型的建立示意图；

图3是本申请提供的搜索方法另一实施例的方法流程图；

图4是本申请提供的图像自动打标示意图；

图5是本申请提供的以图搜诗文的示意图；

图6是本申请提供的服务器的架构示意图；

图7是本申请提供的搜索装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

目前也存在一些为图像推荐文本的方法，例如：训练一个以图搜图的模型，为每张图像生成一个图像特征向量，对于任意的两张图像，图像特征向量之间的相似度越大，那就表明两个图像越相似。基于这个原理，现有的搜索方法一般是收集一个图像集，控制该图像集中的图像可以尽量涵盖整个应用场景。然后，可以通过基于图像特征向量的搜索匹配方式，从图像集中确定出与用户输入的图像相似的一个或多个图像，然后，将这一个或多个图像的文本作为文本集，从该文本集中确定出置信度比较高的一个或多个，作为为该图像推荐的文本。

这种搜索方法需要维护一个涵盖整个应用场景的图像集，文本推荐的准确度依赖于图像集的规模，以及图像集自带文本的精度，且文本往往需要人工进行标注，实现起来较为繁琐。

针对上述以图搜图的文本推荐方法所存在的问题，考虑到可以采用以图搜文的方式，基于输入的目标图像直接搜索确定出推荐的文本，而不需要在匹配的过程中增加图像匹配的操作，可以直接通过目标图像匹配得到对应的文本，即，可以采用以图搜文的方式为目标图像推荐文本。

上述的文本可以是短标签、长标签、特定的文字内容等等，具体是哪种形式的文本内容，本申请对此不作限定，可以根据实际需要选择。例如，在电商场景中上传图片，那么文本可以是短标签，如果在一个诗文与图片的匹配***中，那么文本可以是诗句，即，可以根据实际的应用场景的不同，选用不同的文本内容类型。

考虑可以对图像进行特征提取和对文本进行特征提取，然后，通过提取的特征计算图像与标签集中各个文本之间的相关度，按照相关度高低确定目标图像的文本。基于此，在本例中提供了一种搜索方法，如图1所示，通过提取目标图像中用于表征目标图像的图像内容的图像特征向量，和文本中用于表征文本语义的文本特征向量，来统计图像特征向量和文本特征向量之间的相关度，从而确定出目标图像对应的文本。

即，可以将文本和图像两个模态的数据经过各自的编码转换为同一空间的特征的特征向量，然后通过特征之间的距离来衡量文本和图像之间的相关度，将相关度高的文本作为目标图像的文本。

在一个实施方式中，可以通过客户端上传图像，其中，所述客户端可以是客户操作使用的终端设备或者软件。具体的，客户端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能手表或者其它可穿戴设备等终端设备。当然，客户端也可以是能运行于上述终端设备中的软件。例如：手机淘宝、支付宝或者浏览器等应用软件。

在一个实施方式中，考虑到在实际应用中的处理速度，可以预先提取出各个文本的文本特征向量，这样在获取到目标图像之后，仅需要提取目标图像的图像特征向量，而不需要再提取文本的文本特征向量，这样可以避免重复计算，且可以提高处理速度和效率。

如图2所示，可以采用但不限于采用以下方式圈定为目标图像确定的文本：

1)将文本特征向量与所述目标图像的图像特征向量之间的相关度大于预设阈值的一个或多个文本作为所述目标图像对应的文本；

例如，预设阈值为0.7，即，如果某个或者某几个文本的文本特征向量与目标图像的图像特征向量之间的相关度大于0.7，则可以将这些文本作为为目标图像确定的文本。

2)将文本特征向量与所述目标图像的图像特征向量之间的相关度位于前预设数量的文本作为所述目标图像的文本。

例如，预设数量为4个，则可以按照文本特征向量与目标图像的图像特征向量之间的相关度高低进行排序，将相关度位于前4的4个文本作为为目标图像确定的文本。

然而值得注意的是，上述所列举的圈定为目标图像确定的文本仅是一种示意性描述，在实际实现的时候，还可以采用其它的确定策略，例如，可以将相关度位于前预设数量，且相关度超出预设阈值的文本作为确定的文本。具体采用哪种方式可以根据实际需要选择，本申请对此不作具体限定。

为了可以简单高效地获取到目标图像的图像特征向量和文本的文本特征向量，可以通过训练得到编码模型的方式，来提取图像特征向量和文本特征向量。

如图2所示，以标签作为文本为例进行说明，可以建立图像编码模型和标签编码模型，通过建立的图像编码模型和标签编码模型可以提取出图像特征向量和文本特征向量。

在一个实施方式中，可以通过如下方式建立编码模型：

S1：获取目标场景(例如：搜索引擎、电商)的用户搜索和基于搜索文本点击的图像数据，基于这些行为数据可以获得大量的图像-多标签数据。

其中，用户搜索文本和基于搜索文本点的图像数据，可以是来源于目标场景的历史搜索和访问日志。

S2：将获取的搜索文本进行分词和词性分析；

S2：去除文本中的数字、标点符号、乱码等字符，保留视觉可分词(例如：名词、动词、形容词等)，可以将这些词作为标签；

S3：对基于搜索文本点击的图像数据进行去重处理；

S4：合并标签集中意思相近的标签，去除一些没有实际意义的标签，以及无法通过视觉识别出的标签(例如：发展、问题等)；

S5：考虑到<图像单标签>数据集比<图像多标签>数据集更有利于网络收敛，因此，可以将<图像多标签>转换为<图像单标签>对。

例如，假设多标签对为<image，tag1：tag2：tag3>，那么可以将其转换为单标签对<image tag1>、<image tag2>、<image tag3>三个单标签对。训练的时候每个triplet对中，一张图像只对应一个正样本标签。

S6：通过获取的多个单标签对进行训练，得到用于从图像中提取出图像特征向量的图像编码模型和用于从标签中提取出文本特征向量的标签编码模型，且尽量使得同一图片标签对中的图像特征向量和文本特征向量较为相关。

举例而言，图像编码模型可以是采用ResNet-152作为图像特征向量抽取的神经网络模型，将原始图像统一归一化到预设像素值(例如：224x224像素)作为输入，然后以pool5层特征作为网络输出，输出的特征向量长度为2048。在该神经网络模型的基础上，利用非线性变换进行迁移学习，得到最终的能反应图像内容的特征向量。如图2所示，可以将图2中的图像转换为能反应图像内容的特征向量。

标签编码模型可以是将每个标签通过one-hot编码转换为向量，考虑到one-hot编码向量一般是稀疏的长向量，为了方便处理可以通过Embedding Layer将one-hot编码转换为较低维度的稠密向量，将形成的向量序列作为标签对应的文本特征向量，对于文本网络而言，可以采用两层全连接结构，并加入其它的非线性计算层，从而增强文本特征向量的表达能力，以得到某个图像对应的N个标签的文本特征向量。即，最终将标签转换为一个定长的实数向量。例如，将图2中的“连衣裙”通过标签编码模型转换为文本特征向量，通过该文本特征向量可以反映原始语义，从而便于与图像特征向量进行比较。

在一个实施方式中，考虑到如果对多个标签同时进行比对，则需要计算机的处理速度比较快，对处理器的处理能力要求较高，为此，可以如图3所示，逐个确定图像特征向量与多个标签中各个标签的文本特征向量之间的相关度；并在确定出每个相关度之后，都将相关度计算结果存储至硬盘上，而不需要将其都放在内存中，等到标签集中的标签都完成与图像特征向量之间的相关度计算之后，可以进行相似度排序，或者是相似度判断，以确定出一个或多个可以作为目标图像标签的标签文本。

为了确定出文本特征向量与图像特征向量之间的相关度，可以通过欧式距离进行表征。具体的，对于文本特征向量和图像特征向量都可以通过向量的方式进行表征，即，在同一向量空间中，可以通过比较两个特征向量之间的欧式距离来确定两者之间的相关度。

具体的，可以将图像和文本映射到同一特征空间中，使得图像和文本的特征向量处于同一向量空间中，这样可以控制相关度高的文本特征向量与图像特征向量在该空间内靠近，而相关度低的远离。因此，可以通过计算文本特征向量和图像特征向量，来确定图像和文本之间的相关度。

具体的，文本特征向量与图像特征向量之间的匹配度可以为两个向量之间的欧氏距离，当基于两个向量计算得到的欧氏距离的数值越小，可以表示两个向量之间的匹配度越好，反之，当基于两个向量计算得到的欧氏距离的数值越大，可以表示两个向量之间的匹配度越差。

在一个实施方式中，在同一向量空间中，可以计算文本特征向量与图像特征向量之间的欧式距离，欧式距离越小，说明两者的相关度越高，欧式距离越大，说明两者的相关度越低。因此，在进行模型训练的时候，可以以欧式距离小作为训练目标，得到最终的编码模型。相应的，在进行相关度确定的时候，可以基于欧式距离确定图像与文本之间的相关度，从而选择出与图像更为相关的文本。

上述仅是以欧式距离来衡量图像特征向量和文本特征向量之间的相关度，在实际实现的时候，还可以通过其它方式确定图像特征向量和文本特征向量之间的相关度。例如，还可以包括余弦距离、曼哈顿距离等，另外，在一些情况下，相关度可以是数值，也可以不是数值，例如，可以仅是程度或者趋势的字符化表征，这种情况下，可以通过预设的规则使得该字符化表征的内容量化为一特定值。进而，后续可以利用该量化的值确定两个向量之间的相关度。例如，可能某个维度的值为“中”，则可以量化该字符为其ASCII码的二进制值或十六进制值，本申请实施例所述两个向量之间的匹配度并不以上述为限。

在统计图像特征向量和文本特征向量之间的相关度，从而确定出目标图像对应的文本之后，考虑到有时得到的文本之间存在重合或者是确定出完全不相关的文本，为了提高文本确定的精度，可以进一步去除错误文本或者是对文本进行去重处理，从而使得最终确定出的文本更为准确。

在一个实施方式中，在进行标签确定的过程中，按照相似度进行排序，选取前N个作为确定出的标签的方式，难免会出现同一属性的标签被打了好几次标的情况，例如：一个“碗”的图片，可能相关度比较高的标签中同时出现了“碗”、“盆”，而关于颜色或者样式的标签却都没有排的很靠前，因此一个也没有。这种情况下，可以按照这种方式，直接推送相关度前几的标签作为确定的标签，也可以设定规则，确定几个标签类别，选取每个类别中相关度最高的作为确定的标签，例如：产品类型选一个、颜色选一个、款式选一个等等。具体采用哪种策略，可以根据实际需要选择，本申请对此不作限定。

举例而言，如果确定出相关度排名第一和第二的分别是红色相关度0.8，紫色相关度0.7，那么在设定策略为将靠前的几个标签都作为标签推荐，那么可以将红色和紫色都作为标签推荐，在设定策略为每个类别仅选一个，例如，仅选一个颜色标签的情况下，因为红色相关度大于紫色相关度，因此，选择红色作为推荐的标签。

在上例中，将文本和图像这两种模态的数据，经过各自的编码模型转换为同一向量空间的特征向量，然后，通过特征向量之间的距离来衡量标签与图像之间的相关度，将相关度高的标签作为为图像确定的文本。

然而值得注意的是，上例所介绍的方式是将图像和文本统一到同一个向量空间，从而使得图像和文本之间可以直接进行相关度匹配。上例是以将这种方式应用到以图搜文的方式中为例进行的说明，即，给定一个图像，为该图像打标或者是生成描述信息，或者是生成相关文字信息等等。在实际实现的时候，还可以应用于以文搜图的方式，即，给定文字，搜索匹配得到对应的图片，处理方式和思路与上面的以图搜文是近似的，对此不再赘述。

下面结合几个具体场景，对上述搜索方法进行说明，然而，值得注意的是，该具体场景仅是为了更好地说明本申请，并不构成对本申请的不当限定。

1)电商网站发布产品

如图4所示，用户A打算出售自己的一个二手连衣裙，在拍照之后，将图片传送到电商网站平台之后，一般是需要自己为该图片设置标签的，例如，输入：长款、红色、连衣裙作为该图像的标签。这样势必会增加用户的操作。

通过本申请上述的确定图像标签的方法，可以实现自动打标。用户A在上传拍摄的照片之后，***后台可以自动识别，为该图片进行打标。通过上述方法，可以提取出上传图片的图像特征向量，然后将提取的图像特征向量与预先已经提取好的多个标签的文本特征向量进行相关度计算，从而得到该图像特征向量与各个标签文本的相关度。然后，按照相关度高低，确定出上传的照片确定的标签，并自动进行打标，减少了用户操作，提高了用户体验。

2)相册

拍摄完的照片，或者是从互联网下载的照片，在存储到云相册或者是手机相册之后。通过上述方法，可以提取出上传图片的图像特征向量，然后将提取的图像特征向量与预先已经提取好的多个标签的文本特征向量进行相关度计算，从而得到该图像特征向量与各个标签文本的相关度。然后，按照相关度高低，确定出上传的照片确定的标签，并自动进行打标。

在打标之后，可以更为方便的实现照片分类，也可以在后续对相册中图片进行搜索的时候，更快的定位到目标图片。

3)以图搜产品

例如：拍立淘等搜索模式中，需要用户上传一张图片，然后基于这个图片搜索到相关或者是相似的产品。在这种情况下，在用户上传图片之后，可以通过上述方法，提取出上传图片的图像特征向量，然后将提取的图像特征向量与预先已经提取好的多个标签的文本特征向量进行相关度计算，从而得到该图像特征向量与各个标签文本的相关度。然后，按照相关度高低，确定出上传的照片确定的标签，在为图片打标之后，就可以通过打上的标签进行搜索，从而可以有效提升搜索的准确性，且可以提升召回率。

4)以图搜诗

例如：如图5所示，有些应用或者有些场景中需要通过图片匹配出诗文，那么在用户上传一张图片之后，可以基于该图片搜索匹配出相应的诗文。在这种情况下，在用户上传图片之后，可以通过上述方法，提取出上传图片的图像特征向量，然后将提取的图像特征向量与预先已经提取好的多个诗文的文本特征向量进行相关度计算，从而得到该图像特征向量与各个诗文的文本特征向量之间相关度。然后，按照相关度高低，确定出上传的照片对应的诗文内容，可以呈现出该诗文的内容，或者是诗文的题目、作者等信息。

上面以四个场景为例进行了说明，在实际实现的时候，还有其他的场景可以使用该方法。只要基于不同的场景提取该场景的图片标签对，然后进行训练，以得到符合该场景的图像编码模型和文本编码模型即可。

本申请实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例，图6是本发明实施例的一种搜索方法的服务器的硬件结构框图。如图6所示，服务器10可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。本领域普通技术人员可以理解，图6所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，服务器10还可包括比图6中所示更多或者更少的组件，或者具有与图5所示不同的配置。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的搜索方法对应的程序指令/模块，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述搜索方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输模块106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输模块106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输模块106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

请参考图7，在软件实施方式中，该搜索装置应用于服务器中，可以包括请求发起单元、响应接收单元和口令展示单元。其中：

提取单元，用于提取目标图像的图像特征向量，其中，所述图像特征向量用于表征所述目标图像的图像内容；

确定单元，用于在同一向量空间中，根据所述图像特征向量与标签的文本特征向量之间的相关度，确定所述目标图像对应的标签，其中，所述文本特征向量用于表征标签的语义。

在一个实施方式中，所述确定单元还可以用于在根据所述图像特征向量与标签的文本特征向量之间的相关度，确定所述目标图像对应的标签之前，根据所述图像特征向量与所述文本特征向量之间的欧式距离，确定所述目标图像与标签之间的相关度。

在一个实施方式中，确定单元具体可以用于将文本特征向量与所述目标图像的图像特征向量之间的相关度大于预设阈值的一个或多个标签作为所述目标图像对应的标签；或者，将文本特征向量与所述目标图像的图像特征向量之间的相关度位于前预设数量的标签作为所述目标图像的标签。

在一个实施方式中，确定单元具体可以用于逐个确定所述图像特征向量与多个标签中各个标签的文本特征向量之间的相关度；在确定出所述图像特征向量与多个标签中各个标签的文本特征向量之间的相似度后，基于确定出的所述图像特征向量与多个标签中各个标签的文本特征向量之间的相似度，确定所述目标图像对应的标签。

在一个实施方式中，提取单元还可以用于在提取目标图像的图像特征向量之前，获取搜索点击行为数据，其中，所述搜索点击行为数据包括：搜索文本和基于搜索文本点击的图像数据；

将所述搜索点击行为数据转换为多个图像标签对；根据所述多个图像标签对，训练得到用于提取图像特征向量和标签特征的数据模型。

在一个实施方式中，将所述搜索点击行为数据转换为多个图像标签对可以包括：对所述搜索文本进行分词处理和词性分析；从分词处理和词性分析所得到的数据中确定出标签；对所述基于搜索文本点击的图像数据进行去重处理；根据确定出的标签和去重处理后得到的图像数据，建立图像标签对。

本申请提供的确定图像标签的方法和处理设备，考虑到可以采用以图搜文的方式，基于输入的目标图像直接搜索确定出推荐的标签，而不需要在匹配的过程中增加图像匹配的操作，可以直接通过确定图像特征向量与文本特征向量之间的相关度来匹配得到对应的标签文本。通过上述方式解决了现有的推荐标签方式所存在的效率较低、对***处理能力要求较高的问题，达到了可以简单准确的实现图像打标的技术效果。

虽然本申请提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。

上述实施例阐明的装置或模块，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。当然，也可以将实现某功能的模块由多个子模块或子单元组合实现。

本申请中所述的方法、装置或模块可以以计算机可读程序代码方式实现控制器按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本申请所述装置中的部分模块可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的硬件的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，也可以通过数据迁移的实施过程中体现出来。该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本申请的全部或者部分可用于众多通用或专用的计算机***环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、移动通信终端、多处理器***、基于微处理器的***、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何***或设备的分布式计算环境等等。

虽然通过实施例描绘了本申请，本领域普通技术人员知道，本申请有许多变形和变化而不脱离本申请的精神，希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims

1.一种搜索方法，其特征在于，所述方法包括：

在同一向量空间中，根据所述图像特征向量与文本的文本特征向量之间的相关度，确定所述目标图像对应的文本，其中，所述文本特征向量用于表征文本的语义。

2.根据权利要求1所述的方法，其特征在于，在根据所述图像特征向量与文本的文本特征向量之间的相关度，确定所述目标图像对应的文本之前，还包括：

根据所述图像特征向量与所述文本特征向量之间的欧式距离，确定所述目标图像与文本之间的相关度。

3.根据权利要求1所述的方法，其特征在于，根据所述图像特征向量与文本的文本特征向量之间的相关度，确定所述目标图像对应的文本，包括：

将文本特征向量与所述目标图像的图像特征向量之间的相关度大于预设阈值的一个或多个文本作为所述目标图像对应的文本；

或者，将文本特征向量与所述目标图像的图像特征向量之间的相关度位于前预设数量的文本作为所述目标图像的文本。

4.根据权利要求1所述的方法，其特征在于，根据所述图像特征向量与文本的文本特征向量之间的相关度，确定所述目标图像对应的文本，包括：

逐个确定所述图像特征向量与多个文本中各个文本的文本特征向量之间的相关度；

在确定出所述图像特征向量与多个文本中各个文本的文本特征向量之间的相似度后，基于确定出的所述图像特征向量与多个文本中各个文本的文本特征向量之间的相似度，确定所述目标图像对应的文本。

5.根据权利要求1所述的方法，其特征在于，在提取目标图像的图像特征向量之前，还包括：

获取搜索点击行为数据，其中，所述搜索点击行为数据包括：搜索文本和基于搜索文本点击的图像数据；

将所述搜索点击行为数据转换为多个图像文本对；

根据所述多个图像文本对，训练得到用于提取图像特征向量和文本特征向量的数据模型。

6.根据权利要求5所述的方法，其特征在于，将所述搜索点击行为数据转换为多个图像文本对包括：

对所述搜索文本进行分词处理和词性分析；

从分词处理和词性分析所得到的数据中确定出文本；

对所述基于搜索文本点击的图像数据进行去重处理；

根据确定出的文本和去重处理后得到的图像数据，建立图像文本对。

7.根据权利要求6所述的方法，其特征在于，所述图像文本对包括单标签对，所述单标签对中携带有：一个图像和一个文本。

8.一种处理设备，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现：

确定图像文本的方法，其特征在于，所述方法包括：

9.根据权利要求8所述的处理设备，其特征在于，所述处理器在根据所述图像特征向量与文本的文本特征向量之间的相关度，确定所述目标图像对应的文本之前，还用于根据所述图像特征向量与所述文本特征向量之间的欧式距离，确定所述目标图像与文本之间的相关度。

10.根据权利要求8所述的处理设备，其特征在于，所述处理器根据所述图像特征向量与文本的文本特征向量之间的相关度，确定所述目标图像对应的文本，包括：

11.根据权利要求8所述的处理设备，其特征在于，所述处理器根据所述图像特征向量与文本的文本特征向量之间的相关度，确定所述目标图像对应的文本，包括：

12.根据权利要求8所述的处理设备，其特征在于，所述处理器在提取目标图像的图像特征向量之前，还用于：

将所述搜索点击行为数据转换为多个图像文本对；

13.根据权利要求12所述的处理设备，其特征在于，所述处理器将所述搜索点击行为数据转换为多个图像文本对包括：

对所述搜索文本进行分词处理和词性分析；

从分词处理和词性分析所得到的数据中确定出文本；

对所述基于搜索文本点击的图像数据进行去重处理；

14.一种搜索方法，其特征在于，所述方法包括：

15.一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现权利要求1至7中任一项所述方法的步骤。