CN111460231A

CN111460231A - 电子设备以及电子设备的搜索方法、介质

Info

Publication number: CN111460231A
Application number: CN202010164088.6A
Authority: CN
Inventors: 吴大; 李艳明; 唐吴全
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-03-10
Filing date: 2020-03-10
Publication date: 2020-07-28
Also published as: WO2021180109A1

Abstract

本申请涉及人工智能领域，公开了一种电子设备以及电子设备的搜索方法、介质。本申请的搜索方法包括：获取用户输入的搜索数据；提取搜索数据的特征，并基于提取的特征生成搜索数据的搜索特征向量；将搜索特征向量与索引库中的多个索引特征向量进行比对，以选择出索引库中与搜索特征向量之间的相近度大于相近度阈值的索引特征向量，其中，在索引库中，多个索引特征向量与多个模态的多个结果数据之间存在对应关系；将与选择出的索引特征向量对应的结果数据作为搜索结果输出，其中，搜索结果包括的结果数据具有多个模态，以此实现多模态全局搜索的功能。

Description

电子设备以及电子设备的搜索方法、介质

技术领域

本申请涉及人工智能领域，特别涉及一种电子设备以及电子设备的搜索方法、介质。

背景技术

近年，随着机器学习和深度学习快速发展，极大地促进了搜索功能的发展。目前，手机具有全局搜索的功能，可以对图库里的图片进行搜索、通过浏览器进行互联网搜索以及对其他各应用进行的搜索。现有的搜索技术中，大多数是基于内容的搜索，以图像搜索为例，主要过程为：由人工或者预训练好的模型自动给图片标注标签，并将标签保存在数据库，然后用户通过输入关键词和数据库的标签的文本匹配，返回搜索结果。并且大部分搜索都是单模态媒体数据的搜索，比如图库中通过文本输入搜索图片，或者某些互联网中以图搜图的搜索。

发明内容

本申请实施例提供了一种电子设备以及电子设备的搜索方法、介质，能够将多模态数据特征向量映射在高维统一向量中，进而通过一个模型实现在电子设备上的多模态全局搜索。

第一方面，本申请实施例提供了一种电子设备以及电子设备的搜索方法，上述方法包括：

获取用户输入的搜索数据；提取搜索数据的低层次特征，并基于提取的低层次特征生成搜索数据的搜索特征向量；将搜索特征向量与索引库中的多个索引特征向量进行比对，以选择出索引库中与搜索特征向量之间的相近度大于相近度阈值的索引特征向量，其中，在索引库中，多个索引特征向量与多个模态的多个结果数据之间存在对应关系。将与选择出的索引特征向量对应的结果数据作为搜索结果输出，其中，搜索结果包括的结果数据具有多个模态。即首先获取用户输入的搜索数据，比如，获取用户输入的图像数据，然后提取该图像数据的低层次的特征，比如提取图像的颜色、纹理、灰度等低层次的特征，然后生成这些低层次的特征对应的特征向量，将特征向量与存储在索引库中的索引特征向量进行相近度比较，得到与搜索数据的特征向量相近度高的特征向量，然后根据索引库中索引特征向量之间具有的相关性索引关系，确定多个特征向量以及和多个特征向量所对应的结果数据。

在上述第一方面的一种可能的实现中，上述方法还包括：

搜索特征向量与索引特征向量之间的相近度通过以下公式计算得出：

其中，d表示搜索特征向量与索引库中存储的多个特征向量之间的相近度，x_i表示输入数据的特征向量，y_i表示索引库中存储的多个特征向量，i表示输入数据的特征向量或索引库中存储的多个特征向量的维度。

即上述搜索特征向量和索引特征向量之间的相近度可以通过欧氏距离计算，当然，可以理解的，相近度的计算也可以通过其他方式计算，比如皮尔逊系数等。

在上述第一方面的一种可能的实现中，上述方法还包括：

电子设备上具有索引库，并且，与索引库中的多个索引特征向量具有对应关系的多个模态的多个结果数据为电子设备上的数据。

在上述第一方面的一种可能的实现中，上述方法还包括：

电子设备为移动终端。即电子设备不限于手机等移动终端，还可以是服务器、PC等电子设备。

在上述第一方面的一种可能的实现中，上述方法还包括：

用户在移动终端的负一屏输入搜索数据。即电子设备上的多模态搜索可以应用在手机等移动终端的负一屏上。

在上述第一方面的一种可能的实现中，上述方法还包括：

用户在移动终端的备忘录中输入搜索数据。即电子设备上的多模态搜索可以应用在手机等移动终端的备忘录上。

在上述第一方面的一种可能的实现中，上述方法还包括：

多个模态包括图像、视频、音频、文本、电子设备的传感器的检测数据。即模态指的是数据的来源形式或存在形态，所以多个模态数据就包括图像、文本、视频、音频等数据。

第二方面，本申请实施例提供了一种电子设备，上述电子设备包括：

获取模块，用于获取用户输入的搜索数据；

特征提取模块，用于提取搜索数据的特征，并基于提取的特征生成搜索数据的搜索特征向量；

相近度计算模块：用于将搜索特征向量与索引库中的多个索引特征向量进行比对，以选择出索引库中与搜索特征向量之间的相近度大于相近度阈值的索引特征向量，

其中，在索引库中，多个索引特征向量与多个模态的多个结果数据之间存在对应关系；

输出模块：将与选择出的索引特征向量对应的结果数据作为搜索结果输出，其中，搜索结果包括的结果数据具有多个模态。

第三方面，本申请实施例提供了一种机器可读介质，机器可读介质上存储有指令，该指令在机器上执行时可以使机器执行上述第一方面的任意一种可能的方法。

第四方面，本申请实施例提供了一种电子设备，包括：存储器，用于存储由***的一个或多个处理器执行的指令，以及处理器，是***的处理器之一，用于执行上述第一方面的任意一种可能的方法。

第五方面，本申请实施例提供了一种电子设备，该电子设备具有实现上述搜索方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多于一个与上述功能相对应的单元。

附图说明

图1根据本申请的一些实施例，示出了一种多模态全局搜索场景10。

图2根据本申请的一些实施例，示出了在手机100中进行全局搜索的方法示意图。

图3根据本申请的一些实施例，示出了生成多模态搜索模型的过程示意图。

图4根据本申请的一些实施例，示出了建立索引库的过程示意图。

图5a根据本申请的一些实施例，示出了一种手机100的负一屏。

图5b根据本申请的一些实施例，示出了在手机负一屏进行全局搜索的示意图。

图6根据本申请的一些实施例，示出了在手机备忘录进行全局搜索的示意图。

图7根据本申请的一些实施例，示出了一种电子设备结构示意图。

图8根据本申请的一些实施例，示出了另一种电子设备结构示意图。

图9根据本申请一些实施例，示出了一种电子设备的软件结构框图。

具体实施方式

本申请的说明性实施例包括但不限于一种电子设备以及电子设备的搜索方法、介质及其***。

可以理解，本申请所使用的的术语“第一”、“第二”等可在本文本中用于描述各种元件，但除非特别说明，这些元件不受这些术语限制。这些术语仅用于将第一个元件与另外一个元件区分。

可以理解，在本申请的各实施例中，模态指的是每一种信息的来源或者信息的形式，诸如图像、语音、文本、视频等种类不同的信息表示不同的模态，雷达、红外、加速计等的测试结果由于来源不同，也可以表示为不同的模态。

下面将结合附图对本申请的实施例作进一步地详细描述。

图1根据本申请的一些实施例，示出了一种多模态全局搜索场景10。具体的，如图1所示，在该场景10包括电子设备100以及电子设备200。其中，电子设备100能够使用电子设备200训练出的多模态搜索模型，实现多模态搜索，即输入某一模态数据，多模态搜索模型能够生成对应该数据的特征向量，然后将生成的特征向量与多模态特征向量索引库中的特征向量进行比对，并将多模态特征向量索引库中满足预定条件的特征向量所对应的各模态数据作为搜索结果输出。电子设备200能够通过采用多种模态数据和各模态数据的特征来训练出多模态搜索模型，在该多模态搜索模型中，类型相同或者相近的模态数据生成的特征向量相同或者相近。其中，特征向量相近是指两个特征向量之间的差值小于相近度阈值，并且，特征向量之间的差值可以以特征向量之间的欧氏距离来表示，欧氏距离越大、特征向量之间的差值越大、特征向量之间的相近度越小。此外，电子设备200不仅仅能够训练多模态搜索模型，也可以采用自身训练完成的多模态搜索模型实现各种搜索功能。

可以理解，在本申请中，电子设备100和电子设备200可以包括但不限于，膝上型计算机、台式计算机、平板计算机、手机、可穿戴设备、头戴式显示器、服务器、移动电子邮件设备、便携式游戏机、便携式音乐播放器、阅读器设备、其中嵌入或耦接有一个或多个处理器的电视机、或能够访问网络的其他电子设备。

下文结合图2-6，以电子设备100为手机，电子设备200为服务器为例，说明本申请的技术方案。

如前所述，在本申请的一些实施例中，可以在服务器200上先训练出能够实现对多模态数据的搜索的多模态搜索模型，然后将该多模态搜索模型移植到手机100上，实现对手机100上各模态数据的全局搜索。图2根据本申请的一些实施例，示出了一种采用服务器200训练多模态搜索模型并将训练出的多模态搜索模型移植到手机100上进行全局搜索的技术方案。具体的，如图2所示：

(1)多模态搜索模型的训练

A)生成初始特征向量

在训练多模态搜索模型时，服务器200首先需要对训练所用到的样本数据做特征提取。可以理解，在本申请中，样本数据可以包括多种模态的数据，例如，图像、语音、文本、视频、传感器测试数据等。这些样本数据(例如，一幅图像、一段语音或者一段文本)一般为结构各异的非结构化数据，具有维度较高，表现形式迥异，含有大量冗余信息等特点。因此需要提取可以表征这些样本数据的初始特征向量。可以理解的是，这些初始特征向量可以是一维的，也可以是多维的。比如，一个人的成绩排名可以通过这个人的语文成绩、数学成绩、英语成绩来共同表示，那么这个人的成绩排名的初始特征向量就具有三个维度，即(语文成绩，数学成绩，英语成绩)，再比如，一个字的特征向量可以是一维的，即这个字的编码值，如果是一句话，比如“小白是狗”，则可以由多个一维的初始特征向量来共同表征，比如，词语“小白”的初始特征向量，词语“是”的初始特征向量，词语“狗”的初始特征向量，这三个初始特征向量共同表征“小白是狗”这句话。

进一步的，假设建筑物A可以同时用彼此之间具有相关性的手绘画、语音、文本三种模态数据进行描述，那么可以分别采用特征提取算法1、特征提取算法2以及特征提取算法3来生成这三种模态数据的初始特征向量。

如图3所示，例如，可以通过残差网络Resnet-34算法生成建筑物A的手绘画的初始特征向量T1，比如T1可以是(h1，h2)，h1是手绘画灰度值，h2可手绘画尺寸的数值。然后通过语音特征提取算法梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)生成描述建筑物A的语音的初始特征向量T2，例如T2可以是(h3，h4)，h3，h4可以是表示描述建筑物A的语音的某些特征的值，比如语音的频率和音调。然后可以通过双向长短期记忆网络(Attention-Based Bidirectional Long Short-Term Memory Networks，BiLSTM+Attention)生成描述建筑物A的文本的初始特征向量T3，例如T3是(h5)，h5可以是描述建筑A的文本的文字编码的特征值。为了更清楚的理解，上述例子中描述建筑物A的手绘画、语音、文本的初始特征向量T1，T2，T3就可以分别表示为T1(手绘画灰度特征值，手绘画尺寸特征值)，T2(语音频率特征值，语音音调特征值)，T3(文本编码特征值)。

此外的，也可以采用其他算法生成各模态数据的初始特征向量，例如，还可以采用高斯函数差分(Difference of Gaussian，DOG)生成图像的初始特征向量，采用文本特征提取算法词库模型(Bag-of-words model)来生成文本的初始特征向量。

可以理解，此处提到的各特征的提取算法均属于是多模态搜索模型的一部分。

B)特征向量的聚类

特征向量聚类指的是彼此间具有相关性的样本数据被输入多模态搜索模型后，输出的最终特征向量彼此间相近或者相同。其中，相关性指的是，各模态数据表示的内容相同或者近似。例如，每个样本数据可以提取出多个低层次的特征，而两个数据提取出的特征相近可以是提取出的多个特征中有占一定数量比例的特征的相同或者相近，或者两个数据提取出的相同特征的特征值之间的差值小于预定的阈值。例如，图像A和音频数据B分别提取出10和12个特征，其中图像A中有9个特征和音频数据B中的9个特征相同，则可认为图像A和音频数据B相近。再例如，图像A提取出的特征为“牧羊犬”和“成年犬”，而图像B提取出的特征为“哈士奇”和“成年犬”，则在一些要求动物种类识别的应用中，可以认为图像A和图像B均表示的是犬只，故两者的特征相近，而在一些要求犬只种类识别的应用中，可以认为图像A和图像B的特征不相近。

现在参考图3并以上述描述建筑物A的三种模态数据为例，说明特征向量的聚类过程。如图3所示，基于A)中的技术得到描述建筑物A的手绘画、语音、文本的初始特征向量T1，T2，T3以后，因为这些初始特征向量是用不同的特征提取算法生成的独立的初始特征向量，所以不在一个统一的特征向量表示空间内，彼此之间的向量值会相差很大，无法判断特征向量之间的相关性。例如，手绘画的初始特征向量是由手绘画的灰度值(例如为222)而语音是由语音的频率特征值(如20(Hz))表示的，此时，手绘画和语音虽然都是描述建筑物A的，但是两者的初始特征向量的向量值相差很大。因此，需要进行特征向量的聚类，将两者的特征向量聚类为相近。例如，采用长短期记忆网络(Long Short Term Memory network，LSTM)模型进行训练，使得长短期网络模型能够将处于不同向量空间的初始特征向量聚类为相近，即将其映射到同一向量空间。

如图3所示，LSTM模型在每个时刻的输出结果依赖与前一时刻的输出结果。具体的，例如，将一段文字“我爱祖国”输入至如图3所示的长短期记忆网络模型中，该模型会按照时间序列依次输出每个时刻的特征向量，比如，t1时刻输入长短期记忆网络的是“我”，那么长短期记忆网络就会生成t1时刻“我”对应的特征向量H1(h6)，h6表示“我”的编码特征值，t2时刻输入长短期记忆网络的是“爱”，那么长短期记忆网络就会生成t2时刻“爱”对应的特征向量H2(h6，h7)，h7表示“爱”的编码特征值，t3时刻输入长短期记忆网络的是“祖国”，那么长短期记忆网络就会生成t3时刻“祖国”对应的特征向量H3(h6，h7，h8)，h8表示“祖国”的编码特征值。因此，最终，由于特征向量H3具有“我爱祖国”的全部特征，所以会用特征向量H3来表示句子“我爱祖国”。而对于图像这种没有前后依赖关系的数据，在LSTM模型中么，可以认为在某一时刻输出表示其特征的向量值，而其他时刻的向量值为0。例如，在t1时刻输出的特征向量H4(h9)表示其灰度值，而t2和t3时刻输出的特征向量为H5(h9，0)和H5(h9，0，0)。

具体地，长短期记忆网络LSTM模型的训练过程如下：

I)预先准备多个模态不同的样本数据，并且这些多个模态数据可以表示不同的物体或者描述不同的事件，但是描述同一物体或者描述同一事件的数据之间具有相关性。然后通过上述A)生成这些样本数据的初始特征向量。

II)将描述同一物体或者同一事件的彼此间具有相关性的多个模态数据的初始特征向量输入LSTM模型中，得到LSTM输出的最终特征向量(此时的LSTM可以看作是多模态搜索模型的一部分)。计算这些最终特征向量是否相近或者相同，如果这些最终特征向量不相近或者相同，则调整LSTM的模型参数，然后重新将上述多个初始特征向量输入LSTM中，并计算输出的最终特征向量是否相同或者相近。

如此重复操作，直到LSTM模型输出的最终特征向量之间相近或者相同，则由于初始数据模态不同导致生成的向量空间不同的初始特征向量被映射到了同一向量空间，即LSTM模型训练完成。

其中，在一些实施例中，两个特征向量是否相近可以通过以下公式计算：

其中，d表示两个特征向量之间的相近度，x_i表示输入数据的特征向量，y_i表示索引库中存储的多个特征向量，i表示输入数据的特征向量或索引库中存储的多个特征向量的维度。即d表示两个特征向量之间的欧氏距离，其中，欧氏距离越大特征向量之间的相近度越小。

例如，将上述描述建筑物A的三种模态(手绘画、语音、文本)下的初始特征向量T₁、T₂以及T₃输入LSTM模型后，得到中间特征向量T₁′、T₂′以及T₃′。

此处，对于上述特征向量T₁′、T₂′以及T₃′，假设T₁′＝(a₁，a₂，a₃)，T₂′＝(b₁，b₂，b₃)，T₃′＝(c₁，c₂，c₃)。那么，T₁′和T₂′之间的相近度可以表示为：

T₂′和T₃′之间的相近度可以表示为：

而当d₁和d₂均小于预定的相近度阈值时，则认为T₁′、T₂′以及T₃′相同或者相近，并将此时的中间特征向量T₁′、T₂′以及T₃′作为最终特征向量。

可以理解，在实际的模型训练中，可以根据实际需要设置相近度阈值，本申请在此不做限制。

此外，在一些实施例中，也可以利用损失函数来计算不同模态的样本数据的初始特征向量输入LSTM模型后，得到的中间特征向量之间的相近度。具体地，将类型相同或者相近的样本数据的初始特征向量输入LSTM模型后得到中间特征向量，采用损失函数计算输入的初始特征向量与输出的中间特征向量的之间的误差，根据该误差，求出偏导数。然后基于求出的偏导数对LSTM模型中的各模型参数进行调整。

为了使得上述训练过程更清楚，下面基于上文提到的建筑物A举个简单例子进行说明。例如，除了上文提到的建筑物A，还有描述音乐C的专辑封面图像、文本和音频数据，其中，描述音乐c的专辑封面图像对应的初始特征向量为T₄，描述音乐C的文本对应的初始特征向量为T₅以及描述音乐C的音频对应的初始特征向量为T₆，然后将描述建筑物A的三种模态(手绘画、语音、文本)的初始特征向量T₁、T₂、T₃以及描述音乐C的三种模态(专辑封面图像、文本和音频)的初始特征向量T₄、T₅、T₆作为训练数据输入到LSTM模型中，通过调整长短期记忆网络的相关参数，使得最终得到的T₁′、T₂′以及T₃′两两之间的欧式距离小于预定的相近度阈值，从而将描述建筑物A的各模态数据的特征向量聚类一起，然后用同样的方法，使得描述音乐B的初始特征向量T₄、T₅、T₆的最终的特征向量T₄′、T₅′以及T₆′两两之间的欧式距离小于预定的相近度阈值，从而将描述音乐C的各模态数据的特征向量聚类在一起。

此外，可以理解，在本申请的其他实施例中，也可以采用其他方式确定两个特征向量之间的相近度，不限于上述公式中的欧式距离和损失函数，例如，还可以通过余弦相似度，或者皮尔逊相关系数来进行特征向量之间的相近度计算。

可以理解，虽然上述实施例中是采用服务器200来进行多模态搜索模型训练的，在其他实施例中，也可以采用其他计算机设备训练多模态搜索模型。在此不做限制。

(2)建立手机100上的多模态数据与特征向量之间的索引关系

继续参考图2，在服务器200上训练好多模态搜索模型后，可以建立一个建立一个Android工程，将该模型通过前述工程中的模型读取接口读取并解析该模型，然后编译生成APK(Android application package，Android应用程序包)文件，安装到手机100中，完成多模态搜索模型的移植。然后将手机100中的各种模态的数据(图像、语音、文本、视频等)输入多模态搜索模型中，得到对应各数据的特征向量，并建立各数据和各数据的特征向量之间的索引关系，得到索引库。

例如，可以将手机100上的图像1-图像100，语音1-语音50，文本1-文本80全部输入多模态搜索模型中，然后得到对应图像1-图像100的特征向量T₁-T₁₀₀，对应语音1-语音50的特征向量T₁₀₁-T₁₅₀，对应文本1-文本80的特征向量T₁₅₁-T₂₃₀。然后，可以建立上述得到的各特征向量与对应的数据的标识之间的索引关系，例如，数据的数据标识可以是为上述图像、文本、语音文件设置的标识，也可以是上述数据在手机100中的名称，或者将上述数据的整个源数据作为标识。例如，将T₁与图像1的名称“20200107adefeg”建立索引关系，然后将该索引关系存储在索引库中。

可以理解，索引库可以在所述多模态搜索模型中，以数据库的形式存在，特征向量和对应的数据的标识可以以字段的形式存储在数据库中。

在一些实施例中，在手机100上建立索引库的具体过程如图4所示：将训练好的多模态搜索模型移植到手机100中，通过该多模态搜索模型生成手机100中的各种模态的数据，如图像、语音、文本(在其他实施例中，也可以包括视频、传感器检测数据等)的特征向量，并将这些由多模态搜索模型生成的特征向量存储在手机100中，同时，建立手机100上各数据和特征向量之间的索引关系，得到索引库。例如，将建筑物A的手绘画、语音、文本以及另外的会议录音、周一日程备忘录等数据分别通过多模态搜索模型生成的各自的特征向量T₁、T₂、T₃、T₁₅₀、T₂₃₀，并将这些特征向量存储至手机100中，同时，将这些数据与各自的特征向量之间的索引关系存储到索引库中。

(3)全局搜索

继续参考图2，在手机100上建立好索引库后，可以在手机100上实现全局搜索，即在搜索时，可以输入各种模态的数据，例如，图像、文本、语音、视频、传感器检测数据等等，多模态搜索模型能够将这些数据转换为特征向量，通过将转换后的对应搜索输入数据的特征向量与索引库中的特征向量进行比对来得到搜索结果，其中，搜索结果可以包括手机上各种模态的数据。

在一些实施例中，用户可以通过在手机100负一屏的搜索框中输入搜索关键词来实现全局搜索。具体的，如图5a所示，当用户在手机100负一屏进行全局搜索时，用户可以通过输入关键字进行搜索，比如，用户在手机100负一屏的搜索框内输入搜索的关键字，手机100通过上述移植到全局搜索中的多模态搜索模型生成用户输入的关键字的特征向量，然后可以通过上述计算向量间的欧式距离的公式，计算关键字的特征向量与上述建立好的索引库中的特征向量的相近度，对于与关键词的特征向量相近度大于相近度阈值的索引库中的特征向量，根据索引库中的索引关系，获取这些特征向量对应的各种模态的数据，并将这些数据显示在手机100的负一屏上。

例如，如图5b所示，用户在手机负一屏的搜索框内输入要搜索的内容，如“戴帽子的女人”，手机100会根据“戴帽子”、“女人”等具体的关键字进行全局搜索，然后将搜索结果(例如，所有图像中有上述关键字的图像、或者包含有上述关键字的日程备忘录以及语音中包含有上述关键字的具体语音以及语音文本)显示在搜索栏的下方。同时，用户也可以通过语音或者图片输入等方式在手机负一屏的搜索栏中输入想要得到的内容。

更具体的，手机100中的多模态搜索模型会提取上述搜索文本的特征“戴帽子”、“女人”，然后生成上述搜索文本对应特征向量T_搜索文本，然后通过上述公式计算特征向量T_搜索文本与索引库中的特征向量的相近度，选择相近度大于相近度阈值的特征向量，进而找到相近度大于相近度阈值的特征向量所对应的数据，作为搜索结果输出，例如，搜索结果中包括具有戴帽子的女人的图像一、图像二、图像三，手机日程中的相关内容，以及语音备忘录中的相关音频文件。其中，在搜结果中，可以直接显示图像，也可以显示图像的缩略图或者图像的名称和缩略图。

再例如，当用户输入关键字为“建筑物A”，手机通过上述多模态搜索模型生成关键字“建筑物A”的特征向量T_建筑物，然后通过上述公式计算特征向量T_建筑物与存储在多模态特征向量索引数据库中的特征向量之间的相近度，确定特征向量T₁、T₂、T₃与关键字“建筑物A”的特征向量T_建筑物的相接近，然后输出根据特征向量T₁、T₂、T₃输出建筑物A的各模态数据，即建筑物A的手绘画、描述建筑物A的语音以及文本。

同样的，用户在进行全局搜索时，也可以通过语音输入单元170a输入语音，然后手机通过上述多模态搜索模型生成用户输入语音的特征向量T_语音，然后计算用户输入的语音的特征向量T_语音与上述索引库中的特征向量的相近度，根据计算结果确定搜索结果，并将搜索结果通过显示屏显示在手机100负一屏上。例如，用户通过170a输入语音“会议安排”，多模态搜索模型提取“会议安排”的特征向量T_会议安排，然后利用上述相近度计算方法计算T_会议安排与索引库中各特征向量的相近度，得知T_会议安排与特征向量T₁₅₀、T₂₃₀相接近，就确定“会议安排”的搜索结果为会议录音以及周一日程备忘录，并通过显示屏将会议录音音频和周一日程备忘录输出在手机100负一屏。

另外，用户也可以通过图像输入单元193a输入图像，然后手机通过上述多模态搜索模型生成用户输入的图像的特征向量T_图像，然后计算输入图像的特征向量T_图像与上述索引库中的特征向量的相近度，根据计算结果确定搜索结果，并将搜索结果通过显示屏显示在手机100负一屏上。例如，用户通过图像输入单元190a输入图像“建筑A”，多模态搜索模型提取“建筑物A”的特征向量T_{建筑物A图像}，然后利用上述相近度计算方法计算T_{建筑物A图像}与存储在索引库中各特征向量的相近度，得知T_{建筑物A图像}与T₁相接近，确定“建筑物A”的搜索结果为建筑物A的手绘画，并根据索引库中的各模态特征向量之间的索引关系将与与建筑物A的手绘画具有相关性其他模态数据，如描述建筑物A的语音、描述建筑物A的文本都通过显示屏输出在手机100负一屏。

进一步的，在本申请的另一个实施例中，本申请的方案也适用于在手机100的备忘录中进行全局搜索，具体的，如图6所示，用户可以通过在手机备忘录的搜索栏600输入具体的文本、语音或者图片来进行搜索。

更具体的，用户搜索戴帽子女人的图片过程可以如下：

当用户在手机100的备忘录搜索栏600中进行搜索时，手机100根据用户的输入数据的模态来进行相对应的搜索：

(a)当用户输入文本“戴帽子的女人”时，手机100会通过上述多模态搜索模型提取输入“戴帽子的女人”的特征向量T’_{戴帽子女人文本}，并通过上述计算方法计算将该特征向量T’_{戴帽子女人文本}与上述存储在索引库中的特征向量T_{戴帽子女人图像}、T_{戴帽子女人文本}、T_{戴帽子女人音频}之间的相近度，确定T’_{戴帽子女人图文本}与T_{戴帽子女人文本}相近或者接近，然后根据索引库中的索引关系，确定输出与T’_{戴帽子女人文本}最相近的特征向量所对应的所有相关内容，即输出戴帽子的女人的备忘录、或者附件中的戴帽子的女人的图像(或者图像的ID)以及戴帽子的女人的音频，并且同时显示搜索到的符合条件的项目数字，(如显示已找到1项)。其中，在搜结果中，可以直接显示图像，也可以显示图像的缩略图或者图像的名称和缩略图。

(b)当用户在搜索时通过语音输入单元170a输入语音“戴帽子的女人”，手机100会通过上述多模态搜索模型提取输入的语音的“戴帽子的女人”的特征向量T’_{戴帽子女人音频}，并计算将该特征向量T’_{戴帽子女人音频}与上述存储在索引库中的特征向量T_{戴帽子女人图像}、T_{戴帽子女人文本}、T_{戴帽子女人音频}之间的相近度，确定T’_{戴帽子女人音频}与T_{戴帽子女人音频}相近或者接近，然后根据索引库中的索引关系，确定输出与T’_{戴帽子女人音频}最相近的特征向量所对应的所有相关内容，即输出戴帽子的女人的备忘录、或者附件中的戴帽子的女人的图像(或者图像的ID)以及戴帽子的女人的音频，并且同时显示搜索到的符合条件的项目数字，(如显示已找到1项)。其中，在搜结果中，可以直接显示图像，也可以显示图像的缩略图或者图像的名称和缩略图。

(c)当用户在搜索时通过图像输入单元193a输入图像“戴帽子的女人”时，手机100会通过上述多模态搜索模型提取输入的图像“戴帽子的女人”的特征向量T’_{戴帽子女人图像}，并计算将该特征向量T’_{戴帽子女人图像}与上述存储在索引库中的特征向量T_{戴帽子女人图像}、T_{戴帽子女人文本}、T_{戴帽子女人音频}之间的相近度，确定T’_{戴帽子女人图像}与T_{戴帽子女人图像}相近或者接近，然后根据索引库中的索引关系，确定输出与T’_{戴帽子女人图像}最相近的特征向量所对应的所有相关内容，即输出戴帽子的女人的备忘录、或者附件中的戴帽子的女人的图像(或者图像的ID)以及戴帽子的女人的音频，并且同时显示搜索到的符合条件的项目数字，(如显示已找到1项)。其中，在搜结果中，可以直接显示图像，也可以显示图像的缩略图或者图像的名称和缩略图。

另外，对应上述搜索方法，图7示出了一种电子设备的结构示意图，可以理解，上述搜索方法中的具体技术细节，在该电子设备中也适用，为了避免重复，在此不再赘述。

如图7所示，该电子设备包括：

获取模块701，用于获取用户输入的搜索数据；

特征提取模块702，用于提取所述搜索数据的特征，并基于提取的所述特征生成所述搜索数据的搜索特征向量；

相近度计算模块703：用于将所述搜索特征向量与索引库中的多个索引特征向量进行比对，以选择出所述索引库中与所述搜索特征向量之间的相近度大于相近度阈值的索引特征向量，

其中，在所述索引库中，所述多个索引特征向量与多个模态的多个结果数据之间存在对应关系，并且不同的所述结果数据被提取的特征越相近，所述不同结果数据所对应的索引特征向量之间的相近度越大；

输出模块704：将与所述选择出的索引特征向量对应的结果数据作为搜索结果输出，其中，所述搜索结果包括的结果数据具有多个模态。

另外，图8根据本申请的实施例，示出了一种电子设备800的结构示意图。电子设备800可以用于训练上述多模态搜索模型，还可以从别的电子设备接收上述多模态模型，然后基于上述多模态模型对电子设备800上的各种模态的数据进行全局检索。电子设备800可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serialbus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本发明实施例示意的结构并不构成对电子设备800的具体限定。在本申请另一些实施例中，电子设备800可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，并且进行上述的模态数据的特征提取、以及多模态搜索模型的训练。例如：处理器110可以包括应用处理器(applicationprocessor，AP)，调制解调处理器，图形处理器(graphics processing unit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-networkprocessing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，显示屏194，摄像头193，和无线通信模块160等供电。

移动通信模块150可以提供应用在电子设备800上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(1ow noise amplifier，LNA)等。

无线通信模块160可以提供应用在电子设备800上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星***(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。

电子设备800通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(1iquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，电子设备800可以包括1个或N个显示屏194，N为大于1的正整数。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备800可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备800在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备800的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解、图像聚类等。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作***，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备800使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。处理器110通过运行存储在内部存储器121的指令，和/或存储在设置于处理器中的存储器的指令，执行电子设备800的各种功能应用以及数据处理。同时，内部存储器121也可以存储手机100中的各种模态数据、以及移植至手机100的多模态搜索模型并且存储模型的中间计算数据，存储模型参数，索引库等。

电子设备800可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备800可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备800接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备800可以设置至少一个麦克风170C。在另一些实施例中，电子设备800可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备800还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

现参考图9，是本申请实施例中的一种电子设备的软件结构框图。电子设备900可以用于训练上述多模态搜索模型，还可以从别的电子设备接收上述多模态模型，然后基于上述多模态模型对电子设备900上的各种模态的数据进行全局检索。图9为该电子设备的软件***可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本发明实施例以分层架构的Android***为例，示例性说明终端设备的软件结构。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android***分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和***库，以及内核层。

应用程序层可以包括一系列应用程序包。

如图9所示，应用程序包可以包括电话、相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图9所示，应用程序框架层可以包括窗口管理器，内容提供器，视图***，电话管理器，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图***包括可视控件，例如显示文字的控件，显示图片的控件等。视图***可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供终端设备的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在***顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，终端设备振动，指示灯闪烁等。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓***的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

***库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子***进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如：MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

虽然通过参照本申请的某些优选实施例，已经对本申请进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本申请的精神和范围。

Claims

1.一种用于电子设备的搜索方法，其特征在于，包括：

获取用户输入的搜索数据；

提取所述搜索数据的特征，并基于提取的所述特征生成所述搜索数据的搜索特征向量；

将所述搜索特征向量与索引库中的多个索引特征向量进行比对，以选择出所述索引库中与所述搜索特征向量之间的相近度大于相近度阈值的索引特征向量，

其中，在所述索引库中，所述多个索引特征向量与多个模态的多个结果数据之间存在对应关系；

将与所述选择出的索引特征向量对应的结果数据作为搜索结果输出，其中，所述搜索结果包括的结果数据具有多个模态。

2.根据权利要求1所述的搜索方法，其特征在于，所述搜索特征向量与所述索引特征向量之间的相近度通过以下公式计算得出：

3.根据权利要求1或2所述的搜索方法，其特征在于，所述电子设备上具有所述索引库，并且，与所述索引库中的所述多个索引特征向量具有对应关系的所述多个模态的多个结果数据为所述电子设备上的数据。

4.根据权利要求3所述的搜索方法，其特征在于，所述电子设备为移动终端。

5.根据权利要求4所述的搜索方法，其特征在于，所述用户在所述移动终端的负一屏输入所述搜索数据。

6.根据权利要求4所述的搜索方法，其特征在于，所述用户在所述移动终端的备忘录中输入所述搜索数据。

7.根据权利要求1至6中任一项所述的搜索方法，其特征在于，所述多个模态包括图像、视频、音频、文本、所述电子设备的传感器的检测数据。

8.一种电子设备，其特征在于，包括：

获取模块，用于获取用户输入的搜索数据；

特征提取模块，用于提取所述搜索数据的特征，并基于提取的所述特征生成所述搜索数据的搜索特征向量；

相近度计算模块：用于将所述搜索特征向量与索引库中的多个索引特征向量进行比对，以选择出所述索引库中与所述搜索特征向量之间的相近度大于相近度阈值的索引特征向量，

输出模块：将与所述选择出的索引特征向量对应的结果数据作为搜索结果输出，其中，所述搜索结果包括的结果数据具有多个模态。

9.一种机器可读介质，其特征在于，所述机器可读介质上存储有指令，该指令在机器上执行时使机器执行权利要求1至7中任一项所述的方法。

10.一种电子设备，包括：存储器，用于存储由***的一个或多个处理器执行的指令，以及处理器，是***的处理器之一，用于执行权利要求1至7中任一项所述的方法。