CN114461890A

CN114461890A - 分层多模态的知识产权搜索引擎方法与***

Info

Publication number: CN114461890A
Application number: CN202111531155.4A
Authority: CN
Inventors: 周凡; 苏志宏; 林谋广
Original assignee: Guangdong Ronggu Innovation Industrial Park Co ltd; Sun Yat Sen University
Current assignee: Guangdong Ronggu Innovation Industrial Park Co ltd; Sun Yat Sen University
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-05-10

Abstract

本发明公开了一种分层多模态的知识产权搜索引擎方法。包括：预处理输入图像；将输入图像输入到分层深度图像检索模型，得到图像检索结果；将数据集中文本字段输入道文本语义检索模型，得到文本检索结果；将所述文本检索结果输入到相似知识产权推荐模型，得到相似推荐结果；将上述所述图像检索结果，文本检索结果与相似推荐结果进行多模态结果融合，得到融合文本结果，将融合文本结果与用户输入的查询文本进行重新排序，得到最终的检索结果。本发明还公开了分层多模态的知识产权搜索引擎***。本发明通过分层深度图像检索模型，文本语义检索模型提高检索的速度又保持检索的精度，相对于论文的搜索方法，该方案能更好表达用户检索需求。

Description

分层多模态的知识产权搜索引擎方法与***

技术领域

本发明涉及多模态搜索、深度学习，具体涉及分层多模态的知识产权搜索引擎方法与***。

背景技术

在大数据时代，人工智能在各个行业都有着广泛的应用。对于知识产权的检索来说，知识网络规模巨大、连接复杂，知识节点具有异质性。面对海量信息，基于分类目录和关键词的搜索方式越来越难以适应用户的搜索需求，迫切需要将检索方式从基于词层面提高到基于语义层面，研发高增量、高时效、多模态知识产权超图网络建模技术能准确地捕捉到用户所输入语句后面的真正意图，并以此进行搜索，从而更准确地向用户返回最符合其需求的搜索结果。

知识产权检索是实现将用户的片段输入去检索，返回给用户最符合其需求的搜索结果的一种技术应用。现有的技术应用大多数是以文本搜文本的方式进行知识产权检索的。但是由于这种技术是单模态的，用户的片段输入往往很难准确表达出用户的检索需求。这时候就需要多模态的建模技术，来准确捕捉用户的真正意图。

多模态知识检索是一种应用于知识产权检索的多模态检索技术，所谓的多模态检索，就是用户可以输入不同类型的输入进行检索，比如用文本搜图，用图搜文本等。在知识产权的检索当中，用户可以输入自己的检索字段以及跟自己搜索意图相关的图片，通过搜索引擎结合对这两种类型的输入信息检索，得到最符合自己需求的搜索结果。但是受限于人工智能相关技术的发展，搜索引擎难以很好地将这两种不同类型的输入进行融合分析，返回的检索结果往往会带有一定的偏向性，会影响最终的检索结果。

目前的现有技术之一，一种通过分析用户搜索词生成相关搜索结果的方法，该方法获取用户输入的搜索词，根据搜索词确定用户需求类型，并根据需求类型确定对应的引导策略；根据引导策略和搜索词生成论文的相关搜索结果并展现在搜索结果页面，将搜索结果页面提供给用户。该方案的缺点是这种技术是单模态的，用户的片段输入往往难以准确表达用户的检索需要。

目前的现有技术之二，基于百科的中文知识搜索***的设计与实现的方法。该方法通过分词、词性标注，同义词转换，问题词转换，核心实体识别、检索、结果重排等流程，实现了基于百科实体的知识搜索。该方法的缺点是在检索时还是以同义词转换等方式来计算查询文本和待检索文本的相似度，并没有在词向量嵌入特征空间中计算相似度，要通过百科内的同义词词表实现，需要百科知识库的介入。

发明内容

本发明的目的是克服现有方法的不足，提出了分层多模态的知识产权搜索引擎方法与***。本发明解决的主要问题，一是现有通过获取用户输入的搜索词，根据搜索词确定用户的需求类型，并根据需求类型确定对应的引导策略，但是该技术是单模态的，用户的片段输入难以准确表达用户的检索需求。二是现有基于百科的中文知识搜索***的设计与实现，该技术通过在检索时还是以同义词转换等方式来计算查询文本和待检索文本的相似度，要通过百科内的同义词词表实现，需要百科知识库的介入。

为了解决上述问题，本发明提出了一种分层多模态的知识产权搜索引擎方法，所述方法包括：

从知识产权数据库中筛选出输入图像与文本字段，并将图像处理成统一尺寸；

将知识产权数据集中的输入图像输入到分层深度图像检索模型当中，得到图像检索结果，对于查询图片先用图像深层特征提取网络提取图像深层特征，然后通过哈希编码网络以及二值化操作得到查询图片的二进制码，利用该哈希值进行粗检索，取前K个结果再进行基于图像深层特征细检索，最终得到分层深度图像检索模型的图像检索结果R_v；

将知识产权数据集中的文本字段输入到文本语义检索模型当中，得到文本检索结果，通过文本分类网络对查询文本进行提前分类，通过类别筛选有效缩小搜索范围，再在筛选出来的知识产权里通过文本嵌入特征提取模型得到的文档特征向量之间的欧氏距离来进行检索，得到文本检索结果；

将上述所述得到的文本检索输入到相似知识产权推荐模型中，得到相似推荐结果；

将上述所述得到的图像检索结果、上述所述得到的文本检索结果与上述所述得到的相似推荐结果进行多模态结果融合，将所得到结果融合组成R_b，将融合文本结果R_b与用户输入的查询文本在文本嵌入特征空间中基于欧氏距离进行重新排序，得到最终的检索结果R_f；

优选地，所述从知识产权数据库中筛选出输入图像与文本字段，并将图像处理成统一尺寸，具体为：

将输入的知识产权中的流程图、网络结构图等图像运用中心等比例切割和等比例缩放的方式处理成统一尺寸，并对每一次的输入图像进行随机旋转角度等数据增强手段。

优选地，所述将知识产权数据集中的输入图像输入到分层深度图像检索模型当中，得到图像检索结果，对于查询图片先用图像深层特征提取网络提取图像深层特征，然后通过哈希编码网络和二值化操作得到查询图片的二进制码，利用该哈希值进行粗检索，取前K个结果再进行基于图像深层特征细检索，最终得到分层深度图像检索模型的检索结果R_v，具体为：

选用ResNet-50作为模型的骨架网络，将输入图像输入到在图像分类数据集ImageNet上预训练好的ResNet模型中，提取服装图像的视觉特征；

将所述提取的视觉特征输入到哈希编码网络进行哈希编码，将特征提取网络提取出来的高纬图像特征输入全连接层，输出n维的类二进制值，最后通过二值化操作转化为哈希特征，在误差反向传播的过程中，更新包含图像深层特征提取网络在内的整个网络参数，以更好地拟合网络在哈希编码任务上的权重，损失函数如下：

N为训练时一个batch选取的图像对的个数，h_i,1,h_i,2表示第i个图像对中两张图像的网络输出，即类二进制特征表示，s_i表示第i个图像对中的两张图像是否相似，在数据集中就表现为两张服饰图像是否属于相同类别，相似为1，否则为0，t为边界阈值参数，α为正则化强度参数。

该损失函数的前两项能够很好地让同类别的图片生成的类二值码尽可能相近，而不同类别的图像的类二值码尽可能相互远离，优化损失的过程中会让h_i,1,h_i,2分别尽可能接近-1或1，这样可以生成接近二值的输出，最后把0作为分界点进行二值化，即可获得标准二值输出；

汉明空间中进行粗检索。在粗检索阶段，对于查询图片经过网络输出后得到的n维二值表示b_q，数据库中任一项服饰的二值表示b_i，根据如下汉明距离对数据库中的服装项进行排序：

在图像特征空间中进行检索。在细检索阶段，取粗检索阶段得到的前K项结果，对于查询图片经过ResNet得到的输出表示为r_q，粗检索阶段得到的前K项中任一结果经过ResNet得到的输出表示为r_i，再对其基于图像深层特征的欧氏距离进行排序：

dist_f(r_q，r_i)＝||r_q，r_i||₂

从而得到较为准确的检索结果。

优选地，所述在通过文本分类网络对查询文本进行提前分类，通过类别筛选有效地缩小搜索范围，再在筛选出来的知识产权里通过文本嵌入特征提取模型得到的文档特征向量之间的欧氏距离来进行检索，得到文本检索结果，具体为：

使用基于doc2vec的文本嵌入特征提取模型，提取输入的查询文本的特征向量，使用以LSTM为核心部件构造的文本分类网络，将查询文本输入到文本分类网络，得到分类出的文本类别，在筛选出来的知识产权里通过文本嵌入特征提取模型得到的文档特征向量之间的欧氏距离来进行检索。

优选地，所述将上述所述得到的文本检索输入到相似知识产权推荐模型中，推荐出相似结果，具体为：

在推荐模型中，定义关联性为两个单词x,y的互信息：

两个单词关联性越强则互信息值越大，通常表现为两个单词经常出现在同一个句子、经常搭配出现。使用word2vec中skip-gram模型及其优化加速模块hierarchicalsoftmax(即h-softmax)进行训练，对单词w_i出现的情况下单词w_k出现的概率建模，即：

p(w_k|w_i)

优选地，所述将上述所述得到的图像检索结果、所述得到的文本检索结果和所述得到的相似推荐结果进行多模态结果融合，具体为：

通过分层深度图像检索模型检索出图片与检索库中相似的前k_visual个文本结果R_v，通过文本语义检索模型检索出与文本描述语义相近的前k_text个文本结果R_t，接着把R_t中的前h_similar个输入相似知识产权推荐模型进行知识产权推荐，取前k_similar个作为相似结果R_s。最后把以上三个结果融合在一起组成融合文本结果R_b，将R_b与用户输入的查询文本在文本嵌入特征空间中基于欧氏距离进行重新排序，得到最终的检索结果R_f。

相应地，本发明还提供了一种分层多模态的知识产权搜索引擎***，包括：

图像预处理单元，用于从知识产权数据库中筛选出输入图像与文本字段，并将图像处理成统一尺寸；

图像检索单元，用于将知识产权数据集中的输入图像输入到分层深度图像检索模型当中，得到图像检索结果，对于查询图片先用图像深层特征提取网络提取图像深层特征，然后通过哈希编码网络以及二值化操作得到查询图片的二进制码，利用该哈希值进行粗检索，取前K个结果再进行基于图像深层特征细检索，最终得到分层深度图像检索模型的检索结果R_v；

文本检索单元，用于将知识产权数据集中的文本字段输入到文本语义检索模型当中，得到文本检索结果，通过文本分类网络对查询文本进行提前分类，通过类别筛选有效缩小搜索范围，再在筛选出来的知识产权里通过文本嵌入特征提取模型得到的文档特征向量之间的欧氏距离来进行检索；

文本推荐单元，用于将上述所述得到的文本检索输入到相似知识产权推荐模型中，推荐出相似结果；

多模态融合单元，用于将上述所述得到的图像检索结果、上述所述得到的文本检索结果与上述所述得到的相似推荐结果进行多模态结果融合，将所得到结果融合组成R_b，将融合文本结果R_b与用户输入的查询文本在文本嵌入特征空间中基于欧氏距离进行重新排序，得到最终的检索结果R_f。

实施本发明，具有如下有益效果：

本发明运用中文本语义检索模型，利用文本分类器提前分类缩小检索范围，更好表征文本，提升了检索速度和精度；本发明设计分层深度图像检索模型，通过图像深层特征提取网络捕获图像的深层特征，利用哈希编码网络生成简洁的哈希特征，以哈希特征粗检索再以深层特征细检索，有效提高检索速度的同时保持效果相当的检索精度；本发明使用预训练和微调方案，相比传统的视觉特征表征方法，预训练的过程具有更广的适应性；本发明设计的相似知识产权推荐模型，采用了一种基于概率驱动的方法来量化这种相似性，可以检索出与用户意图接近的检索结果；本发明设计的多模态融合的知识产权搜索引擎***，用户可以输入查询文本以及相关的查询图片，搜索引擎可以综合考虑这两种类型的输入返回检索结果，这种多模态输入的方式更能准确捕捉用户的搜索意图。

附图说明

图1是本发明实施例的分层多模态的知识产权搜索引擎方法的总体流程图；

图2是本发明实施例的分层多模态的知识产权搜索引擎***的结构图；

图3是本发明实施例的分层深度图像检索流程图；

图4是本发明实施例的文本语义检索流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例的分层多模态的知识产权搜索引擎方法的总体流程图，如图1所示，该方法包括：

S1，从知识产权数据库中筛选出输入图像与文本字段，并将图像处理成统一尺寸；

S2，将知识产权数据集中的输入图像输入到分层深度图像检索模型当中，得到图像检索结果，对于查询图片先用图像深层特征提取网络提取图像深层特征，然后通过哈希编码网络以及二值化操作得到查询图片的二进制码，利用该哈希值进行粗检索，取前K个结果再进行基于图像深层特征细检索，最终得到分层深度图像检索模型的检索结果R_v；

S3，将知识产权数据集中的文本字段输入到文本语义检索模型当中，得到文本检索结果，通过文本分类网络对查询文本进行提前分类，通过类别筛选有效缩小搜索范围，然后在筛选出来的知识产权里通过文本嵌入特征提取模型得到的文档特征向量之间的欧氏距离来进行检索；

S4，将上述所述得到的文本检索输入到相似知识产权推荐模型中，推荐出相似结果；

S5，将上述所述得到的图像检索结果、所述得到的文本检索结果和所述得到的相似推荐结果进行多模态结果融合。

步骤S1，具体如下：

S1-1，输入知识产权中的流程图、网络结构图等原始图像，将输入的原始图像运用中心等比例切割和等比例缩放的方式处理成统一尺寸，并对每一次的输入图像进行随机旋转角度等数据增强手段。

步骤S2，如图3所示，具体如下：

将原始图像输入到在图像分类数据集ImageNet上预训练好的ResNet模型中，提取服装图像的视觉特征。选用ResNet-50作为模型的骨架网络，该网络具有50层网络层结构，最后一层输出的特征维度为2048，原本网络最后一层的全连接层没有被加入网络中；

将所述提取的视觉特征输入到哈希编码网络进行哈希编码。特征提取网络提取出来的高纬图像特征输入全连接层，输出n维的类二进制值，最后通过二值化操作转化为哈希特征。在误差反向传播的过程中，更新包含图像深层特征提取网络在内的整个网络的参数，以更好地拟合网络在哈希编码任务上的权重。损失函数如下：

其中N为训练时一个batch选取的图像对的个数，h_i,1,h_i,2表示第i个图像对中两张图像的网络输出，即类二进制特征表示，s_i表示第i个图像对中的两张图像是否相似，在数据集中就表现为两张服饰图像是否属于相同类别，相似为1，否则为0，t为边界阈值参数，α为正则化强度参数。

当两张图像是同类别时，该损失函数的第一项中的

惩罚了类二值输出不相似的图像对；当两张图像是不同类别时，第二项中的

惩罚了类二值输出相似的图像对，t为希望两张不同类的图像对应的网络输出的距离。该损失函数的前两项能够很好地让同类别的图片生成的类二值码尽可能相近，而不同类别的图像的类二值码尽可能相互远离。α(|||h_i，1|-1||₁+|||h_i，2|-1||₁)为正则化项，优化损失的过程中会让h_i,1,h_i,2分别尽可能接近-1或1，这样就可以生成接近二值的输出。最后二值化的时候把0作为分界点即可获得标准二值输出。

S2-3，在汉明空间中进行粗检索。在粗检索阶段，对于查询图片经过网络输出后得到的n维二值表示b_q，数据库中任一项服饰的二值表示b_i，根据如下汉明距离对数据库中的服装项进行排序：

S2-4，在图像特征空间中进行检索。在细检索阶段，取粗检索阶段得到的前K项结果，，对于查询图片经过ResNet得到的输出表示为r_q，粗检索阶段得到的前K项中任一结果经过ResNet得到的输出表示为r_i，再对其基于图像深层特征的欧氏距离进行排序：

diSt_f(r_q，r_i)＝||r_q，r_i||₂.

从而得到较为准确的检索结果。

步骤S3，如图4所示，具体如下：

S3-1，：将查询文本输入到文本嵌入特征提取模型中提取文本的特征向量。本方法的文本嵌入特征提取模型基于doc2vec，该模型训练目标为使预测当前词的平均对数概率最大化：

其中N为文档长度，k为窗口大小的一半，w_i为单词。其中概率p经过了softmax处理，归一化前的概率为：：

p_u＝b+Kf(w_i-k，…，w_i+k，para；W，D)

其中，其中b和K为softmax参数，f为把从W中提取词向量与D中提取的文档向量进行级联或求平均得到中间向量表示，然后用该向量去预测下一个单词：

doc2vec还有另一种框架：PV-DBOW，它和PV-DM相反，不考虑上下文单词顺序，以文档向量预测文档窗口中的单词。本方法所构造的文本嵌入特征提取模型是基于doc2vec实现的，并且充分利用了doc2vec的两种模型的优点进行了改造。PV-DM理解了语义信息的同时考虑了单词顺序，PV-DBOW又具有存储数据少(因为不需要保存词向量矩阵W)的优点，因此为了利用两者的优点，获得更加准确稳定的向量表示，把两种模型得到的文档向量组合起来使用，组合方法就是把同一文档得到的两种向量进行级联得到更高维更高文档辨识度的向量。

S3-2，将查询文本输入到文本分类网络分类出文本类别。本方法以LSTM为核心部件构造了文本分类网络，整个网络包含Embedding层、spatialdropout1d层、LSTM层和FC层。先对输入的查询文本进行数据清洗、构建词汇表并按照词汇表把文档标号化处理构建250维的标号向量，接着把向量输入embedding层，得到包含250个timestep的100维文档嵌入表示。为了适当减少每个timestep之间的依赖性，使用Spatialropout1D层进行处理，再把文档嵌入输入LSTM，因为并不需要生成序列，最终目标是分类，所以LSTM层里采用多对一的结构，只取最后一个timestep的输出，即得到100维的输出。最后经过全连接层即FC层生成n维向量，这里的n表示服饰类别数，这是一个多分类任务，所以采用softmax激活函数对输出做处理，最终得到查询文本所属于的知识产权类别。。

S3-3，将S31以及S32输出的结果在类内进行向量检索。在筛选出来的知识产权里通过文本嵌入特征提取模型得到的文档特征向量之间的欧氏距离来进行检索。欧式距离的计算公式与dist_f(r_q，r_i)＝||r_q，r_i||₂类似；

步骤S4，具体如下：

S4-1，在推荐模型当中，首先把关联性定义为两个单词x,y的互信息：

两个单词关联性越强则互信息值越大，这通常表现为两个单词经常出现在同一个句子、经常搭配出现。要解决上式，首先要对单词w_i出现的情况下单词w_k出现的概率建模，即：

p(w_k|w_i)

而要做到这一点，word2vec中skip-gram模型及其优化加速模块hierarchicalsoftmax(即h-softmax)是最好的选择。

H-softmax之所以可以加速训练过程，是因为其采用了哈夫曼树对单词进行编码，高频词路径短，低频词路径长，这样可以有效地压缩词典，加快概率的计算。哈夫曼树结构中，每个叶子结点代表一个单词，以词w₂为例，从根节点到w₂的路径上的中间节点为m(w₂,1)、m(w₂,2)、m(w₂,3)，则输入w_i预测w₂的概率为路径上经过这些中间结点的概率的乘积：

p(w₂|w_i)＝p(m(w₂，1)，left)*p(m(w₂，2)，left)*p(m(w₂，3)，right).

中间结点m(w_i,j)向下走的概率为：

其中符号函数表示在结点m(w_i,j)向左走还是向右走：

步骤S5，具体如下：

通过分层深度图像检索模型检索出图片与检索库中相似的前k_visual个文本结果R_v，通过文本语义检索模型检索出与文本描述语义相近的前k_text个文本结果R_t，接着把R_t中的前h_similar个输入相似知识产权推荐模型进行知识产权推荐，取前k_similar个作为相似结果R_s。最后把以上三个结果融合在一起组成R_b，R_b与用户输入的查询文本在文本嵌入特征空间中基于欧氏距离进行重新排序，得到最终的检索结果R_f，从而实现多模态知识产权检索结果融合

相应地，本发明还提供了分层多模态的知识产权搜索引擎***，如图2所示，包括：

图像预处理单元1，用于从知识产权数据库中筛选出输入图像与文本字段，并将图像处理成统一尺寸。

具体地，将输入的知识产权中的流程图、网络结构图等图像运用中心等比例切割和等比例缩放的方式处理成统一尺寸，并对每一次的输入图像进行随机旋转角度等数据增强手段。

图像检索单元2，用于将知识产权数据集中的输入图像输入到分层深度图像检索模型当中，得到图像检索结果，对于查询图片先用图像深层特征提取网络提取图像深层特征，然后通过哈希编码网络以及二值化操作得到查询图片的二进制码，利用该哈希值进行粗检索，取前K个结果再进行基于图像深层特征细检索，最终得到分层深度图像检索模型的图像检索结果R_v。

具体地，选用ResNet-50作为模型的骨架网络，将输入图像输入到在图像分类数据集ImageNet上预训练好的ResNet模型中，提取服装图像的视觉特征；

在图像特征空间中进行检索。在细检索阶段，在取粗检索阶段得到的前K项结果，对于查询图片经过ResNet得到的输出表示为r_q，粗检索阶段得到的前K项中任一结果经过ResNet得到的输出表示为r_i，再对其基于图像深层特征的欧氏距离进行排序：

dist_f(r_q，r_i)＝||r_q，r_i||₂

从而得到较为准确的检索结果。

文本检索单元3，用于通过文本分类网络对查询文本进行提前分类，通过类别筛选有效地缩小搜索范围，再在筛选出来的知识产权里通过文本嵌入特征提取模型得到的文档特征向量之间的欧氏距离来进行检索，得到文本检索结果。

具体地，使用基于doc2vec的文本嵌入特征提取模型，提取输入的查询文本的特征向量，使用以LSTM为核心部件构造的文本分类网络，将查询文本输入到文本分类网络，得到分类出的文本类别，在筛选出来的知识产权里通过文本嵌入特征提取模型得到的文档特征向量之间的欧氏距离来进行检索。

文本推荐单元4，用于将上述所述得到的文本检索输入到相似知识产权推荐模型中，推荐出相似结果。

具体地，在推荐模型中，定义关联性为两个单词x,y的互信息：

p(w_k|w_i)

多模态融合单元5，用于将上述所述得到的图像检索结果、所述得到的文本检索结果和所述得到的相似推荐结果进行多模态结果融合。

具体为，通过分层深度图像检索模型检索出图片与检索库中相似的前k_visual个文本结果R_v，通过文本语义检索模型检索出与文本描述语义相近的前k_text个文本结果R_t，接着把R_t中的前h_similar个输入相似知识产权推荐模型进行知识产权推荐，取前k_similar个作为相似结果R_s。最后把以上三个结果融合在一起组成融合文本结果R_b，将R_b与用户输入的查询文本在文本嵌入特征空间中基于欧氏距离进行重新排序，得到最终的检索结果R_f。

因此，本发明通过分层深度图像检索模型，利用图像深层特征提取网络捕获图像的深层特征，运用哈希编码网络能生成简洁的哈希特征，以哈希特征粗检索再以深层特征细检索可以有效提高检索速度的同时保持效果相当的检索精度；发明中文本语义检索模型，利用文本分类器以提前分类缩小检索范围，能更好地表征文本；利用相似知识产权推荐模型，采用概率驱动的方法来量化这种相似性，可以检索出与用户意图接近的检索结果；使用了预训练和微调方案，相比传统的视觉特征表征方法，预训练的过程具有更广的适应性，可以提取出既通用又具有特定场景含义的视觉特征；发明多模态融合的知识产权搜索引擎***，用户可以输入查询文本以及相关的查询图片，搜索引擎可以综合考虑这两种类型的输入返回检索结果，这种多模态输入的方式更能准确捕捉用户的搜索意图。

以上对本发明实施例所提供的分层多模态的知识产权搜索引擎方法与***进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种分层多模态的知识产权搜索引擎方法，其特征在于，所述方法包括：

将知识产权数据集中的输入图像输入到分层深度图像检索模型当中，得到图像检索结果，对于查询图片先用图像深层特征提取网络提取图像深层特征，然后通过哈希编码网络以及二值化操作得到查询图片的二进制码，利用该哈希值进行粗检索，取前K个结果再进行基于图像深层特征细检索，最终得到分层深度图像检索模型的检索结果R_v；

将知识产权数据集中的文本字段输入到文本语义检索模型当中，得到文本检索结果，通过文本分类网络对查询文本进行提前分类，通过类别筛选有效缩小搜索范围，再在筛选出来的知识产权里通过文本嵌入特征提取模型得到的文档特征向量之间的欧氏距离来进行检索；

将上述所述得到的文本检索输入到相似知识产权推荐模型中，推荐出相似结果；

将上述所述得到的图像检索结果、上述所述得到的文本检索结果与上述所述得到的相似推荐结果进行多模态结果融合，将所得到结果融合组成R_b，将融合文本结果R_b与用户输入的查询文本在文本嵌入特征空间中基于欧氏距离进行重新排序，得到最终的检索结果R_f。

2.如权利要求1所述的分层多模态的知识产权搜索引擎方法，其特征在于，所述从知识产权数据库中筛选出输入图像与文本字段，并将图像处理成统一尺寸，具体为：

将输入的知识产权中的流程图、网络结构图等输入图像运用中心等比例切割和等比例缩放的方式处理成统一尺寸，并对每一次的输入图像进行随机旋转角度等数据增强手段。

3.如权利要求1所述的分层多模态的知识产权搜索引擎方法，其特征在于，所述将知识产权数据集中的输入图像输入到分层深度图像检索模型当中，得到图像检索结果，对于查询图片先用图像深层特征提取网络提取图像深层特征，然后通过哈希编码网络和二值化操作得到查询图片的二进制码，利用该哈希值进行粗检索，取前K个结果再进行基于图像深层特征细检索，最终得到分层深度图像检索模型的检索结果R_v，具体为：

N为训练时一个batch选取的图像对的个数，h_i,1,h_i,2表示第i个图像对中两张图像的网络输出，即类二进制特征表示，s_i表示第i个图像对中的两张图像是否相似，在数据集中就表现为两张服饰图像是否属于相同类别，相似为1，否则为0，t为边界阈值参数，α为正则化强度参数；

汉明空间中进行粗检索，在粗检索阶段，对于查询图片经过网络输出后得到的n维二值表示b_q，数据库中任一项服饰的二值表示b_i，根据如下汉明距离对数据库中的服装项进行排序：

在图像特征空间中进行检索，在细检索阶段，取粗检索阶段得到的前K项结果，对于查询图片经过ResNet得到的输出表示为r_q，粗检索阶段得到的前K项中任一结果经过ResNet得到的输出表示为r_i，再对其基于图像深层特征的欧氏距离进行排序：

dist_f(r_q,r_i)＝‖r_q,r_i‖₂.

从而得到较为准确的检索结果。

4.如权利要求1所述的分层多模态的知识产权搜索引擎方法，其特征在于，所述通过文本分类网络对查询文本进行提前分类，通过类别筛选有效地缩小搜索范围，再在筛选出来的知识产权里通过文本嵌入特征提取模型得到的文档特征向量之间的欧氏距离来进行检索，得到文本检索结果，具体为：

使用基于doc2vec的文本嵌入特征提取模型，提取输入的查询文本的特征向量；

使用以LSTM为核心部件构造的文本分类网络，将查询文本输入到文本分类网络，得到分类出的文本类别；

在筛选出来的知识产权里通过文本嵌入特征提取模型得到的文档特征向量之间的欧氏距离来进行检索。

5.如权利要求1所述的分层多模态的知识产权搜索引擎方法，其特征在于，所述将上述所述得到的文本检索输入到相似知识产权推荐模型中，推荐出相似结果，具体为：

在推荐模型中，定义关联性为两个单词x,y的互信息：

两个单词关联性越强则互信息值越大，这通常表现为两个单词经常出现在同一个句子、经常搭配出现，用word2vec中skip-gram模型及其优化加速模块hierarchical softmax(即h-softmax)进行训练，对单词w_i出现的情况下单词w_k出现的概率建模，即：

p(w_k|w_i)。

6.如权利要求1所述的分层多模态的知识产权搜索引擎方法，其特征在于，所述将上述所述得到的图像检索结果、所述得到的文本检索结果和所述得到的相似推荐结果进行多模态结果融合，具体为：

通过分层深度图像检索模型检索出图片与检索库中相似的前k_visual个文本结果R_v，通过文本语义检索模型检索出与文本描述语义相近的前k_text个文本结果R_t，接着把R_t中的前h_similar个输入相似知识产权推荐模型进行知识产权推荐，取前k_similar个作为相似结果R_s，后把以上三个结果融合在一起组成融合文本结果R_b，将R_b与用户输入的查询文本在文本嵌入特征空间中基于欧氏距离进行重新排序，得到最终的检索结果R_f。

7.一种基于分层多模态的知识产权搜索引擎***，其特征在于，所述***包括：

图像检索单元，用于对查询图片先用图像深层特征提取网络提取图像深层特征，然后通过哈希编码网络和二值化操作得到查询图片的二进制码，利用该哈希值进行粗检索，取前K个结果再进行基于图像深层特征细检索，最终得到分层深度图像检索模型的检索结果R_v；

文本检索单元，用于通过文本分类网络对查询文本进行提前分类，通过类别筛选有效缩小搜索范围，再在筛选出来的知识产权里通过文本嵌入特征提取模型得到的文档特征向量之间的欧氏距离来进行检索；

多模态融合单元，用于上述所述得到的图像检索结果、上述所述得到的文本检索结果与上述所述得到的相似推荐结果进行多模态结果融合，将所得到结果融合组成R_b，将融合文本结果R_b与用户输入的查询文本在文本嵌入特征空间中基于欧氏距离进行重新排序，得到最终的检索结果R_f。

8.如权利要求7所述的分层多模态的知识产权搜索引擎***，其特征在于，所述图像预处理单元，需要将输入的知识产权中的流程图、网络结构图等图像运用中心等比例切割和等比例缩放的方式处理成统一尺寸，并对每一次的输入图像进行随机旋转角度等数据增强手段。

9.如权利要求7所述的分层多模态的知识产权搜索引擎***，其特征在于，所述图像检索单元，需要将输入图像输入到在图像分类数据集ImageNet上预训练好的ResNet模型中，提取服装图像的视觉特征，将所述提取的视觉特征输入到哈希编码网络进行哈希编码，在误差反向传播的过程中，更新整个网络参数，在汉明空间中进行粗检索，然后在图像特征空间中进行细检索，对检索结果基于图像深层特征的欧氏距离进行排序，从而得到较为准确的检索结果。

10.如权利要求7所述的分层多模态的知识产权搜索引擎***，其特征在于，所述文本检索单元，需要将使用基于doc2vec的文本嵌入特征提取模型，提取输入的查询文本的特征向量，使用以LSTM为核心部件构造的文本分类网络，将查询文本输入到文本分类网络，得到分类出的文本类别，在筛选出来的知识产权里通过文本嵌入特征提取模型得到的文档特征向量之间的欧氏距离来进行检索。

11.如权利要求7所述的分层多模态的知识产权搜索引擎***，其特征在于，所述文本推荐单元，需要在推荐模型中，定义关联性为两个单词x,y的互信息，两个单词关联性越强则互信息值越大，通常表现为两个单词经常出现在同一个句子、经常搭配出现，用word2vec中skip-gram模型及其h-softmax进行训练，对单词w_i出现的情况下单词w_k出现的概率建模。

12.如权利要求7所述的分层多模态的知识产权搜索引擎***，其特征在于，所述多模态融合单元，需要通过分层深度图像检索模型检索出图片与检索库中相似的前k_visual个文本结果R_v，通过文本语义检索模型检索出与文本描述语义相近的前k_text个文本结果R_t，接着把R_t中的前h_similar个输入相似知识产权推荐模型进行知识产权推荐，取前k_similar个作为相似结果R_s，后把以上三个结果融合在一起组成融合文本结果R_b，将R_b与用户输入的查询文本在文本嵌入特征空间中基于欧氏距离进行重新排序，得到最终的检索结果R_f。