CN107491456A

CN107491456A - 图像排序方法和装置

Info

Publication number: CN107491456A
Application number: CN201610412993.2A
Authority: CN
Inventors: 余宙; 潘攀; 华先胜
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2016-06-13
Filing date: 2016-06-13
Publication date: 2017-12-19

Abstract

本申请提出一种图像排序方法和装置，该图像排序方法包括：确定待排序的多个图像；获取每个图像的伴随文本信息；根据所述伴随文本信息，使用图排序算法计算每个图像的得分；根据所述得分，对所述多个图像进行排序。该方法可以依据语义相似度对图像进行排序，提升用户体验。

Description

图像排序方法和装置

技术领域

本申请涉及图像处理技术领域，尤其涉及一种图像排序方法和装置。

背景技术

相关技术中，图像搜索通常是基于内容的图像搜索，即用户给定一张图像作为查询的输入，搜索引擎对图像进行内容分析后提取特征，从海量图像数据库里返回若干个最相关的图像结果。另外，在图像排序时也是基于内容，根据内容相关性进行排序。

但是，由于人对图像相似性的判别依据与计算机对相似性的判别依据之间的不同，造成了人所理解的“语义相似”与计算机理解的“视觉相似”之间的差异。这就是图像搜索领域广泛存在的“语义鸿沟”问题。

由于基于内容的图像搜索和排序算法通常会面临“语义鸿沟”的问题，无法从结果中过滤掉这些语义上不相关的图像，降低了用户的使用体验。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本申请的一个目的在于提出一种图像排序方法，该方法可以在图像排序时参考图像间的语义信息，满足人对语义相似的需求，避免语义鸿沟问题，从而可以依据语义相似度对图像进行排序，提升用户体验。

本申请的另一个目的在于提出一种图像排序装置。

为达到上述目的，本申请第一方面实施例提出的图像排序方法，包括：确定待排序的多个图像；获取每个图像的伴随文本信息；根据所述伴随文本信息，使用图排序算法计算每个图像的得分；根据所述得分，对所述多个图像进行排序。

本申请第一方面实施例提出的图像排序方法，通过获取图像的伴随文本信息并据此进行后续图像排序，由于伴随文本信息相对于图像内容包含更多的语义信息，因此，在图像排序时参考图像间的语义信息，满足人对语义相似的需求，避免语义鸿沟问题，从而可以依据语义相似度对图像进行排序，提升用户体验。

为达到上述目的，本申请第二方面实施例提出的图像排序装置，包括：确定模块，用于确定待排序的多个图像；获取模块，用于获取每个图像的伴随文本信息；计算模块，用于根据所述伴随文本信息，使用图排序算法计算每个图像的得分；排序模块，用于根据所述得分，对所述多个图像进行排序。

本申请第二方面实施例提出的图像排序装置，通过获取图像的伴随文本信息并据此进行后续图像排序，由于伴随文本信息相对于图像内容包含更多的语义信息，因此，在图像排序时参考图像间的语义信息，满足人对语义相似的需求，避免语义鸿沟问题，从而可以依据语义相似度对图像进行排序，提升用户体验。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本申请一个实施例提出的图像排序方法的流程示意图；

图2是本申请实施例中由于“语义鸿沟”问题被计算机判别为相似的两张图像的示意图；

图3是本申请另一个实施例提出的图像排序方法的流程示意图；

图4是本申请一个实施例提出的图像排序装置的结构示意图；

图5是本申请另一个实施例提出的图像排序装置的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能理解为对本申请的限制。相反，本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本申请一个实施例提出的图像排序方法的流程示意图。

参见图1，本实施例的方法包括：

S11：确定待排序的多个图像。

其中，图像排序可以应用于很多场景，因此，待排序的多个图像可以依据场景的不同而采用不同的方式确定。

例如，在图像搜索时，可以基于查询图像的内容对查询图像进行搜索，将搜索后得到的内容相关度满足要求条件的多个图像，确定为待排序的多个图像。

S12：获取每个图像的伴随文本信息。

其中，图像在保存时，通常来讲不仅会保存图像本身，还会保存图像的伴随文本信息，伴随文本信息例如包括：标题或标签等。

在伴随文本信息可以表达更多的语义信息，例如，该张图像是人、动物或植物等。

S13：根据所述伴随文本信息，使用图排序算法计算每个图像的得分。

其中，在得到每个图像的伴随文本信息后，可以根据伴随文本信息确定对应的文本特征向量。在得到每个图像对应的文本特征向量后，可以根据不同的图像对应文本特征向量计算图像之间的关联矩阵，再根据关联矩阵采用图排序算法，计算得到每个图像的得分。

具体计算方式可以参见后续实施例的描述。

S14：根据所述得分，对所述多个图像进行排序。

例如，在得到每个图像的得分后，可以根据得分从高到低的顺序，对图像从前到后进行排序。

通常的基于内容的图像搜索时，计算机在判别相似性时采用的是“视觉相似”，与人理解的“语义相似”不同。例如，计算机会将图2所示的两张图像判别为相似，而人可以明显的判别出不相似，这就是“语义鸿沟”问题。

上述问题存在的原因是，在基于内容搜索或排序时，仅会依据图像的内容进行排序，而没有参考语义信息，而本实施例中，通过获取伴随文本信息并将伴随文本信息参考到图像排序中，可以参考到语义信息，避免将明显语义不相似的内容判别为相似。

本实施例中，通过获取图像的伴随文本信息并据此进行后续图像排序，由于伴随文本信息相对于图像内容包含更多的语义信息，因此，在图像排序时参考图像间的语义信息，满足人对语义相似的需求，避免语义鸿沟问题，从而可以依据语义相似度对图像进行排序，提升用户体验。

图3是本申请另一个实施例提出的图像排序方法的流程示意图。

本实施例的图像排序算法以应用在图像搜索流程中为例。

参见图3，本实施例的方法包括：

S31：接收用户输入的查询图像，通过图像搜索获取与查询图像对应的多个图像。

其中，可以利用图像搜索引擎，基于内容进行图像搜索，以获取与查询图像内容相关的多个图像。

具体的，图像搜索引擎基于内容进行图像搜索时，可以具体是基于图像本身进行搜索，进一步的，具体是基于图像本身提取的视觉特征进行图像搜索，上述的视觉特征例如包括：尺度不变特征变换(Scale-invariant feature transform，SIFT)特征、卷积神经网络(Convolutional Neural Network，CNN)特征等。

上述获取的多个图像可以组成一个集合，称为候选集，候选集的大小可以用K表示，表明候选集中包括K个图像。

S32：获取候选集中每个图像的伴随文本信息。

其中，伴随文本信息例如包括：标题或者标签等。

具体的，在数据库中可以预先记录图像及对应的伴随文本信息，从而可以从数据库中获取到每个图像的伴随文本信息。

这些文本信息可以反应图像的语义。

S33：计算每个伴随文本信息对应的文本特征向量。

例如，伴随文本信息是标题，则可以先对标题进行分词，再根据预先确定的大小为D的词典，将标题表述为D维的文本特征向量。

其中，可以在已有的语料库中，选择词频较高的D个词语组成上述的词典，D的具体值可以设置。

在得到大小为D的词典后，可以根据词典和分词后的标题，得到标题对应的D维的文本特征向量。

其中，D维的文本特征向量中的每个文本特征可以具体是词典中每个词语的TF-IDF值。

例如，大小为D的词典表示为：[T1、T2、...、TD]，其中Ti(i＝1,2,...,D)代表一个分词后的词；对每个文本，它对应的D维的文本特征向量表示为：[V1、V2、…、VD]，其中Vi是词典中对应词Ti的TF-IDF值。

Ti的TF-IDF值是Ti的TF值乘以Ti的IDF值。

TF是词频(Term Frequency)，Ti的TF值可以用Ti在分词后的标题中出现的次数除以分词后的标题中的词语总数得到。

IDF是逆向文件频率(inverse document frequency，IDF)，Ti的IDF值可以用语料库中总文件数目除以包含Ti的文件的数目，再将得到的商取对数得到。

由于每个伴随文本信息会得到一个文本特征向量，因此对应候选集中的K个图像，会得到K个文本特征向量。

S34：根据文本特征向量，得到图像间的关联矩阵。

其中，关联矩阵中的每个元素是两两文本特征向量之间的度量距离。

例如，共用K个文本特征向量，则可以得到K*K维的关联矩阵S，关联矩阵中的每个元素S[i][j]是第i个文本特征向量与第j个文本特征向量之间的度量距离，其中，i＝1、2、…、K，j＝1、2、…、K。

上述的两个向量之间的度量距离可以是：两个向量之间的余弦距离或者是欧氏距离。

S35：使用图排序算法，根据上述的关联矩阵，计算得到候选集中每个图像的得分。

其中，图排序算法包括：PageRank、HITS、TrustRank、HillTop等。

本实施例中，以PageRank算法为例。

PageRank算法是一种迭代算法，迭代公式可以表示为：

γ_t＝α×S×γ_t-1+(1-α)×γ₀

其中，S是上述计算得到的关联矩阵；γ₀是迭代运算的初始值，是K维的列向量，例如，γ₀＝[1/K,1/K,…,1/K]^T；α是PageRank算法参数，例如，α＝0.85。

上述迭代运算的结束条件是：γ_t＝γ_t-1。

在γ_t＝γ_t-1时，将γ_t中每个元素的值确定为候选集中对应图像的得分，例如，γ_t中第一个元素是候选集中第一个图像的得分，γ_t中第二个元素是候选集中第二个图像的得分，其中，γ_t中元素的排列顺序与开始运算时候选集中图像的排列顺序一致，例如均为按照从前到后的顺序确定为第一个、第二个等。

S36：根据每个图像的得分对候选集中的图像进行排序。

本实施例中，通过获取图像的伴随文本信息并据此进行后续图像排序，由于伴随文本信息相对于图像内容包含更多的语义信息，因此，在图像排序时参考图像间的语义信息，满足人对语义相似的需求，避免语义鸿沟问题，从而可以依据语义相似度对图像进行排序，提升用户体验。进一步的，本实施例的图像排序可以应用于图像搜索场景，以向用户展示更符合人对语义相似度需求的图像。

图4是本申请一个实施例提出的图像排序装置的结构示意图。

参见图4，本实施例的装置40包括：确定模块41、获取模块42、计算模块43和排序模块44。

确定模块41，用于确定待排序的多个图像。

获取模块42，用于获取每个图像的伴随文本信息。

计算模块43，用于根据所述伴随文本信息，使用图排序算法计算每个图像的得分。

排序模块44，用于根据所述得分，对所述多个图像进行排序。

一些实施例中，参见图5，计算模块43包括：

第一计算单元431，用于计算每个伴随文本信息对应的文本特征向量。

Ti的TF-IDF值是Ti的TF值乘以Ti的IDF值。

第二计算单元432，用于根据所述文本特征向量，得到图像间的关联矩阵，其中，关联矩阵中的每个元素是两两文本特征向量之间的度量距离。

第三计算单元433，用于使用图排序算法，根据所述关联矩阵，计算得到每个图像的得分。

其中，图排序算法包括：PageRank、HITS、TrustRank、HillTop等。

本实施例中，以PageRank算法为例。

PageRank算法是一种迭代算法，迭代公式可以表示为：

γ_t＝α×S×γ_t-1+(1-α)×γ₀

上述迭代运算的结束条件是：γ_t＝γ_t-1。

一些实施例中，参见图5，确定模块41包括：

接收单元411，用于接收用户输入的查询图像。

搜索单元412，用于通过图像搜索获取与所述查询图像对应的多个图像，将所述多个图像确定为待排序的多个图像。

可以理解的是，上述实施例中的装置与上述实施例的方法对应，关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种图像排序方法，其特征在于，包括：

确定待排序的多个图像；

获取每个图像的伴随文本信息；

根据所述伴随文本信息，使用图排序算法计算每个图像的得分；

根据所述得分，对所述多个图像进行排序。

2.根据权利要求1所述的方法，其特征在于，所述根据所述伴随文本信息，使用图排序算法计算每个图像的得分，包括：

计算每个伴随文本信息对应的文本特征向量；

根据所述文本特征向量，得到图像间的关联矩阵，其中，关联矩阵中的每个元素是两两文本特征向量之间的度量距离；

使用图排序算法，根据所述关联矩阵，计算得到每个图像的得分。

3.根据权利要求2所述的方法，其特征在于，所述度量距离包括：余弦距离或者欧氏距离。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述确定待排序的多个图像，包括：

接收用户输入的查询图像；

通过图像搜索获取与所述查询图像对应的多个图像，将所述多个图像确定为待排序的多个图像。

5.根据权利要求1-3任一项所述的方法，其特征在于，所述伴随文本信息包括：标题或者标签。

6.一种图像排序装置，其特征在于，包括：

确定模块，用于确定待排序的多个图像；

获取模块，用于获取每个图像的伴随文本信息；

计算模块，用于根据所述伴随文本信息，使用图排序算法计算每个图像的得分；

排序模块，用于根据所述得分，对所述多个图像进行排序。

7.根据权利要求6所述的装置，其特征在于，所述计算模块包括：

第一计算单元，用于计算每个伴随文本信息对应的文本特征向量；

第二计算单元，用于根据所述文本特征向量，得到图像间的关联矩阵，其中，关联矩阵中的每个元素是两两文本特征向量之间的度量距离；

第三计算单元，用于使用图排序算法，根据所述关联矩阵，计算得到每个图像的得分。

8.根据权利要求7所述的装置，其特征在于，所述第二计算单元计算的所述度量距离包括：余弦距离或者欧氏距离。

9.根据权利要求6-8任一项所述的装置，其特征在于，所述确定模块包括：

接收单元，用于接收用户输入的查询图像；

搜索单元，用于通过图像搜索获取与所述查询图像对应的多个图像，将所述多个图像确定为待排序的多个图像。

10.根据权利要求6-8任一项所述的装置，其特征在于，所述获取模块获取的所述伴随文本信息包括：标题或者标签。