CN108229518A

CN108229518A - 基于语句的图像检测方法、装置和***

Info

Publication number: CN108229518A
Application number: CN201710081102.4A
Authority: CN
Inventors: 李爽; 肖桐; 李鸿升; 王晓刚
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2017-02-15
Filing date: 2017-02-15
Publication date: 2018-06-29
Anticipated expiration: 2037-02-15
Also published as: CN108229518B

Abstract

本申请提供了一种基于语句的图像检测方法、装置和***。图像检测方法包括：从图像中提取分别针对图像中的多个图像特征的多个视觉响应；针对表示图像检测需求的语句所包含的多个词语，提取多个词语中的每个词语的多个词语响应，多个词语响应是针对词语中的字词语义的响应并分别与图像中的多个图像特征对应；基于多个视觉响应和多个词语响应，获得多个词语中每个词语分别与图像的第一匹配度；以及基于各第一匹配度，获得图像与语句的第二匹配度。

Description

基于语句的图像检测方法、装置和***

技术领域

本申请涉及CV(Computer Vision，计算机视觉)领域，更具体地，涉及一种基于语句进行图像检测的方法、装置和***。

背景技术

图像检测任务是指根据需求从大量图像中检测出目标图像的任务。图像检测是CV领域中的重要研究方向并且具有广阔的应用前景。例如，在智能监控中，需要从大量的视频帧中获取包含目标对象的视频帧。通过人工来完成上述任务将是耗时耗力的。随着人工智能技术的发展，通过机器学习方法自动进行图像检测成为可能。

现有的图像检测大致分为基于图片的图像检测和基于属性的图像检测。基于图片的图像检测需要至少一张图片作为索引，而基于属性的图像检测需要提前预设一些图像属性。

发明内容

本申请提供了基于语句进行图像检测的技术方案。

本申请实施例的一方面提供了一种图像检测方法。图像检测方包括：从图像中提取分别针对图像中的多个图像特征的多个视觉响应；针对表示图像检测需求的语句所包含的多个词语，提取多个词语中的每个词语的多个词语响应，多个词语响应是针对词语中的字词语义的响应并分别与图像中的多个图像特征对应；基于多个视觉响应和多个词语响应，获得多个词语中每个词语分别与图像的第一匹配度；以及基于各第一匹配度，获得图像与语句的第二匹配度。

根据本申请的实施例，方法还可包括：基于图像与语句的第二匹配度，检测图像是否与语句匹配；和/或，针对检测多个图像的情形，根据多个图像中各图像对应的第二匹配度进行排序；和/或，针对检测多个图像的情形，根据多个图像中各图像对应的第二匹配度，获得与语句匹配的检测结果。

根据本申请的实施例，获得图像与语句中的任一词语的第一匹配度可包括：根据任一词语的多个词语响应分别确定多个视觉响应的第一权重；根据各第一权重对多个视觉响应进行加权处理；以及根据加权后的各视觉响应获得图像与任一词语的第一匹配度。

根据本申请的实施例，基于各第一匹配度，获得图像与语句的第二匹配度可包括：对各第一匹配度进行求和，获得图像与语句的第二匹配度。

根据本申请的实施例，基于语句中的词语的第一匹配度，获得图像与语句的第二匹配度可包括：确定词语在语句中的重要性；根据重要性确定词语的第一匹配度的第二权重；基于第二权重对语句中全部词语的第一匹配度进行加权处理；以及根据加权后的各第一匹配度获得图像与语句的第二匹配度。

根据本申请的实施例，基于图像与语句的第二匹配度，检测图像是否与语句匹配可包括：将第二匹配度大于预定阈值的图像作为与语句匹配的检测结果。

根据本申请的实施例，提取多个词语响应可包括：通过递归神经网络，基于在先被提取的词语提取当前词语的多个词语响应。

根据本申请的实施例，提取当前词语的多个词语响应可包括：将当前词语编码成独热码；将独热码编码成表征当前词语的字词语义的字词语义向量；提取图像的图像特征；将字词语义向量和图像特征级联作为当前时刻输入；基于当前时刻输入以及基于在先被提取的词语的先前时刻输出并利用递归神经网络，提取当前词语的多个词语响应。

本申请实施例的另一方面提供了一种图像检测装置。图像检测装置包括：视觉响应提取器，视觉响应提取器从图像中提取分别针对图像中的多个图像特征的多个视觉响应；词语响应提取器，词语响应提取器针对表示图像检测需求的语句所包含的多个词语，提取多个词语中的每个词语的多个词语响应，多个词语响应是针对词语中的字词语义的响应并分别与图像中的多个图像特征对应；词语匹配器，词语匹配器基于多个视觉响应和多个词语响应，获得多个词语中每个词语分别与图像的第一匹配度；以及语句匹配器，语句匹配器基于各第一匹配度，获得图像与语句的第二匹配度。

根据本申请的实施例，图像检测装置还可包括检测器，检测器：基于图像与语句的第二匹配度，检测图像是否与语句匹配；和/或，针对检测多个图像的情形，根据多个图像中各图像对应的第二匹配度进行排序；和/或，针对检测多个图像的情形，根据多个图像中各图像对应的第二匹配度，获得与语句匹配的检测结果。

根据本申请的实施例，词语匹配器可包括第一加权器，第一加权器：根据任一词语的多个词语响应分别确定多个视觉响应的第一权重；根据各第一权重对多个视觉响应进行加权处理；以及根据加权后的各视觉响应获得图像与任一词语的第一匹配度。

根据本申请的实施例，语句匹配器可包括加法器，加法器对各第一匹配度进行求和，获得图像与语句的第二匹配度。

根据本申请的实施例，语句匹配器可包括：词语分析器，词语分析器确定词语在语句中的重要性；以及第二加权器，第二加权器：根据重要性确定词语的第一匹配度的第二权重；基于第二权重对语句中全部词语的第一匹配度进行加权处理；以及根据加权后的各第一匹配度获得图像与语句的第二匹配度。

根据本申请的实施例，检测器可将第二匹配度大于预定阈值的图像作为与语句匹配的检测结果。

根据本申请的实施例，在词语响应提取器中可配置有递归神经网络，词语响应提取器通过递归神经网络，基于在先被提取的词语提取当前词语的多个词语响应。

根据本申请的实施例，词语响应提取器可包括：独热编码器，独热编码器将当前词语编码成独热码；字词语义编码器，字词语义编码器将独热码编码成表征当前词语的字词语义的字词语义向量；特征提取器，特征提取器提取图像的图像特征；组合器，组合器将字词语义向量和图像特征级联作为当前时刻输入；以及馈送器，馈送器基于当前时刻输入以及基于在先被提取的词语的先前时刻输出并利用递归神经网络，提取当前词语的多个词语响应。

本申请实施例的又一方面提供了一种图像检测***。图像检测***包括：存储可执行指令的存储器；以及一个或多个处理器。一个或多个处理器与存储器通信以执行可执行指令，从而完成以下操作：从图像中提取分别针对图像中的多个图像特征的多个视觉响应；针对表示图像检测需求的语句所包含的多个词语，提取多个词语中的每个词语的多个词语响应，多个词语响应是针对词语中的字词语义的响应并分别与图像中的多个图像特征对应；基于多个视觉响应和多个词语响应，获得多个词语中每个词语分别与图像的第一匹配度；以及基于各第一匹配度，获得图像与语句的第二匹配度。

本申请实施例的再一方面提供了一种非暂时性计算机存储介质，该介质能够存储计算机可读指令，当这些指令被执行时可使处理器执行以下操作：从图像中提取分别针对图像中的多个图像特征的多个视觉响应；针对表示图像检测需求的语句所包含的多个词语，提取多个词语中的每个词语的多个词语响应，多个词语响应是针对词语中的字词语义的响应并分别与图像中的多个图像特征对应；基于多个视觉响应和多个词语响应，获得多个词语中每个词语分别与图像的第一匹配度；以及基于各第一匹配度，获得图像与语句的第二匹配度。

本申请的技术方案通过对语句中的词语以及图像中的特征进行分析，将语句中的词语分别与图像进行匹配检测，以及综合考虑所有词语与图像的匹配结果，从而实现了基于语句来完成对图像的匹配检测。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显，其中：

图1是根据本申请实施例的基于语句检测图像的方法的流程图；

图2是根据本申请实施例的词语响应与视觉响应之间的关系图；

图3是根据本申请实施例的用于图像检测的网络结构图；

图4是根据本申请实施例的图像检测装置的框图；以及

图5是根据本申请实施例的用于图像检测的计算机***的框图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，在本文中所描述的具体实施例仅仅用于解释本申请，而非对本申请进行限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分。下面将参照附图并结合实施例来详细说明本申请。应理解，除非另有说明，否则本文中使用的序数词，诸如“第一”、“第二”等，仅用于将一个要素与另一要素区分开，而不表示重要性或优先级。例如，第一权重和第二权重表示不同的权重。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如上文所述，现有的图像检测大致分为基于图片的图像检测和基于属性的图像检测。基于图片的图像检测需要至少一张图片作为索引。在有些应用场景中，这种需求可能难以满足。例如，在犯罪嫌疑人的监控追踪应用中，可能由于缺乏犯罪嫌疑人的照片而难以通过这种方式对监控视频帧进行筛选检测。基于属性的图像检测需要提前预设一些图像属性从而通过比较这些属性来检测图像。然而属性的描述能力有限，并且缺乏很多重要的细节信息。虽然可通过增加属性数量来弥补此缺陷，但是属性数量过多将不利于标注和模型训练。因而需要一种基于语句进行图像检测的方法、装置和***。这种方法、装置和***能够基于语句(例如，自然语言描述语句)对图像进行检测，从而从大量图像中检测出反映图像检索需求的图像，(即，目标图像)，和/或，得到待检测的图像和语句的匹配程度，和/或，对检测的图像增加图像说明的描述信息，等等。

图1是根据本申请实施例的基于语句检测图像的方法1000的流程图。

在步骤S1010中，从图像中提取多个视觉响应，多个视觉响应分别是针对图像中的多个图像特征的响应(Response)。一副图像可以由至少一类图像特征来表征，图像特征的类型诸如但不限于，颜色特征、纹理特征、形状特征和空间关系特征等。从图像中提取多个视觉响应可包括：基于图像生成图像特征；以及提取针对对应图像特征的响应。可利用CV领域中的多种前馈式神经网络来提取图像的特征。在下文中，通过VGG-16网络为例来描述对图像特征的提取。然而，本领域技术人员应理解，这仅仅是一个示例，而不构成对本发明构思的任何限制。可通过对VGG-16网络的“drop7”层后连接至少一个全连接层来提取分别针对所述图像中的多个图像特征的多个视觉神经元，视觉神经元的值(如视觉神经元相对图像特征的关注度)即为视觉响应。将在下文中参照图3详细描述这一过程。视觉响应可以是数值的形式，视觉响应越大表示该视觉神经元对该图像特征的响应越大。图像的所有视觉响应可构成一个向量(下文中称作视觉响应向量)。

在步骤S1030中，针对表示图像检测需求的语句所包含的多个词语，提取多个词语中的每个词语的多个词语响应，多个词语响应是针对词语中的字词语义的响应并分别与图像中的多个图像特征对应。语句可以由包含图像检测需求的代码语言构成，如根据特定编码规则编译的代码。该语句可以根据编码时所依据的编码规则进行解码，从而还原出图像检测需求。语句可以是由自然语言构成的、包含多个词语的描述语句。该语句可以是图像检测需求的自然语言描述，例如对期望检测到的目标图像或目标图像可能包括的目标对象(如人物、物品等)的自然语言描述。语句的示例如“一个少女戴着黑色墨镜、穿着红色裙子，这个少女的手臂挎着一个白色手提包，腿上穿着肉色丝袜”。该语句中包含多个词语，诸如“黑色”、“墨镜”、“手臂”、“腿”等。词语响应是对词语所表达的字词语义的响应，并且与图像中的特定图像特征对应。字词语义可以是词语中所蕴含的语义表现，它与图像特征可存在对应关系。例如，语句中任一词语的词语响应可表现为向量的形式，下文中称作词语响应向量。可选地，词语响应向量可与视觉响应向量具有相同的大小，以便于根据该词语响应向量对视觉响应向量进行加权处理，此外由于视觉响应和词语响应均与图像特征具有对应关系，因而这两个向量的元素之间具有一一对应的映射关系。

在步骤S1050中，基于多个视觉响应和多个词语响应，获得多个词语中每个词语分别与图像的第一匹配度。如上所述，由于视觉响应和词语响应均与图像特征具有对应关系，因而视觉响应与词语响应也具有对应关系。从每个词语中可提取出多个词语响应，并且从每个图像中可以提取出多个视觉响应。基于彼此对应的视觉响应和词语响应之间的关系，可以得出图像与词语的匹配度。由于语句中往往包含多个词语，因而可针对该多个词语获得多个第一匹配度。然而仅得到图像与语句中的某个词语的匹配度往往不足以很好地完成图像检测任务。因而需要得到图像与整个语句的匹配度。

在步骤S1070中，基于各第一匹配度，获得图像与语句的第二匹配度。在步骤S1050中仅仅获得了图像分别与语句中各个词语单独的匹配度，而单个词语往往无法反映用户的图像检测需求。还以“一个少女戴着黑色墨镜、穿着红色裙子，这个少女的手臂挎着一个白色手提包，腿上穿着肉色丝袜”的语句为例。根据步骤S1050可以获得图像与语句中的某个词语“手提包”的匹配度(即第一匹配度)。由于词语“手提包”中包含的信息量太少，因此仅通过图像与该词语的匹配度，无法很好的完成对图像的匹配检测。因而需要综合考虑图像与语句中多个词语的匹配度，从而获得图像与该语句的匹配度，即，第二匹配度。

在本申请的一个实施例中，可基于图像与语句的第二匹配度，检测图像是否与语句匹配。或者，可针对检测多个图像的情形，根据多个图像中各图像对应的第二匹配度进行排序。再或者，可针对检测多个图像的情形，根据多个图像中各图像对应的第二匹配度，获得与语句匹配的检测结果。作为示例，可将第二匹配度按照从高到低排序，按照从高到低的顺序取出特定数量的图像作为检测为与语句匹配的图像。再例如，根据实际应用而设定特定阈值，将第二匹配度高于该阈值的图像检测为与语句匹配的图像。在本申请的又一实施例中，可基于图像与语句的第二匹配度，为检测出的图像自动添加图像说明。

根据参照图1所作出的描述，本申请的技术方案通过对语句中的词语以及图像中的特征进行分析，将语句中的多个词语分别与图像进行匹配检测，以及综合考虑所有词语与图像的匹配结果，从而实现了基于语句来完成对图像的匹配检测。

在本申请的实施例中，图像与语句中的词语的第一匹配度可通过如下方式获得：根据任一词语的多个词语响应分别确定多个视觉响应的第一权重；根据各第一权重对多个视觉响应进行加权处理；以及根据加权后的各视觉响应获得图像与任一词语的第一匹配度

图2示出了词语的词语响应与图像的视觉响应之间的关系图。图像的所有视觉响应可构成视觉响应向量2100，语句中任一词语的所有词语响应可构成词语响应向量2200。视觉响应向量2100中每一元素代表一个视觉响应，诸如视觉响应2110、2120、2130、21nn等，它们可以是数值的形式，视觉响应越大表示生成该视觉响应的视觉神经元对该图像特征的响应越大。因而，视觉响应向量2100是对图像特征的响应向量。类似地，词语响应向量2200是对词语的字词语义的响应向量，且词语响应向量2200中的元素与视觉响应向量2100的元素具有一一对应关系。假设视觉响应2110代表对图像中“锐利边缘”的图像特征的响应。可预期，从“手提包”中能够提取出该图像特征。因而视觉响应2110会具有较高的值。假设词语响应2210与“锐利边缘”的图像特征对应的字词语义对应，则当词语是“手提包”时，词语响应2210也将具有较高的值。视觉响应2110和词语响应2210均具有较高的值时，可认为，它们所对应的图像特征在词语与图像之间存在匹配。

然而，词语的含义往往非常丰富，具有非常繁多的字词语义特征，另外，不同的词语也可包含相同或相似的字词语义特征。例如“砖块”也包括“锐利边缘”的字词语义。因而，仅通过单个词语响应和单个视觉响应并不能精确反映词语与图像的匹配。在本申请的实施例中，可以将多个词语响应分别作为多个视觉响应的第一权重，从而基于第一权重对多个视觉响应加权，获得图像与语句中的词语的第一匹配度。假设视觉响应向量2100与词语响应向量2200均包含512个元素，则可用下式来表达图像与语句中的词语的第一匹配度：

其中，a_t是图像与语句中的词语的第一匹配度，v_n是视觉响应向量(诸如，视觉响应2110、2120、2130等)，A_t(n)是词语响应(诸如，词语响应2210、2220、2230等)，n为元素的索引(即，表示第几个元素)。词语响应可以是归一化的。由于在公式1中，词语响应作为视觉神经元生成的视觉响应的权重而出现，因而，词语响应也可形象地称为神经元关注度。通过由公式1所表达的加权操作，可以得到图像与语句中的词语的整体匹配，即，第一匹配度。该第一匹配度可以从整体上反映图像与语句中的词语的匹配程度，从而有助于完成基于语句的图像匹配检测。

在一般的应用场景中，仅得到图像与语句中的某个词语的匹配度往往不足以很好地完成图像检测任务。因而需要得到图像与整个语句的匹配度。一种简单的方式可以是：对各第一匹配度进行求和，获得图像与语句的第二匹配度。该第二匹配度可以从整体上反映图像与语句的匹配程度，从而有助于完成图像与语句的匹配检测。

就图像检测的任务而言，语句中词语和词语的重要性往往是不同的。例如，在“一个少女戴着黑色墨镜、穿着红色裙子，这个少女的手臂挎着一个白色手提包，腿上穿着肉色丝袜”的语句中，显而易见的是，词语“这个”的重要性要低于词语“少女”。这是因为，词语“这个”所包含的、能够将不同图像区分开的鉴别性字词语义信息要少于词语“少女”所包含的字词语义信息。针对这种情况，在本申请的另一实施例中，图像与语句的第二匹配度可通过如下方式获得：确定词语在语句中的重要性；根据重要性确定词语的第一匹配度的第二权重；基于第二权重对语句中全部词语的第一匹配度进行加权处理；以及根据加权后的各第一匹配度获得图像与语句的第二匹配度。这可由以下公式2来表示：

其中，g_t即词语在语句中的重要性，而表示图像与语句的第二匹配度。通过考虑词语在语句中的重要性，并将这种重要性通过权重的方式体现在图像检测中，可提高语句分析处理的准确性，增强对语句信息的解析能力，从而提高了基于语句对图像检测的准确率。

在获得了图像与语句的第二匹配度后，可通过多种方式来检测图像与语句是否匹配。例如，在本申请一个实施例中，可将第二匹配度大于预定阈值的图像作为与语句匹配的检测结果。即，可确定第二匹配度是否大于预定阈值；以及基于所确定的第二匹配度大于预定阈值，将图像检测为与语句匹配。

上文所述的图像检测方法的各步骤可通过多种方式实施，例如通过各种深度学习网络来实施。本申请涉及对语句的分析处理，语句包含多个词语，且词语与词语之间存在相互关联，即，上下文信息。普通的前馈式网络的当前输出一般仅依赖于当前的输入，不具有时间或序列上的关联。因而，对于本申请所涉及的需要对上下文信息进行处理的场景，前馈式网络处理效果欠佳。RNN(Recurrent Neural Network，递归神经网络)与前馈式网络不同，其输入不仅包括当前的输入，还包括网络在上一个时刻(或帧)所处理的信息。因而，在本申请的实施例中，可通过递归神经网络，基于在先被提取的词语提取当前词语的多个词语响应。通过这种方式，由于考虑到了词语的上下文信息，因而根据每个词语而提取出的词语响应将具有更强的字词语义表征能力，从而提高了对图像检测的准确率。

以下参照图3具体描述用于实施本申请的图像检测方法的网络3000的示例。然而，本领域技术人员将理解，图3及参照图3所作出的描述仅仅是示例性的，而不对本申请的发明构思进行任何限定。

通过预训练的卷积神经网络VGG-16网络3210对输入图像3100进行特征提取。随后，可通过对VGG-16网络3210的“drop7”层后连接两个全连接层3220和3230来生成针对图像特征的视觉响应。视觉响应可以是数值的形式，视觉响应越大表示对该图像特征的响应越大。图像的所有视觉响应可构成视觉响应向量3300，该向量的每个元素分别是针对图像的某一图像特征的视觉响应。

输入图像3100还经过另一预训练的VGG-16网络3410和两个全连接层3420、3430进行独立的特征提取，从而得到多个图像特征3440，多个图像特征可采用例如特征图(Feature Map)的方式进行表示。由于全连接层3420和3430与全连接层3220和3230处于不同的分支，因而可具有彼此独立的网络参数(诸如，权重和偏移)，因而可具有独立的特征表征能力，有利于提高词语响应向量和视觉响应向量之间的差异性。图像特征3440用于后续的词语响应的生成。

在本申请的一个实施例中，提取当前词语的多个词语响应可通过如下方式进行：将当前词语编码成独热(One-Hot)码；将独热码编码成表征当前词语的字词语义的字词语义向量；提取图像的图像特征；将字词语义向量和图像特征级联作为当前时刻输入；基于当前时刻输入以及基于在先被提取的词语的先前时刻输出并利用所述递归神经网络，提取当前词语的多个词语响应，例如：将当前时刻输入以及基于在先被提取的词语的先前时刻输出共同输入递归神经网络，递归神经网络考虑了时序信息对共同输入的内容进行编码处理，由此提取当前词语的多个词语响应。

具体地，按照词语在句子中出现的顺序，依次输入词语。当前的输入词语3500被编码成独热码3510。独热码编码是这样一种编码方式，***有多少个状态，该编码就具有多少个比特。这些比特中，只有一个为1，而其余均为0。例如，***整理了5000个单词(即，5000种可能的状态)，则独热码3510即具有5000个比特。此时，独热码3510可看作一个向量，每一元素仅可以是0或1。仅与输入单词3500对应的元素的比特为1，而其余元素均为0。在实际应用中，可以为***预留至少一个比特用于表征未被***整理的单词。通过独热码的编码方式，可以实现文本字符向数字化数据的转换。

随后，独热码3510被至少一个全连接层word-fc1层3520编码成表征输入词语3500的字词语义的字词语义向量3530。字词语义向量3530和参照上文描述的被提取的图像特征3440级联，以作为当前时刻输入。根据RNN的性质，当前时刻输入以及基于在先被提取的词语的先前时刻输出共同输入递归神经网络，从而基于在先被提取的词语提取当前词语的多个词语响应。

在本申请的一个实施例中，选用LSTM(Long Short-Term Memory，长短期记忆单元)3600作为RNN具体实现。当前时刻输入和先前时刻输出共同输入LSTM 3600，通过LSTM3600对共同输入的信息进行考虑了时序信息的词语响应的提取处理。LSTM 3600的输出分两路进行处理以得到不同的数据。其中一路被输出到至少一个全连接层，例如Attention-fc1层3740和Attention-fc2层3750进行考虑了当前时刻信息的编码处理，全连接层的输出经过Softmax层3760进行归一化处理，从而得到与视觉响应向量具有相同大小的词语响应向量3760(即，上文提及的神经元关注度)。

词语响应向量3760作为视觉响应向量3300的权重，对这两个向量进行元素间乘积以得到输入图像3100与输入词语3500的第一匹配度3800。该操作参见公式1所作的描述。

LSTM 3600的输出的另一路被输出到至少一个全连接层，例如Gate-fc1层3710进行编码，并经过Sigmoid层3720进行激活，从而得到词语在语句中的重要性3730，即第二权重。基于第二权重对第一匹配度进行加权，从而得到输入图像3100与语句的第二匹配度3900。此过程的操作类似于上文参照公式2所作的描述。进一步地，可基于输入图像3100与语句的第二匹配度，检测输入图像3100是否与语句匹配。

如本领域技术人员将理解的，网络3000需要经过训练才能得以应用。可利用标准的BP(Back-Propagation，反向传播)方法和BPTT(Back-Propagation Through Time，含时反向传播)方法来完成训练。训练过程中，VGG-16网络3210和VGG-16网络3410的参数保持不变，而网络中其余层级和子网络的参数进行更新和调整，诸如cls-fc1层3220、cls-fc2层3230、vis-fc1层3420、vis-fc2层3430、word-c1层3520以及LSTM 3600等。在训练完成后，网络3000的参数得以固化，从而执行根据本申请实施例的图像检测方法。

上文参照图1至图3描述的图像检测方法可适用于多种涉及图像检测的应用中。例如，可以利用本文所提供的图像检测方法从视频监控中基于语句自动检测出需要寻找的人。又例如，可以利用本文所提供的图像检测方法从数据库中进行基于自然描述语句的图像检索应用，得到各图像与自然描述语句的匹配度；进一步可选的，可根据检测的个图像的匹配度进行排序，根据排序顺序推荐一个或多个图像作为检索结果或目标图像呈现给用户。再例如，通过利用本文所提供的图像检测方法为检测出的图像自动添加图像说明。本文所提及的图像可包括各种类型的图像，包括但不限于，人物图像、物品图像、自然景观图像等。可根据实际的需求，将本文所提供的图像检测方法适配于对各种类型图像的处理任务中。

图4示出了根据本申请实施例的图像检测装置4000。图像检测装置包括视觉响应提取器4100、词语响应提取器4200、词语匹配器4300和语句匹配器4400。视觉响应提取器4100从图像中提取多个视觉响应，多个视觉响应分别是针对图像中的多个图像特征的响应。词语响应提取器4200针对表示图像检测需求的语句所包含的多个词语，提取多个词语中的每个词语的多个词语响应，多个词语响应是针对词语中的字词语义的响应并分别与图像中的多个图像特征对应。词语匹配器4300基于多个视觉响应和多个词语响应，获得多个词语中每个词语分别与图像的第一匹配度。语句匹配器4400基于各第一匹配度，获得图像与语句的第二匹配度。在本申请的一个实施例中，图像检测装置4000还可包括检测器。检测器基于图像与语句的第二匹配度，检测图像是否与语句匹配，和/或针对检测多个图像的情形，根据多个图像中各图像对应的第二匹配度进行排序；和/或针对检测多个图像的情形，根据多个图像中各图像对应的第二匹配度，获得与语句匹配的检测结果。

词语匹配器4300可包括第一加权器，第一加权器根据任一词语的多个词语响应分别确定多个视觉响应的第一权重、根据各第一权重对多个视觉响应进行加权处理、以及根据加权后的各视觉响应获得图像与任一词语的第一匹配度。

语句匹配器4400可包括加法器，加法器对各第一匹配度进行求和，获得图像与语句的第二匹配度。

语句匹配器4400可包括词语分析器和第二加权器。词语分析器确定词语在语句中的重要性。第二加权器根据重要性确定词语的第一匹配度的第二权重；基于第二权重对语句中全部词语的第一匹配度进行加权处理；以及根据加权后的各第一匹配度获得图像与语句的第二匹配度。

检测器可将第二匹配度大于预定阈值的图像作为与语句匹配的检测结果。

词语响应提取器4200中可配置有递归神经网络，词语响应提取器4200通过递归神经网络，基于在先被提取的词语提取当前词语的多个词语响应。

词语响应提取器4200可包括独热编码器、字词语义编码器、特征提取器、组合器和馈送器。独热编码器将当前词语编码成独热码。字词语义编码器将独热码编码成表征当前词语的字词语义的字词语义向量。特征提取器提取图像的图像特征。组合器将字词语义向量和图像特征级联作为当前时刻输入。馈送器基于当前时刻输入以及基于在先被提取的词语的先前时刻输出并利用递归神经网络，提取当前词语的多个词语响应。

本申请实施例还提供了一种电子设备，例如可以是移动终端、个人计算机(PC)、平板电脑、服务器等。下面参考图5，其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备500的结构示意图：如图5所示，计算机***500包括一个或多个处理器、通信部等，所述一个或多个处理器例如：一个或多个中央处理单元(CPU)501，和/或一个或多个图像处理器(GPU)513等，处理器可以根据存储在只读存储器(ROM)502中的可执行指令或者从存储部分508加载到随机访问存储器(RAM)503中的可执行指令而执行各种适当的动作和处理。通信部512可包括但不限于网卡，所述网卡可包括但不限于IB(Infiniband)网卡。

处理器可与只读存储器502和/或随机访问存储器630中通信以执行可执行指令，通过总线504与通信部512相连、并经通信部512与其他目标设备通信，从而完成本申请实施例提供的任一项方法对应的操作，例如：从图像中提取分别针对图像中的多个图像特征的多个视觉响应；针对表示图像检测需求的语句所包含的多个词语，提取多个词语中的每个词语的多个词语响应，多个词语响应是针对词语中的字词语义的响应并分别与图像中的多个图像特征对应；基于多个视觉响应和多个词语响应，获得多个词语中每个词语分别与图像的第一匹配度；以及基于各第一匹配度，获得图像与语句的第二匹配度。根据本申请的技术方案，可以实现基于语句来完成对图像的匹配检测。

此外，在RAM 503中，还可存储有装置操作所需的各种程序和数据。CPU 501、ROM502以及RAM 503通过总线504彼此相连。在有RAM 503的情况下，ROM 502为可选模块。RAM503存储可执行指令，或在运行时向ROM 502中写入可执行指令，可执行指令使处理器501执行上述通信方法对应的操作。输入/输出(I/O)接口505也连接至总线504。通信部512可以集成设置，也可以设置为具有多个子模块(例如多个IB网卡)，并在总线链接上。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

需要说明的，如图5所示的架构仅为一种可选实现方式，在具体实践过程中，可根据实际需要对上述图5的部件数量和类型进行选择、删减、增加或替换；在不同功能部件设置上，也可采用分离设置或集成设置等实现方式，例如GPU和CPU可分离设置或者可将GPU集成在CPU上，通信部可分离设置，也可集成设置在CPU或GPU上，等等。这些可替换的实施方式均落入本发明公开的保护范围。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，计算机程序包含用于执行流程图所示的方法的程序代码，程序代码可包括对应执行本申请实施例提供的方法步骤对应的指令，例如：从图像中提取分别针对图像中的多个图像特征的多个视觉响应；针对表示图像检测需求的语句所包含的多个词语，提取多个词语中的每个词语的多个词语响应，多个词语响应是针对词语中的字词语义的响应并分别与图像中的多个图像特征对应；基于多个视觉响应和多个词语响应，获得多个词语中每个词语分别与图像的第一匹配度；以及基于各第一匹配度，获得图像与语句的第二匹配度。根据本申请的技术方案，可以实现基于语句来完成对图像的匹配检测。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本申请的方法中限定的上述功能。

可能以许多方式来实现本发明的方法和装置、设备。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和装置、设备。用于方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种基于语句的图像检测方法，其特征在于，所述图像检测方法包括：

从图像中提取分别针对所述图像中的多个图像特征的多个视觉响应；

针对表示图像检测需求的语句所包含的多个词语，提取所述多个词语中的每个词语的多个词语响应，所述多个词语响应是针对所述词语中的字词语义的响应并分别与所述图像中的所述多个图像特征对应；

基于所述多个视觉响应和所述多个词语响应，获得所述多个词语中每个词语分别与所述图像的第一匹配度；以及

基于各所述第一匹配度，获得所述图像与所述语句的第二匹配度。

2.根据权利要求1所述的图像检测方法，其特征在于，所述方法还包括：

基于所述图像与所述语句的第二匹配度，检测所述图像是否与所述语句匹配；和/或，

针对检测多个图像的情形，根据所述多个图像中各所述图像对应的第二匹配度进行排序；和/或，

针对检测多个图像的情形，根据所述多个图像中各所述图像对应的第二匹配度，获得与所述语句匹配的检测结果。

3.根据权利要求1或2所述的图像检测方法，其特征在于，获得所述图像与所述语句中的任一词语的第一匹配度包括：

根据所述任一词语的多个词语响应分别确定所述多个视觉响应的第一权重；

根据各所述第一权重对所述多个视觉响应进行加权处理；以及

根据加权后的各视觉响应获得所述图像与所述任一词语的第一匹配度。

4.根据权利要求1-3中任一项所述的图像检测方法，其特征在于，基于各所述第一匹配度，获得所述图像与所述语句的第二匹配度包括：

对各所述第一匹配度进行求和，获得所述图像与所述语句的第二匹配度。

5.根据权利要求1-3中任一项所述的图像检测方法，其特征在于，基于所述语句中的词语的第一匹配度，获得所述图像与所述语句的第二匹配度包括：

确定所述词语在所述语句中的重要性；

根据所述重要性确定所述词语的第一匹配度的第二权重；

基于所述第二权重对所述语句中全部词语的第一匹配度进行加权处理；以及

根据加权后的各第一匹配度获得所述图像与所述语句的第二匹配度。

6.根据权利要求2-5中任一项所述的图像检测方法，其特征在于，基于所述图像与所述语句的第二匹配度，检测所述图像是否与所述语句匹配包括：

将所述第二匹配度大于预定阈值的图像作为与所述语句匹配的检测结果。

7.根据权利要求1-6中任一项所述的图像检测方法，其特征在于，提取多个词语响应包括：

通过递归神经网络，基于在先被提取的词语提取当前词语的多个词语响应。

8.根据权利要求7所述的图像检测方法，其特征在于，提取当前词语的多个词语响应包括：

将所述当前词语编码成独热码；

将所述独热码编码成表征所述当前词语的字词语义的字词语义向量；

提取所述图像的图像特征；

将所述字词语义向量和所述图像特征级联作为当前时刻输入；

基于所述当前时刻输入以及基于在先被提取的词语的先前时刻输出并利用所述递归神经网络，提取当前词语的多个词语响应。

9.一种基于语句的图像检测装置，其特征在于，所述图像检测装置包括：

视觉响应提取器，所述视觉响应提取器从图像中提取分别针对所述图像中的多个图像特征的多个视觉响应；

词语响应提取器，所述词语响应提取器针对表示图像检测需求的语句所包含的多个词语，提取所述多个词语中的每个词语的多个词语响应，所述多个词语响应是针对所述词语中的字词语义的响应并分别与所述图像中的所述多个图像特征对应；

词语匹配器，所述词语匹配器基于所述多个视觉响应和所述多个词语响应，获得所述多个词语中每个词语分别与所述图像的第一匹配度；以及

语句匹配器，所述语句匹配器基于各所述第一匹配度，获得所述图像与所述语句的第二匹配度。

10.一种图像检测***，其特征在于，包括：

存储器，存储可执行指令；

一个或多个处理器，与所述存储器通信以执行可执行指令从而完成以下操作：