CN107066464A

CN107066464A - 语义自然语言向量空间

Info

Publication number: CN107066464A
Application number: CN201610985196.3A
Authority: CN
Inventors: 王兆闻; 尤全增; 金海琳; 方晨
Original assignee: Adobe Systems Inc
Current assignee: Adobe Inc
Priority date: 2016-01-13
Filing date: 2016-11-09
Publication date: 2017-08-18
Anticipated expiration: 2036-11-09
Also published as: US20170200066A1; CN107066464B; AU2016256764B2; US9792534B2; AU2016256764A1

Abstract

描述了利用词语向量表示的图像加说明的技术。在实施方式中，替代直接输出说明分析的结果，框架被适配为输出语义词语向量空间中的点。这些词语向量表示反映语义词语向量空间的情境中的距离值。在这种方法中，词语被映射到向量空间中并且说明分析的结果被表达为向量空间中的点，这些点捕获词语之间的语义。在向量空间中，类似的概念具有小距离值。词语向量不束缚于特定词语或单个词典。后处理步骤被用来将点映射到词语并且将词语向量表示转换成说明。因此，转换被延迟到过程中的稍后阶段。

Description

语义自然语言向量空间

背景技术

自动生成图像的自然语言描述已经由于用于图像搜索、视障人士的可及性、以及管理图像收集的实践应用而吸引了越来越多的兴趣。用于图像处理的常规技术由于常规图像加标签和搜索算法的限制而不支持高精度自然语言加说明(captioning)和图像搜索。这是因为常规技术仅将标签与图像相关联，而没有定义标签之间以及与图像本身之间的关系。此外，常规技术可能涉及使用自顶向下(top-down)方法，其中图像的整体“要点(gist)”首先被导出，并且然后通过语言建模和语句生成被精炼为适当的描述性词语和说明(caption)。但是，这种自顶向下方法做不好捕获图像的精致细节的工作，诸如局部对象、属性和区域，它们有助于对于图像的精确描述。如此，可能难以使用常规技术来生成精确且复杂的图像说明，诸如“男人喂养高脚椅中的婴儿，并且婴儿持有玩具”。因此，使用常规技术生成的说明可能遗漏重要的图像细节，这使得用户难以搜索特定图像并基于相关联的说明完全理解图像的内容。

发明内容

这一概述以简化形式介绍了下文在详细描述中进一步被描述的概念的选择。如此，这一概述不意图为识别所要求保护主题的必要特征，也不意图被用作确定所要求保护主题的范围的辅助。

本文描述了利用词语向量表示的图像加说明的技术。在一个或多个实施方式中，替代将说明分析的结果直接输出为词语或词语序列(例如，说明或语句)，框架被适配为输出语义词语向量空间中的点。这些点构成词语向量表示，词语向量表示反映语义词语向量空间的情境中的距离值。在这种方法中，词语被映射到向量空间中并且说明分析的结果被表达为向量空间中的点，这些点捕获词语之间的语义。在向量空间中，类似的概念在概念的词语向量表示中具有小距离值。这些点不束缚于特定词语或单个词典。后处理步骤被用来将点映射到词语并且将词语向量表示转换成说明。因此，转换被延迟到过程中的稍后阶段。这一点的结果是词典在过程中的后期能够被改变以选择不同的语言、使用不同的词语范围或词语数目、引入新颖术语，等等。另外，词语向量表示能够被保存，并且如果对词典进行改变则在后处理之前完成的步骤不是必须被重复。

在实施方式中，图像加说明框架基于神经网络和机器学习。给定目标图像，特征提取技术被应用来导出描述图像的“要点”的全局图像概念。例如，预训练的卷积神经网络(CNN)可以被用来利用全局描述性术语来编码图像。该CNN产生反映全局图像概念的视觉特征向量。关于全局图像概念导出的信息然后被馈送到操作为概率地生成图像的描述性说明的语言处理模型中。例如，视觉特征向量可以被馈送到被设计为实施语言建模和语句生成技术的递归神经网络(RNN)中。该RNN被设计为迭代地预测词语序列，以基于根据多次迭代中的权重因数所计算的概率分布来组合为用于目标图像的说明。在这一情境中，由RNN所实施的目标函数可以被适配为考虑语义词语向量空间中的距离而不是用于词语序列的概率分布，这使能词语向量表示。

附图说明

参考附图来描述详细描述。在附图中，参考标号最左边的(多个)数字标识参考标号首次出现的附图。本描述和附图中的不同实例中相同参考标号的使用可以指示类似或相同的项目。附图中所表示的实体可以指示一个或多个实体，并且因此可以对讨论中的单数或复数形式的实体可互换地进行参考。

图1是可操作为采用本文所描述的技术的示例实施方式中的环境的图示。

图2描绘了示出根据一个或多个实施方式的说明生成器的细节的示图。

图3描绘了根据一个或多个实施方式的图像加说明框架的示例实施方式。

图4是描绘了根据一个或多个实施方式的图像加说明框架的细节的示图。

图5描绘了示图，该示图描绘了根据一个或多个实施方式的针对利用弱监督的图像加说明的框架。

图6是根据一个或多个实施方式的弱监督数据被用于图像加说明的示例过程的流程图。

图7描绘了示例图，该示例图一般性地图示了用于图像加说明的词语向量表示的概念。

图8是根据一个或多个实施方式的词语向量表示被用于图像加说明的示例过程的流程图。

图9是描绘了根据一个或多个实施方式的用于图像加说明的语义关注框架的示图。

图10是根据一个或多个实施方式的语义关注模型被用于图像加说明的示例过程的流程图。

图11是描绘了根据一个或多个实施方式的语义关注框架的细节的示图。

图12图示了包括示例设备的各种组件的示例***，该示例设备能够被用于本文所描述的图像加说明技术的一个或多个实施方式。

具体实施方式

概述

用于图像处理的常规技术由于常规图像加标签和搜索算法的限制而不支持高精度自然语言加说明和图像搜索。这是因为常规技术仅将标签与图像相关联，而没有定义标签之间以及与图像本身之间的关系。此外，常规技术可能涉及使用自顶向下方法，其中图像的整体“要点”首先被导出，并且然后通过语言建模和语句生成被精炼为适当的描述性词语和说明。但是，这种自顶向下方法做不好捕获图像的精致细节的工作，诸如局部对象、属性和区域，它们有助于对于图像的精确描述。

本文描述了利用词语向量表示的图像加说明的技术。在一个或多个实施方式中，替代将说明分析的结果直接输出为词语或词语序列(例如，说明或语句)，框架被适配为输出语义词语向量空间中的点。这些点构成词语向量表示，词语向量表示反映语义词语向量空间的情境中的距离值。在这种方法中，词语被映射到向量空间中，并且说明分析的结果被表达为向量空间中的点，这些点捕获词语之间的语义。在向量空间中，类似的概念在概念的词语向量表示中具有小距离值。这些点不束缚于特定词语或单个词典。后处理步骤被用来将点映射到词语并将词语向量表示转换成说明。

在实施方式中，图像加说明框架基于神经网络和机器学习。给定目标图像，特征提取技术被应用以导出描述图像“要点”的全局图像概念。例如，预训练的卷积神经网络(CNN)可以被用来利用全局描述性术语编码图像。该CNN产生反映全局图像概念的视觉特征向量。关于全局图像概念导出的信息然后被馈送到语言处理模型中，该语言处理模型操作为概率地生成图像的描述性说明。例如，视觉特征向量可以被馈送到被设计为实施语言建模和语句生成技术的递归神经网络(RNN)中。该RNN被设计为迭代地预测词语序列，以基于根据多次迭代中的权重因数所计算的概率分布来组合作为用于目标图像的说明。在这一情境中，由该RNN实施的目标函数被适配为考虑语义词语向量空间中的距离而不是用于词语序列的概率分布，这使能词语向量表示。

如这一文件中所描述的利用词语向量表示的图像加说明的技术使得灵活且高效的方法能够生成图像说明。因为说明作为词语向量表示被生成，所以转换被延迟到过程的稍后阶段中的后处理。因此，被用于分析的词典能够在过程后期被改变以选择不同的语言、使用不同的词语范围或词语数目、引入新颖术语，等等。另外，词语向量表示能够被保存并重用，并且如果对词典进行改变则后处理之前完成的步骤不是必须被重复。

在以下讨论中，首先描述可以采用本文所描述的技术的示例环境。然后描述可以在该示例环境以及其他环境中执行的示例过程和实施方式细节。因此，示例过程和细节的执行不限于该示例环境，并且该示例环境不限于示例过程和细节的执行。

示例环境

图1是示例实施方式中可操作为采用本文所描述的技术的环境100的图示。所图示的环境100包括计算设备102，计算设备102包括处理***104(其可以包括一个或多个处理设备)、一个或多个计算机可读存储介质106、以及客户端应用模块108，客户端应用模块108被具体化在计算机可读存储介质106上，并且经由处理***104可操作为实施本文所描述的对应功能。在至少一些实施例中，客户端应用模块108可以表示可操作为访问各种种类的基于web的资源(例如，内容和服务)的计算设备的浏览器。客户端应用模块108还可以表示具有可操作为访问基于web的资源(例如，使能网络的应用)、浏览互联网、与在线提供商交互等的集成功能的客户端侧组件。

计算设备102还可以包括或利用图像搜索工具110，图像搜索工具110表示可操作为实施如上文和下文所描述的用于图像搜索的技术的功能。例如，图像搜索工具110可操作为访问并利用各种可用图像资源来找到与查询术语相匹配的候选图像。图像搜索工具110进一步表示如下的功能，该功能执行各种动作以促进基于如本文所讨论的图像帧的情境的搜索，诸如图像帧附近的情境的分析、导出查询术语以用作搜索参数的文本分析、所命名的实体辨识、和/或查询构造，这是提出几个示例。基于经由图像搜索工具110进行的图像搜索所发现的图像可以经由用户界面111来显露，用户界面111由客户端应用模块108或如下的另一应用所输出，针对该另一应用，图像搜索工具110被配置为提供用于外推库存图像搜索的功能。

图像搜索工具110可以被实施为软件模块、硬件设备，或者使用软件、硬件、固件、固定逻辑电路等的组合来实施。图像搜索工具110可以被实施为如所图示的计算设备102的独立组件。另外地或备选地，图像搜索工具110可以被配置作为客户端应用模块108的组件、操作***、或其他设备应用。例如，图像搜索工具110可以被提供作为用于浏览器的插件和/或可下载脚本。图像搜索工具110还可以表示网页、web应用或由服务提供商可用的其他资源中所包含的或者以其他方式经由它们可访问的脚本。

计算设备102可以被配置作为任何适合类型的计算设备。例如，计算设备可以被配置作为台式计算机、膝上型计算机、移动设备(例如，具有诸如平板或移动电话的手持式配置)、平板计算机，等等。因此，计算设备102的范围可以从具有大量存储器和处理器资源的全资源设备(例如，个人计算机、游戏控制台)到具有有限存储器和/或处理资源的低资源设备(例如，移动设备)。另外，虽然示出了单个计算设备102，但是计算设备102可以表示多个不同设备以执行如关于图12进一步描述的“在云上”的操作。

环境100进一步描绘了一个或多个服务提供商112，服务提供商112被配置为通过网络114(诸如互联网)与计算设备102通信，以提供“基于云”的计算环境。一般而言，服务提供商112被配置为使得各种资源116通过网络114可用于客户端。在一些场景中，用户可以注册被用来访问来自提供商的对应资源的账户。提供商可以在授予对账户的访问和对应资源116之前认证用户的凭证(例如，用户名和密码)。其他资源116可以被使得是自由地可用的(例如，无需认证或基于账户的访问)。资源116能够包括通常通过一个或多个提供商的网络被使得可用的服务和/或内容的任何适合组合。服务的一些示例包括但不限于相片编辑服务、web开发和管理服务、协同服务、社交联网服务、消息收发服务、广告服务，等等。内容可以包括文本、视频、广告、音频、多媒体流、动画片、图像、web文档、网页、应用、设备应用等的各种组合。

web应用118表示可以经由服务提供商112可访问的一个特定种类的资源116。可以使用浏览器或其他客户端应用模块108来获得并运行用于web应用的客户端侧代码而通过网络114来操作web应用118。在至少一些实施方式中，用于执行web应用118的运行时环境由浏览器(或其他客户端应用模块108)来提供。因此，从服务提供商可获得的服务和内容可以作为一些场景中的web应用可访问。

服务提供商进一步被图示为包括图像服务120，图像服务120被配置为根据本文所描述的技术来提供图像数据库122。图像服务120可以操作为搜索不同的图像资源124并且分析和组织(curate)从图像资源可获得的图像126，以产生图像数据库122。图像数据库122表示经组织图像的服务器侧储存库，其可以由客户端访问以***到网页、word文档、展示、以及其他内容中。图像服务120例如可以被配置为提供客户端/应用访问，以经由相应的图像搜索工具110来利用图像数据库122。通过示例的方式，图像服务120被描绘为实施搜索应用编程接口(搜索API)128，客户端/应用通过它能够提供经由图像服务120来定义并发起搜索的搜索请求。

图像服务120能够另外包括说明生成器130。说明生成器130表示可操作为实施如上文和下文描述的图像加说明技术的功能。一般而言，说明生成器130被设计为分析图像以生成图像的自然语言描述，诸如“在波浪顶上乘冲浪板的男人”。在实施方式中，说明生成器130依赖于神经网络和机器学习，其细节在下文关于图3和图4被讨论。在实施方式中，卷积神经网络(CNN)可以被用于利用全局描述性术语来编码图像，全局描述性术语然后被馈送到递归神经网络(RNN)，该RNN被设计为实施语言建模和语句生成技术。根据这一文件中所描述的发明性原理，说明生成器130被配置为以多种方式增强CNN图像特征的组合和RNN建模以用于图像加说明。通过引入的方式，用于说明生成的RNN的操作可以利用图像细节关键词来补充，这些图像细节关键词如下文关于图5和图6所讨论的从(多个)弱注释图像源导出。另外地或备选地，说明生成器130可以输出向量词语空间中的词语的表示，而不是如关于图7和图8所讨论的直接输出词语。此外，如关于图9至图11所讨论的，说明生成器130可以被配置为应用语义关注模型以基于情境来选择用于RNN中的不同节点的不同关键词。

图2一般性地在200处描绘了示图，该示图示出了根据一个或多个实施方式的说明生成器130的细节。在这一示例中，说明生成器130被实施为图像服务120的组件。注意，说明生成器130还可以以其他方式被配置，诸如作为独立的服务、图像搜索工具110的组件、或者向客户端、图像资源和/或其他实体部署的单独应用。说明生成器130被描绘为包括图像分析模型202。图形分析模型202表示以各种方式(包括但不限于特征提取、元数据解析、补丁分析、对象检测等)来处理图像的功能。图像分析模型202指定被用来获得用于说明分析的相关关键词和图像描述的算法和操作。例如，图像分析模型202可以反映用于对于图像加说明所依赖的卷积神经网络(CNN)和递归神经网络(RNN)的定义、过程、以及参数。为了增强图像加说明，说明生成器130另外被配置为，个体地或者如下文更详细讨论的以任何组合一起地，使用弱监督(supervision)数据204、词语向量表示206、和/或语义关注模型208。

已经考虑了示例环境，现在考虑根据一个或多个实施方式的用于图像加说明的技术的一些示例细节的讨论。

图像加说明实施方式细节

这一章节描述了根据一个或多个实施方式的具有增强的图像加说明的一些示例细节。这些细节关于图3至图11的一些示例过程、场景、以及用户接口被讨论。本文所讨论的过程被表示为块集合，这些块集合指定由一个或多个设备执行的操作，并且不必然限于用于由相应块执行操作的所示出的顺序。这些过程的方面可以被实施在硬件、固件、或软件、或它们的组合中。这些过程的一些方面可以经由一个或多个服务器来实施，诸如经由服务提供商112，服务提供商112经由图像服务120或以其他方式维持并提供对图像数据库122的访问。这些过程的方面还可以由适合地被配置的设备来执行，诸如图1的示例计算设备102，其包括或利用图像搜索工具110和/或客户端应用模块108。

一般而言，在这一文件中所描述的示例过程的情境中可以采用关于上文和下文的示例所描述的功能、特征和概念。进一步地，关于这一文件中的不同附图和示例所描述的功能、特征和概念可以在彼此之间被互换并且不限于特定附图或过程的情境中的实施方式。此外，本文中与不同表示性过程和对应附图相关联的块可以一起被应用和/或以不同方式被组合。因此，本文中关于不同的示例环境、设备、组件、附图和过程所描述的个体功能、特征和概念可以以任何适合的组合被使用，并且不限于由这一描述中列举的示例所表示的特定组合。

图像加说明框架

图3一般性地在300处描绘了图像加说明框架301的示例实施方式。在这一示例中，图像加说明框架301采用机器学习方法来生成加说明的图像。因此，训练数据302由图像加说明框架301获得，训练数据302将被用来训练模型，该模型然后被用来形成说明。在类似场景(例如，图像理解问题)中被用来训练模型的技术可以依赖于用户对图像手动地加标签以形成训练数据302。还可以使用机器学习来训练模型，该机器学习使用可自动执行且无需用户干预的技术。

在所图示的示例中，训练数据302包括图像304和关联文本306，诸如与图像304相关联的说明或元数据。提取器模块308然后被用于使用自然语言处理来提取结构化语义知识310，例如“<主语、定语>、图像”和“<主语、谓语、宾语>、图像”。提取还可以包括结构化语义到图像内的对象或区域的局部化。结构化语义知识310可以被用来将图像匹配到与视觉上类似的图像相关联的数据(例如，加说明)，并且还可以被用来找到与元数据集合的特定说明相匹配的图像(例如，搜索)。

图像304和对应的结构化语义知识310然后被传递到模型训练模块312。模型训练模块312被图示为包括机器学习模块314，机器学习模块314表示如下的功能：采用机器学习(例如，神经网络、卷积神经网络等)以使用图像304和结构化语义知识310来训练图像分析模型202。模型316被训练为定义结构化语义知识310中所包括的文本特征与图像中的图像特征之间的关系(例如，视觉特征向量)。

图像分析模型202然后由说明生成器用来处理输入图像316并生成加说明的图像318。即使是在输入图像316包括任何文本的实例中，加说明的图像318例如可以包括文本标签和描述以定义图像108的概念。确切地说，说明生成器130基于对输入图像316的分析使用图像分析模型202来生成适当的文本描述。加说明的图像318然后可以由图像服务320用来自动地且无需用户干预地控制各种功能，诸如图像搜索、说明和元数据提取、图像分类、可及性特征等。

一般而言，图像加说明框架301涉及特征提取，其后是基于特征的描述的构造。各种不同的模型和方法可以被用于由图像加说明框架301所反映的特征提取操作和描述构造操作这两者。如之前所提到的，图像加说明框架301可以依赖于神经网络和机器学习。在实施方式中，使用卷积神经网络(CNN)来实施特征提取，然后递归神经网络(RNN)被调用以用于语言建模和语句构造。

在这一情境中，图4是示图，该示图一般性地在400处描绘了根据一个或多个实施方式的图像加说明框架的细节。这里，框架401表示用于基于神经网络的图像加说明的通用编码器-解码器框架。该框架基于神经网络和机器学习。给定目标图像316，特征提取技术被应用以导出描述图像的“要点”的全局图像概念。例如，预训练的卷积神经网络(CNN)402被用于利用概念404来编码图像，概念404作为整体指示图像的要点。该CNN产生反映这些“全局”概念404的视觉特征向量。关于全局图像概念404导出的信息然后被馈送到语言处理模型中，该语言处理模型操作为概率地生成图像的描述性说明。例如，视觉特征向量可以被馈送到被设计为实施语言建模和语句生成技术的递归神经网络(RNN)406中。RNN 406被设计为迭代地预测词语序列，以基于根据多次迭代中的权重因数所计算的概率分布来组合作为用于目标图像的说明。如所表示的，RNN 406输出与图像316相关联的以说明、标签、语句和其他文本为形式的描述408。这产生如关于图3所讨论的加说明的图像。

图4进一步表示了增强410，其可以关于通用框架401被利用。具体地，说明生成器130可以使用弱监督数据204、词语向量表示206、和/或语义关注模型208作为对通用框架401所提供的图像加说明的增强410。增强410中的每个增强可以在个体的基础上被用来补充通用框架401的加说明。另外，可以采用多个增强410的任何组合。下文进而讨论关于对通用框架401的增强410的细节。

弱监督

如之前所提到的，关于目标图像的弱监督数据204可以被获得并被用来提供详细信息，该详细信息补充了为了图像加说明所导出的全局图像概念404。特别地，弱监督数据204从弱注释图像的源被收集，诸如社交联网站点、图像共享站点、以及用于图像的其他在线储存库。对于不同场景中的图像加说明，可以依赖于一个或多个源。上传到这种源的图像通常与用户所添加的标签、描述和其他文本数据相关联。用户所添加的这种种类的文本数据被认为是“弱监督的”，因为用户可能将“噪声”术语包括在内，这些“噪声”术语可能与图像所运送的图像内容和全局概念不相关或略微有关，并且数据没有由服务提供商精炼或控制。弱注释以与通过传统图像辨识和特征提取方法可得到相比较深的理解水平来提供关于图像的详细信息。因此，依赖于弱注释来生成指示低水平图像细节(例如，对象、属性、区域、白话语义)的关键词的集合，其能够被用来扩展用于图像分析的词典/词汇并补充为了图像加说明所导出的全局图像概念404。

在之前讨论的通用图像加说明框架401中，预训练的卷积神经网络(CNN)被用来编码图像。结果是被馈送到用于语句生成的递归神经网络(RNN)的视觉特征向量。训练数据被用来训练内嵌函数、递归神经网络、以及可选地卷积神经网络。RNN特别被设计用于序列数据。在RNN中，每个输入节点具有隐藏状态h_i，并且对于每个隐藏状态，h_i＝f(x_i,h_i-1)，其中f(·)为激活函数，诸如逻辑函数或双曲正切(tanh)函数。换言之，用于每个节点的状态h_i取决于基于输入x_i和用于之前节点的状态h_i-1计算的激活函数。以这种方式，RNN被用来迭代地计算用于每个输入节点的隐藏状态。另外，隐藏状态将交互从序列的起始传播到该序列中的结束节点。图像加说明框架401能够与各种不同架构的RNN集成。本文省略了关于RNN架构的细节，因为本领域的普通技术人员将意识到不同架构的实施方式，并且本文所描述的发明性概念不取决于所采用的特定RNN架构。

在这一情境中，图5一般性地在500处描绘了示图，该示图描绘了用于利用弱监督的图像加说明的框架。特别地，图5表示了图4的通用框架401中的RNN 406被适配为依赖于弱监督数据204的场景。弱监督数据204可以从如上文和下文所描述的各种图像源124获得。例如，特征提取502过程可以被应用于辨识与来自图像源124中的至少一个图像的目标图像相类似的图像。被辨识为与目标图像相类似的图像进一步被处理，以从与类似图像相关联的弱注释提取关键词。因此，特征提取502表示如上文所讨论的功能性地被应用于导出以指示低水平图像细节的关键词集合为形式的弱监督数据204。弱监督数据204然后被供应给RNN 406，以如图5中所表示的通知图像加说明分析。在一种方法中，从弱注释的图像导出的经过滤的关键词列表被供应给RNN。该列表可以通过以下来生成：根据相关性准则对关键词集合评分并排名，并且选择若干顶部排名的关键词以包括在经过滤的列表中。经过滤的列表可以基于频率、概率分数、权重因数、或其他相关性准则被过滤。在实施方式中，关键词的整个集合可以被供应用于在RNN中使用(例如，未过滤列表)。

关键词的列表被配置为将关键词权重504与每个词语或短语相关联。关键词权重504因此反映了在RNN内可以被用来预测用于加说明的词语序列的分数或概率分布。如图5中所表示的，顶部关键词的列表可以被馈送到RNN的每个节点中，作为补充全局概念的另外数据。在这一点上，针对目标图像所产生的关键词列表扩展了被用来导出用于目标图像的说明的词汇。另外，关键词权重504调整由RNN应用于语言建模和语句构造的权重因数。因此，关键词权重504对改变如下的词语概率是有效的，这些词语概率被用于由RNN实施以偏好指示低水平图像细节的关键词的概率性分类。

用于弱监督数据204的关键词权重504的效果能够按照上文所提到的用于RNN的通用形式h_i＝f(x_i,h_i-1)来表达。一般而言，给定用于每个图像v_i的关键词集合K_i＝{k₁,k₂,…,k_k}，目标是如何采用K_i来生成用于v_i的说明。具体地，构建模型以使用关键词用于训练阶段和测试阶段这两者。为了这样做，关键词针对每个图像被提取并且被聚合为关键词的集合。然后，RNN中的每个输入节点根据等式K_e＝max(W_kK+b)被附加有用于关键词的另外的嵌入信息。这里，K_e为用于节点的关键词列表，W_k为控制关键词权重504的用于关键词的嵌入矩阵。对于每个输入词语w_i，K_e被附加在如图5中所表示的输入递归神经网络的每个位置处。因此，如被适配为采用弱监督的RNN可以被表达为h_i＝f(x_i,h_i-1,K_e)。在这一表达式中，激活函数f(·)另外地取决于嵌入的关键词列表K_e和对应的关键词权重504。

在前述示例中，max运算被用来从候选关键词群组获得特征。还预想到其他运算，诸如求和，其可以增大输入层中的参数的总数目。然而，利用max运算，针对每个图像所选择的关键词的数目可以不同，并且在分析中能够考虑大数目的潜在关键词而无需向输入层添加显著数目的参数。

如所提到的，各种图像源124可以被用来获得弱监督数据。在实施方式中，图像源124包括用于通过网络可访问的图像的各种在线储存库，诸如社交联网站点、图像共享站点、以及经组织的图像数据库/服务。用户现今正频繁地使用这种在线储存库来共享图像和多媒体内容并访问图像内容。从在线源可获得的图像通常包括标签或短描述，它们可以被利用以获得用于在加说明时使用的弱监督的知识。

被用来训练图像加说明框架(例如，训练说明生成器)的训练图像集合可以提供弱监督数据204的另外的或备选的源。在这种方法中，训练数据包括如下图像的数据库，这些图像具有被用来训练用于加说明模型的分类器的对应说明。可以依赖于训练图像数据库作为源来发现彼此类似的相关图像。接着，将用于相关图像的说明被聚合为用于图像加说明的弱监督的文本。当目标图像匹配于相关图像的集合时，依赖于用于相关图像的说明作为用于目标图像的加说明的弱监督数据204。

在实施方式中，至少一些弱监督数据204可以从图像分析直接被导出。为了这样做，不同的概念或属性检测器被训练以辨识由弱注释图像所提供的低水平图像细节的种类。深度神经网络的相对近期发展已经激励了图像内对象辨识上的显著改进。因此，有可能训练图像分类器以辨识一些类型的低水平图像细节，诸如特定对象、区域差异、图像属性等。替代使用这种图像细节直接来生成候选说明，所检测的属性或概念被馈送到图像说明框架中作为弱监督数据204，以按照本文所描述的方式来通知图像加说明。

图6是根据一个或多个实施方式的弱监督数据被用于图像加说明的示例过程600的流程图。目标图像被获得以用于说明分析(块602)。例如，图像服务120可以实施如本文所描述的说明生成器130。图像服务120可以提供经由搜索API 128显露的可搜索图像数据库122。说明生成器130被配置为对图像执行说明分析，并且使用本文所描述的各种技术自动地生成用于图像的说明。经由说明生成器130生成的加说明的图像318可以以各种方式被采用。例如，说明可以促进使用自然语言查询经由搜索API 128进行的图像搜索。另外，通过将说明转换成向用户传达图像内容的可听描述，说明可以促进视障用户的可及性。

为了产生图像说明，特征提取被应用到目标图像以生成对应于目标图像的全局概念(块604)。各种类型的特征提取操作被预想到。一般而言，初始特征提取被应用以导出描述图像的整体要点的全局概念404。初始特征提取可以经由如之前所提到的CNN 402来执行，但是导出全局图像概念404的其他技术也被预想到。所导出的概念404可以被组合以形成候选说明，这些候选说明被用作用于进一步精炼并选择说明的起始点。因此，进一步的精炼可以另外地依赖于如本文所描述的弱监督数据204。

特别地，目标图像与来自弱注释图像的源的图像进行比较以识别视觉上类似的图像(块606)。弱注释图像的各种源被预想到，其示例之前被给出。本文所描述的分析依赖于至少一个源，然而，多个源可以在一些场景中被使用。该比较涉及使用特征提取技术来找到具有类似于目标图像的特征的图像。与类似图像相关联的注释被认为与目标图像的加说明相关。

因此，通过从视觉上类似的图像提取关键词来构建用于目标图像的关键词集合(块608)，并且关键词集合连同全局概念一起被供应用于说明生成(块610)。然后，使用关键词集合调整被应用于语句构造的词语权重来针对目标图像生成说明(块612)。这里，从弱注释图像导出的关键词列表被确定并供应作为弱监督数据204以按照之前所提到的方式来通知图像加说明分析。弱监督数据204所指示的关键词权重504对调整被应用于语言建模和语句生成的权重因数是有效的。产生说明的语言建模和语句构造可以经由如之前所描述的RNN 406来实施，但是其他图像加说明算法和技术也被预想到。在任何情况下，由弱监督数据204所反映的权重被应用于图像加说明以相应地改变概率性分类中的词语概率。因此，在根据针对关键词建立的权重因数的加说明分析中考虑到指示从弱注释导出的低水平图像细节的关键词。

词语向量表示

词语向量表示206是可以被用于增强通用图像加说明框架401的另外特征。词语向量表示206可以个体地被使用或者与之前描述的弱监督和/或在以下章节中讨论的语义关注组合地被使用。简略地说，替代将说明分析的结果直接输出为词语或词语序列(例如，说明或语句)，框架401被适配为输出语义词语向量空间中的点。这些点构成词语向量表示206，词语向量表示206反映语义词语向量空间的情境中的距离值。在这种方法中，词语被映射到向量空间中，并且说明分析的结果被表达为向量空间中的点，这些点捕获词语之间的语义。在向量空间中，类似的概念在概念的词语向量表示中具有小距离值。

相对照地，传统方法被设计为返回所预测的词语或序列。例如，之前所描述的RNN406传统上被配置为通过固定词典/词汇确定每个节点处的概率分布。词语基于所计算的分布被评分和排名。最可能的词语然后基于对节点的输入和当前状态被选择作为用于每个节点的输出。该过程基于多次迭代来迭代地找到顶部说明或多个说明。这里，由RNN使用的目标函数所反映的策略利用对应于类(class)的每个词语来解决分类问题。概率分布被用于相对于固定词典/词汇的概率性分类。因此，说明中的词语必须被包含在词典中，词典尺寸一般为大以负责众多构造，并且如果词典被改变则分析必须完全地被重复。

另一方面，利用词语向量表示206，分析的输出是向量空间中的点或多个点。这些点不束缚于特定词语或单个词典。后处理步骤被用来将点映射到词语并将词语向量表示206转换成说明。因此，转换被延迟到过程中的稍后阶段。这一点的结果是词典在过程中的后期能够被改变以选择不同的语言、使用不同的词语范围或词语数目、引入新颖术语，等等。另外，词语向量表示206能够被保存，并且如果对词典进行改变则后处理之前完成的步骤不是必须被重复。

图7在700处描绘了示例图，该示例图一般性地图示了用于图像加说明的词语向量表示的概念。特别地，图7表示语义词语向量空间702，其捕获词语之间的语义。在这一示例中，语义词语向量空间702具有多维空间中的轴，这些轴对应于不同的词语组合或语句。在这一情境中，词语向量704表示语义词语向量空间702中的词语之间的距离值。给定用于分析问题的特定状态数据和所选择的词典，词语向量704能够被映射到最接近的词语或多个词语。这种方法向取决于情境信息在过程中的后期将词语向量704映射到不同词语提供了灵活性。

图8是根据一个或多个实施方式的词语向量表示被用于图像加说明的示例过程800的流程图。目标图像被获得以用于说明分析(块802)，并且特征提取被应用到目标图像以生成对应于该图像的属性(块804)。例如，图像服务120可以实施如之前所描述的被配置为处理图像的说明生成器130。此外，各种类型的特征提取操作被预想到以检测与目标图像相关联的特征、概念、对象、区域和其他属性。

这些属性被供应给说明生成器以发起说明生成(块806)。例如，属性可以被用来导出关键词，这些关键词被供应给说明生成器130所实施的图像分析模型202以用于图像加说明。这些关键词被用来构造并评估作为潜在说明候选的关键词的不同组合。作为分析的结果，在语义词语向量空间中输出词语向量，该词语向量指示作为属性的组合被形成的语句中的词语之间的语义关系(块808)。例如，图像分析模型202可以被适配为输出词语向量表示206作为说明分析的中间结果。词语向量表示206可以对应于语义词语向量空间702中未映射到特定词语或具体词典的点。例如，由RNN所实施的目标函数可以被适配为考虑语义词语向量空间702中的距离，而不是用于词语序列的概率分布。下文讨论与使用L-2距离和负采样来修改用于说明分析的目标函数有关的一些细节。

随后，词语向量被转换成用于目标图像的说明(块810)。重要地，词语向量转换被延迟到在导出词语向量表示206的RNN的操作之后发生的后处理操作。换言之，后处理转换被应用到从RNN生成的输出。词语向量转换发生在经由RNN执行的说明分析之外选择的词典/词汇的情境中。因此，生成词语向量表示206的说明分析不取决于特定词典。

如所提到的，使用语义词语向量空间的实施方式可以使用距离和/或负采样来修改用于说明分析的目标函数而被实施。关于L-2距离，典型的目标函数被构造为概率分类问题。例如，给定节点输入和当前状态，函数可以被设计为求解用于词语序列的对数似然目标。这种对数似然目标可以被表达为log p(W|V)＝∑_tlog p(w_t|V,w₀,w₁,…,w_T)。为了使能词语向量表示206，目标函数被适配成取决于语义词语空间中的距离的代价函数。例如，经适配的目标函数可以被表达为这里，p_t表示预测的词语索引。利用这一目标函数，可以使用非常大的词汇量。另外，用于每个词语的特征可以使用经适配的目标函数的一些未监督特征而被发起，显著地减少了所涉及的特征的数目，因为参数的数目有关于特征的维度而不是词汇量大小(典型目标函数中的类的总数目)。

上述L-2距离方法考虑到在每个节点处的目标函数中的当前词语。然而，对于每个节点，还存在许多负样本(所有其他词语)。说明分析可以被进一步适配为包括解释负样本的负采样分析。负采样将代价注入到解释与负样本的距离的目标函数中。利用负采样，目标函数被设计为使相关词语/向量之间的距离最小化，并且使与负样本的距离最大化。在一种实施方式中，对于每个节点，随机地选择不同于目标词语的N个词语，并且用于目标函数的损耗因数被定义为log(1+exp(-w_iVh_i-1)+Σ_nlog(1+exp(w_nVh_i-1)。在这一表达式中，w_i表示在第i个位置处的用于每个目标词语的嵌入。w_n表示用于第i个目标词语的第n个随机选取的负样本，并且h_i-1为位置i-1处的隐藏响应。因此，当目标词语接近于随机选择的负样本时，负采样增加用于目标词语的代价。

语义关注

语义关注模型208是可以被用来增强通用图像加说明框架401的另一附加特征。语义关注模型208可以个体地被使用或者与之前描述的弱监督和/或词语向量表示组合地被使用。一般而言，语义关注模型208被实施用于选择针对可用术语的语料库的关键词和概念。本文之前所讨论的技术可以在递归神经网络中的每个节点处采用关键词或特征的相同集合。例如，为了弱监督数据202导出的相同关键词列表可以被供应给RNN 406中的每个节点。然而，不同词语/概念的相关性在分析中的不同点处可能改变。语义关注模型208提供了一种机制以选择用于取决于情境来生成下一词语的不同概念、关键词、或监督信息。

宽泛地说，语义关注模型208被配置为基于情境对候选关键词进行排名并且计算被馈送到RNN中的对应关注权重。在RNN中每个节点处所计算的状态信息被反馈回到语义关注模型208中，并且候选关键词根据用于下一迭代的当前情境被重新排名。因此，被用于RNN中的每个节点的特定关键词和权重随着RNN转变(transit)而改变。作为结果，图像加说明模型关注于每次迭代时最相关的关键词。使用语义关注模型208用于图像加说明使能了更复杂的说明并且改进了所生成的说明的准确度。在图9至图11的以下讨论中提供了与用于图像加说明的语义关注模型有关的细节。

对于情境，已有图像加说明方法中存在两种一般范式：自顶向下和自底向上(bottom-up)。自顶向下范式从图像的“要点”开始并将它转换成词语，而自底向上范式首先提出描述图像的各种方面的词语，并且然后组合它们。在两种范式中采用语言模型来形成衔接句(coherent sentence)。“技术的状态”是自顶向下范式，其中存在基于递归神经网络的从图像到语句的端到端公式化，并且递归网络的所有参数能够从训练数据得知。自顶向下范式的限制之一是它难以关注于精致细节，这些精致细节在描述图像方面可能是重要的。自底向上方法不遭受这一问题，因为它们在任何图像分辨率上自由操作。然而，它们遭受其他问题，诸如缺乏对于从个体方面转到语句的过程的端到端公式化。

如本文所使用的，用于图像加说明的语义关注是指如下的能力：提供在加说明分析中的不同点处相关的语义上重要的目标的详细连贯的描述。本文所描述的语义关注模型208能够：1)关注于语义上重要的概念或图像中的感兴趣区域，2)加权在多个概念上给予的关注的相对强度，以及3)根据任务状况动态地在概念之间切换关注。特别地，语义关注模型208使用自底向上方法来检测语义细节或“属性”作为用于关注的候选，并且采用自顶向下组件来引导关注应当何处且何时被激活。该模型构建在如之前讨论的递归神经网络(RNN)的顶部上。初始状态从自顶向下组件捕获全局概念。随着RNN状态转变，该模型经由在网络状态和输出节点两者上实施的关注机制从自底向上属性取得反馈和交互。这一反馈允许算法不仅更准确地预测词语，还引起已有预测与图像内容之间的语义间隙的更鲁棒的推断。反馈操作为在递归神经网络的框架内组合自顶向下方法和自底向上方法这两者中的视觉信息。

图9是示图，该示图一般性地在900处描绘了根据一个或多个实施方式的用于图像加说明的语义关注框架。如所提到的，语义关注框架组合用于图像说明的自顶向下方法和自底向上方法。在所描绘的示例中，图像316被表示为用于说明分析的目标。给定目标图像316，卷积神经网络402被调用以提取用于图像的自顶向下视觉概念。同时，特征提取902被应用来检测低水平图像细节(区域、对象、属性等)。特征提取902可以被实施为相同卷积神经网络402的一部分或者使用单独的提取组件来实施。在实施方式中，特征提取902被应用到弱注释的图像的源以按照之前描述的方式导出弱监督数据204。特征提取902的结果是对应于低水平图像细节的图像属性904(例如，关键词)的集合。如图9中所表示的，语义关注模型208操作为在生成图像说明的RNN 406中将自顶向下视觉概念与低水平细节相组合。特别地，语义关注模型计算并控制用于属性904的关注权重906，并且在每次迭代时将关注权重906馈送到RNN中。随着RNN转变，语义关注模型208获得与说明分析的当前状态和情境有关的反馈908。这一反馈908被用来关于递归神经网络迭代而改变用于候选属性904的关注权重。作为结果，语义关注模型206使得RNN 406关注于针对每次预测迭代的最相关概念。

图10是根据一个或多个实施方式的语义关注模型被用于图像加说明的示例过程1000的流程图。特征提取被应用到目标图像以生成对应于目标图像的概念和属性(块1002)。特征提取可以以如本文所描述的各种方式发生。特征提取可以依赖于CNN 402、提取器模块302、或被设计为检查用于图像316的概念和属性的其他适合组件。概念和属性被馈送到说明生成模型中，该说明生成模型被配置为迭代地组合从概念和属性导出的词语以在多次迭代中构造说明(块1004)。然后，根据语义关注模型来构造说明，该语义关注模型被配置为基于与之前迭代中所预测的词语的相关性来调整向用于多次迭代中的每次迭代的属性所指配的权重(块1004)。例如，如关于图9讨论的语义关注框架可以被用于根据一个或多个实施方式的图像加说明。通过示例而非限制的方式，语义关注模型208可以关于RNN406进行操作。备选地，可以采用用于语言建模和语句生成的其他迭代式技术。在任何情况下，语义关注框架供应如本文所描述的关注权重906，关注权重906被用来控制说明生成模型内的概率性分类。在每次迭代时，使用关注权重906将模型聚焦于对于该迭代最相关的特定概念和属性，词语在用于说明的序列中被预测。关注权重906对于每一遍(pass)被重新评估并调节。

图11是示图，该示图一般性地在1100处描绘了根据一个或多个实施方式的语义关注框架的细节。特别地，图11表示利用了由φ表示的输入关注模型1102和由表示的输出关注模型1104这两者的示例图像加说明框架，其细节在下文被描述。在该框架中，属性904针对图像316被导出。另外，CNN 402被用来导出由v表示的用于图像316的视觉概念。与对应属性权重906耦合的属性904被表示为属性检测{Ai}。视觉概念v和属性检测{Ai}被注入到RNN(虚线箭头)中并且通过反馈908环路被融合在一起。在这一框架内，对属性的关注由输入关注模型1102(φ)和输出关注模型这两者来实施。

因此，自顶向下特征和自底向上特征这两者从输入图像被获得。在一种实施方式中，来自分类卷积神经网络(CNN)的中间过滤响应被用来构建由v标示的全局视觉概念。另外，属性检测器集合操作为取得最可能出现在图像中的视觉属性列表{Ai}。每个属性Ai对应于词汇集合或词典Y中的条目。

所有视觉概念和特征被馈送到用于说明生成的递归神经网络(RNN)中。因为RNN中的隐藏状态h_t∈Rⁿ随着时间t而演变，所以根据由状态h_t控制的概率向量p_t∈R^|Y|从词典Y取出第t个词语Y_t。所生成的词语Y_t将在下次步骤中被反馈回到RNN中作为网络输入x_t+1∈R^m的一部分，这导出从h_t至h_t+1的状态转变。来自v和{Ai}的视觉信息在生成x_t和p_t时充当用于RNN的外部引导，其由图11中所表示的输入模型和输出模型φ和指定。

与之前的图像加说明方法相对照，该框架使用反馈908回路利用并组合视觉信息的不同源。(多个)CNN图像概念v被使用作为初始输入节点x₀，其被期望向RNN给出图像内容的快速概览。一旦RNN状态被初始化以涵盖整个视觉情境，RNN能够针对后续时间步骤中的任务相关处理从{Ai}选择特定项目。具体地，该框架由以下等式来支配：

x₀＝φ₀(v)＝W^x,vv

h_t＝f(x_t,h_t-1,)

x_t＝φ(Y_t-1,{A_i}),t>0,

这里，线性嵌入模型被用于具有由W^x,v指示的权重因数的初始输入节点x₀。输入关注模型φ在t＝0时被应用到v以嵌入(多个)全局概念。h_t表示用于RNN的隐藏节点的状态，隐藏节点由如之前描述的激活函数f来支配。输入关注模型φ和输出关注模型被设计为基于当前模型状况自适应地关注于{Ai}中的某些认知线索，以使得所提取的视觉信息将与已有词语的解析和未来词语的预测最相关。例如，如由表达式反映的，当前词语Y_t和概率分布p_t取决于输出模型和属性权重。相似地，t＝0之后的输入由x_t＝φ(Y_t-1,{A_i}),t>0来表达，并且取决于输入模型φ、之前迭代中所预测的词语Y_t-1以及属性{Ai}。RNN递归地操作，并且如此，所关注的属性被反馈回到状态h_t并与由v表示的全局信息相集成。

在用于t>0的输入关注模型φ，分数基于其与之前所预测的词语Y_t-1的相关性被指配给每个所检测的属性Ai。因为Y_t-1和A_i这两者对应于词典Y中的条目，所以它们能够利用R^|Y|空间中的独热(one-hot)表示被编码，我们将其分别标示为y_t-1和y_i。作为向量空间中的模型相关性的通用方法，双线性函数被用来评估特别地，其中指数被拿来以softmax方式对于全部{Ai}归一化。矩阵包含用于具有合理词汇量的任何Y的大量参数。为了减小参数尺寸，独热表示能够被投射到低维语义词语向量空间中(如上文关于图7和图8讨论的)。

令词语嵌入矩阵为E∈R^dx|Y|并且d<<|Y|。然后，之前的双线性函数变为其中U为dxd矩阵。一旦被计算，关注分数被用来调整对不同属性的关注的强度。所有属性的加权和根据表达式连同之前词语从词语嵌入空间被映射到x_t的输入空间。这里，W^x,Y∈R^m×d是投影矩阵，diag(w)标示利用向量w构造的对角矩阵，并且w^x,A∈R^d对视觉属性在语义词语向量空间中的每个维度中的相对重要性建模。

输出关注模型与输入关注模型类似地被设计。然而，不同的关注分数集合被计算，因为在单个语句的分析过程和合成过程期间可以以不同顺序来关注视觉概念。换言之，被用于输入模型和输出模型的权重单独地被计算并且具有不同值。利用对于预测由当前状态h_t所捕获的Y_t有用的所有信息，用于每个属性Ai的分数关于h_t被测量，其由表达式来捕获。这里，V∈R^n×d为双线性参数矩阵。σ标示将输入节点连接到RNN中的隐藏状态的激活函数，其在这里被用来确保相同非线性变换在两个特征向量被比较之前应用到这两个特征向量。

再次地，被用来调整对所有属性的关注，并且对它们的激活的加权和在确定分布p_t时被使用作为对h_t的补充(compliment)。具体地，分布由线性变换来生成，线性变换之后为被表达为的softmax归一化。在这一表达式中，W^Y,h∈R^d×n为投影矩阵，并且w^Y,A∈Rⁿ对视觉属性在RNN状态空间的每个维度中的相对重要性建模。E^T项实施用于参数减少的转置权重共享技巧。

用于每个图像的训练数据包括输入图像特征v、{Ai}以及输出说明词语序列{Y_t}。对于模型学习，目标是通过使对于训练集合的损耗函数最小化来学习所有的关注模型参数Θ_A＝{U，V，W^*，*，w^*，*}连带所有的RNN参数Θ_R。一个训练示例的损耗被定义为与关注分数和上的正则化项相组合的全部词语的总的负对数似然率，并且根据以下损耗函数来表达：这里，α和β是关注分数矩阵，并且它们的第(t；i)条目为权重和正则化函数g被用来实施对{Ai}中的每个属性所给予的关注的完整性以及在任何特定时间步骤处的关注的稀疏性。这通过使得以下用于α的矩阵范数最小化来进行(并且对于β也是一样)：具有p>1的第一项惩罚在整个语句上累积的对任何单个属性Ai所给予的过多关注，并且具有0<q<1的第二项惩罚在任何特定时间对多个属性的转移关注。具有自适应学习速率的随机梯度下降算法被用来优化损耗函数。

已经考虑了前述示例细节、过程、用户接口以及示例，现在考虑包括能够被用于本文所描述的图像加说明技术的一个或多个实施方式的各种组件和设备的示例***的讨论。

示例***和设备

图12一般性地在1200处图示了包括示例计算设备1202的示例***，示例计算设备1202表示可以实施本文所描述的各种技术的一个或多个计算***和/或设备。这通过对图像服务120的包括而被图示，图像服务120如上文所描述的进行操作。计算设备1202例如可以为服务提供商的服务器、与客户端相关联的设备(例如，客户端设备)、片上***、和/或任何其他适合的计算设备或计算***。

示例计算设备1202被图示为包括处理***1204、一个或多个计算机可读介质1206、以及通信地被耦合到彼此的一个或多个I/O接口1208。虽然未示出，但是计算设备1202可以进一步包括将各种组件耦合到彼此的***总线或其他数据和命令传送***。***总线能够包括不同总线结构(诸如存储器总线或存储器控制器、***总线、通用串行总线、和/或利用各种总线架构中的任何总线架构的处理器或局部总线)的任何一个或组合。各种其他示例也被预想到，诸如控制和数据线路。

处理***1204表示使用硬件执行一个或多个操作的功能。因此，处理***1204被图示为包括硬件元件1210，硬件元件1210可以被配置作为处理器、功能块，等等。这可以包括作为使用一个或多个半导体形成的专用集成电路或其他逻辑设备的硬件中的实施方式。硬件元件1210不被形成它们的材料或其中所采用的处理机制所限制。例如，处理器可以包括(多个)半导体和/或晶体管(例如，电子集成电路(IC))。在这种情境中，处理器可执行指令可以为电子可执行指令。

计算机可读存储介质1206被图示为包括存储器/存储装置1212。存储器/存储装置1212表示与一个或多个计算机可读介质相关联的存储器/存储容量。存储器/存储组件1212可以包括易失性介质(诸如随机存取存储器(RAM))和/或非易失性介质(诸如只读存储器(ROM)、闪存、光盘、磁盘，等等)。存储器/存储组件1212可以包括固定介质(例如，RAM、ROM、固定硬驱动器，等等)以及可移除介质(例如，闪存、可移除硬驱动器、光盘，等等)。计算机可读介质1206可以如下文进一步描述的以各种其他方式被配置。

(多个)输入/输出接口1208表示如下的功能：允许用户向计算设备1202输入命令和信息，并且还允许使用各种输入/输出设备向用户和/或其他组件或设备呈现信息。输入设备的示例包括键盘、光标控制设备(例如，鼠标)、麦克风、扫描仪、触摸功能(例如，被配置为检测物理触摸的电容性传感器或其他传感器)、照相机(例如，其可以采用可视波长或不可视波长(诸如红外频率)来将移动辨识为不涉及触摸的手势)，等等。输出设备的示例包括显示设备(例如，监视器或投影仪)、扬声器、打印机、网卡、触觉响应设备，等等。因此，计算设备1202可以如下文进一步描述的以各种方式被配置为支持用户交互。

在本文中可以在软件、硬件元件、或程序模块的一般情境中描述各种技术。一般而言，这种模块包括执行特定任务或实施特定抽象数据类型的例程、程序、对象、元件、组件、数据结构，等等。如本文所使用的术语“模块”、“功能”和“组件”一般表示软件、固件、硬件、或它们的组合。本文所描述的技术的特征为独立于平台的，意味着技术可以被实施在具有各种处理器的各种商用计算平台上。

所描述的模块和技术的实施方式可以被存储在某种形式的计算机可读介质上或者跨某种形式的计算机可读介质被传输。计算机可读介质可以包括可以由计算设备1202访问的各种介质。通过示例而非限制的方式，计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。

“计算机可读存储介质”指代与仅信号传输、载波或信号本身相对照使能信息的持久性和/或非瞬态存储的介质和/或设备。因此，计算机可读存储介质不包括信号本身或信号承载介质。计算机可读存储介质包括硬件，诸如以适合于存储信息(诸如计算机可读指令、数据结构、程序模块、逻辑元件/电路、或其他数据)的方法或技术所实施的易失性和非易失性、可移除和不可移除介质和/或存储设备。计算机可读存储介质的示例可以包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字化通用光盘(DVD)或其他光存储装置、硬盘、磁带盒、磁带、磁盘存储装置或其他磁存储设备、或其他存储设备、有形介质、或适合于存储期望信息且可以由计算机访问的制品。

“计算机可读信号介质”指代被配置为诸如经由网络向计算设备1202的硬件传输指令的信号承载介质。信号介质通常可以具体化计算机可读指令、数据结构、程序模块、或调制的数据信号(诸如载波、数据信号、或其他传送机制)中的其他数据。信号介质还包括任何信息递送介质。术语“调制的数据信号”意指如下的信号，该信号使它的特性中的一个或多个特性以关于将信息编码在该信号中的方式被设置或改变。通过示例而非限制的方式，通信介质包括有线介质(诸如，有线网络或直接有线连接)和无线介质(诸如，声学、RF、红外、以及其他无线介质)。

如之前所描述的，硬件元件1210和计算机可读介质1206表示以硬件形式实施的模块、可编程设备逻辑、和/或固定设备逻辑，其可以在一些实施例中被用来实施本文所描述的技术的至少一些方面，诸如执行一个或多个指令。硬件可以包括如下的组件：集成电路或片上***、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、复杂可编程逻辑设备(CPLD)、以及硅或其他硬件中的其他实施方式。在这一情境中，硬件可以操作为执行由指令定义的程序任务和/或由硬件具体化的逻辑的处理设备、以及被用来存储用于执行的指令的硬件，例如，之前描述的计算机可读存储介质。

还可以采用前述的组合来实施本文所描述的各种技术。因此，软件、硬件、或可执行模块可以被实施为在某种形式的计算机可读存储介质上和/或由一个或多个硬件元件1210具体化的一个或多个指令和/或逻辑。计算设备1202可以被配置为实施对应于软件模块和/或硬件模块的特定指令和/或功能。因此，由计算设备1202作为软件可执行的模块的实施方式例如可以通过使用处理***1204的计算机可读存储介质和/或硬件元件1210来至少部分地实现。指令和/或功能可以由一个或多个制品(例如，一个或多个计算设备1202和/或处理***1204)可执行/可操作来实施本文所描述的技术、模块和示例。

本文所描述的技术可以由各种配置的计算设备1202来支持，并且不限于本文所描述的技术的具体示例。这种功能还可以全部或部分通过经由如下文所描述的平台1216使用诸如“云”1214上的分布式***而被实施。

云1214包括和/或表示用于资源1218的平台1216。平台1216使云1214的硬件(例如，服务器)和软件资源的底层功能抽象化。资源1218可以包括能够在远离计算设备1202的服务器上执行计算机处理的同时被利用的应用和/或数据。资源1218还可以包括通过互联网和/或透过订户网络(诸如，蜂窝或Wi-Fi网络)提供的服务。

平台1216可以使资源和功能抽象化以将计算设备1202与其他计算设备相连接。平台1216还可以用来使资源的缩放抽象化，以提供对经由平台1216实施的资源1218的所遇到需求的对应缩放水平。因此，在互连设备实施例中，本文所描述的功能的实施方式可以贯穿***1200被分布。例如，功能可以部分地在计算设备1202上并且经由使云1214的功能抽象化的平台1216而被实施。

总结

虽然已经以特定于结构特征和/或方法行为的语言描述了技术，但是将被理解的是，所附权利要求中所定义的主题不必然限于所描述的具体特征或行为。确切地说，具体特征和行为被公开作为实施所要求保护的主题的示例形式。

Claims

1.在使用一个或多个计算设备促进图像集合的管理的数字媒体环境中，一种使用词语向量表示自动生成图像说明的方法包括：

获得用于说明分析的目标图像；

将特征提取应用到所述目标图像以生成对应于所述图像的属性；

向说明生成器供应所述属性以发起说明生成；以及

由所述说明生成器输出语义词语向量空间中的词语向量，所述词语向量指示作为所述属性的组合被形成的语句中的词语之间的语义关系，所述词语向量可用于生成对应的说明。

2.根据权利要求1所述的方法，进一步包括：作为后处理操作将所述词语向量转换成用于所述目标图像的说明。

3.根据权利要求2所述的方法，其中将所述词语向量转换成用于所述目标图像的说明包括：选择词典，以及基于所选择的词典将所述词语向量映射到所述语义词语向量空间中的词语。

4.根据权利要求1所述的方法，其中所述说明生成器被配置为生成词语向量作为说明分析的中间结果。

5.根据权利要求1所述的方法，其中使用预训练的卷积神经网络(CNN)利用指示所述属性的关键词以编码所述图像来实施所述特征提取。

6.根据权利要求1所述的方法，其中向说明生成器供应所述属性以发起说明生成包括：向递归神经网络(RNN)提供所述属性，所述RNN被设计为实施语言建模和语句构造技术以用于生成用于所述目标图像的说明。

7.根据权利要求6所述的方法，其中由所述RNN实施的目标函数被适配为考虑所述语义词语向量空间中的距离而不是用于词语序列的概率分布。

8.根据权利要求6所述的方法，其中词语向量转换被延迟到在发生用于输出所述词语向量的所述RNN的操作之后执行的后处理操作。

9.根据权利要求6所述的方法，其中所述词语向量转换发生在经由所述RNN执行的所述说明分析之外所选择的词典的情境中。

10.根据权利要求1所述的方法，其中所述词语向量可用于利用在所述词语向量被生成之后所选择的多个不同词典来生成对应的说明。

11.在使用一个或多个计算设备促进对图像集合的访问的数字媒体环境中，一种***包括：

一个或多个处理设备；

一个或多个计算机可读介质，所述一个或多个计算机可读介质存储指令，所述指令经由所述一个或多个处理设备可执行以实施说明生成器，所述说明生成器被配置为执行操作以使用词语向量表示自动地生成图像说明，所述操作包括：

获得用于说明分析的目标图像；

向所述说明生成器供应所述属性以发起说明生成；

由所述说明生成器输出语义词语向量空间中的词语向量，所述词语向量指示作为所述属性的组合被形成的语句中的词语之间的语义关系；以及

随后通过以下在后处理操作中使用所述词语向量来生成对应的说明：

选择词典；以及

基于所选择的词典将所述词语向量映射到所述语义词语向量空间中的词语。

12.根据权利要求11所述的***，其中输出所述语义词语向量空间中的所述词语向量使得能够针对不同情境来改变所选择的词典。

13.根据权利要求11所述的***，其中使用预训练的卷积神经网络(CNN)利用指示所述属性的关键词以编码所述图像来实施所述特征提取。

14.根据权利要求11所述的***，其中向说明生成器供应所述属性以发起说明生成包括：向递归神经网络(RNN)提供所述属性，所述RNN被设计为实施语言建模和语句构造技术以用于生成用于所述目标图像的说明。

15.根据权利要求14所述的***，其中由所述RNN实施的目标函数被适配为考虑所述语义词语向量空间中的距离而不是用于词语序列的概率分布。

16.一个或多个计算机可读存储介质，所述一个或多个计算机可读存储介质存储指令，所述指令经由所述一个或多个处理设备可执行以实施说明生成器，所述说明生成器被配置为执行操作以使用词语向量表示自动地生成图像说明，所述操作包括：

获得用于说明分析的目标图像；

向所述说明生成器供应所述属性以发起说明生成；

选择词典；以及

17.根据权利要求16所述的一个或多个计算机可读存储介质，其中输出所述语义词语向量空间中的所述词语向量使得能够针对不同情境来改变所选择的词典。

18.根据权利要求16所述的一个或多个计算机可读存储介质，其中使用预训练的卷积神经网络(CNN)利用指示所述属性的关键词以编码所述图像来实施所述特征提取。

19.根据权利要求16所述的一个或多个计算机可读存储介质，其中向说明生成器供应所述属性以发起说明生成包括：向递归神经网络(RNN)提供所述属性，所述RNN被设计为实施语言建模和语句构造技术以用于生成用于所述目标图像的说明。

20.根据权利要求19所述的一个或多个计算机可读存储介质，其中由所述RNN实施的目标函数被适配为考虑所述语义词语向量空间中的距离而不是用于词语序列的概率分布。