CN113569068B

CN113569068B - 描述内容生成方法、视觉内容的编码、解码方法、装置

Info

Publication number: CN113569068B
Application number: CN202110069383.8A
Authority: CN
Inventors: 彭博
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-19
Filing date: 2021-01-19
Publication date: 2023-09-29
Anticipated expiration: 2041-01-19
Also published as: CN113569068A

Abstract

本申请公开了一种描述内容生成方法、视觉内容的编码、解码方法、装置，涉及多媒体处理技术领域。该方法包括：获取目标视觉内容；确定目标视觉内容的内容类型，内容类型包括图片类型和视频类型中的任意一种；基于内容类型，以与内容类型对应的编码器对目标视觉内容进行编码，得到内容特征，编码器包括与图片类型对应的图片编码器和与视频类型对应的图片序列编码器；通过自然语言解码器对内容特征进行解码，生成对目标视觉内容进行描述的自然语言描述内容，其中，自然语言解码器的输入端分别与图片编码器的输出端以及图片序列编码器的输出端连接。通过上述编码器和解码器对视觉内容进行描述，生成描述内容，提高了描述内容的生成效率。

Description

描述内容生成方法、视觉内容的编码、解码方法、装置

技术领域

本申请涉及多媒体处理技术领域，特别涉及一种描述内容生成方法、视觉内容的编码、解码方法、装置。

背景技术

以数据、符号、形式语言等来表示一张图像/一段视频中的内容，称为图片描述/视频描述。

在相关技术中，对图像进行描述是通过将图像输入至图片描述模型中，得到对上述图片的自然语言描述，而对视频进行描述则是通过将视频输入至视频描述模型中，得到对上述视频的自然语言描述。由于视频描述的模型训练需要大量的数据，因此视频描述常通过人工进行描述。

由于人工描述需要消耗大量人力，且对视频描述的模型进行训练时，由于数据不足仍需要进行人工标注，同样需要消耗人力，故目前方案对应的描述方法效率较低，人工消耗较大。

发明内容

本申请实施例提供了一种描述内容生成方法、视觉内容的编码、解码方法、装置，可以提高描述内容生成的效率。所述技术方案如下：

一方面，提供了一种描述内容生成方法，所述方法包括：

获取目标视觉内容，所述目标视觉内容为待进行自然语言描述的内容；

确定所述目标视觉内容的内容类型，所述内容类型包括图片类型和视频类型中的任意一种；

基于所述内容类型，以与所述内容类型对应的编码器对所述目标视觉内容进行编码，得到内容特征，所述编码器包括与所述图片类型对应的图片编码器和与所述视频类型对应的图片序列编码器；

通过自然语言解码器对所述内容特征进行解码，生成对所述目标视觉内容进行描述的自然语言描述内容，其中，所述自然语言解码器的输入端分别与所述图片编码器的输出端以及所述图片序列编码器的输出端连接。

另一方面，提供了一种视觉内容的编码方法，所述方法应用于编码设备中，所述方法包括：

基于所述内容类型，以与所述内容类型对应的编码器对所述目标视觉内容进行编码，得到内容特征，所述编码设备中包括与所述图片类型对应的图片编码器和与所述视频类型对应的图片序列编码器；

将所述内容特征发送至解码设备，所述解码设备包括自然语言解码器，所述自然语言解码器用于向所述图片编码器和所述图片序列编码器提供解码功能。

另一方面，提供了一种视觉内容的解码方法，所述方法应用于解码设备中，所述方法包括：

接收编码设备发送的内容特征，所述内容特征为所述编码设备基于目标视觉内容的内容类型选择编码器编码得到的特征，所述编码设备中包括与所述图片类型对应的图片编码器和与所述视频类型对应的图片序列编码器；

将所述内容特征输入自然语言解码器；

通过所述自然语言解码器对所述内容特征进行解码，生成对所述目标视觉内容进行描述的自然语言描述内容，所述自然语言解码器用于向所述图片编码器和所述图片序列编码器提供解码功能。

另一方面，提供了一种描述内容生成装置，所述装置包括：

第一获取模块，用于获取目标视觉内容，所述目标视觉内容为待进行自然语言描述的内容；

第一确定模块，用于确定所述目标视觉内容的内容类型，所述内容类型包括图片类型和视频类型中的任意一种；

第一编码模块，用于基于所述内容类型，以与所述内容类型对应的编码器对所述目标视觉内容进行编码，得到内容特征，所述编码器包括与所述图片类型对应的图片编码器和与所述视频类型对应的图片序列编码器；

第一解码模块，用于通过自然语言解码器对所述内容特征进行解码，生成对所述目标视觉内容进行描述的自然语言描述内容，其中，所述自然语言解码器的输入端分别与所述图片编码器的输出端以及所述图片序列编码器的输出端连接。

另一方面，提供了一种视觉内容的编码装置，所述装置应用于编码设备中，所述装置包括：

第二获取模块，用于获取目标视觉内容，所述目标视觉内容为待进行自然语言描述的内容；

第二确定模块，用于确定所述目标视觉内容的内容类型，所述内容类型包括图片类型和视频类型中的任意一种；

第二编码模块，用于基于所述内容类型，以与所述内容类型对应的编码器对所述目标视觉内容进行编码，得到内容特征，所述编码设备中包括与所述图片类型对应的图片编码器和与所述视频类型对应的图片序列编码器；

发送模块，用于将所述内容特征发送至解码设备，所述解码设备包括自然语言解码器，所述自然语言解码器用于向所述图片编码器和所述图片序列编码器提供解码功能。

另一方面，提供了一种视觉内容的解码装置，所述装置应用于解码设备中，所述装置包括：

第三获取模块，用于接收编码设备发送的内容特征，所述内容特征为所述编码设备基于目标视觉内容的内容类型选择编码器编码得到的特征，所述编码设备中包括与所述图片类型对应的图片编码器和与所述视频类型对应的图片序列编码器；

输入模块，用于将所述内容特征输入自然语言解码器；

第二解码模块，用于通过所述自然语言解码器对所述内容特征进行解码，生成对所述目标视觉内容进行描述的自然语言描述内容，所述自然语言解码器用于向所述图片编码器和所述图片序列编码器提供解码功能。

另一方面，提供了一种计算机设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现本申请实施例中任一所述的描述内容生成方法或视觉内容的编码方法或视觉内容的解码方法。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现本申请实施例中任一所述的描述内容生成方法或视觉内容的编码方法或视觉内容的解码方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的描述内容生成方法或视觉内容的编码方法或视觉内容的解码方法。

本申请的提供的技术方案至少包括以下有益效果：

根据待进行自然语言描述的目标视觉内容的内容类型，将目标视觉内容输入至对应的编码器中，得到内容特征，并将内容特征通过自然语言解码器进行解码，生成对目标视觉内容进行描述的自然语言描述内容，其中，内容类型为图片类型对应的编码器为图片编码器，内容类型为视频类型对应的编码器为图片序列编码器。对图片或视频内容进行编码后，通过统一的解码器实现解码，提高了描述内容的生成效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的UGC界面示意图；

图2是本申请一个示例性实施例提供的实施环境示意图；

图3是本申请一个示例性实施例提供的描述内容生成方法流程图；

图4是本申请一个示例性实施例提供的编码器与解码器的数据交互示意图；

图5是本申请另一个示例性实施例提供的描述内容生成方法流程图；

图6是本申请一个示例性实施例提供的稠密链接网络的逻辑示意图；

图7是本申请一个示例性实施例提供的慢快通道网络的逻辑示意图；

图8是本申请另一个示例性实施例提供的描述内容生成方法流程图；

图9是本申请一个示例性实施例提供的视觉内容的编码方法流程图；

图10是本申请一个示例性实施例提供的视觉内容的解码方法流程图；

图11是本申请一个示例性实施例提供的描述内容生成装置的框图；

图12是本申请另一个示例性实施例提供的描述内容生成装置的框图；

图13是本申请一个示例性实施例提供的视觉内容的编码装置的框图；

图14是本申请一个示例性实施例提供的视觉内容的解码装置的框图；

图15是本申请一个示例性实施例提供的服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，针对本申请实施例中涉及的名词进行简单介绍：

人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术（Computer Vision，CV）是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别（Optical Character Recognition，OCR）、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、三维技术、虚拟现实、增强现实与地图构建等技术，还包括常见的人脸识别等生物特征识别技术。

自然语言处理（Nature Language Processing，NLP）是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习（Machine Learning，ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

在本申请实施例中，通过计算机视觉技术对图像或视频内容进行识别，并基于自然语言处理对识别得到的图像或视频内容通过自然语言进行描述。

云技术（Cloud Technology）是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络***的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台***进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的***后盾支撑，只能通过云计算来实现。

云计算（Cloud Computing）是指IT（Internet Technology，互联网技术）基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需资源；广义云计算指服务的交付和使用模式，指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关，也可是其他服务。云计算是网格计算（Grid Computing）、分布式计算（Distributed Computing）、并行计算（Parallel Computing）、效用计算（UtilityComputing）、网络存储（Network Storage Technologies）、虚拟化（Virtualization）、负载均衡（Load Balance）等传统计算机和网络技术发展融合的产物。

视觉描述为图片描述和视频描述的统称，是一个融合了计算机视觉、自然语言处理和机器学习的综合问题。图片描述为计算机根据图片中的内容自动生成一段描述性文字，同样，视频描述为计算机根据视频中的内容自动生成一段描述性的文字。

随着互联网、实时数据流、连接设备多样化的发展，以及搜索服务、社会网络、移动商务和开放协作等需求的推动，云计算迅速发展起来。不同于以往的并行分布式计算，云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。在本申请实施例中，可基于云计算实现视觉描述内容生成的过程。

结合上述名词解释，对本申请实施例的应用场景进行说明。

图片描述生成为根据输入图像生成该图像的描述性文字，而视频描述生成则为根据输入视频生成该视频的描述性文字，在本申请实施例中，图片描述和视频描述统称为视觉描述。视觉描述可应用于多种场景中，例如包括如下场景中的至少一种：

第一，视觉描述可应用于网络发布中，例如，在图像/视频发布网站或社交应用程序等中，用户需要通过UGC（User Generated Content，用户生成内容）界面进行内容的发布时，服务器可针对与用户上传的图像或视频内容自动生成内容标题或摘要内容，并反馈至终端，由用户选择或进行修改，作为待发布内容的标题或摘要内容。如图1所示，UGC界面100中显示有视频/图像上传控件110，用户通过该上传控件110上传了图像或视频内容后，服务器根据用户上传的内容自动生成针对内容的描述性文字返回至终端，终端对其进行显示，例如，显示自动生成标题120或自动生成摘要内容130，针对自动生成的文字内容，用户可以对其进行发布或再编辑操作。示意性的，该视觉描述也可应用于实现描述内容生成的应用程序或小程序中，用户可将需要进行描述内容生成的视频或图像上传至上述应用程序中，终端将其传输至应用程序对应的服务器中，服务器对上传的内容进行描述内容生成，并将生成的内容返回至终端，终端将该内容向用户显示，用户可对其进行复制。

第二，视觉描述可应用于人工智能机器人的设计中，例如，景点导游机器人通过摄像***采集周围环境图像或视频，通过将采集到的图像或视频内容进行上传至对应服务器，服务器根据采集到的内容生成描述性文字后返回至机器人终端，机器人终端将该描述性文字通过语音或文本进行展示；或该描述内容生成模块也可以集成在机器人终端中，即机器人终端将采集到的图像或视频内容通过自身集成的描述内容生成模块进行内容生成，然后进行对应的展示过程。

第三，视觉描述也可应用于导盲***中，例如，盲人专用手机根据从其他应用程序中读入的图片或视频内容生成自然语言描述，通过文字转语音将其内容反馈至盲人用户；或在盲人佩戴的随身导盲设备中集成有该视觉描述模块，即随身导盲设备通过摄像***采集周围环境图像或视频，并通过视觉描述模块生成描述内容，并通过文字转语音将其反馈至盲人用户，用于提示盲人用户的周围环境情况。

在相关技术中，图片描述通过将图像输入至图片描述模型中，通过对输入图像进行分割并提取各个部分的特征，识别出图像中包含的内容，并将该内容从计算机语言转换为自然语言；而视频描述通过将视频输入至视频描述模型中，提取输入视频的特征，识别出视频中包含的内容，并将该内容从计算机语言转换为自然语言。其中，针对于视频描述生成，其视频描述模型的训练过程为由人工对候选视频进行标注，得到样本数据，通过样本数据训练得到。然而在视频描述模型的应用过程中，如果实际输入的视频内容与训练集的视频内容分布差异比较大时，会出现视频描述模型基于一些样本数据进行“无中生有”的情况，即生成一些视频中未出现的内容，故，视频描述模型的训练需要大量的，且分布范围广的样本数据。然而大量样本数据的采集和标注需要消耗较多的人力，故当前视频描述模型的训练方案对应的描述方法效率较低。

在本申请实施例中，通过图片与视频描述共同结合训练得到可同时对图片或视频进行描述的视觉描述模型，无需大量的视频数据作为样本数据，提高了视觉描述模型的训练效率和视频描述生成的效率。

其次，结合上述应用场景和名词解释，对本申请实施例的实施环境进行说明。示意性的，请参考图2，该实施环境中包括终端201、服务器202和通信网络203。

终端201可以是手机、平板电脑、电子书阅读器、多媒体播放设备、可穿戴设备、膝上型便携计算机、台式计算机或生物识别一体机等电子设备。示意性的，终端201中安装有视觉描述应用程序，用户可通过该视觉描述应用程序对视觉内容进行描述。该视觉描述应用程序可以是传统应用软件，可以是云应用软件，可以实现为宿主应用程序中的小程序或应用模块，也可以是某个网页平台，在此不进行限定。

服务器202用于向终端201提供视觉描述服务。用户通过终端201中的视觉描述应用程序上传一张图像或一段视频作为目标视觉内容，终端201将目标视觉内容通过通信网络203传输至服务器202，服务器202调用视觉描述服务模块对目标视觉内容进行编解码，最后生成自然语言描述内容，并将该内容通过通信网络203返回至终端201。可选的，服务器202为物理服务器或云服务器。服务器202可以是一台服务器，也可以是由若干台服务器组成的服务器集群，或者是一个云计算服务中心。

服务器202可以通过通信网络203与终端201建立通信连接。该网络可以是无线网络，也可以是有线网络。

该视觉描述服务可通过上述终端201与服务器202之间的数据交互实现，即以在线形式实现。该视觉描述服务还可作为服务模块集成于终端201中，以离线形式实现，示意性的，终端201中集成有视觉描述服务模块，终端201可通过用户的选择操作，指示视觉描述服务模块读取内存中存储的视频或图像内容，并对其进行描述内容生成，终端201将视觉描述服务模块生成的描述内容展示给用户。该视觉描述服务模块还可以分为编码子模块和解码子模块，编码子模块和解码子模块分别分布在不同的终端和/或服务器，示意性的，服务器包括分布式的第一服务器和第二服务器，编码子模块设置在第一服务器中，解码子模块设置在第二服务器中；或编码子模块设置在终端中，解码子模块设置在服务器中；或编码子模块设置在服务器中，解码子模块设置在终端中。在一个示例中，编码子模块设置在服务器中，解码子模块设置在终端中，终端将目标视觉内容上传至服务器，服务器将该目标视觉内容输入至编码子模块，编码子模块对其进行编码，得到内容特征，服务器再将内容特征发送至终端，终端调取解码子模块，对该内容特征进行解码，得到描述内容，并由终端对该描述内容进行显示。

请参考图3，其示出了本申请一个实施例示出的描述内容生成方法，在本申请实施例中，以该方法应用于如图2所示的服务器202中，且编码过程与解码过程均设置在同一个服务器中的情况进行说明，所述方法包括：

步骤301，获取目标视觉内容。

该目标视觉内容为待进行自然语言描述的内容。该目标视觉内容可以是由用户通过终端上传至服务器的视觉内容，也可以是服务器中存储在存储器中的视觉内容。示意性的，在UGC界面中，用户需要发布图片或视频内容时，会通过终端选择待上传内容，由终端将待上传内容上传至服务器中。用户在发布视频或图片内容时，需要对发布内容设置标题或简介内容，服务器可针对发布图片或视频内容生成对应的描述内容，并将该描述内容反馈至终端，作为标题或简介内容的参考反馈至用户；或终端中安装有用于图片或视频描述内容生成的应用程序，用户需要获取图片或视频的描述内容时，通过上述应用程序上传内容，服务器将生成的描述内容反馈至终端，提供给用户，用户可对其进行复制等操作。

该目标视觉内容对应有内容类型，其中，内容类型包括图片类型和视频类型中的任意一种。内容类型为图片类型的目标视觉内容可以是JPEG（Joint PhotographicExperts Group，联合图像专家组）格式、PNG（Portable Network Graphics，便携式网络图形）格式等的图像；内容类型为视频类型的目标视觉内容可以是AVI（Audio VideoInterleaved，音频视频交错）格式、WMV（Windows Media Video，微软媒体视频）格式等的视频。

步骤302，确定目标视觉内容的内容类型。

将获取到的目标视觉内容进行内容类型判断，确定目标视觉内容的内容类型。示意性的，服务器通过解析目标视觉内容的格式类型确定目标视觉内容的内容类型，在一个示例中，确定目标视觉内容的格式类型为JPEG格式，则确定目标视觉内容为图片类型的视觉内容。示意性的，目标视觉内容在上传至服务器时，或存储在存储器中时，对应有类型标识，服务器也可通过获取的目标视觉内容对应的类型标识来确定目标视觉的内容类型，在一个示例中，当类型标识对应为1时，确定目标视觉内容的内容类型为图片类型，当类型标识对应为0时，确定目标视觉内容的内容类型为视频类型。

响应于目标视觉内容的内容类型为视频类型时，需要对目标视觉内容进行预处理，即需要将获取到的视频内容的图片序列。示意性的，将上述视频内容中的全部视频帧作为图片序列输出，或，对视频内容进行抽帧处理，得到目标数量的视频帧，将上述目标数量的视频帧作为图片序列输出。

步骤303，基于内容类型，以与内容类型对应的编码器对目标视觉内容进行编码，得到内容特征。

在本申请实施例中，服务器中集成有视觉描述服务模块，该模块中包括有用于描述内容生成的描述内容生成模型。示意性的，该描述内容生成模型可同时用于对图片和视频提供自然语言描述服务。

在本申请实施例中，描述内容生成模型通过将样本图片和样本视频输入至深度神经网络中进行多次训练得到。示意性的，该描述内容生成模型由内容类型判别模块、图片编码器、图片序列编码器、自然语言解码器组成，在一个示例中，上述图片编码器包括有稠密链接网络和自然语言处理模型，上述图片序列编码器包括有快慢通道网络和自然语言处理模型，上述自然语言解码器包括有变形网络模型。其中，样本图片和样本视频的获取方式为通过爬虫从各种网页中爬取候选图片和候选视频，对候选图片和候选视频进行人工标注，得到样本图片和样本视频。将样本图片和样本视频输入至描述内容生成模型，通过内容类型判别模块对其内容类型进行判别，并输入至对应的图片编码器或图片序列编码器中，由图片编码器对样本图片进行特征提取和编码，或由图片序列编码器对样本视频进行特征提取和编码，得到样本图片或样本视频的内容特征，将该内容特征输入至自然语言解码器中，得到训练结果，基于训练结果与人工标注内容得到损失值，基于该损失值对图片编码器、图片序列编码器、自然语言解码器的参数进行适应性调整。在参数对应调整后，再将样本图片和样本视频输入至描述内容生成模型中进行训练并对模型参数进行调整，直至该描述内容生成模型收敛。

确定目标视觉内容的内容类型之后，将目标视觉内容输入至与内容类型对应的编码器中对目标视觉内容进行编码。其中，上述编码器包括与图片类型对应的图片编码器和与视频类型对应的图片序列编码器。图片编码器为通过输入样本图片进行训练得到的编码器，图片序列编码器为通过输入图片序列进行训练得到的编码器。其中，上述编码器可以包括各种采用机器学习方法进行训练得到的编码器模型，其可以包括但不限于各种人工神经网络模型，如稠密链接网络（Dense Convolutional Network，DenseNet）、慢快通道网络（Slow Fast Networks，SlowFast）、长短时记忆网络（Long Short-Term Memory，LSTM）等。

响应于目标视觉内容的内容类型对应为图片类型，通过图片编码器对所述目标视觉内容进行编码，得到内容特征；或，响应于目标视觉内容的内容类型对应为视频类型，通过图片序列编码器对目标视觉内容进行编码，得到内容特征。其中，当目标视觉内容的内容类型对应为图片类型时，图片编码器的输入为图片内容，当目标视觉内容的内容类型对应为视频类型时，图片序列编码器的输入为由视频内容获取的图片序列。

上述内容特征用于指示目标视觉内容中包含的图形、物体、背景等内容的包含情况和/或分布情况。在一个示例中，目标视觉内容的内容类型对应为图片类型，对应的图片内容中显示有多种水果，则需要对该目标视觉内容中，诸如水果种类、水果摆放位置等信息进行描述。故，在本申请实施例中，需要通过编码器将目标视觉内容中的内容包含情况和/或分布情况转换为计算机语言的内容特征。示意性的，该内容特征可以包括纹理特征、色彩特征、形状特征、边缘特征、位置特征等中的至少一种特征。

该编码器还可包括局部编码器和全局编码器，该内容特征也可以为局部特征和/或全局特征。目标视觉内容通过局部编码器得到局部特征，通过全局编码器得到全局特征，示意性的，通过对局部特征和全局特征进行特征融合得到用于输入编码器的内容特征。

步骤304，通过自然语言解码器对内容特征进行解码，生成对目标视觉内容进行描述的自然语言描述内容。

将上述内容特征输入至自然语言解码器中，通过自然语言解码器对其进行解码，生成对目标视觉内容进行描述的自然语言描述内容。其中，自然语言解码器的输入端分别与图片编码器的输出端以及图片序列编码器的输出端连接。请参考图4，其示出了本申请实施例中编码器与解码器的数据交互，当目标视觉内容410为图片类型时，将目标视觉内容对应的图片411输入至图片编码器421中；当目标视觉内容410为视频类型时，将目标视觉内容对应的图片序列412输入至图片序列编码器422。图片编码器421或图片序列编码器422输出的内容特征输入至自然语言解码器430，通过自然语言解码器进行解码430，生成自然语言描述内容440。

在本申请实施例中，自然语言解码器读入内容特征，输出一个自然语言序列，该自然语言序列即为对目标视觉内容进行描述的自然语言描述内容。上述自然语言序列可以是由目标词汇组成的词汇序列，即，将内容特征输入至自然语言解码器，得到目标词汇，目标词汇为组成自然语言描述内容的词汇；基于目标词汇生成自然语言描述内容。在确定可用于表示目标视觉内容中的物体及其属性特征信息的目标词汇后，示意性的，将这些目标词汇以恰当的方式嵌入至预设模板中。在一个示例中，目标词汇包括<物体，动作，场景>，当确定目标词汇后，可通过用隐马尔科夫模型选择可能的对象、动词、介词及场景类型填充句子模板。示意性的，还可以通过条件随机场（Conditional Random Field，CRF）对检测到的目标词汇的属性和词汇与词汇之间的关系进行标注，然后使用预设模板生成自然语言描述内容。示意性的，还可以通过预设神经网络，如长短期记忆网络等，通过目标词汇在语义上的关联关系生成自然语言描述内容。

在本申请实施例中，编码器输出的内容特征为二维特征矩阵，以变形网络解码器（Transformer-Decoder）作为自然语言解码器为例进行说明，变形网络解码器将代表内容特征的二维特征矩阵拆解成一维形式的特征序列，然后将上述特征序列通过自注意力（Self-attention）模块，得到一个与输入大小相同的输出序列，即，若输入的特征序列的大小为n，则输出序列大小也为n，输出序列为特征序列中各个特征之间的相关度（Self）和注意力（Attention）得分的总和。再通过全连接层将输出序列进行回归操作，得到词汇编号序列，其中，词汇编号为自然语言词汇在词汇表中的序号，最后在词汇表中查询得到对应的自然语言序列，即自然语言描述内容。即，将二维特征矩阵进行拆解，得到一维形式的特征序列；基于特征序列得到用于描述目标视觉内容的词汇编号序列；基于词汇编号序列从词汇表中查找得到目标词汇。

综上所述，本申请实施例提供的描述内容生成方法，根据待进行自然语言描述的目标视觉内容的内容类型，将目标视觉内容输入至对应的编码器中，得到内容特征，并将内容特征通过自然语言解码器进行解码，生成对目标视觉内容进行描述的自然语言描述内容，其中，内容类型为图片类型对应的编码器为图片编码器，内容类型为视频类型对应的编码器为图片序列编码器。对图片或视频内容进行编码后，通过统一的解码器实现解码，提高了描述内容的生成效率。

请参考图5，其示出了本申请一个实施例示出的描述内容生成方法，在本申请实施例中，对目标视觉内容的编码操作包括局部编码和全局编码，该方法包括：

步骤501，获取目标视觉内容。

该目标视觉内容为待进行自然语言描述的内容。内容描述服务模块从外界获取目标视觉内容，示意性的，当该内容描述服务模块为设置在终端应用程序中的模块时，内容描述服务模块读取用户所选择的终端内存中的图片内容或视频内容，将上述图片内容或视频内容作为目标视觉内容；当该内容描述服务模块为设置在服务器中的模块时，内容描述服务模块获取终端上传的图片内容或视频内容，或，读取服务器中存储器存储的图片内容或视频内容，将上述图片内容或视频内容作为目标视觉内容。

步骤502，确定目标视觉内容的内容类型。

将获取到的目标视觉内容进行内容类型判断，确定目标视觉内容的内容类型。该内容类型包括图片类型和视频类型中的任意一种。在确定目标视觉内容的内容类型后，需要将其输入至对应的编码器中，其中，该编码器包括图片编码器和图片序列编码器。其中，图片编码器还包括有图片局部编码器，图片序列编码器还包括有图片序列局部编码器。针对全局编码，编码器还包括有全局编码器。

当确定目标视觉内容的内容类型对应为图片类型时，执行步骤5031~步骤5051。

步骤5031，响应于目标视觉内容的内容类型对应为图片类型，通过图片局部编码器对目标视觉内容进行局部编码，得到第一局部内容特征。

在本申请实施例中，当目标视觉内容的内容类型为图片类型时，图片编码器读入的目标视觉内容为一张图片，该图片的张量大小为（m*n*3），其中，m代表长度（length），n代表宽度（width），3代表深度（depth）。

对读入的图片需要进行局部编码，即通过图片局部编码器对目标视觉内容进行局部编码，得到第一局部内容特征。在本申请实施例中，图片局部编码器为基于卷积神经网络对样本图片进行训练得到的编码器，该卷积神经网络包括稠密链接网络、残差网络、VGG网络中的至少一种。上述目标视觉内容对应的图片以三维张量形式输入至图片局部编码器，经过目标次数的卷积操作、池化操作和跳接操作后，得到一个长度和宽度更窄，深度更深的三维张量，在长度对应维度上进行压平，从而得到一个包含宽度维度和深度维度的二维矩阵。请参考图6，其为稠密链接网络600的逻辑示意图，其示出了五层稠密块601（图中的x0、x1、x2、x3、x4），其生长速率k=4，每一层的稠密块601都将前面所有的特征映射作为输入，最终输出上述三维张量。再将三维张量转换为二维矩阵，上述二维矩阵即为第一局部内容特征。

在本申请实施例中，上述稠密链接网络可替换为残差网络（Residual Network，ResNet）或各种其他模型结构，在本申请中不具体限定深度神经网络的模型和拓扑结构。

步骤5041，通过全局编码器对目标视觉内容进行全局编码，得到第一全局内容特征。

对读入的图片需要进行全局编码，即通过全局编码器对目标视觉内容进行全局编码，得到第一全局内容特征。在本申请实施例中，全局编码器为基于自然语言处理模型对样本图片和样本视频共同进行训练得到的编码器，示意性的，该自然语言处理模型为变形网络模型，即变形网络编码器（Transformer-Encoder）。示意性的，将图片局部编码器输出的二维矩阵拆解成一维的局部特征序列，经过目标次数的自注意力操作，得到一个与输入的局部特征序列大小相同的全局输出序列，并通过拼接得到二维矩阵，该二维矩阵即为第一全局内容特征。

在本申请实施例中，上述变形网络模型可替换为长短时记忆网络或各种其他模型结构，在本申请中不具体限定深度神经网络的模型和拓扑结构。

步骤5051，将第一局部内容特征和第一全局内容特征进行特征融合，得到内容特征。

通过图片局部编码器得到第一局部特征，通过全局编码器得到第一全局特征后，需要对第一局部特征和第一全局特征进行特征融合，得到内容特征。示意性的，特征融合的方法可以是由第一局部特征和第一全局特征进行特征相减，并将特征相减得到的中间特征输入至若干卷积层，输出得到图片内容对应的内容特征。特征融合的方法还可以是将第一局部特征和第一全局特征在通道尺度上进行拼接，得到中间特征，并将中间特征输入至若干卷积层，输出得到图片内容对应的内容特征。

当确定目标视觉内容的内容类型对应为视频类型时，执行步骤5032~步骤5052。

步骤5032，响应于目标视觉内容的内容类型对应为视频类型，通过图片序列局部编码器对目标视觉内容进行局部编码，得到第二局部内容特征。

当确定目标视觉内容的内容类型对应为视频类型后，需要获取目标视觉内容对应的图片序列，即对目标视觉内容进行预处理。示意性的，将上述视频内容中的全部视频帧作为图片序列输出，或，对视频内容进行抽帧处理，得到目标数量的视频帧，将上述目标数量的视频帧作为图片序列输出。

对读入的图片序列需要进行局部编码。在本申请实施例中，将图片序列输入至图片序列局部编码器，通过图片序列局部编码器进行局部编码，得到第二局部内容特征，该图片序列局部编码器为基于深度神经网络对样本视频进行训练得到的编码器，该深度神经网络至少包括快慢通道网络。示意性的，图片序列以四维张量的形式输入至图片序列局部编码器，经过快通道和慢通道的多次三维卷积操作、池化操作和跳接操作，得到两个四维张量，然后，将上述两个四维张量分别在长度维度上个宽度维度上进行池化操作，使得快通道对应的四维张量在时间维度上与慢通道对齐，通过拼接两个矩阵得到局部编码的二维矩阵，该二维矩阵即为第二局部内容特征。示意性的，请参考图7，其示出了慢快通道网络700的逻辑示意图，其中，慢通道710用于捕获图片序列提供的语义信息，其以低帧率运行，刷新速度慢；而块通道720用于捕获图片序列快速变化的动作，它的刷新速度快、时间分辨率高。慢通道710和快通道通过横向连接进行融合，即拼接得到局部编码的二维矩阵730。

在本申请实施例中，上述慢快通道网络可替换为三维卷积网络（3D ConvNets）或各种其他模型结构，在本申请中不具体限定深度神经网络的模型和拓扑结构。

步骤5042，通过全局编码器对目标视觉内容进行全局编码，得到第二全局内容特征。

同样的，对读入的图片序列需要进行全局编码，即通过全局编码器对目标视觉内容进行全局编码，得到第二全局内容特征。在本申请实施例中，全局编码器为基于变形网络模型对样本图片和样本视频共同进行训练得到的编码器，即变形网络编码器，在本申请实施例中，对图片序列的全局编码过程与对图片的全局编码过程相同。示意性的，将图片序列局部编码器输出的二维矩阵拆解成一维的局部特征序列，经过目标次数的自注意力操作，得到一个与输入的局部特征序列大小相同的全局输出序列，并通过拼接得到二维矩阵，该二维矩阵即为第二全局内容特征。

步骤5052，将第二局部内容特征和第二全局内容特征进行特征融合，得到内容特征。

通过图片序列局部编码器得到第二局部特征，通过全局编码器得到第二全局特征后，需要对第二局部特征和第二全局特征进行特征融合，得到内容特征。示意性的，特征融合的方法可以是由第二局部特征和第二全局特征进行特征相减，并将特征相减得到的中间特征输入至若干卷积层，输出得到视频内容对应的内容特征。特征融合的方法还可以是将第二局部特征和第二全局特征在通道尺度上进行拼接，得到中间特征，并将中间特征输入至若干卷积层，输出得到视频内容对应的内容特征。

步骤506，通过自然语言解码器对内容特征进行解码，生成对目标视觉内容进行描述的自然语言描述内容。

第一局部内容特征和第一全局内容特征通过特征融合后得到用于表征图片类型的目标视觉内容的内容特征；第二局部内容特征和第二全局内容特征通过特征融合后得到用于表征视频类型的目标视觉内容的内容特征。无论是图片类型的目标视觉内容的内容特征还是视频类型的目标视觉内容的内容特征，均需要通过自然语言解码器进行解码操作，生成对目标视觉内容进行描述的自然语言描述内容。在本申请实施例中，自然语言解码器读入内容特征，输出一个自然语言序列，该自然语言序列即为对目标视觉内容进行描述的自然语言描述内容。

综上所述，本申请实施例提供的描述内容生成方法，根据待进行自然语言描述的目标视觉内容的内容类型，将目标视觉内容输入至对应的编码器中，通过编码器得到对应的局部特征和全局特征，并通过局部特征和全局特征得到内容特征，并将内容特征通过自然语言解码器进行解码，生成对目标视觉内容进行描述的自然语言描述内容，其中，内容类型为图片类型对应的编码器为图片编码器，内容类型为视频类型对应的编码器为图片序列编码器。对图片或视频内容进行编码后，通过统一的解码器实现解码，提高了描述内容的生成效率。

请参考图8，其示出了本申请一个实施例示出的描述内容生成方法，在本申请实施例中，对自然语言解码器解码过程进行说明，该方法包括：

步骤801，获取目标视觉内容。

该目标视觉内容为待进行自然语言描述的内容。该目标视觉内容对应有内容类型，其中，内容类型包括图片类型和视频类型中的任意一种。

步骤802，确定目标视觉内容的内容类型。

将获取到的目标视觉内容进行内容类型判断，确定目标视觉内容的内容类型。该内容类型包括图片类型和视频类型中的任意一种，即目标视觉内容为图片类型的视觉内容或视频类型的视觉内容。

步骤803，基于内容类型，以与内容类型对应的编码器对目标视觉内容进行编码，得到内容特征。

在确定目标视觉内容的内容类型后，需要将其输入至对应的编码器中，其中，该编码器包括图片编码器和图片序列编码器。示意性的，对目标视觉内容的编码过程包括局部编码和全局编码，局部编码通过图片局部编码器或图片序列局部编码器实现，全局编码通过全局编码器实现。

步骤804，将内容特征输入至自然语言解码器，得到目标词汇。

将解码器中输出的内容特征输入至自然语言解码器中，示意性的，该内容特征为二维矩阵，其大小为（s*t）。在本申请实施例中，以变形网络解码器（Transformer-Decoder）作为自然语言解码器。示意性的，自然语言解码器将输入的二维矩阵进行拆解，得到一维形式的特征序列，基于特征序列得到用于描述目标视觉内容的词汇编号序列，该词汇编号为自然语言词汇在词汇表中的序号，基于词汇编号序列从词汇表中查找得到目标词汇，该目标词汇即为组成自然语言描述内容的自然语言词汇，且该目标词汇课用于表示目标视觉内容中的物体及其属性特征等信息。在一个示例中，输入的目标视觉内容为一张图片，图片中显示有放置在桌面上的苹果，将该图片输入至编码器中进行内容特征提取，编码器通过对该图片进行识别，识别得到图片内包含的多个目标内容，将这些目标内容对应的特征输出为计算机语言的二维矩阵，将其输入自然语言解码器，自然语言解码器将该二维矩阵拆解为一维的特征序列，经过目标次数的自注意力操作，得到与输入的特征序列大小相同的输出序列，并通过全连接层进行回归，得到词汇编号序列，再通过查询词汇表得到目标词汇。

步骤805，基于目标词汇生成自然语言描述内容。

在本申请实施例中，由词汇编号序列确定出各个目标词汇后，即可根据词汇编号序列对应确定目标词汇序列，生成自然语言描述内容。其中，自然语言解码器中配置的词汇表中包含有词汇编号与词汇的对应关系，示意性的，该自然语言词汇为单个汉字或单个标点等形式的字符，当然也可以是其他形式的自然语言，如日语、英文单词等，在此不进行限定。在一个示例中，由输出的词汇编号序列从词汇表中查询得到的结果为“桌”、“面”、“放”、“置”、“着”、“苹”、“果”、“。”，上述结果即得到的目标词汇，由于词汇编号序列即对应目标词汇之间的先后关系，故根据目标词汇确定的描述内容为“桌面放置着苹果”。

请参考图9，其示出了本申请一个实施例示出的视觉内容的编码方法，在本申请实施例中，描述内容生成的编码过程在编码设备中完成，描述内容生成的解码过程在解码设备中完成，编码设备和解码设备互相独立，该方法应用于编码设备中，该方法包括：

步骤901，获取目标视觉内容。

该目标视觉内容为待进行自然语言描述的内容。在本申请实施例中，编码设备为终端，也可以设置在服务器中。当编码设备为终端时，从终端的内存中读取目标视觉内容；当编码设备设置在服务器中时，从终端获取目标视觉内容或从服务器中的存储器中获取目标视觉内容。

步骤902，确定目标视觉内容的内容类型。

内容类型包括图片类型和视频类型中的任意一种。

步骤903，基于内容类型，以与内容类型对应的编码器对目标视觉内容进行编码，得到内容特征。

确定目标视觉内容的内容类型之后，将目标视觉内容输入至与内容类型对应的编码器中对目标视觉内容进行编码。该编码解码设备包括与图片类型对应的图片编码器和与视频类型对应的图片序列编码器。响应于目标视觉内容的内容类型对应为图片类型，通过图片编码器对所述目标视觉内容进行编码，得到内容特征；或，响应于目标视觉内容的内容类型对应为视频类型，通过图片序列编码器对目标视觉内容进行编码，得到内容特征。

步骤904，将内容特征发送至解码设备。

该解码设备包括自然语言解码器，上述自然语言解码器用于向图片编码器和图片序列编码器提供解码功能。

综上所述，本申请实施例提供的视觉内容的编码方法，根据待进行自然语言描述的目标视觉内容的内容类型，将目标视觉内容输入至对应的编码器中，得到内容特征，并将内容特征发送至解码设备进行解码，实现对视觉内容的描述生成。

请参考图10，其示出了本申请一个实施例示出的视觉内容的解码方法，在本申请实施例中，描述内容生成的编码过程在编码设备中完成，描述内容生成的解码过程在解码设备中完成，编码设备和解码设备互相独立，该方法应用于解码设备中，该方法包括：

步骤1001，接收编码设备发送的内容特征。

该编码设备中包括与图片类型对应的图片编码器和与视频类型对应的图片序列编码器，编码器用于向自然语言解码器提供编码功能。内容特征为编码设备基于目标视觉内容的内容类型选择编码器编码得到的特征。

步骤1002，将内容特征输入自然语言解码器。

解码设备将从编码设备中获取到的内容特征输入至自然语言解码器中，通过自然语言解码器对其进行解码。

步骤1003，通过自然语言解码器对内容特征进行解码，生成对目标视觉内容进行描述的自然语言描述内容。

其中，自然语言解码器的输入端分别与编码设备中的图片编码器的输出端以及图片序列编码器的输出端连接。

自然语言解码器读入内容特征，输出一个自然语言序列，该自然语言序列即为对目标视觉内容进行描述的自然语言描述内容。上述自然语言序列可以是由目标词汇组成的词汇序列，即，将内容特征输入至自然语言解码器，得到目标词汇，目标词汇为组成自然语言描述内容的词汇；基于目标词汇生成自然语言描述内容。

综上所述，本申请实施例提供的视觉内容的解码方法，解码设备从编码设备中获取内容特征，并对内容特征进行解码，生成对目标视觉内容进行描述的自然语言描述内容，实现对视觉内容的描述生成。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图11，其示出了本申请一个实施例提供的描述内容生成装置的框图。该装置具有实现上述方法示例的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以包括：

第一获取模块1110，用于获取目标视觉内容，所述目标视觉内容为待进行自然语言描述的内容；

第一确定模块1120，用于确定所述目标视觉内容的内容类型，所述内容类型包括图片类型和视频类型中的任意一种；

第一编码模块1130，用于基于所述内容类型，以与所述内容类型对应的编码器对所述目标视觉内容进行编码，得到内容特征，所述编码器包括与所述图片类型对应的图片编码器和与所述视频类型对应的图片序列编码器；

第一解码模块1140，用于通过自然语言解码器对所述内容特征进行解码，生成对所述目标视觉内容进行描述的自然语言描述内容，其中，所述自然语言解码器的输入端分别与所述图片编码器的输出端以及所述图片序列编码器的输出端连接。

在一个可选的实施例中，所述第一编码模块1130，还用于响应于所述目标视觉内容的内容类型对应为所述图片类型，通过所述图片编码器对所述目标视觉内容进行编码，得到所述内容特征；

或，响应于所述目标视觉内容的内容类型对应为所述视频类型，通过所述图片序列编码器对所述目标视觉内容进行编码，得到所述内容特征。

在一个可选的实施例中，请参考图12，所述图片编码器还包括图片局部编码器，所述编码器还包括全局编码器；

所述第一编码模块1130还包括：

局部编码单元1131，用于通过所述图片局部编码器对所述目标视觉内容进行局部编码，得到第一局部内容特征；

全局编码单元1132，用于通过所述全局编码器对所述目标视觉内容进行全局编码，得到第一全局内容特征；

融合单元1133，用于将所述第一局部内容特征和所述第一全局内容特征进行特征融合，得到所述内容特征。

在一个可选的实施例中，所述图片局部编码器为基于卷积神经网络对样本图片进行训练得到的编码器，所述卷积神经网络包括稠密链接网络、残差网络、VGG网络中的至少一种，所述全局编码器为基于自然语言处理模型对所述样本图片和样本视频共同进行训练得到的编码器。

在一个可选的实施例中，所述图片序列编码器还包括图片序列局部编码器，所述编码器还包括全局编码器；

所述局部编码单元1131，还用于通过所述图片序列局部编码器对所述目标视觉内容进行局部编码，得到第二局部内容特征；

所述全局编码单元1132，还用于通过所述全局编码器对所述目标视觉内容进行全局编码，得到第二全局内容特征；

所述融合单元1133，还用于将所述第二局部内容特征和所述第二全局内容特征进行特征融合，得到所述内容特征。

在一个可选的实施例中，所述图片序列局部编码器为基于深度神经网络对样本视频进行训练得到的编码器，所述深度神经网络至少包括快慢通道网络，所述全局编码器为基于自然语言处理模型对样本图片和所述样本视频共同进行训练得到的编码器。

在一个可选的实施例中，所述第一解码模块1140，还用于将所述内容特征输入至所述自然语言解码器，得到目标词汇，所述目标词汇为组成所述自然语言描述内容的词汇；

所述第一解码模块1140，还用于基于所述目标词汇生成所述自然语言描述内容。

在一个可选的实施例中，所述内容特征为二维特征矩阵；

所述第一解码模块1140，还用于将所述二维特征矩阵进行拆解，得到一维形式的特征序列；

所述第一解码模块1140，还用于基于所述特征序列得到用于描述所述目标视觉内容的词汇编号序列，所述词汇编号为自然语言词汇在词汇表中的序号；

所述第一解码模块1140，还用于基于所述词汇编号序列从所述词汇表中查找得到目标词汇。

综上所述，本申请实施例提供的描述内容生成装置，根据待进行自然语言描述的目标视觉内容的内容类型，将目标视觉内容输入至对应的编码器中，得到内容特征，并将内容特征通过自然语言解码器进行解码，生成对目标视觉内容进行描述的自然语言描述内容，其中，内容类型为图片类型对应的编码器为图片编码器，内容类型为视频类型对应的编码器为图片序列编码器。对图片或视频内容进行编码后，通过统一的解码器实现解码，提高了描述内容的生成效率。

请参考图13，其示出了本申请一个实施例提供的视觉内容的编码装置的框图。该装置具有实现上述方法示例的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置应用于编码设备中，该装置可以包括：

第二获取模块1310，用于获取目标视觉内容，所述目标视觉内容为待进行自然语言描述的内容；

第二确定模块1320，用于确定所述目标视觉内容的内容类型，所述内容类型包括图片类型和视频类型中的任意一种；

第二编码模块1330，用于基于所述内容类型，以与所述内容类型对应的编码器对所述目标视觉内容进行编码，得到内容特征，所述编码设备中包括与所述图片类型对应的图片编码器和与所述视频类型对应的图片序列编码器；

发送模块1340，用于将所述内容特征发送至解码设备，所述解码设备包括自然语言解码器，所述自然语言解码器用于向所述图片编码器和所述图片序列编码器提供解码功能。

综上所述，本申请实施例提供的视觉内容的编码装置，根据待进行自然语言描述的目标视觉内容的内容类型，将目标视觉内容输入至对应的编码器中，得到内容特征，并将内容特征发送至解码设备进行解码，实现对视觉内容的描述生成。

请参考图14，其示出了本申请一个实施例提供的视觉内容的解码装置的框图。该装置具有实现上述方法示例的功能，所述功能可以由硬件实现，也可以由硬件执行相应的软件实现。该装置应用于解码设备中，该装置可以包括：

第三获取模块1410，用于接收编码设备发送的内容特征，所述内容特征为所述编码设备基于目标视觉内容的内容类型选择编码器编码得到的特征，所述编码设备中包括与所述图片类型对应的图片编码器和与所述视频类型对应的图片序列编码器；

输入模块1420，用于将所述内容特征输入自然语言解码器；

第二解码模块1430，用于通过所述自然语言解码器对所述内容特征进行解码，生成对所述目标视觉内容进行描述的自然语言描述内容，所述自然语言解码器用于向所述图片编码器和所述图片序列编码器提供解码功能。

综上所述，本申请实施例提供的视觉内容的解码装置，解码设备从编码设备中获取内容特征，并对内容特征进行解码，生成对目标视觉内容进行描述的自然语言描述内容，实现对视觉内容的描述生成。

需要说明的是：上述实施例提供的描述内容生成装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的描述内容生成装置与描述内容生成方法实施例属于同一构思，视觉内容的编码装置与视觉内容的编码方法实施例属于同一构思，视觉内容的解码装置与视觉内容的解码方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图15示出了本申请一个示例性实施例提供的服务器的结构示意图。该具体来讲：

服务器1500包括中央处理单元（Central Processing Unit，CPU）1501、包括随机存取存储器（Random Access Memory，RAM）1502和只读存储器（Read Only Memory，ROM）1503的***存储器1504，以及连接***存储器1504和中央处理单元1501的***总线1505。服务器1500还包括用于存储操作***1513、应用程序1514和其他程序模块1515的大容量存储设备1506。

大容量存储设备1506通过连接到***总线1505的大容量存储控制器（未示出）连接到中央处理单元1501。大容量存储设备1506及其相关联的计算机可读介质为服务器1500提供非易失性存储。也就是说，大容量存储设备1506可以包括诸如硬盘或者紧凑型光盘只读存储器（Compact Disc Read Only Memory，CD-ROM）驱动器之类的计算机可读介质（未示出）。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器（Erasable Programmable Read Only Memory，EPROM）、带电可擦可编程只读存储器（Electrically Erasable Programmable Read Only Memory，EEPROM）、闪存或其他固态存储其技术，CD-ROM、数字通用光盘（Digital Versatile Disc，DVD）或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的***存储器1504和大容量存储设备1506可以统称为存储器。

根据本申请的各种实施例，服务器1500还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1500可以通过连接在***总线1505上的网络接口单元1511连接到网络1512，或者说，也可以使用网络接口单元1511来连接到其他类型的网络或远程计算机***（未示出）。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。

本申请的实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的描述内容生成方法或视觉内容的编码方法或视觉内容的解码方法。可选地，该计算机设备可以是终端，也可以是服务器。

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行，以实现上述各方法实施例提供的描述内容生成方法或视觉内容的编码方法或视觉内容的解码方法。

本申请的实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的描述内容生成方法或视觉内容的编码方法或视觉内容的解码方法。

可选地，该计算机可读存储介质可以包括：只读存储器（ROM，Read Only Memory）、随机存取记忆体（RAM，Random Access Memory）、固态硬盘（SSD，Solid State Drives）或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体（ReRAM，Resistance RandomAccess Memory）和动态随机存取存储器（DRAM，Dynamic Random Access Memory）。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种描述内容生成方法，其特征在于，所述方法包括：

基于所述内容类型，以与所述内容类型对应的编码器对所述目标视觉内容进行编码，得到内容特征，所述编码器包括与所述图片类型对应的图片编码器和与所述视频类型对应的图片序列编码器，所述内容特征为二维特征矩阵；

通过自然语言解码器将所述二维特征矩阵进行拆解，得到一维形式的特征序列，其中，所述自然语言解码器的输入端分别与所述图片编码器的输出端以及所述图片序列编码器的输出端连接；

基于所述特征序列得到用于描述所述目标视觉内容的词汇编号序列，所述词汇编号为自然语言词汇在词汇表中的序号；

基于所述词汇编号序列从所述词汇表中查找得到目标词汇，所述目标词汇为组成自然语言描述内容的词汇；

基于所述目标词汇生成所述自然语言描述内容。

2.根据权利要求1所述的方法，其特征在于，所述基于所述内容类型，以与所述内容类型对应的编码器对所述目标视觉内容进行编码，得到内容特征，包括：

响应于所述目标视觉内容的内容类型对应为所述图片类型，通过所述图片编码器对所述目标视觉内容进行编码，得到所述内容特征；

3.根据权利要求2所述的方法，其特征在于，所述图片编码器还包括图片局部编码器，所述编码器还包括全局编码器；

所述通过所述图片编码器对所述目标视觉内容进行编码，得到所述内容特征，包括：

通过所述图片局部编码器对所述目标视觉内容进行局部编码，得到第一局部内容特征；

通过所述全局编码器对所述目标视觉内容进行全局编码，得到第一全局内容特征；

将所述第一局部内容特征和所述第一全局内容特征进行特征融合，得到所述内容特征。

4.根据权利要求3所述的方法，其特征在于，

所述图片局部编码器为基于卷积神经网络对样本图片进行训练得到的编码器，所述卷积神经网络包括稠密链接网络、残差网络、VGG网络中的至少一种，所述全局编码器为基于自然语言处理模型对所述样本图片和样本视频共同进行训练得到的编码器。

5.根据权利要求2所述的方法，其特征在于，所述图片序列编码器还包括图片序列局部编码器，所述编码器还包括全局编码器；

所述通过所述图片序列编码器对所述目标视觉内容进行编码，得到所述内容特征，包括：

通过所述图片序列局部编码器对所述目标视觉内容进行局部编码，得到第二局部内容特征；

通过所述全局编码器对所述目标视觉内容进行全局编码，得到第二全局内容特征；

将所述第二局部内容特征和所述第二全局内容特征进行特征融合，得到所述内容特征。

6.根据权利要求5所述的方法，其特征在于，

所述图片序列局部编码器为基于深度神经网络对样本视频进行训练得到的编码器，所述深度神经网络至少包括快慢通道网络，所述全局编码器为基于自然语言处理模型对样本图片和所述样本视频共同进行训练得到的编码器。

7.一种视觉内容的编码方法，其特征在于，所述方法应用于编码设备中，所述方法包括：

基于所述内容类型，以与所述内容类型对应的编码器对所述目标视觉内容进行编码，得到内容特征，所述编码设备中包括与所述图片类型对应的图片编码器和与所述视频类型对应的图片序列编码器，所述内容特征为二维特征矩阵；

将所述内容特征发送至解码设备，所述解码设备中包括自然语言解码器，所述自然语言解码器的输入端分别与所述图片编码器的输出端以及所述图片序列编码器的输出端连接；所述自然语言解码器用于向所述图片编码器和所述图片序列编码器提供解码功能；其中，所述自然语言解码器用于将所述二维特征矩阵进行拆解，得到一维形式的特征序列；基于所述特征序列得到用于描述所述目标视觉内容的词汇编号序列，所述词汇编号为自然语言词汇在词汇表中的序号；基于所述词汇编号序列从所述词汇表中查找得到目标词汇，所述目标词汇为组成自然语言描述内容的词汇；基于所述目标词汇生成所述自然语言描述内容。

8.一种视觉内容的解码方法，其特征在于，所述方法应用于解码设备中，所述方法包括：

接收编码设备发送的内容特征，所述内容特征为所述编码设备基于目标视觉内容的内容类型选择编码器编码得到的特征，所述编码设备中包括与图片类型对应的图片编码器和与视频类型对应的图片序列编码器，所述内容特征为二维特征矩阵；

将所述内容特征输入自然语言解码器；

通过所述自然语言解码器将所述二维特征矩阵进行拆解，得到一维形式的特征序列；基于所述特征序列得到用于描述所述目标视觉内容的词汇编号序列，所述词汇编号为自然语言词汇在词汇表中的序号；基于所述词汇编号序列从所述词汇表中查找得到目标词汇，所述目标词汇为组成自然语言描述内容的词汇；基于所述目标词汇生成所述自然语言描述内容，所述自然语言解码器用于向所述图片编码器和所述图片序列编码器提供解码功能。

9.一种描述内容生成装置，其特征在于，所述装置包括：

第一编码模块，用于基于所述内容类型，以与所述内容类型对应的编码器对所述目标视觉内容进行编码，得到内容特征，所述编码器包括与所述图片类型对应的图片编码器和与所述视频类型对应的图片序列编码器，所述内容特征为二维特征矩阵；

第一解码模块，用于通过自然语言解码器将所述二维特征矩阵进行拆解，得到一维形式的特征序列，其中，所述自然语言解码器的输入端分别与所述图片编码器的输出端以及所述图片序列编码器的输出端连接；基于所述特征序列得到用于描述所述目标视觉内容的词汇编号序列，所述词汇编号为自然语言词汇在词汇表中的序号；基于所述词汇编号序列从所述词汇表中查找得到目标词汇，所述目标词汇为组成自然语言描述内容的词汇；基于所述目标词汇生成所述自然语言描述内容。

10.一种视觉内容的编码装置，其特征在于，所述装置应用于编码设备中，所述装置包括：

第二编码模块，用于基于所述内容类型，以与所述内容类型对应的编码器对所述目标视觉内容进行编码，得到内容特征，所述编码设备中包括与所述图片类型对应的图片编码器和与所述视频类型对应的图片序列编码器，所述内容特征为二维特征矩阵；

发送模块，用于将所述内容特征发送至解码设备，所述解码设备包括自然语言解码器，所述自然语言解码器的输入端分别与所述图片编码器的输出端以及所述图片序列编码器的输出端连接；所述自然语言解码器用于向所述图片编码器和所述图片序列编码器提供解码功能；其中，所述自然语言解码器用于将所述二维特征矩阵进行拆解，得到一维形式的特征序列；基于所述特征序列得到用于描述所述目标视觉内容的词汇编号序列，所述词汇编号为自然语言词汇在词汇表中的序号；基于所述词汇编号序列从所述词汇表中查找得到目标词汇，所述目标词汇为组成自然语言描述内容的词汇；基于所述目标词汇生成所述自然语言描述内容。

11.一种视觉内容的解码装置，其特征在于，所述装置应用于解码设备中，所述装置包括：

第三获取模块，用于接收编码设备发送的内容特征，所述内容特征为所述编码设备基于目标视觉内容的内容类型选择编码器编码得到的特征，所述编码设备中包括与图片类型对应的图片编码器和与视频类型对应的图片序列编码器，所述内容特征为二维特征矩阵；

输入模块，用于将所述内容特征输入自然语言解码器；

第二解码模块，用于通过所述自然语言解码器将所述二维特征矩阵进行拆解，得到一维形式的特征序列；基于所述特征序列得到用于描述所述目标视觉内容的词汇编号序列，所述词汇编号为自然语言词汇在词汇表中的序号；基于所述词汇编号序列从所述词汇表中查找得到目标词汇，所述目标词汇为组成自然语言描述内容的词汇；基于所述目标词汇生成所述自然语言描述内容，所述自然语言解码器用于向所述图片编码器和所述图片序列编码器提供解码功能。

12.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至6任一所述的描述内容生成方法或权利要求7所述的视觉内容的编码方法或权利要求8所述的视觉内容的解码方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现如权利要求1至6任一所述的描述内容生成方法或权利要求7所述的视觉内容的编码方法或权利要求8所述的视觉内容的解码方法。