CN110489594A

CN110489594A - 图像视觉标注方法、装置、存储介质及设备

Info

Publication number: CN110489594A
Application number: CN201810459734.4A
Authority: CN
Inventors: 吉祥虎; 叶渊博
Original assignee: Beijing Pinecone Electronics Co Ltd
Current assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2018-05-14
Filing date: 2018-05-14
Publication date: 2019-11-22

Abstract

本公开提供一种图像视觉标注方法、装置、存储介质及设备，用以解决相关技术中检索图像效率降低的问题。公开的图像视觉标注方法，包括：提取待标注图像的视觉描述向量信息；根据所述视觉描述向量信息得到所述图像对应的视觉标注字段；按照所述视觉标注字段分类呈现所述图像。本公开的方案使得用户能够方便快捷地检索到感兴趣的视觉文件，提高了检索效率。

Description

图像视觉标注方法、装置、存储介质及设备

技术领域

本公开涉及计算机技术领域，具体地，涉及一种图像视觉标注方法、装置、存储介质及设备。

背景技术

目前，移动设备一般采用拍摄时间或位置信息，如GPS(Global PositioningSystem，全球定位***)定位信息来对拍摄得到的视频/图像进行标注。当用户在移动设备中查看视频/图像时，会按照文件标注的时间或地点信息进行分类/或排序。在按照时间对视频/图像进行分类或排序的情况下，用户可选择按不同的时间粒度，例如，日、月或年，对图像/视频进行分类查看；在按照位置对视频/图像进行分类的情况下，用户可选择按照不同地点对图像/视频进行分类查看。

但在用户对移动设备的实际使用中，对视频/图像进行浏览时，用户的检索行为往往是以内容驱动为主，例如，用户希望查看包含家里的猫或公园的花朵的视频/图像等。但当前移动设备无法将视频/图像按照内容进行有效聚合分类，在移动设备内视频/图像数量的不断增加的情况下，将会导致用户检索其所关注的内容的效率较低，严重影响用户体验。

发明内容

本公开的目的是提供一种图像视觉标注方法、装置、存储介质及设备，用以解决相关技术中检索图像效率降低的问题。

根据本公开的第一个方面，提供了一种图像视觉标注方法，包括：提取待标注图像的视觉描述向量信息；根据所述视觉描述向量信息得到所述图像对应的视觉标注字段；按照所述视觉标注字段分类呈现所述图像。

可选地，所述根据所述视觉描述向量信息得到所述图像对应的视觉标注字段，包括：将所述视觉描述向量信息发送至服务器端，其中，所述服务器端的数据库中存储有视觉描述向量以及与视觉描述向量对应的视觉标注信息；接收所述服务器端发送的与所述视觉描述向量对应的视觉标注信息；基于所述视觉标注信息生成所述视觉标注字段。

可选地，所述方法还包括：在获取到所述图像对应的视觉标注字段之后，将所述标注字段写入所述图像对应的扩展字段。

可选地，所述待标注图像包括单帧静态图像和/或多帧视频图像，所述将所述标注字段写入所述图像对应的扩展字段，包括：对于所述单帧静态图像，将所述视觉标注字段写入第一压缩码流的图像头扩展字段，其中，所述第一压缩码流由压缩所述单帧静态图像得到；对于所述多帧视频图像，将第二压缩码流中的视觉对象的索引以及所述视觉标注字段写入视频序列头扩展字段，将编码后的视觉对象的索引写入帧头扩展字段，其中，所述第二压缩码流由压缩所述多帧视频图像得到。

可选地，所述按照所述视觉标注字段分类呈现所述图像，包括：按照所述图像的标注字段对所述图像进行分类，得到多个图像分类，并呈现各图像分类对应的视觉标签，其中，所述视觉标签根据图像分类中的图像的标注字段得到。

根据本公开的第二个方面，提供一种图像视觉标注装置，包括：提取模块，用于提取待标注图像的视觉描述向量信息；获取模块，用于根据所述视觉描述向量信息得到所述图像对应的视觉标注字段；呈现模块，用于按照所述视觉标注字段分类呈现所述图像。

可选地，所述获取模块，包括：发送单元，用于将所述视觉描述向量信息发送至服务器端，其中，所述服务器端的数据库中存储有视觉描述向量以及与视觉描述向量对应的视觉标注信息；接收单元，用于接收所述服务器端发送的与所述视觉描述向量对应的视觉标注信息；生成单元，用于基于所述视觉标注信息生成所述视觉标注字段。

可选地，所述装置还包括：写入模块，用于在获取到所述图像对应的视觉标注字段之后，将所述标注字段写入所述图像对应的扩展字段。

可选地，所述待标注图像包括单帧静态图像和/或多帧视频图像，所述写入模块包括：第一写入单元，用于对于所述单帧静态图像，将所述视觉标注字段写入第一压缩码流的图像头扩展字段，其中，所述第一压缩码流由压缩所述单帧静态图像得到；第二写入单元，用于对于所述多帧视频图像，将第二压缩码流中的视觉对象的索引以及所述视觉标注字段写入视频序列头扩展字段，将编码后的视觉对象的索引写入帧头扩展字段，其中，所述第二压缩码流由压缩所述多帧视频图像得到。

可选地，所述呈现模块用于：按照所述图像的标注字段对所述图像进行分类，得到多个图像分类，并呈现各图像分类对应的视觉标签，其中，所述视觉标签根据图像分类中的图像的标注字段得到。

根据本公开的第三个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开第一个方面所述的任意一种图像视觉标注方法的步骤。

根据本公开的第四个方面，提供了一种电子设备，包括：存储器，其上存储有计算机程序；以及一个或者多个处理器，用于执行所述存储器中的程序，实现本公开第一个方面所述的任意一种图像视觉标注方法。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

本公开实施例的方案，基于图像的视觉描述向量信息对视频或图像文件进行视觉标注，便于用户获知图像中的视觉要点，进而使得用户能够方便快捷地检索到感兴趣的视觉文件，提高了检索效率。

附图说明

附图是用来提供对本公开的进一步理解，并且构成说明书的一部分，与下面的具体实施方式一起用于解释本公开，但并不构成对本公开的限制。在附图中：

图1是本公开实施例一的图像视觉标注方法的流程图。

图2是本公开实施例三的图像视觉标注装置的框图。

图3是本公开实施例四的电子设备的框图。

具体实施方式

以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本公开，并不用于限制本公开。

实施例一

本实施例提供了一种图像视觉标注方法，图1是该方法的流程图，如图1所示，该方法包括：

步骤101：提取待标注图像的视觉描述向量信息；

其中，视觉描述向量信息包括具有独特性的多维度数字向量，该向量是区域图像信息，包括像素梯度幅值以及方向等的一种抽象信息，具有不变性和唯一性。

步骤102：根据视觉描述向量信息得到图像对应的视觉标注字段；

步骤103：按照视觉标注字段分类呈现图像。

在一种可实现方式中，提取待标注图像的视觉描述向量信息的步骤可以借由终端内的视觉信息提取模块进行，示例的，在终端进行图像和/或视频采集时，将采集到的图像和/或视频帧信息送入视觉信息提取模块，例如可以使用DSP(Digital SignalProcessing，数字信号处理)、GPU(Graphics Processing Unit，图形处理器缩写)或专用加速器作为视觉信息提取模块。视觉信息提取模块将按照定义的视觉特征提取算法(如CNN(Convolutional Neural Networks，卷积神经网络、SIFT(Scale-invariant featuretransform，尺度不变特征变换)、ORB(Oriented FAST and Rotated BRIEF)以及MPEGCDVS)生成对应图像和/或视频帧中对象的视觉描述向量信息。

在一种可实现方式中，根据视觉描述向量信息得到图像对应的视觉标注字段，包括：将视觉描述向量信息发送至服务器端，其中，服务器端的数据库中存储有视觉描述向量以及与视觉描述向量对应的视觉标注信息；接收服务器端发送的与视觉描述向量对应的视觉标注信息；基于视觉标注信息生成视觉标注字段。示例的，为得到视觉标签，终端与服务器端进行的信息交互过程包括：终端通过网络将提取的视觉描述向量发送至服务端进行标注信息查询，服务器端在存储视觉描述向量和与其对应的视觉标注化信息的数据库中检索该视觉描述向量对应的视觉标注并返回至终端。终端根据服务端返回的标注信息生成该视觉对象的标注字段。

在一种可实现方式中，本公开的图像视觉标注方法还包括：在获取到图像对应的视觉标注字段之后，将该标注字段写入所述图像对应的扩展字段。

在一种可实现方式中，待标注图像包括单帧静态图像和/或多帧视频图像，基于此，将标注字段写入图像对应的扩展字段，包括：对终端采集的图像和/或视频进行压缩，生成压缩码流；对于单帧静态图像，将视觉标注字段写入第一压缩码流的图像头扩展字段，其中，第一压缩码流由压缩单帧静态图像得到；对于多帧视频图像，将第二压缩码流中的视觉对象的索引以及标注字段写入视频序列头扩展字段，将编码后的视觉对象的索引写入帧头扩展字段，其中，第二压缩码流由压缩多帧视频图像得到。需要说明的是，对第二压缩码流中的视觉对象的索引进行编码的操作，可以在获得视觉标注字段之前执行，还可以是在获得视觉标注字段之后执行，也可以与获得视觉标注字段同时执行，本公开对此不进行限定。在仅增加少量额外编码信息下，使得图像/视频文件获得的对应的标注字段，且将视觉对象索引及对应视觉标注信息写入视频序列头扩展字段，将编码后的对象索引写入帧头扩展字段的操作可以降低额外比特消耗。

在一种可实现方式中，按照视觉标注字段分类呈现图像的步骤，包括：按照图像的标注字段对图像进行分类，得到多个图像分类，并呈现各图像分类对应的视觉标签，其中，视觉标签根据图像分类中的图像的标注字段得到。示例的，在用户通过终端浏览存储的图像或视频信息时，终端将根据压缩文件头的视觉标注信息按照既定的视觉标签展示图片，用户可根据其关注的内容选择对应分类，并浏览对应分类下的图片。属于不同标注字段的文件可以被分类展示，如用户浏览相册时***可以根据视觉标注信息自动生成图片或视频的分类文件夹(文件夹对应的标注字段例如人物、植物、动物等)。

在一种可实现方式中，上述图像分类中包括第一分类以及第二分类，第二分类为第一分类中的一个元素对应的子分类，例如，第一分类包括人像、风光、植物、宠物、建筑、汽车以及美食，其中的每个分类还可以继续包括子分类，例如，植物分类下还可以包括花朵以及树木等。此外，子分类还可以按照时间，以及地理位置进行分类。

本实施例的图像视觉标注方法，基于图像的视觉描述向量信息对视频或图像文件进行视觉标注，便于用户获知图像中的视觉要点，进而使得用户能够方便快捷地检索到感兴趣的视觉文件，提高了检索效率。

实施例二

本实施例提供了一种图像视觉标注方法，该方法主要包括视觉描述、视觉标注、图像压缩以及视觉分类四个处理过程：

视觉描述的处理包括：

终端采集图像或视频时将图像或视频帧信息送入视觉信息提取模块。视觉信息提取模块将按照定义的视觉特征提取算法生成对应图像或视频帧中对象的视觉描述向量信息。

视觉标注的处理包括：

通过网络将提取的视觉描述向量发送至服务端查询对应的标注信息，服务器端在视觉信息数据库中检索该视觉描述向量对应的视觉标注并返回至终端。

终端根据服务端返回的标注信息生成该视觉对象的标注字段。

图像压缩的处理包括：

对采集的图像或视频进行压缩，生成压缩码流。

对于单帧静态图像，直接将生成的视觉标注字段写入压缩码流的图像头扩展字段。对于多帧视频，对视频中所有视觉对象索引进行编码，将视觉对象索引及对应视觉标注信息写入视频序列头扩展字段，以及将编码后的对象索引写入帧头扩展字段，以降低额外比特消耗。

视觉分类的处理包括：

在用户通过终端浏览存储的图像或视频文件时，终端将根据压缩文件头的视觉标注信息按照既定的视觉标签展示文件，用户可根据关注内容选择对应分类下的文件。

本实施例的图像视觉标注方法，基于图像或视频帧对象的视觉描述向量信息，基于视觉描述向量信息在服务器端查询对应的视觉标注给终端，终端利用该视觉标注对视频或图像文件进行视觉标注，从而无需再终端进行较为复杂的运算，即可方便快捷地对图像/视频帧对象的视觉标注，降低了终端功耗，且提高了视觉标注的处理效率。

实施例三

本实施例还提供了一种图像视觉标注装置，该装置用于实现本公开的图像视觉标注方法，图2是图像视觉标注装置的框图，如图2所示，该装置20包括如下组成部分：

提取模块21，用于提取待标注图像的视觉描述向量信息；

获取模块22，用于根据视觉描述向量信息得到图像对应的视觉标注字段；

呈现模块23，用于按照视觉标注字段分类呈现图像。

在一种可实现方式中，获取模块21包括：发送单元，该单元用于将视觉描述向量信息发送至服务器端，其中，服务器端的数据库中存储有视觉描述向量以及与视觉描述向量对应的视觉标注信息；接收单元，该单元用于接收服务器端发送的与视觉描述向量对应的视觉标注信息；生成单元，该单元用于基于视觉标注信息生成视觉标注字段。

在一种可实现方式中，本公开的图像视觉标注装置还包括：写入模块，用于在获取到图像对应的视觉标注字段之后，将该标注字段写入图像对应的扩展字段。

在一种可实现方式中，待标注图像包括单帧静态图像和/或多帧视频图像，基于此，写入模块包括：第一写入单元，用于对于单帧静态图像，将视觉标注字段写入第一压缩码流的图像头扩展字段，其中，第一压缩码流由压缩单帧静态图像得到；第二写入单元，用于对于多帧视频图像，将第二压缩码流中的视觉对象的索引以及视觉标注字段写入视频序列头扩展字段，将编码后的视觉对象的索引写入帧头扩展字段，其中，第二压缩码流由压缩多帧视频图像得到。需要说明的是，对第二压缩码流中的视觉对象的索引进行编码的操作，可以在获得视觉标注字段之前执行，还可以是在获得视觉标注字段之后执行，也可以与获得视觉标注字段同时执行，本公开对此不进行限定。

在一种可实现方式中，呈现模块23用于：按照图像的标注字段对图像进行分类，得到多个图像分类，并呈现各图像分类对应的视觉标签，其中，视觉标签根据图像分类中的图像的标注字段得到。在另一种可实现方式中，图像分类中包括第一分类以及第二分类，第二分类为第一分类中的一个元素对应的子分类。

本实施例的图像视觉标注装置，基于图像的视觉描述向量信息对视频或图像文件进行视觉标注，便于用户获知图像中的视觉要点，进而使得用户能够方便快捷地检索到感兴趣的视觉文件，提高了检索效率。

实施例四

本实施例提供了一种电子设备，该电子设备可以被提供为一种图像视觉标注装置，图3是该电子设备的框图，如图3所示，该电子设备300可以包括：处理器301，存储器302，多媒体组件303，输入/输出(I/O)接口304，以及通信组件305。

其中，处理器301用于控制该电子设备300的整体操作，以完成上述的图像视觉标注装置中的全部或部分步骤。存储器302用于存储各种类型的数据以支持在该电子设备300的操作，这些数据例如可以包括用于在该电子设备300上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如，存储的数据可以包括视频、图像、视觉描述向量信息的提取算法以及图像/视频帧的标注字段等。基于此，处理器301可以利用存储器中的视觉描述向量信息来执行上述步骤101，该存储器302可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-OnlyMemory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-OnlyMemory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。上述电子设备300可以通过通信组件305将视觉描述向量信息发送至服务器端，以及接收服务器端返回的视觉标注字段。其中，服务器端的数据库中存储有视觉描述向量以及与视觉描述向量对应的视觉标注信息，从而由服务器端来执行根据视觉描述向量查询对应的视觉标注信息的操作。此外，上述电子设备的存储302中也可以存储有视觉描述向量以及与视觉描述向量对应的视觉标注信息，从而可以由终端设备300的处理器来执行根据视觉描述向量信息查询对应的视觉标注信息的操作。多媒体组件可以用来拍摄视频/照片，该多媒体组件可以包括屏幕和音频组件，可以在屏幕上按照视觉标注字段分类呈现图像，其中屏幕例如可以是触摸屏，在用户通过该触摸屏幕选择查看图像时，可以在屏幕上显示该图片对应的标注字段。音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器302或通过通信组件304发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口303为处理器301和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件304用于该电子设备300与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near Field Communication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件304可以包括：Wi-Fi模块，蓝牙模块，NFC模块。

需要说明的是，上述处理器301还可以执行上述写入模块的功能，以及结合屏幕实现上述呈现模块的功能，由于写入模块的功能以及呈现模块的功能在上文中已经介绍过，故此处不再赘述。

在一种可实现方式中，电子设备300可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的图像视觉标注方法。

本实施例的电子设备，可以在本地或通过服务器查询与图像/视频帧的视觉描述向量信息对应的视觉标注字段，从而对图像/视频帧进行标注，方便了用户查阅。

本实施例还提供了一种计算机可读存储介质，该存储介质中存储有计算机程序，该程序被处理器执行时实现本申请上述实施例提供的任意一种图像视觉标注方法。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合。为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

1.一种图像视觉标注方法，其特征在于，包括：

提取待标注图像的视觉描述向量信息；

根据所述视觉描述向量信息得到所述图像对应的视觉标注字段；

按照所述视觉标注字段分类呈现所述图像。

2.根据权利要求1所述的方法，其特征在于，所述根据所述视觉描述向量信息得到所述图像对应的视觉标注字段，包括：

将所述视觉描述向量信息发送至服务器端，其中，所述服务器端的数据库中存储有视觉描述向量以及与视觉描述向量对应的视觉标注信息；

接收所述服务器端发送的与所述视觉描述向量对应的视觉标注信息；

基于所述视觉标注信息生成所述视觉标注字段。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在获取到所述图像对应的视觉标注字段之后，将所述标注字段写入所述图像对应的扩展字段。

4.根据权利要求3所述的方法，其特征在于，所述待标注图像包括单帧静态图像和/或多帧视频图像，所述将所述标注字段写入所述图像对应的扩展字段，包括：

对于所述单帧静态图像，将所述视觉标注字段写入第一压缩码流的图像头扩展字段，其中，所述第一压缩码流由压缩所述单帧静态图像得到；

对于所述多帧视频图像，将第二压缩码流中的视觉对象的索引以及所述视觉标注字段写入视频序列头扩展字段，将编码后的视觉对象的索引写入帧头扩展字段，其中，所述第二压缩码流由压缩所述多帧视频图像得到。

5.根据权利要求1至4任意一项所述的方法，其特征在于，所述按照所述视觉标注字段分类呈现所述图像，包括：

按照所述图像的标注字段对所述图像进行分类，得到多个图像分类，并呈现各图像分类对应的视觉标签，其中，所述视觉标签根据图像分类中的图像的标注字段得到。

6.一种图像视觉标注装置，其特征在于，包括：

提取模块，用于提取待标注图像的视觉描述向量信息；

获取模块，用于根据所述视觉描述向量信息得到所述图像对应的视觉标注字段；

呈现模块，用于按照所述视觉标注字段分类呈现所述图像。

7.根据权利要求6所述的装置，其特征在于，所述获取模块，包括：

发送单元，用于将所述视觉描述向量信息发送至服务器端，其中，所述服务器端的数据库中存储有视觉描述向量以及与视觉描述向量对应的视觉标注信息；

接收单元，用于接收所述服务器端发送的与所述视觉描述向量对应的视觉标注信息；

生成单元，用于基于所述视觉标注信息生成所述视觉标注字段。

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：

写入模块，用于在获取到所述图像对应的视觉标注字段之后，将所述标注字段写入所述图像对应的扩展字段。

9.根据权利要求8所述的装置，其特征在于，所述待标注图像包括单帧静态图像和/或多帧视频图像，所述写入模块用于：

第一写入单元，用于对于所述单帧静态图像，将所述视觉标注字段写入第一压缩码流的图像头扩展字段，其中，所述第一压缩码流由压缩所述单帧静态图像得到；

第二写入单元，用于对于所述多帧视频图像，将第二压缩码流中的视觉对象的索引以及所述视觉标注字段写入视频序列头扩展字段，将编码后的视觉对象的索引写入帧头扩展字段，其中，所述第二压缩码流由压缩所述多帧视频图像得到。

10.根据权利要求6至9任意一项所述的装置，其特征在于，所述呈现模块，用于：

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1至5任意一项所述方法的步骤。

12.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

以及一个或者多个处理器，用于执行所述存储器中的程序，实现权利要求1至5任意一项所述方法。