CN109766468A

CN109766468A - 一种基于图像描述算法在外观专利图像上检索与管理的实现方法与装置

Info

Publication number: CN109766468A
Application number: CN201910007692.5A
Authority: CN
Inventors: 李亚; 刘宏宇; 戴青云; 易思雨
Original assignee: Guangdong Polytechnic Normal University
Current assignee: Guangdong Polytechnic Normal University
Priority date: 2019-01-04
Filing date: 2019-01-04
Publication date: 2019-05-17

Abstract

本发明公开了一种基于图像描述算法在外观专利图像上检索与管理的实现方法与装置，属于人工智能的技术领域。本发明的方法首先收集外观专利图像，接着人工对图像进行高级语义标注；然后基于图像描述算法，利用外观专利图像对卷积神经网络进行训练，训练后生成的向量编码输入到循环神经网络解码，使得整个网络学习到图像与相对应的高级语义标注，以此实现检索功能。本发明的装置，包括外观专利图像库、图像描述数据集、CNN学习模块、RNN解码模块、图像文字描述库、检索管理模块。本发明利用了目前深度学习的图像描述算法，在完成了计算机对外观专利图像生成语义描述的基础上，实现对外观专利图像基于高层语义的检索。

Description

一种基于图像描述算法在外观专利图像上检索与管理的实现方法与装置

技术领域

本发明涉及人工智能的技术领域，具体的是一种应用图像识别技术检索与管理的实现方法与装置。

技术背景

目前就图像检索的技术来说，主要分为两种检索方案：基于文本和基于内容。

基于文本的图像检索技术(TBIR)是借助人工标对图像进行注和注解关键字的手段，进而将文字与图片建立对应的联系，从而在数据库检索的过程中把图像检索的问题转化为文字关键字检索的问题，由于检索过程中不需要做大量的比对计算，因此这种检索的方法速度快，不过这种方法由于高度依赖人工一张一张手动标注并与数据量建立联系，所以不适合大数据集的外观专利图像检索的应用，适用于小数据量的数据库图像检索的应用场景，同时由于注解的是相对独立的关键字，字词之间没有语义联系，因此满足不了语义检索的精准需求，所以会时常出现检索并非期望图像的情况，因此对于大数据量的外观专利图像，TBIR无法满足大数据量的检索需求，同时对于知识产权数据库的高效管理和分类不太适用普及。

基于内容的图像检索技术(CBIR)是目前图像检索的主要技术，也是目前外观专利图像检索最主要的应用技术。完全不同于TBIR将图像检索的问题间接转化为文字关键字检索的方法，CBIR直接将图像作为检索的‘依据’，实现了真正以图搜图的形式，同时无需对图片进行标注，因此避免了重复大量的人工标注的成本问题；而且CBIR利用的是图片内容的颜色、纹理、形状等视觉底层特征，因此比起TBIR，在一定层度上绕过了检索过程中人类理解与机器读取之间存在的语义鸿沟，用数据内容检索数据内容，因此CBIR的准确度大有提升，得到了广泛的使用。不过CBIR技术受制于图片拍照角度，关照强度，遮挡情况以及形变程度等因素的影响，检索的结果存在较大的差异性，易欺骗性。同时CBIR是基于低层次的视觉特征相似性判定，因此不具备高层次对图像内容具备感知判断的能力，这样使得***存在一个瓶颈，也就是它和人类从高级的图像语义特征得到的相似性判断存在巨大的差距，也就是语义鸿沟问题。虽然基于CBIR的“以图搜图”的方式节省了标注需要的时间，但还是难以克服真正的语义鸿沟。虽然能够满足精准高效的图像检索问题，但是对于数据的大量管理不具备太大的优势。

发明内容

为了解决背景技术中所存在的一个或者多个问题，本发明提供了一种基于图像描述算法在外观专利图像上检索与管理的实现方法与装置，该方法基于深度学习的图像描述技术。具体的技术方案如下文。

一种基于图像描述算法在外观专利图像上检索与管理的实现方法，包括如下步骤：

S1、收集外观专利图像以形成图像库，用人工标记的方法将每一张外观专利图像进行高级语句标记，再把全部语句标记集中起来形成外观专利图像描述数据集；

S2、基于图像描述算法，利用卷积神经网络从S1中的图像库对每一张外观专利图像提取基础特征，进行学习后得到向量编码，每个编码向量均指向S1中外观专利图像描述数据集的一个高级语句标注；

S3、将S2得到的全部向量编码输入循环神经网络进行解码，生成用语句描述的图像文字描述库；

S4、利用S1中外观专利图像描述数据集的高级语句标记，对照S3中图像文字描述库的语句进行校准，生成检索功能模块。

进一步地，在S2中，首先从头训练卷积神经网络得出子神经网络框架；接着用迁移学习的方式，在子神经网络框架的基础上继续训练卷积神经网络，得到编码向量。

进一步地，从S3中的图像数据描述库，生成数据管理和产权维护两个功能模块。

相比于现有技术，本技术方案的技术效果在于：

本技术方案不同于TBIR或CBIR只适用于相对独立的检索应用，利用了目前深度学习的图像描述算法，在完成了计算机对外观专利图像生成语义描述的基础上，实现对外观专利图像基于高层语义的检索，同时在满足相对的检索功能之外，还进而利用算法生成的语义描述完善对外观专利图像的高效分类与管理，以及外观专利图像在知识产权大数据中的保护和维护需求过程中，提供了有效可信可利用的数据依据与支撑。

一种图像描述算法在外观专利图像上检索与管理的实现装置，包括包括外观专利图像库、图像描述数据集、CNN学习模块、RNN解码模块、图像文字描述库、检索管理模块；外观专利图像库为整个装置的原始数据库；对外观专利图像库中的每一张外观专利图像进行高级语句标注后，形成图像描述数据集，图像描述数据集为整个装置的高级语句数据库；CNN学习模块基于图像描述算法，从外观专利图像库获取素材，采用迁移学习的方式提取外观专利图像的基础特征后进行卷积，接着输出与外观专利图像基础特征对应的编码向量；RNN解码模块获取CNN学习模块输出的向量编码，并对向量编码进行解码，解码后生成文字描述并对照图像描述数据集进行校准；图像文字描述库由RNN解码模块在校准后收集图像描述语句来建立；检索管理模块以图像文字描述库为中间匹配数据源，以外观专利图像库为检索结果，中间匹配数据源指向对应的检索结果。

相比于现有技术，本技术方案的技术效果在于：

相比于TBIR或CBIR独立检索模式下的检索工具，本技术方案使用高级语句来进行进行外观专利图像的检索，避免了单独使用关键字检索或者以图搜图的精确度低，检索结果范围大的缺点。

附图说明

下面对说明书附图的内容进行初步说明。

图1为本技术方案的图像描述算法在外观专利图像上检索与管理的实现装置的架构示意图；

图2为本技术方案的图像描述算法在外观专利图像上检索与管理的实现方法的工作流程图；

图中，CNN为卷积神经网络的缩写，RNN为循环神经网络的缩写。

具体实施方式

下面将说明书附图1和附图2的内容结合在一起，对本技术方案的实施方式做进一步阐述。

一种基于图像描述算法在外观专利图像上检索与管理的实现方法与装置，该实现方法的步骤与对应的实现装置如下：

第一，建立适当量的外观专利图像描述数据集；收集外观专利图像以形成外观专利图像库，用人工对每一张外观专利图像进行高层级语义标注，每条标注均为包含基础视觉特征的句子，进行高层级语义标注后，将全部标注保存为描述数据集。

第二，根据图像描述算法，使用外观专利图像库从头开始训练卷积神经网络模块；利用基于图像描述算法的卷积神经网络(CNN)，对每一张外观专利图像提取特征后，对待训练的CNN网络层进行合适的随机初始化，设计好合适的损失函数，输入基础特征，利用迁移学习的方式在CNN网络中先学习出子神经网络，再以子神经网络继续训练卷积神经网络，接着输出相应的编码向量，每个编码向量均指向一句高层级语义标注；

第三，将训练得到的编码向量输入循环神经网络模块(RNN)进行解码，解码后得到高层级描述语句；对照之前完成的外观专利图像描述数据集，将每条标注均映射到对应的解码文字上进行语义微调，形成图像文字描述库；

第四，利用图像文字描述库中解码的高层级描述语句，建立高层级描述语句与外观专利图像基础特征的映射关系，生成检索功能模块。

第五，从图像文字描述库中调用外观专利图像的，生成数据管理、产权维护两个功能模块。

本实施方式的效果在于，利用了目前深度学习的图像描述算法，在完成了计算机对外观专利图像生成语义描述的基础上，实现对外观专利图像基于高层语义的检索，同时在满足相对的检索功能之外，还进而利用算法生成的语义描述完善对外观专利图像的高效分类与管理，以及外观专利图像在知识产权大数据中的保护和维护需求过程中，提供了有效可信可利用的数据依据与支撑。其中语义检索原理类似基于文本的关键词检索，却不同于关键字检索，算法生成的图像描述能够实现图像的高层语义的检索需求，将更加精确。

以上实施例是用来说明本技术方案的基本原理，并非就是本技术方案的全部实施方式。对于本领域技术人员来说，任何基于权利要求书所限定内容的、依据本技术方案原来所作出的常规置换或者改进，均落入本发明的保护范围。

Claims

1.一种基于图像描述算法在外观专利图像上检索与管理的实现方法，其特征在于，包括如下步骤：

2.根据权利要求1中所述基于图像描述算法在外观专利图像上检索与管理的实现方法，其特征在于：在S2中，首先从头训练卷积神经网络得出子神经网络框架；接着用迁移学习的方式，在子神经网络框架的基础上继续训练卷积神经网络，得到编码向量。

3.根据权利要求2中所述基于图像描述算法在外观专利图像上检索与管理的实现方法，其特征在于：从S3中的图像数据描述库，生成数据管理和产权维护两个功能模块。

4.一种依据权利要求3所述实现方法的图像描述算法在外观专利图像上检索与管理的实现装置，其特征在于：包括外观专利图像库、图像描述数据集、CNN学习模块、RNN解码模块、图像文字描述库、检索管理模块；外观专利图像库为整个装置的原始数据库；对外观专利图像库中的每一张外观专利图像进行高级语句标注后，形成图像描述数据集，图像描述数据集为整个装置的高级语句数据库；CNN学习模块基于图像描述算法，从外观专利图像库获取素材，采用迁移学习的方式提取外观专利图像的基础特征后进行卷积，接着输出与外观专利图像基础特征对应的编码向量；RNN解码模块获取CNN学习模块输出的向量编码，并对向量编码进行解码，解码后生成文字描述并对照图像描述数据集进行校准；图像文字描述库由RNN解码模块在校准后收集图像描述语句来建立；检索管理模块以图像文字描述库为中间匹配数据源，以外观专利图像库为检索结果，中间匹配数据源指向对应的检索结果。