CN109766468A - 一种基于图像描述算法在外观专利图像上检索与管理的实现方法与装置 - Google Patents
一种基于图像描述算法在外观专利图像上检索与管理的实现方法与装置 Download PDFInfo
- Publication number
- CN109766468A CN109766468A CN201910007692.5A CN201910007692A CN109766468A CN 109766468 A CN109766468 A CN 109766468A CN 201910007692 A CN201910007692 A CN 201910007692A CN 109766468 A CN109766468 A CN 109766468A
- Authority
- CN
- China
- Prior art keywords
- image
- appearance patent
- library
- patent image
- appearance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于图像描述算法在外观专利图像上检索与管理的实现方法与装置,属于人工智能的技术领域。本发明的方法首先收集外观专利图像,接着人工对图像进行高级语义标注;然后基于图像描述算法,利用外观专利图像对卷积神经网络进行训练,训练后生成的向量编码输入到循环神经网络解码,使得整个网络学习到图像与相对应的高级语义标注,以此实现检索功能。本发明的装置,包括外观专利图像库、图像描述数据集、CNN学习模块、RNN解码模块、图像文字描述库、检索管理模块。本发明利用了目前深度学习的图像描述算法,在完成了计算机对外观专利图像生成语义描述的基础上,实现对外观专利图像基于高层语义的检索。
Description
技术领域
本发明涉及人工智能的技术领域,具体的是一种应用图像识别技术检索与管理的实现方法与装置。
技术背景
目前就图像检索的技术来说,主要分为两种检索方案:基于文本和基于内容。
基于文本的图像检索技术(TBIR)是借助人工标对图像进行注和注解关键字的手段,进而将文字与图片建立对应的联系,从而在数据库检索的过程中把图像检索的问题转化为文字关键字检索的问题,由于检索过程中不需要做大量的比对计算,因此这种检索的方法速度快,不过这种方法由于高度依赖人工一张一张手动标注并与数据量建立联系,所以不适合大数据集的外观专利图像检索的应用,适用于小数据量的数据库图像检索的应用场景,同时由于注解的是相对独立的关键字,字词之间没有语义联系,因此满足不了语义检索的精准需求,所以会时常出现检索并非期望图像的情况,因此对于大数据量的外观专利图像,TBIR无法满足大数据量的检索需求,同时对于知识产权数据库的高效管理和分类不太适用普及。
基于内容的图像检索技术(CBIR)是目前图像检索的主要技术,也是目前外观专利图像检索最主要的应用技术。完全不同于TBIR将图像检索的问题间接转化为文字关键字检索的方法,CBIR直接将图像作为检索的‘依据’,实现了真正以图搜图的形式,同时无需对图片进行标注,因此避免了重复大量的人工标注的成本问题;而且CBIR利用的是图片内容的颜色、纹理、形状等视觉底层特征,因此比起TBIR,在一定层度上绕过了检索过程中人类理解与机器读取之间存在的语义鸿沟,用数据内容检索数据内容,因此CBIR的准确度大有提升,得到了广泛的使用。不过CBIR技术受制于图片拍照角度,关照强度,遮挡情况以及形变程度等因素的影响,检索的结果存在较大的差异性,易欺骗性。同时CBIR是基于低层次的视觉特征相似性判定,因此不具备高层次对图像内容具备感知判断的能力,这样使得***存在一个瓶颈,也就是它和人类从高级的图像语义特征得到的相似性判断存在巨大的差距,也就是语义鸿沟问题。虽然基于CBIR的“以图搜图”的方式节省了标注需要的时间,但还是难以克服真正的语义鸿沟。虽然能够满足精准高效的图像检索问题,但是对于数据的大量管理不具备太大的优势。
发明内容
为了解决背景技术中所存在的一个或者多个问题,本发明提供了一种基于图像描述算法在外观专利图像上检索与管理的实现方法与装置,该方法基于深度学习的图像描述技术。具体的技术方案如下文。
一种基于图像描述算法在外观专利图像上检索与管理的实现方法,包括如下步骤:
S1、收集外观专利图像以形成图像库,用人工标记的方法将每一张外观专利图像进行高级语句标记,再把全部语句标记集中起来形成外观专利图像描述数据集;
S2、基于图像描述算法,利用卷积神经网络从S1中的图像库对每一张外观专利图像提取基础特征,进行学习后得到向量编码,每个编码向量均指向S1中外观专利图像描述数据集的一个高级语句标注;
S3、将S2得到的全部向量编码输入循环神经网络进行解码,生成用语句描述的图像文字描述库;
S4、利用S1中外观专利图像描述数据集的高级语句标记,对照S3中图像文字描述库的语句进行校准,生成检索功能模块。
进一步地,在S2中,首先从头训练卷积神经网络得出子神经网络框架;接着用迁移学习的方式,在子神经网络框架的基础上继续训练卷积神经网络,得到编码向量。
进一步地,从S3中的图像数据描述库,生成数据管理和产权维护两个功能模块。
相比于现有技术,本技术方案的技术效果在于:
本技术方案不同于TBIR或CBIR只适用于相对独立的检索应用,利用了目前深度学习的图像描述算法,在完成了计算机对外观专利图像生成语义描述的基础上,实现对外观专利图像基于高层语义的检索,同时在满足相对的检索功能之外,还进而利用算法生成的语义描述完善对外观专利图像的高效分类与管理,以及外观专利图像在知识产权大数据中的保护和维护需求过程中,提供了有效可信可利用的数据依据与支撑。
一种图像描述算法在外观专利图像上检索与管理的实现装置,包括包括外观专利图像库、图像描述数据集、CNN学习模块、RNN解码模块、图像文字描述库、检索管理模块;外观专利图像库为整个装置的原始数据库;对外观专利图像库中的每一张外观专利图像进行高级语句标注后,形成图像描述数据集,图像描述数据集为整个装置的高级语句数据库;CNN学习模块基于图像描述算法,从外观专利图像库获取素材,采用迁移学习的方式提取外观专利图像的基础特征后进行卷积,接着输出与外观专利图像基础特征对应的编码向量;RNN解码模块获取CNN学习模块输出的向量编码,并对向量编码进行解码,解码后生成文字描述并对照图像描述数据集进行校准;图像文字描述库由RNN解码模块在校准后收集图像描述语句来建立;检索管理模块以图像文字描述库为中间匹配数据源,以外观专利图像库为检索结果,中间匹配数据源指向对应的检索结果。
相比于现有技术,本技术方案的技术效果在于:
相比于TBIR或CBIR独立检索模式下的检索工具,本技术方案使用高级语句来进行进行外观专利图像的检索,避免了单独使用关键字检索或者以图搜图的精确度低,检索结果范围大的缺点。
附图说明
下面对说明书附图的内容进行初步说明。
图1为本技术方案的图像描述算法在外观专利图像上检索与管理的实现装置的架构示意图;
图2为本技术方案的图像描述算法在外观专利图像上检索与管理的实现方法的工作流程图;
图中,CNN为卷积神经网络的缩写,RNN为循环神经网络的缩写。
具体实施方式
下面将说明书附图1和附图2的内容结合在一起,对本技术方案的实施方式做进一步阐述。
一种基于图像描述算法在外观专利图像上检索与管理的实现方法与装置,该实现方法的步骤与对应的实现装置如下:
第一,建立适当量的外观专利图像描述数据集;收集外观专利图像以形成外观专利图像库,用人工对每一张外观专利图像进行高层级语义标注,每条标注均为包含基础视觉特征的句子,进行高层级语义标注后,将全部标注保存为描述数据集。
第二,根据图像描述算法,使用外观专利图像库从头开始训练卷积神经网络模块;利用基于图像描述算法的卷积神经网络(CNN),对每一张外观专利图像提取特征后,对待训练的CNN网络层进行合适的随机初始化,设计好合适的损失函数,输入基础特征,利用迁移学习的方式在CNN网络中先学习出子神经网络,再以子神经网络继续训练卷积神经网络,接着输出相应的编码向量,每个编码向量均指向一句高层级语义标注;
第三,将训练得到的编码向量输入循环神经网络模块(RNN)进行解码,解码后得到高层级描述语句;对照之前完成的外观专利图像描述数据集,将每条标注均映射到对应的解码文字上进行语义微调,形成图像文字描述库;
第四,利用图像文字描述库中解码的高层级描述语句,建立高层级描述语句与外观专利图像基础特征的映射关系,生成检索功能模块。
第五,从图像文字描述库中调用外观专利图像的,生成数据管理、产权维护两个功能模块。
本实施方式的效果在于,利用了目前深度学习的图像描述算法,在完成了计算机对外观专利图像生成语义描述的基础上,实现对外观专利图像基于高层语义的检索,同时在满足相对的检索功能之外,还进而利用算法生成的语义描述完善对外观专利图像的高效分类与管理,以及外观专利图像在知识产权大数据中的保护和维护需求过程中,提供了有效可信可利用的数据依据与支撑。其中语义检索原理类似基于文本的关键词检索,却不同于关键字检索,算法生成的图像描述能够实现图像的高层语义的检索需求,将更加精确。
以上实施例是用来说明本技术方案的基本原理,并非就是本技术方案的全部实施方式。对于本领域技术人员来说,任何基于权利要求书所限定内容的、依据本技术方案原来所作出的常规置换或者改进,均落入本发明的保护范围。
Claims (4)
1.一种基于图像描述算法在外观专利图像上检索与管理的实现方法,其特征在于,包括如下步骤:
S1、收集外观专利图像以形成图像库,用人工标记的方法将每一张外观专利图像进行高级语句标记,再把全部语句标记集中起来形成外观专利图像描述数据集;
S2、基于图像描述算法,利用卷积神经网络从S1中的图像库对每一张外观专利图像提取基础特征,进行学习后得到向量编码,每个编码向量均指向S1中外观专利图像描述数据集的一个高级语句标注;
S3、将S2得到的全部向量编码输入循环神经网络进行解码,生成用语句描述的图像文字描述库;
S4、利用S1中外观专利图像描述数据集的高级语句标记,对照S3中图像文字描述库的语句进行校准,生成检索功能模块。
2.根据权利要求1中所述基于图像描述算法在外观专利图像上检索与管理的实现方法,其特征在于:在S2中,首先从头训练卷积神经网络得出子神经网络框架;接着用迁移学习的方式,在子神经网络框架的基础上继续训练卷积神经网络,得到编码向量。
3.根据权利要求2中所述基于图像描述算法在外观专利图像上检索与管理的实现方法,其特征在于:从S3中的图像数据描述库,生成数据管理和产权维护两个功能模块。
4.一种依据权利要求3所述实现方法的图像描述算法在外观专利图像上检索与管理的实现装置,其特征在于:包括外观专利图像库、图像描述数据集、CNN学习模块、RNN解码模块、图像文字描述库、检索管理模块;外观专利图像库为整个装置的原始数据库;对外观专利图像库中的每一张外观专利图像进行高级语句标注后,形成图像描述数据集,图像描述数据集为整个装置的高级语句数据库;CNN学习模块基于图像描述算法,从外观专利图像库获取素材,采用迁移学习的方式提取外观专利图像的基础特征后进行卷积,接着输出与外观专利图像基础特征对应的编码向量;RNN解码模块获取CNN学习模块输出的向量编码,并对向量编码进行解码,解码后生成文字描述并对照图像描述数据集进行校准;图像文字描述库由RNN解码模块在校准后收集图像描述语句来建立;检索管理模块以图像文字描述库为中间匹配数据源,以外观专利图像库为检索结果,中间匹配数据源指向对应的检索结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910007692.5A CN109766468A (zh) | 2019-01-04 | 2019-01-04 | 一种基于图像描述算法在外观专利图像上检索与管理的实现方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910007692.5A CN109766468A (zh) | 2019-01-04 | 2019-01-04 | 一种基于图像描述算法在外观专利图像上检索与管理的实现方法与装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109766468A true CN109766468A (zh) | 2019-05-17 |
Family
ID=66452588
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910007692.5A Withdrawn CN109766468A (zh) | 2019-01-04 | 2019-01-04 | 一种基于图像描述算法在外观专利图像上检索与管理的实现方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109766468A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111782853A (zh) * | 2020-06-23 | 2020-10-16 | 西安电子科技大学 | 基于注意力机制的语义图像检索方法 |
WO2021008213A1 (zh) * | 2019-07-12 | 2021-01-21 | 智慧芽信息科技(苏州)有限公司 | 图像数据库建立方法、搜索方法、电子设备和存储介质 |
-
2019
- 2019-01-04 CN CN201910007692.5A patent/CN109766468A/zh not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021008213A1 (zh) * | 2019-07-12 | 2021-01-21 | 智慧芽信息科技(苏州)有限公司 | 图像数据库建立方法、搜索方法、电子设备和存储介质 |
CN111782853A (zh) * | 2020-06-23 | 2020-10-16 | 西安电子科技大学 | 基于注意力机制的语义图像检索方法 |
CN111782853B (zh) * | 2020-06-23 | 2022-12-02 | 西安电子科技大学 | 基于注意力机制的语义图像检索方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111125422B (zh) | 一种图像分类方法、装置、电子设备及存储介质 | |
CN112163122B (zh) | 确定目标视频的标签的方法、装置、计算设备及存储介质 | |
US20170140248A1 (en) | Learning image representation by distilling from multi-task networks | |
WO2016095487A1 (zh) | 一种基于人机交互的图像高级语义解析的方法 | |
CN110390363A (zh) | 一种图像描述方法 | |
CN108897778A (zh) | 一种基于多源大数据分析的图像标注方法 | |
CN110321805B (zh) | 一种基于时序关系推理的动态表情识别方法 | |
CN110866564B (zh) | 多重半监督图像的季节分类方法、***、电子设备和介质 | |
Zhang et al. | A comprehensive survey on computational aesthetic evaluation of visual art images: Metrics and challenges | |
CN112836702B (zh) | 一种基于多尺度特征提取的文本识别方法 | |
Nie et al. | Perceptual attributes optimization for multivideo summarization | |
CN112115253A (zh) | 基于多视角注意力机制的深度文本排序方法 | |
CN116975615A (zh) | 基于视频多模态信息的任务预测方法和装置 | |
Takimoto et al. | Image aesthetics assessment based on multi-stream CNN architecture and saliency features | |
Valenzise et al. | Advances and challenges in computational image aesthetics | |
CN109766468A (zh) | 一种基于图像描述算法在外观专利图像上检索与管理的实现方法与装置 | |
Han et al. | 3d shape temporal aggregation for video-based clothing-change person re-identification | |
CN111680190A (zh) | 一种融合视觉语义信息的视频缩略图推荐方法 | |
Spyrou et al. | Semantic multimedia analysis and processing | |
CN117009570A (zh) | 一种基于位置信息与置信度感知的图文检索方法及装置 | |
CN117173715A (zh) | 一种注意力视觉问答方法、装置、电子设备及存储介质 | |
Abdulmunem et al. | Semantic based video retrieval system: survey | |
Adnan et al. | Automated image annotation with novel features based on deep ResNet50-SLT | |
Huang et al. | Modeling multiple aesthetic views for series photo selection | |
Jaimes | Conceptual structures and computational methods for indexing and organization of visual information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190517 |
|
WW01 | Invention patent application withdrawn after publication |