CN111753861A - 主动学习自动图像标注***及方法 - Google Patents

主动学习自动图像标注***及方法 Download PDF

Info

Publication number
CN111753861A
CN111753861A CN201910243285.4A CN201910243285A CN111753861A CN 111753861 A CN111753861 A CN 111753861A CN 201910243285 A CN201910243285 A CN 201910243285A CN 111753861 A CN111753861 A CN 111753861A
Authority
CN
China
Prior art keywords
image
input image
attribute
similar
attributes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910243285.4A
Other languages
English (en)
Other versions
CN111753861B (zh
Inventor
倪伟定
林仕胜
杜坚民
蔡一帆
蔡日星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hong Kong Research Institute of Textiles and Apparel Ltd
Original Assignee
Hong Kong Research Institute of Textiles and Apparel Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hong Kong Research Institute of Textiles and Apparel Ltd filed Critical Hong Kong Research Institute of Textiles and Apparel Ltd
Priority to CN201910243285.4A priority Critical patent/CN111753861B/zh
Publication of CN111753861A publication Critical patent/CN111753861A/zh
Application granted granted Critical
Publication of CN111753861B publication Critical patent/CN111753861B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种主动学习自动图像标注方法及***,该方法包括:步骤S1:提供输入图像;步骤S2:提取输入图像的视觉特征并获得分类属性;步骤S3:利用视觉特征在通用图像数据库中查找相似图像,并从通用描述数据库中获得内部属性;步骤S4:在S2步骤的同时,在互联网中搜索输入图像的相似图像;步骤S5:提取相似图像的视觉特征;步骤S6:将在步骤S5获得的相似图像的视觉特征与输入图像进行比较;步骤S7:如果比较出的相似度高于预订阈值,则在互联网中获得外部属性;以及步骤S8:集成分类属性、内部属性和外部属性,以获取输入图像上的最终标注。本发明节省了更新数据库的时间和工作,也保证了数据库的最新信息。

Description

主动学习自动图像标注***及方法
技术领域
本发明涉及图像标注领域。更具体地,本发明涉及一种主动学习自动图像标注***及方法。
背景技术
当前,图像上标注的标签通常是人工输入的。这种方式成本高昂并且极度消耗时间,尤其在面对大的且持续增长的图像数据库的情况下。
专利文献US7529732B2提供了一种语义和特征的相关性反馈的图像检索***和方法,该技术大体上属于由人工来提供相关反馈。在该专利文献中,图像检索***执行基于关键词和基于内容的图像检索,监控用户反馈,并且用其来提炼任何搜索工作和训练它自己以便于未来的搜索查询。
另外,专利文献US7627556B2也提供了一种由人工来提供图像上的相关标注的技术。具体地,该文献公开了一种多媒体对象的半自动标注。在该专利文献中,基于用户对基于关键词和基于内容的搜索所检索到的对象相关性的反馈,***用语义上相关的关键词自动地标注对象和/或更新关键词和对象之间的关联性。随着检索-反馈-标注循环的重复,标注覆盖范围和未来搜索的精度持续提高。
如上所述,以上两篇专利文献中的***和方法都仅被动地依赖于人为提供的信息,它们均存在未从因特网检索最新数据和图像来进行主动学习和更新的缺陷。
针对以上缺陷,现有图像处理技术中也出现了一些自动标注***,其使用不同的统计方法来关联图像和文本,并且比较图像以获得相似图像。这些自动标注技术可参见于以下专利文献:
美国专利文献US8204842公开了一种使用概率性语义模型的图像标注和多模式图像检索的***和方法,其包括至少一个联合概率分布。在该专利文献中,基于发现的隐藏的概念层和对应的条件概率,使用贝叶斯框架进行图像标注和文本-图像检索。
美国专利文献US7274822B2公开了用于照片管理的面部标注,其中,对于面部特征与训练数据库中的面部特征相似的面部,可以通过将面部特征映射到对应的个体姓名来训练该概率模型,然后概率模型可以对该面部标注姓名。
专利文献WO2009152390A2公开了使用语义距离学习的自动图像标注,其中,为图像的每个聚类估算关联概率,该关联概率指定新图像在语义上与聚类相关联的概率。从每个聚类中的图像的手动标注生成对新图像的聚类专用概率性标注。使用对应于所有聚类的关联概率和聚类专用概率性标注来生成对新图像的最终标注。
美国专利文献US8594468B2公开了一种大规模图像标注的统计方法。该标注技术编译来自多个图像的视觉特征和文本信息、对图像视觉特征进行散列、并且基于其散列值对图像聚类。该专利文献通过应用统计语言模型来标注图像,而该语言统计模型从聚类的图像构建出。
中国专利文献CN103473275A公开了一种采用多特征融合的图像自动标注方法和***。该标注方法使用多种特征类型来表示图像内容,引入多特征表示的特征签名,结合K-means聚类算法得到基于多特征融合的图像语义统计模型,以用于对图像自动标注。
然而,以上专利文献中公开的自动标注***和方法并不具有任何用来提高标注精度和覆盖范围的学习机制。另外,以上所有专利文献所公开的技术仅仅使用相关的关键词来标注图像,但是并不能够从相关的文本内容中提取关键词。
尤其对于时时更新的时装行业,虽然存在一些自动图像标注技术,但是这些技术并不能够充分满足时装行业的需求。众所周知,时装行业需要的是最新的、最时尚的信息。现有的自动图像标注***并不能够从互联网检索出或者获得最新的信息。如果无人定期地更新数据库,现有的自动图像标注***所返回的数据可能是已经过时的数据。
因此,需要一种改进的自动图像标注***及方法,尤其对于服装行业。
发明内容
为了解决以上问题,根据本发明的一个方面,提供了一种主动学习自动图像标注方法,该方法包括以下步骤:步骤S1:提供输入图像;步骤S2:提取输入图像的视觉特征,并获得输入图像的分类属性;步骤S3:利用输入图像的视觉特征在通用图像数据库中查找相似图像,并从相应的通用描述数据库中获得相似图像的内部属性;步骤S4:在S2步骤的同时,在互联网中搜索输入图像的相似图像;步骤S5:提取相似图像的视觉特征;步骤S6:将在步骤S5获得的相似图像的视觉特征与输入图像进行比较;步骤S7:如果比较出的相似度高于预订阈值,则在互联网中获得相似图像的外部属性;以及步骤S8:集成分类属性、内部属性和外部属性,以获取输入图像上的最终标注。
优选地,步骤S8还包括:如果内部属性和外部属性之间存在冲突,则将来自通用图像数据库的相似图像的相似度和来自互联网的相似图像的相似度进行比较,选择得分最高的相似图像的属性作为输入图像的最终标注;或者如果未获得内部属性和外部属性,则将分类属性作为图像的最终标注。
优选地,主动学习自动图像标注方法还包括:步骤S9:用户删除最终标注中不合适的属性或者手动添加其他属性。
优选地,视觉特征包括通过卷积神经网络的模型获得的二进制哈希编码和深层特征。
优选地,步骤S3还包括以下步骤:计算输入图像的二进制哈希编码与通用图像数据库中的图像的二进制哈希编码之间的汉明距离;如果汉明距离低于阈值,则将图像作为候选图像放入候选池中;以及通过使用余弦相似度比较候选图像的深层特征。
优选地,主动学习自动图像标注方法适用于服装行业。
根据本发明的另一方面,提供了一种主动学习自动图像标注***,该***包括:图像输入模块,图像输入模块配置成提供输入图像;特征提取模块,特征提取模块配置成提取输入图像的视觉特征并获得输入图像的分类属性,并且特征提取模块还配置成从外部属性检索模块接收在互联网中搜索到的相似图像并提取该相似图像的视觉特征;基于CBIR的标签模块,基于CBIR的标签模块配置成从特征提取模块接收输入图像的视觉特征并利用输入图像的视觉特征在通用图像数据库中查找相似图像,并从相应的通用描述数据库中获得相似图像的内部属性,并且基于CBIR的标签模块还配置成将来自互联网的相似图像的视觉特征与输入图像进行比较;外部属性检索模块,外部属性检索模块配置成从图像输入模块接收输入图像,并在特征提取模块提取输入图像的视觉特征的同时,在互联网中搜索输入图像的相似图像,并且外部属性检索模块还配置成如果由基于CBIR的标签模块比较出的相似度高于预订阈值,则在互联网中获得相似图像的外部属性;以及集成和后处理模块,集成和后处理模块配置成集成分类属性、内部属性和外部属性,以获取输入图像上的最终标注。
优选地,集成和后处理模块进一步配置成:如果内部属性和外部属性之间存在冲突,则将来自通用图像数据库的相似图像的相似度和来自互联网的相似图像的相似度进行比较,选择得分最高的相似图像的属性作为输入图像的最终标注;或者如果未获得内部属性和外部属性,则将分类属性作为图像的最终标注。
优选地,主动学习自动图像标注***还包括:人机交互模块,该人机交互模块配置成供用户删除最终标注中不合适的属性或者手动添加其他属性。
优选地,视觉特征包括通过卷积神经网络的模型获得的二进制哈希编码和深层特征。
优选地,基于CBIR的标签模块进一步配置成:计算输入图像的二进制哈希编码与通用图像数据库中的图像的二进制哈希编码之间的汉明距离;如果汉明距离低于阈值,则将图像作为候选图像放入候选池中;以及通过使用余弦相似度比较候选图像的深层特征。
优选地,该主动学习自动图像标注***适用于服装行业。
根据本发明的再一方面,提供了一种计算机设备,包括:存储器;处理器;以及存储在存储器上并在处理器上运行的计算机程序,该处理器执行所述程序时实现以下步骤:步骤S1:提供输入图像;步骤S2:提取输入图像的视觉特征,并利用分类器获得输入图像的分类属性;步骤S3:利用输入图像的视觉特征在通用图像数据库中查找相似图像,并从相应的通用描述数据库中获得相似图像的内部属性;步骤S4:在S2步骤的同时,在互联网中搜索输入图像的相似图像;步骤S5:提取相似图像的视觉特征;步骤S6:将在步骤S5获得的相似图像的视觉特征与输入图像进行比较;步骤S7:如果比较出的相似度高于预订阈值,则在互联网中获得相似图像的外部属性;以及步骤S8:集成分类属性、内部属性和外部属性,以获取输入图像上的最终标注。
根据本发明的又一方面,提供了一种计算机可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现上述主动学习自动图像标注方法的步骤。
因为本发明在用户上传图像进行查询的同时搜索因特网中的最新信息,因此不需要人工更新***数据库。因此,本发明节省了增加和更新图像和描述数据库的时间和工作。另外,本发明无需等待任何人为更新,直接从因特网使用最新的信息来进行标注,从而避免了使用过时的信息。因此,本发明也保证了数据库的最新信息。
附图说明
通过以下对本发明的描述,结合附图,本发明的上述目的和特征以及其他目的和特征将变得显而易见,在所述附图中:
图1示出了根据本发明实施方式的主动学习自动图像标注方法的流程图;
图2示出了根据本发明实施方式的主动学习自动图像标注***的结构框图;
图3示出了根据本发明实施方式的基于卷积神经网络(CNN)的模型;
图4示出了根据本发明实施方式的精确率-召回率曲线;
图5示出了根据本发明实施方式的人机交互界面的示意图;以及
图6示出了本发明的主动学习自动图像标注***和方法应用于服装领域的一个示例。
具体实施方式
本发明的范围不限于本文所述的任何具体实施方式。提供以下实施例仅用于举例说明。然而,为了更清楚地描述本发明的发明思想,以下发明人将以服装领域为例对本发明进行描述。
概括而言,本发明涉及一种将基于内容的图像检索(CBIR)用于自动服装图像标注的主动学习方法及***,其可以通过查询结构化图像数据库借助于图像内容和文本挖掘而自动地将标签分配给时装图像,同时,可以用来自互联网的最新信息来更新数据库。
以下,将结合附图对本发明的实施方式进行具体描述。
图1示出了根据本发明实施方式的主动学习自动图像标注方法的流程图。如图1所示,该主动学习自动图像标注方法包括以下步骤:提供输入图像(步骤S1);提取输入图像的视觉特征,并利用分类器获得输入图像的分类属性(步骤S2);利用输入图像的视觉特征在通用图像数据库中查找相似图像,并从相应的通用描述数据库中获得相似图像的内部属性(步骤S3)。
在S2步骤的同时,在互联网中搜索输入图像的相似图像(步骤S4);提取该相似图像的视觉特征(步骤S5);将在步骤S5获得的相似图像的视觉特征与输入图像进行比较(步骤S6);如果比较出的相似度高于预订阈值,则在互联网中获得相似图像的外部属性(步骤S7)。
最终,在步骤S8,集成分类属性、内部属性和外部属性,以获取输入图像上的最终标注。
可选地,为了进一步增强图像标注的覆盖范围和精度,本发明的主动学习自动图像标注方法还可以包括:用户删除最终标注中不合适的属性或者手动添加其他属性(步骤S9)。
在本发明的优选实施方式中,步骤S8还包括:如果内部属性和外部属性之间存在冲突,则将来自通用图像数据库的相似图像的相似度和来自互联网的相似图像的相似度进行比较,选择得分最高的相似图像的属性作为输入图像的最终标注;或者如果未获得内部属性和外部属性,则将分类属性作为图像的最终标注。
在本发明的优选实施方式中,视觉特征包括通过卷积神经网络的模型获得的二进制哈希编码和深层特征。
在本发明的进一步优选实施方式中,步骤S3还包括以下步骤:计算输入图像的二进制哈希编码与通用图像数据库中的图像的二进制哈希编码之间的汉明距离;如果汉明距离低于阈值,则将图像作为候选图像放入候选池中;以及通过使用余弦相似度比较候选图像的深层特征。
此外,本发明还提供了一种主动学习自动图像标注***。图2示出了根据本发明实施方式的主动学习自动图像标注***的结构框图。
如图2所示,本发明的主动学习自动图像标注***通过以下模块的相互配合从通用描述数据库中获得图像的内部属性:图像输入模块,图像输入模块提供输入图像;特征提取模块,特征提取模块提取输入图像的视觉特征并利用分类器获得输入图像的分类属性;以及基于CBIR的标签模块,基于CBIR的标签模块从特征提取模块接收输入图像的视觉特征并利用输入图像的视觉特征在通用图像数据库中查找相似图像,并从相应的通用描述数据库中获得相似图像的内部属性。
上述特征提取模块还能够接收在互联网中搜索到的相似图像并提取该相似图像的视觉特征。上述基于CBIR的标签模块还能够将来自互联网的相似图像的视觉特征与输入图像进行比较。
进一步地,如图2所示,本发明的主动学习自动图像标注***还包括外部属性检索模块,外部属性检索模块从图像输入模块接收输入图像,并在特征提取模块提取输入图像的视觉特征的同时,在互联网中搜索输入图像的相似图像。此外,外部属性检索模块还配置成如果由基于CBIR的标签模块比较出的相似度高于预订阈值,则在互联网中获得相似图像的外部属性。
因此,本发明的主动学习自动图像标注***还能够通过特征提取模块、基于CBIT的标签模块以及外部属性检索模块而从互联网获得图像的外部属性。
此外,如图2所示,本发明的主动学习自动图像标注***还包括集成和后处理模块,集成和后处理模块配置成集成分类属性、内部属性和外部属性,以获取输入图像上的最终标注。
可选地,本发明的主动学习自动图像标注***还可以包括人机交互模块。该人机交互模块用于供用户删除最终标注中不合适的属性或者手动添加其他属性,以便于进一步增强图像标注的覆盖范围和精度。
以下将结合图2对本发明的主动学习自动图像标注***和方法进行详细说明。
如图2所示,当图像输入模块输入图像时,特征提取模块将提取图像的视觉特征并将它们传送给基于CBIR(基于内容的图像检索)的标签模块。基于CBRI的标签模块将查询通用图像数据库以获得相似图像。然后,返回存储在通用描述数据库中的相似图像的描述或标签。
另一方面,外部属性检索模块将在互联网中搜索相似图像。这些相似图像将被传送到特征提取模块以提取特征并与基于CBIR的标签模块中的输入图像进行比较。如果相似度高,外部属性检索模块将获得托管这些相似图像的网站的文本。在文本挖掘和分析之后,推荐将一些属性作为输出。集成和后处理模块将集成外部属性检索模块的输出以及从通用描述数据库的输入图像的内容检索到的属性,以获得输入图像上的服装物件的最终标注。图像的最终属性存储在通用描述数据库中。
输入图像和从互联网检索到的相似图像被存储在通用图像数据库中,它们的哈希编码和深层特征由特征提取模块产生。可选地,可以导出或者显示属性以供用户查看。用户可以删除不合适的属性,或手动添加更多的属性。图像和描述数据库利用新的和更新的属性自动或者半自动开发。
特征提取模块
该模块通过使用深度学习方法从输入图像中提取视觉特征,并获得输入图像的分类属性。在本发明的实施方式中,如图3所示,视觉特征是通过基于卷积神经网络的模型获得的二进制哈希编码和深层特征。图3示出了根据本发明实施方式的基于卷积神经网络的模型。
利用大量图像训练用于不同分类器(颜色、图案等)的一组微调模型,并利用分类器获得输入图像的分类属性。输入图像被馈送到学习模型以产生哈希编码和深层特征,深层特征是表示图像的紧凑型固定长度矢量。
·二进制哈希编码
它使用很少的位(768位)来表示图像。在不同的模型(颜色分类器、图案分类器等)中,二进制哈希编码是在最后一个卷积层的输出处添加的隐含层的组合二进制输出。隐含层的输出用Out(H)表示。然后通过阈值将激活函数值二值化来获得二进制代码。对于每个位j=1...h(其中h是隐含层中的节点数),我们输出H的二进制代码:
Figure BDA0002010325220000091
将所有分类器的哈希编码级联。
·深层特征
由卷积层提取的激活特征被最大化,用PCA(主成分分析,其主要用于数据降维)白化,求和聚合和归一化以获得不同模型的深层特征。所有分类器的深层特征被级联。
基于CBIR的标签模块
除了如上所述由所述特征提取模块基于分类模型的输出的分类属性之外,通过使用CBIR技术获得更多属性,即,内部属性。首先,计算输入图像的二进制哈希编码与图像数据库中的图像的二进制哈希编码之间的汉明距离。如果汉明距离低于阈值,则将这些图像放入候选池中。然后通过使用余弦相似度来比较上述步骤的候选图像的深层特征,以进一步改善结果的排名。从通用描述数据库中检索与前k个相似图像相关联的属性、标签和描述,并返回到集成和后处理模块。
汉明距离的算法如下:
假设两个向量分别为u=(u1,u2,….,un),v=(v1,v2,….,vn),两个向量之间的汉明距离,即,u和v不同位置的数量,由公式d(u,v)=|{i:ui≠vi}|表示。
如上所述,如果汉明距离小于阈值,则这些图像将会被放置入候选池中。然后,通过使用余弦相似度来比较上述步骤的候选图像的深层特征,以进一步改善结果的排名。以下是计算余弦相似度的公式:
假设两个属性向量为A和B,则其余弦相似度cos(θ)由点积和向量长度给出,如下所示:
Figure BDA0002010325220000101
其中,Ai和Bi分别表示向量A和B的各分量。
在本发明的优选实施例中,通过最终相似度来决定属性的选取。最终相似度是汉明距离的输出值和余弦相似度的输出值的和。在本发明的优选实施方式中,汉明距离的输出值的范围为0到1,余弦相似度的输出值的范围也为0到1。因此,最终相似度的范围为0到2。
此外,基于CBIR的标签模块还可以帮助比较输入图像和从互联网获得的相似图像。如果相似度高于预定阈值,则它将触发外部属性检索模块以从网页的内容中挖掘属性。
在本发明的优选实施例中,阈值可以通过精确率-召回率度量来确定。精确率(P)是结果相关度的指标,而召回率(R)是返回了多少正确相关结果的指标。
图4示出了根据本发明实施方式的精确率-召回率(PR)曲线,该曲线示出了不同阈值的精确率和召回率之间的平衡。高的曲线下面积(AUC)代表高的召回率和高的精确率,其中,高的精确率与低的假正(Fp)率有关,而高的召回率与低的假负(Fn)率有关。AUC越大,或者说PR曲线越接近如图4所示的右上角(P=1,R=1),则表示模型越理想。
精确率(P)由如下公式确定:
P=Tp/(Tp+Fp)
其中,Tp表示真正例的数量,Fp表示假正例的数量。
召回率(R)由如下公式确定:
R=Tp/(Tp+Fn)
其中,Tp表示真正例的数量,而Fn表示假负例的数量。
通过尝试不同的阈值,本发明可以找出能够给出最高AUC的最佳阈值。
通用图像数据库
该数据库存储训练图像。最初,通用图像数据库由从诸如电子商务的一些已知且可靠的来源获得的图像构建而成,它可以利用查询图像和从互联网获得的相似图像继续构建。此外,存储图像的视觉特征。
通用描述数据库
通用描述数据库存储相关训练图像的描述、属性或标签,最初通用描述数据库通过从诸如电子商务的一些已知和可靠的来源获取而构建。它将利用查询图像的标签和描述以及从互联网获得的相似图像的标签和描述持续构建。如果用户选择一些标签并删除一些推荐的标签,数据库将更新相关图像。
外部属性检索模块
该模块上传输入图像并向互联网中的搜索引擎发送请求以搜索前k个相似图像。图像应来自预定义的可靠来源并在预定义的时间段内,以确保图像相关且不过时。这些相似图像将被传递到特征提取模块和基于CBIR的标签模块,以确定相似度是否高。如果相似度为高,则将从相似图像所在的网站的内容中挖掘属性,即外部属性。挖掘的属性被分类(即颜色、图案)并被馈送到集成和后处理模块中。
集成和后处理模块
在本发明的一个实施方式中,有三种属性:
表1
Figure BDA0002010325220000121
该模块集成特征提取模块中的分类器的分类属性、来自基于CBIR的标签模块的内部属性和来自外部属性检索模块的外部属性,以得出图像的最终标注。
如果除了从通用描述数据库获得内部属性之外,还可以从外部属性检索模块获得一些外部属性,则可以集成内部属性和外部属性,并且为输入图像标注上述两种属性。如果基于通用描述数据库中的相似图像返回的属性(内部属性)和从互联网返回的相似图像的属性(外部属性)之间存在任何冲突,则选择两相似图像与输入图像之间相似度最高的图像的属性标注到输入图像。如果一旦不能从通用描述数据库获得内部属性并且也不能从外部属性检索模块获得外部属性,则可以为输入图像标注通过特征提取模块的分类器获取的分类属性。
人机交互模块
图5示出了根据本发明实施方式的人机交互界面的示意图。
如图5所示,输出图像的属性(文件导出或在GUI中显示)允许用户查询、查看、删除和添加属性。在数据库构建过程中,修改可以由单个或多个用户通过多数表决(可以配置所涉及的用户数量)来进行,并该修改可以覆盖集成和后处理模块的原始输出。修改将会反馈到通用描述数据库。对于用户和机构,有一些简单的图形界面。
图6示出了本发明的主动学习自动图像标注***和方法应用于服装领域的一个示例。
在服装领域,使用本发明的方法和***获得的标注可以应用于以下从大的数据库整理和查找感兴趣的服装图像的应用/***:
·时装和服装图像分析***,该***用于市场策略的趋势分析;
·用于销售和促销的混搭推荐;
·用于潜在客户的混搭推荐。
(1)本发明可以从不同的预订数据源定期地抓取和分析数据,因此用户可以通过已经采用本发明的***/应用来更新照片/图片。
(2)标注将会自动地返回并传送给***模块以便进行时装风格预测。
(3)用户还可以输入匹配物件的要求,例如,他们正寻找的物件、风格和颜色。
(4)***会将通过风格分类的匹配物件展示给用户。
此外,根据本发明的实施方式,具有一种计算机设备,其包括:存储器;处理器;以及存储在存储器上并在处理器上运行的计算机程序,该处理器执行所述程序时能够实现如图1所示的本发明的主动学习自动图像标注方法的各个步骤。另外,本发明还提供了一种计算机可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现如图1所示的主动学习自动图像标注方法的各个步骤。
本发明使用了主动学习机制。在每次查询时,本发明能够从因特网检索最新信息和图像以更新和充实***数据。本发明还可以从文本对属性进行文本挖掘。无需相关的关键词,也可以从存储在通用描述数据库中的或者从因特网获得的相关的全部文本内容挖掘图像标签。另外,本发明使用人机协同进行标签修改。如果多个用户建议改变***提供的标注,那么他们可以反馈给***并且投票进行标注的最终改变。
虽然本发明通过具体实施例进行说明,但是所属领域技术人员应当理解,在不脱离本发明范围的情况下,还可以对本发明进行各种变换及等同替代。另外,针对特定情形或应用需求,可以对本发明做各种修改或替换,而不脱离本发明的范围。因此,本发明并不局限于所公开的具体实施例,而应当包括落入本发明权利要求范围内的全部实施方式。

Claims (16)

1.一种主动学习自动图像标注方法,其特征在于,所述方法包括以下步骤:
步骤S1:提供输入图像;
步骤S2:提取所述输入图像的视觉特征,并获得所述输入图像的分类属性;
步骤S3:利用所述输入图像的视觉特征在通用图像数据库中查找相似图像,并从相应的通用描述数据库中获得所述相似图像的内部属性;
步骤S4:在S2步骤的同时,在互联网中搜索所述输入图像的相似图像;
步骤S5:提取所述相似图像的视觉特征;
步骤S6:将在所述步骤S5获得的所述相似图像的视觉特征与所述输入图像进行比较;
步骤S7:如果比较出的相似度高于预订阈值,则在所述互联网中获得所述相似图像的外部属性;以及
步骤S8:集成所述分类属性、所述内部属性和所述外部属性,以获取所述输入图像上的最终标注。
2.根据权利要求1所述的主动学习自动图像标注方法,其特征在于,所述步骤S8还包括:如果所述内部属性和所述外部属性之间存在冲突,则将来自所述通用图像数据库的相似图像的相似度和来自互联网的相似图像的相似度进行比较,选择得分最高的相似图像的属性作为所述输入图像的最终标注。
3.根据权利要求1所述的主动学习自动图像标注方法,其特征在于,所述步骤S8还包括:如果未获得所述内部属性和所述外部属性,则将所述分类属性作为所述图像的最终标注。
4.根据权利要求1-3中任一项所述的主动学习自动图像标注方法,其特征在于,所述方法还包括:
步骤S9:用户删除所述最终标注中不合适的属性或者手动添加其他属性。
5.根据权利要求1所述的主动学习自动图像标注方法,其特征在于,所述视觉特征包括通过卷积神经网络的模型获得的二进制哈希编码和深层特征。
6.根据权利要求5所述的主动学习自动图像标注方法,其特征在于,所述步骤S3还包括以下步骤:
计算所述输入图像的二进制哈希编码与所述通用图像数据库中的图像的二进制哈希编码之间的汉明距离;
如果所述汉明距离低于阈值,则将所述图像作为候选图像放入候选池中;以及
通过使用余弦相似度比较所述候选图像的深层特征。
7.根据权利要求1-3以及5-6中任一项所述的主动学习自动图像标注方法,其特征在于,所述主动学习自动图像标注方法适用于服装行业。
8.一种主动学习自动图像标注***,其特征在于,所述***包括:
图像输入模块,所述图像输入模块配置成提供输入图像;
特征提取模块,所述特征提取模块配置成提取所述输入图像的视觉特征并获得所述输入图像的分类属性,并且所述特征提取模块还配置成从外部属性检索模块接收在互联网中搜索到的相似图像并提取该相似图像的视觉特征;
基于CBIR的标签模块,所述基于CBIR的标签模块配置成从所述特征提取模块接收输入图像的视觉特征并利用所述输入图像的视觉特征在通用图像数据库中查找相似图像,并从相应的通用描述数据库中获得所述相似图像的内部属性,并且所述基于CBIR的标签模块还配置成将来自互联网的所述相似图像的视觉特征与所述输入图像进行比较;
所述外部属性检索模块,所述外部属性检索模块配置成从所述图像输入模块接收输入图像,并在所述特征提取模块提取所述输入图像的视觉特征的同时,在互联网中搜索所述输入图像的所述相似图像,并且所述外部属性检索模块还配置成如果由所述基于CBIR的标签模块比较出的相似度高于预订阈值,则在所述互联网中获得所述相似图像的外部属性;以及
集成和后处理模块,所述集成和后处理模块配置成集成所述分类属性、所述内部属性和所述外部属性,以获取所述输入图像上的最终标注。
9.根据权利要求8所述的主动学习自动图像标注***,其特征在于,所述集成和后处理模块进一步配置成:
如果所述内部属性和所述外部属性之间存在冲突,则将来自所述通用图像数据库的相似图像的相似度和来自互联网的相似图像的相似度进行比较,选择得分最高的相似图像的属性作为所述输入图像的最终标注。
10.根据权利要求8所述的主动学习自动图像标注***,其特征在于,所述集成和后处理模块进一步配置成:
如果未获得所述内部属性和所述外部属性,则将所述分类属性作为所述图像的最终标注。
11.根据权利要求8-10中任一项所述的主动学习自动图像标注***,其特征在于,所述***还包括:
人机交互模块,所述人机交互模块配置成供用户删除所述最终标注中不合适的属性或者手动添加其他属性。
12.根据权利要求8所述的主动学习自动图像标注***,其特征在于,所述视觉特征包括通过卷积神经网络的模型获得的二进制哈希编码和深层特征。
13.根据权利要求12所述的主动学习自动图像标注***,其特征在于,所述基于CBIR的标签模块进一步配置成:
计算所述输入图像的二进制哈希编码与所述通用图像数据库中的图像的二进制哈希编码之间的汉明距离;
如果所述汉明距离低于阈值,则将所述图像作为候选图像放入候选池中;以及
通过使用余弦相似度比较所述候选图像的深层特征。
14.根据权利要求8-10和12-13中任一项所述的主动学习自动图像标注***,其特征在于,所述主动学习自动图像标注***适用于服装行业。
15.一种计算机设备,包括:存储器;处理器;以及存储在所述存储器上并在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:
步骤S1:提供输入图像;
步骤S2:提取所述输入图像的视觉特征,并获得所述输入图像的分类属性;
步骤S3:利用所述输入图像的视觉特征在通用图像数据库中查找相似图像,并从相应的通用描述数据库中获得所述相似图像的内部属性;
步骤S4:在S2步骤的同时,在互联网中搜索所述输入图像的相似图像;
步骤S5:提取所述相似图像的视觉特征;
步骤S6:将在所述步骤S5获得的所述相似图像的视觉特征与所述输入图像进行比较;
步骤S7:如果比较出的相似度高于预订阈值,则在所述互联网中获得所述相似图像的外部属性;以及
步骤S8:集成所述分类属性、所述内部属性和所述外部属性,以获取所述输入图像上的最终标注。
16.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令被处理器执行时实现根据权利要求1-7所述的方法的步骤。
CN201910243285.4A 2019-03-28 2019-03-28 主动学习自动图像标注***及方法 Active CN111753861B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910243285.4A CN111753861B (zh) 2019-03-28 2019-03-28 主动学习自动图像标注***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910243285.4A CN111753861B (zh) 2019-03-28 2019-03-28 主动学习自动图像标注***及方法

Publications (2)

Publication Number Publication Date
CN111753861A true CN111753861A (zh) 2020-10-09
CN111753861B CN111753861B (zh) 2024-04-30

Family

ID=72672241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910243285.4A Active CN111753861B (zh) 2019-03-28 2019-03-28 主动学习自动图像标注***及方法

Country Status (1)

Country Link
CN (1) CN111753861B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115985472A (zh) * 2022-12-01 2023-04-18 珠海全一科技有限公司 基于神经网络的眼底图像标注方法及***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040264780A1 (en) * 2003-06-30 2004-12-30 Lei Zhang Face annotation for photo management
CN102542067A (zh) * 2012-01-06 2012-07-04 上海交通大学 基于尺度学习和关联标号传播的自动图像语义标注方法
CN102902821A (zh) * 2012-11-01 2013-01-30 北京邮电大学 基于网络热点话题的图像高级语义标注、检索方法及装置
CN103473275A (zh) * 2013-08-23 2013-12-25 中山大学 一种采用多特征融合的图像自动标注方法和***
CN105701502A (zh) * 2016-01-06 2016-06-22 福州大学 一种基于蒙特卡罗数据均衡的图像自动标注方法
CN108897778A (zh) * 2018-06-04 2018-11-27 四川创意信息技术股份有限公司 一种基于多源大数据分析的图像标注方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040264780A1 (en) * 2003-06-30 2004-12-30 Lei Zhang Face annotation for photo management
CN102542067A (zh) * 2012-01-06 2012-07-04 上海交通大学 基于尺度学习和关联标号传播的自动图像语义标注方法
CN102902821A (zh) * 2012-11-01 2013-01-30 北京邮电大学 基于网络热点话题的图像高级语义标注、检索方法及装置
CN103473275A (zh) * 2013-08-23 2013-12-25 中山大学 一种采用多特征融合的图像自动标注方法和***
CN105701502A (zh) * 2016-01-06 2016-06-22 福州大学 一种基于蒙特卡罗数据均衡的图像自动标注方法
CN108897778A (zh) * 2018-06-04 2018-11-27 四川创意信息技术股份有限公司 一种基于多源大数据分析的图像标注方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘聪;丁贵广;: "基于视觉的服装属性分类算法", 微电子学与计算机, no. 01 *
林城龙;胡伟;李瑞瑞;: "基于深度卷积神经网络的层次多任务服装分类", 中国体视学与图像分析, no. 02 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115985472A (zh) * 2022-12-01 2023-04-18 珠海全一科技有限公司 基于神经网络的眼底图像标注方法及***
CN115985472B (zh) * 2022-12-01 2023-09-22 珠海全一科技有限公司 基于神经网络的眼底图像标注方法及***

Also Published As

Publication number Publication date
CN111753861B (zh) 2024-04-30

Similar Documents

Publication Publication Date Title
Jing et al. Visual search at pinterest
Tautkute et al. Deepstyle: Multimodal search engine for fashion and interior design
Wang et al. Annotating images by mining image search results
US7917514B2 (en) Visual and multi-dimensional search
US8027549B2 (en) System and method for searching a multimedia database using a pictorial language
Tao et al. Negative samples analysis in relevance feedback
US7739221B2 (en) Visual and multi-dimensional search
EP1202187B1 (en) Image retrieval system and methods with semantic and feature based relevance feedback
US20070288453A1 (en) System and Method for Searching Multimedia using Exemplar Images
WO2020056977A1 (zh) 知识点推送方法、装置及计算机可读存储介质
CN105426529A (zh) 基于用户搜索意图定位的图像检索方法及***
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
Wang et al. Duplicate-search-based image annotation using web-scale data
Roopak et al. OntoKnowNHS: ontology driven knowledge centric novel hybridised semantic scheme for image recommendation using knowledge graph
González et al. NMF-based multimodal image indexing for querying by visual example
CN111753861B (zh) 主动学习自动图像标注***及方法
WO2020191706A1 (zh) 主动学习自动图像标注***及方法
Liu et al. Clustering-based topical Web crawling using CFu-tree guided by link-context
Wang et al. An efficient refinement algorithm for multi-label image annotation with correlation model
CN109408713B (zh) 一种基于用户反馈信息的软件需求检索***
Gilbert et al. A picture is worth a thousand tags: automatic web based image tag expansion
Barrena et al. Qatris iManager: a general purpose CBIR system
Dobrescu et al. Multi-modal CBIR algorithm based on Latent Semantic Indexing
CN110990710A (zh) 资源推荐方法及装置
Kasthuri et al. A survey on face annotation techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant