CN110516707A - 一种图像标注方法及其装置、存储介质 - Google Patents

一种图像标注方法及其装置、存储介质 Download PDF

Info

Publication number
CN110516707A
CN110516707A CN201910655710.0A CN201910655710A CN110516707A CN 110516707 A CN110516707 A CN 110516707A CN 201910655710 A CN201910655710 A CN 201910655710A CN 110516707 A CN110516707 A CN 110516707A
Authority
CN
China
Prior art keywords
image
data set
style
model
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910655710.0A
Other languages
English (en)
Other versions
CN110516707B (zh
Inventor
张�浩
邵新庆
宋咏君
刘强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Liwei Zhilian Technology Co Ltd
Nanjing ZNV Software Co Ltd
Original Assignee
Shenzhen Liwei Zhilian Technology Co Ltd
Nanjing ZNV Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Liwei Zhilian Technology Co Ltd, Nanjing ZNV Software Co Ltd filed Critical Shenzhen Liwei Zhilian Technology Co Ltd
Priority to CN201910655710.0A priority Critical patent/CN110516707B/zh
Publication of CN110516707A publication Critical patent/CN110516707A/zh
Application granted granted Critical
Publication of CN110516707B publication Critical patent/CN110516707B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

一种图像标注方法及其装置、存储介质,其中图像标注方法包括:获取一现场环境内目标对象的图像;根据预先建立的机器视觉模型对目标对象的图像进行特征信息提取,其中机器视觉模型是利用预设的第一数据集进行风格转换后形成的第二数据集,通过机器学习而训练得到的模型;利用提取得到的特征信息标注出目标对象的图像中的该目标对象,以及输出目标对象的标注信息。由于在建立机器视觉模型时,通过GAN模型将已标注的数据集进行风格迁移至现场数据集,那么使得已标注的数据集在保持标签信息的同时也能获得现场数据集的风格信息,从而最大限度地模拟现场环境,增强机器视觉模型的迁移效果。

Description

一种图像标注方法及其装置、存储介质
技术领域
本发明涉及图像处理技术领域,具体涉及一种图像标注方法及其装置、存储介质。
背景技术
行人重识别(Person Re-identification也称行人再识别,简称为ReID是近年来计算机视觉的一个研究重点,即给定一个监控行人图像,跨设备检索该行人的图像。由于不同摄像设备之间存在差异,行人外观易受穿着、尺度、遮挡、姿态和视角等影响,行人再识别是一个既具研究价值同时又极富挑战性的课题。
ReID的目标是匹配并返回来自摄像机网络收集的大型图集的探测者图像,由于ReID在安全和监控方面的重要应用,引起了学术界和工业界的广泛关注,由于深度学习的发展和许多数据集的可用性,也使得ReID的性能得到显着提升。
尽管当前ReID数据集的表现令人满意,但仍然存在一些阻碍人员ReID应用的未解决问题。首先,现有的公共数据集不同于真实场景中收集的数据,存在照明、分辨率、人种、清晰度、背景等方面的差异。例如,当前数据集包含有限数量的身份或在受限环境下进行,所呈现的有限人员数量和简单照明条件简化了人员的ReID任务并有助于实现高精度的识别效果;但是,在实际场景下ReID通常是在室内和室外场景中部署的摄像机网络中执行,并处理长时间拍摄的视频,因此真正的应用程序必须应对挑战,如大量身份和复杂的照明以及场景变化,目前的算法可能无法解决。
此外,使用深度神经网络训练计算机视觉方面的ReID模型时,从一个数据集(数据集通常是通过人工标注或者图像标注算法得到的物体图片)训练出来的模型在另一个数据集上的表现会有大幅下降,即模型迁移效果较差。故当前计算机视觉技术应用时,需要对现场数据进行大量标注,使用标注好的现场数据重新训练模型,耗费大量时间和费用。
发明内容
本发明主要解决的技术问题是如何增强机器视觉模型的迁移效果,以提高图像标注时的准确率。
根据第一方面,一种实施例中提供一种图像标注方法,包括:获取一现场环境内目标对象的图像;根据预先建立的机器视觉模型对所述目标对象的图像进行特征信息提取;所述机器视觉模型是利用预设的第一数据集进行风格转换后形成的第二数据集,通过机器学习而训练得到的模型;利用提取得到的特征信息标注出所述目标对象的图像中的目标对象,以及输出所述目标对象的标注信息。
所述利用提取得到的特征信息标注出所述目标对象的图像中的目标对象,包括:将从所述目标对象中提取的若干个特征信息分别与所述目标对象的预设特征进行匹配,将匹配成功的特征信息进行标注;根据已标注的特征信息形成所述目标对象的标注信息。
所述机器视觉模型是利用预设的第一数据集进行风格转换后形成的第二数据集,通过机器学习而训练得到的模型,则所述机器视觉模型的建立过程为:
采集步骤:采集所述现场环境内至少一个移动对象的一组图像,形成现场数据集,得到所述现场数据集的风格信息,所述风格信息包括亮度、色彩、色差、清晰度、对比度、分辨率中的一者或多者;转换步骤:根据所述现场数据集的风格信息对预设的第一数据集进行风格转换,得到第二数据集;所述第一数据集包括至少一个移动对象在任意环境内已标注的一组图像,且每个移动对象对应的一组图像具有统一的标签信息;训练步骤:利用所述第二数据集,通过机器学习,训练得到所述机器视觉模型。
在所述转换步骤中,所述根据所述现场数据集的风格信息对预设的第一数据集进行风格转换,得到第二数据集,包括:通过GAN模型将所述第一数据集风格迁移至所述现场数据集,以根据所述现场数据集的风格信息对所述第一数据集中的每组图像进行风格转换,得到对应的一组新图像;整合所述第一数据集中每组图像对应的一组新图像,形成所述第二数据集。
所述通过GAN模型将所述第一数据集风格迁移至所述现场数据集,以根据所述现场数据集的风格信息对所述第一数据集中的每组图像进行风格转换,得到对应的一组新图像,包括:建立总损失函数,用公式表示为
Loss=LStyle1LID
其中,LStyle表示所述现场数据集的风格信息对应的风格损失函数,LID表示所述第一数据集中每组图像的标签信息对应的标签损失函数,λ1为比重系数;
利用所述风格损失函数和所述标签损失函数调整所述GAN模型的参数,以使得所述总损失函数的Loss值达到最小;将所述第一数据集中的每组图像输入至Loss值在最小时调整得到的所述GAN模型,以对所述第一数据集中的每组图像进行风格转换,输出得到该组图像对应的一组新图像。
在所述总损失函数中,所述风格损失函数表示为
其中,A、B分别为所述现场数据集、所述第一数据集,LGAN为标准对抗性损失函数,Lcyc为周期一致性损失函数,G表示从A到B的样式映射函数,表示从B到A的样式映射函数,DA和DB分别是A和B的样式鉴别器,λ2为比重系数;所述标签损失函数表示为
其中,A的数据分布为a~pdata(a),B的数据分布为b~pdata(b),Var为数据的方差计算函数,G(a)为来自A中图像a的被迁移目标图像,M(a)为图像a的前景遮罩,G(b)为来自B中图像b的被迁移目标图像,M(b)为图像a的前景遮罩。
在所述训练步骤之后还包括测试步骤,所述测试步骤包括:利用所述现场数据集对所述机器视觉模型进行测试,通过迭代算法或梯度下降算法调整所述GAN模型中的超参;每次调整所述GAN模型中的超参之后,通过所述转换步骤重新形成所述第二数据集,且通过所述训练步骤重新训练得到所述机器视觉模型,继续利用所述现场数据集对重新训练得到的所述机器视觉模型进行测试,直至所述GAN模型中的超参完成调整。
根据第二方面,一种实施例中提供一种图像标注装置,包括:
获取单元,用于获取一现场环境内目标对象的图像;
提取单元,用于根据预先建立的机器视觉模型对所述目标对象的图像进行特征信息提取;所述机器视觉模型是利用预设的第一数据集进行风格转换后形成的第二数据集,通过机器学习而训练得到的模型;
标注单元,用于利用提取得到的特征信息标注出所述目标对象的图像中的目标对象,以及输出所述目标对象的标注信息。
所述的图像标注装置还包括用于建立所述机器视觉模型的模型建立单元,与所述提取单元连接,所述模型建立单元包括:采集模块,用于采集所述现场环境内至少一个移动对象的一组图像,形成现场数据集,得到所述现场数据集的风格信息,所述风格信息包括亮度、色彩、色差、清晰度、对比度、分辨率中的一者或多者;转换模块,用于根据所述现场数据集的风格信息对预设的第一数据集进行风格转换,得到第二数据集;所述第一数据集包括至少一个移动对象在任意环境内已标注的一组图像,且每个移动对象对应的一组图像具有统一的标签信息;训练模块,用于利用所述第二数据集,通过机器学习,训练得到所述机器视觉模型。
根据第三方面,一种实施例中提供一种计算机可读存储介质,包括程序,所述程序能够被处理器执行以实现如上述第一方面所述的图像标注方法。
本申请的有益效果是:
依据上述实施例的一种图像标注方法及其装置、存储介质,其中图像标注方法包括:获取一现场环境内目标对象的图像;根据预先建立的机器视觉模型对目标对象的图像进行特征信息提取,其中机器视觉模型是利用预设的第一数据集进行风格转换后形成的第二数据集,通过机器学习而训练得到的模型;利用提取得到的特征信息标注出目标对象的图像中的该目标对象,以及输出目标对象的标注信息。第一方面,由于在建立机器视觉模型时,通过GAN模型将已标注的数据集进行风格迁移至现场数据集,那么使得已标注的数据集在保持标签信息的同时也能获得现场数据集的风格信息,从而最大限度地模拟现场环境,增强机器视觉模型的迁移效果;第二方面,利用建立的机器视觉模型不但很好地克服了机器视觉模型迁移效果较差的问题,还在该机器视觉模型应用于现场环境时,能够很好地从图像中提取特征信息,利于图像标注时快速地在现场环境中识别出目标对象,从而减少新场景建模所需的人工标注工作,有效地节省新场景建模的时间和成本。
附图说明
图1为本申请中图像标注方法的流程图;
图2为标注目标对象的流程图;
图3为本申请中建立机器视觉模型的流程图;
图4为建立机器视觉模型时测试步骤的流程图;
图5为建立机器视觉模型的原理示意图;
图6为本申请中图像标注装置的结构示意图;
图7为图像标注装置中模型建立单元的结构示意图;
图8为GAN模型风格迁移的原理示意图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
本文中为部件所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。而本申请所说“连接”、“联接”,如无特别说明,均包括直接和间接连接(联接)。
实施例一、
请参考图1,本申请公开一种图像标注方法,其包括步骤S110-S130,下面分别说明。
步骤S110,获取一现场环境内目标对象的图像。
在本实施例中,现场环境可以是街道、广场、公路、车站、商场、酒店等公共场合,目标对象可以是行人、车辆、宠物等可移动的物体,这里不做具体限定。此外,可以通过安装于公共场合的一个或多个视频采集设备(如摄像头)来采集相关现场环境内目标对象的图像,且传输至控制中心以供获取。
步骤S120,根据预先建立的机器视觉模型对目标对象的图像进行特征信息提取;这里的机器视觉模型是利用预设的第一数据集进行风格转换后形成的第二数据集,通过机器学习而训练得到的模型。
在一具体实施例中,通过预先建立的机器视觉模型在提取目标对象的图像中的若干个特征信息时,主要提取图像中的一些特征向量。比如,多个行人在广场上移动,那么图像不仅有行人的特征信息,还有广场上其它物体的特征信息,此时要提取图像中关于行人和其它物体的特征信息。
需要说明的是,这里的特征信息往往是特征向量,相当于图片在目标任务中的表示,可以认为是计算机视觉领域的一种通用表示方式,即用向量表征目标对象,用以支撑实际应用中的人脸识别、行人识别等任务。如人脸识别即用目标向量在人脸向量库中检索出相似度最高的特征,当相似度高于某一阈值的认为是同一个人。
步骤S130,利用提取得到的特征信息标注出该目标对象的图像中的目标对象,以及输出目标对象的标注信息。具体地,可以将目标对象的标注信息进行归类存储和显示,使得管理人员能够方便地通过这些标注信息找到给目标对象。
在一具体实施例中,图2中步骤S130可以包括步骤S131-S132,说明如下。
步骤S131,将从目标对象的图像中提取的若干个特征信息分别与目标对象的预设特征进行匹配,将匹配成功的特征向量进行标注。比如目标对象是某一个行人,可以通过先前采集到的图像来确定该行人的预设特征(如身高、体型轮廓、面部轮廓、衣着等),那么通过机器视觉模型可以方便地从其它的图像中识别出与该行人的预设特征相匹配的特征向量,并确定相匹配的特征信息与该行人有关联,从而通过矩形框的形式在其它的图像中标注出这些特征信息,即识别出该行人。
步骤S132,根据已标注的特征信息形成目标对象的标注信息。具体地,如果一些已经标注的特征信息与某个行人相关联,那么不但可以利用矩形框标注出该行人,还可以通过标签信息的形式为该行人进行唯一性编号,从而形成该行人的标注信息。
在本实施例中,为了图像识别的准确率,根据预先建立的机器视觉模型对目标对象的图像进行处理,从而提取图像中的特征信息;其中,机器视觉模型是利用预设的第一数据集进行风格转换后形成的第二数据集,通过机器学习而训练得到的模型;那么,机器视觉模型的建立过程可以通过步骤S200进行说明,请参考图3,步骤S200可以包括步骤S210-S230,下面分别说明。
步骤S210,视为采集步骤,采集现场环境内至少一个移动对象的一组图像,形成现场数据集,得到现场数据集的风格信息,该风格信息包括亮度、色彩、色差、清晰度、对比度、分辨率中的一者或多者。
例如,想要对一广场内的行人进行图像标注,则首先需要建立一个与该广场的现场环境相关的机器视觉模型,为了得到这样的机器学习模型还需要模拟该广场的现场环境并形成对应的现场数据集。所以,这里可以通过摄像头等采集设备来采集该广场内一个或多个行人构成的一组图像,该组图像可以包括多帧数字图片且在时间上具有连续性;由采集到的一组图像形成的现场数据集往往包括了一些与特定的风格信息,如当前广场环境中才具有的亮度、色彩、清晰度等信息。
步骤S220,视为转换步骤,根据现场数据集的风格信息对预设的第一数据集进行风格转换,得到第二数据集。在本实施例中,第一数据集包括至少一个移动对象在任意环境内已标注的一组图像,且每个移动对象对应的一组图像具有统一的标签信息。
例如,在ReID的场景下,第一数据集可以是收集开源的DukeMTMC-reID数据集,它包括由摄像头拍摄到的1404个行人、36411个检测到的行人矩形框,并且,包括每个行人在街道的行进过程中于不同时间点时或者不同角度下拍摄的多幅移动中的图像。
需要说明的是,步骤S210中的现场数据集和步骤S220中的第一数据集之间,可能会由于光照、角度、摄像机、背景的不同,导致不同数据集采集到的图片的亮度、色彩、清晰度、对比度等方面有整体上的差异,这种差异会导致模型迁移效果变差。
在一具体实施例中,见图4,步骤S220可以包括步骤S221-S222,分别说明如下。
步骤S221,通过GAN模型将第一数据集风格迁移至现场数据集,以根据现场数据集的风格信息对第一数据集中的每组图像进行风格转换,得到对应的一组新图像。
例如图8,利用开源的DukeMTMC-reID数据集形成第一数据集,其中包括一个行人在街道上行进过程中于不同时间点时的已标注的图像;利用在现场环境内采集到的一组图像形成现场数据集,其中包括一个行人在广场上行进过程中于不同时间点时的图像(已标注的或者未标注的均可)。通过GAN模型将第一数据集风格迁移至现场数据集,得到现场数据集的风格信息并以此进行风格转换,从而得到第一数据集相对应的第二数据集;在第二数据集中,每一幅图像的风格得到了改变,更加接近于现场数据集的风格,同时行人依然保持一定的分辨度,ID还可以维持不变。
步骤S222,整合第一数据集中每组图像对应的一组新图像,形成第二数据集。
需要说明的是,本实施例中涉及的GAN模型就是生成式对抗网络(GenerativeAdversarial Networks,简称GAN),其是一种深度学***衡。由于GAN模型常常用来进行两个图像的风格迁移,属于现有技术,所以这里不再进行详细说明。
在本实施例中,通过GAN模型将第一数据集风格迁移至现场数据集,以根据现场数据集的风格信息对第一数据集中的每组图像进行风格转换,得到对应的一组新图像的过程中,为保证GAN模型风格迁移的实现效果,这里通过以下3个步骤对风格迁移进行了控制,具体为:
(1)建立总损失函数,用公式表示为
Loss=LStyle1LID
其中,LStyle表示所述现场数据集的风格信息对应的风格损失函数,LID表示所述第一数据集中每组图像的标签信息对应的标签损失函数,λ1为比重系数。
在总损失函数Loss中,风格损失函数表示为
其中,A、B分别为所述现场数据集、所述第一数据集,LGAN为标准对抗性损失函数,Lcyc为周期一致性损失函数,G表示从A到B的样式映射函数,表示从B到A的样式映射函数,DA和DB分别是A和B的样式鉴别器,λ2为比重系数;
在总损失函数Loss中,标签损失函数表示为
其中,A的数据分布为a~pdata(a),B的数据分布为b~pdata(b),Var为数据的方差计算函数,G(a)为来自A中图像a的被迁移目标图像,M(a)为图像a的前景遮罩,G(b)为来自B中图像b的被迁移目标图像,M(b)为图像a的前景遮罩。
(2)利用风格损失函数LStyle和标签损失函数LID调整GAN模型的参数,以使得总损失函数的Loss值达到最小。
(3)将第一数据集中的每组图像输入至Loss值在最小时调整得到的GAN模型,以对第一数据集中的每组图像进行风格转换,输出得到该组图像对应的一组新图像。
步骤S230,视为训练步骤,利用第二数据集,通过机器学习,训练得到机器视觉模型。
例如,可以利用第二数据集,通过ReID模型训练得到机器视觉模型,这里的ReID模型即为行人重识别模型(Person re-identification,简称Re-ID,也称行人再识别),是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。ReID模型中存在两个关键技术,一个是特征提取,学习能够应对在不同摄像头下行人变化的特征;另一个是度量学习,将学习到的特征映射到新的空间使相同的人更近不同的人更远。由于ReID模型属于现有技术,所以这里不再进行详细说明。
在另一个实施例中,见图4,在训练步骤S230之后还包括测试步骤S240,该测试步骤S400可以概括为:(a)利用现场数据集对机器视觉模型进行测试,通过迭代算法或梯度下降算法调整GAN模型中的超参(比如参数λ1、λ2);(b)每次调整GAN模型中的超参之后,通过转换步骤S220(即S221-S222)重新形成第二数据集,且通过训练步骤S230重新训练得到机器视觉模型,继续利用现场数据集对重新训练得到的机器视觉模型进行测试,直至GAN模型中的超参完成调整。
为了清楚地说明建立机器视觉模型的原理,这里将通过图5进行描述。参见图5,第一数据集包括至少一个移动对象在任意环境内已标注的一组图像,现场数据集包括现场环境内至少一个移动对象的一组图像;通过GAN模型将第一数据集风格迁移至现场数据集,以根据现场数据集的风格信息对第一数据集中的每组图像进行风格转换,得到对应的一组新图像,以及整合新图像形成第二数据集;利用第二数据集训练ReID模型,从而得到本申请请求保护的机器视觉模型。之后,利用现场数据集对机器视觉模型进行测试,通过迭代算法或梯度下降算法调整GAN模型中的超参,在达到设定的迭代次数或者达到梯度下降的要求时认为超参调整结束,机器视觉模型得到了优化,可以在现场环境下进行目标对象的图像标注。
实施例二、
请参考图6,在实施例一公开的图像标注方法的基础上,本申请还相应的公开一种图像标注装置3,该图像标注装置3主要包括获取单元31、提取单元32和标注单元33,下面分别说明。
获取单元31用于获取一现场环境内目标对象的图像。
在本实施例中,现场环境可以是街道、广场、公路、车站、商场、酒店等公共场合,目标对象可以是行人、车辆、宠物等可移动的物体,这里不做具体限定。此外,可以通过安装于公共场合的一个或多个视频采集设备(如摄像头)来采集相关现场环境内目标对象的图像,且传输至控制中心以供获取。
提取单元32与获取单元31连接,用于根据预先建立的机器视觉模型对目标对象的图像进行特征信息提取。本申请中机器视觉模型是利用预设的第一数据集进行风格转换后形成的第二数据集,通过机器学习而训练得到的模型。关于提取单元32的具体功能可以参考实施例一中的步骤S120,这里不再进行赘述。
标注单元33与提取单元32连接,用于利用提取得到的特征信息标注出目标对象的图像中的目标对象,以及输出目标对象的标注信息。具体地,如果一些已经标注的特征信息(特征向量)与某个行人相关联,那么不但可以利用矩形框标注出该行人,还可以通过标签信息的形式为该行人进行唯一性编号,从而形成该行人的标注信息。此外,标注单元33可以将目标对象的标注信息进行归类存储和显示,使得管理人员能够方便地通过这些标注信息找到给目标对象。
进一步地,参见图6和图7,图像标注装置3还包括用于建立机器视觉模型的模型建立单元34,与提取单元32连接,该模型建立单元34包括采集模块341、转换模块342和训练模块343。
采集模块341用于采集现场环境内至少一个移动对象的一组图像,形成现场数据集,得到现场数据集的风格信息,该风格信息可以包括亮度、色彩、色差、清晰度、对比度、分辨率中的一者或多者。关于采集模块341的具体功能可以参考实施例一中的步骤S210,这里不再进行赘述。
转换模块342用于根据现场数据集的风格信息对预设的第一数据集进行风格转换,得到第二数据集;这里的第一数据集包括至少一个移动对象在任意环境内已标注的一组图像,且每个移动对象对应的一组图像具有统一的标签信息。关于转换模块342的具体功能可以参考实施例一中的步骤S220,这里不再进行赘述。
训练模块343用于利用第二数据集,通过机器学习(如ReID模型),训练得到机器视觉模型。关于训练模块343的具体功能可以参考实施例一中的步骤S230,这里不再进行赘述。
为清楚地说明本申请技术方法的有益效果,这里进行了对比试验。在第一个试验中,用开源的DukeMTMC-reID数据集直接训练得到一个机器视觉模型,根据这个机器视觉模型进行现场环境下的测试,得到第一组的测试指标mAP和Rank1;在第二个试验中,将开源的DukeMTMC-reID数据集风格迁移至现场数据集,形成风格迁移后的第二数据集DukeMTMC-reID*M,用第二数据集训练得到另一个机器视觉模型,根据这个机器视觉模型进行现场环境下的测试,得到第二组的测试指标mAP和Rank1。
表1对比试验的测试指标结果
通过表1可以看出,第二个试验中得到的测试指标相比第一个试验均有较大的提升,那么说明机器视觉模型的迁移效果较好,可以减少所需的人工标注工作,提高图像标注的准确率。
需要说明的是,mAP(全称是mean average precision)和rank1均是衡量算法搜索能力的指标,做为一种基准来衡量算法的精确度好坏,属于现有技术,这里不再进行详细说明。
本领域技术人员可以理解,上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的***进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述实施方式中全部或部分功能。
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。

Claims (10)

1.一种图像标注方法,其特征在于,包括:
获取一现场环境内目标对象的图像;
根据预先建立的机器视觉模型对所述目标对象的图像进行特征信息提取;所述机器视觉模型是利用预设的第一数据集进行风格转换后形成的第二数据集,通过机器学习而训练得到的模型;
利用提取得到的特征信息标注出所述目标对象的图像中的目标对象,以及输出所述目标对象的标注信息。
2.如权利要求1所述的图像标注方法,其特征在于,所述利用提取得到的特征信息标注出所述目标对象的图像中的目标对象,包括:
将从所述目标对象的图像中提取的若干个特征信息分别与所述目标对象的预设特征进行匹配,将匹配成功的特征信息进行标注;
根据已标注的特征信息形成所述目标对象的标注信息。
3.如权利要求1或2所述的图像标注方法,其特征在于,所述机器视觉模型是利用预设的第一数据集进行风格转换后形成的第二数据集,通过机器学习而训练得到的模型,则所述机器视觉模型的建立过程为:
采集步骤:采集所述现场环境内至少一个移动对象的一组图像,形成现场数据集,得到所述现场数据集的风格信息,所述风格信息包括亮度、色彩、色差、清晰度、对比度、分辨率中的一者或多者;
转换步骤:根据所述现场数据集的风格信息对预设的第一数据集进行风格转换,得到第二数据集;所述第一数据集包括至少一个移动对象在任意环境内已标注的一组图像,且每个移动对象对应的一组图像具有统一的标签信息;
训练步骤:利用所述第二数据集,通过机器学习,训练得到所述机器视觉模型。
4.如权利要求3所述的图像标注方法,其特征在于,在所述转换步骤中,所述根据所述现场数据集的风格信息对预设的第一数据集进行风格转换,得到第二数据集,包括:
通过GAN模型将所述第一数据集风格迁移至所述现场数据集,以根据所述现场数据集的风格信息对所述第一数据集中的每组图像进行风格转换,得到对应的一组新图像;
整合所述第一数据集中每组图像对应的一组新图像,形成所述第二数据集。
5.如权利要求4所述的图像标注方法,其特征在于,所述通过GAN模型将所述第一数据集风格迁移至所述现场数据集,以根据所述现场数据集的风格信息对所述第一数据集中的每组图像进行风格转换,得到对应的一组新图像,包括:
建立总损失函数,用公式表示为
Loss=LStyle1LID
其中,LStyle表示所述现场数据集的风格信息对应的风格损失函数,LID表示所述第一数据集中每组图像的标签信息对应的标签损失函数,λ1为比重系数;
利用所述风格损失函数和所述标签损失函数调整所述GAN模型的参数,以使得所述总损失函数的Loss值达到最小;
将所述第一数据集中的每组图像输入至Loss值在最小时调整得到的所述GAN模型,以对所述第一数据集中的每组图像进行风格转换,输出得到该组图像对应的一组新图像。
6.如权利要求5所述的图像标注方法,其特征在于,在所述总损失函数中,所述风格损失函数表示为
其中,A、B分别为所述现场数据集、所述第一数据集,LGAN为标准对抗性损失函数,Lcyc为周期一致性损失函数,G表示从A到B的样式映射函数,表示从B到A的样式映射函数,DA和DB分别是A和B的样式鉴别器,λ2为比重系数;
所述标签损失函数表示为
其中,A的数据分布为a~pdata(a),B的数据分布为b~pdata(b),Var为数据的方差计算函数,G(a)为来自A中图像a的被迁移目标图像,M(a)为图像a的前景遮罩,G(b)为来自B中图像b的被迁移目标图像,M(b)为图像a的前景遮罩。
7.如权利要求5所述的图像标注方法,其特征在于,在所述训练步骤之后还包括测试步骤,所述测试步骤包括:
利用所述现场数据集对所述机器视觉模型进行测试,通过迭代算法或梯度下降算法调整所述GAN模型中的超参;
每次调整所述GAN模型中的超参之后,通过所述转换步骤重新形成所述第二数据集,且通过所述训练步骤重新训练得到所述机器视觉模型,继续利用所述现场数据集对重新训练得到的所述机器视觉模型进行测试,直至所述GAN模型中的超参完成调整。
8.一种图像标注装置,其特征在于,包括:
获取单元,用于获取一现场环境内目标对象的图像;
提取单元,用于根据预先建立的机器视觉模型对所述目标对象的图像进行特征信息提取;所述机器视觉模型是利用预设的第一数据集进行风格转换后形成的第二数据集,通过机器学习而训练得到的模型;
标注单元,用于利用提取得到的特征信息标注出所述目标对象的图像中的目标对象,以及输出所述目标对象的标注信息。
9.如权利要求1所述的图像标注装置,其特征在于,还包括用于建立所述机器视觉模型的模型建立单元,与所述提取单元连接,所述模型建立单元包括:
采集模块,用于采集所述现场环境内至少一个移动对象的一组图像,形成现场数据集,得到所述现场数据集的风格信息,所述风格信息包括亮度、色彩、色差、清晰度、对比度、分辨率中的一者或多者;
转换模块,用于根据所述现场数据集的风格信息对预设的第一数据集进行风格转换,得到第二数据集;所述第一数据集包括至少一个移动对象在任意环境内已标注的一组图像,且每个移动对象对应的一组图像具有统一的标签信息;
训练模块,用于利用所述第二数据集,通过机器学习,训练得到所述机器视觉模型。
10.一种计算机可读存储介质,其特征在于,包括程序,所述程序能够被处理器执行以实现如权利要求1-7中任一项所述的图像标注方法。
CN201910655710.0A 2019-07-19 2019-07-19 一种图像标注方法及其装置、存储介质 Active CN110516707B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910655710.0A CN110516707B (zh) 2019-07-19 2019-07-19 一种图像标注方法及其装置、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910655710.0A CN110516707B (zh) 2019-07-19 2019-07-19 一种图像标注方法及其装置、存储介质

Publications (2)

Publication Number Publication Date
CN110516707A true CN110516707A (zh) 2019-11-29
CN110516707B CN110516707B (zh) 2023-06-02

Family

ID=68622921

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910655710.0A Active CN110516707B (zh) 2019-07-19 2019-07-19 一种图像标注方法及其装置、存储介质

Country Status (1)

Country Link
CN (1) CN110516707B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111598152A (zh) * 2020-05-12 2020-08-28 北京阿丘机器人科技有限公司 视觉***复现方法、设备及计算机可读存储介质
CN111882038A (zh) * 2020-07-24 2020-11-03 深圳力维智联技术有限公司 模型转换方法与装置
CN112396923A (zh) * 2020-11-25 2021-02-23 贵州轻工职业技术学院 一种市场营销的教学模拟***
CN114511510A (zh) * 2022-01-13 2022-05-17 中山大学孙逸仙纪念医院 一种升主动脉图像的自动提取方法和装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013098925A (ja) * 2011-11-04 2013-05-20 Casio Comput Co Ltd 画像処理装置、画像処理方法、及びプログラム
CN107808149A (zh) * 2017-11-17 2018-03-16 腾讯数码(天津)有限公司 一种人脸信息标注方法、装置和存储介质
CN108256439A (zh) * 2017-12-26 2018-07-06 北京大学 一种基于循环生成式对抗网络的行人图像生成方法及***
CN108564127A (zh) * 2018-04-19 2018-09-21 腾讯科技(深圳)有限公司 图像转换方法、装置、计算机设备及存储介质
US20180357800A1 (en) * 2017-06-09 2018-12-13 Adobe Systems Incorporated Multimodal style-transfer network for applying style features from multi-resolution style exemplars to input images
CN109671018A (zh) * 2018-12-12 2019-04-23 华东交通大学 一种基于生成式对抗网络和ResNets技术的图像转换方法及***
CN109697389A (zh) * 2017-10-23 2019-04-30 北京京东尚科信息技术有限公司 身份识别方法与装置
CN109829849A (zh) * 2019-01-29 2019-05-31 深圳前海达闼云端智能科技有限公司 一种训练数据的生成方法、装置和终端
CN109919251A (zh) * 2019-03-21 2019-06-21 腾讯科技(深圳)有限公司 一种基于图像的目标检测方法、模型训练的方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013098925A (ja) * 2011-11-04 2013-05-20 Casio Comput Co Ltd 画像処理装置、画像処理方法、及びプログラム
US20180357800A1 (en) * 2017-06-09 2018-12-13 Adobe Systems Incorporated Multimodal style-transfer network for applying style features from multi-resolution style exemplars to input images
CN109697389A (zh) * 2017-10-23 2019-04-30 北京京东尚科信息技术有限公司 身份识别方法与装置
CN107808149A (zh) * 2017-11-17 2018-03-16 腾讯数码(天津)有限公司 一种人脸信息标注方法、装置和存储介质
CN108256439A (zh) * 2017-12-26 2018-07-06 北京大学 一种基于循环生成式对抗网络的行人图像生成方法及***
CN108564127A (zh) * 2018-04-19 2018-09-21 腾讯科技(深圳)有限公司 图像转换方法、装置、计算机设备及存储介质
CN109671018A (zh) * 2018-12-12 2019-04-23 华东交通大学 一种基于生成式对抗网络和ResNets技术的图像转换方法及***
CN109829849A (zh) * 2019-01-29 2019-05-31 深圳前海达闼云端智能科技有限公司 一种训练数据的生成方法、装置和终端
CN109919251A (zh) * 2019-03-21 2019-06-21 腾讯科技(深圳)有限公司 一种基于图像的目标检测方法、模型训练的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
何剑华等: "基于改进的CycleGAN模型非配对的图像到图像转换", 《玉林师范学院学报》 *
曾碧等: "基于CycleGAN的非配对人脸图片光照归一化方法", 《广东工业大学学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111598152A (zh) * 2020-05-12 2020-08-28 北京阿丘机器人科技有限公司 视觉***复现方法、设备及计算机可读存储介质
CN111882038A (zh) * 2020-07-24 2020-11-03 深圳力维智联技术有限公司 模型转换方法与装置
CN112396923A (zh) * 2020-11-25 2021-02-23 贵州轻工职业技术学院 一种市场营销的教学模拟***
CN112396923B (zh) * 2020-11-25 2023-09-19 贵州轻工职业技术学院 一种市场营销的教学模拟***
CN114511510A (zh) * 2022-01-13 2022-05-17 中山大学孙逸仙纪念医院 一种升主动脉图像的自动提取方法和装置

Also Published As

Publication number Publication date
CN110516707B (zh) 2023-06-02

Similar Documents

Publication Publication Date Title
Wang et al. Learning from synthetic data for crowd counting in the wild
CN106845357B (zh) 一种基于多通道网络的视频人脸检测和识别方法
CN110516707A (zh) 一种图像标注方法及其装置、存储介质
CN107204010B (zh) 一种单目图像深度估计方法与***
CN108256439A (zh) 一种基于循环生成式对抗网络的行人图像生成方法及***
CN106767812B (zh) 一种基于语义信息提取的室内语义地图更新方法与***
CN109190508A (zh) 一种基于空间坐标系的多摄像头数据融合方法
CN109409261B (zh) 一种农作物分类方法及***
CN104732208A (zh) 基于稀疏子空间聚类的视频人体行为识别方法
CN110188835A (zh) 基于生成式对抗网络模型的数据增强行人再识别方法
CN110111338A (zh) 一种基于超像素时空显著性分割的视觉跟踪方法
CN109145766A (zh) 模型训练方法、装置、识别方法、电子设备及存储介质
CN109299707A (zh) 一种基于模糊深度聚类的无监督行人再识别方法
CN109635695B (zh) 基于三元组卷积神经网络的行人再识别方法
CN109583373B (zh) 一种行人重识别实现方法
US20230351794A1 (en) Pedestrian tracking method and device, and computer-readable storage medium
CN109410190B (zh) 基于高分辨率遥感卫星影像的杆塔倒断检测模型训练方法
CN106228109A (zh) 一种基于骨骼运动轨迹的动作识别方法
CN109886356A (zh) 一种基于三分支神经网络的目标追踪方法
CN103853794B (zh) 一种基于部件关联的行人检索方法
CN107948586A (zh) 基于视频拼接的跨区域运动目标检测方法和装置
CN110008828A (zh) 基于差异正则化的成对约束成分分析度量优化方法
CN105631405B (zh) 基于多级分块的交通视频智能识别背景建模方法
CN108648210A (zh) 一种静态复杂场景下快速多目标检测方法及装置
CN115147644A (zh) 图像描述模型的训练和描述方法、***、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant