CN111582410B - 图像识别模型训练方法、装置、计算机设备及存储介质 - Google Patents

图像识别模型训练方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111582410B
CN111582410B CN202010688303.2A CN202010688303A CN111582410B CN 111582410 B CN111582410 B CN 111582410B CN 202010688303 A CN202010688303 A CN 202010688303A CN 111582410 B CN111582410 B CN 111582410B
Authority
CN
China
Prior art keywords
image
disturbance
iteration
target
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010688303.2A
Other languages
English (en)
Other versions
CN111582410A (zh
Inventor
刘彦宏
王洪斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An International Smart City Technology Co Ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN202010688303.2A priority Critical patent/CN111582410B/zh
Publication of CN111582410A publication Critical patent/CN111582410A/zh
Application granted granted Critical
Publication of CN111582410B publication Critical patent/CN111582410B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了图像识别模型训练方法、装置、计算机设备及存储介质。方法包括:根据识别模型及扰动生成规则生成与图像数据集中每一初始图像对应的一张扰动图像,根据预设数据集每一扰动图像的扰动类别生成与每一扰动类别对应的扰动样式,根据变换参数集合及扰动样式对初始图像进行样式迁徙得到训练图像集,根据训练图像集对识别模型进行梯度训练。本发明基于模型构建技术,属于人工智能技术领域,采用样式迁徙方式可极大扩充训练图像集中训练图像的数量,且训练图像集中的训练图像可覆盖各种变化因素,通过所得的训练图像集对识别模型进行训练,可大幅升识别模型在各种变化因素环境下的识别效率及准确率。

Description

图像识别模型训练方法、装置、计算机设备及存储介质
技术领域
本发明涉及人工智能技术领域,应用于智慧城市中模型构建相关的应用场景,尤其涉及一种图像识别模型训练方法、装置、计算机设备及存储介质。
背景技术
为促进智慧城市建设,智能监控摄像头在实际生活中得到了更加广泛的应用,其普遍应用于社区安防、视频监管、环境监管、交通监管等场景中。在实际应用过程中,通过采用深度卷积神经网络的计算机视觉技术构建识别模型,实现对智能监控摄像头所获取的实时监控图像中的目标进行检测和识别,对目标进行检测和识别可通过预设的图像数据集进行训练后的识别模型进行实现,基于训练后的识别模型对实时监控图像中的目标进行检测和识别。
目前对识别模型进行训练均是采用包含若干张图像组成图像数据集进行训练,图像数据集中的图像均是常规拍摄所采集的图像,而现实应用中外界环境通常存在很多变化因素,例如白天到夜晚的变换、雨雪天气、大雾天气、摄像头相对高度和拍摄角度引起的视角变化等,由此训练得到的识别模型无法在现实应用适应众多变化因素,导致识别模型的识别效率及识别准确率不高,因此现实应用中应用效果较差。因此,现有的技术方法中的训练方法所训练得到的图像识别模型存在无法适应变化因素的问题。
发明内容
本发明实施例提供了一种图像识别模型训练方法、装置、计算机设备及存储介质,旨在解决现有的训练方法所训练得到的图像识别模型存在无法适应变化因素的问题。
第一方面,本发明实施例提供了一种图像识别模型训练方法,其包括:
接收到用户所输入的图像数据集及扰动生成规则,根据预置的识别模型及所述扰动生成规则生成与所述图像数据集中每一初始图像对应的一张扰动图像;其中,所述扰动生成规则包括定位损失计算公式、交叉熵损失计算公式、扰动迭代计算公式;
根据每一所述扰动图像对应的扰动类别及预设数量,从每一所述扰动类别中获取所述预设数量的扰动图像并生成与每一所述扰动类别对应的扰动样式;
根据预置的变换参数集合及多个所述扰动样式对所述图像数据集进行样式迁徙以得到对应的训练图像集;
采用所述训练图像集及所述定位损失计算公式、所述交叉熵损失计算公式及预存的梯度计算公式对所述识别模型进行训练,以得到训练后的所述识别模型。
第二方面,本发明实施例提供了一种图像识别模型训练装置,其包括:
扰动图像生成单元,用于接收到用户所输入的图像数据集及扰动生成规则,根据预置的识别模型及所述扰动生成规则生成与所述图像数据集中每一初始图像对应的一张扰动图像;其中,所述扰动生成规则包括定位损失计算公式、交叉熵损失计算公式、扰动迭代计算公式;
扰动样式生成单元,用于根据每一所述扰动图像对应的扰动类别及预设数量,从每一所述扰动类别中获取所述预设数量的扰动图像并生成与每一所述扰动类别对应的扰动样式;
训练图像集获取单元,用于根据预置的变换参数集合及多个所述扰动样式对所述图像数据集进行样式迁徙以得到对应的训练图像集;
识别模型训练单元,用于采用所述训练图像集及所述定位损失计算公式、所述交叉熵损失计算公式及预存的梯度计算公式对所述识别模型进行训练,以得到训练后的所述识别模型。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的图像识别模型训练方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的图像识别模型训练方法。
本发明实施例提供了一种图像识别模型训练方法、装置、计算机设备及存储介质。根据识别模型及扰动生成规则生成与图像数据集中每一初始图像对应的一张扰动图像,根据预设数据集每一扰动图像的扰动类别生成与每一扰动类别对应的扰动样式,根据变换参数集合及扰动样式对初始图像进行样式迁徙得到训练图像集,根据训练图像集对识别模型进行梯度训练。通过上述方法,采用样式迁徙方式可极大扩充训练图像集中训练图像的数量,且训练图像集中的训练图像可覆盖各种变化因素,通过所得的训练图像集对识别模型进行训练,可大幅提升识别模型在各种变化因素环境下的识别效率及准确率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的图像识别模型训练方法的流程示意图;
图2为本发明实施例提供的图像识别模型训练方法的子流程示意图;
图3为本发明实施例提供的图像识别模型训练方法的另一子流程示意图;
图4为本发明实施例提供的图像识别模型训练方法的另一子流程示意图;
图5为本发明实施例提供的图像识别模型训练方法的另一子流程示意图;
图6为本发明实施例提供的图像识别模型训练方法的另一子流程示意图;
图7为本发明实施例提供的图像识别模型训练方法的另一子流程示意图;
图8为本发明实施例提供的图像识别模型训练装置的示意性框图;
图9为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1是本发明实施例提供的图像识别模型训练方法的流程示意图,该图像识别模型训练方法应用于用户终端中,该方法通过安装于用户终端中的应用软件进行执行,用户终端即是用于执行图像识别模型训练方法以对待训练的图像识别模型进行训练的终端设备,例如企业终端、工作站、台式电脑、笔记本电脑、平板电脑或手机等。如图1所示,该方法包括步骤S110~S140。
S110、接收到用户所输入的图像数据集及扰动生成规则,根据预置的识别模型及所述扰动生成规则生成与所述图像数据集中每一初始图像对应的一张扰动图像;其中,所述扰动生成规则包括定位损失计算公式、交叉熵损失计算公式、扰动迭代计算公式。
接收到用户所输入的图像数据集及扰动生成规则,根据预置的识别模型及所述扰动生成规则生成与所述图像数据集中每一初始图像对应的一张扰动图像。其中,所述扰动生成规则包括定位损失计算公式、交叉熵损失计算公式、扰动迭代计算公式及迭代次数。图像数据集即为用户所输入的包含多张尺寸相同的初始图像的数据集,用户即是用户终端的使用者,图像数据集中所包含的每一张初始图像均对应包含至少一个目标检测框,以及每一目标检测框所对应的目标类型信息,目标检测框即为对初始图像中物体进行检测识别后所得到的目标检测框,每一物体对应一个目标检测框,目标检测框可为一个矩形框;目标类型信息即为对目标检测框内所包含的物体进行识别后所得到的分类信息,目标类型信息即为一个目标检测框所对应的一个具体分类标签。例如某一张初始图像中包含熊猫和竹子,则“熊猫”和“竹子”在该初始图像中的相应区域分别对应一个目标检测框,目标检测框对应的目标类型信息分别为“熊猫”和“竹子”,图像数据集中初始图像的目标检测框及目标类型信息可采用人工方式添加得到。
识别模型即为对初始图像进行识别以获取该初始图像中所包含物体的检测框及检测类型信息的神经网络模型,检测框的数量与初始图像的目标检测框的数量相等,识别模型中包含多个参数值。扰动生成规则即为根据图像数据集中的初始图像生成相应扰动图像的具体规则信息,定位损失计算公式即是计算同一初始图像的目标检测框与检测框之间定位损失的计算公式,交叉熵损失即是公式即是计算同一初始图像的目标类型信息与检测类型信息之间交叉熵的计算公式,迭代次数即是对初始图像进行扰动迭代处理的次数信息。
在一实施例中,如图2所示,步骤S110包括子步骤S111、S112、S113、S114、S115和S116。
S111、将所述图像数据集中的一张初始图像作为目标图像;S112、根据所述识别模型、所述定位损失计算公式、所述扰动迭代计算公式及所述迭代次数对所述目标图像进行扰动迭代得到对应的第一迭代图像。
根据所述识别模型、所述定位损失计算公式、所述扰动迭代计算公式及所述迭代次数对所述目标图像进行扰动迭代得到对应的第一迭代图像。
在一实施例中,如图3所示,步骤S112包括子步骤S1121、S1122、S1123、S1124、S1125、S1126和S1127。
S1121、根据识别模型对所述目标图像进行识别以获取与所述目标图像对应的检测框;S1122、根据所述定位损失计算公式计算所述目标图像的每一检测框与对应目标检测框之间的定位损失;S1123、计算所述定位损失相对于目标图像对应的初始图像的定位梯度值;S1124、根据所述扰动迭代计算公式及所述定位梯度值对所述目标图像进行一次扰动迭代;S1125、判断扰动迭代的次数是否不小于所述迭代次数;S1126、若不小于,将进行扰动迭代后的所述目标图像作为第一迭代图像;S1127、若小于,将进行扰动迭代后的所述目标图像输入所述识别模型并返回执行所述根据识别模型对所述目标图像进行识别以获取与所述目标图像对应的检测框的步骤,也即是返回执行步骤S1121。
具体的,初始图像x所包含的目标检测框的集合可采用
Figure GDA0004114697600000071
集合进行表示,初始图像中的目标检测框可以为一个或多个,/>
Figure GDA0004114697600000072
集合中的一个目标检测框可表示为B1=(a,b,w,h),a、b表示该目标检测框中左上角的一个像素点在初始图像x中的横坐标及纵坐标,w表示该目标检测框的宽度,h表示该目标检测框的高度。初始图像x中每一目标检测框对应的目标类型信息的集合可采用/>
Figure GDA0004114697600000073
集合进行表示,一个目标检测框仅对应一个目标类型信息,识别模型中所包含的参数值可采用θ集合进行表示,将该初始图像x作为目标图像/>
Figure GDA0004114697600000074
通过识别模型对目标图像/>
Figure GDA0004114697600000075
进行识别后得到的检测框的集合可采用B'集合进行表示,B'集合中的一个目标检测框可表示为B'1=(a,b,w,h),B'集合中每一检测框与识别模型中多个分类标签的匹配概率可采用向量P进行表示,向量P中包含与多个维度之间的匹配概率值,P={p0,p1,…,pn},n为识别模型中的第n个分类标签,pn为某一检测框中物体与第n个分类标签的匹配概率值;B'集合中所有检测框对应的向量P即组合成为集合Py,集合Py也即是对目标图像
Figure GDA0004114697600000081
进行识别后所得到的检测类型信息。目标图像的第一个检测框与对应的一个目标检测框之间的定位损失可采用定位损失计算公式Lbox=L(x,B'1,B1;θ)进行计算,定位损失计算公式可采用SmoothL1 loss损失公式,若目标图像包含多个检测框,则可对目标图像的多个检测框与对应的多个目标检测框之间的定位损失进行叠加,则可表示为/>
Figure GDA0004114697600000082
Figure GDA0004114697600000083
t为目标图像中所包含检测框的数量。计算定位损失相对于目标图像对应的初始图像的定位梯度值可表示为/>
Figure GDA0004114697600000084
其中,gbox为定位损失/>
Figure GDA0004114697600000089
对该目标图像的初始图像x的偏导值,gbox为与初始图像x尺寸相同的图像,gbox中包含多个像素,每一像素均包含一个与该像素位置对应的梯度值,对目标图像/>
Figure GDA0004114697600000085
进行一次扰动迭代可采用扰动迭代计算公式/>
Figure GDA0004114697600000086
进行表示,/>
Figure GDA0004114697600000087
为进行一次扰动迭代后新生成的目标图像,该公式会为/>
Figure GDA0004114697600000088
中的每个像素增加或减少∈,其中,∈为该公式中预设的扰动系数;sign(gnox)表示对gbox中每一像素的梯度值进行计算,若像素的梯度值为正,则该像素的计算结果为“+1”,若像素的梯度值为负,则该像素的计算结果为“-1”。例如,上述包含熊猫的目标图像,根据上述扰动迭代计算公式进行一次迭代后所得到的图像是在目标图像的部分像素上叠加了一个人肉眼不易觉察的扰动。根据上述方法对目标图像进行多次扰动迭代,当扰动迭代次数等于预设的迭代次数后,将所扰动迭代后所得到的目标图像作为对应的第一迭代图像。
S113、根据所述识别模型、所述交叉熵损失计算公式、所述扰动迭代计算公式及所述迭代次数对所述目标图像进行扰动迭代得到对应的第二迭代图像。
根据所述识别模型、所述交叉熵损失计算公式、所述扰动迭代计算公式及所述迭代次数对所述目标图像进行扰动迭代得到对应的第二迭代图像。具体的步骤包括:a.根据识别模型对所述目标图像进行识别以获取与所述目标图像对应的检测框及检测类型信息;b.根据所述交叉熵损失计算公式计算所述目标图像的每一检测类型信息与对应目标类型信息之间的交叉熵损失;c.计算所述交叉熵损失相对于目标图像对应的初始图像的交叉熵梯度值;d.根据所述扰动迭代计算公式及所述交叉熵梯度值对所述目标图像进行一次扰动迭代;e.判断扰动迭代的次数是否不小于所述迭代次数;f.若不小于,将进行扰动迭代后的所述目标图像作为第二迭代图像;g.若小于,将进行扰动迭代后的所述目标图像输入所述识别模型并返回执行所述根据识别模型对所述目标图像进行识别以获取与所述目标图像对应的检测框及检测类型信息的步骤,也即是返回执行上述步骤a。
具体的,初始图像x所包含的目标检测框的集合可采用
Figure GDA0004114697600000091
集合进行表示,对应的目标类型信息的集合可采用/>
Figure GDA0004114697600000092
集合进行表示,/>
Figure GDA0004114697600000093
集合中包含每一目标检测框所对应的一个具体分类标签,识别模型中所包含的参数值可采用θ集合进行表示,将该初始图像x作为目标图像/>
Figure GDA0004114697600000094
通过识别模型对目标图像/>
Figure GDA0004114697600000095
进行识别后得到的检测框的集合可采用B'集合进行表示,对应的检测类型信息可采用Py集合进行表示。目标图像的第一个检测框所对应的一个目标检测框的目标类型信息为v,则目标图像第一个检测框对应检测类型信息的分类标签的匹配概率为p1v,对第一个检测框的检测类型信息与对应目标类型信息之间的交叉熵损失可采用交叉熵损失计算公式Lcls=L(x,p1v,y1;θ)进行计算,交叉熵损失计算公式可采用CrossEntropyLoss损失公式,若目标图像包含多个检测框,则可对目标图像的多个检测框对应的多个检测类型信息与对应的多个目标类型信息之间的交叉熵损失进行叠加,则可表示为/>
Figure GDA0004114697600000101
t为目标图像中所包含检测框的数量。计算交叉熵损失相对于目标图像对应的初始图像的交叉熵梯度值可表示为
Figure GDA0004114697600000102
其中,gcls为交叉熵损失/>
Figure GDA0004114697600000103
对该目标图像的初始图像x的偏导值,gcls为与初始图像x尺寸相同的图像,gcls中包含多个像素,每一像素均包含一个与该像素位置对应的梯度值,对目标图像/>
Figure GDA0004114697600000104
进行一次扰动迭代可采用扰动迭代计算公式/>
Figure GDA0004114697600000105
进行表示,/>
Figure GDA0004114697600000106
为进行一次扰动迭代后新生成的目标图像,具体计算方式与上述方式相同。根据上述方法对目标图像进行多次扰动迭代,当扰动迭代次数等于预设的迭代次数后,将所扰动迭代后所得到的目标图像作为对应的第二迭代图像。
S114、根据所述定位损失计算公式计算所述第一迭代图像与所述目标图像之间的定位损失值。
根据所述定位损失计算公式计算所述第一迭代图像与所述目标图像之间的定位损失值。具体的,根据识别模型再次获取第一迭代图像对应的检测框及检测类型信息,根据定位损失计算公式、第一迭代图像的检测框及该目标图像的目标检测框计算得到对应的定位损失值,具体计算方式与上述计算方式相同,在此不作赘述。
S115、根据所述交叉熵损失计算公式计算所述第二迭代图像与所述目标图像之间的交叉熵损失值。
根据所述交叉熵损失计算公式计算所述第二迭代图像与所述目标图像之间的交叉熵损失值。具体的,根据识别模型再次获取第二迭代图像对应的检测框及检测类型信息,根据交叉熵损失计算公式、第二迭代图像的检测类型信息及该目标图像的目标类型信息计算得到对应的交叉熵损失值,具体计算方法付与上述计算方式相同,在此不作赘述。
S116、将所述定位损失值及所述交叉熵损失值中较大的数值对应的迭代图像作为与所述目标图像对应的扰动图像。
将所述定位损失值及所述交叉熵损失值中较大的数值对应的迭代图像作为与所述目标图像对应的扰动图像。具体的,对所得到的定位损失值与交叉熵损失值进行比较,若定位损失值较大,则选择第一迭代图像作为与该目标图像对应的扰动图像;若交叉熵损失值较大,则选择第二迭代图像作为与该目标图像对应的扰动图像;若两者相等,则从第一迭代图像及第二迭代图像中随机选择一个迭代图像作为与目标图像对应的扰动图像。
S120、根据每一所述扰动图像对应的扰动类别及预设数量,从每一所述扰动类别中获取所述预设数量的扰动图像并生成与每一所述扰动类别对应的扰动样式。
根据每一所述扰动图像对应的扰动类别及预设数量,从每一所述扰动类别中获取预设数量的扰动图像并生成与每一扰动类别对应的扰动样式。图像数据集中还包括与每一初始图像均对应的一个扰动类别,则所得到的每一扰动图像也对应一个扰动类别,扰动类别即为采集初始图像时对应扰动因素的类别信息,例如,扰动类型可以是光线较暗、雨雪天气、大雾天气、摄像头相对高度较低、摄像头相对高度较高、摄像头角度偏转等。可根据扰动图像对应的扰动类别对所得到的扰动图像进行分类,并根据预设数量获取每一扰动类别中的多张扰动图像,生成与每一扰动类别对应的扰动样式。扰动样式即为采用数值化方式对扰动类别对应的扰动因素进行记录的信息,所生成的一个扰动样式即是可一个扰动类别的特征进行综合表示。
在一实施例中,如图4所示,步骤S120包括子步骤S121、S122和S123。
S121、根据每一所述扰动图像对应的扰动类别对所述扰动图像进行分类以得到所述扰动图像的分类结果。
根据每一所述扰动图像对应的扰动类别对所述扰动图像进行分类以得到所述扰动图像的分类结果。获取每一扰动图像的扰动类别,并根据扰动类别对所有扰动图像进行分类,以得到对应的分类结果。则分类结果中包含与每一扰动类别对应的多张扰动图像。
S122、根据所述扰动图像的分类结果,从每一所述扰动类别包含的扰动图像中分别获取与所述预设数量相等的多张扰动图像。
根据所述扰动图像的分类结果,从每一所述扰动类别包含的扰动图像中分别获取与所述预设数量相等的多张扰动图像。从每一扰动类别中分别获取与预设数量相等的多张扰动图像,例如,若预设数量为5,则从每一扰动类别中分别获取5张扰动图像。
S123、获取每一所述扰动类别中的扰动图像与相应初始图像之间的差值以生成与每一所述扰动类别对应的扰动样式。
获取每一所述扰动类别中的扰动图像与相应初始图像之间的差值以生成与每一所述扰动类别对应的扰动样式。根据每一扰动类别所包含的扰动图像,以及每一扰动类别所包含扰动图像对应的初始图像,计算每一扰动类别中扰动图像与相应初始图像之间的差值,即可生成与每一扰动类别对应的扰动样式。
在一实施例中,如图5所示,步骤S123包括子步骤S1231和S1232。
S1231、计算每一所述扰动类别中每一扰动图像与对应的一张初始图像之间的像素差值;S1232、计算每一所述扰动类别中所有扰动图像的像素差值的平均值以得到与每一所述扰动类别对应的扰动样式。
具体的,扰动图像中包含多个像素,每一像素在RGB对应的红(R)、绿(G)、蓝(B)三个颜色通道上分别对应一个像素值,像素值均采用非负整数进行表示,其取值范围为[0,255],与扰动图像对应的初始图像的尺寸与该扰动图像相同,分别计算一张扰动图像中每一像素与对应的一张初始图像在RGB三个颜色通道上的像素差值,像素差值可以为正整数、零或负整数,进行综合后即可得到该扰动图像与对应初始图像之间的像素差值。对同一扰动类别中所包含的多张扰动图像的像素差值进行平均,即可得到同一扰动类别中所有扰动图像的像素差值的平均值,也即是得到该扰动类别对应的扰动样式。
S130、根据预置的变换参数集合及多个所述扰动样式对所述图像数据集进行样式迁徙以得到对应的训练图像集。
根据预置的变换参数集合及多个所述扰动样式对所述图像数据集进行样式迁徙以得到对应的训练图像集。具体的,所述变换参数集合包括水平位移参数集合、垂直位移参数集合及偏转角度参数集合。变换参数集合即为用户终端中预先存储的数据集合,可从变换参数集合中随机获取多个参数组合,从多个扰动样式中随机选取一个扰动样式,通过一个参数组合结合一个扰动样式对图像数据集中的初始图像进行样式迁徙操作,得到对应的训练图像集。
在一实施例中,如图6所示,步骤S130包括子步骤S131、S132和S133。
S131、分别从所述水平位移参数集合、垂直位移参数集合及偏转角度参数集合中随机获取一个水平位移参数、一个垂直位移参数及一个偏转角度参数作为一个参数组合;S132、根据所述参数组合及每一所述扰动样式对所述图像数据集中的一张初始图像进行样式迁徙以得到对应的多张样式迁徙图像;S133、获取每一初始图像对应的多张样式迁徙图像进行组合得到所述训练图像集。
分别从所述水平位移参数集合、垂直位移参数集合及偏转角度参数集合中随机获取一个水平位移参数、一个垂直位移参数及一个偏转角度参数作为一个参数组合。例如,水平位移参数集合中包括-5p(p ixel像素)、-1p及3p三个水平位移参数,垂直位移参数集合中包括-4p、-1p及2p三个垂直位移参数,偏转角度参数集合中包括-20°、-5°及10°三个偏转角度参数,随机选择得到的一个参数组合为:水平位移参数3p、垂直位移参数-4p及偏转角度参数-5°。根据所得到的一个参数组合及一个扰动样式,对图像数据集中的一张初始图像进行样式迁徙得到对应的一张样式迁徙图像,具体的,先根据参数组合对初始图像进行平移及旋转,再通过扰动样式对进行平移及旋转后的初始图像中每一像素的像素值进行调整,即可得到对应的一张样式迁徙图像,可将扰动样式中每一像素的像素值与进行平移及旋转后的初始图像中相应像素的像素值进行累加,将所得到的得到该添加扰动样式的图像作为对应的样式迁徙图像。则同一参数组合分别与不同扰动样式相组合对一张初始图像分别进行样式迁徙,可得到与该初始图像对应的多张样式迁徙图像,将每一初始图像对应的多张样式迁徙图像进行组合即可得到训练图像集,训练图像集中的每一张图像也可称为训练图像。采用这一样式迁徙方式可极大扩充训练图像集中训练图像的数量,且训练图像集中的训练图像可覆盖各种变化因素,通过所得的训练图像集对识别模型进行训练,可大幅提升识别模型的识别效率及准确率。
S140、采用所述训练图像集及所述定位损失计算公式、所述交叉熵损失计算公式及预存的梯度计算公式对所述识别模型进行训练,以得到训练后的所述识别模型。
采用所述训练图像集及所述定位损失计算公式、所述交叉熵损失计算公式及预存的梯度计算公式对所述识别模型进行训练,以得到训练后的所述识别模型。其中,训练图像集的每一训练图像中还添加有与生成该训练图像对应的初始图像的目标检测框及目标类型信息。采用所得到的训练图像集并结合上述定位损失计算公式、上述交叉熵损失计算公式及梯度计算公式即可对识别模型进行训练,对识别模型进行训练即为对其中的参数值进行调整,由于训练图像集中的训练图像可覆盖各种变化因素,通过对识别模型进行迭代训练后,即可大幅升识别模型在各种变化因素环境下的识别效率及准确率。
在一实施例中,如图7所示,步骤S140包括子步骤S141、S142、S143、S144、S145和S146。
S141、获取所述训练图像集中的一张训练图像作为目标训练图像。
获取所述训练图像集中的一张训练图像作为目标训练图像。具体的,将一张训练图像作为目标训练图像输入识别模型,可对该识别模型进行一次训练,通常情况下需依次获取多张训练图像分别对识别模型进行多次迭代训练,得到迭代训练后的识别模型,此处仅以获取一张训练图像对识别模型训练的过程进行说明。
S142、根据所述识别模型对所述目标训练图像进行识别以获取对应的检测框及检测类型信息;S143、根据所述定位损失计算公式计算所述目标训练图像的每一检测框与对应目标检测框之间的定位损失值;S144、根据所述交叉熵损失计算公式计算所述目标训练图像的每一检测类型信息与对应目标类型信息之间的交叉熵损失值。
对目标训练图像进行识别、计算定位损失值及交叉熵损失值的过程与上述获取过程相同,可参考上述的具体获取过程,在此不作赘述。
S145、将所述定位损失值与所述交叉熵损失值相加以得到所述目标训练图像的损失值。
将所得到的定位损失值与交叉熵损失值相加,所得到的计算结果即为目标训练图像的损失值,也即是
Figure GDA0004114697600000161
则所得到的损失值Lz可从两个方面对识别模型的识别结果进行综合体现。/>
S146、根据所述梯度计算公式、所述损失值及所述识别模型的计算值计算得到所述识别模型中每一参数的更新值。
具体的,将识别模型中一个参数对目标训练图像进行计算所得到的计算值输入梯度计算公式,并结合上述损失值,即可计算得到与该参数对应的更新值,这一计算过程也即为梯度下降计算。可根据所计算得到的每一参数的更新值对该参数的原始参数值进行更新,对识别模型中的所有参数进行一次更新也即是对识别模型进行了一次训练,可根据上述过程对识别模型进行多次迭代训练。
具体的,梯度计算公式可表示为:
Figure GDA0004114697600000162
其中,/>
Figure GDA0004114697600000163
为计算得到的参数r的更新值,ωr为参数r的原始参数值,γ为梯度计算公式中预置的学习率,/>
Figure GDA0004114697600000164
为基于损失值及参数r对应的计算值对该参数r的偏导值(这一计算过程中需使用该参数对应的计算值)。
本申请中的技术方法可应用于智慧政务/智慧城管/智慧社区/智慧安防/智慧物流/智慧医疗/智慧教育/智慧环保/智慧交通等包含图像识别的应用场景中,从而推动智慧城市的建设。
在本发明实施例所提供的图像识别模型训练方法中,根据识别模型及扰动生成规则生成与图像数据集中每一初始图像对应的一张扰动图像,根据预设数据集每一扰动图像的扰动类别生成与每一扰动类别对应的扰动样式,根据变换参数集合及扰动样式对初始图像进行样式迁徙得到训练图像集,根据训练图像集对识别模型进行梯度训练。通过上述方法,采用样式迁徙方式可极大扩充训练图像集中训练图像的数量,且训练图像集中的训练图像可覆盖各种变化因素,通过所得的训练图像集对识别模型进行训练,可大幅升识别模型在各种变化因素环境下的识别效率及准确率。
本发明实施例还提供一种图像识别模型训练装置,该图像识别模型训练装置用于执行前述图像识别模型训练方法的任一实施例。具体地,请参阅图8,图8是本发明实施例提供的图像识别模型训练装置的示意性框图。该图像识别模型训练装置可以配置于用户终端中。
如图8所示,图像识别模型训练装置100包括扰动图像生成单元110、扰动样式生成单元120、训练图像集获取单元130和识别模型训练单元140。
扰动图像生成单元110,由于接收到用户所输入的图像数据集及扰动生成规则,根据预置的识别模型及所述扰动生成规则生成与所述图像数据集中每一初始图像对应的一张扰动图像;其中,所述扰动生成规则包括定位损失计算公式、交叉熵损失计算公式、扰动迭代计算公式。
在一实施例中,所述扰动图像生成单元110包括子单元:目标图像获取单元、第一迭代图像获取单元、第二迭代图像获取单元、定位损失值获取单元、交叉熵损失值获取单元及扰动图像确定单元。
目标图像获取单元、用于将所述图像数据集中的一张初始图像作为目标图像;第一迭代图像获取单元、用于根据所述识别模型、所述定位损失计算公式、所述扰动迭代计算公式及所述迭代次数对所述目标图像进行扰动迭代得到对应的第一迭代图像;第二迭代图像获取单元、用于根据所述识别模型、所述交叉熵损失计算公式、所述扰动迭代计算公式及所述迭代次数对所述目标图像进行扰动迭代得到对应的第二迭代图像;定位损失值获取单元、用于根据所述定位损失计算公式计算所述第一迭代图像与所述目标图像之间的定位损失值;交叉熵损失值获取单元,用于根据所述交叉熵损失计算公式计算所述第二迭代图像与所述目标图像之间的交叉熵损失值;扰动图像确定单元,用于将所述定位损失值及所述交叉熵损失值中较大的数值对应的迭代图像作为与所述目标图像对应的扰动图像。
在一实施例中,所述第一迭代图像获取单元包括子单元:检测框获取单元、定位损失计算单元、定位梯度值计算单元、扰动迭代单元、判断单元、第一迭代图像确定单元及返回执行单元。
检测框获取单元,用于根据识别模型对所述目标图像进行识别以获取与所述目标图像对应的检测框;定位损失计算单元,用于根据所述定位损失计算公式计算所述目标图像的每一检测框与对应目标检测框之间的定位损失;定位梯度值计算单元,用于计算所述定位损失相对于目标图像对应的初始图像的定位梯度值;扰动迭代单元,用于根据所述扰动迭代计算公式及所述定位梯度值对所述目标图像进行一次扰动迭代;判断单元,用于判断扰动迭代的次数是否不小于所述迭代次数;第一迭代图像确定单元,用于若不小于,将进行扰动迭代后的所述目标图像作为第一迭代图像;返回执行单元,用于若小于,将进行扰动迭代后的所述目标图像输入所述识别模型并返回执行所述根据识别模型对所述目标图像进行识别以获取与所述目标图像对应的检测框的步骤。
扰动样式生成单元120,用于根据每一所述扰动图像对应的扰动类别及预设数量,从每一所述扰动类别中获取所述预设数量的扰动图像并生成与每一所述扰动类别对应的扰动样式。
在一实施例中,所述扰动样式生成单元120包括子单元:扰动图像分类单元、图像获取单元及图像差值计算单元。
扰动图像分类单元,用于根据每一所述扰动图像对应的扰动类别对所述扰动图像进行分类以得到所述扰动图像的分类结果;图像获取单元,用于根据所述扰动图像的分类结果,从每一所述扰动类别包含的扰动图像中分别获取与所述预设数量相等的多张扰动图像;图像差值计算单元,用于获取每一所述扰动类别中的扰动图像与相应初始图像之间的差值以生成与每一所述扰动类别对应的扰动样式。
在一实施例中,所述图像差值计算单元包括子单元:像素差值计算单元及平均值计算单元。
像素差值计算单元,用于计算每一所述扰动类别中每一扰动图像与对应的一张初始图像之间的像素差值;平均值计算单元,用于计算每一所述扰动类别中所有扰动图像的像素差值的平均值以得到与每一所述扰动类别对应的扰动样式。
训练图像集获取单元130,用于根据预置的变换参数集合及多个所述扰动样式对所述图像数据集进行样式迁徙以得到对应的训练图像集。
在一实施例中,所述训练图像集获取单元130包括子单元:参数组合获取单元、迁徙图像获取单元及迁徙图像组合单元。
参数组合获取单元,用于分别从所述水平位移参数集合、垂直位移参数集合及偏转角度参数集合中随机获取一个水平位移参数、一个垂直位移参数及一个偏转角度参数作为一个参数组合;迁徙图像获取单元,用于根据所述参数组合及每一所述扰动样式对所述图像数据集中的一张初始图像进行样式迁徙以得到对应的多张样式迁徙图像;迁徙图像组合单元,用于获取每一初始图像对应的多张样式迁徙图像进行组合得到所述训练图像集。
识别模型训练单元140,采用所述训练图像集及所述定位损失计算公式、所述交叉熵损失计算公式及预存的梯度计算公式对所述识别模型进行训练,以得到训练后的所述识别模型。
在一实施例中,所述识别模型训练单元140包括子单元:目标训练图像获取单元、定位损失值获取单元、交叉熵损失值获取单元、损失值获取单元及更新值计算单元。
目标训练图像获取单元,用于获取所述训练图像集中的一张训练图像作为目标训练图像;目标训练图像识别单元,用于根据所述识别模型对所述目标训练图像进行识别以获取对应的检测框及检测类型信息;定位损失值获取单元,用于根据所述定位损失计算公式计算所述目标训练图像的每一检测框与对应目标检测框之间的定位损失值;交叉熵损失值获取单元,用于根据所述交叉熵损失计算公式计算所述目标训练图像的每一检测类型信息与对应目标类型信息之间的交叉熵损失值;损失值获取单元,用于将所述定位损失值与所述交叉熵损失值相加以得到所述目标训练图像的损失值;更新值计算单元,用于根据所述梯度计算公式、所述损失值及所述识别模型的计算值计算得到所述识别模型中每一参数的更新值。
在本发明实施例所提供的图像识别模型训练装置应用上述图像识别模型训练方法,根据识别模型及扰动生成规则生成与图像数据集中每一初始图像对应的一张扰动图像,根据预设数据集每一扰动图像的扰动类别生成与每一扰动类别对应的扰动样式,根据变换参数集合及扰动样式对初始图像进行样式迁徙得到训练图像集,根据训练图像集对识别模型进行梯度训练。通过上述方法,采用样式迁徙方式可极大扩充训练图像集中训练图像的数量,且训练图像集中的训练图像可覆盖各种变化因素,通过所得的训练图像集对识别模型进行训练,可大幅升识别模型在各种变化因素环境下的识别效率及准确率。
上述图像识别模型训练装置可以实现为计算机程序的形式,该计算机程序可以在如图9所示的计算机设备上运行。
请参阅图9,图9是本发明实施例提供的计算机设备的示意性框图。该计算机设备可以是用于执行图像识别模型训练方法以完成对图像识别模型进行训练的用户终端。
参阅图9,该计算机设备500包括通过***总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作***5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行图像识别模型训练方法。
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行图像识别模型训练方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图9中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现上述的图像识别模型训练方法中对应的功能。
本领域技术人员可以理解,图9中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图9所示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现上述的图像识别模型训练方法中所包含的步骤。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种图像识别模型训练方法,应用于用户终端中,其特征在于,包括:
接收到用户所输入的图像数据集及扰动生成规则,根据预置的识别模型及所述扰动生成规则生成与所述图像数据集中每一初始图像对应的一张扰动图像;其中,所述扰动生成规则包括定位损失计算公式、交叉熵损失计算公式、扰动迭代计算公式;
根据每一所述扰动图像对应的扰动类别及预设数量,从每一所述扰动类别中获取所述预设数量的扰动图像并生成与每一所述扰动类别对应的扰动样式;
根据预置的变换参数集合及多个所述扰动样式对所述图像数据集进行样式迁徙以得到对应的训练图像集;
采用所述训练图像集及所述定位损失计算公式、所述交叉熵损失计算公式及预存的梯度计算公式对所述识别模型进行训练,以得到训练后的所述识别模型;
其中,所述扰动生成规则还包括迭代次数,所述图像数据集中每一初始图像均对应包含至少一个目标检测框以及与每一所述目标检测框所对应的目标类型信息,所述根据预置的识别模型及所述扰动生成规则生成与所述图像数据集中每一初始图像对应的一张扰动图像,包括:将所述图像数据集中的一张初始图像作为目标图像;根据所述识别模型、所述定位损失计算公式、所述扰动迭代计算公式及所述迭代次数对所述目标图像进行扰动迭代得到对应的第一迭代图像;根据所述识别模型、所述交叉熵损失计算公式、所述扰动迭代计算公式及所述迭代次数对所述目标图像进行扰动迭代得到对应的第二迭代图像;根据所述定位损失计算公式计算所述第一迭代图像与所述目标图像之间的定位损失值;根据所述交叉熵损失计算公式计算所述第二迭代图像与所述目标图像之间的交叉熵损失值;将所述定位损失值及所述交叉熵损失值中较大的数值对应的迭代图像作为与所述目标图像对应的扰动图像;
其中,所述根据每一所述扰动图像对应的扰动类别及预设数量,从每一所述扰动类别中获取所述预设数量的扰动图像并生成与每一所述扰动类别对应的扰动样式,包括:根据每一所述扰动图像对应的扰动类别对所述扰动图像进行分类以得到所述扰动图像的分类结果;根据所述扰动图像的分类结果,从每一所述扰动类别包含的扰动图像中分别获取与所述预设数量相等的多张扰动图像;获取每一所述扰动类别中的扰动图像与相应初始图像之间的差值以生成与每一所述扰动类别对应的扰动样式。
2.根据权利要求1所述的图像识别模型训练方法,其特征在于,所述根据所述识别模型、所述定位损失计算公式、所述扰动迭代计算公式及所述迭代次数对所述目标图像进行扰动迭代得到对应的第一迭代图像,包括:
根据所述识别模型对所述目标图像进行识别以获取与所述目标图像对应的检测框;
根据所述定位损失计算公式计算所述目标图像的每一检测框与对应目标检测框之间的定位损失;
计算所述定位损失相对于目标图像对应的初始图像的定位梯度值;
根据所述扰动迭代计算公式及所述定位梯度值对所述目标图像进行一次扰动迭代;
判断扰动迭代的次数是否不小于所述迭代次数;
若扰动迭代的次数不小于所述迭代次数,将进行扰动迭代后的所述目标图像作为第一迭代图像;
若扰动迭代的次数小于所述迭代次数,将进行扰动迭代后的所述目标图像输入所述识别模型,并返回执行所述根据识别模型对所述目标图像进行识别以获取与所述目标图像对应的检测框的步骤。
3.根据权利要求2所述的图像识别模型训练方法,其特征在于,所述获取每一所述扰动类别中的扰动图像与相应初始图像之间的差值以生成与每一所述扰动类别对应的扰动样式,包括:
计算每一所述扰动类别中每一扰动图像与对应的一张初始图像之间的像素差值;
计算每一所述扰动类别中所有扰动图像的像素差值的平均值以得到与每一所述扰动类别对应的扰动样式。
4.根据权利要求1所述的图像识别模型训练方法,其特征在于,所述变换参数集合包括水平位移参数集合、垂直位移参数集合及偏转角度参数集合,所述根据预置的变换参数集合及多个所述扰动样式对所述图像数据集进行样式迁徙以得到对应的训练图像集,包括:
分别从所述水平位移参数集合、垂直位移参数集合及偏转角度参数集合中随机获取一个水平位移参数、一个垂直位移参数及一个偏转角度参数作为一个参数组合;
根据所述参数组合及每一所述扰动样式对所述图像数据集中的一张初始图像进行样式迁徙以得到对应的多张样式迁徙图像;
获取每一初始图像对应的多张样式迁徙图像进行组合得到所述训练图像集。
5.根据权利要求1所述的图像识别模型训练方法,其特征在于,所述训练图像集中每一训练图像均对应包含至少一个目标检测框以及与每一所述目标检测框所对应的目标类型信息,所述采用所述训练图像集及所述定位损失计算公式、所述交叉熵损失计算公式及预存的梯度计算公式对所述识别模型进行训练,以得到训练后的所述识别模型,包括:
获取所述训练图像集中的一张训练图像作为目标训练图像;
根据所述识别模型对所述目标训练图像进行识别以获取对应的检测框及检测类型信息;
根据所述定位损失计算公式计算所述目标训练图像的每一检测框与对应目标检测框之间的定位损失值;
根据所述交叉熵损失计算公式计算所述目标训练图像的每一检测类型信息与对应目标类型信息之间的交叉熵损失值;
将所述定位损失值与所述交叉熵损失值相加以得到所述目标训练图像的损失值;
根据所述梯度计算公式、所述损失值及所述识别模型的计算值计算得到所述识别模型中每一参数的更新值。
6.一种图像识别模型训练装置,其特征在于,包括:
扰动图像生成单元,用于接收到用户所输入的图像数据集及扰动生成规则,根据预置的识别模型及所述扰动生成规则生成与所述图像数据集中每一初始图像对应的一张扰动图像;其中,所述扰动生成规则包括定位损失计算公式、交叉熵损失计算公式、扰动迭代计算公式;
扰动样式生成单元,用于根据每一所述扰动图像对应的扰动类别及预设数量,从每一所述扰动类别中获取所述预设数量的扰动图像并生成与每一所述扰动类别对应的扰动样式;
训练图像集获取单元,用于根据预置的变换参数集合及多个所述扰动样式对所述图像数据集进行样式迁徙以得到对应的训练图像集;
识别模型训练单元,用于采用所述训练图像集及所述定位损失计算公式、所述交叉熵损失计算公式及预存的梯度计算公式对所述识别模型进行训练,以得到训练后的所述识别模型;
其中,所述扰动生成规则还包括迭代次数,所述图像数据集中每一初始图像均对应包含至少一个目标检测框以及与每一所述目标检测框所对应的目标类型信息;
所述扰动图像生成单元包括子单元:目标图像获取单元、第一迭代图像获取单元、第二迭代图像获取单元、定位损失值获取单元、交叉熵损失值获取单元及扰动图像确定单元;目标图像获取单元、用于将所述图像数据集中的一张初始图像作为目标图像;第一迭代图像获取单元、用于根据所述识别模型、所述定位损失计算公式、所述扰动迭代计算公式及所述迭代次数对所述目标图像进行扰动迭代得到对应的第一迭代图像;第二迭代图像获取单元、用于根据所述识别模型、所述交叉熵损失计算公式、所述扰动迭代计算公式及所述迭代次数对所述目标图像进行扰动迭代得到对应的第二迭代图像;定位损失值获取单元、用于根据所述定位损失计算公式计算所述第一迭代图像与所述目标图像之间的定位损失值;交叉熵损失值获取单元,用于根据所述交叉熵损失计算公式计算所述第二迭代图像与所述目标图像之间的交叉熵损失值;扰动图像确定单元,用于将所述定位损失值及所述交叉熵损失值中较大的数值对应的迭代图像作为与所述目标图像对应的扰动图像;
所述扰动样式生成单元包括子单元:扰动图像分类单元、图像获取单元及图像差值计算单元;扰动图像分类单元,用于根据每一所述扰动图像对应的扰动类别对所述扰动图像进行分类以得到所述扰动图像的分类结果;图像获取单元,用于根据所述扰动图像的分类结果,从每一所述扰动类别包含的扰动图像中分别获取与所述预设数量相等的多张扰动图像;图像差值计算单元,用于获取每一所述扰动类别中的扰动图像与相应初始图像之间的差值以生成与每一所述扰动类别对应的扰动样式。
7.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的图像识别模型训练方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至5任一项所述的图像识别模型训练方法。
CN202010688303.2A 2020-07-16 2020-07-16 图像识别模型训练方法、装置、计算机设备及存储介质 Active CN111582410B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010688303.2A CN111582410B (zh) 2020-07-16 2020-07-16 图像识别模型训练方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010688303.2A CN111582410B (zh) 2020-07-16 2020-07-16 图像识别模型训练方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN111582410A CN111582410A (zh) 2020-08-25
CN111582410B true CN111582410B (zh) 2023-06-02

Family

ID=72111265

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010688303.2A Active CN111582410B (zh) 2020-07-16 2020-07-16 图像识别模型训练方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111582410B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112200004B (zh) * 2020-09-15 2024-01-16 深圳市优必选科技股份有限公司 图像检测模型的训练方法、装置及终端设备
CN113378994B (zh) * 2021-07-09 2022-09-02 浙江大学 一种图像识别方法、装置、设备及计算机可读存储介质
CN113806613B (zh) * 2021-09-29 2023-07-25 中国平安人寿保险股份有限公司 训练图像集生成方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019232772A1 (en) * 2018-06-08 2019-12-12 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for content identification
CN110782421A (zh) * 2019-09-19 2020-02-11 平安科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
CN111008640A (zh) * 2019-10-17 2020-04-14 平安科技(深圳)有限公司 图像识别模型训练及图像识别方法、装置、终端及介质
CN111291841A (zh) * 2020-05-13 2020-06-16 腾讯科技(深圳)有限公司 图像识别模型训练方法、装置、计算机设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019232772A1 (en) * 2018-06-08 2019-12-12 Beijing Didi Infinity Technology And Development Co., Ltd. Systems and methods for content identification
CN110782421A (zh) * 2019-09-19 2020-02-11 平安科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
CN111008640A (zh) * 2019-10-17 2020-04-14 平安科技(深圳)有限公司 图像识别模型训练及图像识别方法、装置、终端及介质
CN111291841A (zh) * 2020-05-13 2020-06-16 腾讯科技(深圳)有限公司 图像识别模型训练方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN111582410A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
Touati et al. An energy-based model encoding nonlocal pairwise pixel interactions for multisensor change detection
EP3614308B1 (en) Joint deep learning for land cover and land use classification
CN108509859B (zh) 一种基于深度神经网络的无重叠区域行人跟踪方法
CN111582410B (zh) 图像识别模型训练方法、装置、计算机设备及存储介质
CN108986140B (zh) 基于相关滤波和颜色检测的目标尺度自适应跟踪方法
US10019652B2 (en) Generating a virtual world to assess real-world video analysis performance
Yin et al. Hot region selection based on selective search and modified fuzzy C-means in remote sensing images
CN108830145B (zh) 一种基于深度神经网络的人数统计方法及存储介质
US9025880B2 (en) Visual saliency estimation for images and video
Hoberg et al. Conditional random fields for multitemporal and multiscale classification of optical satellite imagery
CN110119438B (zh) 基于主动学习的机载LiDAR点云滤波方法
Doucette et al. Automated road extraction from high resolution multispectral imagery
CN110781836A (zh) 人体识别方法、装置、计算机设备及存储介质
CN109871875B (zh) 一种基于深度学习的建筑物变化检测方法
CN110689043A (zh) 一种基于多重注意力机制的车辆细粒度识别方法及装置
CN103400151A (zh) 一体化的光学遥感影像与gis自动配准与水体提取方法
Gleason et al. A Fusion Approach for Tree Crown Delineation from Lidar Data.
Majidi et al. Modular interpretation of low altitude aerial images of non-urban environment
Pradhan et al. Data mining-aided automatic landslide detection using airborne laser scanning data in densely forested tropical areas
Ye et al. An image-based approach for automatic detecting tasseling stage of maize using spatio-temporal saliency
CN109784171A (zh) 车辆定损图像筛选方法、装置、可读存储介质及服务器
CN114627073B (zh) 地形识别方法、装置、计算机设备和存储介质
Abujayyab et al. Integrating object-based and pixel-based segmentation for building footprint extraction from satellite images
CN112347879B (zh) 一种针对视频运动目标的主题挖掘及行为分析方法
Cong et al. Unsupervised self-adaptive deep learning classification network based on the optic nerve microsaccade mechanism for unmanned aerial vehicle remote sensing image classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant