CN112307991A - 一种图像识别方法、装置及存储介质 - Google Patents

一种图像识别方法、装置及存储介质 Download PDF

Info

Publication number
CN112307991A
CN112307991A CN202011214381.5A CN202011214381A CN112307991A CN 112307991 A CN112307991 A CN 112307991A CN 202011214381 A CN202011214381 A CN 202011214381A CN 112307991 A CN112307991 A CN 112307991A
Authority
CN
China
Prior art keywords
image
target
neural network
deep neural
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011214381.5A
Other languages
English (en)
Inventor
薛晗庆
潘红九
陈政
王晓天
王斌
李凯
赵翔宇
赵媛心
窦小明
陈超
尹琼
底亚峰
雷净
刘萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Near Space Vehicles System Engineering
Original Assignee
Beijing Institute of Near Space Vehicles System Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Near Space Vehicles System Engineering filed Critical Beijing Institute of Near Space Vehicles System Engineering
Priority to CN202011214381.5A priority Critical patent/CN112307991A/zh
Publication of CN112307991A publication Critical patent/CN112307991A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种图像识别方法、装置及存储介质,用于降低漏检率,提升目标检测的准确度。本申请公开的图像识别方法包括:读取待处理图像,对所述待处理图像进行预处理,得到第一图像;加载深度神经网络的权重系数;将所述第一图像输入所述深度神经网络,进行识别目标的预测,得到预测结果;根据所述预测结果,在待处理图像中绘制识别目标。本申请还提供了一种图像识别装置及存储介质。

Description

一种图像识别方法、装置及存储介质
技术领域
本申请涉及信息处理领域,尤其涉及一种图像识别方法、装置和存储介质。
背景技术
随着计算机视觉技术的发展,目标检测技术被越来越广泛地应用到生产生活中,伴随应用领域扩展,工程应用中对目标检测准确度要求越来越高,尤其是航空航天领域,传统的目标检测方法无法满足其高精度要求。现有技术中,仅给出了目标在图像中外接矩形边框,在目标较为稀疏的情况下,此类方法能准确地给出目标位置信息,然而在目标密集的情况下,检测定位框中出现区域重叠,目标外接框中会纳入其他目标像素,造成目标分类和定位准确度显著降低。
发明内容
针对上述技术问题,本申请实施例提供了一种图像识别方法、装置及存储介质,用以提高目标识别的准确性,降低漏检率。
第一方面,本申请实施例提供的一种图像识别方法,包括:
读取待处理图像,对所述待处理图像进行预处理,得到第一图像;
加载深度神经网络的权重系数;
将所述第一图像输入所述深度神经网络,进行识别目标的预测,得到预测结果;
根据所述预测结果,在待处理图像中绘制识别目标;
其中所述识别目标的预测内容包括以下之一或者组合:
目标类别;
目标矩形框的位置;
目标像素级别的位置信息。
优选的,所述深度神经网络的权重系数通过以下方法确定:
生成图像数据集;
构建深度神经网络;
将所述图像数据集输入所述深度神经网络进行训练,得到所述深度神经网络的权重系数。
优选的,所述生成图像数据集包括:
采集训练图像;
生成所述训练图像的注释信息;
所述注释信息包括目标位置信息标注,目标掩码标注,目标类别标注。
优选的,所述构建深度神经网络包括:
对所述图像数据集进行预处理,得到第二图像;
对所述第二图像进行数据增强处理,得到第三图像;
将所述第三图像输入所述深度神经网络,对所述第三图像进行候选特征选取,ROI区域生成,边框回归和掩码生成。
进一步的,所述对所述图像数据集进行预处理包括:
去除图像中随机噪声;
去除图像中频域内噪声;
增加图像对比度。
进一步的,所述数据增强处理包括:
读取数据增强配置信息,所述增强配置信息用于表示是否进行相应的增强处理,若是则进行相应的增强处理,否则不进行相应的增强处理;
根据所述增强配置信息,对所述第二图像进行增强处理;
所述增强处理包括:
对图像进行旋转;
对图像进行裁剪;
对图像进行翻转;
对图像进行镜像;
对图像进行缩放;
在图像中加入随机噪声。
优选的,所述将所述图像数据集输入所述深度神经网络进行训练,得到所述深度神经网络的权重系数包括:
读取超参数和尺度缩放参数;
求解所述深度神经网络各单元隐层数据,实现前向传播;
通过误差反向传递更新权重;
若网络输出值和期望输出值之间的误差在预定的区间内,则训练结束,并保存所述权重系数;
其中,所述超参数包括:学习率、迭代次数和收敛误差区间。
优选的,所述将所述第一图像输入所述深度神经网络,还包括:
对所述第一图像进行预处理;
所述预处理包括:
去除图像中随机噪声;
去除图像中频域内噪声;
增加图像对比度。
优选的,所述在待处理图像中绘制识别目标包括:
在待处理图像中绘制目标矩形位置框、目标类别标签、以及目标像素级位置信息。
优选的,所述进行识别目标的预测,得到预测结果包括:
确定各隐藏层和输出层的输入;
从所述输出层获取目标的类别信息标签;
从所述输出层获取目标的边框信息bbox;
从所述输出层获取目标的掩码信息,所述目标掩码信息用于表示像素级位置信息;
求所述掩码信息的外接矩形R;
计算所述R与所述bbox的重叠区域,若所述重叠区域占所述R和所述bbox区域之和的比例大于预设门限,则训练结束并将所述重叠区域作为目标的最终区域坐标,否则求所述R与所述bbox的并集矩形区,得到目标的最终的=区域坐标。
通过本发明的方法,在现有技术基础上,增加了目标像素级位置信息,实现目标精准定位,提升了目标识别的准确度,通过目标像素区域外接矩形纠正了模型预测目标的矩形位置。同时,本发明的方法,深度神经网络算法在训练过程中考虑了目标实际尺寸,实现了多尺度网络训练,从而降低目标漏检率。
第二方面,本申请实施例还提供一种图像识别装置,包括:
数据集构建模块,用于采集训练图像,生成所述训练图像的注释信息,所述注释信息包括目标位置信息标注,目标掩码标注,目标注释文件;
算法训练模块,用于根据所述数据构建模块输出的图像,生成深度神经网络的权重系数;
算法测试模块,用于根据所述权重系数,预测待处理图像中的目标。
优选的,所述数据集构建模块包括:
图像采集模块,用于采集训练图像;
数据标注模块,用于标注目标位置信息,目标掩码,生成目标注释文件。
优选的,所述算法训练模块包括:
第一预处理模块,用于对图像进行预处理;
图像增强模块,用于对图像进行增强处理;
深度神经网络构建模块,用于构建深度卷积神经网络;
深度神经网络训练模块,用于对图像进行训练,形成权重系数。
优选的,所述算法测试模块包括:
第二预处理模块,用于对图像进行预处理;
深度卷积神经网络测试模块,用于根据所述第二预处理模块的输出图像,对目标进行预测。
第三方面,本申请实施例还提供一种图像识别装置,包括:存储器、处理器和用户接口;
所述存储器,用于存储计算机程序;
所述用户接口,用于与用户实现交互;
所述处理器,用于读取所述存储器中的计算机程序,所述处理器执行所述计算机程序时,实现本发明提供的图像识别方法。
第四方面,本申请实施例还提供一种处理器可读存储介质,所述处理器可读存储介质存储有计算机程序,所述处理器执行所述计算机程序时实现本发明提供的图像识别方法。
通过本发明提供的图像识别方法、装置和存储介质,可实现多尺度网络训练,降低目标的漏检率,增加了目标像素级位置信息,通过目标像素区域外接矩形纠正了模型预测目标矩形位置,实现目标精准定位,提升了目标识别的准确度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的图像识别方法示意图;
图2为本申请实施例提供的权重系数确定流程示意图;
图3为本申请实施例提供的图像数据标注流程示意图;
图4为本申请实施例提供的图像增强处理流程示意图;
图5为本申请实施例提供的神经网络构建流程示意图一;
图6为本申请实施例提供的神经网络构建流程示意图二;
图7为本申请实施例提供的神经网络训练流程示意图一;
图8为本申请实施例提供的神经网络训练流程示意图二;
图9为本申请实施例提供的算法测试流程示意图;
图10为本申请实施例提供的图像识别装置模块组成示意图;
图11为本申请实施例提供的数据集构建模块组成示意图;
图12为本申请实施例提供的算法训练模块组成示意图;
图13为本申请实施例提供的算法测试模块组成示意图;
图14为本申请实施例提供的另一种图像识别装置结构示意图;
图15为本申请实施例提供的像素级位置示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
下面对文中出现的一些词语进行解释:
1、本发明实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
2、本申请实施例中术语“多个”是指两个或两个以上,其它量词与之类似。
现有的目标检测方法,仅给出了目标在图像中外接矩形边框,在目标较为稀疏的情况下,此类方法能准确地给出目标位置信息,然而在目标密集的情况下,检测定位框中出现区域重叠,目标外接框中会纳入其他目标像素,造成目标分类和定位准确度显著降低。此外,区别于现有数据集中的对象,实际工程应用里待检测目标往往是复杂的。例如,航天器工件裂纹检测任务中,裂纹往往是狭长或者网状延伸的,目标占图像的比率极低,而裂纹外接矩形中大部分像素均为图像背景。若使用本发明的像素级分割识别技术,裂纹所在像素级别将会完整地从背景中分离,识别结果突破了矩形区域限制,最大限度地降低了背景区域或其他目标像素的干扰,从而提升了检测的准确度。此外,现有面向矩形区域预测算法,未实现多尺度下训练,无法满足目标多尺度下识别。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例的展示顺序仅代表实施例的先后顺序,并不代表实施例所提供的技术方案的优劣。
实施例一
参见图1,本申请实施例提供的一种图像识别方法示意图,如图所示,该方法包括步骤S101到S104:
S101,读取待处理图像,对所述待处理图像进行预处理,得到第一图像;
S102,加载深度神经网络的权重系数;
S103,将所述第一图像输入所述深度神经网络,进行识别目标的预测,得到预测结果;
S104,根据所述预测结果,在待处理图像中绘制识别目标。
需要说明的是,所述识别目标的预测内容包括以下之一或者组合:目标类别,目标矩形框的位置或目标像素级别的位置信息。
本实施例的方法,先对待处理图像进行预处理,预处理后的图像作为深度神经网络算法输入。深度神经网络算法加载已训练完成的权重系数,进行图像目标的预测,预测信息有包括以下之一或者组合:目标类别、目标矩形位置框和目标像素级类别位置信息。预测完成后,在待处理图像中绘制识别目标,绘制的内容包括:图像目标矩形位置框、目标类别标签、以及目标像素级位置信息。
需要说明的是,本发明中所述的像素级位置信息是指图像中位置信息利用隶属于目标的像素集合来表示。如图15所示,对于飞机目标彩色像素联通区域即其像素级位置信息。虚线框表示目标位置信息的普通表示方式,一般以元组形式如(目标左上角横坐标x,目标左上角纵坐标y,目标宽度w,目标高度h)。
本发明实施例中,在通过深度神经网络进行目标预测之前,需确定深度神经网络的权重系数,即S102中加载深度神经网络的权重系数,是已确定的。作为一种优选示例,深度神经网络的权重系数通过以下方法确定,如图2所示:
S201,生成图像数据集;
S202,构建深度神经网络;
S203,将所述图像数据集输入所述深度神经网络进行训练,得到所述深度神经网络的权重系数。
作为一种优选示例,步骤S201中,生成图像数据集包括:
采集训练图像;
生成所述训练图像的注释信息;
所述注释信息包括目标位置信息标注,目标掩码标注,目标类别标注。
本实施例中,作为一种优选示例,生成所述训练图像的注释信息的方法如图3所示:
S301,读入源数据。本步骤中,读入源数据或者存放文件的目录,获取文件名、文件后缀等信息;
S302,判断数据源是否为视频,若是则执行S303,否则执行S306。上述读入的源数据是否为视频数据,可通过匹配文件后缀名完成判断,后缀如果是视频文件格式(例如mp4或者avi)则说明源数据为视频数据;
S303,视频解码。读入视频源数据,调用视频解码器将视频文件解码为视频流数据;
S304,视频解帧。将解码后的视频流数据进行帧解析,得到每一帧的视频数据;
S305,设置视频读取频率。设置帧截取频率,按照截取频率从解帧后的视频数据中获取图像;
S306,存储图像。创建一个文件(例如命名为dataset),将按S305设定的频率解帧得到图像(当源数据为视频时)或者存储在设备上的源图像(当源数据不是视频,是图像时),存储在文件夹里;
S307,获取图像数量。读取文件夹信息,包括文件夹名称、文件夹目录结构、包含的文件信息等,获取文件夹中图像文件的数量NUM;
S308,获取一张图像。读取文件夹中的一张图像到标注工具(例如via);
S309,标注目标矩形框。在标注工具中标注当前图像所包含目标的矩形位置信息,作为一种优选示例,可使用左上角坐标、目标高度、目标宽度等量来表示矩形位置;
S310,标注外形掩码。在标注工具中,使用多边形标注工具,标记目标的外形掩码;
S311,标注目标类别,目标类别是指某数据集内各类数据的标签信息,可以是字符串、数字或其他唯一编码。标注目标的类别标签信息。作为一种优选示例,还还可以标注目标是否可旋转、可裁剪;
S312,判断是否处理完毕所有图像,若处理完毕则执行S313,否则执行S308。如果已标注的图像数量等于NUM,那么表明图像标注工作已结束
S313,结束。标注结束时,生成图像标注注释文件,注释文件中包括目标位置信息标注,目标掩码标注,目标类别标注。
作为另一种优选示例,上述步骤S202中,构建深度神经网络的方法如图5所示,包括:
S501,对所述图像数据集进行预处理,得到第二图像;
S502,对所述第二图像进行数据增强处理,得到第三图像;
S503,将所述第三图像输入所述深度神经网络,对所述第三图像进行候选特征选取,ROI区域生成,边框回归和掩码生成。
作为一种优选示例,上述步骤S501中,预处理包括:去除图像中随机噪声,去除图像中频域内噪声,增加图像对比度。下面给出一个预处理的具体示例:
A1.读入数据集中的图像数据;
A2.使用高斯滤波器去除图像中随机噪声,使用中值滤波器去除椒盐噪声、使用双边滤波器去除其余噪声,得到滤波后图像blurImg;
A3.对blurImg进行快速傅里叶变换,将图像变换频域内,使用频域中值滤波器去除频域内噪声,处理完成后通过逆变换得到图像fftImg;
A4.统计fftImg的像素得到灰度分布直方图,将直方图归一化到0-1区间,使用归一化灰度直方图计算累积分布,使用量化公式计算原图和直方图均衡化后图像灰度变换关系f,将原图灰度值按照f进行计算并替换,得到图像histImg;
A5.定义图像对比增强函数F,将histImg输入到函数F中得到对比增强后的图像Fimg,预处理工作结束。
作为另一种优选示例,上述步骤S502中,数据增强处理过程包括:读取数据增强配置信息,所述增强配置信息用于表示是否进行相应的增强处理,若是则进行相应的增强处理,否则不进行相应的增强处理;
根据所述增强配置信息,对所述第二图像进行增强处理;
所述增强处理包括:
对图像进行旋转;
对图像进行裁剪;
对图像进行翻转;
对图像进行镜像;
对图像进行缩放;
在图像中加入随机噪声。
下面结合附图4,对上述增强处理过程进行描述。如图4所示,
S401,读取数据增强配置信息。作为一种优选示例,还读入已经预处理的图像及图像标注信息,从标注信息中读取图像名和对应图像名的标注信息;
S402,根据数据增强配置信息判断是否进行旋转。即判断标注信息中旋转信息字段是否为True,如果为否则执行步骤S404,如果为是则执行S403;
S403,目标旋转且标注释旋转变换。即对图像进行旋转,并标注该图片进行了旋转变换。作为一种优选示例,可生成一个开区间(0,360)之间的随机数R,以目标外接矩形的中心为旋转中心旋转R度,对应地按照变换关系计算旋转后图像标注信息,如矩形位置框坐标、图像像素级位置信息。
S404,根据数据增强配置信息判断是否进行裁剪。判断标注信息中裁剪信息字段是否为True,如果为否则执行S406,否则执行S405;
S405,目标裁剪且标注裁剪变换,即对图像进行裁剪处理,并标注该图片进行了裁剪变换。作为一种优选示例,获取目标左上角点(x,y),高度ht,宽度wt,获取图像高度h,宽度w,生成随机数Δw∈(0,w-wt),Δh∈(0,h-ht),获得剪裁区域左角点(x-Δw,y-Δh),裁剪区域宽度w+2Δw,裁剪区域高度h+2Δh,对应地按照变换关系计算旋转后图像标注信息,如矩形位置框坐标、图像像素级位置信息,得到目标裁剪后新生成的图像与注释;
S406,根据数据增强配置信息判断是否进行翻转,若是则执行步骤S407,否则执行S408;
S407,目标翻转且注释翻转变换。作为一种优选示例,翻转变换包括左右翻转或者上下翻转。
S408,根据数据增强配置信息判断是否进行镜像,若是则执行步骤S409,否则执行S410;
S409,目标镜像且注释镜像变换。
S410,根据数据增强配置信息判断是否进行缩放,若是则执行步骤S411,否则执行S412;
S411,目标缩放且注释缩放变换。将图像缩放形成新的图片,按照缩放变换关系生成新图片和注释信息;
S412,根据数据增强配置信息判断是否加入随机噪声,若是则执行步骤S413,否则执行S414;
S413,目标加入随机噪声且注释加入随机噪声变换。在图像中加入随机噪声,生成新图片和注释信息。
S414,结束。
经过上述S401到S414步骤后,完成对图片的增强处理。
作为另一种优选示例,上述步骤S503中,将所述第三图像输入所述深度神经网络,对所述第三图像进行候选特征选取,ROI区域生成,边框回归和掩码生成,具体方法如图6所示,包括:
S601.特征提取网络。将经过预处理和经过数据增强的图像及对应的注释文件输入特征提取网络;
S602.获取图像特征地图feature Map。特征提取网络经过卷积运算获得图像的feature Map;
S603.为图像特征地图feature Map中的每一个点设立图像区域ROI(Region ofInterest感兴趣区域);
S604.获取ROI区域的个数Num;
S605.选择一个ROI送入RPN(候选区域推荐网)网络。RPN网络生成一个候选目标区域;
S606.ROI二值化分类。ROI候选目标区域进行二值化分类,区分前景和背景;
S607.边框回归。对候选区域的边框进行回归;
S608.判断ROI已处理个数是否达到了NUM,若已达到则执行S609,否则执行S605。
S609.ROI过滤。根据ROI分类和边框回归结果,使用超参中设定的阈值进行ROI区域筛选过滤;
S610.获取筛选后ROI的个数M;
S611.选择一个ROI,即选择一个ROI区域进行多分类;
S612.ROI多分类。即对S611选择的ROI区域进行多分类;
S613.边框回归。对ROI区域的边框再次进行回归;
S614.掩码生成。对ROI区域内目标进行图像掩码生成,获取目标准确的像素级位置信息;
S615.判断已处理ROI个数是否达到M个,若是则执行S616,否则执行S611;
S616,结束。
作为另一种优选示例,上述步骤S203中,将所述图像数据集输入所述深度神经网络进行训练,得到所述深度神经网络的权重系数的方法如图7所示,包括:
S701,读取超参数和尺度缩放参数;
S702,求解所述深度神经网络各单元隐层数据,实现前向传播;
S703,通过误差反向传递更新权重;
S704,若网络输出值和期望输出值之间的误差在预定的区间内,则训练结束,并保存所述权重系数;
其中,所述超参数包括:学习率、迭代次数和收敛误差区间。
下面结合附图8,对上述步骤S701到S704进行详细描述,如图8所示,包括:
S801.确定输入图像矩阵。读入预处理后的图像数据,并将其展开为神经网络张量;
S802.读取图像标注信息。读入图像标注文件,解析目标外接矩阵坐标;
S803.读取图像掩码信息。读取图像掩码标注信息,创建与图像等尺寸掩码图像,将目标区域填充为白色,背景填充为黑色;
S804.读取超参数和图像尺度数据。读取神经网络超参包括学习率、迭代次数、收敛误差区间等,同时读取图像尺度参数(例如大L、中M、小S);
S805.按照尺度缩放参数缩放图像;
S806.读取一批次数据。按照超参,图像批次数据构建一个批次训练数据,送入深度神经网络;
S807.求隐藏层、输出层的值。求神经网络各隐藏层、输出层的值;
S808.求表住值和实际输出的误差e。求神经网络输出层与标注信息的实际值之间的误差e;
S809.判断e是否在预设的误差区间内,若是则执行S813,否则执行S810.
S810.计算各层神经元误差;
S811.求误差梯度;
S812.使用误差梯度更新权重系数,跳转到步骤S806;
S813.与其他尺度集成。与其他尺度下深度神经网络模型集成;
S814,训练过程结束。
作为另一种优选示例,上述步骤S103中,将所述第一图像输入所述深度神经网络,还包括:对所述第一图像进行预处理;所述预处理包括:去除图像中随机噪声;去除图像中频域内噪声;增加图像对比度。
作为另一种优选示例,上述步骤S103中,进行识别目标的预测,得到预测结果,包括;
确定各隐藏层和输出层的输入;
从所述输出层获取目标的类别信息标签;
从所述输出层获取目标的边框信息bbox;
从所述输出层获取目标的掩码信息,所述目标掩码信息用于表示像素级位置信息;
求所述掩码信息的外接矩形R;
计算所述R与所述bbox的重叠区域,若所述重叠区域占所述R和所述bbox区域之和的比例大于预设门限,则训练结束并将所述重叠区域作为目标的最终区域坐标,否则求所述R与所述bbox的并集矩形区,得到目标的最终的区域坐标。
下面结合附图9,对上述进行识别目标的预测,得到预测结果的过程进行详细描述,如图9所示:
S901.确定输入图像矩阵。读入经过预处理的测试图像,并将其展开为神经网络张量,形成图像矩阵;将图像矩阵送入已加载训练完成模型的深度神经网络;
S902.求隐藏层和输出层输入,即求各隐藏层和输出层输入;
S903.获取目标类别信息。从输出层获取目标的类别信息标签;
S904.求目标类别边框信息bbox。从输出层获取目标的边框信息bbox;
S905.求目标的掩码信息。从输出层获取目标的掩码信息,即像素级位置信息;
S906.获取掩码外接矩形R,即求掩码外接矩形R;
S907.判断R与bbox重叠是否超过预设门限,若是则执行步骤S909,否则执行步骤S908。计算R与bbox的重叠区域,若大于预设门限,则目标外接矩形区域无需修正;作为一个优选示例,预设门限可以为90%,即R与bbox的重叠区域占R和bbox总区域的比例为90%。
S908.求R与bbox的并集矩形区,得到目标最终的区域坐标;本实施例中,R与bbox的并集矩形区是指
S909.结束。
本发明提出的图像识别方法,可进行多尺度像素级图像分割识别,通过设计神经网络架构,实现目标区域矩形坐标、目标类别、目标像素区域多任务识别,依托像素级分割识别算法的优势,有效地提升目标检测算法对目标区域识别的准确度,给出了目标像素级的分类信息,降低了部分复杂外形目标区域识别错误率,高效可靠地实现目标精准定位,从而提高实际工程应用中对目标检测算法高准确度的需求。
通过本发明的方法,为目标识别建立了多尺度多任务识别的处理流程,增加了目标像素级位置信息,实现目标精准定位,提升了目标识别的准确度,通过目标像素区域外接矩形纠正了模型预测目标矩形位置。同时考虑到目标实际尺寸,实现了多尺度网络训练,降低目标漏检率。
此外,本发明的方法,神经网络算法使用数据扩增技术,通过目标样本的旋转、翻转、剪裁、镜像、缩放、随机加入噪声等方式增加了样本的丰富程度,提高深度学习网络的泛化能力。
通过本发明的方法去,可显著提升目标检测的准确度,使用多尺度像素级图像分割识别方法,有效降低算法漏检率,进一步提高目标检测的效率,单次训练完成目标标签识别、目标位置矩形预测、目标像素级位置预测三种任务,使用像素级分割识别方法,精准确定了目标信息。
实施例二
基于同一个发明构思,本发明实施例还提供了一种图像识别装置,如图10所示,该装置包括:
数据集构建模块1001,用于采集训练图像,生成所述训练图像的注释信息,所述注释信息包括目标位置信息标注,目标掩码标注,目标注释文件;
算法训练模块1002,用于根据所述数据构建模块输出的图像,生成深度神经网络的权重系数;
算法测试模块1003,用于根据所述权重系数,预测待处理图像中的目标。
需要说明的是,实施例二提供的装置与实施例一提供的方法属于同一个发明构思,解决相同的技术问题,达到相同的技术效果,实施例二提供的装置能实现实施例一的所有方法,相同之处不再赘述。
作为一种优选示例,所述数据集构建模块1001,如图11所示,包括:
图像采集模块1101,用于采集训练图像;
数据标注模块1102,用于标注目标位置信息,目标掩码,生成目标注释文件。
需要说明的是,本实施例提供的数据标注模块1102,能实现图3所示的图像标注的的全部功能,解决相同技术问题,达到相同技术效果,在此不再赘述。
作为另一种优选示例,所述算法训练模块1002,如图12所示,包括:
第一预处理模块1201,用于对图像进行预处理;
图像增强模块1202,用于对图像进行增强处理;
深度神经网络构建模块1203,用于构建深度卷积神经网络;
深度神经网络训练模块1204,用于对图像进行训练,形成权重系数。、
需要说明的是,本实施例提供的第一预处理模块1201,能实现步骤S501所示的预处理的全部功能,解决相同技术问题,达到相同技术效果,在此不再赘述。
本实施例提供的图像增强模块1202,能实现图4所示的图像增强的全部功能,解决相同技术问题,达到相同技术效果,在此不再赘述。
本实施例提供的深度神经网络构建模块1203,能实现图5和图6所示的深度神经网络构建的全部功能,解决相同技术问题,达到相同技术效果,在此不再赘述。
本实施例提供的深度神经网络训练模块1204,能实现图7和图8所示的深度神经网络训练的全部功能,解决相同技术问题,达到相同技术效果,在此不再赘述。
作为另一种优选示例,所述算法测试模块1003,如图13所示,包括:
第二预处理模块1301,用于对图像进行预处理;
深度卷积神经网络测试模块1302,用于根据所述第二预处理模块的输出图像,对目标进行预测。
需要说明的是,本实施例提供的第二预处理模块1301,能实现步骤S501所示的预处理的全部功能,解决相同技术问题,达到相同技术效果,在此不再赘述。
本实施例提供的深度卷积神经网络测试模块1302,能实现图9所示的深度神经网络测试的全部功能,解决相同技术问题,达到相同技术效果,在此不再赘述。
实施例三
基于同一个发明构思,本发明实施例还提供了一种图像识别装置,如图14所示,该装置包括:
包括存储器1402、处理器1401和用户接口1403;
所述存储器1402,用于存储计算机程序;
所述用户接口1403,用于与用户实现交互;
所述处理器1401,用于读取所述存储器1402中的计算机程序,所述处理器1401执行所述计算机程序时,实现:
读取待处理图像,对所述待处理图像进行预处理,得到第一图像;
加载深度神经网络的权重系数;
将所述第一图像输入所述深度神经网络,进行识别目标的预测,得到预测结果;
根据所述预测结果,在待处理图像中绘制识别目标;
其中所述识别目标的预测内容包括以下之一或者组合:
目标类别;
目标矩形框的位置;
目标像素级别的位置信息。
其中,在图14中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器1401代表的一个或多个处理器和存储器1402代表的存储器的各种电路链接在一起。总线架构还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。处理器1401负责管理总线架构和通常的处理,存储器1402可以存储处理器1401在执行操作时所使用的数据。
处理器1401可以是CPU、ASIC、FPGA或CPLD,处理器1401也可以采用多核架构。
处理器1401执行存储器1402存储的计算机程序时,实现图1到图9所示的任一图像识别方法。
需要说明的是,实施例三提供的装置与实施例一提供的方法属于同一个发明构思,解决相同的技术问题,达到相同的技术效果,实施例三提供的装置能实现实施例一的所有方法,相同之处不再赘述。
本申请还提出一种处理器可读存储介质。其中,该处理器可读存储介质存储有计算机程序,所述处理器执行所述计算机程序时实现实现图1到图9所示的任一图像识别方法。
需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (16)

1.一种图像识别方法,其特征在于,包括:
读取待处理图像,对所述待处理图像进行预处理,得到第一图像;
加载深度神经网络的权重系数;
将所述第一图像输入所述深度神经网络,进行识别目标的预测,得到预测结果;
根据所述预测结果,在待处理图像中绘制识别目标;
其中所述识别目标的预测内容包括以下之一或者组合:
目标类别;
目标矩形框的位置;
目标像素级别的位置信息。
2.根据权利要求1所述的方法,其特征在于,所述深度神经网络的权重系数通过以下方法确定:
生成图像数据集;
构建深度神经网络;
将所述图像数据集输入所述深度神经网络进行训练,得到所述深度神经网络的权重系数。
3.根据权利要求2所述的方法,其特征在于,所述生成图像数据集包括:
采集训练图像;
生成所述训练图像的注释信息;
所述注释信息包括目标位置信息标注,目标掩码标注,目标类别标注。
4.根据权利要求2所述的方法,其特征在于,所述构建深度神经网络包括:
对所述图像数据集进行预处理,得到第二图像;
对所述第二图像进行数据增强处理,得到第三图像;
将所述第三图像输入所述深度神经网络,对所述第三图像进行候选特征选取,ROI区域生成,边框回归和掩码生成。
5.根据权利要求4所述的方法,其特征在于,所述对所述图像数据集进行预处理包括:
去除图像中随机噪声;
去除图像中频域内噪声;
增加图像对比度。
6.根据权利要求4所述的方法,其特征在于,所述数据增强处理包括:
读取数据增强配置信息,所述增强配置信息用于表示是否进行相应的增强处理,若是则进行相应的增强处理,否则不进行相应的增强处理;
根据所述增强配置信息,对所述第二图像进行增强处理;
所述增强处理包括:
对图像进行旋转;
对图像进行裁剪;
对图像进行翻转;
对图像进行镜像;
对图像进行缩放;
在图像中加入随机噪声。
7.根据权利要求2所述的方法,其特征在于,所述将所述图像数据集输入所述深度神经网络进行训练,得到所述深度神经网络的权重系数包括:
读取超参数和尺度缩放参数;
求解所述深度神经网络各单元隐层数据,实现前向传播;
通过误差反向传递更新权重;
若网络输出值和期望输出值之间的误差在预定的区间内,则训练结束,并保存所述权重系数;
其中,所述超参数包括:学习率、迭代次数和收敛误差区间。
8.根据权利要求1所述的方法,其特征在于,所述将所述第一图像输入所述深度神经网络,还包括:
对所述第一图像进行预处理;
所述预处理包括:
去除图像中随机噪声;
去除图像中频域内噪声;
增加图像对比度。
9.根据权利要求1所述的方法,其特征在于,所述在待处理图像中绘制识别目标包括:
在待处理图像中绘制目标矩形位置框、目标类别标签、以及目标像素级位置信息。
10.根据权利要求1所述的方法,其特征在于,所述进行识别目标的预测,得到预测结果包括:
确定各隐藏层和输出层的输入;
从所述输出层获取目标的类别信息标签;
从所述输出层获取目标的边框信息bbox;
从所述输出层获取目标的掩码信息,所述目标掩码信息用于表示像素级位置信息;
求所述掩码信息的外接矩形R;
计算所述R与所述bbox的重叠区域,若所述重叠区域占所述R和所述bbox区域之和的比例大于预设门限,则训练结束并将所述重叠区域作为目标的最终区域坐标,否则求所述R与所述bbox的并集矩形区,得到目标的最终的=区域坐标。
11.一种图像识别装置,其特征在于,包括:
数据集构建模块,用于采集训练图像,生成所述训练图像的注释信息,所述注释信息包括目标位置信息标注,目标掩码标注,目标注释文件;
算法训练模块,用于根据所述数据构建模块输出的图像,生成深度神经网络的权重系数;
算法测试模块,用于根据所述权重系数,预测待处理图像中的目标。
12.根据权利要求11所述的装置,其特征在于,所述数据集构建模块包括:
图像采集模块,用于采集训练图像;
数据标注模块,用于标注目标位置信息,目标掩码,生成目标注释文件。
13.根据权利要求11所述的装置,其特征在于,所述算法训练模块包括:
第一预处理模块,用于对图像进行预处理;
图像增强模块,用于对图像进行增强处理;
深度神经网络构建模块,用于构建深度卷积神经网络;
深度神经网络训练模块,用于对图像进行训练,形成权重系数。
14.根据权利要求11所述的装置,其特征在于,所述算法测试模块包括:
第二预处理模块,用于对图像进行预处理;
深度卷积神经网络测试模块,用于根据所述第二预处理模块的输出图像,对目标进行预测。
15.一种图像识别装置,其特征在于,包括存储器、处理器和用户接口;
所述存储器,用于存储计算机程序;
所述用户接口,用于与用户实现交互;
所述处理器,用于读取所述存储器中的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1到10之一所述的图像识别方法。
16.一种处理器可读存储介质,其特征在于,所述处理器可读存储介质存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至10之一所述的图像识别方法。
CN202011214381.5A 2020-11-04 2020-11-04 一种图像识别方法、装置及存储介质 Pending CN112307991A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011214381.5A CN112307991A (zh) 2020-11-04 2020-11-04 一种图像识别方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011214381.5A CN112307991A (zh) 2020-11-04 2020-11-04 一种图像识别方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN112307991A true CN112307991A (zh) 2021-02-02

Family

ID=74324762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011214381.5A Pending CN112307991A (zh) 2020-11-04 2020-11-04 一种图像识别方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112307991A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113034415A (zh) * 2021-03-23 2021-06-25 哈尔滨市科佳通用机电股份有限公司 一种铁路机车小部件图像扩增的方法
CN113436138A (zh) * 2021-03-31 2021-09-24 成都飞机工业(集团)有限责任公司 一种基于数字图像的航空结构件识别的图像预处理方法
CN114022759A (zh) * 2021-09-30 2022-02-08 北京临近空间飞行器***工程研究所 一种融合神经网络时空特性的空域有限像素目标检测***及方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109685776A (zh) * 2018-12-12 2019-04-26 华中科技大学 一种基于ct图像的肺结节检测方法及***
CN110200598A (zh) * 2019-06-12 2019-09-06 天津大学 一种大型养殖场体征异常禽类检测***及检测方法
CN110909756A (zh) * 2018-09-18 2020-03-24 苏宁 用于医学图像识别的卷积神经网络模型训练方法和装置
CN111046880A (zh) * 2019-11-28 2020-04-21 中国船舶重工集团公司第七一七研究所 一种红外目标图像分割方法、***、电子设备及存储介质
CN111091132A (zh) * 2020-03-19 2020-05-01 腾讯科技(深圳)有限公司 基于人工智能的图像识别方法、装置、计算机设备及介质
CN111754481A (zh) * 2020-06-23 2020-10-09 北京百度网讯科技有限公司 眼底图像识别方法、装置、设备以及存储介质
CN111881705A (zh) * 2019-09-29 2020-11-03 深圳数字生命研究院 数据处理、训练、识别方法、装置和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909756A (zh) * 2018-09-18 2020-03-24 苏宁 用于医学图像识别的卷积神经网络模型训练方法和装置
CN109685776A (zh) * 2018-12-12 2019-04-26 华中科技大学 一种基于ct图像的肺结节检测方法及***
CN110200598A (zh) * 2019-06-12 2019-09-06 天津大学 一种大型养殖场体征异常禽类检测***及检测方法
CN111881705A (zh) * 2019-09-29 2020-11-03 深圳数字生命研究院 数据处理、训练、识别方法、装置和存储介质
CN111046880A (zh) * 2019-11-28 2020-04-21 中国船舶重工集团公司第七一七研究所 一种红外目标图像分割方法、***、电子设备及存储介质
CN111091132A (zh) * 2020-03-19 2020-05-01 腾讯科技(深圳)有限公司 基于人工智能的图像识别方法、装置、计算机设备及介质
CN111754481A (zh) * 2020-06-23 2020-10-09 北京百度网讯科技有限公司 眼底图像识别方法、装置、设备以及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KAIMING HE等: "Mask R-CNN", 《ARXIV》, pages 1 - 12 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113034415A (zh) * 2021-03-23 2021-06-25 哈尔滨市科佳通用机电股份有限公司 一种铁路机车小部件图像扩增的方法
CN113436138A (zh) * 2021-03-31 2021-09-24 成都飞机工业(集团)有限责任公司 一种基于数字图像的航空结构件识别的图像预处理方法
CN113436138B (zh) * 2021-03-31 2023-07-21 成都飞机工业(集团)有限责任公司 一种基于数字图像的航空结构件识别的图像预处理方法
CN114022759A (zh) * 2021-09-30 2022-02-08 北京临近空间飞行器***工程研究所 一种融合神经网络时空特性的空域有限像素目标检测***及方法

Similar Documents

Publication Publication Date Title
Li et al. Improving semantic segmentation via decoupled body and edge supervision
CN112017189B (zh) 图像分割方法、装置、计算机设备和存储介质
CN114120102A (zh) 边界优化的遥感图像语义分割方法、装置、设备及介质
CN112307991A (zh) 一种图像识别方法、装置及存储介质
Baghersalimi et al. DermoNet: densely linked convolutional neural network for efficient skin lesion segmentation
Wong et al. Segmentation of additive manufacturing defects using U-net
CN111242852A (zh) 边界感知对象移除和内容填充
JP2022090633A (ja) 高解像度画像内の物体検出を改善するための方法、コンピュータ・プログラム製品、およびコンピュータ・システム
CN114612902A (zh) 图像语义分割方法、装置、设备、存储介质及程序产品
Yang et al. Semantic segmentation of bridge point clouds with a synthetic data augmentation strategy and graph-structured deep metric learning
CN112883926A (zh) 表格类医疗影像的识别方法及装置
Zhao et al. Region-based saliency estimation for 3D shape analysis and understanding
Su et al. Marvel: Raster gray-level manga vectorization via primitive-wise deep reinforcement learning
CN116434303A (zh) 基于多尺度特征融合的人脸表情捕捉方法、装置及介质
Nguyen et al. Combination of images and point clouds in a generative adversarial network for upsampling crack point clouds
Matejek et al. Synapse-aware skeleton generation for neural circuits
WO2022239216A1 (ja) 学習装置、学習方法、画像処理装置、及び画像処理方法
Bhattacharjya et al. A genetic algorithm for intelligent imaging from quantum-limited data
Yuan et al. Image matting trimap optimization by ant colony algorithm
Maye et al. Visualization, reconstruction, and integration of neuronal structures in digital brain atlases
Rajagopal et al. A hybrid Cycle GAN-based lightweight road perception pipeline for road dataset generation for Urban mobility
Agarwal et al. Comparing U-Net and mask R-CNN algorithms for deep learning-based segmentation of electron microscopy images containing cavities for nuclear reactor applications
Balu et al. Learning localized geometric features using 3d-cnn: An application to manufacturability analysis of drilled holes
Perbet et al. Homogeneous superpixels from Markov random walks
EP4095795A1 (en) Automated optical guide

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination