CN113807315A - 一种构建待识别对象识别模型的方法、装置、设备及介质 - Google Patents
一种构建待识别对象识别模型的方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN113807315A CN113807315A CN202111171015.0A CN202111171015A CN113807315A CN 113807315 A CN113807315 A CN 113807315A CN 202111171015 A CN202111171015 A CN 202111171015A CN 113807315 A CN113807315 A CN 113807315A
- Authority
- CN
- China
- Prior art keywords
- recognized
- picture
- identified
- graph
- sample picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000012549 training Methods 0.000 claims abstract description 47
- 238000013507 mapping Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 5
- 230000003321 amplification Effects 0.000 claims description 4
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 description 18
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000004927 fusion Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5838—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5854—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/587—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种构建待识别对象识别模型的方法、装置、设备及介质,方法包括:获取样本图片;针对所述样本图片中每一张带有待识别对象的样本图片,获取待识别对象图形在该样本图片中的第一位置坐标;针对每一张所述样本图片,将该样本图片输入待识别对象识别初始模型,得到待识别对象预测图形的第二位置坐标;基于待识别对象预测图形的第二位置坐标、待识别对象图形的第一位置坐标,对所述待识别对象识别初始模型进行训练,得到待识别对象识别模型。根据方法及装置,解决了现有技术中训练得到的待识别对象识别模型的识别精度不高的问题。
Description
技术领域
本申请涉及计算机信息技术领域,具体而言,涉及一种构建待识别对象识别模型的方法、装置、设备及介质。
背景技术
随着近年来自动化技术的蓬勃发展,对于图片的自动检测与自动识别的要求也越来越高。例如,交通标志作为道路设施的重要组成部分和道路交通信息的重要载体,其包含道路、车辆和路况等许多关键的交通信息,如限速提示、前方道路状况变化等,它可以为驾驶员提供道路信息,及时为驾驶员提供安全警告,以督促驾驶员谨慎驾驶,因此在自动驾驶领域对于交通标志的识别需要更快更精准。
在现有技术中有很多识别图片的方法,较为通用的是通过构建识别模型,通过将待识别图片输入识别模型,可以得到输入的待识别图片中是否包含想要的待识别对象。但该方法,在构建识别模型时,是通过将包含待识别对象的样本图片和不包含待识别对象的样本图片作为训练集,通过模型对输入的样本图片是否包含待识别对象的预测结果,与该样本图片是否包含待识别对象的实际结果进行比较,从而完成对待识别对象识别模型的训练,但由于仅依据样本图片是否包含待识别对象进行训练,使得训练得到的待识别对象识别模型的识别精度不高。
发明内容
有鉴于此,本申请的目的在于提供一种构建待识别对象识别模型的方法、装置、设备及介质,以解决现有技术中训练得到的待识别对象识别模型的识别精度不高的问题。
第一方面,本申请实施例提供了一种构建待识别对象识别模型的方法,所述方法包括:
获取样本图片;
针对所述样本图片中每一张带有待识别对象的样本图片,获取待识别对象图形在该样本图片中的第一位置坐标;
针对每一张所述样本图片,将该样本图片输入待识别对象识别初始模型,得到待识别对象预测图形的第二位置坐标;
基于待识别对象预测图形的第二位置坐标、待识别对象图形的第一位置坐标,对所述待识别对象识别初始模型进行训练,得到待识别对象识别模型。
进一步的,所述第一位置坐标为所述待识别对象在样本图片中的轮廓位置坐标,所述基于待识别对象预测图形的第二位置坐标、待识别对象图形的第一位置坐标,对所述待识别对象识别初始模型进行训练,包括:
若待识别对象预测图形对应的样本图片为未带有待识别对象的图片,调整所述待识别对象识别初始模型的训练参数,直至训练的待识别对象识别初始模型输出的待识别对象预测图形为空;
若待识别对象预测图形对应的样本图片为带有待识别对象的图片,从待识别对象预测图形中,获取待识别对象预测图形的第一像素点;
获取样本图片中标记为待识别对象的第一像素数,从待识别对象预测图形中,获取标记为待识别对象的第二像素数;
基于第一像素点的第二位置坐标以及该第一像素点对应的第一位置坐标,以及,第一像素数及第二像素数,计算损失值;
若损失值大于预先设置的损失阈值,调整所述待识别对象识别初始模型的训练参数,直至训练的待识别对象识别初始模型的损失值不大于所述损失阈值。
进一步的,所述方法还包括:
将获取的样本图片调整至所述待识别对象识别模型要求的输入图片尺寸;
对调整尺寸的所述样本图片进行数据增强处理,得到增强图片;
选取随机数的增强图片进行拼接,得到拼接图片;
将所述拼接图片调整至所述输入图片尺寸,获取调整尺寸的拼接图片中各待识别对象在该调整尺寸的拼接图片中的位置坐标;
根据所述调整尺寸的拼接图片对调整尺寸的所述样本图片进行扩充。
进一步的,所述数据增强包括:随机缩放、色域变化、翻转。
进一步的,所述数据增强包括随机放大,对调整尺寸的所述样本图片进行数据增强处理,得到增强图片,包括:
在调整尺寸的所述样本图片的周围添加附加条,得到带有附加条的增强图片。
进一步的,所述方法还包括:
获取待识别图片,将获取的待识别图片调整至所述待识别对象识别模型要求的输入图片尺寸;
将调整尺寸的待识别图片输入所述待识别对象识别模型,得到待识别对象图。
进一步的,所述待识别对象为交通标志,所述方法还包括:
查询预先设置的各交通标志模板图与交通标志类型的映射关系库,识别出所述待识别对象图的交通标志类型。
第二方面,本申请实施例提供了一种构建待识别对象识别模型的装置,所述装置包括:
样本图片获取模块,用于获取样本图片;
第一位置坐标获取模块,用于对所述样本图片中每一带有待识别对象的样本图片,获取待识别对象图形在该样本图片中的第一位置坐标;
第二位置坐标获取模块,针对每一样本图片,将该样本图片输入待识别对象识别初始模型,得到待识别对象预测图形的第二位置坐标;
待识别对象识别模型确定模块,用于基于待识别对象预测图形的第二位置坐标、待识别对象图形的第一位置坐标,对所述待识别对象识别初始模型进行训练,得到待识别对象识别模型。
第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的是构建待识别对象识别模型的方法的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的构建待识别对象识别模型的方法的步骤。
本申请实施例提供的构建待识别对象识别模型的方法及装置,首先获取样本图片;然后,针对所述样本图片中每一张带有待识别对象的样本图片,获取待识别对象图形在该样本图片中的第一位置坐标;针对每一张所述样本图片,将该样本图片输入待识别对象识别初始模型,得到待识别对象预测图形的第二位置坐标;最后,基于待识别对象预测图形的第二位置坐标、待识别对象图形的第一位置坐标,对所述待识别对象识别初始模型进行训练,得到待识别对象识别模型。
本申请实施例提供的构建待识别对象识别模型的方法及装置,在训练待识别对象识别初始模型时,利用待识别对象图形在样本图片中的位置坐标与在预测出的待识别对象预测图片中位置坐标对比,再利用像素标记进行对比,这样的训练方式基于坐标位置去训练模型,训练的精度更高更细,进一步的提高了得到的待识别对象识别模型预测的准确性。待识别对象识别模型预测的准确性越高,进一步的,识别出的待识别对象也更加准确。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种构建待识别对象识别模型的方法的流程图;
图2为本申请实施例提供的一种训练待识别对象识别初始模型的方法的流程图;
图3为本申请实施例提供的一种构建待识别对象识别模型的装置的结构示意图;
图4为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
随着近年来自动化技术的蓬勃发展,对于图片的自动检测与自动识别的要求也越来越高。例如,交通标志作为道路设施的重要组成部分和道路交通信息的重要载体,其包含道路、车辆和路况等许多关键的交通信息,如限速提示、前方道路状况变化等,它可以为驾驶员提供道路信息,及时为驾驶员提供安全警告,以督促驾驶员谨慎驾驶,因此在自动驾驶领域对于交通标志的识别需要更快更精准。
经研究发现,在现有技术中有很多识别待识别对象的方法,如基于颜色的检测、基于形状的检测、基于多特征融合的检测和基于候选区域的目标检测算法。但是,上述这几个方式也存在很多缺点。
基于颜色的检测方法分为两种,一种是RGB颜色模型方法,此方法直接对采集到的RGB图片分割,这样可以减少计算量,极大地提高了速度,满足了算法实时性要求,但是此方法也存在一定缺点,当交通标志所处的环境比较复杂时,交通标志可能会和背景噪声混合在一起,这时算法不能达到良好的检测效果;另一种是HSI颜色模型方法,HSI颜色空间具有光照不变等特性,所以鲁棒性较好,但是将RGB转换到HSI颜色空间具有一定的计算量,需要借助硬件处理来提高实时性。
基于形状的检测方法的基本思想是将图像划分为单元格并在该单元格内累积边缘方向的直方图,最后生成特征以通过组合直方图条目来描述对象。此方法具有旋转缩放不变性的优点,但是计算量太大。
基于多特征融合的检测方法结合了RGB和HIS颜色通道的信息,对交通标志进行分割。算法结合RGB和HIS彩色空间的分割结果,弥补了对HIS空间中S空间分割造成图像信息缺失的缺点,提高了检测的准确率,但是这种方法检测速度特别慢,无法满足实时应用的要求。
基于候选区域的目标检测算法包含丰富的特征层结构,用于精确的对象检测和语义分割,通过使用深度卷积神经网络对对象提议进行分类,实现了出色的对象检测精度,但这种方法的检测速度很慢,因为它重复提取并存储每个候选区域的特征,花费了大量的计算时间和存储资源。
无论是基于颜色、基于形状、基于多特征融合还是基于候选区域的待识别对象检测方法,都有对应的识别模型,在现有技术中,对这些模型进行训练时,基本都是利用整个待识别图片来进行识别模型的训练,例如基于整个待识别对象的颜色或者基于整个待识别对象的形状来训练识别模型。但是这种训练方式的精度并不高,进而得到的识别模型预测的精准度也不高,在识别待识别对象时可能会出现识别错误的情况,当这种识别精准度不高的模型应用到自动驾驶领域时,不仅会向自动驾驶车辆发送错误的识别信号,还很可能会由于识别出错误的交通标志而造成车祸,存在较大的安全隐患。
基于此,本申请实施例提供了一种构建待识别对象识别模型的方法,以解决现有技术中训练得到的待识别对象识别模型的识别精度不高的问题,提高训练得到的待识别对象识别模型的识别精度。
请参阅图1,图1为本申请实施例所提供的一种构建待识别对象识别模型的方法的流程图。如图1中所示,本申请实施例提供的构建待识别对象识别模型的方法,包括:
S101,获取样本图片。
需要说明的是,样本图片指的是模型训练集中用于训练预测模型的每一个训练样本。样本图片既可以是带有待识别对象的图片,也可以是不带有待识别对象的图片。作为一种可选的实施方式,样本图片中可以是带有交通标志的图片,也可以是未带有交通标志的图片。交通标志是指用文字或符号传递引导、限制、警告或指示信息的道路设施。在交通标志中一般是以安全、设置醒目、清晰、明亮的交通标志是实施交通管理,保证道路交通安全、顺畅的重要措施。带有交通标志的样本图片中可以包含多种类型的交通标志,可用各种方式区分为:主要标志和辅助标志;可动式标志和固定式标志;照明标志、发光标志和反光标志;以及反映行车环境变化的可变信息标志。在获取到样本图片后,还需对样本图片中的交通标志进行识别。具体的,识别样本图片中的交通标志的方法有很多,例如,人工对样本图片进行识别,或者利用现有的基于颜色、基于形状、基于多特征融合、基于候选区域的目标检测算法进行交通标志识别。如何基于颜色、基于形状、基于多特征融合、基于候选区域的目标检测算法进行交通标志识别的技术方案在现有技术中有详细说明,在此不再过多赘述。作为一种可选的实施方式,所述样本图片可以是通过摄像头拍摄到的图片,也可以是用户上传的图片,对此本申请不做具体限制。
这里,应注意,上述对于样本图片的举例仅是示例,实际中,样本图片不限于上述例子。
在使用样本图片对待识别对象识别模型进行训练时,不同的样本图片的尺寸有可能并不相同,因此将获取到的样本图片的尺寸调整至同一尺寸,可以提高待识别对象识别模型的构建的速度。作为一个可选的实施方式,是通过以下步骤得到的样本图片:
步骤1011,将获取的样本图片调整至所述待识别对象识别模型要求的输入图片尺寸。
需要说明的是,待识别对象识别模型指的是用于识别图片中待识别对象的模型。输入图片尺寸指的是提前预设好的,待识别对象识别模型要求的图片的尺寸。
针对上述步骤1011,在具体实施时,将步骤S101获取到的样本图片调整至待识别对象识别模型要求的输入图片尺寸,以得到与输入图片尺寸相同的样本图片。判断所述样本图片的尺寸是否大于输入图片尺寸,若该样本图片的尺寸大于所述输入图片尺寸,则将该样本图片的尺寸缩小至所述输入图片尺寸,得到样本同尺寸图片。若该样本图片的尺寸小于所述输入图片尺寸,则在所述样本图片周围添加附加条,得到样本同尺寸图片,以使样本同尺寸图片的尺寸与输入图片尺寸相同。这里,附加条指的是在样本图片的正常画面外,在原样本图片四周多了一圈一样颜色的附加条。作为一种可选的实施方式,上述附加条可以是黑色的或者是灰色的,对此本申请不做具体限制。在具体实施时,在判断出样本图片的尺寸小于输入图片尺寸后,在样本图片周围添加附加条,添加附加条后的样本图片应与输入图片尺寸相同,得到样本同尺寸图片。例如,得到的样本图片是16:9的尺寸,输入图片尺寸为4:3的尺寸,这时就需要在原始样本图片周围加一圈附加条,以使调整后的样本图片的尺寸达到4:3。
这里,应注意,上述对于附加条的颜色的选择仅是示例,实际中,附加条的颜色不限于上述例子。
这样,在进行待识别对象识别模型构建时将样本图片调节至相同尺寸,所有的样本图片都会被调整为交通标志识别模型要求的图片尺寸,这样在进行待识别对象识别模型构建时无需再考虑样本图片的尺寸问题,处理的每一张样本图片的尺寸与输入图片尺寸都相同,可以提高待识别对象识别模型的构建速度。
步骤1012,对调整尺寸的所述样本图片进行数据增强处理,得到增强图片。
作为一个可选的实施方式,所述数据增强包括:随机缩放、色域变化、翻转。
需要说明的是,增强图片指的是对调整尺寸的样本图片进行数据增强处理后得到的图片。随机缩放指的是对调整尺寸的样本图片进行大小缩放的操作,色域变化指的是对调整尺寸的样本图片的明亮度、饱和度、色调进行改变的操作,翻转指的是对调整尺寸的样本图片进行左右的翻转的操作。
作为一个可选的实施方式,所述数据增强包括随机放大,对调整尺寸的所述样本图片进行数据增强处理,得到增强图片,包括:
在调整尺寸的所述样本图片的周围添加附加条,得到带有附加条的增强图片。
需要说明的是,随机放大指的是对调整尺寸的样本图片进行随机放大的操作。附加条指的是在样本图片的正常画面外,在原样本图片四周多了一圈一样颜色的附加条。作为一种可选的实施方式,上述附加条可以是黑色的或者是灰色的,对此本申请不做具体限制。在具体实施时,当数据增强操作为随机放大操作时,可以在调整尺寸的样本图片的周围添加附加条,得到带有附加条的增强图。具体的,由于附加条中的颜色是统一的,在待识别对象识别初始模型对带有附加条的增强图片进行识别时,当检测到增强图片中某一像素点的颜色与预设的附加条的颜色相同,这是则认为该像素点对应的位置中一定不包含待识别对象,因此待识别对象识别初始模型对带有附加条的增强图片进行待识别对象识别时只识别除了附加条之外的图像即可。
步骤1013,选取随机数的增强图片进行拼接,得到拼接图片。
需要说明的是,拼接指的是将至少两个增强图片拼接成一个拼接图片。作为一种可选的实施方式,可以随机选择四张增强图片,并对这四张增强图片进行拼接。对增强图片的拼接可以采用Mosaic数据增强的方式。具体的,Mosaic数据增强是随机选取四张增强图片,对四张增强图片随机分布进行拼接,得到一个拼接图片。延续上述对四张增强图片进行拼接的实例,在具体实施时,首先随机读取四张增强图片,将这四张增强图片按照随机分布的方式拼接在一起,例如将四张增强图片按照第一张增强图片摆放在左上角、第二张增强图片摆放在右上角、第三张增强图片摆放在左下角、第四张增强图片摆放在右下角这样的顺序摆放好。完成四个增强图片的摆放之后,接下来利用矩阵的方式将四个增强图片固定的区域截取下来,然后将它们拼接起来,拼接成一个新的图片作为拼接图片。
这种拼接方式大大丰富了模型训练集,特别是随机缩放增加了很多小目标,可以使预测模型的鲁棒性更好。并且在预测之前将多个图片进行拼接得到一个拼接图片,然后将该拼接图片传入到待识别对象识别初始模型中进行学习,相当于一次性向神经网络传输了四张增强进行学习,丰富了检测物体的背景,并且在识别待识别对象时一次会计算出多张样本图片的数据,一个GPU就可以达到比较好的效果。
这里,应注意,上述对增强图片的拼接方式的选择以及对增强图片的拼接数量的选择仅是示例,实际中,增强图片的拼接方式以及增强图片的拼接数量不限于上述例子。
步骤1014,将所述拼接图片调整至所述输入图片尺寸,获取调整尺寸的拼接图片中各待识别对象在该调整尺寸的拼接图片中的位置坐标。
针对上述步骤1014,在得到拼接图片后,将拼接图片调整至输入图片尺寸,具体的,调整拼接图片的尺寸的方法与步骤1011中将获取的样本图片调整至输入图片尺寸的方法相同,在此不再赘述。在调整好尺寸后,还需获取调整尺寸的拼接图片中各待识别对象在该调整尺寸的拼接图片中的位置坐标。当样本图片进行了随机缩放和拼接后,待识别对象在该样本图片中的位置坐标也会进行改变。例如,该样本图片的大小为500像素×500像素,待识别对象在样本图片中的位置坐标为(100,50)。在进行拼接时,将该样本图片的大小缩小为原始样本图片的50%。这时缩小后的样本图片的大小为250像素×250像素,待识别对象在缩小后的样本图片中的位置坐标为(50,25)。
步骤1015,根据所述调整尺寸的拼接图片对调整尺寸的所述样本图片进行扩充。
针对步骤1024,在得到调整尺寸的拼接图片后,将调节尺寸的拼接图片也作为调整尺寸的样本图片,这样用于构建待识别对象识别初始模型的训练数据可以更丰富,使构建的待识别对象识别模型更加准确。
S102,针对所述样本图片中每一张带有待识别对象的样本图片,获取待识别对象图形在该样本图片中的第一位置坐标。
需要说明的是,待识别对象指的是样本图片中存在的、想要从样本图片中识别出来的对象。第一位置坐标用来表征待识别对象的图形在样本图片中的轮廓位置坐标。延续上一实施例,当样本图片是带有交通标志的图片时,这里的待识别图像就是样本图片中的交通标志,这里的第一位置坐标就是该交通标志的图形在该样本图片中的第一位置坐标。
针对上述步骤S102,针对所述样本图片中每一张带有待识别对象的样本图片,获取待识别对象图形在该样本图片中的第一位置坐标。具体的,可以在识别出带有待识别对象的样本图片后,获取待识别对象的轮廓,依据轮廓内的像素点相对于样本图片标记该样本图片中待识别对象的轮廓像素点,在获取到该样本图片中待识别对象的轮廓像素点后,可以以样本图片左下角的顶点为原点建立一个坐标系,基于该坐标系来确定待识别对象图形在样本图片中的第一位置坐标。
这里,应注意,上述对获取待识别对象图形在样本图片中的第一位置坐标的方式仅是示例,实际中,增强图片的拼接方式以及增强图片的拼接数量不限于上述例子。
S103,针对每一张所述样本图片,将该样本图片输入待识别对象识别初始模型,得到待识别对象预测图形的第二位置坐标。
需要说明的是,待识别对象识别初始模型指的是用于识别样本图片中待识别对象的初始模型。待识别对象预测图形指的是待识别对象识别初始模型针对样本图片识别出的图形。由于样本图片可能是带有待识别对象的图片,也可能是不带有待识别对象的图片,因此待识别对象识别初始模型识别出的待识别对象预测图形的第二位置坐标可能不存在。
针对上述步骤S103,在具体实施时,针对每一张样本图片,将该样本图片输入到待识别对象识别初始模型中,利用待识别对象识别初始模型中的神经网络,来确定该样本图片中的待识别对象预测图形的第二位置坐标。
具体的,在待识别对象识别初始模型确定出该样本图片中的待识别对象预测图形后,也需对得到的待识别对象预测图形进行标记,以得到待识别对象预测图形在样本图片中的第二位置坐标。具体的,可以在识别出待识别对象预测图形后,获取待识别对象预测图形的轮廓,依据轮廓内的像素点相对于样本图片中待识别对象预测图形的轮廓像素点,在获取到该样本图片中待识别对象预测图形的轮廓像素点后,可以以样本图片左下角的顶点为原点建立一个坐标系,基于该坐标系来确定待识别对象预测图形在样本图片中的第二位置坐标。
S104,基于待识别对象预测图形的第二位置坐标、待识别对象图形的第一位置坐标,对所述待识别对象识别初始模型进行训练,得到待识别对象识别模型。
针对上述步骤S104,在确定出待识别对象预测图形的第二位置坐标和待识别对象图形的第一位置坐标后,利用上述两个参数对待识别对象识别初始模型进行训练,以得到待识别对象识别模型。
其中,所述第一位置坐标为所述待识别对象在样本同尺寸图片中的轮廓位置坐标。
请参阅图2,图2为本申请实施例所提供的一种训练待识别对象识别初始模型的方法的流程图。如图2中所示,所述基于待识别对象预测图形的第二位置坐标、待识别对象图形的第一位置坐标,对所述待识别对象识别初始模型进行训练,包括:
S201,若待识别对象预测图形对应的样本图片为未带有待识别对象的图片,调整所述待识别对象识别初始模型的训练参数,直至训练的待识别对象识别初始模型输出的待识别对象预测图形为空。
针对上述步骤S201,样本图片中包含带有待识别对象的图片,也包含未带有待识别对象的图片。当待识别对象识别初始模型针对未带有待识别对象的图片进行识别时,得到了一个待识别对象预测图形,这时认为该待识别对象识别初始模型的识别是错误的,则需要对待识别对象识别初始模型的训练参数进行修改,具体的,训练参数可以是待识别对象识别初始模型的学习率、网络参数等。待识别对象识别初始模型会通过迭代的方式不断去调整待识别对象识别初始模型的训练参数,在迭代的每一步,都会重新输出一个待识别对象识别初始模型预测的待识别对象预测图形,当待识别对象预测图形不为空时,不断调整待识别对象识别初始模型的训练参数,新的参数会输出得到新的待识别对象预测图形,直至训练的待识别对象识别初始模型输出的待识别对象预测图形为空,这时则认为待识别对象识别初始模型的识别是准确的。
S202,若待识别对象预测图形对应的样本图片为带有待识别对象的图片,从待识别对象预测图形中,获取待识别对象预测图形的第一像素点。
针对上述步骤S202,当待识别对象识别初始模型针对带有待识别对象的图片进行识别时,待识别对象识别初始模型会输出一个待识别对象预测图形。该待识别对象预测图形中存在待识别对象的范围,也存在不是待识别对象的范围,这时需要获取标记为待识别对象的第一像素点。这里,像素点指的是在一个图像中,把图像分割成若干个小方格,每个小方格成为一个像素点。针对本申请提供的实施例,将得到的待识别对象预测图形分割为若干个小方格,获取标记为待识别对象的像素点为第一像素点。
S203,获取样本图片中标记为待识别对象的第一像素数,从待识别对象预测图形中,获取标记为待识别对象的第二像素数。
需要说明的是,像素数指的是用于标记待识别对象的像素点的总数。针对上述步骤S203,在具体实施时,从样本图片中,基于样本图片中的待识别对象,获取样本图片中标记的待识别对象的像素点的总数,作为待识别对象的第一像素数。从待识别对象识别初始模型输出的待识别对象预测图形中,基于标记为待识别对象的第一像素点获取标记的待识别对象的像素点的总数,作为待识别对象的第二像素数。
S204,基于第一像素点的第二位置坐标以及该第一像素点对应的第一位置坐标,以及,第一像素数及第二像素数,计算损失值。
需要说明的是,损失值(loss function)是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数值。在应用中,损失值通常作为学习准则与优化问题相联系,即通过最小化损失函数求解和评估模型。
针对上述步骤S204,在计算待识别对象识别初始模型的损失值时,包括两部分,一部分是利用第一像素点的第一位置坐标和第二位置坐标之间的误差计算损失值,一部分是判断待识别对象识别初始模型识别的准确率,利用第一像素数和第二像素数计算损失值。
在利用第一像素点的第一位置坐标和第二位置坐标之间的误差计算损失时,通过对比第一像素点的第一位置坐标和第二位置坐标来判断待识别对象识别初始模型的预测是否准确,在第一像素点的第一位置坐标和第二位置坐标存在差异时,则认为待识别对象识别初始模型的预测不准确。例如,若确定的第一像素点的第一位置坐标为(250,250),第一像素点的第二位置坐标为(100,50),这时则认为第一像素点的第一位置坐标和第二位置坐标之间存在误差,即待识别对象识别初始模型的预测不准确。这时需要计算当前状态下待识别对象识别初始模型的损失值。计算损失值的方式在现有技术中有详细的说明,在此不再过多说明。
在利用第一像素数和第二像素数计算损失值时,通过对比第一像素数和第二像素数来判断待识别对象识别初始模型的预测是否准确,在第一像素数和第二像素数存在差异时,则认为待识别对象识别初始模型的预测不准确,这时需要计算当前状态下待识别对象识别初始模型的损失值。计算损失值的方式在现有技术中有详细的说明,在此不再过多说明。
当样本图片是经过拼接过的样本图片时,也就是样本图片中可能会包括多个样本图片,这时得到的标记为待识别对象的第一像素点也会有多个,对应的第一位置坐标、第二位置坐标、第一像素数和第二像素数也会对应有多个。这时需要对待识别对象对应的参数分别进行比对。例如,样本图片是有两个样本图片拼接得到的,其中包含一个样本图片A和一个样本图片B,样本图片A中包括一个待识别对象A,样本图片B中包括一个待识别对象B。将该样本图片输入至待识别对象识别初始模型中后,待识别对象识别初始模型也会对应输出两个待识别对象预测图形,一个是待识别对象A在样本图片A中的待识别对象预测图形A,一个是待识别对象B在样本图片B中的待识别对象预测图形B。这时需要对这两个待识别对象预测图形分别进行比对,待识别对象预测图形A与样本图片A中的待识别对象A进行比对,待识别对象预测图形B与样本图片B中的待识别对象B进行比对,判断待识别对象识别初始模型的预测是否准确。
S205,若损失值大于预先设置的损失阈值,调整所述待识别对象识别初始模型的训练参数,直至训练的待识别对象识别初始模型的损失值不大于所述损失阈值。
在本申请提供的实施例中,损失阈值指的是提前设定好的一个标准,作为一种可选的实施方式,最小阈值可以设定为损失值的二阶导数接近于0,因为在二阶导数接近0时,则损失值的斜率最小,即待识别对象识别初始模型两次迭代之间的损失值变化已经很小,当损失值接近于这个损失阈值时,则认为待识别对象识别初始模型达到收敛状态,此时的待识别对象识别初始模型的预测比较准确。
针对步骤S205,在步骤S204中计算出在当前状态下所述待识别对象识别初始模型的损失值后,不断调节待识别对象识别初始模型中训练参数,具体的,训练参数可以是待识别对象识别初始模型的学***滑的时候,即训练的待识别对象识别初始模型的损失值不大于损失阈值时,也就是损失值与上一次计算的损失值相比下降不明显时,认为待识别对象识别初始模型达到收敛,这时结束训练,得到待识别对象识别模型。
本申请实施例提供的构建待识别对象识别模型的方法及装置,在训练待识别对象识别初始模型时,利用待识别对象图形在样本图片中的位置坐标与在预测出的待识别对象预测图片中位置坐标对比,再利用像素标记进行对比,这样的训练方式基于坐标位置去训练模型,训练的精度更高更细,进一步的提高了得到的待识别对象识别模型预测的准确性。待识别对象识别模型预测的准确性越高,进一步的,识别出的待识别对象也更加准确。
在待识别对象识别模型构建好后,利用该待识别对象识别模型去识别样本图片中的待识别对象,具体的,所述方法还包括:
A:获取待识别图片,将获取的待识别图片调整至所述待识别对象识别模型要求的输入图片尺寸。
需要说明的是,待识别图片指的是待识别的、可能会包含待识别对象的图片。作为一种可选的实施方式,所述待识别图片可以是通过摄像头拍摄到的图片,也可以是用户上传的图片,对此本申请不做具体限制。
针对上述步骤,在具体实施时,获取到待识别图片后,应将获取的待识别图片调整至待识别对象识别模型要求的输入图片尺寸。具体的,调整待识别图片的尺寸的方法与步骤1011中将获取的样本图片调整至输入图片尺寸的方法相同,在此不再赘述。
B:将调整尺寸的待识别图片输入所述待识别对象识别模型,得到待识别对象图。
针对上述步骤,在具体实施时,将调整尺寸的待识别图片输入至待识别对象识别模型中,得到待识别对象图。这里,待识别对象图指的是带有待识别对象的图片。具体的,在得到待识别对象图时,首先确定待识别对象在调整尺寸的待识别图片中的像素点。利用待识别对象在调整尺寸的待识别图片中的像素点进行标记并获取待识别对象在调整尺寸的待识别图片中的位置坐标。利用确定出的位置坐标在调整尺寸的待识别图片中进行绘制,也就是将确定出的位置坐标对应的位置用线连接起来,得到调整尺寸的待识别图片中的位置框图。位置框图中的图片内容就是待识别对象,因此将位置框图中的图片内容作为待识别图片中的待识别对象图。
作为一种可选的实施方式,待识别对象为交通标志,所述方法还包括:
查询预先设置的各交通标志模板图与交通标志类型的映射关系库,识别出所述待识别对象图的交通标志类型。
需要说明的是,交通标志模板图指的是预先存储好的用来辨别交通标志类型的模板图。映射关系库指的是一种用于存储对象之间映射关系的数据库,相当于一种以对象形式表示信息的数据库。映射关系一般指对象关系映射,对象关系映射是用于实现面向对象编程语言里不同类型***的数据之间的转换。根据本申请提供的实施例,可以将预先设置的各交通标志模板图与交通标志类型存储至映射关系库中,一个交通标志模板图对应一个交通标志类型。
交通标志类型可用各种方式区分为:主要标志和辅助标志;可动式标志和固定式标志;照明标志、发光标志和反光标志;以及反映行车环境变化的可变信息标志。其中,主要标志可以包括如下四大类:道路交通警告标志,是警告驾驶人员、行人注意危险并能及时采取措施的标志;道路交通指示标识,是用来指示驾驶人员和行人按照规定的方向和地点行驶;道路交通指路标志,是用来指示传递道路方向;道路交通禁令标志:是用来对车辆和行人的部分交通行为实行限制的标志。
这里,应注意,上述对用于对映射关系库中的交通标志类型的描述仅是示例,实际中,映射关系库中的交通标志类型不限于上述例子。
作为一种可选的实施方式,在得到待识别图片中的交通标志图后,可以通过查询预先设置的各交通标志模板图与交通标志类型的映射关系库,识别出该待识别对象图的交通标志类型。
根据本申请提供的实施例,可以将待识别图片输入至待识别对象识别模型中,快速待识别图片中的交通标志图,再通过查询预先设置的各交通标志模板图与交通标志类型的映射关系库,识别出所述交通标志图的交通标志类型,及时为车辆提供道路信息,有助于无人驾驶车辆选择正确的道路行驶。
请参阅图3,图3为本申请实施例所提供的一种构建待识别对象识别模型的装置的结构示意图。如图3中所示,所述构建待识别对象识别模型的装置300包括:
样本图片获取模块301,用于获取样本图片;
第一位置坐标获取模块302,用于对所述样本图片中每一带有待识别对象的样本图片,获取待识别对象图形在该样本图片中的第一位置坐标;
第二位置坐标获取模块303,针对每一样本图片,将该样本图片输入待识别对象识别初始模型,得到待识别对象预测图形的第二位置坐标;
待识别对象识别模型确定模块304,用于基于待识别对象预测图形的第二位置坐标、待识别对象图形的第一位置坐标,对所述待识别对象识别初始模型进行训练,得到待识别对象识别模型。
进一步的,所述第一位置坐标为所述待识别对象在样本图片中的轮廓位置坐标,所述基于待识别对象预测图形的第二位置坐标、待识别对象图形的第一位置坐标,对所述待识别对象识别初始模型进行训练,包括:
若待识别对象预测图形对应的样本图片为未带有待识别对象的图片,调整所述待识别对象识别初始模型的训练参数,直至训练的待识别对象识别初始模型输出的待识别对象预测图形为空;
若待识别对象预测图形对应的样本图片为带有待识别对象的图片,从待识别对象预测图形中,获取待识别对象预测图形的第一像素点;
获取样本图片中标记为待识别对象的第一像素数,从待识别对象预测图形中,获取标记为待识别对象的第二像素数;
基于第一像素点的第二位置坐标以及该第一像素点对应的第一位置坐标,以及,第一像素数及第二像素数,计算损失值;
若损失值大于预先设置的损失阈值,调整所述待识别对象识别初始模型的训练参数,直至训练的待识别对象识别初始模型的损失值不大于所述损失阈值。
进一步的,所述构建待识别对象识别模型的装置300还用于:
将获取的样本图片调整至所述待识别对象识别模型要求的输入图片尺寸;
对调整尺寸的所述样本图片进行数据增强处理,得到增强图片;
选取随机数的增强图片进行拼接,得到拼接图片;
将所述拼接图片调整至所述输入图片尺寸,获取调整尺寸的拼接图片中各待识别对象在该调整尺寸的拼接图片中的位置坐标;
根据所述调整尺寸的拼接图片对调整尺寸的所述样本图片进行扩充。
进一步的,所述数据增强包括:随机缩放、色域变化、翻转。
进一步的,所述数据增强包括随机放大,对调整尺寸的所述样本图片进行数据增强处理,得到增强图片,包括:
在调整尺寸的所述样本图片的周围添加附加条,得到带有附加条的增强图片。
进一步的,所述构建待识别对象识别模型的装置300还用于:
获取待识别图片,将获取的待识别图片调整至所述待识别对象识别模型要求的输入图片尺寸;
将调整尺寸的待识别图片输入所述待识别对象识别模型,得到待识别对象图。
进一步的,所述待识别对象为交通标志,所述构建待识别对象识别模型的装置300还用于:
查询预先设置的各交通标志模板图与交通标志类型的映射关系库,识别出所述待识别对象图的交通标志类型。
请参阅图4,图4为本申请实施例所提供的一种电子设备的结构示意图。如图4中所示,所述电子设备400包括处理器410、存储器420和总线430。
所述存储器420存储有所述处理器410可执行的机器可读指令,当电子设备400运行时,所述处理器410与所述存储器420之间通过总线430通信,所述机器可读指令被所述处理器410执行时,可以执行如上述图1以及图2所示方法实施例中的构建待识别对象识别模型的方法的步骤,解决了现有技术中训练得到的待识别对象识别模型的识别精度不高的问题,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1以及图2所示方法实施例中的构建待识别对象识别模型的方法的步骤,解决了现有技术中训练得到的待识别对象识别模型的识别精度不高的问题,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的***、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的***、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种构建待识别对象识别模型的方法,其特征在于,所述方法包括:
获取样本图片;
针对所述样本图片中每一张带有待识别对象的样本图片,获取待识别对象图形在该样本图片中的第一位置坐标;
针对每一张所述样本图片,将该样本图片输入待识别对象识别初始模型,得到待识别对象预测图形的第二位置坐标;
基于待识别对象预测图形的第二位置坐标、待识别对象图形的第一位置坐标,对所述待识别对象识别初始模型进行训练,得到待识别对象识别模型。
2.根据权利要求1所述的方法,其特征在于,所述第一位置坐标为所述待识别对象在样本图片中的轮廓位置坐标,所述基于待识别对象预测图形的第二位置坐标、待识别对象图形的第一位置坐标,对所述待识别对象识别初始模型进行训练,包括:
若待识别对象预测图形对应的样本图片为未带有待识别对象的图片,调整所述待识别对象识别初始模型的训练参数,直至训练的待识别对象识别初始模型输出的待识别对象预测图形为空;
若待识别对象预测图形对应的样本图片为带有待识别对象的图片,从待识别对象预测图形中,获取待识别对象预测图形的第一像素点;
获取样本图片中标记为待识别对象的第一像素数,从待识别对象预测图形中,获取标记为待识别对象的第二像素数;
基于第一像素点的第二位置坐标以及该第一像素点对应的第一位置坐标,以及,第一像素数及第二像素数,计算损失值;
若损失值大于预先设置的损失阈值,调整所述待识别对象识别初始模型的训练参数,直至训练的待识别对象识别初始模型的损失值不大于所述损失阈值。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将获取的样本图片调整至所述待识别对象识别模型要求的输入图片尺寸;
对调整尺寸的所述样本图片进行数据增强处理,得到增强图片;
选取随机数的增强图片进行拼接,得到拼接图片;
将所述拼接图片调整至所述输入图片尺寸,获取调整尺寸的拼接图片中各待识别对象在该调整尺寸的拼接图片中的位置坐标;
根据所述调整尺寸的拼接图片对调整尺寸的所述样本图片进行扩充。
4.根据权利要求3所述的方法,其特征在于,所述数据增强包括:随机缩放、色域变化、翻转。
5.根据权利要求4所述的方法,其特征在于,所述数据增强包括随机放大,对调整尺寸的所述样本图片进行数据增强处理,得到增强图片,包括:
在调整尺寸的所述样本图片的周围添加附加条,得到带有附加条的增强图片。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:
获取待识别图片,将获取的待识别图片调整至所述待识别对象识别模型要求的输入图片尺寸;
将调整尺寸的待识别图片输入所述待识别对象识别模型,得到待识别对象图。
7.根据权利要求6所述的方法,其特征在于,所述待识别对象为交通标志,所述方法还包括:
查询预先设置的各交通标志模板图与交通标志类型的映射关系库,识别出所述待识别对象图的交通标志类型。
8.一种构建待识别对象识别模型的装置,其特征在于,所述装置包括:
样本图片获取模块,用于获取样本图片;
第一位置坐标获取模块,用于对所述样本图片中每一带有待识别对象的样本图片,获取待识别对象图形在该样本图片中的第一位置坐标;
第二位置坐标获取模块,针对每一样本图片,将该样本图片输入待识别对象识别初始模型,得到待识别对象预测图形的第二位置坐标;
待识别对象识别模型确定模块,用于基于待识别对象预测图形的第二位置坐标、待识别对象图形的第一位置坐标,对所述待识别对象识别初始模型进行训练,得到待识别对象识别模型。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行如权利要求1至7任一所述的构建待识别对象识别模型的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7任一所述的构建待识别对象识别模型的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111171015.0A CN113807315B (zh) | 2021-10-08 | 2021-10-08 | 一种构建待识别对象识别模型的方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111171015.0A CN113807315B (zh) | 2021-10-08 | 2021-10-08 | 一种构建待识别对象识别模型的方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113807315A true CN113807315A (zh) | 2021-12-17 |
CN113807315B CN113807315B (zh) | 2024-06-04 |
Family
ID=78897340
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111171015.0A Active CN113807315B (zh) | 2021-10-08 | 2021-10-08 | 一种构建待识别对象识别模型的方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113807315B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115564656A (zh) * | 2022-11-11 | 2023-01-03 | 成都智元汇信息技术股份有限公司 | 一种基于调度的多图合并识图方法及装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002229727A (ja) * | 2001-02-02 | 2002-08-16 | Canon Inc | 座標入力装置 |
CN102156980A (zh) * | 2011-01-14 | 2011-08-17 | 耿则勋 | 一种评价数据压缩对遥感影像定位精度影响的方法 |
CN106340062A (zh) * | 2015-07-09 | 2017-01-18 | 长沙维纳斯克信息技术有限公司 | 一种三维纹理模型文件的生成方法和装置 |
CN110472602A (zh) * | 2019-08-20 | 2019-11-19 | 腾讯科技(深圳)有限公司 | 一种卡证识别方法、装置、终端及存储介质 |
CN111476159A (zh) * | 2020-04-07 | 2020-07-31 | 哈尔滨工业大学 | 一种基于双角回归的检测模型训练、检测方法及装置 |
CN111523465A (zh) * | 2020-04-23 | 2020-08-11 | 中船重工鹏力(南京)大气海洋信息***有限公司 | 基于摄像机标定及深度学习算法的船舶身份识别*** |
CN112508109A (zh) * | 2020-12-10 | 2021-03-16 | 锐捷网络股份有限公司 | 一种图像识别模型的训练方法及装置 |
CN112560834A (zh) * | 2019-09-26 | 2021-03-26 | 武汉金山办公软件有限公司 | 一种坐标预测模型生成方法、装置及图形识别方法、装置 |
CN113021355A (zh) * | 2021-03-31 | 2021-06-25 | 重庆正格技术创新服务有限公司 | 一种用于预测遮挡农作物摘取点的农业机器人作业方法 |
CN113096017A (zh) * | 2021-04-14 | 2021-07-09 | 南京林业大学 | 基于深度坐标注意力网络模型的图像超分辨率重建方法 |
CN113436251A (zh) * | 2021-06-24 | 2021-09-24 | 东北大学 | 一种基于改进的yolo6d算法的位姿估计***及方法 |
-
2021
- 2021-10-08 CN CN202111171015.0A patent/CN113807315B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002229727A (ja) * | 2001-02-02 | 2002-08-16 | Canon Inc | 座標入力装置 |
CN102156980A (zh) * | 2011-01-14 | 2011-08-17 | 耿则勋 | 一种评价数据压缩对遥感影像定位精度影响的方法 |
CN106340062A (zh) * | 2015-07-09 | 2017-01-18 | 长沙维纳斯克信息技术有限公司 | 一种三维纹理模型文件的生成方法和装置 |
CN110472602A (zh) * | 2019-08-20 | 2019-11-19 | 腾讯科技(深圳)有限公司 | 一种卡证识别方法、装置、终端及存储介质 |
CN112560834A (zh) * | 2019-09-26 | 2021-03-26 | 武汉金山办公软件有限公司 | 一种坐标预测模型生成方法、装置及图形识别方法、装置 |
CN111476159A (zh) * | 2020-04-07 | 2020-07-31 | 哈尔滨工业大学 | 一种基于双角回归的检测模型训练、检测方法及装置 |
CN111523465A (zh) * | 2020-04-23 | 2020-08-11 | 中船重工鹏力(南京)大气海洋信息***有限公司 | 基于摄像机标定及深度学习算法的船舶身份识别*** |
CN112508109A (zh) * | 2020-12-10 | 2021-03-16 | 锐捷网络股份有限公司 | 一种图像识别模型的训练方法及装置 |
CN113021355A (zh) * | 2021-03-31 | 2021-06-25 | 重庆正格技术创新服务有限公司 | 一种用于预测遮挡农作物摘取点的农业机器人作业方法 |
CN113096017A (zh) * | 2021-04-14 | 2021-07-09 | 南京林业大学 | 基于深度坐标注意力网络模型的图像超分辨率重建方法 |
CN113436251A (zh) * | 2021-06-24 | 2021-09-24 | 东北大学 | 一种基于改进的yolo6d算法的位姿估计***及方法 |
Non-Patent Citations (2)
Title |
---|
JAIDEV: "Weighted Loss Functions for Instance Segmentation", Retrieved from the Internet <URL:https://jaidevd.com/posts/weighted-loss-functions-for-instance-segmentation/> * |
SENBINYU: "图像分割中的损失函数分类和汇总", Retrieved from the Internet <URL:https://blog.csdn.net/senbinyu/article/details/108232122> * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115564656A (zh) * | 2022-11-11 | 2023-01-03 | 成都智元汇信息技术股份有限公司 | 一种基于调度的多图合并识图方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113807315B (zh) | 2024-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111563442B (zh) | 基于激光雷达的点云和相机图像数据融合的slam方法及*** | |
CN111178355B (zh) | ***识别方法、装置和存储介质 | |
CN109871829B (zh) | 一种基于深度学习的检测模型训练方法和装置 | |
CN110969592B (zh) | 图像融合方法、自动驾驶控制方法、装置和设备 | |
CN112418216A (zh) | 一种复杂自然场景图像中的文字检测方法 | |
CN110288612B (zh) | 铭牌定位与校正方法及设备 | |
CN110992384B (zh) | 半自动化图像数据标注方法、电子装置及存储介质 | |
CN113989167B (zh) | 基于种子点自生长的轮廓提取方法、装置、设备及介质 | |
CN113158977B (zh) | 改进FANnet生成网络的图像字符编辑方法 | |
CN113255578B (zh) | 交通标识的识别方法及装置、电子设备和存储介质 | |
US20220358634A1 (en) | Methods and systems of utilizing image processing systems to measure objects | |
CN111368682A (zh) | 一种基于faster RCNN台标检测与识别的方法及*** | |
CN111126393A (zh) | 车辆外观改装判断方法、装置、计算机设备及存储介质 | |
JP2009163682A (ja) | 画像識別装置及びプログラム | |
CN111738252B (zh) | 图像中的文本行检测方法、装置及计算机*** | |
CN113807315B (zh) | 一种构建待识别对象识别模型的方法、装置、设备及介质 | |
CN114005120A (zh) | 一种车牌字符切割方法、车牌识别方法、装置、设备及存储介质 | |
CN117593420A (zh) | 基于图像处理的平面图纸标注方法、装置、介质及设备 | |
CN110874170A (zh) | 一种图像区域修正方法、图像分割方法及装置 | |
CN114118127B (zh) | 一种视觉场景标志检测与识别方法及装置 | |
CN114898321A (zh) | 道路可行驶区域检测方法、装置、设备、介质及*** | |
CN102682308B (zh) | 图像处理方法和图像处理设备 | |
CN112381034A (zh) | 一种车道线检测方法、装置、设备及存储介质 | |
CN115393379A (zh) | 一种数据标注方法及相关产品 | |
CN105654457A (zh) | 图像处理装置和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |