CN114708437B - 目标检测模型的训练方法、目标检测方法、装置和介质 - Google Patents
目标检测模型的训练方法、目标检测方法、装置和介质 Download PDFInfo
- Publication number
- CN114708437B CN114708437B CN202210618552.3A CN202210618552A CN114708437B CN 114708437 B CN114708437 B CN 114708437B CN 202210618552 A CN202210618552 A CN 202210618552A CN 114708437 B CN114708437 B CN 114708437B
- Authority
- CN
- China
- Prior art keywords
- image
- feature extraction
- enhancement
- feature
- map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供了一种目标检测模型的训练方法、目标检测方法、装置和介质,其中的训练方法具体包括:从图像中提取目标区域;根据目标区域,确定训练图像;训练图像包括:原图和至少一个增强图;增强图为对原图进行增强处理得到的图像;增强处理包括:位置处理和尺寸处理;对原图进行第一特征提取,以得到第一特征;对增强图进行第二特征提取,以得到第二特征;根据第一特征和第二特征之间的匹配度,确定误差信息,并根据误差信息,对第一特征提取单元的第一参数进行更新。本申请实施例可以节省训练图像的标注成本,节省运算成本,能够提高运算速度,且能够提高第一特征提取单元的泛化能力。
Description
技术领域
本申请涉及计算机视觉技术领域,特别是涉及一种目标检测模型的训练方法、目标检测方法、装置和介质。
背景技术
行人检测是智能视频监控领域比较重要的一个研究方向,它是一种基于机器学习的计算机视觉技术,用于通过分析检测场景中的行人、交通工具等其他运动物体来完成如人数统计、行人跟踪等任务。
目前的行人检测方法,通常由行人检测模型提取待检测图像的特征表示,并根据特征表示,检测待检测图像中是否包含行人,若是,则可以给出行人的位置信息。
在实际应用中,行人检测模型通常由带标签图像数据训练得到,带标签图像数据的标注通常耗费大量的人力成本和时间成本。尤其地,在检测场景发生变化的情况下,需要准备新的带标签图像数据,这进一步了增加了人力成本和时间成本。
发明内容
本申请实施例提供了一种目标检测模型的训练方法,可以节省训练图像的标注成本,节省运算成本,能够提高运算速度,且能够提高第一特征提取单元的泛化能力。
相应的,本申请实施例还提供了一种目标检测方法、一种目标检测模型的训练装置、一种目标检测装置、一种电子设备和一种机器可读介质,用以保证上述方法的实现及应用。
为了解决上述问题,本申请实施例公开了一种目标检测模型的训练方法,所述目标检测模型包括:第一特征提取单元,所述方法包括:
从图像中提取目标区域;
根据所述目标区域,确定训练图像;所述训练图像包括:所述目标区域对应的原图和至少一个增强图;所述增强图为对所述原图进行增强处理得到的图像;所述增强处理包括:位置处理和尺寸处理;
利用第一特征提取单元对所述原图进行第一特征提取,以得到第一特征;
对所述增强图进行第二特征提取,以得到第二特征;
根据所述第一特征和所述第二特征之间的匹配度,确定误差信息,并根据所述误差信息,对所述第一特征提取单元的第一参数进行更新。
可选地,所述对所述增强图进行第二特征提取,包括:
利用第二特征提取单元对所述增强图进行特征提取;所述第二特征提取单元与所述第一特征提取单元具有相同的神经网络结构;
利用第七多层感知器和第八多层感知器,对所述第二特征提取单元输出的特征表示进行全连接操作,以得到第二特征。
可选地,所述方法还包括:
根据更新后的第一参数,对所述第二特征提取单元的第二参数进行更新;
根据所述误差信息,对第七多层感知器和第八多层感知器的参数进行更新。
可选地,所述增强图包括:第一增强图和第二增强图;
所述根据所述第一特征和所述第二特征之间的匹配度,确定误差信息,包括:根据所述原图与所述第一增强图之间的第一匹配度、以及所述原图与所述第二增强图之间的第二匹配度,确定误差信息。
可选地,所述根据所述目标区域,确定训练图像,包括:
从图像中裁切包含目标区域的原图;所述原图所具有的第一尺寸大于目标区域的尺寸;
对原图进行预设处理,以得到中间图;
从中间图中随机裁切具有第二尺寸的第一图像,并将第一图像放大为具有第一尺寸的第一增强图;
按照中间图的中心,从中间图中裁切具有第二尺寸的第二图像,并将第二图像放大为具有第一尺寸的第二增强图。
可选地,在所述误差信息符合预设条件的情况下,所述第一参数的数值为第一目标参数值;
所述方法还包括:
根据所述第一目标参数值和带标签图像数据,对目标检测模型进行迁移训练。
为了解决上述问题,本申请实施例公开了一种目标检测方法,所述方法包括:
接收待检测图像;
利用目标检测模型,对所述待检测图像进行目标检测,以得到对应的检测结果;
其中,所述目标检测模型包括:第一特征提取单元;所述目标检测模型的训练过程包括:从图像中提取目标区域;根据所述目标区域,确定训练图像;所述训练图像包括:所述目标区域对应的原图和至少一个增强图;所述增强图为对所述原图进行增强处理得到的图像;所述增强处理包括:位置处理和尺寸处理;利用第一特征提取单元对所述原图进行第一特征提取,以得到第一特征;对所述增强图进行第二特征提取,以得到第二特征;根据所述第一特征和所述第二特征之间的匹配度,确定误差信息,并根据所述误差信息,对所述第一特征提取单元的第一参数进行更新。
为了解决上述问题,本申请实施例公开了一种目标检测模型的训练装置,所述目标检测模型包括:第一特征提取单元,所述装置包括:
区域提取模块,用于从图像中提取目标区域;
训练图像确定模块,用于根据所述目标区域,确定训练图像;所述训练图像包括:所述目标区域对应的原图和至少一个增强图;所述增强图为对所述原图进行增强处理得到的图像;所述增强处理包括:位置处理和尺寸处理;
第一特征提取模块,用于利用第一特征提取单元对所述原图进行第一特征提取,以得到第一特征;
第二特征提取模块,用于对所述增强图进行第二特征提取,以得到第二特征;
误差确定模块,用于根据所述第一特征和所述第二特征之间的匹配度,确定误差信息;
第一参数更新模块,用于根据所述误差信息,对所述第一特征提取单元的第一参数进行更新。
为了解决上述问题,本申请实施例公开了一种目标检测装置,所述装置包括:
接收模块,用于接收待检测图像;
目标检测模块,用于利用目标检测模型,对所述待检测图像进行目标检测,以得到对应的检测结果;
其中,所述目标检测模型包括:第一特征提取单元;所述目标检测模型的训练过程包括:从图像中提取目标区域;根据所述目标区域,确定训练图像;所述训练图像包括:所述目标区域对应的原图和至少一个增强图;所述增强图为对所述原图进行增强处理得到的图像;所述增强处理包括:位置处理和尺寸处理;利用第一特征提取单元对所述原图进行第一特征提取,以得到第一特征;对所述增强图进行第二特征提取,以得到第二特征;根据所述第一特征和所述第二特征之间的匹配度,确定误差信息,并根据所述误差信息,对所述第一特征提取单元的第一参数进行更新。
本申请实施例还公开了一种电子设备,包括:处理器;和存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如本申请实施例所述的方法。
本申请实施例还公开了一种机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如本申请实施例所述的方法。
本申请实施例包括以下优点:
在本申请实施例的技术方案中,从图像中提取目标区域,并针对该目标区域,自动构造训练图像。这样,本申请实施例可以节省训练图像的标注成本。
并且,本申请实施例的目标检测模型中第一特征提取单元的反向传播所采用的误差信息,是根据相同目标区域所对应不同训练图像的特征表示之间的匹配度得到的。这样,本申请实施例中第一特征提取单元的反向传播可以涉及相同目标区域所表征正样本的运算,故相对于传统的自监督学习方法或对比学习方法,可以节省不同目标区域所表征负样本的运算;因此能够节省运算成本,且能够提高运算速度。
再者,行人等目标与摄像头之间的距离变化等因素,使得目标在图像中的位置和尺寸也会发生变化。本申请实施例的增强图涉及的增强处理可以包括:位置处理和尺寸处理,故增强图可以表征:对原图进行位置变换和尺寸变换后的情况。而本申请实施例中第一特征提取单元的训练,能够提高原图与增强图的特征表示之间的匹配度;这样,本申请实施例能够使得第一特征提取单元在位置变换前后和尺寸变换前后具有一致的特征表示能力,因此能够提高第一特征提取单元的泛化能力。在提高第一特征提取单元的泛化能力的情况下,在检测场景发生变化的情况下,第一特征提取单元也可以适用,换言之,第一特征提取单元可以适用于变化前后的多种检测场景。
附图说明
图1是本申请一个实施例的目标检测模型的结构示意图;
图2是本申请一个实施例的目标检测模型的训练方法的步骤流程示意图;
图3是本申请一个实施例的确定训练图像的方法的流程示意图;
图4是本申请一个实施例的第一特征提取单元的结构示意图;
图5是本申请一个实施例的增强图对应特征提取模块的结构示意图;
图6是本申请一个实施例的目标检测模型的训练方法的步骤流程示意图;
图7是本申请一个实施例的目标检测方法的步骤流程示意图;
图8是本申请一个实施例的目标检测模型的训练装置的结构示意图;
图9是本申请一个实施例的目标检测装置的结构示意图;
图10是本申请一个实施例提供的装置的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
本申请实施例可以应用于目标检测场景中。在目标检测场景中,可由目标检测模型提取待检测图像的特征表示,并根据特征表示,检测待检测图像中是否包含行人等待检测的目标,若是,则可以给出行人等目标的位置信息。待检测的目标可以包括:行人、车辆等运动物体,可以理解,本申请实施例对于待检测的具体目标不加以限制。
本申请实施例的目标检测模型可用于根据输入的待检测图像,输出对应的检测结果。本申请实施例可以对数学模型进行训练,以得到目标检测模型。数学模型是运用数理逻辑方法和数学语言建构的科学或工程模型,数学模型是针对参照某种事物***的特征或数量依存关系,采用数学语言,概括地或近似地表述出的一种数学结构,这种数学结构是借助于数学符号刻画出来的关系结构。数学模型可以是一个或一组代数方程、微分方程、差分方程、积分方程或统计学方程及其组合,通过这些方程定量地或定性地描述***各变量之间的相互关系或因果关系。除了用方程描述的数学模型外,还有用其他数学工具,如代数、几何、拓扑、数理逻辑等描述的模型。其中,数学模型描述的是***的行为和特征而不是***的实际结构。其中,可采用机器学习、深度学习方法等方法进行数学模型的训练,机器学习方法可包括:线性回归、决策树、随机森林等,深度学习方法可包括:CNN(卷积神经网络,Convolutional Neural Networks)、LSTM(长短期记忆网络,Long Short-Term Memory)、GRU(门控循环单元,Gated Recurrent Unit)等。
参照图1,示出了本申请一个实施例的目标检测模型的结构示意图,该目标检测模型具体可以包括:第一特征提取单元101、特征融合单元102和检测头单元103。
其中,第一特征提取单元101可用于对待检测图像进行特征提取。第一特征提取单元101可用于接收待检测图像,并从待检测图像中提取该图像的第一特征,第一特征可以指深层次的图像特征。第一特征提取单元101可以是主干(backbone)网络,可以包括:VGG(视觉几何群网络,Visual Geometry Group Network)、ResNet(残差网络,ResidualNetwork)、轻量级网络等。可以理解,本申请实施例对于第一特征提取单元101对应的具体网络不加以限制。
其中,残差网络可以为卷积网络。卷积网络可以是一种深度前馈人工神经网络,在图像识别中具有较好的性能表现。卷积网络具体可以包括卷积层(convolutional layer)和池化层(pooling layer)。卷积层用于从输入的图像中自动抽取特征,得到特征图(feature map)。池化层用于对特征图进行池化处理,以减少特征图中的特征数量。池化层的池化处理可以包括:最大池化、或者平均池化、或者随机池化等方式,其可根据实际需求选择合适的方式。
特征融合单元102是目标检测模型中承上启下的单元,其可以对第一特征提取单元101提取的第一特征进行融合,得到融合特征,其能够提高特征的多样性和目标检测模型的性能。
检测头单元103用于根据特征融合单元102输出的融合特征,检测待检测图像中是否包含待检测的目标,若是,则可以给出待检测的目标的位置信息。
传统技术中,目标检测模型通常由带标签图像数据训练得到,带标签图像数据的标注通常耗费大量的人力成本和时间成本。尤其地,在检测场景发生变化的情况下,需要准备新的带标签图像数据,这进一步了增加了人力成本和时间成本。
针对带标签图像数据的标注成本高的技术问题,本申请实施例提供了一种目标检测模型的训练方法,该目标检测模型中的第一特征提取单元除了提取第一特征,还执行与提取第二特征相关的操作,该方法具体可以包括:
从图像中提取目标区域;根据该目标区域,确定训练图像;该训练图像包括:该目标区域对应的原图和至少一个增强图;该增强图为对该原图进行增强处理得到的图像;该增强处理可以包括:位置处理和尺寸处理;
利用第一特征提取单元对该原图进行第一特征提取,以得到第一特征;对该增强图进行第二特征提取,以得到第二特征;
根据该第一特征和该第二特征之间的匹配度,确定误差信息,并根据该误差信息,对该第一特征提取单元的第一参数进行更新。第一特征和第二特征均可以指深层次的图像特征。
本申请实施例从图像中提取目标区域,并针对该目标区域,自动构造训练图像。这样,本申请实施例可以节省训练图像的标注成本。
并且,本申请实施例的目标检测模型中第一特征提取单元的反向传播所采用的误差信息,是根据相同目标区域所对应不同训练图像的特征表示之间的匹配度得到的。这样,本申请实施例中第一特征提取单元的反向传播可以涉及相同目标区域所表征正样本的运算,故相对于传统的自监督学习方法或对比学习方法,可以节省不同目标区域所表征负样本的运算,因此能够节省运算成本,且能够提高运算速度。
再者,目标与摄像头之间的距离变化等因素,使得目标在图像中的位置和尺寸也会发生变化。本申请实施例的增强图涉及的增强处理可以包括:位置处理和尺寸处理,故增强图可以表征:对原图进行位置变换和尺寸变换后的情况。而本申请实施例中第一特征提取单元的训练,能够提高原图与增强图的特征表示之间的匹配度;这样,本申请实施例能够使得第一特征提取单元在位置变换前后和尺寸变换前后具有一致的特征表示能力,因此能够提高第一特征提取单元的泛化能力。在提高第一特征提取单元的泛化能力的情况下,在检测场景发生变化的情况下,第一特征提取单元也可以适用,换言之,第一特征提取单元可以适用于变化前后的多种检测场景。
方法实施例一
本实施例对目标检测模型的训练过程进行说明,尤其地,对目标检测模型中第一特征提取单元的训练过程进行说明。
第一特征提取单元的训练过程可以包括:预训练过程和迁移训练(或微调训练)过程。其中,预训练可以首先在具有通用性的图像上训练第一特征提取单元,学习到通用的图像知识和图像规律;迁移训练可以根据检测场景的带标签图像数据,对第一特征提取单元进行迁移训练。预训练与迁移训练所采用的图像的一个区别是:预训练采用的图像具有通用性,而迁移训练采用的图像具有专用性,例如与检测场景相匹配。
传统技术中,第一特征提取单元的预训练,通常采用带标签图像数据;带标签图像数据的标注通常耗费大量的人力成本和时间成本。而本申请实施例可以对第一特征提取单元的预训练过程进行改进,自动构造训练图像;这样,本申请实施例可以节省训练图像的标注成本。
参考图2,示出了本申请一个实施例的目标检测模型的训练方法的步骤流程示意图,该方法具体可以包括如下步骤:
步骤201、从图像中提取目标区域;
步骤202、根据该目标区域,确定训练图像;该训练图像具体可以包括:该目标区域对应的原图和至少一个增强图;该增强图可以为对该原图进行增强处理得到的图像;该增强处理可以包括:位置处理和尺寸处理;
步骤203、利用第一特征提取单元对该原图进行第一特征提取,以得到第一特征;
步骤204、对该增强图进行第二特征提取,以得到第二特征;
步骤205、根据该第一特征和该第二特征之间的匹配度,确定误差信息,并根据该误差信息,对该第一特征提取单元的第一参数进行更新。
本申请实施例可用于在目标检测模型的训练过程中,更新第一特征提取单元的第一参数,可以节省训练图像的标注成本,节省运算成本,能够提高运算速度,且能够提高第一特征提取单元的泛化能力。
第一特征提取单元的训练过程可以包括:前向传播和反向传播。
其中,前向传播(Forward Propagation)可以根据第一特征提取单元的第一参数,按照从输入层到输出层的顺序,依次计算最后得到输出信息。其中,输出信息可用于确定误差信息。
反向传播(Backward Propagation)可以根据误差信息,按照从输出层到输入层的顺序,依次计算并对第一特征提取单元的第一参数进行更新。第一特征提取单元通常采用神经网络的结构,第一参数可以包括:神经网络的权重等参数。其中,反向传播过程中,可以确定第一特征提取单元的第一参数的梯度信息,并利用该梯度信息,对第一特征提取单元的第一参数进行更新。例如,反向传播可以依据微积分中的链式法则,沿着从输出层到输入层的顺序,依次计算并存储第一特征提取单元的处理层(包括输入层、中间层和输出层)的第一参数的梯度信息。
在步骤201中,图像可以源自摄像头、摄像机等采集装置。换言之,本申请实施例可以从至少一个采集装置采集的视频或图像中获取图像。可以理解,本申请实施例对于步骤201中图像的具体获取方式不加以限制。
目标区域可以表征目标对应的区域,其可以包含独立完整的目标。一个目标区域可以包含一个目标。例如,行人对应的目标区域中包含行人,而不包含汽车。又如,汽车对应的目标区域中包含汽车,而不包含行人。
本申请实施例可以利用选择性搜索(selectivesearch)方法、或者神经网络的搜索方法,来进行目标所对应目标区域的提取。选择性搜索方法是用于目标检测的区域提取方法,将图像上的可能目标区域都明显的划分出来,这样一来,送入下游训练的目标尽量完整,边缘处梯度较大。它具有运算速度快、召回率高的优点。在实际应用中,本申请实施例可以根据颜色、纹理、尺寸和形状等图像特征,从图像中提取目标区域。神经网络的搜索方法可以包括:提升(boost)方法等。
为了从图像中提取能够表征目标的目标区域,本申请实施例可以利用预设尺寸的滑动窗口,从图像中获取区域。预设尺寸可以与行人等目标所对应的图像区域相匹配。预设尺寸所表征的宽长比可以与目标的尺寸特征相匹配。例如,在目标为行人的情况下,滑动窗口为矩形,预设尺寸所表征的宽长比可以包括:1:2、或者1:3、或者1:4等。
本申请实施例可以根据不同滑动窗口所对应邻近区域之间的图像特征相似度,来判断邻近区域是否属于相同类别,具体的处理过程可以包括:
步骤1、根据邻近区域的图像特征,确定邻近区域之间的相似度;
步骤2、对相似度超过相似度阈值的两个邻近区域进行合并,以得到合并区域;
步骤3、确定合并区域和邻近区域之间的相似度,对相似度超过相似度阈值的合并区域与邻近区域进行合并,以得到合并区域;
重复步骤3,直到图像中被提取出若干个区域,作为目标区域。可以理解,目标区域可以为一个或多个,本申请实施例对于目标区域的具体数量不加以限制。
本申请实施例确定邻近区域之间的相似度的依据可以包括:颜色、纹理、尺寸和形状等图像特征。
以颜色为例,本申请实施例可以确定一个邻近区域的颜色直方图。颜色直方图的确定过程可以包括:在三通道RGB(红绿蓝,Red,Green,Blue)上分别划分出25个bins(容器,表征颜色区间),通过统计单个bin上的颜色分布来获取一个邻近区域的颜色直方图。这样,假设x和y分别表示两个邻近区域的颜色直方图对应bin上的分布,也即落入bin对应颜色区间的像素数量,c表示通道,则可以利用两个邻近区域对应颜色向量之间的向量距离方法等方法,确定邻近区域之间的相似度。
上述向量距离方法,具体可以表示为根据公式(1),确定邻近区域之间的相似度s:
其中,i可以表示25个bins分别对应的编号。Xi可以表示落入第一邻近区域的第i个bin对应颜色区间的像素数量,Yi可以表示落入第二邻近区域的第i个bin对应颜色区间的像素数量。得到的s在0到1之间,s越靠近1则可以说明两个邻近区域的相似度越高。在实际应用中,可以在s超过相似度阈值的情况下,对两个邻近区域进行合并,相似度阈值可由本领域技术人员根据实际应用需求确定,例如,相似度阈值可以为0.6等数值。
在步骤202中,本申请实施例可以根据该目标区域,自动构造训练图像,以节省训练图像的标注成本。
本申请实施例可以从图像中提取目标区域在图像中对应的局部图像,作为原图。
本申请实施例还可以对原图进行增强处理,以得到至少一个增强图。该增强处理可以包括:位置处理和尺寸处理。其中,位置处理可以实现原图中目标对应的位置变换。位置变换可以指目标在增强图中的位置相对于目标在原图中的位置发生了变化。尺寸处理可以实现原图中目标对应的尺寸变换。尺寸变换可以指目标在增强图中的尺寸相对于目标在原图中的尺寸发生了变化。
本申请实施例可以在第一特征提取单元的预训练过程中,在训练图像中设置:经过位置处理和尺寸处理的增强图,这样可以应对检测场景中待检测图像中出现的位置变换和尺寸变换问题,因此能够提高第一特征提取单元的泛化能力,进而能够增强第一特征提取单元与检测场景之间的匹配度。
步骤202的确定训练图像的过程,具体可以包括:从图像中裁切包含目标区域的原图;所述原图所具有的第一尺寸大于目标区域的尺寸;对原图进行预设处理,以得到中间图;从中间图中随机裁切具有第二尺寸的第一图像,并将第一图像放大为具有第一尺寸的第一增强图;以及,按照中间图的中心,从中间图中裁切具有第二尺寸的第二图像,并将第二图像放大为具有第一尺寸的第二增强图。
其中,预设处理可用于改变原图的画面质量,预设处理可以包括但不限于:亮度处理、噪声处理、随机翻转、随机擦除、颜色抖动等。预设处理可以增加增强图与原图在画质方面的差异。
从中间图中随机裁切具有第二尺寸的第一图像,第一图像可能包含部分目标或完整目标。这样,目标在第一增强图中的位置相对于目标在原图中的位置发生了变化,也即,实现了第一增强图相对于原图的位置处理。
按照中间图的中心,从中间图中裁切具有第二尺寸的第二图像,并将第二图像放大为第一尺寸的第二增强图。这样,可以使目标在第二增强图中的尺寸相对于目标在原图中的尺寸发生变化,也即,实现了第一增强图相对于原图的尺寸处理。
参照图3,示出了本申请一个实施例的确定训练图像的方法的流程示意图。图3用于对步骤202的确定训练图像的过程进行说明。
其中,在步骤301中,对目标区域对应的扩大区域例如150%的区域进行裁切,以得到例如120×240的原图。目标区域可以对应图像中100%的区域,则150%的区域可以为包含目标区域、且区域范围更大的区域。在实际应用中,可以按照目标区域的中心,从图像中裁切第一尺寸的区域,作为原图。具体而言,以目标区域的中心为中心,在横向与纵向分别向两端增加1/4的尺寸,可以得到150%区域。
在步骤302中,可以对原图进行预设处理,以得到中间图。预设处理可以包括:亮度处理、噪声处理、随机翻转、随机擦除、颜色抖动等画质相关处理。
在步骤303中,从中间图中随机裁切宽和高各为原图设定第一比例的第一图像,例如宽和高为原图的一半,即为60×120的第一图像,并将第一图像放大为与原图具有同样大小,例如120×240的第一增强图。其中,第二尺寸为原图的一半,只是作为示例,实际上,第二尺寸还可以为原图的2/3、3/4等尺寸。
在步骤304中,按照中间图的中心,从中间图中裁切宽和高各为原图设定第二比例的第二图像,例如宽和高为原图的一半,即为60×120的第二图像,并将第二图像放大为与原图具有同样大小,例如120×240的第二增强图。这里所说的第一比例和第二比例为正数,具体取值可以根据实际情况进行设定。
在步骤203中,可以利用第一特征提取单元对该原图进行第一特征提取,以得到第一特征。
在实际应用中,第一特征提取单元可以包括:N个级别的卷积层,其中,N可以为正整数,例如,N可以为5等数值。在具体实现中,可以对至少一个级别的卷积层的输出进行融合,以得到第一特征。
参照图4,示出了本申请一个实施例的第一特征提取单元的结构示意图,其中,第一特征提取单元可以包括:第一卷积层401、第二卷积层402、第三卷积层403、第四卷积层404和第五卷积层405。这里的卷积层是很大的stage,每个stage内部有一定数量的block,每个block包括例如3层卷积。当然,这里所说的卷积层的层数只是用于说明,不应理解为对本申请的限制。本申请中,可以在第三卷积层403之后设置第一多层感知器(MLP,Multilayer Perceptron)406,在第四卷积层404后设置第二多层感知器407,在第五卷积层405后设置第三多层感知器408。并且,还可以设置融合处理单元409,由融合处理单元409对第一多层感知器406、第二多层感知器407和第三多层感知器408的输出进行融合处理,以得到第一特征。
本申请实施例利用第一多层感知器406、第二多层感知器407和第三多层感知器408,对多个级别的卷积层输出的特征编码进行全连接操作,并将对应的全连接结果融合(如拼接)在一起,最终可以得到M(M可以为128等数值)维的第一特征,由于第一特征包含了多个级别的卷积特征,因此能够提高第一特征与检测场景的匹配度。
在步骤204中,对该增强图进行第二特征提取,以得到第二特征。
在本申请的实施例中,可以由第一特征提取单元来提取第一特征和第二特征。在本申请的另一种实现方式中,可以利用第一特征提取单元来提取第一特征,利用第二特征提取单元对增强图(如第一增强图和第二增强图等)进行特征提取,以得到第二特征,其中,第二特征提取单元与第一特征提取单元可以具有相同的神经网络结构。例如,第二特征提取单元可以包括:N个级别的卷积层。
在另一种实现方式中,上述对所述增强图进行第二特征提取,具体可以包括:利用第二特征提取单元对所述增强图进行特征提取;利用第七多层感知器和第八多层感知器,对第二特征提取单元输出的特征表示进行全连接操作,以得到第二特征。
参照图5,示出了本申请一个实施例的增强图对应特征提取模块的结构示意图,其中,增强图对应特征提取模块可以包括:第二特征提取单元501,第二特征提取单元501可以包括:第一卷积层511、第二卷积层512、第三卷积层513、第四卷积层514、第五卷积层515、第四多层感知器516、第五多层感知器517、第六多层感知器518和融合处理单元519。
增强图对应特征提取模块还可以包括:第七多层感知器502、主成分分析单元503和第八多层感知器504。
第七多层感知器502可以对融合处理单元519输出的特征编码进行全连接操作,主成分分析单元503可以提取第七多层感知器502输出的特征编码中的关键特征编码,第八多层感知器503可以对关键特征编码进行进一步的全连接操作。本申请实施例对于第七多层感知器502和第八多层感知器504所包含的神经元的数量不加以限制,例如,第七多层感知器502和第八多层感知器504所包含的神经元的数量为1024或2048或4096等。
主成分分析单元503可以利用正交变换(orthogonal transformation),把一系列可能线性相关的变量转换为一组线性不相关的新变量,也称为主成分,从而利用新变量在更小的维度下展示数据的特征。主成分分析单元503在提取关键特征编码的过程中,相当于对特征编码进行了筛选,也即筛选掉稳定性较低的特征编码,并保留了稳定性较高的特征编码,因此本申请实施例能够提高第二特征的稳定性,进而能够提高第一特征提取单元的参数更新的准确性。具体而言,增强图是对原图进行位置变换和尺寸变换后得到的,实际上增强图与原图可以对应相同的目标,本申请实施例的主成分分析单元503能够提高增强图的稳定性,因此能够提高原图与增强图之间的误差信息的准确度,进而能够提高第一特征提取单元的参数更新的准确性。
可以理解,在第七多层感知器502和第八多层感知器504之间设置主成分分析单元503,只是作为本申请的可选实施例,并不理解为本申请实施例的应用限制。实际上,本申请实施例的主成分分析单元503是可以省略的,也即,可以在第二特征提取单元501之后,依次设置第七多层感知器502和第八多层感知器504。
在实际应用中,第一特征和第二特征对应的特征向量维数可以是相同的,例如,第一特征和第二特征均可以为128维的特征向量。
在步骤205中,可以利用度量方法,根据该第一特征和该第二特征之间的匹配度。度量方法可以包括:欧式距离、或者夹角余弦、或者信息熵等,可以理解,本申请实施例对于具体的度量方法不加以限制。
在增强图为一个的情况下,本申请实施例可以根据该第一特征和第二特征之间的匹配度,确定误差信息。此种情况下,可以将误差信息为第一预设值作为更新目标。第一预设值可以表征第一特征和第二特征相同的情况下,匹配度对应的数值。例如,在采用夹角余弦确定匹配度的情况下,第一预设值可以为1;又如,在采用欧式距离确定匹配度的情况下,第一预设值可以为0。
在增强图为多个的情况下,本申请实施例可以根据该第一特征和多种第二特征之间的匹配度,确定误差信息。
在具体实现中,增强图可以包括:第一增强图和第二增强图;则上述确定误差信息的过程,可以包括:根据原图与第一增强图之间的第一匹配度、以及原图与第二增强图之间的第二匹配度,确定误差信息。
例如,可以根据第一匹配度和第二匹配度的相加结果,确定误差信息。此种情况下,可以将误差信息为第二预设值作为更新目标。例如,在采用夹角余弦方法确定匹配度的情况下,误差信息可以为1与相加结果的一半之间的差值,此种情况下,可以将误差信息为0作为更新目标。
上述夹角余弦方法,具体可以表示为根据公式(2),确定误差信息loss:
其中,v代表原图对应的第一特征,p和q分别代表两张增强图对应的第二特征。
第一特征提取单元的第一参数的更新方法可以包括:梯度下降法、或牛顿法、或拟牛顿法、或共轭梯度法等,可以理解,本申请实施例对于具体的更新方法不加以限制。
本申请实施例可以经由误差函数表征误差信息与匹配度之间的映射关系。在实际应用中,可以对误差函数的参数(如第一特征在第一特征提取单元中所对应的参数)求偏导数,把求得的参数的偏导数以向量的形式写出来,偏导数对应的向量可以称为参数对应的梯度信息。可以根据梯度信息及步长信息,得到参数对应的更新量。
在采用梯度下降法的情况下,可以采用批量梯度下降法、随机梯度下降法、或者小批量梯度下降法等。在具体实现中,可以根据一个图像对应的训练图像进行迭代;或者,可以根据多个图像对应的训练图像进行迭代。上述迭代的收敛条件可以为:误差信息符合预设条件。预设条件可以为:误差信息与第一预设值或第二预设值之间的差值绝对值小于差值阈值,或者,迭代次数超过次数阈值等。换言之,在误差信息符合预设条件的情况下,可以结束迭代;此种情况下,可以得到第一特征提取单元的第一目标参数值。
除了对第一特征提取单元的第一参数进行更新之外,本申请实施例还可以对增强图对应特征提取模块的参数进行更新,相应地,上述方法还可以包括:根据更新后的第一参数,对第二特征提取单元的第二参数进行更新;根据误差信息,对第七多层感知器和第八多层感知器的参数进行更新。第七多层感知器和第八多层感知器的参数可以参与误差信息对应的反向传播。
本申请实施例可以根据当前次的第一参数与上一次的第二参数,对上一次的第二参数进行更新。其中,当前次的第一参数可以指第i次的第一参数,上一次的第二参数可以指第(i-1)次的第二参数,i可以指迭代次数的编号,i可以为正整数。具体而言,可以针对当前次的第一参数与上一次的第二参数,分别设置对应的第一权重和第二权重,并根据第一权重和第二权重,对当前次的第一参数与上一次的第二参数进行加权处理。其中,第一权重和第二权重可以在[0,1]之间,第一权重与第二权重的和可以为1,第二权重可以为接近1的数值,如0.95等。
第二参数的更新过程如公式(3)所示:
本申请实施例的多层感知器是一种前馈人工神经网络模型,其可以将输入的多个数据集映射到单一的输出的数据集上。本申请实施例可以利用神经网络的反向传播算法,根据误差信息,对第七多层感知器和第八多层感知器的参数进行更新。
本申请实施例根据更新后的第一参数,对第二特征提取单元的第二参数进行更新,以及根据误差信息,对第七多层感知器和第八多层感知器的参数进行更新,可以在一定程度上避免原图和增强图所对应特征提取模块的参数更新不同步的问题,提高原图和增强图所对应特征提取模块的参数之间的同步性;并且,还可以提高相邻两次的第二参数之间的相关性。
综上,本申请实施例的目标检测模型的训练方法,从图像中提取目标区域,并针对该目标区域,自动构造训练图像。这样,本申请实施例可以节省训练图像的标注成本。
并且,本申请实施例中第一特征提取单元的反向传播所采用的误差信息,是根据相同目标区域所对应不同训练图像的特征表示之间的匹配度得到的。这样,本申请实施例中第一特征提取单元的反向传播可以涉及相同目标区域所表征正样本的运算,故相对于传统的自监督方法或对比学习方法,可以节省不同目标区域所表征负样本的运算,因此能够节省运算成本,且能够提高运算速度。
再者,行人与摄像头之间的距离变化等因素,使得行人在图像中的位置和尺寸也会发生变化。本申请实施例的增强图涉及的增强处理可以包括:位置处理和尺寸处理,故增强图可以表征:对原图进行位置变换和尺寸变换后的情况。而本申请实施例中第一特征提取单元的训练,能够提高原图与增强图的特征表示之间的匹配度;这样,本申请实施例能够使得第一特征提取单元在位置变换前后和尺寸变换前后具有一致的特征表示能力,因此能够提高第一特征提取单元的泛化能力。在提高第一特征提取单元的泛化能力的情况下,在检测场景发生变化的情况下,第一特征提取单元也可以适用,换言之,第一特征提取单元可以适用于变化前后的多种检测场景。
方法实施例二
本实施例对目标检测模型的训练过程进行说明,尤其地,对目标检测模型的迁移训练过程进行说明。
参考图6,示出了本申请一个实施例的目标检测模型的训练方法的步骤流程示意图,该方法具体可以包括如下步骤:
步骤601、从图像中提取目标区域;
步骤602、根据该目标区域,确定训练图像;该训练图像具体可以包括:该目标区域对应的原图和至少一个增强图;该增强图可以为对该原图进行增强处理得到的图像;该增强处理可以包括:位置处理和尺寸处理;
步骤603、利用第一特征提取单元对该原图进行第一特征提取,以得到第一特征;
步骤604、对该增强图进行第二特征提取,以得到第二特征;
步骤605、根据该第一特征和该第二特征之间的匹配度,确定误差信息,并根据该误差信息,对该第一特征提取单元的第一参数进行更新;
相对于图2所示方法实施例一,本实施例的方法还可以包括;
步骤606、根据第一目标参数值和带标签图像数据,对目标检测模型进行迁移训练;其中,第一目标参数值可以为:在误差信息符合预设条件的情况下第一参数对应的数值。
本申请实施例的带标签图像数据可以是检测场景下的图像样本,检测场景可以对应超市、商场、公园等场所,可以理解,本申请实施例对于具体的检测场景不加以限制。
如图1所示,本申请实施例的目标检测模型可以包括:第一特征提取单元101、特征融合单元102和检测头单元103,则第一目标参数值可以作为第一特征提取单元101在迁移训练过程中的初始参数,则在迁移训练过程中可以基于第一目标参数值,对第一参数进行更新。
特征融合单元102可以对应有第三参数,检测头单元103可以对应有第四参数,第三参数和第四参数的初始值可由本领域技术人员根据实际应用需求确定,本申请实施例对第三参数和第四参数的初始值不加以限制。则在迁移训练过程中,可以基于第三参数和第四参数的初始值,对第三参数和第四参数进行更新。
带标签图像数据可以带有正标签或负标签,正标签可以表征带标签图像数据中包含目标,负标签可以表征带标签图像数据不包含目标。本申请实施例在对目标检测模型进行迁移训练的过程中,可由目标检测模型对带标签图像数据进行检测,可以根据目标检测模型得到的检测结果与带标签图像数据对应的标签,确定损失信息,并根据损失信息,对目标检测模型中第一特征提取单元101、特征融合单元102和检测头单元103进行更新,在损失信息符合收敛条件的情况下,可以认为迁移训练完成,并结束迁移训练。收敛条件可以包括:损失信息与损失阈值相匹配等,可以理解,本申请实施例对于具体的收敛条件不加以限制。
在目标检测模型的训练过程中,前述的第一参数、第二参数、第三参数和第四参数,均可以通过对训练样本(包括训练图像或带标签图像数据等)进行学习得到。这类参数可以包括:神经网络的权重参数等。
在目标检测模型的训练过程中,有些参数不能通过对训练样本进行学习得到,这类参数叫做超参数。超参数的例子可以包括:神经网络的层数、每层的神经元数量、一次训练所处理的训练样本数量、学习率等。
为了节省超参数的确定所花费的运算成本,本申请实施例可以确定超参数对应的数值范围,并基于带标签图像数据的训练,在该数值范围内搜索超参数对应的目标数值。具体而言,本申请实施例可以针对数值范围内的多个备选数值,分别确定对应的损失信息,并根据损失信息,从多个备选数值中选择目标数值。例如,可以按照损失信息从优到劣的顺序,对多个备选数值进行排序,并选取排在前面的备选数值,作为目标数值。
综上,本申请实施例的目标检测模型的训练方法,根据第一目标参数值和带标签图像数据,对目标检测模型进行迁移训练。其中,第一目标参数值是根据通用的训练图像得到的,其能够使第一特征提取单元在位置变换前后和尺寸变换前后具有一致的特征表示能力,因此能够提高第一特征提取单元的泛化能力。在提高第一特征提取单元的泛化能力的情况下,本申请实施例能够提高第一特征提取单元的第一目标参数值与检测场景之间的匹配度。
并且,本申请实施例根据带标签图像数据,对目标检测模型进行迁移训练,能够使迁移训练后的目标检测模型适用于带标签图像数据所对应的检测场景,也即,可以提高迁移训练后的目标检测模型的检测能力,以及可以提高迁移训练后的目标检测模型的检测结果的准确度。
方法实施例三
本实施例对目标检测模型的检测过程进行说明,目标检测模型可以对待检测图像进行目标检测,以得到对应的检测结果。
参考图7,示出了本申请一个实施例的目标检测方法的步骤流程示意图,该方法具体可以包括如下步骤:
步骤701、接收待检测图像;
步骤702、利用目标检测模型,对该待检测图像进行目标检测,以得到对应的检测结果;
其中,该目标检测模型可以包括:第一特征提取单元;该目标检测模型的训练过程可以包括:从图像中提取目标区域;根据该目标区域,确定训练图像;该训练图像可以包括:该目标区域对应的原图和至少一个增强图;该增强图为对该原图进行增强处理得到的图像;该增强处理可以包括:位置处理和尺寸处理;利用第一特征提取单元对该原图进行第一特征提取,以得到第一特征;对该增强图进行第二特征提取,以得到第二特征;根据该第一特征和该第二特征之间的匹配度,确定误差信息,并根据该误差信息,对该第一特征提取单元的第一参数进行更新。
步骤701中的待检测图像可以源自采集装置。其中,采集装置可以采集视频,此种情况下可以从视频中提取视频帧,作为待检测图像。或者,采集装置可以采集图像,此种情况下,采集装置采集的图像可以作为待检测图像。
在步骤702中,目标检测模型可以按照图1所示的流程,对待检测图像进行目标检测。具体而言,目标检测模型中的第一特征提取单元可以提取待检测图像的特征表示。目标检测模型中的特征融合单元可以对第一特征提取单元输出的特征表示进行融合,以提高融合特征的多样性和目标检测模型的性能。
目标检测模型中的检测头单元可以根据特征融合单元输出的融合特征,检测待检测图像中是否包含行人等目标,若是,则可以给出行人等目标的位置信息。因此,本申请实施例的检测结果可以包括:不包含目标。或者,本申请实施例的检测结果可以包括:包含目标、以及目标的位置信息,其中,位置信息可以为坐标信息,或者,可以在待检测图像中对位置信息进行标注。
综上,本申请实施例的目标检测方法,从图像中提取目标区域,并针对该目标区域,自动构造训练图像。这样,本申请实施例可以节省训练图像的标注成本。
并且,本申请实施例中第一特征提取单元的反向传播所采用的误差信息,是根据相同目标区域所对应不同训练图像的特征表示之间的匹配度得到的。这样,本申请实施例中第一特征提取单元的反向传播可以涉及相同目标区域所表征正样本的运算,故相对于传统的自监督学习方法或对比学习方法,可以节省不同目标区域所表征负样本的运算,因此能够节省运算成本,且能够提高运算速度。
再者,行人与摄像头之间的距离变化等因素,使得行人在图像中的位置和尺寸也会发生变化。本申请实施例的增强图涉及的增强处理可以包括:位置处理和尺寸处理,故增强图可以表征:对原图进行位置变换和尺寸变换后的情况。而本申请实施例中第一特征提取单元的训练,能够提高原图与增强图的特征表示之间的匹配度;这样,本申请实施例能够使得第一特征提取单元在位置变换前后和尺寸变换前后具有一致的特征表示能力,因此能够提高第一特征提取单元的泛化能力。在提高第一特征提取单元的泛化能力的情况下,本申请实施例能够提高目标检测的准确度。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
在上述实施例的基础上,本实施例还提供了一种目标检测模型的训练装置,参照图8,该训练装置具体可以包括:区域提取模块801、训练图像确定模块802、第一特征提取模块803、第二特征提取模块804、误差确定模块805和第一参数更新模块806。
其中,区域提取模块801,用于从图像中提取目标区域;
训练图像确定模块802,用于根据所述目标区域,确定训练图像;所述训练图像包括:所述目标区域对应的原图和至少一个增强图;所述增强图为对所述原图进行增强处理得到的图像;所述增强处理包括:位置处理和尺寸处理;
第一特征提取模块803,用于利用第一特征提取单元对所述原图进行第一特征提取,以得到第一特征;
第二特征提取模块804,用于对所述增强图进行第二特征提取,以得到第二特征;
误差确定模块805,用于根据所述第一特征和所述第二特征之间的匹配度,确定误差信息;
第一参数更新模块806,用于根据所述误差信息,对所述第一特征提取单元的第一参数进行更新。
可选地,第二特征提取模块804可以包括:
第二特征提取单元,用于对所述增强图进行特征提取;所述第二特征提取单元与所述第一特征提取单元具有相同的神经网络结构;
第七多层感知器和第八多层感知器,用于对所述第二特征提取单元输出的特征表示进行全连接操作,以得到第二特征。
可选地,该装置还可以包括:
第二参数更新模块,用于根据更新后的第一参数,对所述第二特征提取单元的第二参数进行更新;
感知器参数更新模块,用于根据所述误差信息,对第七多层感知器和第八多层感知器的参数进行更新。
可选地,所述增强图可以包括:第一增强图和第二增强图;
误差确定模块805,具体用于根据所述原图与所述第一增强图之间的第一匹配度、以及所述原图与所述第二增强图之间的第二匹配度,确定误差信息。
可选地,训练图像确定模块802具体可以包括:
原图获取模块,用于从图像中裁切包含目标区域的原图;所述原图所具有的第一尺寸大于目标区域的尺寸;
预设处理模块,用于对原图进行预设处理,以得到中间图;
第一增强图获取模块,用于从中间图中随机裁切具有第二尺寸的第一图像,并将第一图像放大为具有第一尺寸的第一增强图。
第二增强图获取模块,用于按照中间图的中心,从中间图中裁切具有第二尺寸的第二图像,并将第二图像放大为具有第一尺寸的第二增强图。
可选地,在所述误差信息符合预设条件的情况下,所述第一参数的数值为第一目标参数值;
该装置还可以包括:
迁移训练模块,用于根据所述第一目标参数值和带标签图像数据,对目标检测模型进行迁移训练。
在上述实施例的基础上,本实施例还提供了一种目标检测装置,参照图9,该检测装置具体可以包括:接收模块901和目标检测模块902。
其中,接收模块901,用于接收待检测图像;
目标检测模块902,用于利用目标检测模型,对该待检测图像进行目标检测,以得到对应的检测结果;
其中,该目标检测模型具体可以包括:第一特征提取单元;该目标检测模型的训练过程具体可以包括:从图像中提取目标区域;根据该目标区域,确定训练图像;该训练图像包括:该目标区域对应的原图和至少一个增强图;该增强图为对该原图进行增强处理得到的图像;该增强处理具体可以包括:位置处理和尺寸处理;利用第一特征提取单元对该原图进行第一特征提取,以得到第一特征;对该增强图进行第二特征提取,以得到第二特征;根据该第一特征和该第二特征之间的匹配度,确定误差信息,并根据该误差信息,对该第一特征提取单元的第一参数进行更新。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本申请实施例中各方法步骤的指令(instructions)。
本申请实施例提供了一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得电子设备执行如上述实施例中一个或多个所述的方法。本申请实施例中,所述电子设备包括终端设备、服务器(集群)等各类型的设备。
本公开的实施例可被实现为使用任意适当的硬件,固件,软件,或及其任意组合进行想要的配置的装置,该装置可包括:终端设备、服务器(集群)等电子设备。图10示意性地示出了可被用于实现本申请中所述的各个实施例的示例性装置1100 。
对于一个实施例,图10示出了示例性装置1100,该装置具有一个或多个处理器1102、被耦合到(一个或多个)处理器1102中的至少一个的控制模块(芯片组)1104、被耦合到控制模块1104的存储器1106、被耦合到控制模块1104的非易失性存储器(NVM)/存储设备1108、被耦合到控制模块1104的一个或多个输入/输出设备1110,以及被耦合到控制模块1104的网络接口1112。
处理器1102可包括一个或多个单核或多核处理器,处理器1102可包括通用处理器或专用处理器(例如图形处理器、应用处理器、基频处理器等)的任意组合。在一些实施例中,装置1100 能够作为本申请实施例中所述终端设备、服务器(集群)等设备。
在一些实施例中,装置1100 可包括具有指令1114的一个或多个计算机可读介质(例如,存储器1106或NVM/存储设备1108) 以及与该一个或多个计算机可读介质相合并被配置为执行指令1114以实现模块从而执行本公开中所述的动作的一个或多个处理器1102。
对于一个实施例,控制模块1104可包括任意适当的接口控制器,以向(一个或多个)处理器1102中的至少一个和/或与控制模块1104通信的任意适当的设备或组件提供任意适当的接口。
控制模块1104可包括存储器控制器模块,以向存储器1106提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。
存储器1106可被用于例如为装置1100加载和存储数据和/或指令1114。对于一个实施例,存储器1106可包括任意适当的易失性存储器,例如,适当的DRAM。在一些实施例中,存储器1106可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM) 。
对于一个实施例,控制模块1104可包括一个或多个输入/输出控制器,以向NVM/存储设备1108及(一个或多个)输入/输出设备1110 提供接口。
例如,NVM/存储设备1108可被用于存储数据和/或指令1114。NVM/存储设备1108可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(HDD) 、一个或多个光盘(CD) 驱动器和/或一个或多个数字通用光盘(DVD) 驱动器)。
NVM/存储设备1108可包括在物理上作为装置1100 被安装在其上的设备的一部分的存储资源,或者其可被该设备访问可不必作为该设备的一部分。例如,NVM/存储设备1108可通过网络经由(一个或多个)输入/输出设备1110 进行访问。
(一个或多个)输入/输出设备1110 可为装置1100 提供接口以与任意其他适当的设备通信,输入/输出设备1110可以包括通信组件、音频组件、传感器组件等。网络接口1112可为装置1100 提供接口以通过一个或多个网络通信,装置1100 可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信,例如接入基于通信标准的无线网络,如WiFi、2G、3G、4G、5G等,或它们的组合进行无线通信。
对于一个实施例,(一个或多个)处理器1102中的至少一个可与控制模块1104的一个或多个控制器(例如,存储器控制器模块) 的逻辑封装在一起。对于一个实施例,(一个或多个)处理器1102中的至少一个可与控制模块1104的一个或多个控制器的逻辑封装在一起以形成***级封装(SiP) 。对于一个实施例, (一个或多个)处理器1102中的至少一个可与控制模块1104的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例, (一个或多个)处理器1102中的至少一个可与控制模块1104的一个或多个控制器的逻辑集成在同一模具上以形成片上***(SoC) 。
在各个实施例中,装置1100可以但不限于是:服务器、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。在各个实施例中,装置1100 可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,装置1100包括一个或多个摄像机、键盘、液晶显示器(LCD) 屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC) 和扬声器。
其中,检测装置中可采用主控芯片作为处理器或控制模块,传感器数据、位置信息等存储到存储器或NVM/存储设备中,传感器组可作为输入/输出设备,通信接口可包括网络接口。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本申请实施例是参照根据本申请实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种目标检测模型的训练方法和装置、一种目标检测方法和装置、一种电子设备和一种机器可读介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种目标检测模型的训练方法,其特征在于,所述目标检测模型包括:第一特征提取单元,所述方法包括:
利用选择性搜索方法,从图像中提取目标区域;所述目标区域用于表征目标对应的区域;
根据所述目标区域,确定训练图像;所述训练图像包括:所述目标区域对应的原图和至少一个增强图;所述增强图为对所述原图进行增强处理得到的图像;所述增强处理包括:位置处理和尺寸处理;
利用第一特征提取单元对所述原图进行第一特征提取,以得到第一特征;
对所述增强图进行第二特征提取,以得到第二特征;
根据所述第一特征和所述第二特征之间的匹配度,确定误差信息,并根据所述误差信息,对所述第一特征提取单元的第一参数进行更新;
所述根据所述目标区域,确定训练图像,包括:从图像中裁切包含目标区域的原图;所述原图所具有的第一尺寸大于目标区域的尺寸;对原图进行预设处理,以得到中间图;从中间图中随机裁切具有第二尺寸的第一图像,并将第一图像放大为具有第一尺寸的第一增强图;按照中间图的中心,从中间图中裁切具有第二尺寸的第二图像,并将第二图像放大为具有第一尺寸的第二增强图。
2.根据权利要求1所述的方法,其特征在于,所述对所述增强图进行第二特征提取,包括:
利用第二特征提取单元对所述增强图进行特征提取;所述第二特征提取单元与所述第一特征提取单元具有相同的神经网络结构;
利用第七多层感知器和第八多层感知器,对所述第二特征提取单元输出的特征表示进行全连接操作,以得到第二特征。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
根据更新后的第一参数,对所述第二特征提取单元的第二参数进行更新;
根据所述误差信息,对所述第七多层感知器和所述第八多层感知器的参数进行更新。
4.根据权利要求1所述的方法,其特征在于,所述增强图包括:第一增强图和第二增强图;
所述根据所述第一特征和所述第二特征之间的匹配度,确定误差信息,包括:根据所述原图与所述第一增强图之间的第一匹配度、以及所述原图与所述第二增强图之间的第二匹配度,确定误差信息。
5.根据权利要求1至4中任一所述的方法,其特征在于,在所述误差信息符合预设条件的情况下,所述第一参数的数值为第一目标参数值;
所述方法还包括:
根据所述第一目标参数值和带标签图像数据,对目标检测模型进行迁移训练。
6.一种目标检测方法,其特征在于,所述方法包括:
接收待检测图像;
利用目标检测模型,对所述待检测图像进行目标检测,以得到对应的检测结果;
其中,所述目标检测模型包括:第一特征提取单元;所述目标检测模型的训练过程包括:利用选择性搜索方法,从图像中提取目标区域;所述目标区域用于表征目标对应的区域;根据所述目标区域,确定训练图像;所述训练图像包括:所述目标区域对应的原图和至少一个增强图;所述增强图为对所述原图进行增强处理得到的图像;所述增强处理包括:位置处理和尺寸处理;利用第一特征提取单元对所述原图进行第一特征提取,以得到第一特征;对所述增强图进行第二特征提取,以得到第二特征;根据所述第一特征和所述第二特征之间的匹配度,确定误差信息,并根据所述误差信息,对所述第一特征提取单元的第一参数进行更新;
所述根据所述目标区域,确定训练图像,包括:从图像中裁切包含目标区域的原图;所述原图所具有的第一尺寸大于目标区域的尺寸;对原图进行预设处理,以得到中间图;从中间图中随机裁切具有第二尺寸的第一图像,并将第一图像放大为具有第一尺寸的第一增强图;按照中间图的中心,从中间图中裁切具有第二尺寸的第二图像,并将第二图像放大为具有第一尺寸的第二增强图。
7.一种目标检测模型的训练装置,其特征在于,所述目标检测模型包括:第一特征提取单元,所述装置包括:
区域提取模块,用于利用选择性搜索方法,从图像中提取目标区域;所述目标区域用于表征目标对应的区域;
训练图像确定模块,用于根据所述目标区域,确定训练图像;所述训练图像包括:所述目标区域对应的原图和至少一个增强图;所述增强图为对所述原图进行增强处理得到的图像;所述增强处理包括:位置处理和尺寸处理;
第一特征提取模块,用于利用第一特征提取单元对所述原图进行第一特征提取,以得到第一特征;
第二特征提取模块,用于对所述增强图进行第二特征提取,以得到第二特征;
误差确定模块,用于根据所述第一特征和所述第二特征之间的匹配度,确定误差信息;
第一参数更新模块,用于根据所述误差信息,对所述第一特征提取单元的第一参数进行更新;
所述训练图像确定模块包括:
原图获取模块,用于从图像中裁切包含目标区域的原图;所述原图所具有的第一尺寸大于目标区域的尺寸;
预设处理模块,用于对原图进行预设处理,以得到中间图;
第一增强图获取模块,用于从中间图中随机裁切具有第二尺寸的第一图像,并将第一图像放大为具有第一尺寸的第一增强图;
第二增强图获取模块,用于按照中间图的中心,从中间图中裁切具有第二尺寸的第二图像,并将第二图像放大为具有第一尺寸的第二增强图。
8.一种目标检测装置,其特征在于,所述装置包括:
接收模块,用于接收待检测图像;
目标检测模块,用于利用目标检测模型,对所述待检测图像进行目标检测,以得到对应的检测结果;
其中,所述目标检测模型包括:第一特征提取单元;所述目标检测模型的训练过程包括:利用选择性搜索方法,从图像中提取目标区域;所述目标区域用于表征目标对应的区域;根据所述目标区域,确定训练图像;所述训练图像包括:所述目标区域对应的原图和至少一个增强图;所述增强图为对所述原图进行增强处理得到的图像;所述增强处理包括:位置处理和尺寸处理;利用第一特征提取单元对所述原图进行第一特征提取,以得到第一特征;对所述增强图进行第二特征提取,以得到第二特征;根据所述第一特征和所述第二特征之间的匹配度,确定误差信息,并根据所述误差信息,对所述第一特征提取单元的第一参数进行更新;
所述根据所述目标区域,确定训练图像,包括:从图像中裁切包含目标区域的原图;所述原图所具有的第一尺寸大于目标区域的尺寸;对原图进行预设处理,以得到中间图;从中间图中随机裁切具有第二尺寸的第一图像,并将第一图像放大为具有第一尺寸的第一增强图;按照中间图的中心,从中间图中裁切具有第二尺寸的第二图像,并将第二图像放大为具有第一尺寸的第二增强图。
9.一种电子设备,其特征在于,包括:处理器;和
存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如权利要求1-6中任一项所述的方法。
10.一种机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210618552.3A CN114708437B (zh) | 2022-06-02 | 2022-06-02 | 目标检测模型的训练方法、目标检测方法、装置和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210618552.3A CN114708437B (zh) | 2022-06-02 | 2022-06-02 | 目标检测模型的训练方法、目标检测方法、装置和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114708437A CN114708437A (zh) | 2022-07-05 |
CN114708437B true CN114708437B (zh) | 2022-09-06 |
Family
ID=82177270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210618552.3A Active CN114708437B (zh) | 2022-06-02 | 2022-06-02 | 目标检测模型的训练方法、目标检测方法、装置和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114708437B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114092848A (zh) * | 2020-07-31 | 2022-02-25 | 阿里巴巴集团控股有限公司 | 对象确定和机器模型的处理方法、装置、设备和存储介质 |
CN114882884B (zh) * | 2022-07-06 | 2022-09-23 | 深圳比特微电子科技有限公司 | 一种基于深度学习模型的多任务实现方法、装置 |
CN115082758B (zh) * | 2022-08-19 | 2022-11-11 | 深圳比特微电子科技有限公司 | 目标检测模型的训练方法、目标检测方法、装置和介质 |
CN116978008B (zh) * | 2023-07-12 | 2024-04-26 | 睿尔曼智能科技(北京)有限公司 | 一种融合rgbd的半监督目标检测方法和*** |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101114A (zh) * | 2020-08-14 | 2020-12-18 | 中国科学院深圳先进技术研究院 | 一种视频目标检测方法、装置、设备以及存储介质 |
CN113283414A (zh) * | 2021-07-26 | 2021-08-20 | 深圳市安软科技股份有限公司 | 行人属性识别方法、相关设备及计算机可读存储介质 |
CN114140862A (zh) * | 2021-12-14 | 2022-03-04 | 北京三快在线科技有限公司 | 模型训练方法、人脸识别方法、装置、设备、介质及产品 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017206066A1 (en) * | 2016-05-31 | 2017-12-07 | Nokia Technologies Oy | Method and apparatus for detecting small objects with an enhanced deep neural network |
-
2022
- 2022-06-02 CN CN202210618552.3A patent/CN114708437B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101114A (zh) * | 2020-08-14 | 2020-12-18 | 中国科学院深圳先进技术研究院 | 一种视频目标检测方法、装置、设备以及存储介质 |
CN113283414A (zh) * | 2021-07-26 | 2021-08-20 | 深圳市安软科技股份有限公司 | 行人属性识别方法、相关设备及计算机可读存储介质 |
CN114140862A (zh) * | 2021-12-14 | 2022-03-04 | 北京三快在线科技有限公司 | 模型训练方法、人脸识别方法、装置、设备、介质及产品 |
Also Published As
Publication number | Publication date |
---|---|
CN114708437A (zh) | 2022-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114708437B (zh) | 目标检测模型的训练方法、目标检测方法、装置和介质 | |
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN108509978B (zh) | 基于cnn的多级特征融合的多类目标检测方法及模型 | |
US10671855B2 (en) | Video object segmentation by reference-guided mask propagation | |
CN109753913B (zh) | 计算高效的多模式视频语义分割方法 | |
CN112395957B (zh) | 一种针对视频目标检测的在线学习方法 | |
CN110516514B (zh) | 一种目标检测模型的建模方法和装置 | |
US20210081695A1 (en) | Image processing method, apparatus, electronic device and computer readable storage medium | |
CN111368636B (zh) | 目标分类方法、装置、计算机设备和存储介质 | |
CN112561910A (zh) | 一种基于多尺度特征融合的工业表面缺陷检测方法 | |
CN113468978B (zh) | 基于深度学习的细粒度车身颜色分类方法、装置和设备 | |
CN112581462A (zh) | 工业产品的外观缺陷检测方法、装置及存储介质 | |
CN112819858B (zh) | 基于视频增强的目标跟踪方法、装置、设备及存储介质 | |
CN111461145A (zh) | 一种基于卷积神经网络进行目标检测的方法 | |
CN111401421A (zh) | 基于深度学习的图像类别判定方法、电子设备以及介质 | |
CN111179212B (zh) | 集成蒸馏策略和反卷积的微小目标检测片上实现方法 | |
CN115115973A (zh) | 一种基于多感受野与深度特征的弱小目标检测方法 | |
CN112926595B (zh) | 深度学习神经网络模型的训练装置、目标检测***及方法 | |
CN112686122B (zh) | 人体及影子的检测方法、装置、电子设备、存储介质 | |
CN113963333A (zh) | 一种基于改进yolof模型的交通标志牌检测方法 | |
CN116884003B (zh) | 图片自动标注方法、装置、电子设备及存储介质 | |
CN117765485A (zh) | 基于改进的深度残差网络的车型识别方法、装置和设备 | |
CN112348011A (zh) | 一种车辆定损方法、装置及存储介质 | |
CN114743045B (zh) | 一种基于双分支区域建议网络的小样本目标检测方法 | |
CN114170269B (zh) | 一种基于时空相关性的多目标跟踪方法、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |