CN111507335B

CN111507335B - 自动标注利用于深度学习网络的训练图像的方法和装置

Info

Publication number: CN111507335B
Application number: CN202010045702.7A
Authority: CN
Inventors: 金桂贤; 金镕重; 金寅洙; 金鹤京; 南云铉; 夫硕焄; 成明哲; 吕东勳; 柳宇宙; 张泰雄; 郑景中; 渚泓模; 赵浩辰
Original assignee: Stradvision Inc
Current assignee: Stradvision Inc
Priority date: 2019-01-31
Filing date: 2020-01-16
Publication date: 2023-10-13
Anticipated expiration: 2040-01-16
Also published as: JP6853560B2; KR102326256B1; US10540572B1; EP3690742A1; JP2020126614A; CN111507335A; KR20200095335A

Abstract

本发明提供用于获得高精密度的对待利用于学习神经网络的训练图像进行自动标注(auto‑labeling)的方法，包括：步骤(a)，自动标注装置使元感兴趣区域(ROI，Region Of Interest)检测网络输出特征地图，获得特定训练图像上的对象根据各个位置进行分组的n个当前元感兴趣区域；以及步骤(b)，自动标注装置通过在特定训练图像上对与n个当前元感兴趣区域相对应的区域进行裁剪(crop)来生成n个加工图像，使对象检测网络分别输出具有分别与n个加工图像有关的各个边界框的n个所自动标注的加工图像，通过合并n个所自动标注的加工图像来生成所自动标注的特定训练图像。方法可利用使用策略梯度算法(policy gradient algorithm)的强化学习、在线学习、连续学习及超参数学习来执行。

Description

自动标注利用于深度学习网络的训练图像的方法和装置

技术领域

本发明涉及对利用于学习神经网络的训练图像进行自动标注的方法及装置。

背景技术

近来，对利用机器学习(machine learning)来识别对象的方法等进行研究。通过这种机器学习环节，使利用在输入层与输出层之间具有多个隐含层(hidden layer)的神经网络的深度学习具有高识别性能。

而且，利用上述深度学习的上述神经网络通常通过利用损失的反向传播进行学习。

为了进行这种深度学习网络的学习，需要由标注者(labeler)对个别数据点添加标签(tag)，即，标签(label)的训练数据。准备这种训练数据(即，准确分类数据)，尤其，在利用大量的训练数据的情况和数据预处理的质量持续不高的情况下，劳动密集、成本高且繁琐。以往的可相互标注的方法成本高而无法导出理想结果。

因此，最近，执行利用基于深度学习的自动标注装置来对训练图像添加标签(tag)，即，标签(label)的自动标注，通过检查由检查人员自动标注的训练图像来校正上述标签(tag)或标签(label)。

这种以往的自动标注中，为了准确地检测大小小的对象而放大图像，但在放大上述图像的大小的情况下，存在运算量增加的问题。

与此相反，在为了减少上述运算量而直接使用上述图像的情况下，由于无法准确地检测出大小小的上述对象，因此导致准确性下降。

因此，本发明欲提出维持准确性并能够减少上述运算量的自动标注方法。

发明内容

技术问题

本发明的目的在于，解决以上提及的所有问题。

本发明的再一目的在于，可通过检测位于需要自动标注的图像内的大小小的对象来进行标注。

本发明的另一目的在于，在不增加运算量的情况下，可通过检测位于需要自动标注的上述图像内的大小小的上述对象来进行标注。

本发明的还有一目的在于，在不增加运算量的情况下，可提高自动标注的准确性。

解决问题的手段

为了达成如上所述的本发明的目的，并带来后述的本发明的特征性效果，本发明的特征性结构如下：

根据本发明的一方面，提供对待利用于学习神经网络的一个以上训练图像进行自动标注(auto-labeling)的方法，其特征在于，包括：步骤(a)，若获得上述训练图像中的特定训练图像，则自动标注装置使元感兴趣区域(ROI，Region Of Interest)检测网络对上述特定训练图像适用一个以上卷积运算来输出至少一个特征地图，通过参照上述特征地图来获得上述特定训练图像上的对象根据各个位置进行分组的与上述对象的区域相对应的n个当前元感兴趣区域；以及步骤(b)，上述自动标注装置通过在上述特定训练图像上对与上述n个当前元感兴趣区域相对应的区域进行裁剪(crop)来生成n个加工图像，使对象检测网络分别输出具有分别与上述n个加工图像有关的各个边界框的n个所自动标注的加工图像，通过合并上述n个所自动标注的加工图像来生成所自动标注的特定训练图像。

一实施例中，本发明的方法的特征在于，在上述步骤(a)中，上述自动标注装置使上述元感兴趣区域检测网络对各个网格单元格内各个上述当前元感兴趣区域的各位置、各大小及各当前元感兴趣区域分数进行计算之后，将与上述当前元感兴趣区域分数中的第一预设阈值以上的特定当前元感兴趣区域分数相对应的特定当前元感兴趣区域判断为上述n个当前元感兴趣区域。

一实施例中，本发明的方法的特征在于，上述训练图像包括用于验证的验证图像，上述第一预设阈值为在通过对应于上述验证图像来获得的验证元感兴趣区域中成为正确答案的概率最高的特定验证元感兴趣区域的特定验证元感兴趣区域分数。

一实施例中，本发明的方法的特征在于，上述特征地图包括用于计算上述当前元感兴趣区域的上述位置的两个以上第一特征地图通道、用于计算上述当前元感兴趣区域的上述大小的两个以上第二特征地图通道以及用于计算上述当前元感兴趣区域分数的至少一个第三特征地图通道。

一实施例中，本发明的方法的特征在于，上述当前元感兴趣区域分数分别为对各个上述当前元感兴趣区域成为正确答案的各个概率适用sigmoid运算的各个结果。

一实施例中，本发明的方法的特征在于，在上述步骤(a)中，上述自动标注装置执行步骤(i)及步骤(ii)中的一个步骤，步骤(i)中，通过缩小上述特定训练图像来生成至少一个缩小的图像之后，使上述元感兴趣区域检测网络对上述缩小的图像适用上述卷积运算来输出上述特征地图，步骤(ii)中，使上述元感兴趣区域检测网络通过缩小上述特定训练图像来生成上述缩小的图像之后，使上述元感兴趣区域检测网络对上述缩小的图像适用上述卷积运算来输出上述特征地图。

一实施例中，本发明的方法的特征在于，上述元感兴趣区域检测网络包括一个以上卷积层。

一实施例中，本发明的方法的特征在于，在上述步骤(b)中，上述自动标注装置在合并上述n个所自动标注的加工图像时，去除上述边界框中的两个以上上述所自动标注的加工图像在从重叠区域的边缘至内侧的特定距离内仅呈现一部分的一个以上特定边界框。

一实施例中，本发明的方法的特征在于，在上述步骤(b)中，上述自动标注装置在合并上述n个所自动标注的加工图像时，对两个以上上述所自动标注的加工图像位于重叠区域内的上述边界框适用非极大值抑制(NMS，Non Maximum Suppression)来获得与位于上述重叠区域内的一个以上特定对象相对应的一个以上特定边界框。

一实施例中，本发明的方法的特征在于，在上述步骤(b)中，上述自动标注装置通过对上述n个加工图像进行调整大小来使它们变为相同大小之后，使上述对象检测网络生成上述边界框。

一实施例中，本发明的方法的特征在于，上述自动标注装置对包括上述边界框的上述相同大小的上述n个加工图像进行调整大小来使它们具有与上述特定训练图像相对应的大小之后，进行合并。

一实施例中，本发明的方法的特征在于，上述元感兴趣区域检测网络通过学习装置处于执行步骤(i)、步骤(ii)、步骤(iii)、步骤(iv)以及步骤(v)的状态，步骤(i)中，若获得预先训练图像中的至少一个特定预先训练图像，则对上述特定预先训练图像适用上述卷积运算来输出至少一个预先学习用特征地图，步骤(ii)中，对上述预先学习用特征地图的各网格单元格内的预先学习用元感兴趣区域进行计算，步骤(iii)中，通过对应于包括上述预先学习用元感兴趣区域的预先学习用元感兴趣区域组来生成根据至少一个规定规则调整的一个以上样品元感兴趣区域组，步骤(iv)中，对各个上述样品元感兴趣区域组的各样品元组分数进行计算，并对上述预先学习用元感兴趣区域组的当前元组分数进行计算之后，对使上述预先学习用元感兴趣区域组的上述当前元组分数向具有高上述样品元组分数的特定样品元感兴趣区域组的方向进行调整的至少一个预先学习用梯度进行计算，步骤(v)中，通过利用上述预先学习用梯度的强化学习来学习上述元感兴趣区域检测网络的一个以上参数中的至少一部分。

一实施例中，本发明的方法的特征在于，上述当前元组分数能够通过准确性(R)+C×效率性(R)来获得，上述准确性(R)为在所有上述预先学习用元感兴趣区域中检测到的对象数占上述特定预先训练图像上的对象的总数量的比率，上述效率性(R)为上述预先学习用元感兴趣区域的面积和占上述特定预先训练图像的面积的比率与1之间的差值，上述C为通过对应于为了验证上述预先训练图像而使用的预先学习用验证图像来获得的验证元组分数和1中的最大值。

一实施例中，本发明的方法的特征在于，上述样品元感兴趣区域组中的任意一个样品元感兴趣区域组的样品元组分数能够通过(R’)+C×效率性(R’)来获得，上述准确性(R’)为在上述样品元感兴趣区域组中的上述任意一个样品元感兴趣区域组的所有样品元感兴趣区域内检测到的对象数量占上述特定预先训练图像上的对象的总数量的比率，上述效率性(R’)为上述样品元感兴趣区域的面积和占上述特定预先训练图像的面积的比率与1之间的差值，上述C为通过对应于为了验证上述预先训练图像而使用的预先学习用验证图像来获得的验证元组分数和1中的最大值。

一实施例中，本发明的方法的特征在于，上述准确性(R’)为在上述任意一个样品元感兴趣区域组的上述样品元感兴趣区域中的样品元感兴趣区域分数为第二预设阈值以上的特定样品元感兴趣区域中检测到的对象数量占上述特定预先训练图像上的对象的总数量的比率，上述效率性(R’)为在上述特定样品元感兴趣区域的面积和占上述特定预先训练图像的面积的比率与1之间的差值。

根据本发明的另一方面，提供对待利用于学习神经网络的一个以上训练图像进行自动标注(auto-labeling)的自动标注装置，其特征在于，包括：至少一个存储器，用于存储指令；以及至少一个处理器，执行上述指令来执行步骤(I)及步骤(II)，步骤(I)中，若获得上述训练图像中的特定训练图像，使元感兴趣区域(ROI，Region Of Interest)检测网络对上述特定训练图像适用一个以上卷积运算来输出至少一个特征地图，通过参照上述特征地图来获得上述特定训练图像上的对象根据各个位置进行分组的与上述对象的区域相对应的n个当前元感兴趣区域，步骤(II)中，通过在上述特定训练图像上对与上述n个当前元感兴趣区域相对应的区域进行裁剪(crop)来生成n个加工图像，使对象检测网络分别输出具有分别与上述n个加工图像有关的各个边界框的n个所自动标注的加工图像，通过合并上述n个所自动标注的加工图像来生成所自动标注的特定训练图像。

一实施例中，本发明的自动标注装置的特征在于，在上述步骤(I)中，上述处理器使上述元感兴趣区域检测网络对各个网格单元格内各个上述当前元感兴趣区域的各位置、各大小及各当前元感兴趣区域分数进行计算之后，将与上述当前元感兴趣区域分数中的第一预设阈值以上的特定当前元感兴趣区域分数相对应的特定当前元感兴趣区域判断为上述n个当前元感兴趣区域。

一实施例中，本发明的自动标注装置的特征在于，上述训练图像包括用于验证的验证图像，上述第一预设阈值为在通过对应于上述验证图像来获得的验证元感兴趣区域中成为正确答案的概率最高的特定验证元感兴趣区域的特定验证元感兴趣区域分数。

一实施例中，本发明的自动标注装置的特征在于，上述特征地图包括用于计算上述当前元感兴趣区域的上述位置的两个以上第一特征地图通道、用于计算上述当前元感兴趣区域的上述大小的两个以上第二特征地图通道以及用于计算上述当前元感兴趣区域分数的至少一个第三特征地图通道。

一实施例中，本发明的自动标注装置的特征在于，上述当前元感兴趣区域分数分别为对各个上述当前元感兴趣区域成为正确答案的各个概率适用sigmoid运算的各个结果。

一实施例中，本发明的自动标注装置的特征在于，在上述步骤(I)中，上述处理器执行步骤(i)及步骤(ii)中的一个步骤，步骤(i)中，通过缩小上述特定训练图像来生成至少一个缩小的图像之后，使上述元感兴趣区域检测网络对上述缩小的图像适用上述卷积运算来输出上述特征地图，步骤(ii)中，使上述元感兴趣区域检测网络通过缩小上述特定训练图像来生成上述缩小的图像之后，使上述元感兴趣区域检测网络对上述缩小的图像适用上述卷积运算来输出上述特征地图。

一实施例中，本发明的自动标注装置的特征在于，上述元感兴趣区域检测网络包括一个以上卷积层。

一实施例中，本发明的自动标注装置的特征在于，在上述步骤(II)中，上述处理器在合并上述n个所自动标注的加工图像时，去除上述边界框中的两个以上上述所自动标注的加工图像在从重叠区域的边缘至内侧的特定距离内仅呈现一部分的一个以上特定边界框。

一实施例中，本发明的自动标注装置的特征在于，在上述步骤(II)中，上述处理器在合并上述n个所自动标注的加工图像时，对两个以上上述所自动标注的加工图像位于重叠区域内的上述边界框适用非极大值抑制(NMS，Non Maximum Suppression)来获得与位于上述重叠区域内的一个以上特定对象相对应的一个以上特定边界框。

一实施例中，本发明的自动标注装置的特征在于，在上述步骤(II)中，上述处理器通过对上述n个加工图像进行调整大小来使它们变为相同大小之后，使上述对象检测网络生成上述边界框。

一实施例中，本发明的自动标注装置的特征在于，上述处理器对包括上述边界框的上述相同大小的上述n个加工图像进行调整大小来使它们具有与上述特定训练图像相对应的大小之后，进行合并。

一实施例中，本发明的自动标注装置的特征在于，上述元感兴趣区域检测网络通过学习装置处于执行步骤(i)、步骤(ii)、步骤(iii)、步骤(iv)以及步骤(v)的状态，步骤(i)中，若获得预先训练图像中的至少一个特定预先训练图像，则对上述特定预先训练图像适用上述卷积运算来输出至少一个预先学习用特征地图，步骤(ii)中，对上述预先学习用特征地图的各网格单元格内的预先学习用元感兴趣区域进行计算，步骤(iii)中，通过对应于包括上述预先学习用元感兴趣区域的预先学习用元感兴趣区域组来生成根据至少一个规定规则调整的一个以上样品元感兴趣区域组，步骤(iv)中，对各个上述样品元感兴趣区域组的各样品元组分数进行计算，并对上述预先学习用元感兴趣区域组的当前元组分数进行计算之后，对使上述预先学习用元感兴趣区域组的上述当前元组分数向具有高上述样品元组分数的特定样品元感兴趣区域组的方向进行调整的至少一个预先学习用梯度进行计算，步骤(v)中，通过利用上述预先学习用梯度的强化学习来学习上述元感兴趣区域检测网络的一个以上参数中的至少一部分。

一实施例中，本发明的自动标注装置的特征在于，上述当前元组分数能够通过准确性(R)+C×效率性(R)来获得，上述准确性(R)为在所有上述预先学习用元感兴趣区域中检测到的对象数占上述特定预先训练图像上的对象的总数量的比率，上述效率性(R)为上述预先学习用元感兴趣区域的面积和占上述特定预先训练图像的面积的比率与1之间的差值，上述C为通过对应于为了验证上述预先训练图像而使用的预先学习用验证图像来获得的验证元组分数和1中的最大值。

一实施例中，本发明的自动标注装置的特征在于，上述样品元感兴趣区域组中的任意一个样品元感兴趣区域组的样品元组分数能够通过(R’)+C×效率性(R’)来获得，上述准确性(R’)为在上述样品元感兴趣区域组中的上述任意一个样品元感兴趣区域组的所有样品元感兴趣区域内检测到的对象数量占上述特定预先训练图像上的对象的总数量的比率，上述效率性(R’)为上述样品元感兴趣区域的面积和占上述特定预先训练图像的面积的比率与1之间的差值，上述C为通过对应于为了验证上述预先训练图像而使用的预先学习用验证图像来获得的验证元组分数和1中的最大值。

一实施例中，本发明的自动标注装置的特征在于，上述准确性(R’)为在上述任意一个样品元感兴趣区域组的上述样品元感兴趣区域中的样品元感兴趣区域分数为第二预设阈值以上的特定样品元感兴趣区域中检测到的对象数量占上述特定预先训练图像上的对象的总数量的比率，上述效率性(R’)为在上述特定样品元感兴趣区域的面积和占上述特定预先训练图像的面积的比率与1之间的差值。

此外，还提供用于存储执行本发明的方法的计算机程序的计算机可读存储介质。

发明的效果

本发明中，仅对图像上的包括对象的区域进行裁剪(crop)来执行自动标注，从而可减少用于自动标注的运算量。

并且，本发明中，对图像上的大小小的对象区域进行裁剪并调整大小来执行自动标注，从而可通过准确地检测大小小的对象来进行标注，进而可提高自动标注的准确性。

并且，本发明中，仅对对象位于图像内的区域进行裁剪并调整大小来执行自动标注，从而可减少自动标注的运算量的同时提高准确性。

附图说明

为了说明本发明的实施例而所附的以下附图只是本发明的实施例中的一部分，本发明所属领域的普通技术人员(以下，“普通技术人员”)可以在不付出创造性劳动的情况下通过该附图得出其他附图。

图1根据本发明一实施例简要示出对待利用于学习神经网络的一个以上训练图像进行自动标注的自动标注装置。

图2根据本发明一实施例简要示出对待利用于学习上述神经网络的上述训练图像进行自动标注的方法。

图3本发明一实施例简要示出在对待利用于学习上述神经网络的上述训练图像进行标注的方法中从元感兴趣区域检测网络获得当前元感兴趣区域的过程。

图4本发明一实施例简要示出在对待利用于学习上述神经网络的上述训练图像进行标注的方法中学习上述元感兴趣区域检测网络的过程。

图5本发明一实施例简要示出在对待利用于学习上述神经网络的上述训练图像进行标注的方法中检测用于自动标注的对象的过程。

具体实施方式

以下，本发明能够实施的特定实施例为例，参照附图对本发明进行详细说明，本发明的目的、技术手段及优点将更加明确。普通技术人员可以参照对这些实施例的详细说明充分实施这些实施例。

并且，本发明的详细说明及权利要求书中，术语“包括”及其变形不排除其他技术特征、附加物、结构要素或步骤等。对普通技术人员而言，本发明的其他目的、优点及特性的一部分可以从本说明书得知，一部分可以在实施本发明的过程中得知。以下例示及附图只是实例，本发明并不局限于此。

进而，本发明包括本说明书中提供的多个实施例的所有组合。本发明的各种实施例虽然不同但不必相互排斥。例如，本文所记载的特定形状、结构及特性，在一实施例中不脱离本发明的思想及范围的情况下还可体现为另一实施例。并且，所公开的各个实施例内的个别结构要素的位置或配置可以在不脱离本发明的思想及范围的情况下进行变更。因此，后述的详细说明并不是限定的意思，只要能适当说明，本发明的范围应根据与权利要求书的范围等同的所有范围和所附的权利要求书而定。附图中类似的附图标记在多个方面指类似的功能。

本发明中提及的各种图像可以包括柏油马路或非柏油马路的相关图像，这种情况下可以假设包括马路环境中可以出现的物体(假如车辆、人、动物、植物、物体、建筑物、飞机或无人机等飞行物、其他障碍物)，但并不局限于此。本发明中提及的各种图像还可以为与马路无关的图像(假如非柏油马路、胡同、空地、海、湖、河、山、树林、沙漠、天空、与室内相关的图像)，这种情况下可以假设包括非柏油马路、胡同、空地、海、湖、河、山、树林、沙漠、天空、室内环境中可以出现的物体(假如车辆、人、动物、植物、物体、建筑物、飞机或无人机等飞行物、其他障碍物)，但并不局限于此。

以下，为了使本发明所属领域的普通技术人员容易实施本发明，参照附图对本发明的优选实施例进行详细说明。

图1根据本发明一实施例简要示出对待利用于学习神经网络的一个以上训练图像进行自动标注(auto-labeling)的自动标注装置，参照图1，上述自动标注装置100可以包括：存储器110，存储用于对上述训练图像进行自动标注的指令；以及处理器120，为了对上述训练图像进行自动标注而执行与存储在上述存储器110的上述指令相对应的步骤。

具体地，上述自动标注装置100典型地利用至少一个计算装置(例如，可包括计算机处理器、存储器、内存、输入装置及输出装置、其他现有的计算装置的结构要素的装置；路由器、开关等电子通信装置；网络附属存储(NAS)及存储区域网络(SAN)等电子信息存储***)和至少一个计算机软件(即，使得上述计算装置以特定方式运行的指令)的组合来实现所需的***性能。

并且，上述计算装置的处理器可以包括MPU(Micro Processing Unit)或CPU(Central Processing Unit)、缓存存储器(Cache Memory)、数据总线(Data Bus)等硬件结构。并且，上述计算装置还可包括操作***及执行特定目的的应用的软件结构。

然而，不排除上述计算装置包括用于实施本发明的处理器、存储器、介质或其他计算用结构要素整合的形态的整合处理器的情况。

以下，参照图2来说明根据本发明一实施例的对待利用于学习利用上述自动标注装置100分析图像的上述神经网络的上述训练图像进行标注的方法。

首先，若获得上述训练图像中的至少一个特定训练图像IM10，则上述自动标注装置100使元感兴趣区域(ROI，Region Of Interest)检测网络20对上述特定训练图像IM10适用一个以上卷积运算来输出至少一个特征地图，通过参照上述特征地图来获得上述特定训练图像IM10上的对象根据各个位置进行分组的与上述对象的区域相对应的n个当前元感兴趣区域。

此时，上述元感兴趣区域检测网络20可包括一个以上卷积层，对上述特定训练图像IM10适用上述卷积运算来输出M×M×L体积的特征地图。

另一方面，上述自动标注装置100为了减少上述运算量而可通过缩小上述特定训练图像IM10来生成至少一个缩小的图像并对上述缩小的图像适用上述卷积运算，而不是使上述元感兴趣区域检测网络20对上述特定训练图像IM10适用上述卷积运算。

作为一例，上述自动标注装置100可通过缩小上述特定训练图像IM10来生成上述缩小的图像之后，使上述元感兴趣区域检测网络20对上述缩小的图像适用上述卷积运算来输出上述特征地图。作为另一例，上述自动标注装置100可使上述元感兴趣区域检测网络20通过缩小上述特定训练图像IM10来生成上述缩小的图像，对上述缩小的图像适用上述卷积运算来输出上述特征地图。

并且，上述训练图像可包括具有固有真标签的验证图像。而且，在附图中，在上述特定训练图像IM10内用虚线表示的框分别为例示性示出的上述对象分别位于上述特定训练图像IM10内的各区域。

而且，以下，参照图3来更详细地说明上述元感兴趣区域检测网络20获得上述n个当前元感兴趣区域的过程。

若获得上述特定训练图像IM10，则上述元感兴趣区域检测网络20通过缩小上述特定训练图像IM10来生成上述缩小的图像，可向上述卷积层21输入上述缩小的图像。此时，如上所述，不缩小上述特定训练图像IM10而可直接输入至上述卷积层21，但是，为了减少运算量，可利用上述缩小的图像，上述自动标注装置100还可以向上述元感兴趣区域检测网络20输入上述缩小的图像。

因此，上述卷积层21对上述缩小的图像适用上述卷积运算来输出上述M×M×L体积的特征地图。

然后，上述元感兴趣区域检测网络20计算M×M×L体积的各个网格单元格内各个上述当前元感兴趣区域的各位置、各大小及各当前元感兴趣区域分数。在图3中，上述特征地图具有3×3×5体积，但是，这仅便于说明，本发明并不限定于此，以下，对利用3×3×5体积的上述特征地图来生成上述当前元感兴趣区域的方法进行说明。

此时，上述特征地图的与各个上述网格单元格有关的输出值，即，可将特征值用O_i，j，1、O_i，j，2、O_i，j，3、O_i，j，4、O_i，j，5表示，可将与各个上述网格单元格有关的各个上述当前元感兴趣区域用r_1，1、…、r_2，2、…、r_3，3表示。

而且，与各个上述网格单元格有关的各个上述当前元感兴趣区域(r_i，j)可如下述数学式所示：

p_i，j＝sigmoid(o_i，j，5)∈[0，1]。

此时，各个p_i，j为各个上述当前元感兴趣区域分数，可以为对各个上述当前元感兴趣区域成为正确答案的各个概率适用sigmoid运算的各个结果。

而且，x_i，j和y_i，j可表示各个上述当前元感兴趣区域的各位置，w_i，j和h_i，j可表示各个上述当前元感兴趣区域的各大小。因此，上述特征地图可包括用于计算上述当前元感兴趣区域的各位置的两个以上第一特征地图通道、用于计算上述当前元感兴趣区域的各大小的两个以上第二特征地图通道以及用于计算上述当前元感兴趣区域分数的至少一个第三特征地图通道。

并且，3×3×5体积的上述特征地图可具有9个上述当前元感兴趣区域，M×M×L体积的上述特征地图可具有M×M个上述当前元感兴趣区域。

然后，上述元感兴趣区域检测网络20可将上述特征地图的与各个上述网格单元格有关的与上述当前元感兴趣区域分数中的第一预设阈值以上的特定当前元感兴趣区域分数相对应的特定当前元感兴趣区域特定当前元感兴趣区域判断为上述n个当前元感兴趣区域。

即，上述元感兴趣区域检测网络20可从上述特征地图的各个上述网格单元格内M×M个上述当前元感兴趣区域中选定当前元感兴趣区域分数为上述第一预设阈值以上的上述n个当前元感兴趣区域。

此时，上述训练图像可包括用于验证的上述验证图像，上述第一预设阈值可以为在通过对应于上述验证图像来获得的验证元感兴趣区域中成为正确答案的概率最高的特定验证元感兴趣区域的特定验证元感兴趣区域分数。

另一方面，上述元感兴趣区域检测网络20可处于预先学习的状态，以下，说明学习上述元感兴趣区域检测网络20的方法。

作为参照，在以下的说明中为了避免混淆，与在当前学习步骤之前已完成的预先学习步骤相关的术语中添加“预先训练”或“预先学习用”文句。

若获得预先训练图像中的至少一个特定预先训练图像，学习装置使上述元感兴趣区域检测网络20对上述特定预先训练图像适用上述卷积运算来输出至少一个预先学习用特征地图。此时，如上所述，上述卷积运算可适用于未缩小的上述特定预先训练图像，但是，为了运算量，可利用上述缩小的图像，还可以通过上述学习装置获得缩小上述特定预先训练图像的上述缩小的图像。并且，上述元感兴趣区域检测网络20还可以包括一个以上卷积层。

并且，学习装置可包括：存储器(未图示)，存储用于学习上述元感兴趣区域检测网络20的指令；以及处理器(未图示)，执行与存储在上述存储器的上述指令相对应的上述元感兴趣区域检测网络20有关的学习。具体地，上述学习装置典型地利用至少一个计算装置(例如，可包括计算机处理器、存储器、内存、输入装置及输出装置、其他现有的计算装置的结构要素的装置；路由器、开关等电子通信装置；网络附属存储(NAS)及存储区域网络(SAN)等电子信息存储***)和至少一个计算机软件(即，使得上述计算装置以特定方式运行的指令)的组合来实现所需的***性能。并且，上述计算装置的处理器可以包括MPU(MicroProcessing Unit)或CPU(Central Processing Unit)、缓存存储器(Cache Memory)、数据总线(Data Bus)等硬件结构。并且，上述计算装置还可包括操作***及执行特定目的的应用的软件结构。然而，不排除上述计算装置包括用于实施本发明的处理器、存储器、介质或其他计算用结构要素整合的形态的整合处理器的情况。

而且，上述学习装置在上述预先学习用特征地图的各个网格单元格内生成预先学习用元感兴趣区域(R＝{r_1，1，...，r_2，2，...，r_3，3})，通过对应于包括上述预先学习用元感兴趣区域的预先学习用元感兴趣区域组(R)来获得根据规定规则调整的多个样品元感兴趣区域组(R′＝{r′_1，1，...，r′_2，2...，r′_3，3})。

作为一例，上述样品元感兴趣区域组(R’)可生成在上述预先学习用元感兴趣区域组(R)的周围。

此时，可将与上述各个网格单元格有关的所调整的输出值用o′_i，j，1，...，o′_i，j，4～N(o′_i，j，k|o_i，j，k，σ)表示，可将上述所调整的样品元感兴趣区域分数用p′_i，j～Binomial(p_i，j)表示，此时，标准偏差(σ)可以为1。

以上，例示性说明了3×3×5体积的上述特征地图，但本发明并不限定于此，可同样适用于M×M×L体积的上述特征地图。

然后，上述学习装置可对各个上述样品元感兴趣区域组(R′)的各样品元组分数(S(R′))进行计算，并可对上述预先学习用元感兴趣区域组(R)的当前元组分数(S(R))进行计算。

此时，上述当前元组分数(S(R))可通过准确性(R)+C×效率性(R)来获得，上述准确性(R)可以为在所有上述预先学习用元感兴趣区域中检测到的对象数占上述特定预先训练图像上的对象的总数量的比率，上述效率性(R)可以为上述预先学习用元感兴趣区域的面积和占上述特定预先训练图像的面积的比率与1之间的差值，上述C可以为通过对应于为了验证上述预先训练图像而使用的预先学习用验证图像来获得的验证元组分数和1中的最大值。

即，可由如下式表示：

S(R)＝准确性(R)+C×效率性(R)，

并且，上述样品元感兴趣区域组中的任意一个样品元感兴趣区域组的样品元组分数可通过(R’)+C×效率性(R’)来获得，上述准确性(R')可以为在上述样品元感兴趣区域组中的上述任意一个样品元感兴趣区域组的所有各个样品元感兴趣区域内检测到的对象数量的总和占上述特定预先训练图像上的对象的总数量的比率，上述效率性(R’)可以为上述样品元感兴趣区域的面积和占上述特定预先训练图像的面积的比率与1之间的差值，上述C可以为通过对应于为了验证上述预先训练图像而使用的预先学习用验证图像来获得的验证元组分数和1中的最大值。此时，将同时位于上述样品元感兴趣区域组中相同组的第一样品元感兴趣区域和第二样品元感兴趣区域的特定对象不计算为两个。

即，可由如下式表示：

S(R')＝准确性(R')+C×效率性(R')，

另一方面，在对上述样品元感兴趣区域组(R')中的任意一个样品元感兴趣区域组的样品元组分数(S(R'))进行计算时，可应用样品元感兴趣区域分数(p′_i，j)为第二预设阈值以上的特定样品元感兴趣区域。此时，上述第二预设阈值可以为1，但并不限定于此，可将上述样品元感兴趣区域组(R')的上述样品元组分数(S(R'))中的一部分的值设置为大于上述当前元组分数(S(R))的值。

即，上述准确性(R')可以为在上述任意一个样品元感兴趣区域组的上述样品元感兴趣区域中的上述样品元感兴趣区域分数为上述第二预设阈值以上的上述特定样品元感兴趣区域中检测到的对象数量占上述特定预先训练图像上的对象的总数量的比率，上述效率性(R’)可以为在上述特定样品元感兴趣区域的面积和占上述特定预先训练图像的面积的比率与1之间的差值。

然后，上述学习装置可向上述样品元组分数(S(R'))变高的上述特定样品元感兴趣区域组(R')的方向对用于调整上述预先学习用元感兴趣区域组(R)的上述当前元组分数(S(R))的至少一个预先学习用梯度进行计算。

此时，上述学习装置可使用下述数学式来计算上述预先学习用梯度(δ_o(R))：

然后，上述学习装置可通过利用上述预先学习用梯度的强化学习来调整上述元感兴趣区域检测网络20的一个以上参数中的至少一部分。作为一例，上述学习装置可通过利用上述预先学习用梯度的上述强化学习来调整上述元感兴趣区域检测网络中所包括的上述卷积层的一个以上参数中的至少一部分。

即，参照图4，基于上述预先学习用元感兴趣区域组(R)调整的上述样品元感兴趣区域组(R')具有基于上述预先学习用元感兴趣区域组(R)的位置的高斯分布(Gaussiandistribution)，以向从分数高的上述样品元感兴趣区域组(R’)导出的上述方向调整预先学习用元感兴趣区域组(R)的方式进行强化学习，从而上述预先学习用元感兴趣区域组(R)的分数随着上述学习逐渐变高，因此，用于获得上述当前元感兴趣区域的准确性也可以随之增加。

再次参照图2，上述自动标注装置100在上述特定训练图像IM20对与上述n个当前元感兴趣区域相对应的区域进行裁剪(crop)来生成n个加工图像IM21，可使对象检测网络30分别输出具有分别与上述n个加工图像IM21有关的各个边界框的n个所自动标注的加工图像IM30。

此时，上述对象检测网络30可由分别与上述n个加工图像IM21相对应的多个网络构成，各个上述多个网络通过生成分别与上述n个加工图像IM21有关的边界框来生成上述n个所自动标注的加工图像IM30，或者通过对上述n个加工图像IM21的大小进行调整大小来使它们变为相同大小之后，可使上述对象检测网络30生成上述相同大小的上述n个所自动标注的加工图像IM30。

另一方面，以下，参照图5来说明上述对象检测网络30在至少一个特定加工图像上生成上述边界框的方法。

若获得上述特定加工图像，上述对象检测网络30使一个以上卷积层31对上述特定加工图像适用上述卷积运算来输出至少一个对象检测用特征地图。此时，上述卷积层31可依次对上述特定加工图像适用上述卷积运算来生成上述对象检测用特征地图。

而且，上述对象检测网络30使区域候选网络(RPN，RegionProposal Network)32输出与预测在上述对象检测用特征地图上包含上述对象的候选区域相对应的候选框。

然后，上述对象检测网络30使至少一个池化层33在上述对象检测用特征地图上对与上述候选框相对应的区域适用一个以上池化运算来输出一个以上特征矢量。

而且，上述对象检测网络30使至少一个对全连接(FC，Fullyconnected)层34利用上述特征矢量来输出与各个上述候选框相对应的各个对象等级信息35和各个回归值36，从而生成与位于上述特定加工图像上的上述对象相对应的上述边界框。

另一方面，上述对象检测网络30可以为预先学习的状态，即，可以为通过利用一个以上损失的反向传播上述对全连接层34及上述卷积层31的一个以上参数中的至少一部分被调整的状态。并且，上述区域候选网络32也可以为预先学习的状态。

再次参照图2，上述自动标注装置100可通过合并上述n个所自动标注的加工图像IM30来生成所自动标注的特定训练图像IM31。

此时，上述自动标注装置100在合并上述n个所自动标注的加工图像IM30时，可去除上述边界框中的两个以上上述所自动标注的加工图像IM30在从重叠区域的边缘至内侧的特定距离内仅呈现一部分的一个以上特定边界框。作为一例，上述自动标注装置100可去除在上述所自动标注的加工图像IM30中的3的所自动标注的加工图像内仅呈现一部分的边界框b，并合并上述所自动标注的加工图像IM30。

并且，上述自动标注装置100在合并上述n个所自动标注的加工图像IM30时，可对两个以上上述所自动标注的加工图像位于重叠区域内的上述边界框适用非极大值抑制(NMS，Non Maximum Suppression)来获得与位于上述重叠区域内的一个以上特定对象相对应的一个以上特定边界框。即，在上述重叠区域包括相互重叠的边界框的情况下，可将上述概率最高的特定边界框指定为与特定对象相对应的上述特定边界框，并去除概率低的边界框。

而且，上述自动标注装置100在合并生成上述边界框的上述n个所自动标注的加工图像IM30时，可合并将与上述特定训练图像相对应的上述n个所自动标注的加工图像。尤其，在合并上述相同大小的上述n个所自动标注的加工图像IM30的情况下，可将上述n个所自动标注的加工图像IM30以与各个上述特定训练图像相对应的方式进行调整大小之后，进行合并。

上述方法可利用使用策略梯度算法(policy gradient algorithm)的强化学习、在线学习、连续学习及超参数学习来为了以高精密度分析图像而执行。

并且，以上说明的本发明的实施例能够以通过各种计算机要素执行的程序命令的形态体现并存储在计算机可读存储介质。上述计算机可读存储介质可以包括程序命令、数据文件、数据结构等或它们的组合。上述计算机可读存储介质中存储的程序命令可以是为本发明特殊设计并构成的，或者可以是由计算机软件领域的普通技术人员公知使用的。计算机可读存储介质的例包括硬盘、软盘及磁带等磁介质、CD-ROM、DVD等光存储介质、光磁软盘(floptical disk)等磁光介质(magneto-optical media)、以及ROM、RAM、快闪存储器等为了存储并执行程序命令而特殊构成的硬件装置。程序命令的例包括由编译器制成的机器语言代码以及利用解析器等可由计算机执行的高级语言代码。上述硬件装置能够以一个以上软件模块运行，以便执行本发明的处理，相反情况也一样。

以上，通过限定的实施例及附图对本发明的具体结构要素等特定事项进行了说明，但这仅仅用于提供对本发明的更全面的理解，本发明并不局限于上述实施例，本发明所属领域的普通技术人员可以在这些记载的基础上进行各种修改及变形。

因此，本发明的思想并不局限于所说明的上述实施例，权利要求书及其等同或等价变换的所有内容均属于本发明的思想范畴。

Claims

1.一种对待利用于学习神经网络的一个以上训练图像进行自动标注的方法，其特征在于，包括：

步骤(a)，若获得上述训练图像中的特定训练图像，则自动标注装置使元感兴趣区域检测网络对上述特定训练图像适用一个以上卷积运算来输出至少一个特征地图，通过参照上述特征地图来获得上述特定训练图像上的对象根据各个位置进行分组的与上述对象的区域相对应的n个当前元感兴趣区域；以及

步骤(b)，上述自动标注装置通过在上述特定训练图像上对与上述n个当前元感兴趣区域相对应的区域进行裁剪来生成n个加工图像，使对象检测网络分别输出具有分别与上述n个加工图像有关的各个边界框的n个所自动标注的加工图像，通过合并上述n个所自动标注的加工图像来生成所自动标注的特定训练图像；

其中，在上述步骤(a)中，上述自动标注装置使上述元感兴趣区域检测网络对各个网格单元格内各个上述当前元感兴趣区域的各位置、各大小及各当前元感兴趣区域分数进行计算之后，将与上述当前元感兴趣区域分数中的第一预设阈值以上的特定当前元感兴趣区域分数相对应的特定当前元感兴趣区域判断为上述n个当前元感兴趣区域。

2.根据权利要求1所述的方法，其特征在于，上述训练图像包括用于验证的验证图像，上述第一预设阈值为在通过对应于上述验证图像来获得的验证元感兴趣区域中成为正确答案的概率最高的特定验证元感兴趣区域的特定验证元感兴趣区域分数。

3.根据权利要求1所述的方法，其特征在于，上述特征地图包括用于计算上述当前元感兴趣区域的上述位置的两个以上第一特征地图通道、用于计算上述当前元感兴趣区域的上述大小的两个以上第二特征地图通道以及用于计算上述当前元感兴趣区域分数的至少一个第三特征地图通道。

4.根据权利要求1所述的方法，其特征在于，上述当前元感兴趣区域分数分别为对各个上述当前元感兴趣区域成为正确答案的各个概率适用sigmoid运算的各个结果。

5.根据权利要求1所述的方法，其特征在于，

在上述步骤(a)中，上述自动标注装置执行步骤(i)及步骤(ii)中的一个步骤，

步骤(i)中，通过缩小上述特定训练图像来生成至少一个缩小的图像之后，使上述元感兴趣区域检测网络对上述缩小的图像适用上述卷积运算来输出上述特征地图，

步骤(ii)中，使上述元感兴趣区域检测网络通过缩小上述特定训练图像来生成上述缩小的图像之后，使上述元感兴趣区域检测网络对上述缩小的图像适用上述卷积运算来输出上述特征地图。

6.根据权利要求1所述的方法，其特征在于，上述元感兴趣区域检测网络包括一个以上卷积层。

7.根据权利要求1所述的方法，其特征在于，在上述步骤(b)中，上述自动标注装置在合并上述n个所自动标注的加工图像时，去除上述边界框中的两个以上上述所自动标注的加工图像在从重叠区域的边缘至内侧的特定距离内仅呈现一部分的一个以上特定边界框。

8.根据权利要求1所述的方法，其特征在于，在上述步骤(b)中，上述自动标注装置在合并上述n个所自动标注的加工图像时，对两个以上上述所自动标注的加工图像位于重叠区域内的上述边界框适用非极大值抑制来获得与位于上述重叠区域内的一个以上特定对象相对应的一个以上特定边界框。

9.根据权利要求1所述的方法，其特征在于，在上述步骤(b)中，上述自动标注装置通过对上述n个加工图像进行调整大小来使它们变为相同大小之后，使上述对象检测网络生成上述边界框。

10.根据权利要求9所述的方法，其特征在于，上述自动标注装置对包括上述边界框的上述相同大小的上述n个加工图像进行调整大小来使它们具有与上述特定训练图像相对应的大小之后，进行合并。

11.根据权利要求1所述的方法，其特征在于，

上述元感兴趣区域检测网络通过学习装置处于执行步骤(i)、步骤(ii)、步骤(iii)、步骤(iv)以及步骤(v)的状态，

步骤(i)中，若获得预先训练图像中的至少一个特定预先训练图像，则对上述特定预先训练图像适用上述卷积运算来输出至少一个预先学习用特征地图，

步骤(ii)中，对上述预先学习用特征地图的各网格单元格内的预先学习用元感兴趣区域进行计算，

步骤(iii)中，通过对应于包括上述预先学习用元感兴趣区域的预先学习用元感兴趣区域组来生成根据至少一个规定规则调整的一个以上样品元感兴趣区域组，

步骤(iv)中，对各个上述样品元感兴趣区域组的各样品元组分数进行计算，并对上述预先学习用元感兴趣区域组的当前元组分数进行计算之后，对使上述预先学习用元感兴趣区域组的上述当前元组分数向具有高上述样品元组分数的特定样品元感兴趣区域组的方向进行调整的至少一个预先学习用梯度进行计算，

步骤(v)中，通过利用上述预先学习用梯度的强化学习来学习上述元感兴趣区域检测网络的一个以上参数中的至少一部分。

12.根据权利要求11所述的方法，其特征在于，

上述当前元组分数能够通过准确性(R)+C×效率性(R)来获得，

上述准确性(R)为在所有上述预先学习用元感兴趣区域中检测到的对象数占上述特定预先训练图像上的对象的总数量的比率，

上述效率性(R)为上述预先学习用元感兴趣区域的面积和占上述特定预先训练图像的面积的比率与1之间的差值，

上述C为通过对应于为了验证上述预先训练图像而使用的预先学习用验证图像来获得的验证元组分数和1中的最大值。

13.根据权利要求11所述的方法，其特征在于，

上述样品元感兴趣区域组中的任意一个样品元感兴趣区域组的样品元组分数能够通过准确性(R')+C×效率性(R')来获得，

上述准确性(R')为在上述样品元感兴趣区域组中的上述任意一个样品元感兴趣区域组的所有样品元感兴趣区域内检测到的对象数量占上述特定预先训练图像上的对象的总数量的比率，

上述效率性(R')为上述样品元感兴趣区域的面积和占上述特定预先训练图像的面积的比率与1之间的差值，

14.根据权利要求13所述的方法，其特征在于，

上述准确性(R')为在上述任意一个样品元感兴趣区域组的上述样品元感兴趣区域中的样品元感兴趣区域分数为第二预设阈值以上的特定样品元感兴趣区域中检测到的对象数量占上述特定预先训练图像上的对象的总数量的比率，

上述效率性(R’)为在上述特定样品元感兴趣区域的面积和占上述特定预先训练图像的面积的比率与1之间的差值。

15.一种对待利用于学习神经网络的一个以上训练图像进行自动标注的自动标注装置，其特征在于，

包括：

至少一个存储器，用于存储指令；以及

至少一个处理器，执行上述指令来执行步骤(I)及步骤(II)，

步骤(I)中，若获得上述训练图像中的特定训练图像，使元感兴趣区域检测网络对上述特定训练图像适用一个以上卷积运算来输出至少一个特征地图，通过参照上述特征地图来获得上述特定训练图像上的对象根据各个位置进行分组的与上述对象的区域相对应的n个当前元感兴趣区域，

步骤(II)中，通过在上述特定训练图像上对与上述n个当前元感兴趣区域相对应的区域进行裁剪来生成n个加工图像，使对象检测网络分别输出具有分别与上述n个加工图像有关的各个边界框的n个所自动标注的加工图像，通过合并上述n个所自动标注的加工图像来生成所自动标注的特定训练图像，

其中，在上述步骤(I)中，上述处理器使上述元感兴趣区域检测网络对各个网格单元格内各个上述当前元感兴趣区域的各位置、各大小及各当前元感兴趣区域分数进行计算之后，将与上述当前元感兴趣区域分数中的第一预设阈值以上的特定当前元感兴趣区域分数相对应的特定当前元感兴趣区域判断为上述n个当前元感兴趣区域。

16.根据权利要求15所述的自动标注装置，其特征在于，上述训练图像包括用于验证的验证图像，上述第一预设阈值为在通过对应于上述验证图像来获得的验证元感兴趣区域中成为正确答案的概率最高的特定验证元感兴趣区域的特定验证元感兴趣区域分数。

17.根据权利要求15所述的自动标注装置，其特征在于，上述特征地图包括用于计算上述当前元感兴趣区域的上述位置的两个以上第一特征地图通道、用于计算上述当前元感兴趣区域的上述大小的两个以上第二特征地图通道以及用于计算上述当前元感兴趣区域分数的至少一个第三特征地图通道。

18.根据权利要求15所述的自动标注装置，其特征在于，上述当前元感兴趣区域分数分别为对各个上述当前元感兴趣区域成为正确答案的各个概率适用sigmoid运算的各个结果。

19.根据权利要求15所述的自动标注装置，其特征在于，

在上述步骤(I)中，上述处理器执行步骤(i)及步骤(ii)中的一个步骤，

20.根据权利要求15所述的自动标注装置，其特征在于，上述元感兴趣区域检测网络包括一个以上卷积层。

21.根据权利要求15所述的自动标注装置，其特征在于，在上述步骤(II)中，上述处理器在合并上述n个所自动标注的加工图像时，去除上述边界框中的两个以上上述所自动标注的加工图像在从重叠区域的边缘至内侧的特定距离内仅呈现一部分的一个以上特定边界框。

22.根据权利要求15所述的自动标注装置，其特征在于，在上述步骤(II)中，上述处理器在合并上述n个所自动标注的加工图像时，对两个以上上述所自动标注的加工图像位于重叠区域内的上述边界框适用非极大值抑制来获得与位于上述重叠区域内的一个以上特定对象相对应的一个以上特定边界框。

23.根据权利要求15所述的自动标注装置，其特征在于，在上述步骤(II)中，上述处理器通过对上述n个加工图像进行调整大小来使它们变为相同大小之后，使上述对象检测网络生成上述边界框。

24.根据权利要求23所述的自动标注装置，其特征在于，上述处理器对包括上述边界框的上述相同大小的上述n个加工图像进行调整大小来使它们具有与上述特定训练图像相对应的大小之后，进行合并。

25.根据权利要求15所述的自动标注装置，其特征在于，

26.根据权利要求25所述的自动标注装置，其特征在于，

上述当前元组分数能够通过准确性(R)+C×效率性(R)来获得，

27.根据权利要求25所述的自动标注装置，其特征在于，

上述样品元感兴趣区域组中的任意一个样品元感兴趣区域组的样品元组分数能够通过准确性(R’)+C×效率性(R’)来获得，

上述准确性(R’)为在上述样品元感兴趣区域组中的上述任意一个样品元感兴趣区域组的所有样品元感兴趣区域内检测到的对象数量占上述特定预先训练图像上的对象的总数量的比率，

上述效率性(R’)为上述样品元感兴趣区域的面积和占上述特定预先训练图像的面积的比率与1之间的差值，

28.根据权利要求27所述的自动标注装置，其特征在于，

上述准确性(R’)为在上述任意一个样品元感兴趣区域组的上述样品元感兴趣区域中的样品元感兴趣区域分数为第二预设阈值以上的特定样品元感兴趣区域中检测到的对象数量占上述特定预先训练图像上的对象的总数量的比率，