CN112348069A - 数据增强方法、装置、计算机可读存储介质及终端设备 - Google Patents

数据增强方法、装置、计算机可读存储介质及终端设备 Download PDF

Info

Publication number
CN112348069A
CN112348069A CN202011175803.2A CN202011175803A CN112348069A CN 112348069 A CN112348069 A CN 112348069A CN 202011175803 A CN202011175803 A CN 202011175803A CN 112348069 A CN112348069 A CN 112348069A
Authority
CN
China
Prior art keywords
bounding box
parameters
parameter
minimum bounding
hand
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011175803.2A
Other languages
English (en)
Other versions
CN112348069B (zh
Inventor
汤志超
郭渺辰
程骏
庞建新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Ubtech Technology Co ltd
Original Assignee
Shenzhen Ubtech Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Ubtech Technology Co ltd filed Critical Shenzhen Ubtech Technology Co ltd
Priority to CN202011175803.2A priority Critical patent/CN112348069B/zh
Publication of CN112348069A publication Critical patent/CN112348069A/zh
Application granted granted Critical
Publication of CN112348069B publication Critical patent/CN112348069B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本申请属于机器视觉技术领域,尤其涉及一种数据增强方法、装置、计算机可读存储介质及终端设备。所述方法获取待处理的原始图像,所述原始图像中包含已标注各个手部关键点的手部图像;确定所述手部图像的最小边界框,所述最小边界框为包含所述各个手部关键点的最小矩形框;将所述最小边界框向外进行扩展,得到用于对目标模型进行训练的训练图像集合,所述目标模型为进行手部姿态估计的模型。通过本申请中的这种对手部图像的数据增强处理,可以得到包括多个训练图像的集合,而非单独的一个训练图像,增大了模型对数据的感受野,训练出的模型鲁棒性更强,可以有效地缓解手部关键点抖动的问题。

Description

数据增强方法、装置、计算机可读存储介质及终端设备
技术领域
本申请属于机器视觉技术领域,尤其涉及一种数据增强(Data Augmentation)方法、装置、计算机可读存储介质及终端设备。
背景技术
近些年来,手部姿态估计在机器视觉领域得到了越来越多的关注,这是由于人们看重其可以在人与机器间的互动、增强现实(AR)、虚拟现实(VR)以及手语识别等应用中的潜力。手部姿态估计是对手的各个部分(例如:手掌与手指)建立模型,通过建立的模型可以找到它们在图像中的位置。手部姿态估计的技术挑战之一为手部关键点抖动问题,手部关键点抖动是在模型推理阶段对输入的视频文件或者摄像头的视频流一帧一帧做预测后,最后输出的视频呈现出手部关键点不稳定,感觉在抖动的现象,其最主要的原因就是训练的模型鲁棒性较差,预测的手部关键点位置不够准确,不够稳定造成的。
发明内容
有鉴于此,本申请实施例提供了一种数据增强方法、装置、计算机可读存储介质及终端设备,以解决手部姿态估计中存在的手部关键点抖动的问题。
本申请实施例的第一方面提供了一种数据增强方法,可以包括:
获取待处理的原始图像,所述原始图像中包含已标注各个手部关键点的手部图像;
确定所述手部图像的最小边界框,所述最小边界框为包含所述各个手部关键点的最小矩形框;
将所述最小边界框向外进行扩展,得到用于对目标模型进行训练的训练图像集合,所述目标模型为进行手部姿态估计的模型。
进一步地,所述将所述最小边界框向外进行扩展,得到用于对目标模型进行训练的训练图像集合,包括:
确定所述最小边界框的中心点和长边的长度;
确定所述最小边界框的各组扩展参数,其中,每组扩展参数中均包括以所述最小边界框的中心点为基准位置,以所述最小边界框的长边的长度为基准长度,在所述最小边界框的长边的第一方向上扩展的第一倍数、在所述最小边界框的长边的第二方向上扩展的第二倍数、在所述最小边界框的短边的第三方向上扩展的第三倍数、以及在所述最小边界框的短边的第四方向上扩展的第四倍数;
分别按照各组扩展参数将所述最小边界框向外进行扩展,得到所述训练图像集合。
进一步地,任意一组扩展参数中的第一倍数和第二倍数之和为大于1的预设常数,第三倍数和第四倍数之和也为所述常数,且第一倍数、第二倍数、第三倍数和第四倍数均大于等于0.5。
进一步地,所述确定所述最小边界框的各组扩展参数,包括:
随机生成第一参数和第二参数,所述第一参数和所述第二参数均大于等于0.5且小于等于所述常数与0.5之差;
根据所述第一参数和所述第二参数分别计算各组扩展参数。
进一步地,所述根据所述第一参数和所述第二参数分别计算各组扩展参数,包括:
根据所述第一参数分别计算两组长边扩展参数,其中,每组长边扩展参数均由第一倍数和第二倍数组成;
根据所述第二参数分别计算两组短边扩展参数,其中,每组短边扩展参数均由第三倍数和第四级倍数组成;
将所述两组长边扩展参数和所述两组短边扩展参数进行组合,得到四组扩展参数。
进一步地,所述根据所述第一参数分别计算两组长边扩展参数,包括:
将所述第一参数作为第一倍数,将所述常数与所述第一参数之差作为第二倍数,得到第一组长边扩展参数;
将所述常数与所述第一参数之差作为第一倍数,将所述第一参数作为第二倍数,得到第二组长边扩展参数。
进一步地,所述根据所述第二参数分别计算两组短边扩展参数,包括:
将所述第二参数作为第三倍数,将所述常数与所述第二参数之差作为第四倍数,得到第一组短边扩展参数;
将所述常数与所述第二参数之差作为第三倍数,将所述第二参数作为第四倍数,得到第二组短边扩展参数。
本申请实施例的第二方面提供了一种数据增强装置,可以包括:
原始图像获取模块,用于获取待处理的原始图像,所述原始图像中包含已标注各个手部关键点的手部图像;
最小边界框确定模块,用于确定所述手部图像的最小边界框,所述最小边界框为包含所述各个手部关键点的最小矩形框;
图像扩展模块,用于将所述最小边界框向外进行扩展,得到用于对目标模型进行训练的训练图像集合,所述目标模型为进行手部姿态估计的模型。
进一步地,所述图像扩展模块可以包括:
边界框信息确定子模块,用于确定所述最小边界框的中心点和长边的长度;
扩展参数确定子模块,用于确定所述最小边界框的各组扩展参数,其中,每组扩展参数中均包括以所述最小边界框的中心点为基准位置,以所述最小边界框的长边的长度为基准长度,在所述最小边界框的长边的第一方向上扩展的第一倍数、在所述最小边界框的长边的第二方向上扩展的第二倍数、在所述最小边界框的短边的第三方向上扩展的第三倍数、以及在所述最小边界框的短边的第四方向上扩展的第四倍数;
图像扩展子模块,用于分别按照各组扩展参数将所述最小边界框向外进行扩展,得到所述训练图像集合。
进一步地,任意一组扩展参数中的第一倍数和第二倍数之和为大于1的预设常数,第三倍数和第四倍数之和也为所述常数,且第一倍数、第二倍数、第三倍数和第四倍数均大于等于0.5。
进一步地,所述扩展参数确定子模块可以包括:
随机参数生成单元,用于随机生成第一参数和第二参数,所述第一参数和所述第二参数均大于等于0.5且小于等于所述常数与0.5之差;
扩展参数计算单元,用于根据所述第一参数和所述第二参数分别计算各组扩展参数。
进一步地,所述扩展参数计算单元可以包括:
长边扩展参数计算子单元,用于根据所述第一参数分别计算两组长边扩展参数,其中,每组长边扩展参数均由第一倍数和第二倍数组成;
短边扩展参数计算子单元,用于根据所述第二参数分别计算两组短边扩展参数,其中,每组短边扩展参数均由第三倍数和第四级倍数组成;
参数组合子单元,用于将所述两组长边扩展参数和所述两组短边扩展参数进行组合,得到四组扩展参数。
进一步地,所述长边扩展参数计算子单元具体用于:
将所述第一参数作为第一倍数,将所述常数与所述第一参数之差作为第二倍数,得到第一组长边扩展参数;
将所述常数与所述第一参数之差作为第一倍数,将所述第一参数作为第二倍数,得到第二组长边扩展参数。
进一步地,所述短边扩展参数计算子单元具体用于:
将所述第二参数作为第三倍数,将所述常数与所述第二参数之差作为第四倍数,得到第一组短边扩展参数;
将所述常数与所述第二参数之差作为第三倍数,将所述第二参数作为第四倍数,得到第二组短边扩展参数。
本申请实施例的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种数据增强方法的步骤。
本申请实施例的第四方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一种数据增强方法的步骤。
本申请实施例的第五方面提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述任一种数据增强方法的步骤。
本申请实施例与现有技术相比存在的有益效果是:本申请实施例获取待处理的原始图像,所述原始图像中包含已标注各个手部关键点的手部图像;确定所述手部图像的最小边界框,所述最小边界框为包含所述各个手部关键点的最小矩形框;将所述最小边界框向外进行扩展,得到用于对目标模型进行训练的训练图像集合,所述目标模型为进行手部姿态估计的模型。通过本申请实施例中的这种对手部图像的数据增强处理,可以得到包括多个训练图像的集合,而非单独的一个训练图像,增大了模型对数据的感受野(ReceptiveField),训练出的模型鲁棒性更强,可以有效地缓解手部关键点抖动的问题。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为手部关键点的示意图;
图2为本申请实施例中一种数据增强方法的一个实施例流程图;
图3为原始图像的示意图;
图4为手部图像的最小边界框的示意图;
图5为将最小边界框均匀向外扩展出的正方形在原始图像中的示意图;
图6为将最小边界框均匀向外扩展的一组扩展参数的示意图;
图7为按照扩展出的正方形抠出的手部图像的示意图;
图8为将最小边界框有偏移地向外扩展的一组扩展参数的示意图;
图9为将最小边界框有偏移地向外扩展出的正方形在原始图像中的示意图;
图10为扩展出的4个正方形在原始图像中的示意图;
图11为本申请实施例中一种数据增强装置的一个实施例结构图;
图12为本申请实施例中一种终端设备的示意框图。
具体实施方式
为使得本申请的发明目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本申请一部分实施例,而非全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在深度学习技术普及之前,手部姿态估计主要是基于传统的机器学习算法,并以随机森林(Random Forest)算法为最优解。例如,可以首先对手部的每个部分进行标注,然后通过随机森林算法来对每个像素点进行分类,最终确定每个像素点属于哪个部分,形成对手部姿态的估计。
而在深度学习技术普及之后,则可以通过如图1所示的手部的关节点(即手部关键点)来进行建模,图中分别示出了14个、16个及21个手部关键点的情况,在本申请实施例中,可以根据实际情况采用不同数量的手部关键点来对手部进行建模。优选地,可以采用21个手部关键点来对手部进行建模。
在对手部关键点的建模过程中,可以直接对各个手部关键点采用坐标点回归的方式进行预测,即让深度学习网络模型尽可能的最小化损失方程(Loss Function),所述损失方程为标注的真实手部关键点与预测的手部关键点之间的欧式距离,这样预测的手部关键点就较为接近真实的手部关键点位置;还可以对每个手部关键点建立一个概率密度图形成热图,然后通过最大值自变量点集(argmax)方程映射找到每个关键点具体的位置。
但是,由于手部关节非常灵活以及手部姿态非常多变,手部姿态估计还有很多诸多技术挑战,本申请实施例主要针对其中的手部关键点抖动问题。解决手部关键点抖动问题,可以从算法模型角度出发,建立起一个更好的模型来提高预测的准确性和稳定性;还可以基于现有的模型,通过数据增强的方式来提高预测的准确率和稳定性。
数据增强的方式最主要的就是通过某种方法,让深度学习网络模型可以获取数据中更多的信息,即增大模型对数据的感受野,这样可以增加模型的鲁棒性,提高对预测的准确率和稳定性,减缓手部关键点抖动的程度。
请参阅图2,本申请实施例中一种数据增强方法的一个实施例可以包括:
步骤S201、获取待处理的原始图像。
其中,所述原始图像中包含已标注各个手部关键点的手部图像。图3所示即为一张原始图像的示意图,图中的圆点即为预先标注的各个手部关键点。为简便起见,以下叙述仅以一只手为例进行说明,若原始图像中存在多只手,则可以对每只手的手部图像均采用本申请实施例中的方法进行数据增强。
步骤S202、确定所述手部图像的最小边界框。
其中,所述最小边界框为包含所述各个手部关键点的最小矩形框。确定最小边界框即为根据已标注各个手部关键点,在所述原始图片中找到一个最小的矩形框将各个手部关键点坐标全部围起来,如图4所示。
步骤S203、将所述最小边界框向外进行扩展,得到用于对目标模型进行训练的训练图像集合。
其中,所述目标模型即为进行手部姿态估计的模型。
在本申请实施例的一种具体实现中,可以首先确定所述最小边界框的中心点和长边的长度(如果所述最小边界框的长宽一样,取其中任意一条边的长度即可),然后按照所述基准长度的N倍,将所述最小边界框以其中心点开始均匀向外扩展为一个正方形,如图5所示。其中,N为大于1的预设常数,其具体取值可以根据实际情况进行设置,优选地,可以设置N=1.6或N=1.2。图6所示即为按照N=1.6将所述最小边界框向外进行均匀扩展的示意图,扩展出的正方形的边长是所述基准长度的1.6倍,从所述最小边界框的中心点到正方形的任意一条边的距离均为所述基准长度的0.8倍。
如图7所示,按照这个扩展出的正方形抠出手部的图像,并重新计算标注的各个手部关键点的坐标,这个数据就是可以用于对所述目标模型进行训练的数据。
可以看到,在上述方式中,送入模型的数据大小仅仅占了整张原始图像的一小部分。送入模型的图像会重新规划(resize)到368×368像素点的尺寸,而经过2d CNN的卷积层后,会形成比其更小的尺寸的特征图(feature map),例如128×128像素点的尺寸。深度学习网络对图像的感受野将会更小,获取图像的信息仅仅是特征图的信息,至多是送入模型中图像的信息。
优选地,在本申请实施例的另一种具体实现中,为了在不改变本身的算法结构的同时,扩大深度学习网络对图像信息的感受野,获取更多的图像信息,步骤S203可以包括如下过程:
步骤S2031、确定所述最小边界框的中心点和长边的长度。
步骤S2032、确定所述最小边界框的各组扩展参数。
其中,每组扩展参数中均包括以所述最小边界框的中心点为基准位置,以所述最小边界框的长边的长度为基准长度,在所述最小边界框的长边的第一方向(即向上的方向)上扩展的第一倍数(记为B)、在所述最小边界框的长边的第二方向(即向下的方向)上扩展的第二倍数(记为B)、在所述最小边界框的短边的第三方向(即向左的方向)上扩展的第三倍数(记为B)、以及在所述最小边界框的短边的第四方向(即向右的方向)上扩展的第四倍数(记为B)。
任意一组扩展参数中的第一倍数和第二倍数之和为N,第三倍数和第四倍数之和也为N,且第一倍数、第二倍数、第三倍数和第四倍数均大于等于0.5,小于等于N-0.5,即:
Figure BDA0002748644060000091
图8所示即为符合这一约束条件的一组扩展参数的示意图,其中,N=1.6,B=0.6,B=1.0,B=1.0,B=0.6,相比于图6中向各个方向均匀扩展的方式,该方式是从中心点开始,有偏移地向各个方向扩展,即第一倍数不等于第二倍数,第三倍数不等于第四倍数。扩展出的正方形在原始图像中的位置如图9所示。
各组扩展参数可以由工作人员预先进行设置,例如,可以预先设置如下的4组扩展参数:
(B=0.6,B=1.0,B=0.6,B=1.0);
(B=1.0,B=0.6,B=1.0,B=0.6);
(B=0.6,B=1.0,B=1.0,B=0.6);
(B=1.0,B=0.6,B=0.6,B=1.0)。
按照这种方式扩展出4组数据,这样就完成了数据增强,扩展出的4个正方形在原始图像中的位置如图10所示。相比图5所示的方式,当增强数据之后,其扩出的框(图10中最外侧的大框)在原来的基础上扩大了。这样深度学习网络对数据的感受野增大了,训练出模型会更加鲁棒,可以很有效地减缓手部关键点抖动的问题。
各组扩展参数还可以随机批量进行设置,以消除人为因素影响,并提高参数设置的效率。在本申请实施例的一种具体实现中,步骤S2032可以包括如下过程:
步骤S20321、随机生成第一参数和第二参数。
其中,所述第一参数和所述第二参数均大于等于0.5且小于等于所述常数与0.5之差。
步骤S20322、根据所述第一参数和所述第二参数分别计算各组扩展参数。
具体地,可以根据所述第一参数分别计算两组长边扩展参数,其中,每组长边扩展参数均由第一倍数和第二倍数组成。将所述第一参数作为第一倍数,将所述常数与所述第一参数之差作为第二倍数,得到第一组长边扩展参数;将所述常数与所述第一参数之差作为第一倍数,将所述第一参数作为第二倍数,得到第二组长边扩展参数。将所述第一参数记为x,则第一组长边扩展参数为:(B=x,B=1.6-x),第二组长边扩展参数为:(B=1.6-x,B=x)。
类似地,可以根据所述第二参数分别计算两组短边扩展参数,其中,每组短边扩展参数均由第三倍数和第四级倍数组成;将所述第二参数作为第三倍数,将所述常数与所述第二参数之差作为第四倍数,得到第一组短边扩展参数;将所述常数与所述第二参数之差作为第三倍数,将所述第二参数作为第四倍数,得到第二组短边扩展参数。将所述第二参数记为y,则第一组短边扩展参数为:(B=y,B=1.6-y),第二组短边扩展参数为:(B=1.6-y,B=y)。
将所述两组长边扩展参数和所述两组短边扩展参数进行组合,即可得到以下4组扩展参数:
(B=x,B=1.6-x,B=y,B=1.6-y);
(B=x,B=1.6-x,B=1.6-y,B=y);
(B=1.6-x,B=x,B=y,B=1.6-y);
(B=1.6-x,B=x,B=1.6-y,B=y)。
对于任意一对(x,y)的取值,可以得到4组扩展参数,若随机生成K对不同的(x,y)的取值,则可以得到4K组扩展参数,其中,K为正整数。
步骤S2033、分别按照各组扩展参数将所述最小边界框向外进行扩展,得到所述训练图像集合。
以其中的任意一组扩展参数为例,将所述最小边界框以所述最小边界框的中心点为基准位置,在所述第一方向上扩展至所述基准长度的第一倍数,在所述第二方向上扩展至所述基准长度的第二倍数,在所述第三方向上扩展至所述基准长度的第三倍数,在所述第四方向上扩展至所述基准长度的第四倍数,即可得到一个正方形,按照这个扩展出的正方形抠出手部的图像,即可作为一个用于对所述目标模型进行训练的训练图像。遍历各组扩展参数,即可得到由多个训练图像组成的训练图像集合。
综上所述,本申请实施例获取待处理的原始图像,所述原始图像中包含已标注各个手部关键点的手部图像;确定所述手部图像的最小边界框,所述最小边界框为包含所述各个手部关键点的最小矩形框;将所述最小边界框向外进行扩展,得到用于对目标模型进行训练的训练图像集合,所述目标模型为进行手部姿态估计的模型。通过本申请实施例中的这种对手部图像的数据增强处理,可以得到包括多个训练图像的集合,而非单独的一个训练图像,增大了模型对数据的感受野,训练出的模型鲁棒性更强,可以有效地缓解手部关键点抖动的问题。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于上文实施例所述的一种数据增强方法,图11示出了本申请实施例提供的一种数据增强装置的一个实施例结构图。
本实施例中,一种数据增强装置可以包括:
原始图像获取模块1101,用于获取待处理的原始图像,所述原始图像中包含已标注各个手部关键点的手部图像;
最小边界框确定模块1102,用于确定所述手部图像的最小边界框,所述最小边界框为包含所述各个手部关键点的最小矩形框;
图像扩展模块1103,用于将所述最小边界框向外进行扩展,得到用于对目标模型进行训练的训练图像集合,所述目标模型为进行手部姿态估计的模型。
进一步地,所述图像扩展模块可以包括:
边界框信息确定子模块,用于确定所述最小边界框的中心点和长边的长度;
扩展参数确定子模块,用于确定所述最小边界框的各组扩展参数,其中,每组扩展参数中均包括以所述最小边界框的中心点为基准位置,以所述最小边界框的长边的长度为基准长度,在所述最小边界框的长边的第一方向上扩展的第一倍数、在所述最小边界框的长边的第二方向上扩展的第二倍数、在所述最小边界框的短边的第三方向上扩展的第三倍数、以及在所述最小边界框的短边的第四方向上扩展的第四倍数;
图像扩展子模块,用于分别按照各组扩展参数将所述最小边界框向外进行扩展,得到所述训练图像集合。
进一步地,任意一组扩展参数中的第一倍数和第二倍数之和为大于1的预设常数,第三倍数和第四倍数之和也为所述常数,且第一倍数、第二倍数、第三倍数和第四倍数均大于等于0.5。
进一步地,所述扩展参数确定子模块可以包括:
随机参数生成单元,用于随机生成第一参数和第二参数,所述第一参数和所述第二参数均大于等于0.5且小于等于所述常数与0.5之差;
扩展参数计算单元,用于根据所述第一参数和所述第二参数分别计算各组扩展参数。
进一步地,所述扩展参数计算单元可以包括:
长边扩展参数计算子单元,用于根据所述第一参数分别计算两组长边扩展参数,其中,每组长边扩展参数均由第一倍数和第二倍数组成;
短边扩展参数计算子单元,用于根据所述第二参数分别计算两组短边扩展参数,其中,每组短边扩展参数均由第三倍数和第四级倍数组成;
参数组合子单元,用于将所述两组长边扩展参数和所述两组短边扩展参数进行组合,得到四组扩展参数。
进一步地,所述长边扩展参数计算子单元具体用于:
将所述第一参数作为第一倍数,将所述常数与所述第一参数之差作为第二倍数,得到第一组长边扩展参数;
将所述常数与所述第一参数之差作为第一倍数,将所述第一参数作为第二倍数,得到第二组长边扩展参数。
进一步地,所述短边扩展参数计算子单元具体用于:
将所述第二参数作为第三倍数,将所述常数与所述第二参数之差作为第四倍数,得到第一组短边扩展参数;
将所述常数与所述第二参数之差作为第三倍数,将所述第二参数作为第四倍数,得到第二组短边扩展参数。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置,模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
图12示出了本申请实施例提供的一种终端设备的示意框图,为了便于说明,仅示出了与本申请实施例相关的部分。
如图12所示,该实施例的终端设备12包括:处理器120、存储器121以及存储在所述存储器121中并可在所述处理器120上运行的计算机程序122。所述处理器120执行所述计算机程序122时实现上述各个数据增强方法实施例中的步骤,例如图2所示的步骤S201至步骤S203。或者,所述处理器120执行所述计算机程序122时实现上述各装置实施例中各模块/单元的功能,例如图11所示模块1101至模块1103的功能。
示例性的,所述计算机程序122可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器121中,并由所述处理器120执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序122在所述终端设备12中的执行过程。
所述终端设备12可以是手机、平板电脑、桌上型计算机、笔记本、掌上电脑及机器人等计算设备。本领域技术人员可以理解,图12仅仅是终端设备12的示例,并不构成对终端设备12的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备12还可以包括输入输出设备、网络接入设备、总线等。
所述处理器120可以是中央处理单元(Central Processing Unit,CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器121可以是所述终端设备12的内部存储单元,例如终端设备12的硬盘或内存。所述存储器121也可以是所述终端设备12的外部存储设备,例如所述终端设备12上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器121还可以既包括所述终端设备12的内部存储单元也包括外部存储设备。所述存储器121用于存储所述计算机程序以及所述终端设备12所需的其它程序和数据。所述存储器121还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种数据增强方法,其特征在于,包括:
获取待处理的原始图像,所述原始图像中包含已标注各个手部关键点的手部图像;
确定所述手部图像的最小边界框,所述最小边界框为包含所述各个手部关键点的最小矩形框;
将所述最小边界框向外进行扩展,得到用于对目标模型进行训练的训练图像集合,所述目标模型为进行手部姿态估计的模型。
2.根据权利要求1所述的数据增强方法,其特征在于,所述将所述最小边界框向外进行扩展,得到用于对目标模型进行训练的训练图像集合,包括:
确定所述最小边界框的中心点和长边的长度;
确定所述最小边界框的各组扩展参数,其中,每组扩展参数中均包括以所述最小边界框的中心点为基准位置,以所述最小边界框的长边的长度为基准长度,在所述最小边界框的长边的第一方向上扩展的第一倍数、在所述最小边界框的长边的第二方向上扩展的第二倍数、在所述最小边界框的短边的第三方向上扩展的第三倍数、以及在所述最小边界框的短边的第四方向上扩展的第四倍数;
分别按照各组扩展参数将所述最小边界框向外进行扩展,得到所述训练图像集合。
3.根据权利要求2所述的数据增强方法,其特征在于,任意一组扩展参数中的第一倍数和第二倍数之和为大于1的预设常数,第三倍数和第四倍数之和也为所述常数,且第一倍数、第二倍数、第三倍数和第四倍数均大于等于0.5。
4.根据权利要求3所述的数据增强方法,其特征在于,所述确定所述最小边界框的各组扩展参数,包括:
随机生成第一参数和第二参数,所述第一参数和所述第二参数均大于等于0.5且小于等于所述常数与0.5之差;
根据所述第一参数和所述第二参数分别计算各组扩展参数。
5.根据权利要求4所述的数据增强方法,其特征在于,所述根据所述第一参数和所述第二参数分别计算各组扩展参数,包括:
根据所述第一参数分别计算两组长边扩展参数,其中,每组长边扩展参数均由第一倍数和第二倍数组成;
根据所述第二参数分别计算两组短边扩展参数,其中,每组短边扩展参数均由第三倍数和第四级倍数组成;
将所述两组长边扩展参数和所述两组短边扩展参数进行组合,得到四组扩展参数。
6.根据权利要求5所述的数据增强方法,其特征在于,所述根据所述第一参数分别计算两组长边扩展参数,包括:
将所述第一参数作为第一倍数,将所述常数与所述第一参数之差作为第二倍数,得到第一组长边扩展参数;
将所述常数与所述第一参数之差作为第一倍数,将所述第一参数作为第二倍数,得到第二组长边扩展参数。
7.根据权利要求5所述的数据增强方法,其特征在于,所述根据所述第二参数分别计算两组短边扩展参数,包括:
将所述第二参数作为第三倍数,将所述常数与所述第二参数之差作为第四倍数,得到第一组短边扩展参数;
将所述常数与所述第二参数之差作为第三倍数,将所述第二参数作为第四倍数,得到第二组短边扩展参数。
8.一种数据增强装置,其特征在于,包括:
原始图像获取模块,用于获取待处理的原始图像,所述原始图像中包含已标注各个手部关键点的手部图像;
最小边界框确定模块,用于确定所述手部图像的最小边界框,所述最小边界框为包含所述各个手部关键点的最小矩形框;
图像扩展模块,用于将所述最小边界框向外进行扩展,得到用于对目标模型进行训练的训练图像集合,所述目标模型为进行手部姿态估计的模型。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的数据增强方法的步骤。
10.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的数据增强方法的步骤。
CN202011175803.2A 2020-10-28 2020-10-28 数据增强方法、装置、计算机可读存储介质及终端设备 Active CN112348069B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011175803.2A CN112348069B (zh) 2020-10-28 2020-10-28 数据增强方法、装置、计算机可读存储介质及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011175803.2A CN112348069B (zh) 2020-10-28 2020-10-28 数据增强方法、装置、计算机可读存储介质及终端设备

Publications (2)

Publication Number Publication Date
CN112348069A true CN112348069A (zh) 2021-02-09
CN112348069B CN112348069B (zh) 2024-01-19

Family

ID=74355659

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011175803.2A Active CN112348069B (zh) 2020-10-28 2020-10-28 数据增强方法、装置、计算机可读存储介质及终端设备

Country Status (1)

Country Link
CN (1) CN112348069B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113723187A (zh) * 2021-07-27 2021-11-30 武汉光庭信息技术股份有限公司 手势关键点的半自动标注方法及***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110116422A (ko) * 2010-04-19 2011-10-26 서경대학교 산학협력단 마커와 훈련자 손 인식을 통한 증강 현실 상황 훈련 시스템
US20150286859A1 (en) * 2014-04-03 2015-10-08 Avago Technologies General Ip (Singapore) Pte.Ltd. Image Processor Comprising Gesture Recognition System with Object Tracking Based on Calculated Features of Contours for Two or More Objects
CN109978063A (zh) * 2019-03-28 2019-07-05 厦门美图之家科技有限公司 一种生成目标对象的对齐模型的方法
CN110070072A (zh) * 2019-05-05 2019-07-30 厦门美图之家科技有限公司 一种生成物体检测模型的方法
CN110807448A (zh) * 2020-01-07 2020-02-18 南京甄视智能科技有限公司 人脸关键点数据增强方法、装置、***以及模型训练方法
CN111127390A (zh) * 2019-10-21 2020-05-08 哈尔滨医科大学 基于迁移学习的x射线影像处理方法及***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20110116422A (ko) * 2010-04-19 2011-10-26 서경대학교 산학협력단 마커와 훈련자 손 인식을 통한 증강 현실 상황 훈련 시스템
US20150286859A1 (en) * 2014-04-03 2015-10-08 Avago Technologies General Ip (Singapore) Pte.Ltd. Image Processor Comprising Gesture Recognition System with Object Tracking Based on Calculated Features of Contours for Two or More Objects
CN109978063A (zh) * 2019-03-28 2019-07-05 厦门美图之家科技有限公司 一种生成目标对象的对齐模型的方法
CN110070072A (zh) * 2019-05-05 2019-07-30 厦门美图之家科技有限公司 一种生成物体检测模型的方法
CN111127390A (zh) * 2019-10-21 2020-05-08 哈尔滨医科大学 基于迁移学习的x射线影像处理方法及***
CN110807448A (zh) * 2020-01-07 2020-02-18 南京甄视智能科技有限公司 人脸关键点数据增强方法、装置、***以及模型训练方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
姚巍巍;张洁;: "融合目标检测和人体关键点检测的铁路司机行为识别", 计算机测量与控制, no. 06 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113723187A (zh) * 2021-07-27 2021-11-30 武汉光庭信息技术股份有限公司 手势关键点的半自动标注方法及***

Also Published As

Publication number Publication date
CN112348069B (zh) 2024-01-19

Similar Documents

Publication Publication Date Title
US20190311190A1 (en) Methods and apparatuses for determining hand three-dimensional data
CN111144242B (zh) 一种三维目标检测方法、装置及终端
WO2020034785A1 (zh) 三维模型处理方法和装置
CN111047509B (zh) 一种图像特效处理方法、装置及终端
CN111815754A (zh) 一种三维信息确定方法、三维信息确定装置及终端设备
CN110119733B (zh) 书页识别方法及装置、终端设备、计算机可读存储介质
CN111008935B (zh) 一种人脸图像增强方法、装置、***及存储介质
US9213897B2 (en) Image processing device and method
CN110852311A (zh) 一种三维人手关键点定位方法及装置
CN111340109A (zh) 图像匹配方法、装置、设备及存储介质
CN111383232A (zh) 抠图方法、装置、终端设备及计算机可读存储介质
CN113627428A (zh) 文档图像矫正方法、装置、存储介质及智能终端设备
CN110956131A (zh) 单目标追踪方法、装置及***
CN115861515A (zh) 一种三维人脸重建方法、计算机程序产品及电子设备
CN110163095B (zh) 回环检测方法、回环检测装置及终端设备
CN115082935A (zh) 用于对文档图像进行矫正的方法、设备及存储介质
CN114742722A (zh) 文档矫正方法、装置、电子设备及存储介质
WO2022016996A1 (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN112348069A (zh) 数据增强方法、装置、计算机可读存储介质及终端设备
CN113610958A (zh) 一种基于风格迁移的3d图像构建方法、装置及终端
TWI711004B (zh) 圖片處理方法和裝置
CN111460910A (zh) 人脸脸型的分类方法、装置、终端设备及存储介质
JP2015041293A (ja) 画像認識装置および画像認識方法
CN111931794B (zh) 一种基于草图的图像匹配方法
CN112464753B (zh) 图像中关键点的检测方法、检测装置及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant