CN112529116B

CN112529116B - 场景元素融合处理方法、装置和设备及计算机存储介质

Info

Publication number: CN112529116B
Application number: CN202110176324.0A
Authority: CN
Inventors: 李德辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-02-07
Filing date: 2021-02-07
Publication date: 2021-06-25
Anticipated expiration: 2041-02-07
Also published as: CN112529116A

Abstract

本申请公开了一种场景元素融合处理方法、装置和设备及计算机存储介质，涉及计算机技术领域，通过从与目标样本图片集合具有相同或者类似场景类型的源样本图片集合中提取包含目标类型元素的目标区域图片，并通过提取的目标区域图片对目标样本图片集合中的多个目标样本图片进行融合处理，从而能够得到增加了目标类型元素的目标样本图片。这样，针对目标样本图片集合中缺失元素或者失衡元素，则可以通过上述的过程在目标样本图片中有针对性的进行添加，从而对目标样本图片集合进行增强，进而可以提升训练得到的模型的准确性。该方法可应用于自动驾驶或者地图导航等场景中。

Description

场景元素融合处理方法、装置和设备及计算机存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及人工智能(Artificial Intelligence，AI)技术领域，提供一种场景元素融合处理方法、装置和设备及计算机存储介质。

背景技术

计算机视觉技术是人工智能技术的一个重要分支，计算机视觉相关算法的研究成为了近年来的一个热门研究领域，而基于监督的学习是当前计算机视觉算法的主流方法。在监督学习中，有标注的数据集是不可或缺的，它在训练时提供模型输入和输出真值，引导模型学习参数，并在测试时，则可以量化以及评估模型的效果。

当前训练数据集的获取基本都依赖人工标注，但这是一项非常耗时耗力的工作。并且，即使是通过人工的精心标注，面对任务需求的拓展和实际场景中各类元素出现频次相差较大的情况，数据集也常常存在缺少某些类别的元素或不同类别元素数量失衡的问题。

针对这些问题，通常可以通过在空间与通道上的转换，例如对样本图片进行翻转、裁剪、旋转、缩放变形、添加噪声或者模糊处理等方法得到新的样本图片，增强样本多样性。但是该方法无法增加数据集的元素类别，要获取包含更多元素类别的数据集只能重新进行人工标注。

因此，如何解决训练数据集中元素缺失以及失衡的问题是目前亟待解决的问题。

发明内容

本申请实施例提供一种场景元素融合处理方法、装置和设备及计算机存储介质，用于丰富样本图片中的元素类型，均衡样本图片集合中各类型元素的数量。

一方面，提供一种场景元素融合处理方法，所述方法包括：

获取包含多个源样本图片的源样本图片集合以及包含多个目标样本图片的目标样本图片集合；其中，各源样本图片与各目标样本图片具有相同的场景类型，每一源样本图片和目标样本图片均采用多种类型的元素构成，且每一源样本图片和目标样本图片包括的至少一个元素均设置了相应的标注信息；

根据所述源样本图片集合中各个源样本图片各自对应的标注信息，分别从各个源样本图片中获取包含目标类型元素的目标区域图片，获得目标区域图片集合；

基于获得的目标区域图片集合，对所述目标样本图片集合中的至少一个目标样本图片进行针对所述目标类型元素的融合处理，获得包含所述目标类型元素的至少一个目标样本图片。

一方面，提供一种场景元素融合处理装置，所述装置包括：

数据集获取单元，用于获取包含多个源样本图片的源样本图片集合以及包含多个目标样本图片的目标样本图片集合；其中，各源样本图片与各目标样本图片具有相同的场景类型，每一源样本图片和目标样本图片均采用多种类型的元素构成，且每一源样本图片和目标样本图片包括的至少一个元素均设置了相应的标注信息；

元素提取单元，用于根据所述源样本图片集合中各个源样本图片各自对应的标注信息，分别从各个源样本图片中获取包含目标类型元素的目标区域图片，获得目标区域图片集合；

融合处理单元，用于基于获得的目标区域图片集合，对所述目标样本图片集合中的至少一个目标样本图片进行针对所述目标类型元素的融合处理，获得包含所述目标类型元素的至少一个目标样本图片。

可选的，所述元素提取单元，具体用于：

针对所述各个源样本图片的标注文件，获取相应的标注信息；

针对获得的各个标注信息，分别执行以下操作：确定获得的一个标注信息中指示的元素类型包含所述目标类型元素时，根据所述一个标注信息指示的所述目标类型元素的坐标信息，从相应的源样本图片中截取所述目标类型元素对应的目标区域图片。

可选的，所述融合处理单元，具体用于：

从所述目标样本图片集合中确定所述至少一个目标样本图片；

针对所述至少一个目标样本图片中的各个目标样本图片，分别执行以下操作：针对一个目标样本图片，从所述目标区域图片集合中选取至少一个目标区域图片，以及将所述一个目标样本图片与所述至少一个目标区域图片进行融合处理，获得包含所述目标类型元素的一个目标样本图片。

可选的，所述融合处理单元，具体用于：

根据所述目标样本图片集合中各个目标样本图片的标注信息，确定所述目标样本图片集合中标注的所述目标类型元素的总数量以及其他类型元素的总数量；

根据所述目标类型元素的总数量以及所述其他类型元素的总数量，确定所述目标样本图片集合需增加的所述目标类型元素的总数量；

根据需增加的所述目标类型元素的总数量，从所述目标样本图片集合确定所述至少一个目标样本图片；其中，所述至少一个目标样本图片中各个目标样本图片对应的目标类型元素的数量之和，与需增加的所述目标类型元素的总数量相同。

可选的，所述融合处理单元，具体用于：

根据所述需增加的所述目标类型元素的总数量，为所述一个目标样本图片选取相应数量的目标区域图片；其中，所述至少一个目标样本图片中各个目标样本图片需增加的所述目标类型元素的数量之和与需增加的所述目标类型元素的总数量相同；或者，

为所述一个目标样本图片选取设定数量的目标区域图片。

可选的，所述融合处理单元，具体用于：

根据所述目标样本图片集合中各个目标样本图片的标注信息，分别确定所述各个目标样本图片各自对应的所述目标类型元素的数量；

将所述目标类型元素的数量不大于预设数量阈值的目标样本图片确定为所述至少一个目标样本图片。

可选的，所述融合处理单元，具体用于：

确定所述目标类型元素在所述一个目标样本图片中的融合区域；

对所述一个目标样本图片对应的所述至少一个目标区域图片在所述融合区域中分别进行融合处理，以得到包含所述目标类型元素的一个目标样本图片；其中，针对一个目标区域图片，将所述一个目标区域图片在所述融合区域中进行融合处理时，将所述一个目标区域图片中所述目标类型元素的像素覆盖所述融合区域中对应位置的像素。

可选的，所述融合处理单元，具体用于：

基于所述一个目标样本图片对应的像素矩阵，将预设行范围内的区域确定为所述融合区域；或者，

识别所述目标类型元素在所述一个目标样本图片中出现概率大于预设概率值的区域，并将所述出现概率大于所述预设概率值的区域确定为所述融合区域。

可选的，所述装置还包括标注更新单元，用于：

根据所述一个目标样本图片对应的至少一个目标区域图片中各个目标区域图片各自对应的元素类型信息，以及所述各个目标区域图片各自在所述一个目标样本图片的坐标信息，更新所述一个目标样本图片的标注文件。

可选的，所述场景类型为道路场景，每一源样本图片和目标样本图片均采用所述道路场景中多个道路元素构成，且每一源样本图片和目标样本图片中对至少一个道路元素的类型和位置进行了标注；

所述道路元素包括行人、车辆、交通指示物、植被或者建筑中的一种或者多种的组合。

可选的，所述装置还包括模型训练单元、识别单元以及驾驶指导单元；

所述模型训练单元，用于根据所述至少一个目标样本图片获得道路元素识别模型的训练样本图片集合，并根据所述训练样本图片集合对所述道路元素识别模型进行模型训练，得到已训练的道路元素识别模型；

所述识别单元，用于在车辆行驶过程中采集道路图片，并利用所述已训练的道路元素识别模型对所述道路图片进行道路元素的识别；

所述驾驶指导单元，用于根据道路元素识别结果确定所述车辆的驾驶指导方案。

一方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一种方法的步骤。

一方面，提供一种计算机存储介质，其上存储有计算机程序指令，该计算机程序指令被处理器执行时实现上述任一种方法的步骤。

一方面，提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述任一种方法的步骤。

本申请实施例中，通过从与目标样本图片集合具有相同或者类似场景类型的源样本图片集合中提取包含目标类型元素的目标区域图片，构建该目标类型元素对应的目标区域图片集，并通过将目标区域图片集对目标样本图片集合中的多个目标样本图片进行融合处理，从而能够得到增加了目标类型元素的目标样本图片，这样，针对目标样本图片集合中缺失元素或者失衡元素，则可以通过上述的过程在目标样本图片中有针对性的进行添加，从而对目标样本图片集合进行增强，使得目标样本图片集合中各元素之间的数量能够达到预期的标准，进而，在利用目标样本图片集合进行模型训练时，则训练得到的模型能够均衡的学习得到各个元素的特征，不会倾向于某类元素的识别，从而提升训练得到的模型的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的应用场景示意图；

图2为本申请实施例提供的场景元素融合处理方法的流程示意图；

图3为本申请实施例提供的从源样本图片A中截取目标区域图片的流程示意图；

图4为本申请实施例提供的从源样本图片A中截取目标区域图片的示意图；

图5为本申请实施例提供的以目标类型元素为红绿灯为例的目标区域图片集合示意图；

图6为本申请实施例提供的利用目标区域图片集合与目标样本图片集合进行融合处理的流程示意图；

图7为本申请实施例提供的融合区域示意图；

图8为本申请实施例提供的一种融合前后目标样本图片的对比示意图；

图9为本申请实施例提供的另一种融合前后目标样本图片的对比示意图；

图10为本申请实施例提供的元素识别模型训练方法的流程示意图；

图11为本申请实施例提供的场景元素融合处理装置的一种结构示意图；

图12为本申请实施例提供的计算机设备的一种结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

为便于理解本申请实施例提供的技术方案，这里先对本申请实施例使用的一些关键名词进行解释：

样本图片集合：是指包含多个样本图片的集合，本申请实施例中，样本图片集合主要涉及源样本图片集合和目标样本图片集合，源样本图片集合用于目标类型元素的提取，构建目标类型元素集合，目标样本图片集合为待增强的数据集，从源样本图片集合中提取的元素，添加至目标样本图片集合中各个样本中。

元素：一张图片通常是多种物品构成的，图片中的每一件物品则可以为一个元素。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习（Machine Learning，ML）是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

计算机视觉技术(Computer Vision，CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能***。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

本申请实施例提供的方案主要涉及属于人工智能领域下属的计算机视觉技术、机器学习/深度学习等技术，计算机视觉技术是人工智能技术的一个重要分支，基于监督的学习是当前计算机视觉算法的主流方法。

由于任务需求的拓展和实际场景中各类元素出现频次相差较大的情况，数据集也常常存在缺少某些类别的元素或不同类别元素数量失衡的问题，而在监督学习中，模型会倾向于学习到训练损失最小的权值，当某类样本数量占大多数时，模型会倾向拟合此类别的样本，而忽略样本数量少的类别，最后造成少数量样本的类别准确率低。

而相关技术中的数据增强方法并不能从根本上解决元素缺失或不同类别元素失衡的问题。

鉴于此，本申请实施例提供一种场景元素融合处理方法，在该方法中，通过从与目标样本图片集合具有相同或者类似场景类型的源样本图片集合中提取包含目标类型元素的目标区域图片，构建该目标类型元素对应的目标区域图片集，并通过将目标区域图片集对目标样本图片集合中的多个目标样本图片进行融合处理，从而能够得到增加了目标类型元素的目标样本图片，这样，针对目标样本图片集合中缺失元素或者失衡元素，则可以通过上述的过程在目标样本图片中有针对性的进行添加，从而对目标样本图片集合进行增强，使得目标样本图片集合中各元素之间的数量能够达到预期的标准，进而，在利用目标样本图片集合进行模型训练时，则训练得到的模型能够均衡的学习得到各个元素的特征，不会倾向于某类元素的识别，从而提升训练得到的模型的准确性。

在介绍完本申请实施例的设计思想之后，下面对本申请实施例的技术方案能够适用的应用场景做一些简单介绍，需要说明的是，以下介绍的应用场景仅用于说明本申请实施例而非限定。在具体实施过程中，可以根据实际需要灵活地应用本申请实施例提供的技术方案。

本申请实施例提供的方案可以适用于大多数基于图片样本的机器学习场景中，如图4所示，为本申请实施例提供的一种场景示意图，在该场景中，可以包括图像采集设备10和数据生成设备20。

其中，图像采集设备10可以用于样本图片的采集，针对于不同的图片采集方式，图像采集设备10可以为不同的设备，例如图像采集设备10可以为摄像机，一种可能的实施方式为设置于车辆上的摄像机，可以通过该摄像机拍摄下车辆经过时的图片以作为样本图片，另一种可能的实施方式可以为设置于路测的监控设备，进而可以将监控设备拍摄的图片作为样本图片。或者，还可以通过从网络中获取图片的方式获取样本图片，那么图像采集设备10可以为相应的计算机设备。

数据生成设备20是具有一定处理能力的计算机设备，例如可以为个人计算机（personal computer，PC）、笔记本电脑或者服务器等。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器，但并不局限于此。

数据生成设备20包括一个或多个处理器201、存储器202以及与其他设备交互的I/O接口203等。此外，数据生成设备20还可以配置数据库204，数据库204可以用于存储本申请实施例提供的方案中涉及到的目标类型元素对应的目标区域图片集以及数据集等。其中，数据生成设备20的存储器202中可以存储本申请实施例提供的场景元素融合处理方法的程序指令，这些程序指令被处理器201执行时能够用以实现本申请实施例提供的场景元素融合处理方法的步骤，以生成添加了目标类型元素的训练数据集。

在具体实施时，图像采集设备10可以将采集的样本图片发送给数据生成设备20，数据生成设备20进行样本图片的存储，在需要进行图片处理时，则通过上述场景元素融合处理方法，利用存储的样本图片来获取添加了目标类型元素的训练数据集，该训练数据集可以用于机器学习，以对相应的模型进行训练。

在一种可能的实施方式中，上述的样本图片所呈现的场景可以为道路场景，则每一样本图片可以由多个道路元素构成，道路元素例如包括行人、车辆、交通指示物、植被或者建筑中的一种或者多种的组合。在实际应用时，每一样本图片可以为实际采集的道路图片，道路图片构成源样本图片集合与目标样本集合，例如针对源样本图片集合标注了红绿灯，包括其类型为红绿灯以及位置，进而可以从源样本图片集合中提取包括红绿灯元素，并将红绿灯元素融合至目标样本集合中，融合后的目标样本集合则可以包括多种道路元素的标注，从而可以利用目标样本集合进行道路元素模型的训练，训练得到的模型可以用于实际道路元素识别过程。

一种可能的方式是应用于自动驾驶场景中，例如在自动驾驶车辆行驶过程中，可以通过设置于车辆上的摄像设备拍摄道路图片，并通过上述训练得到道路元素识别模型实时识别周围的道路元素，从而可以根据识别到的道路元素制定自动驾驶方案，例如识别前方有红绿灯时，需要进一步确认红绿灯的状态，以确定是否停止车辆前进，或者，识别前方有行人时，需要及时避让行人。

另一种可能的方式是应用于地图导航中，例如驾驶人员驾驶车辆行驶过程中，同样可以采集道路图片，并通过上述训练得到道路元素识别模型实时识别周围的道路元素，从而可以根据识别到的道路元素为驾驶人员制定驾驶指导信息，从而为驾驶人员进行导航指导。例如，在识别前方有行人时，即使提醒驾驶人员避让行人。

图像采集设备10和数据生成设备20之间可以通过一个或者多个网络30进行直接或间接的通信连接。该网络30可以是有线网络，也可以是无线网络，例如无线网络可以是移动蜂窝网络，或者可以是无线保真（Wireless-Fidelity，WIFI）网络，当然还可以是其他可能的网络，本发明实施例对此不做限制。

当然，本申请实施例提供的方法并不限用于图1所示的应用场景中，还可以用于其他可能的应用场景，本申请实施例并不进行限制。对于图1所示的应用场景的各个设备所能实现的功能将在后续的方法实施例中一并进行描述，在此先不过多赘述。

请参见图2，为本申请实施例提供的场景元素融合处理方法的流程示意图，该方法可以通过图1中的数据生成设备20来执行，该方法的流程介绍如下。

步骤201：获取具有相同的场景类型的源样本图片集合以及目标样本图片集合。

本申请实施例中，源样本图片集合为由源样本图片组成的数据集，且源样本图片集合为包含目标类型元素的数据集，目标样本图片集合为由目标样本图片组成的数据集，且目标样本图片集合为待增强的数据集，通过从源样本图片集合进行目标类型元素的提取，并将提取的目标类型元素融合入目标样本图片集合中。

其中，为了使得元素更好的融合，更贴近目标样本图片集合的场景，源样本图片集合和目标样本图片集合可以拥有类似或者相同的场景类型，例如可以都可以为街景图片或者红绿灯路口图片等等。

示例性的，源样本图片集合为标注了红绿灯的数据集A，目标样本图片集合为标注了行人和车辆的数据集B，即数据集B缺少对于红绿灯的标注，若是利用数据集B进行训练得到的模型则对行人和车辆能够进行识别，而无法识别红绿灯，因而若是想要该模型能够识别红绿灯，则需要在数据集B中添加红绿灯元素，而数据集A刚好对红绿灯进行了标注，那么则可以利用数据集A中的已标注元素，即红绿灯对数据集B进行元素增强。

或者，源样本图片集合为标注了红绿灯的数据集A，目标样本图片集合为标注了红绿灯、行人和车辆的数据集C，但是数据集C中红绿灯样本数量较少，数据集存在严重类别失衡，若是利用数据集C进行训练得到的模型则更倾向于行人和车辆的识别，对于红绿灯的识别能力更弱，因此为了使得数据集C中各个类别元素数量均衡，则需要在数据集C中添加红绿灯元素，而数据集A刚好对红绿灯进行了标注，那么则可以利用数据集A中的已标注元素，即红绿灯对数据集C进行元素增强。

在具体实施时，源样本图片集合和目标样本图片集合也可以为同一数据集，例如可以为上述的数据集C，那么可以从数据集C中提取红绿灯元素，并融合至各个样本图片中，从而增加数据集C中红绿灯元素的数量。

步骤202：根据源样本图片集合中各个源样本图片各自对应的标注信息，分别从包含目标类型元素的源样本图片中截取包含目标类型元素的目标区域图片，获得目标区域图片集合。

本申请实施例中，在对源样本图片集合中的每个源样本图片进行标注之后，则各个源样本图片则会拥有对应的标注信息，标注信息一般存储于标注文件中，在具体实施时，可以整个源样本图片集合中多个源样本图片对应一个标注文件，例如可以整个源样本图片集合对应一个标注文件，即所有源样本图片的标注信息均存储于一个标注文件中，那么在需要某个源样本图片的标注信息时，则可以从该标注文件中查询得到。或者，也可以是一个源样本图片对应一个标注文件，那么在需要某个源样本图片的标注信息时，则可以从查询得到该源样本图片的标注文件，进而获取标注信息。

标注信息可以包括被标注元素的类型以及在源样本图片中的坐标信息，其中，坐标信息可以采用被标注元素的标注框的中心点坐标以及矩形框的长宽值的方式表示，或者还可以采用被标注元素的标注框的对角线顶点坐标表示。

本申请实施例中，可以根据源样本图片的标注信息，可以确定该源样本图片中是否包括目标类型元素，进而在提取目标类型元素时则可以从包含目标类型元素的源样本图片中进行提取。针对于每个包含目标类型元素的源样本图片，其提取目标类型元素的过程是类似的，因而下面以源样本图片A为例对该过程进行介绍，如图3所示，为以源样本图片A为例，从源样本图片A中截取目标区域图片的流程示意图。

S2021：从源样本图片A的标注文件获取源样本图片A的标注信息。

具体的，对于源样本图片A而言，标注文件中存储源样本图片A所有的标注信息，进而可以根据源样本图片A的标注文件获取其相应的标注信息。

示例性的，如图4所示，为从源样本图片A中截取目标区域图片的示意图，其中，源样本图片A为一个路口图片，对源样本图片A中的红绿灯进行了标注，以目标类型元素为红绿灯为例，如图4中所示，标注信息具体可包括标注框内元素类型信息以及坐标信息，即图4所示为“light”表征元素为红绿灯。

S2022：根据标注信息确定源样本图片A是否包含目标类型元素。

由于标注信息中指示了源样本图片A已标注的元素类型，进而可以根据标注信息确定源样本图片A是否包含目标类型元素，当标注信息中指示源样本图片A的元素类型未包含目标类型元素时，则流程结束。

S2023：若S2022的确定结果为是，则根据标注信息指示的目标类型元素的坐标信息，在源样本图片A中确定目标类型元素区域。

当标注信息中指示源样本图片A的元素类型包含目标类型元素时，则可以根据标注信息指示的目标类型元素的坐标信息，从源样本图片A中确定目标类型元素区域。

S2024：截取源样本图片A中目标类型元素对应的目标区域图片。

具体的，可以采用裁剪的方式，即在确定目标类型元素区域之后，将源样本图片A中其他区域剪除，只保留目标类型元素区域，从而得到目标区域图片。或者，由于图片在计算机设备中进行存储时是采用像素矩阵的形式进行存储的，那么可以根据坐标信息与图片中像素的映射关系，从源样本图片A中读取目标类型元素区域的数据，进而根据该数据生成相应的目标区域图片。

如图4所示，根据源样本图片A的标注信息则可以确定源样本图片A中包括红绿灯，因而可以从源样本图片A中进行目标类型元素的提取，那么可以根据坐标信息确定红绿灯在源样本图片A中的区域，进而从源样本图片A的像素矩阵中读取这些像素，生成包含红绿灯的目标区域图片。

采用上述的方式针对源样本图片集合中每一源样本图片进行操作后，则可以得到每一源样本图片所对应的目标区域图片，从而由这些样本图片构成目标区域图片集合。如图5所示，是以目标类型元素为红绿灯为例的目标区域图片集合示意图，其中，目标区域图片集合是由从源样本图片中提取的多个目标类型元素的目标区域图片组成的，图5所示的目标区域图片集合则是提取的各个红绿灯图片组成的。

步骤203：基于获得的目标区域图片集合，对目标样本图片集合中的至少一个目标图片进行针对目标类型元素的融合处理，获得包含目标类型元素的至少一个目标样本图片。

本申请实施例中，在获取目标区域图片集之后，则可以利用获得的目标区域图片集与目标样本图片集合进行融合处理，从而获得增强后的至少一个目标样本图片，也就是包括目标类型元素的至少一个目标样本图片。在实际应用中，增强后的至少一个目标样本图片与目标区域图片集合中其他未经融合处理的目标样本图片构成一个新的样本图片集合，该样本图片集合为元素增强后的样本图片集合，可以作为训练数据集用于实际的模型训练中。

如图6所示，为利用目标区域图片集与目标样本图片集合进行融合处理的流程示意图。

S2031：从目标样本图片集合中确定至少一个目标样本图片。

本申请实施例中，可以根据目标样本图片集合的具体情况来选择需要进行融合处理的至少一个目标样本图片。

具体的，当目标样本图片集合为完全不包含目标类型元素的数据集，例如上述示例的数据集B时，则可以将整个目标样本图片集合中的所有图片进行融合处理，或者，可以按照一定的比例选择至少一个目标样本图片，例如可以设置对目标样本图片集合中的80%或者85%等比例的目标样本图片进行融合处理。

具体的，当目标样本图片集合为部分包含目标类型元素，但元素数量严重失衡的数据集，例如上述示例的数据集C时，也可以将整个目标样本图片集合中的所有图片进行融合处理，或者，可以选取未包含目标类型元素的至少一个目标样本图片。

在具体实施时，为了保持目标样本图片集合中各种元素的数量均衡，因而可以根据目标样本图片集合中已标注的其他类型元素的数量来确定目标类型元素的数量。具体的，目标样本图片集合中已标注的其他类型元素的数量可以通过标注信息获取，因而可以根据目标样本图片集合中各个目标样本图片的标注信息，确定目标样本图片集合中标注的目标类型元素的总数量以及其他类型元素的总数量，进而根据目标类型元素的总数量以及其他类型元素的总数量，确定目标样本图片集合需增加的目标类型元素的总数量，例如当目标样本图片集合中目标类型元素的总数量为零，而其他类型元素的总数量基本为10000时，则可以确定需增加的目标类型元素的总数量为10000，或者，当目标样本图片集合中目标类型元素的总数量为3000，而其他类型元素的总数量基本为10000时，则可以确定需增加的目标类型元素的总数量为7000。

进而，根据需增加的目标类型元素的总数量，确定需要选择的目标样本图片的数量，即从目标样本图片集合确定至少一个目标样本图片，使得确定出的至少一个目标样本图片中各个目标样本图片对应的目标类型元素的数量之和，与需增加的目标类型元素的总数量相同。

在具体实施时，还可以将包含目标类型元素数量较少的目标样本图片选取作为至少一个目标样本图片。具体的，可以根据目标样本图片集合中各个目标样本图片的标注信息，分别确定各个目标样本图片各自对应的目标类型元素的数量，进而，将目标类型元素的数量不大于预设数量阈值的目标样本图片确定为至少一个目标样本图片。

S2032：针对每一个目标样本图片，从目标区域图片集合中选取至少一个目标区域图片。

在选定至少一个目标样本图片之后，则可以为选定的至少一个目标样本图片中每一个目标样本图片从目标区域图片集合中选取至少一个目标区域图片。

具体的，可以根据需增加的目标类型元素的总数量，为每一个目标样本图片选取相应数量的目标区域图片，并且，上述至少一个目标样本图片中各个目标样本图片需增加的目标类型元素的数量之和与需增加的目标类型元素的总数量相同。例如，选定了3000个需要进行融合处理的目标样本图片之后，且需增加的目标类型元素的总数量为9000，则可以为每个目标样本图片分配需要添加的目标类型元素的数量，进而根据各个目标样本图片的数量从目标区域图片集中选取相应数量的目标区域图片，各个目标样本图片的数量可以不同，而这3000个目标样本图片的数量之和为9000。

或者，还可以预先设定每个目标样本图片的数量，进而可以为每个目标样本图片选取设定数量的目标区域图片。

需要说明的是，需要进行融合处理的目标样本图片选取与各个目标样本图片所对应的目标区域图片的选取可以是同时进行的，即S2031和S2032可以是同时进行的，比如在确定需要添加的目标类型元素的总数量之后，可以同时选定至少一个目标样本图片的数量和每个目标样本图片所对应的目标区域图片的数量。

S2033：将目标样本图片与相应的至少一个目标区域图片进行融合处理，获得包含目标类型元素的目标样本图片。

由于每一个目标样本图片以及每一目标区域图片的融合处理过程类似，因此下面具体以一个目标样本图片的一个目标区域图片的融合处理过程进行介绍，例如将目标区域图片C融合至目标样本图片B中。

具体的，将目标区域图片C融合至目标样本图片B中时，首先需要确定目标类型元素在一个目标样本图片中的融合区域。

通常而言，在图片中，各个元素都对应着各自大致出现的区域，例如在拍摄街景图片时，摄像机的高度一般是一定的，且红绿灯的高度一般都比较高，因而一般出现在图片的偏上的位置，因此可以将目标样本图片中设定高度的区域作为目标区域图片可融合进的区域。由于目标样本图片是通过像素矩阵的方式存储的，因此可以将目标样本图片的像素矩阵中预设行范围内的区域确定为融合区域。

如图7所示，当目标类型元素为红绿灯时，可以将目标样本图片中偏上的区域设置为融合区域，例如可以将目标样本图片中上半部分作为融合区域。

在具体实施时，也可以通过训练用于识别各个类型的元素可能出现区域的模型，进而通过模型来识别目标类型元素在目标样本图片中出现概率大于预设概率值的区域，并将出现概率大于预设概率值的区域确定为融合区域。

本申请实施例中，在确定融合区域之后，则可以将目标区域图片融合至融合区域中，其中，可以将目标区域图片融合至融合区域的随机区域中，但需要避开目标样本图片中已标注的元素区域。

本申请实施例中，针对至少一个目标样本图片进行融合处理之后，则可以在这些目标样本图片中增加目标类型元素，得到经融合处理之后的至少一个目标样本图片。

S204：根据目标样本图片对应的至少一个目标区域图片中各个目标区域图片各自对应的元素类型信息，以及各个目标区域图片各自在一个目标样本图片的坐标信息，更新目标样本图片的标注文件。

本申请实施例中，由于各个目标样本图片是要用于后续的模型训练的，因而需要为增加各个目标类型元素添加标注信息，标注信息包括至少一个目标区域图片中各个目标区域图片各自对应的元素类型信息以及各个目标区域图片各自在一个目标样本图片的坐标信息，进而可以分别在各个目标样本图片的标注文件中更新各自对应的标注信息，以用于后续的模型训练。

延续上述数据集A、数据集B和数据集C的例子。其中，由于数据集B原本不包含红绿灯，在经过上述的过程将红绿灯融合入数据集B中的每一个目标样本图片中后，则可以得到包含红绿灯元素的数据集B’，如图8所示，在新增红绿灯元素之前，数据集B中的目标样本图片包括已标注的人（person）和车辆（vehicle）两种元素，而并未包括红绿灯元素，则进行融合处理之后，在该目标样本图片中新增了3个红绿灯，进而融合处理得到的目标样本图片是包含了红绿灯元素的样本图片。

或者，对数据集C进行元素融合，增加数据集红绿灯元素的数量，得到样本数量更均衡的数据集C’，如图9所示，在新增红绿灯元素之前，数据集B中的目标样本图片包括已标注的红绿灯、人（person）和车辆（vehicle）两种元素，但是由于数据集C中整体上红绿灯元素的数量较少，因而需要在数据集C新增红绿灯元素，则进行融合处理之后，在该目标样本图片中新增了2个红绿灯，进而融合处理得到的目标样本图片是包含了红绿灯元素的样本图片。

通过上述过程得到数据集B’或C’后，则可以使用新生成的数据集B’或C’训练可以同时检测红绿灯、车辆和行人的模型。

下面结合附图，对上面所述的场景元素融合处理方法的应用进行介绍。参见图10，为一种场景元素融合处理方法的应用方法流程图。

步骤1001：获取现有的多个数据集。

其中，现有的多个数据集是指已进行元素标注的数据集，这里主要是指样本图片集合，例如，已进行元素标注的数据集可以包括如下：

（1）只标注了红绿灯的数据集A；

（2）只标注了行人和车辆的数据集B；

（3）标注了红绿灯、行人和车辆的数据集C，但是红绿灯样本数量较少，数据集存在严重类别失衡。

步骤1002：提取数据集中的目标类型元素。

这里以目标类型元素为红绿灯为例，那么可以从数据集A的标签提取红绿灯元素区域，得到红绿灯元素集合。提取元素的过程可以参考图2所示实施例部分的描述，在此不再赘述。

步骤1003：对元素缺乏的数据集融合新元素。

步骤1004：生成包含新元素的数据集。

例如对于上述的数据集B，数据集B缺乏红绿灯元素，因而可以对数据集B进行元素融合，得到新增红绿灯元素的数据集B’。

步骤1005：对元素数量失衡的数据集补充现有元素。

步骤1006：生成样本数量更均衡的数据集。

例如对于上述的数据集C，数据集C中红绿灯样本数量较少，数据集存在严重类别失衡，因而可以对数据集C进行元素融合，得到样本数量更均衡的数据集C’。

步骤1007：用新生成的数据集训练模型。

具体的，可以利用新生成的数据集对元素识别模型进行训练，得到训练后的元素识别模型。其中，元素识别模型可以采用任意结构的模型，并可采用任意的模型训练方法进行训练，本申请实施例对此不做限制。

本申请实施例中，一种可能的场景类型为道路场景，那么，源样本图片和目标样本图片所包括的构成元素则为道路元素，道路元素可以包括行人、车辆、交通指示物、植被或者建筑中的一种或者多种的组合，当然，可以包括其他可能的道路元素。

在通过上述过程获得包含目标类型元素的至少一个目标样本图片之后，则可以根据至少一个目标样本图片获得道路元素识别模型的训练样本图片集合，并根据训练样本图片集合对道路元素识别模型进行模型训练，得到已训练的道路元素识别模型。进而，在车辆行驶过程中采集道路图片，并利用已训练的道路元素识别模型对道路图片进行道路元素的识别，以根据道路元素识别结果确定车辆的驾驶指导方案。

例如，上述得到的数据集B’或者C’则可以用于道路元素识别模型的训练，训练得到的道路元素识别模型可以用于实际的道路元素识别过程。例如在自动驾驶车辆行驶过程中，可以通过上述训练得到道路元素识别模型对拍摄的道路图片进行实时的道路元素的识别，从而可以根据识别到的道路元素制定自动驾驶方案，或者，在驾驶人员驾驶车辆行驶过程中，也可以通过上述训练得到道路元素识别模型实时识别周围的道路元素，从而可以根据识别到的道路元素为驾驶人员制定驾驶指导信息，从而为驾驶人员进行导航指导。

综上所述，本申请实施例中提出了一种基于元素融合的图片处理以及模型训练方法，通过元素级的数据处理，生成新的数据集，可以通过融合现有标注数据集的元素，在不需要人工重新标注的情况下得到包含更多元素类别的数据集，以及通过控制各类融合元素的数量，从根本上改善数据集样本失衡的问题，进而可以只依赖现有的数据集用极低的成本生成包含更多类别元素的数据集，也可以通过元素数量补充用极低的成本来改善现有数据集中不同类别元素数量不均衡的问题。

请参见图11，基于同一发明构思，本申请实施例还提供了一种场景元素融合处理装置110，该装置包括：

数据集获取单元1101，用于获取包含多个源样本图片的源样本图片集合以及包含多个目标样本图片的目标样本图片集合；其中，各源样本图片与各目标样本图片具有相同的场景类型，每一源样本图片和目标样本图片均采用多种类型的元素构成，且每一源样本图片和目标样本图片包括的至少一个元素均设置了相应的标注信息；

元素提取单元1102，用于根据所述源样本图片集合中各个源样本图片各自对应的标注信息，分别从各个源样本图片中获取包含目标类型元素的目标区域图片，获得目标区域图片集合；

融合处理单元1103，用于基于获得的目标区域图片集合，对所述目标样本图片集合中的至少一个目标样本图片进行针对所述目标类型元素的融合处理，获得包含所述目标类型元素的至少一个目标样本图片。

可选的，元素提取单元1102，具体用于：

针对各个源样本图片的标注文件，获取相应的标注信息；

针对获得的各个标注信息，分别执行以下操作：确定获得的一个标注信息中指示的元素类型包含目标类型元素时，根据一个标注信息指示的目标类型元素的坐标信息，从相应的源样本图片中截取目标类型元素对应的目标区域图片。

可选的，融合处理单元1103，具体用于：

从目标样本图片集合中确定至少一个目标样本图片；

针对至少一个目标样本图片中的各个目标样本图片，分别执行以下操作：针对一个目标样本图片，从目标区域图片集合中选取至少一个目标区域图片，以及将一个目标样本图片与至少一个目标区域图片进行融合处理，获得包含目标类型元素的一个目标样本图片；

基于获得的包含目标类型元素的各个目标样本图片，以及目标样本图片集合中未经融合处理的其他目标样本图片，得到训练数据集。

可选的，融合处理单元1103，具体用于：

根据目标样本图片集合中各个目标样本图片的标注信息，确定目标样本图片集合中标注的目标类型元素的总数量以及其他类型元素的总数量；

根据目标类型元素的总数量以及其他类型元素的总数量，确定目标样本图片集合需增加的目标类型元素的总数量；

根据需增加的目标类型元素的总数量，从目标样本图片集合确定至少一个目标样本图片；其中，至少一个目标样本图片中各个目标样本图片对应的目标类型元素的数量之和，与需增加的目标类型元素的总数量相同。

可选的，融合处理单元1103，具体用于：

根据需增加的目标类型元素的总数量，为一个目标样本图片选取相应数量的目标区域图片；其中，至少一个目标样本图片中各个目标样本图片需增加的目标类型元素的数量之和与需增加的目标类型元素的总数量相同；或者，

为一个目标样本图片选取设定数量的目标区域图片。

可选的，融合处理单元1103，具体用于：

根据目标样本图片集合中各个目标样本图片的标注信息，分别确定各个目标样本图片各自对应的目标类型元素的数量；

将目标类型元素的数量不大于预设数量阈值的目标样本图片确定为至少一个目标样本图片。

可选的，融合处理单元1103，具体用于：

确定目标类型元素在一个目标样本图片中的融合区域；

对一个目标样本图片对应的至少一个目标区域图片在融合区域中分别进行融合处理，以得到包含目标类型元素的一个目标样本图片；其中，针对一个目标区域图片，将一个目标区域图片在融合区域中进行融合处理时，将一个目标区域图片中目标类型元素的像素覆盖融合区域中对应位置的像素。

可选的，融合处理单元1103，具体用于：

基于一个目标样本图片对应的像素矩阵，将预设行范围内的区域确定为融合区域；或者，

识别目标类型元素在一个目标样本图片中出现概率大于预设概率值的区域，并将出现概率大于预设概率值的区域确定为融合区域。

可选的，该装置还包括标注更新单元1104，用于：

根据一个目标样本图片对应的至少一个目标区域图片中各个目标区域图片各自对应的元素类型信息，以及各个目标区域图片各自在一个目标样本图片的坐标信息，更新一个目标样本图片的标注文件。

可选的，场景类型为道路场景，每一源样本图片和目标样本图片均采用道路场景中多个道路元素构成，且每一源样本图片和目标样本图片中对至少一个道路元素的类型和位置进行了标注；

道路元素包括行人、车辆、交通指示物、植被或者建筑中的一种或者多种的组合。

可选的，该装置还包括模型训练单元1105、识别单元1106以及驾驶指导单元1107；

模型训练单元1105，用于根据至少一个目标样本图片获得道路元素识别模型的训练样本图片集合，并根据训练样本图片集合对道路元素识别模型进行模型训练，得到已训练的道路元素识别模型；

识别单元1106，用于在车辆行驶过程中采集道路图片，并利用已训练的道路元素识别模型对道路图片进行道路元素的识别；

驾驶指导单元1107，用于根据道路元素识别结果确定车辆的驾驶指导方案。

该装置可以用于执行图2~图10所示的实施例中所示的方法，因此，对于该装置的各功能模块所能够实现的功能等可参考图2~图10所示的实施例的描述，不多赘述。需要说明的是，标注更新单元1104、模型训练单元1105、识别单元1106以及驾驶指导单元1107虽然在图11中一并示出，但标注更新单元1104、模型训练单元1105、识别单元1106以及驾驶指导单元1107不是必选的功能单元，因此在图11中以虚线进行示出。

请参见图12，基于同一技术构思，本申请实施例还提供了一种计算机设备120，可以包括存储器1201和处理器1202。

所述存储器1201，用于存储处理器1202执行的计算机程序。存储器1201可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序等；存储数据区可存储根据计算机设备的使用所创建的数据等。处理器1202，可以是一个中央处理单元（central processing unit， CPU），或者为数字处理单元等等。本申请实施例中不限定上述存储器1201和处理器1202之间的具体连接介质。本申请实施例在图12中以存储器1201和处理器1202之间通过总线1203连接，总线1203在图12中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。所述总线1203可以分为地址总线、数据总线、控制总线等。为便于表示，图12中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器1201可以是易失性存储器（volatile memory），例如随机存取存储器（random-access memory，RAM）；存储器1201也可以是非易失性存储器（non-volatilememory），例如只读存储器，快闪存储器（flash memory），硬盘（hard disk drive，HDD）或固态硬盘（solid-state drive，SSD）、或者存储器1201是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器1201可以是上述存储器的组合。

处理器1202，用于调用所述存储器1201中存储的计算机程序时执行如图2~图10所示的实施例中设备所执行的方法。

在一些可能的实施方式中，本申请提供的方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的方法中的步骤，例如，所述计算机设备可以执行如图2~图10所示的实施例中设备所执行的方法。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种场景元素融合处理方法，其特征在于，所述方法包括：

从包含多个源样本图片的源样本图片集合中，获取包含目标类型元素的源样本图片，每一个源样本图片包含多种类型的元素，且每一个元素设置了相应的标注信息；

根据标注信息，从所述包含目标类型元素的源样本图片中，提取目标类型元素所在的目标区域图片；

从待进行元素数量增强的目标样本图片集合中确定N个目标样本图片；其中，每一个目标样本图片包含多种类型的元素，且每一个元素设置了相应的标注信息，所述目标类型元素为所述目标样本图片集合中的缺失元素，或者所述目标样本图片集合中所述目标类型元素的数量不大于其他类型元素，各源样本图片与各目标样本图片具有相同的场景类型；

为所述N个目标样本图片中的每一个目标样本图片选取至少一个目标区域图片；

将所述至少一个目标区域图片融入相应目标样本图片中，获得包含所述目标类型元素的N个目标样本图片；

根据所述目标类型元素的元素类型信息，以及融入每一个目标样本图片的目标区域图片的坐标信息，相应更新每一个目标样本图片的标注文件；

基于所述N个目标样本图片与所述目标样本图片集合中其余M个目标样本图片，构成训练样本图片集合；其中，所述训练样本图片集合包含的各类元素的元素数量均衡；

其中，从待进行元素数量增强的目标样本图片集合中确定N个目标样本图片，包括：

根据需增加的所述目标类型元素的总数量，从所述目标样本图片集合确定所述N个目标样本图片；其中，所述N个目标样本图片中各个目标样本图片对应的需增加的目标类型元素的数量之和，与需增加的所述目标类型元素的总数量相同。

2.如权利要求1所述的方法，其特征在于，根据标注信息，从所述包含目标类型元素的源样本图片中，提取目标类型元素所在的目标区域图片，包括：

针对各个源样本图片的标注文件，获取相应的标注信息；

3.如权利要求1所述的方法，其特征在于，针对一个目标样本图片，为所述一个目标样本图片选取至少一个目标区域图片，包括：

根据所述需增加的所述目标类型元素的总数量，为所述一个目标样本图片选取相应数量的目标区域图片；其中，所述N个目标样本图片中各个目标样本图片需增加的所述目标类型元素的数量之和与需增加的所述目标类型元素的总数量相同；或者，

为所述一个目标样本图片选取设定数量的目标区域图片。

4.如权利要求1所述的方法，其特征在于，从待进行元素数量增强的目标样本图片集合中确定N个目标样本图片，包括：

将所述目标类型元素的数量不大于预设数量阈值的目标样本图片确定为所述N个目标样本图片。

5.如权利要求1所述的方法，其特征在于，将所述至少一个目标区域图片融入相应目标样本图片中，获得包含所述目标类型元素的N个目标样本图片，包括：

6.如权利要求5所述的方法，其特征在于，确定所述目标类型元素在所述一个目标样本图片中的融合区域，包括：

7.如权利要求1所述的方法，其特征在于，所述场景类型为道路场景，每一源样本图片和目标样本图片均采用所述道路场景中多个道路元素构成，且每一源样本图片和目标样本图片中对至少一个道路元素的类型和位置进行了标注；

8.如权利要求7所述的方法，其特征在于，在基于所述N个目标样本图片与所述目标样本图片集合中其余M个目标样本图片，构成训练样本图片集合之后，所述方法还包括：

根据所述训练样本图片集合对道路元素识别模型进行模型训练，得到已训练的道路元素识别模型；

在车辆行驶过程中采集道路图片，并利用所述已训练的道路元素识别模型对所述道路图片进行道路元素的识别；

根据道路元素识别结果确定所述车辆的驾驶指导方案。

9.一种场景元素融合处理装置，其特征在于，所述装置包括：

图片集合获取单元，用于从包含多个源样本图片的源样本图片集合中，获取包含目标类型元素的源样本图片，每一个源样本图片包含多种类型的元素，且每一个元素设置了相应的标注信息；

元素提取单元，用于根据标注信息，从所述包含目标类型元素的源样本图片中，提取目标类型元素所在的目标区域图片；

融合处理单元，用于从待进行元素数量增强的目标样本图片集合中确定N个目标样本图片；其中，每一个目标样本图片包含多种类型的元素，且每一个元素设置了相应的标注信息，所述目标类型元素为所述目标样本图片集合中的缺失元素，或者所述目标样本图片集合中所述目标类型元素的数量不大于其他类型元素，各源样本图片与各目标样本图片具有相同的场景类型；为所述N个目标样本图片中的每一个目标样本图片选取至少一个目标区域图片；将所述至少一个目标区域图片融入相应目标样本图片中，获得包含所述目标类型元素的N个目标样本图片；根据所述目标类型元素的元素类型信息，以及融入每一个目标样本图片的目标区域图片的坐标信息，相应更新每一个目标样本图片的标注文件；并基于所述N个目标样本图片与所述目标样本图片集合中其余M个目标样本图片，构成训练样本图片集合；其中，所述训练样本图片集合包含的各类元素的元素数量均衡；

其中，所述融合处理单元从待进行元素数量增强的目标样本图片集合中确定N个目标样本图片，包括：

根据所述目标样本图片集合中各个目标样本图片的标注信息，确定所述目标样本图片集合中标注的所述目标类型元素的总数量以及其他类型元素的总数量；根据所述目标类型元素的总数量以及所述其他类型元素的总数量，确定所述目标样本图片集合需增加的所述目标类型元素的总数量；根据需增加的所述目标类型元素的总数量，从所述目标样本图片集合确定所述N个目标样本图片；其中，所述N个目标样本图片中各个目标样本图片对应的需增加的目标类型元素的数量之和，与需增加的所述目标类型元素的总数量相同。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，

所述处理器执行所述计算机程序时实现权利要求1至8任一项所述方法的步骤。

11.一种计算机存储介质，其上存储有计算机程序指令，其特征在于，

该计算机程序指令被处理器执行时实现权利要求1至8任一项所述方法的步骤。