CN111291839A

CN111291839A - 样本数据生成方法、装置和设备

Info

Publication number: CN111291839A
Application number: CN202010384241.6A
Authority: CN
Inventors: 秦永强; 敖川; 宋亮; 刘金露; 张祥伟
Original assignee: Ainnovation Nanjing Technology Co ltd
Current assignee: Ainnovation Nanjing Technology Co ltd
Priority date: 2020-05-09
Filing date: 2020-05-09
Publication date: 2020-06-16

Abstract

本申请提供一种样本数据生成方法、装置和设备，方法包括：获取目标物体的实验图像数据；对所述实验图像数据进行图像处理，得到所述目标物体在预设环境下的亮度图像数据；根据所述实验图像数据和所述亮度图像数据，生成所述目标物体的样本数据。本申请实现了根据目标物体的实验图像数据，生成预设环境下的亮度图像数据，并将实验图像数据与亮度图像数据结合，生成目标物体的样本数据，减小样本数据与真实场景下的图像数据的差异。

Description

样本数据生成方法、装置和设备

技术领域

本申请涉及信息处理技术领域，具体而言，涉及一种样本数据生成方法、装置和设备。

背景技术

在零售商品渠道监控领域，使用深度学习方法来做商品识别目前是较为成熟的方案。目前的深度学习模型只能对训练样本集中的类别进行识别，当客户需要新增商品类别时，需要重新训练模型。

而在实际场景中，新商品的样本集往往只能采集到实验室数据，而无法采集到新增类别在真实场景下的数据。由于实验室场景数据与真实数据之间分布存在差异，导致重新训练的识别模型识别准确率较低。

发明内容

本申请实施例的目的在于提供一种样本数据生成方法、装置和设备，用以实现根据目标物体的实验图像数据，生成预设环境下的亮度图像数据，并将实验图像数据与亮度图像数据结合，生成目标物体的样本数据。

本申请实施例第一方面提供了一种样本数据生成方法，包括：获取目标物体的实验图像数据；对所述实验图像数据进行图像处理，得到所述目标物体在预设环境下的亮度图像数据；根据所述实验图像数据和所述亮度图像数据，生成所述目标物体的样本数据。

于一实施例中，所述对所述实验图像数据进行图像处理，得到所述目标物体在预设环境下的亮度图像数据，包括：将所述实验图像数据转换至预设颜色空间，生成三通道图像数据；根据所述三通道图像数据和预设环境参数，生成所述目标物体在所述预设环境下所述亮度图像数据。

于一实施例中，所述根据所述实验图像数据和所述亮度图像数据，生成所述目标物体的样本数据，包括：于所述三通道图像数据中，提取除去亮度通道以外的二通道图像数据；将所述二通道图像数据和所述亮度图像数据合并，生成所述目标物体的所述样本数据。

于一实施例中，还包括：采集所述目标物体在所述预设环境下的实际图像数据；根据所述实验图像数据和所述实际图像数据，调整所述样本数据。

于一实施例中，还包括：根据所述样本数据建立识别模型；藉由所述识别模型识别所述目标物体的类别。

本申请实施例第二方面提供了一种样本数据生成装置，包括：获取模块，用于获取目标物体的实验图像数据；处理模块，用于对所述实验图像数据进行图像处理，得到所述目标物体在预设环境下的亮度图像数据；生成模块，用于根据所述实验图像数据和所述亮度图像数据，生成所述目标物体的样本数据。

于一实施例中，所述处理模块用于：将所述实验图像数据转换至预设颜色空间，生成三通道图像数据；根据所述三通道图像数据和预设环境参数，生成所述目标物体在所述预设环境下所述亮度图像数据。

于一实施例中，所述生成模块用于：于所述三通道图像数据中，提取除去亮度通道以外的二通道图像数据；将所述二通道图像数据和所述亮度图像数据合并，生成所述目标物体的所述样本数据。

于一实施例中，还包括：采集模块，用于采集所述目标物体在所述预设环境下的实际图像数据；调整模块，用于根据所述实验图像数据和所述实际图像数据，调整所述样本数据；

于一实施例中，还包括：建立模块，用于根据所述样本数据建立识别模型；识别模块，用于藉由所述识别模型识别所述目标物体的类别。

本申请实施例第三方面提供了一种电子设备，包括：存储器，用以存储计算机程序；处理器，用以执行本申请实施例第一方面及其任一实施例的方法，以生成目标物体的样本数据。

本申请提供的样本数据生成方法、装置和设备，通过对目标物体的实验图像数据进行图像处理，生成预设环境下的亮度图像数据，并将实验图像数据与亮度图像数据结合，生成目标物体的样本数据。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请一实施例的电子设备的结构示意图；

图2为本申请一实施例的样本数据生成方法的流程示意图；

图3为本申请一实施例的样本数据生成方法的流程示意图；

图4为本申请一实施例的样本数据生成装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

如图1所示，本实施例提供一种电子设备1，包括：至少一个处理器11和存储器12，图1中以一个处理器为例。处理器11和存储器12通过总线10连接，存储器12存储有可被处理器11执行的指令，指令被处理器11执行，以使电子设备1可执行下述的实施例中方法的全部或部分流程，以生成目标物体的样本数据。

于一实施例中，电子设备1可以是手机、笔记本电脑等设备。

于一实施例中，目标物体可以是新上市的商品。在零售商品渠道监控场景中，目标物体可以是待识别的新商品。

请参看图2，其为本申请一实施例的样本数据生成方法，该方法可由图1所示的电子设备1来执行，并可应用于新商品的样本数据生成场景中，以实现生成目标物体的样本数据。该方法包括如下步骤：

步骤201：获取目标物体的实验图像数据。

在本步骤中，目标物体可以是零售的新商品，在新商品样本数据较少的情况下，可以采集新商品在实验室场景下的影像数据，比如对新商品拍照，进而得到新商品的实验图像数据。

步骤202：对实验图像数据进行图像处理，得到目标物体在预设环境下的亮度图像数据。

在本步骤中，预设环境可以是商品日常放置的真实场景的环境，实验室环境与真实场景存在差异，主要差异在于光照条件不同，并且实验室得到的图像数据相对有限。因此首先对目标物体的实验图像数据进行图像处理，并从中分析出目标物体在真实场景下的亮度图像数据。

步骤203：根据实验图像数据和亮度图像数据，生成目标物体的样本数据。

在本步骤中，将实验图像数据和亮度图像数据进行结合，模拟出目标物体在真实场景下的图像，进而生成目标物体的样本数据，该样本数据更加贴近目标物体在真实场景下的状态，并且可以根据需要生成大量样本数据。

上述样本数据生成方法，通过在实验室场景下获取有限的目标物体的实验图像数据，并对实验图像数据进行图像处理，得到目标物体在真实场景下的亮度图像数据，进而将实验图像数据和亮度图像数据结合后，生成大量的样本数据，提高样本数据的真实度，降低样本获取的成本。

请参看图3，其为本申请一实施例的样本数据生成方法，该方法可由图1所示的电子设备1来执行，并可应用于新商品的样本数据生成场景中，以实现生成目标物体的样本数据。该方法包括如下步骤：

步骤301：获取目标物体的实验图像数据。详细参见上述实施例中对步骤201的描述。

步骤302：将实验图像数据转换至预设颜色空间，生成三通道图像数据。

在本步骤中，实验数据图像可以是RGB（red、green、blue，也就是红色、绿色、蓝色）颜色空间的图像数据。预设颜色空间可以是对亮度进行表征的颜色空间，如HSV（Hue，Saturation，Value，也就是色调，饱和度，明度）颜色空间，Lab（Lab颜色模型，其中L表示亮度。a的正数代表红色，负端代表绿色。b的正数代表黄色）颜色空间等。将实验图像数据由RGB颜色空间转换到对亮度进行表征的预设颜色空间中，生成在预设颜色空间下的三通道图像数据。

步骤303：根据三通道图像数据和预设环境参数，生成目标物体在预设环境下亮度图像数据。

在本步骤中，假设预设环境为真实场景，由于实验室场景数据与真实数据之间差异主要是光照，体现在图像数据上就是亮度信息。可以采用生成对抗网络（GenerativeAdversarial Networks，简称“GAN”，是一种深度学习模型）的生成器，来生成亮度图像数据。

于一实施例中，生成器的参数取决于生成器的结构，一般由卷积层、池化层和全连接层构成。其中，每层的输入是前一层，输出是后一层的输入。其具体形式可以根据实际需要进行设置，依据输入图像的分辨率。预设环境参数以及其他约束进行确定。生成器输入是经过颜色变换后的三通道图像数据，而在最后的输出层上，通过将卷积核数量设置为1等方式，将其输出限制为一个通道，即可实现输出是表示亮度通道的单通道图像，即上述目标物体在真实场景下的亮度图像数据。在此过程中，生成器学到的是实验图像数据与真实场景下图像中光照的变换。通过将经过颜色转换后的三通道图像数据送入生成器中，得到单通道的亮度图像数据。生成器的作用是可以生成更加接近真实场景图像，因此，将实验场景下的实验图像数据，经颜色空间转换后输入生成器，经过训练后，生成器可以生成接近真实场景的图像，然后保留其中的亮度通道，因此输出的亮度图像数据，可以是模拟目标物体在真实场景下的亮度信息。

步骤304：于三通道图像数据中，提取除去亮度通道以外的二通道图像数据。

在本步骤中，对步骤302中生成实验室场景下的三通道图像数据进行处理，将其中的亮度通道数据去除，留下剩余的二通道图像数据。步骤304与步骤303的顺序并不固定，二者可以同时进行，也可先后进行。

步骤305：将二通道图像数据和亮度图像数据合并，生成目标物体的样本数据。

在本步骤中，生成器的输入是实验图像数据经变换颜色空间之后的三通道图像数据，经过生成器处理后，最终得到亮度图像数据是表示亮度的单通道图像数据，将该单通道图像数据与实验场景下的剩余二通道图像数据进行合并，形成一个三通道图像数据，该三通道图像数据就是目标物体的样本数据。通道合并的方式可以采用直接拼接的方式，也可以采用神经网络监督学习的方式。

步骤306：采集目标物体在预设环境下的实际图像数据。

在本步骤中，为了训练生成器的准确性，使其输出更加接近真实场景下的亮度信息，基于生成对抗网络，可以采用该网络的判别器来修正样本数据。假设预设环境为真实场景，首先采集部分数量的目标物体在真实场景下的实际图像数据，比如拍摄目标物体在真实场景中的图片信息。

步骤307：根据实验图像数据和实际图像数据，调整样本数据。

在本步骤中，判别器的主要作用是二分类，用于区别输入图像来源于实验室场景还是真实场景。其一般由分类神经网络构成，也可以自行设计浅层神经网络用于二分类任务。神经网络一般由卷积层，池化层以及全连接层等构成。除神经网络外，判别器也可由其他分类器比如决策树、随机森林等构成。通过将实验图像数据、实际图像数据以及样本数据，一起输入至判别器，由判别器区分出哪些是真实场景的图像数据，并将输出结果反馈给生成器，以提升生成器的输出准确性，进而可以使样本数据更加接近目标物体在真实场景下的图像数据。

于一实施例中，在判别器的训练过程中，首先准备数据和对应的标签。主要包含以下两步：

a. 将实验图像数据和实际图像数据转换至预设颜色空间，此处使用的颜色空间应与步骤302中的预设颜色空间保持一致。

b. 给图像分配标签：其中0表示实际图像数据，1表示实验图像数据，对于生成器的生成的样本数据分配标签0。

然后将上述实验图像数据、实际图像数据和样本数据，及其对应的标签输入到判别器中，即可得到判别器预测的标签。

步骤308：根据样本数据建立识别模型。

在本步骤中，上述步骤中基于生成对抗网络可以藉由实验图像数据生成大量的样本数据，可以有效降低实验室场景数据与真实场景数据之间的分布差异，根据上述样本数据建立识别模型，可以提升识别模型的新品识别准确率。

步骤309：藉由识别模型识别目标物体的类别。

在本步骤中，目标物体可以是零售新商品，藉由步骤308中建立的识别模型对新商品进行识别，可以有效提高新商品识别的准确度。

请参看图4，其为本申请一实施例的样本数据生成装置400，该装置可应用于图1所示的电子设备1，并可应用于新商品的样本数据生成场景中，以实现生成目标物体的样本数据。该装置包括：获取模块401、处理模块402和生成模块403，各个模块的原理关系如下：

获取模块401，用于获取目标物体的实验图像数据。详细参见上述实施例中对步骤201的描述。

处理模块402，用于对实验图像数据进行图像处理，得到目标物体在预设环境下的亮度图像数据。详细参见上述实施例中对步骤202的描述。

生成模块403，用于根据实验图像数据和亮度图像数据，生成目标物体的样本数据。详细参见上述实施例中对步骤203的描述。

于一实施例中，处理模块402用于：将实验图像数据转换至预设颜色空间，生成三通道图像数据。根据三通道图像数据和预设环境参数，生成目标物体在预设环境下亮度图像数据。详细参见上述实施例中对步骤302至步骤303的描述。

于一实施例中，生成模块403用于：于三通道图像数据中，提取除去亮度通道以外的二通道图像数据。将二通道图像数据和亮度图像数据合并，生成目标物体的样本数据。详细参见上述实施例中对步骤304至步骤305的描述。

于一实施例中，还包括：采集模块404，用于采集目标物体在预设环境下的实际图像数据。调整模块405，用于根据实验图像数据和实际图像数据，调整样本数据。详细参见上述实施例中对步骤306至步骤307的描述。

于一实施例中，还包括：建立模块406，用于根据样本数据建立识别模型。识别模块407，用于藉由识别模型识别目标物体的类别。详细参见上述实施例中对步骤308至步骤309的描述。

上述样本数据生成装置400的详细描述，请参见上述实施例中相关方法步骤的描述。

本发明实施例还提供了一种非暂态电子设备可读存储介质，包括：程序，当其在电子设备上运行时，使得电子设备可执行上述实施例中方法的全部或部分流程。其中，存储介质可为磁盘、光盘、只读存储记忆体（Read-Only Memory，ROM）、随机存储记忆体（RandomAccess Memory，RAM）、快闪存储器（Flash Memory）、硬盘（Hard Disk Drive，缩写：HDD）或固态硬盘（Solid-State Drive，SSD)等。存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种样本数据生成方法，其特征在于，包括：

获取目标物体的实验图像数据；

对所述实验图像数据进行图像处理，得到所述目标物体在预设环境下的亮度图像数据；

根据所述实验图像数据和所述亮度图像数据，生成所述目标物体的样本数据。

2.根据权利要求1所述的方法，其特征在于，所述对所述实验图像数据进行图像处理，得到所述目标物体在预设环境下的亮度图像数据，包括：

将所述实验图像数据转换至预设颜色空间，生成三通道图像数据；

根据所述三通道图像数据和预设环境参数，生成所述目标物体在所述预设环境下所述亮度图像数据。

3.根据权利要求2所述的方法，其特征在于，所述根据所述实验图像数据和所述亮度图像数据，生成所述目标物体的样本数据，包括：

于所述三通道图像数据中，提取除去亮度通道以外的二通道图像数据；

将所述二通道图像数据和所述亮度图像数据合并，生成所述目标物体的所述样本数据。

4.根据权利要求1所述的方法，其特征在于，还包括：

采集所述目标物体在所述预设环境下的实际图像数据；

根据所述实验图像数据和所述实际图像数据，调整所述样本数据。

5.根据权利要求1所述的方法，其特征在于，还包括：

根据所述样本数据建立识别模型；

藉由所述识别模型识别所述目标物体的类别。

6.一种样本数据生成装置，其特征在于，包括：

获取模块，用于获取目标物体的实验图像数据；

处理模块，用于对所述实验图像数据进行图像处理，得到所述目标物体在预设环境下的亮度图像数据；

生成模块，用于根据所述实验图像数据和所述亮度图像数据，生成所述目标物体的样本数据。

7.根据权利要求6所述的装置，其特征在于，所述处理模块用于：

8.根据权利要求7所述的装置，其特征在于，所述生成模块用于：

9.根据权利要求6所述的装置，其特征在于，还包括：

采集模块，用于采集所述目标物体在所述预设环境下的实际图像数据；

调整模块，用于根据所述实验图像数据和所述实际图像数据，调整所述样本数据；

以及还包括：

建立模块，用于根据所述样本数据建立识别模型；

识别模块，用于藉由所述识别模型识别所述目标物体的类别。

10.一种电子设备，其特征在于，包括：

存储器，用以存储计算机程序；

处理器，用以执行如权利要求1至5中任一项所述的方法，以生成目标物体的样本数据。