CN109977983A - 获得训练图像的方法及装置 - Google Patents

获得训练图像的方法及装置 Download PDF

Info

Publication number
CN109977983A
CN109977983A CN201810425521.XA CN201810425521A CN109977983A CN 109977983 A CN109977983 A CN 109977983A CN 201810425521 A CN201810425521 A CN 201810425521A CN 109977983 A CN109977983 A CN 109977983A
Authority
CN
China
Prior art keywords
image
commodity
training
foreground
obtains
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810425521.XA
Other languages
English (en)
Other versions
CN109977983B (zh
Inventor
刘思伟
冯新宇
梁瀚君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Comma Smart Retail Co Ltd
Original Assignee
Guangzhou Comma Smart Retail Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Comma Smart Retail Co Ltd filed Critical Guangzhou Comma Smart Retail Co Ltd
Priority to CN201810425521.XA priority Critical patent/CN109977983B/zh
Publication of CN109977983A publication Critical patent/CN109977983A/zh
Application granted granted Critical
Publication of CN109977983B publication Critical patent/CN109977983B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及商品识别技术领域,提供一种获得训练图像的方法及装置。该方法首先从商品图像库中选择第一图像,并获得第一图像中的前景图像,前景图像为第一图像中仅包含商品的部分图像;然后从背景图像库中选择背景图像,背景图像为可用于放置商品的场景的图像;最后将前景图像与背景图像进行组合获得训练图像。可见,在该方法中,训练图像是通过前景图像和背景图像的自由组合生成的,其生成方式简单灵活,便于快速生成大量不同场景下的训练图像。进一步的,获得的高质量训练图像可以用于训练用于商品识别的模型,并取得较好的训练效果。

Description

获得训练图像的方法及装置
技术领域
本发明涉商品识别技术领域,具体而言,涉及一种获得训练图像的方法及装置。
背景技术
目前,在零售行业中,对于商品进行标识的主要手段是在商品包装的表面设置标识物,例如条形码、二维码、RFID标签等。在顾客进行结账时,通过使用相应的识读设备,例如条形码扫描枪、二维码扫描枪、RFID识读器等对该标识物所包含的信息进行读取以识别出商品,进而进行商品结算。由于识读设备通常需要靠收银员进行操作,因此此种商品识别方式与未来零售行业无人化的发展趋势相违背。
近年来,基于卷积神经网络的图像识别技术得到快速发展,为利用图像识别技术进行商品识别奠定了良好的基础。然而,卷积神经网络在建立模型的过程中,需要大量的训练样本进行训练。对于商品识别任务而言,意味着需要采集商品在大量不同场景下的图像作为训练样本,这一样本采集过程费时费力,并且要找到大量不同的场景也比较困难。
发明内容
有鉴于此,本发明实施例提供一种获得训练图像的方法及装置,通过前景图像与背景图像的组合获得大量的训练样本,以解决上述技术问题。
为实现上述目的,本发明提供如下技术方案:
第一方面,本发明实施例提供一种获得训练图像的方法,包括:
从商品图像库中选择第一图像,并获得第一图像中的前景图像,前景图像为第一图像中仅包含商品的部分图像;
从背景图像库中选择背景图像,背景图像为可用于放置商品的场景的图像;
将前景图像与背景图像进行组合,获得训练图像。
在该方法中,训练图像可以由前景图像和背景图像自由组合产生,而不局限于实际拍摄的图像,从而大大简化了训练图像的采集过程,并且很容易生成大量的不同场景下的训练图像,这些训练图像可以进一步被用于训练用于商品识别的模型,以取得较好的训练效果。
结合第一方面,在第一方面的第一种可能的实施方式中,从商品图像库中选择第一图像,并获得第一图像中的前景图像之前,方法还包括:
从商品的原始图像集中获得第一图像;
对第一图像进行前后景分割,获得第一分割结果;
基于第一分割结果对第一图像进行前后景的位置标记,获得第一标记结果;
将第一标记结果以及第一图像存储至商品图像库;
从商品图像库中选择第一图像,并获得第一图像中的前景图像,包括:
从商品图像库中选择第一图像,并基于第一标记结果获得第一图像中的前景图像。
即对于前景图像可以提前进行分割并标记,便于在进行前后景组合时直接根据标记结果提取出前景图像,从而快速生成大量的训练图像。
结合第一方面的第一种可能的实施方式,在第一方面的第二种可能的实施方式中,对第一图像进行前后景分割,获得第一分割结果,包括:
利用预先训练好的第一卷积神经网络对第一图像进行前后景分割,获得第一分割结果。利用卷积神经网络进行前后景分割是目前非常流行的图像分割方法,并且已经取得了较好的分割效果。
结合第一方面的第二种可能的实施方式,在第一方面的第三种可能的实施方式中,从商品的原始图像集中获得第一图像之前,方法还包括:
从商品的原始图像集中获得不同于第一图像的第二图像;
响应第一用户的前后景分割操作,将第一用户对第二图像进行前后景分割的分割结果确定为第二分割结果;
利用第二分割结果训练第一卷积神经网络。
即对于商品的原始图像集中的图像,一部分进行人工分割后用于训练第一卷积神经网络,第一卷积神经网络训练好后可以对剩余部分的图像进行前后景分割。
结合第一方面的第三种可能的实施方式,在第一方面的第四种可能的实施方式中,从原始图像集中获得不同于第一图像的第二图像之前,方法还包括:
获得图像采集设备在多个预设拍摄角度中的每个预设拍摄角度下采集的商品的图像,共获得多个图像;
将多个图像确定为原始图像集。
商品的原始图像集为后续生成商品图像库的数据来源,通过图像采集设备在多个预设拍摄角度对商品进行拍摄,获得不同预设拍摄角度下的商品的图像,有助于全方位地反映商品的外观信息,提高后续生成的训练图像的质量。
结合第一方面的第四种可能的实施方式,在第一方面的第五种可能的实施方式中,获得图像采集设备在多个预设拍摄角度中的每个预设拍摄角度下采集的商品的图像,共获得多个图像之后,将多个图像确定为原始图像集之前,方法还包括:
判断多个图像中重复图像的个数是否超过预设阈值;
若是,对多个图像进行图像去重,获得去重后的剩余图像;
基于商品的预设形状信息对商品进行建模,获得商品的立体模型;
将立体模型与预设场景进行图像合成,获得合成图像,合成图像的拍摄角度不同于多个预设拍摄角度中的任意一个拍摄角度;
将剩余图像以及合成图像确定为原始图像集。
对于某些形状特殊的商品,例如轴对称商品,在多个预设拍摄角度下拍摄的图像可能存在大量的重复图像,造成原始图像集中的有效信息太少,此时可以根据开始图像采集过程之前预先设定好的商品的形状信息对商品进行立体建模并生成合成图像,合成图像的拍摄角度不同于预设拍摄角度,从而可以将合成图像补充到原始图像集,增加原始图像集中的有效信息,进而改善后续生成的训练图像的质量。
结合第一方面或第一方面的第一种可能的实施方式至第五种可能的实施方式中的任意一种,在第一方面的第六种可能的实施方式中,将前景图像与背景图像进行组合,获得训练图像之后,方法还包括:
获得前景图像在训练图像中的位置;
获得前景图像对应的商品的商品类别;
利用训练图像、位置以及商品类别训练第二卷积神经网络,第二卷积神经网络用于商品检测及分类。
利用卷积神经网络进行物体检测及分类是目前非常流行的图像识别方法,并且已经取得了较好的识别效果,因此可以将获得的训练图像用于训练第二卷积神经网络以便进行商品检测及分类,由于采用本发明实施例提供的方法能够获得大量的不同场景下的训练图像,因此训练第二卷积神经网络能够取得较好的效果。
结合第一方面的第六种可能的实施方式,在第一方面的第七种可能的实施方式中,第二卷积神经网络为区域卷积神经网络(Regional Convolutional Neural Network,R-CNN),R-CNN及其衍生出的Fast R-CNN、Faster R-CNN是目前用于图像识别的主流的卷积神经网络,其在图像识别领域均以取得较好的识别效果。
结合第一方面的第六种可能的实施方式,在第一方面的第八种可能的实施方式中,获得前景图像对应的商品的商品类别之前,方法还包括:
响应第二用户的商品分类操作,将第二用户指定的类别确定为前景图像对应的商品的商品类别,即训练用的商品类别可以采取用户人工指定的方式。
第二方面,本发明实施例提供一种获得训练图像的装置,包括:
前景获取模块,用于从商品图像库中选择第一图像,并获得第一图像中的前景图像,前景图像为第一图像中仅包含商品的部分图像;
背景获取模块,用于从背景图像库中选择背景图像,背景图像为可用于放置商品的场景的图像;
前后景组合模块,用于将前景图像与背景图像进行组合,获得训练图像。
第三方面,本发明实施例提供一种计算机存储介质,计算机存储介质中存储有计算机程序指令,计算机程序指令被计算机的处理器读取并运行时,执行第一方面或第一方面的任意一种可能的实施方式提供的方法。
第四方面,本发明实施例提供一种电子设备,包括处理器以及计算机存储介质,计算机存储介质中存储有计算机程序指令,计算机程序指令被处理器读取并运行时,执行第一方面或第一方面的任意一种可能的实施方式提供的方法。
为使本发明的上述目的、技术方案和有益效果能更明显易懂,下文特举实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了一种可应用于本发明实施例中的电子设备的结构框图;
图2示出了本发明第一实施例提供的获得训练图像的方法的流程图;
图3示出了本发明第一实施例提供的获得训练图像的方法的步骤S01至步骤S04的流程图;
图4示出了本发明第一实施例提供的获得训练图像的方法的步骤S13至步骤S15的流程图;
图5示出了本发明第二实施例提供的获得训练图像的装置的功能模块图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
图1示出了一种可应用于本发明实施例中的终端设备100的结构框图。如图1所示,终端设备100包括存储器102、存储控制器104,一个或多个(图中仅示出一个)处理器106、外设接口108、输入输出单元110、音频单元112、显示单元114等。这些组件通过一条或多条通讯总线/信号线116相互通讯。
存储器102可用于存储软件程序以及模块,如本发明实施例中的获得训练图像的方法及装置对应的程序指令/模块,处理器106通过运行存储在存储器102内的软件程序以及模块,从而实现本发明实施例提供的获得训练图像的方法及装置。
存储器102可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。处理器106以及其他可能的组件对存储器102的访问可在存储控制器104的控制下进行。
处理器106可以是一种集成电路芯片,具有信号的处理能力。上述的处理器106可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、微控制单元(MicroController Unit,MCU)、网络处理器(Network Processor,NP)或者其他常规处理器;还可以是专用处理器,包括数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuits,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。
外设接口108将各种输入/输出装置耦合至处理器106以及存储器102。在一些实施例中,外设接口108,处理器106以及存储控制器104可以在单个芯片中实现。在其他一些实例中,他们可以分别由独立的芯片实现。
输入输出单元110用于提供给用户输入数据实现用户与终端设备100的交互。输入输出单元110可以是,但不限于,鼠标和键盘等设备。
音频模块112向用户提供音频接口,其可包括一个或多个麦克风、一个或者多个扬声器以及音频电路。
显示单元114在终端设备100与用户之间提供一个显示界面。具体地,显示单元114向用户显示可视化输出,这些可视化输出的内容可包括文字、图形、视频及其任意组合。
可以理解,图1所示的结构仅为示意,终端设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
于本发明实施例中,终端设备100可以是服务器、个人计算机、移动设备、智能穿戴设备、网络设备等。在某些实施方式中,终端设备100还可以不限于物理设备,例如还可以是虚拟机、虚拟服务器、云计算平台等。
第一实施例
图2示出了本发明第一实施例提供的获得训练图像的方法的流程图,该方法可以应用于上述终端设备中的处理器。参照图2,第一实施例提供的获得训练图像的方法包括:
步骤S10:处理器从商品图像库中选择第一图像,并获得第一图像中的前景图像。
商品图像库中存储有多种商品的图像,其中的每个图像中均包含有商品以及放置该商品的场景,前景图像是指每个图像中仅包含商品的部分图像。从商品图像库中选择第一图像,可以是随机选择,也可以是按照预设的规则进行选择,其中,第一图像可以是一个或多个图像,从而对应的前景图像也可以是一个或多个。对于获得第一图像中的前景图像的步骤,可以是实时进行前后景分割获得前景图像,也可以是在步骤S10执行之前事先对商品图像库中的所有图像进行前后景分割并标记出前后景所在的位置,在步骤S10中可以直接根据标记结果获得第一图像中的前景图像,从而加快前景图像的获取速度。
下面具体阐述在步骤S10执行之前进行的第一图像的前后景标记过程。图3示出了本发明第一实施例提供的获得训练图像的方法的步骤S01至步骤S04的流程图。参照图3,步骤S01至步骤S04具体包括:
步骤S01:处理器从商品的原始图像集中获得第一图像。
原始图像集是未进行前后景标记的商品的图像。在本发明实施例的一种实施方式中,原始图像集中的多个图像可以由图像采集设备在多个预设拍摄角度中的每个预设拍摄角度下对商品进行拍摄而获得。商品的原始图像集为后续生成商品图像库的数据来源,由于原始图像集是通过图像采集设备在不同的预设拍摄角度对商品进行拍摄获得的,从而原始图像集能够全方位地描述商品的外观,从而可以改善后续基于商品图像库生成的训练图像的质量。需要指出,这里所称的质量是指训练图像所包含的关于商品的外观的有效信息的丰富程度,并不是指图像本身的精度。
图像采集设备可以有多种具体的实现方式,例如,在一种实现方式中,图像采集设备可以包括摄像头、转盘以及驱动装置。待采集的商品放置于转盘上,转盘可在驱动装置的驱动下进行360度旋转,摄像头设置在转盘一侧并可以进行位置调节。在开始图像采集前,将摄像头固定在预设位置,在转盘旋转的过程中,摄像头从不同的拍摄角度采集转盘上的商品的图像,在完成360度的采集后,可以将摄像头固定在另一不同的预设位置,重复上述采集过程。按照上述方法进行图像采集,直至采集到原始图像集所要求的图像数量。
在多个预设拍摄角度下采集的商品图像可能存在大量的重复图像,造成原始图像集中的有效信息不足,不利于后期训练图像的生成。这里所称的重复图像是指相同或者高度相似的图像。造成存在重复图像的原因通常是商品的特殊的外形,例如圆柱形的商品,在采用上述包括转盘的图像采集设备进行图像采集时,摄像头在同一位置处进行360度的采集,其获得的图像内容都是相似的,即存在大量的重复图像。
为解决此问题,在一种实施方式中,可以在开始图像采集前对商品的形状进行人为标记,例如对于圆柱形的商品标记出其形状以及尺寸,将商品形状进行标记的结果称为预设形状信息,对预设形状信息进行存储。在利用图像采集设备完成商品图像的采集后,处理器检测并判断采集的商品图像中重复图像的个数是否超过预设阈值。如果判断结果为否,认为该商品并不是具有特殊形状的商品,直接将采集到的该商品的图像确定该商品的原始图像集。如果判断结果为是,认为该商品是具有特殊形状,例如圆柱形的商品,此时处理器首先对重复图像进行图像去重,以减少信息冗余,并获得去重后的剩余图像。然后处理器根据事先存储的预设形状信息,结合商品的表面纹理对该商品进行建模,获得商品的立体模型,并将立体模型与预设场景进行图像合成,获得合成图像。其中,预设场景可以是图像采集设备进行图像采集时商品所在的场景。合成图像的拍摄角度不同于图像采集设备的多个预设拍摄角度中的任意一个拍摄角度,相当于合成图像在剩余图像之外提供了该商品的新的有效信息。需要指出,合成图像不是实际拍摄的图像,所以这里合成图像的拍摄角度是指的与实际的拍摄角度对应的虚拟的拍摄角度。最后,处理器将合成图像以及剩余图像共同确定为原始图像集。上述过程实际上是利用合成图像替代了重复图像,从而丰富了原始图像集中的有效信息,进而可以改善后续生成的训练图像的质量。
可以对原始图像集中的每个图像都进行前后景标记,包括第一图像在内,下面在阐述在步骤S02至步骤S04均以第一图像的前后景分割过程为例进行阐述,对于原始图像集中的其他图像的处理方式可以参照第一图像进行。
步骤S02:处理器对第一图像进行前后景分割,获得第一分割结果。
对于第一图像的前后景分割可以采用现有的各种前后景分割方法。在本发明实施例的一种实施方式中,可以利用预先训练好的第一卷积神经网络对第一图像进行前后景分割。即将第一图像作为第一卷积神经网络的输入,输出第一图像中每个像素为前景或背景的概率,可以通过预先设定好的概率阈值将每个像素判定为前景或背景,将此分割结果称为第一分割结果。对于第一卷积神经网络可以利用商品的原始图像集进行训练,从商品的原始图像集划分出一部分图像作为训练集,剩余的图像为测试集。其中,第一图像为测试集中的图像,以训练集中的第二图像为例对训练过程进行说明,显然第二图像不同于第一图像。第一用户首先通过人工方式对第二图像进行前后景分割,处理器响应第一用户的前后景分割操作,获得第二图像的前后景分割结果,将此分割结果称为第二分割结果。其中,第一用户的前后景分割操作可以通过输入输出单元作出。处理器利用第二分割结果将前景中的图像块确定为正样本,背景中的图像块确定为负样本,将正负样本块输入到第一卷积神经网路中训练其模型参数。训练集中的其他图像的用于训练第一卷积神经网络的过程可以参照第二图像进行,在训练集中的图像处理完毕后,完成对于第一卷积神经网络的训练,此时第一卷积神经网络可以用于对测试集中的图像进行前后景分割。利用卷积神经网络进行前后景分割是一种比较成熟的现有方法,其已经取得了良好的分割效果,关于其具体的实现细节,在这里不进行过多阐述。可以理解,在步骤S02中采用其他的前后景分割方法也是可以的,例如背景减除算法等。
步骤S03:处理器基于第一分割结果对第一图像进行前后景的位置标记,获得第一标记结果。
对于前后景标记的方式不做限定,例如,可以将属于前景的像素标记为第一数值,例如1,将属于背景的像素标记为不同于第一数值的第二数值,例如0,或者还可以标记出前景与背景之间的边界。
步骤S04:处理器将第一标记结果以及第一图像存储至商品图像库。
显然的,还可以根据第二分割结果对第二图像也进行前后景标记,并将第二图像以及相应的标记结果也存储至商品图像库。也即是说,商品的原始图像集中的所有图像进行前后景分割后都可以添加至商品图像库。在步骤S10中,选择第一图像后,根据第一标记结果就能够快速获得其中的前景图像。
步骤S11:处理器从背景图像库中选择背景图像,背景图像为可用于放置商品的场景的图像。
背景图像库中存储有多个背景图像,背景图像为不包含商品的图像,背景图像的内容为可以放置商品的某个环境,背景图像可以根据商品实际放置的环境进行采集或者从第三方直接获得。从背景图像库中选择背景图像,可以是随机选择,也可以是按照预设的规则进行选择,选择的背景图像可以是一个或多个图像。
步骤S12:处理器将前景图像与背景图像进行组合,获得训练图像。
前景图像与背景图像可以采取自由组合的方式,确保每个背景图像上至少有一个前景图像,当然一个背景图像上还可以有多个前景图像。在组合时还可以模拟商品实际的放置情况,在一个背景图像中将多个前景图像相互交叠、旋转、缩放后再进行组合。当然,前景图像和背景图像也可以按照预设的规则进行组合。将前景图像与背景图像组合生成的图像称为训练图像,显然,上述组合方式能够在短时间内生成大量的、涵盖不同场景的、包含不同商品的训练图像。进一步的,这些训练图像可以用来训练用于商品识别的模型,并且由于训练图像的数量较多、有效信息丰富,从而能够取得较好的训练效果。这里的用于商品识别的模型,其具体形式不作限定,例如可以是卷积神经网络模型、支持向量机模型等。当然,在某些实施方式中,也可以将训练图像用作其他用途,并不一定限于用其训练用于商品识别的模型。
下面以将训练图像用于训练卷积神经网络为例,阐述训练图像的用途,下面的步骤可以在步骤S12之后执行。图4示出了本发明第一实施例提供的获得训练图像的方法的步骤S13至步骤S15的流程图。参照图4,步骤S13至步骤S15具体包括:
步骤S13:处理器获得前景图像在训练图像中的位置。
由于在前景图像的形状是已知的,所以在前景图像与背景图像进行组合生成训练图像后,可以在训练图像中明确地标记出前景图像的位置。
步骤S14:处理器获得前景图像对应的商品的商品类别。
对于前景图像对应的商品类别,可以实时通过人工方式进行指定。也可以在步骤S14执行之前事先指定好,在步骤S14中直接获取,例如在一种实施方式中,在步骤S14执行之前,第二用户以人工方式进行指定前景图像对应的商品类别,处理器响应第二用户的商品分类操作,并根据第二用户的人工分类结果确定出训练图像中每个前景图像对应的商品类别并存储。其中,第二用户的商品分类操作可以通过输入输出单元作出。第二用户执行商品分类操作的时机,最早可以在商品图像的采集阶段就进行。
步骤S15:处理器利用训练图像、前景图像的位置以及商品类别训练第二卷积神经网络。
第二卷积神经网络为用于商品检测及商品分类的卷积神经网络,商品检测是指从输入图像中检测出可能存在商品的建议区域,建议区域可以在输入图像上通过方框进行标记,商品分类是指对建议区域中的内容进行特征提取以及分类,输出其属于某个商品类别的概率,并通过预设的概率阈值判断出商品的类别。利用卷积神经网络进行物体检测及分类是目前已经比较成熟的图像识别方法,并且已经取得了较好的识别效果,因此可以将获得的训练图像用于训练第二卷积神经网络以便进行商品检测及分类。由于采用本发明实施例提供的方法能够获得大量的不同场景下的包含不同商品组合的训练图像,因此训练第二卷积神经网络能够取得较好的训练效果,利用训练好的第二卷积神经网络进行商品识别的准确率高,结果可靠。需要指出,这里的商品分类,根据实际的需求,可以是粗略的分类,也可以是精细的分类,也即是说根据具体的需求,第二卷积神经网络可以识别出某商品是某一类特定的商品,或者直接识别出某商品是某一种特定的商品,因此对商品分类实际上就是对商品进行识别。
目前,用于物体检测及分类的卷积神经网络常见的有R-CNN及其衍生出的FastR-CNN、Faster R-CNN等,第二卷积神经网络可以采用其中的任意一种实现。以FasterR-CNN为例,Faster RCNN可以看成是区域建议网络(Regional Proposal Network,RPN)模块与Fast R-CNN模块的结合,其中,RPN用于检测出可能存在商品的建议区域,而Fast R-CNN则对建议区域进行特征提取并输出商品分类结果。在Faster RCNN中,RPN以及Fast R-CNN可以共享卷积层,从而实现特征提取的共享,以加快商品检测及分类的速度。其中,训练图像以及前景图像的位置可以用于训练RPN,而训练图像、前景图像的位置以及前景图像的商品类别可以用于训练Fast R-CNN。Faster RCNN属于一种现有图像识别技术,关于其具体的实现细节,在这里不进行过多阐述。
综上所述,在本发明第一实施例提供的获得训练图像的方法中,通过前景图像和背景图像的组合,可以快速生成大量训练图像。进一步的,这些训练图像可以用来训练用于商品识别的模型,并取得较好的训练效果。在一种实施方式中,前景图像是通过图像采集设备采集或者通过处理器合成的商品在多角度下的图像,其包含有丰富的关于商品外观形状的有效信息,因此基于该前景图像生成的训练图像具有较高的质量,有利于后续的模型训练。在一种实施方式中,训练图像可以用来训练卷积神经网络模型,卷积神经网络模型在物体检测及分类方面具有较好的效果,但缺点是需要大量训练图像进行训练,而本发明第一实施例提供的获得训练图像的方法恰好能够快速提供大量的训练图像,因此可以用获得的训练图像训练卷积神经网络进行商品的识别,进而替代传统的零售业中通过识读设备识别商品的方式,促进无人零售业的发展。
第二实施例
图5示出了本发明第二实施例提供的获得训练图像的装置200的功能模块图。参照图5,本发明第二实施例提供的获得训练图像的装置200包括前景获取模块210、背景获取模块220以及前后景组合模块230。其中,前景获取模块210用于从商品图像库中选择第一图像,并获得所述第一图像中的前景图像,所述前景图像为所述第一图像中仅包含商品的部分图像;背景获取模块220用于从背景图像库中选择背景图像,所述背景图像为可用于放置所述商品的场景的图像;前后景组合模块230用于将所述前景图像与所述背景图像进行组合,获得训练图像。
本发明第二实施例提供的获得训练图像的装置200,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
第三实施例
本发明第三实施例提供一种计算机存储介质,计算机存储介质中存储有计算机程序指令,计算机程序指令被计算机的处理器读取并运行时,执行本发明第一实施例中提供的方法。该计算机存储介质可以实现为,但不限于图1示出的存储器。
第四实施例
本发明第四实施例提供一种电子设备,包括处理器以及计算机存储介质,计算机存储介质中存储有计算机程序指令,计算机程序指令被处理器读取并运行时,执行本发明第一实施例中提供的方法。该电子设备可以实现为,但不限于图1示出的终端设备。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得计算机设备执行本发明各个实施例所述方法的全部或部分步骤。前述的计算机设备包括:个人计算机、服务器、移动设备、智能穿戴设备、网络设备、虚拟设备等各种具有执行程序代码能力的设备,前述的存储介质包括:U盘、移动硬盘、只读存储器、随机存取存储器、磁碟、磁带或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种获得训练图像的方法,其特征在于,包括:
从商品图像库中选择第一图像,并获得所述第一图像中的前景图像,所述前景图像为所述第一图像中仅包含商品的部分图像;
从背景图像库中选择背景图像,所述背景图像为可用于放置所述商品的场景的图像;
将所述前景图像与所述背景图像进行组合,获得训练图像。
2.根据权利要求1所述的获得训练图像的方法,其特征在于,所述从商品图像库中选择第一图像,并获得所述第一图像中的前景图像之前,所述方法还包括:
从所述商品的原始图像集中获得所述第一图像;
对所述第一图像进行前后景分割,获得第一分割结果;
基于所述第一分割结果对所述第一图像进行前后景的位置标记,获得第一标记结果;
将所述第一标记结果以及所述第一图像存储至所述商品图像库;
所述从商品图像库中选择第一图像,并获得所述第一图像中的前景图像,包括:
从所述商品图像库中选择所述第一图像,并基于所述第一标记结果获得所述第一图像中的所述前景图像。
3.根据权利要求2所述的获得训练图像的方法,其特征在于,所述对所述第一图像进行前后景分割,获得第一分割结果,包括:
利用预先训练好的第一卷积神经网络对所述第一图像进行前后景分割,获得所述第一分割结果。
4.根据权利要求3所述的获得训练图像的方法,其特征在于,所述从所述商品的原始图像集中获得所述第一图像之前,所述方法还包括:
从所述商品的所述原始图像集中获得不同于所述第一图像的第二图像;
响应第一用户的前后景分割操作,将所述第一用户对所述第二图像进行前后景分割的分割结果确定为第二分割结果;
利用所述第二分割结果训练所述第一卷积神经网络。
5.根据权利要求4所述的获得训练图像的方法,其特征在于,所述从所述原始图像集中获得不同于所述第一图像的第二图像之前,所述方法还包括:
获得图像采集设备在多个预设拍摄角度中的每个预设拍摄角度下采集的所述商品的图像,共获得多个图像;
将所述多个图像确定为所述原始图像集。
6.根据权利要求5所述的获得训练图像的方法,其特征在于,所述获得图像采集设备在多个预设拍摄角度中的每个预设拍摄角度下采集的所述商品的图像,共获得多个图像之后,所述将所述多个图像确定为所述原始图像集之前,所述方法还包括:
判断所述多个图像中重复图像的个数是否超过预设阈值;
若是,对所述多个图像进行图像去重,获得去重后的剩余图像;
基于所述商品的预设形状信息对所述商品进行建模,获得所述商品的立体模型;
将所述立体模型与预设场景进行图像合成,获得合成图像,所述合成图像的拍摄角度不同于所述多个预设拍摄角度中的任意一个拍摄角度;
将所述剩余图像以及所述合成图像确定为所述原始图像集。
7.根据权利要求1-6中任一权项所述的获得训练图像的方法,其特征在于,所述将所述前景图像与所述背景图像进行组合,获得训练图像之后,所述方法还包括:
获得所述前景图像在所述训练图像中的位置;
获得所述前景图像对应的所述商品的商品类别;
利用所述训练图像、所述位置以及所述商品类别训练第二卷积神经网络,所述第二卷积神经网络用于商品检测及分类。
8.根据权利要求7所述的获得训练图像的方法,其特征在于,所述第二卷积神经网络为区域卷积神经网络。
9.根据权利要求7所述的获得训练图像的方法,其特征在于,所述获得所述前景图像对应的所述商品的商品类别之前,所述方法还包括:
响应第二用户的商品分类操作,将所述第二用户指定的类别确定为所述前景图像对应的所述商品的所述商品类别。
10.一种获得训练图像的装置,其特征在于,包括:
前景获取模块,用于从商品图像库中选择第一图像,并获得所述第一图像中的前景图像,所述前景图像为所述第一图像中仅包含商品的部分图像;
背景获取模块,用于从背景图像库中选择背景图像,所述背景图像为可用于放置所述商品的场景的图像;
前后景组合模块,用于将所述前景图像与所述背景图像进行组合,获得训练图像。
CN201810425521.XA 2018-05-07 2018-05-07 获得训练图像的方法及装置 Expired - Fee Related CN109977983B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810425521.XA CN109977983B (zh) 2018-05-07 2018-05-07 获得训练图像的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810425521.XA CN109977983B (zh) 2018-05-07 2018-05-07 获得训练图像的方法及装置

Publications (2)

Publication Number Publication Date
CN109977983A true CN109977983A (zh) 2019-07-05
CN109977983B CN109977983B (zh) 2021-06-08

Family

ID=67075926

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810425521.XA Expired - Fee Related CN109977983B (zh) 2018-05-07 2018-05-07 获得训练图像的方法及装置

Country Status (1)

Country Link
CN (1) CN109977983B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110503146A (zh) * 2019-08-21 2019-11-26 杭州比智科技有限公司 数据增强方法、装置、计算设备及计算机存储介质
CN110992297A (zh) * 2019-11-11 2020-04-10 北京百度网讯科技有限公司 多商品图像合成方法、装置、电子设备及存储介质
CN111062861A (zh) * 2019-12-13 2020-04-24 广州市玄武无线科技股份有限公司 一种陈列图像样本的生成方法及装置
CN111626222A (zh) * 2020-05-28 2020-09-04 深圳市商汤科技有限公司 宠物检测方法、装置、设备及存储介质
CN112163139A (zh) * 2020-10-14 2021-01-01 深兰科技(上海)有限公司 图像数据的处理方法和装置
CN112200227A (zh) * 2020-09-28 2021-01-08 深圳市华付信息技术有限公司 一种基于飞机3d模型的飞机检测方法
CN112270339A (zh) * 2020-06-30 2021-01-26 上海扩博智能技术有限公司 模型训练用的图像数据生成方法、***、设备和存储介质
CN112836756A (zh) * 2021-02-04 2021-05-25 上海明略人工智能(集团)有限公司 图像识别模型训练方法、***和计算机设备
CN113256361A (zh) * 2020-02-10 2021-08-13 阿里巴巴集团控股有限公司 商品发布方法及图像处理方法、装置、设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104835043A (zh) * 2014-02-12 2015-08-12 北京京东尚科信息技术有限公司 一种呈现商品的图像的方法和装置
US20160133037A1 (en) * 2014-11-10 2016-05-12 Siemens Healthcare Gmbh Method and System for Unsupervised Cross-Modal Medical Image Synthesis
CN105608459A (zh) * 2014-10-29 2016-05-25 阿里巴巴集团控股有限公司 商品图片的分割方法及其装置
CN107729908A (zh) * 2016-08-10 2018-02-23 阿里巴巴集团控股有限公司 一种机器学习分类模型的建立方法、装置及***
CN107808373A (zh) * 2017-11-15 2018-03-16 北京奇虎科技有限公司 基于姿态的样本图像合成方法、装置及计算设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104835043A (zh) * 2014-02-12 2015-08-12 北京京东尚科信息技术有限公司 一种呈现商品的图像的方法和装置
CN105608459A (zh) * 2014-10-29 2016-05-25 阿里巴巴集团控股有限公司 商品图片的分割方法及其装置
US20160133037A1 (en) * 2014-11-10 2016-05-12 Siemens Healthcare Gmbh Method and System for Unsupervised Cross-Modal Medical Image Synthesis
CN107729908A (zh) * 2016-08-10 2018-02-23 阿里巴巴集团控股有限公司 一种机器学习分类模型的建立方法、装置及***
CN107808373A (zh) * 2017-11-15 2018-03-16 北京奇虎科技有限公司 基于姿态的样本图像合成方法、装置及计算设备

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110503146A (zh) * 2019-08-21 2019-11-26 杭州比智科技有限公司 数据增强方法、装置、计算设备及计算机存储介质
CN110503146B (zh) * 2019-08-21 2021-12-14 杭州比智科技有限公司 数据增强方法、装置、计算设备及计算机存储介质
CN110992297A (zh) * 2019-11-11 2020-04-10 北京百度网讯科技有限公司 多商品图像合成方法、装置、电子设备及存储介质
CN111062861A (zh) * 2019-12-13 2020-04-24 广州市玄武无线科技股份有限公司 一种陈列图像样本的生成方法及装置
CN113256361A (zh) * 2020-02-10 2021-08-13 阿里巴巴集团控股有限公司 商品发布方法及图像处理方法、装置、设备和存储介质
CN111626222A (zh) * 2020-05-28 2020-09-04 深圳市商汤科技有限公司 宠物检测方法、装置、设备及存储介质
CN112270339A (zh) * 2020-06-30 2021-01-26 上海扩博智能技术有限公司 模型训练用的图像数据生成方法、***、设备和存储介质
CN112200227A (zh) * 2020-09-28 2021-01-08 深圳市华付信息技术有限公司 一种基于飞机3d模型的飞机检测方法
CN112163139A (zh) * 2020-10-14 2021-01-01 深兰科技(上海)有限公司 图像数据的处理方法和装置
CN112836756A (zh) * 2021-02-04 2021-05-25 上海明略人工智能(集团)有限公司 图像识别模型训练方法、***和计算机设备
CN112836756B (zh) * 2021-02-04 2024-02-27 上海明略人工智能(集团)有限公司 图像识别模型训练方法、***和计算机设备

Also Published As

Publication number Publication date
CN109977983B (zh) 2021-06-08

Similar Documents

Publication Publication Date Title
CN109977983A (zh) 获得训练图像的方法及装置
CN109948425B (zh) 一种结构感知自注意和在线实例聚合匹配的行人搜索方法及装置
CN104463117B (zh) 一种基于视频方式的人脸识别样本采集方法及***
Doumanoglou et al. Recovering 6D object pose and predicting next-best-view in the crowd
CN109447169A (zh) 图像处理方法及其模型的训练方法、装置和电子***
CN109948497A (zh) 一种物体检测方法、装置及电子设备
CN111061890B (zh) 一种标注信息验证的方法、类别确定的方法及装置
CN109754009B (zh) 物品识别方法、装置、售货***和存储介质
CN106952402A (zh) 一种数据处理方法及装置
JP2016218999A (ja) ターゲット環境の画像内に表現されたオブジェクトを検出するように分類器をトレーニングする方法およびシステム
CN108345912A (zh) 一种基于rgbd信息与深度学习的商品快速结算***
CN102982332A (zh) 基于云处理方式的零售终端货架影像智能分析***
CN104915673B (zh) 一种基于视觉词袋模型的目标分类方法和***
CN102496001A (zh) 一种视频监控目标自动检测的方法和***
Russakovsky et al. A steiner tree approach to efficient object detection
CN108375353A (zh) 一种木材检测方法、装置和设备
US20170270386A1 (en) Detection and presentation of differences between 3d models
CN103927530A (zh) 一种最终分类器的获得方法及应用方法、***
Wang et al. Small vehicle classification in the wild using generative adversarial network
Sharma Object detection and recognition using Amazon Rekognition with Boto3
CN111062861A (zh) 一种陈列图像样本的生成方法及装置
CN110019901A (zh) 三维模型检索装置、检索***、检索方法及计算机可读存储介质
Visalatchi et al. Intelligent Vision with TensorFlow using Neural Network Algorithms
Geng et al. Shelf Product Detection Based on Deep Neural Network
Wong et al. Tracking indoor construction progress by deep-learning-based analysis of site surveillance video

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210608