CN111428743A

CN111428743A - 商品识别方法、商品处理方法、装置及电子设备

Info

Publication number: CN111428743A
Application number: CN201910019391.4A
Authority: CN
Inventors: 周祥增; 张迎亚; 文杰
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-01-09
Filing date: 2019-01-09
Publication date: 2020-07-17
Anticipated expiration: 2039-01-09
Also published as: CN111428743B

Abstract

本发明实施例提供一种商品识别方法、商品处理方法、装置及电子设备，其中，获取拍摄用户行为的图像；根据所述图像确定用户接触的商品的标识信息。本发明实施例提供的商品识别方法、装置及电子设备，可以在用户选购商品时，获取拍摄用户行为的图像，并根据所述图像确定用户接触的商品的标识信息，从而实现了快速、准确地识别出用户接触的商品。

Description

商品识别方法、商品处理方法、装置及电子设备

技术领域

本发明涉及图像处理技术领域，尤其涉及一种商品识别方法、商品处理方法、装置及电子设备。

背景技术

在当前新零售背景下，商品的数字化越来越体现出其迫切性和重要性，商品数字化的一个很重要的手段就是通过技术来认知无处不在的商品。

尤其是在无人零售店中，用户可以自由地选购货架上的商品，选购商品时需要接触商品，那么，如何快速、准确地识别出用户接触的商品信息成为亟待解决的问题。

发明内容

有鉴于此，本发明实施例提供一种商品识别方法、商品处理方法、商品数据库构建方法、装置及电子设备，以快速检测出用户接触的商品信息。

第一方面，本发明实施例提供一种商品识别方法，包括：

获取拍摄用户行为的图像；

根据所述图像确定用户接触的商品的标识信息。

第二方面，本发明实施例提供一种商品识别方法，包括：

获取拍摄用户行为的视频流；

将所述视频流发送给服务器，以使所述服务器根据所述视频流中的图像确定图像中用户接触的商品的标识信息。

第三方面，本发明实施例提供一种商品识别方法，包括：

获取拍摄用户行为的图像；

根据所述图像确定用户接触的商品的标识信息；

将所述商品的标识信息发送给服务器。

第四方面，本发明实施例提供一种商品处理方法，包括：

获取拍摄用户行为的图像；

根据所述图像确定用户拿取的商品的标识信息；

将所述商品的标识信息添加到所述用户对应的购物清单中。

第五方面，本发明实施例提供一种商品数据库构建方法，包括：

获取多个商品的标识信息以及对应的参考图；

获取所述多个商品的实拍图，并根据所述参考图确定所述实拍图对应的标识信息；

将所述实拍图与对应的标识信息存储在商品数据库中；其中，所述实拍图作为样本用以训练识别模型；所述识别模型用以识别商品的标识信息。

第六方面，本发明实施例提供一种商品识别装置，包括：

第一获取模块，用于获取拍摄用户行为的图像；

第一确定模块，用于根据所述图像确定用户接触的商品的标识信息。

第七方面，本发明实施例提供一种商品识别装置，包括：

第二获取模块，用于获取拍摄用户行为的视频流；

第一发送模块，用于将所述视频流发送给服务器，以使所述服务器根据所述视频流中的图像确定图像中用户接触的商品的标识信息。

第八方面，本发明实施例提供一种商品识别装置，包括：

第三获取模块，用于获取拍摄用户行为的图像；

第二确定模块，用于根据所述图像确定用户接触的商品的标识信息；

第二发送模块，用于将所述商品的标识信息发送给服务器。

第九方面，本发明实施例提供一种商品处理装置，包括：

第四获取模块，用于获取拍摄用户行为的图像；

第三确定模块，用于根据所述图像确定用户拿取的商品的标识信息；

商品处理模块，将所述商品的标识信息添加到所述用户对应的购物清单中。

第十方面，本发明实施例提供一种商品数据库构建装置，包括：

第一构建模块，用于获取多个商品的标识信息以及对应的参考图。

第二构建模块，用于获取所述多个商品的实拍图，并根据所述参考图确定所述实拍图对应的标识信息。

第三构建模块，用于将所述商品的实拍图与对应的标识信息存储在商品数据库中。

第十一方面，本发明实施例提供一种电子设备，包括：第一存储器和第一处理器；所述第一存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第一处理器执行时实现上述第一方面所述的商品识别方法。

第十二方面，本发明实施例提供一种电子设备，包括：第二存储器和第二处理器；所述第二存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第二处理器执行时实现上述第二方面所述的商品识别方法。

第十三方面，本发明实施例提供一种电子设备，包括：第三存储器和第三处理器；所述第三存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第三处理器执行时实现上述第三方面所述的商品识别方法。

第十四方面，本发明实施例提供一种电子设备，包括：第四存储器和第四处理器；所述第四存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第四处理器执行时实现上述第四方面所述的商品处理方法。

第十五方面，本发明实施例提供一种电子设备，包括：第五存储器和第五处理器；所述第五存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第五处理器执行时实现上述第五方面所述的商品数据库构建方法。

本发明实施例提供了一种计算机存储介质，用于储存计算机程序，所述计算机程序使计算机执行时实现上述第一方面所述的商品识别方法。

本发明实施例提供了一种计算机存储介质，用于储存计算机程序，所述计算机程序使计算机执行时实现上述第二方面所述的商品识别方法。

本发明实施例提供了一种计算机存储介质，用于储存计算机程序，所述计算机程序使计算机执行时实现上述第三方面所述的商品识别方法。

本发明实施例提供了一种计算机存储介质，用于储存计算机程序，所述计算机程序使计算机执行时实现上述第四方面所述的商品处理方法。

本发明实施例提供了一种计算机存储介质，用于储存计算机程序，所述计算机程序使计算机执行时实现上述第五方面所述的商品数据库构建方法。

本发明实施例提供的商品识别方法、装置及电子设备，可以在用户选购商品时，获取拍摄用户行为的图像，并根据所述图像确定用户接触的商品的标识信息，从而快速、准确地识别出用户接触的商品。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种拍摄装置的位置示意图；

图2为本发明实施例提供的一种应用场景示意图；

图3为本发明实施例提供的商品识别方法实施例一的流程示意图；

图4为本发明实施例提供的商品处理方法实施例一的流程示意图；

图5为本发明实施例提供的一种通过图像识别商品的标识信息的流程示意图；

图6为本发明实施例提供的一种商品识别的逻辑示意图；

图7为本发明实施例提供的商品数据库构建方法实施例一的流程示意图；

图8为本发明实施例提供的一种商品所在矩形框的位置示意图；

图9为现有技术中商品及其所在矩形框的位置示意图；

图10为本发明实施例提供的一种商品及其所在矩形框的位置示意图；

图11为本发明实施例提供的一种识别模型的架构示意图；

图12为本发明实施例提供的商品识别方法实施例二的流程示意图；

图13为本发明实施例提供的商品识别方法实施例三的流程示意图；

图14为本发明实施例提供的商品识别装置实施例一的结构示意图；

图15为本发明实施例提供的商品识别装置实施例二的结构示意图；

图16为本发明实施例提供的商品识别装置实施例三的结构示意图；

图17为本发明实施例提供的商品处理装置实施例一的结构示意图；

图18为本发明实施例提供的商品数据库构建装置实施例一的结构示意图；

图19为本发明实施例提供的电子设备实施例一的结构示意图；

图20为本发明实施例提供的电子设备实施例二的结构示意图；

图21为本发明实施例提供的电子设备实施例三的结构示意图；

图22为本发明实施例提供的电子设备实施例四的结构示意图；

图23为本发明实施例提供的电子设备实施例五的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其它含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在......时”或“当......时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者***不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种商品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的商品或者***中还存在另外的相同要素。

本发明实施例提供一种商品识别方法，可以获取拍摄用户行为的图像，并根据所述图像确定用户接触的商品的标识信息。本发明实施例可以应用于任意购物场景，尤其可以应用于无人零售店。

为了实现商品识别功能，在店内可以设置有拍摄装置如摄像头、数码相机等，所述拍摄装置可以用于拍摄用户的行为，并将拍摄到的图像发送至服务器进行处理。

所述拍摄装置可以设置在店内任意能够拍摄到用户行为的位置。图1为本发明实施例提供的一种拍摄装置的位置示意图。如图1所示，拍摄装置可以设置在货架上，货架用于放置商品。

在店内可以设置一个或多个货架，每一个货架可以配置一拍摄装置，一个或多个拍摄装置可以分别与服务器进行通信。当用户拿到商品时，拍摄装置拍摄到的图像中会出现用户以及商品，从而使服务器可以根据图像来确定用户接触的商品信息。

可选的，所述拍摄装置距离地面的高度可以在2.2米至2.3米之间，且所述拍摄装置可以向下倾斜一定角度，能够很好地拍摄用户接触的商品信息。图1示出的是一种可选的拍摄装置设置示例，在实际应用中，也可以根据需要来调整拍摄装置的位置。例如，可以每个货架配置一拍摄装置，也可以多个货架共用一个拍摄装置。

图2为本发明实施例提供的一种应用场景示意图。如图2所示，用户在店内购物时，拍摄装置可以拍摄用户接触商品的图像，并将图像发送给服务器，服务器可以根据图像确定用户接触的商品的标识信息。

服务器可以设置在店内，也可以设置在其它地方，所述服务器与所述拍摄装置之间可以采用无线通信的方式实现数据传输。

其中，服务器确定用户接触的商品的标识信息可以具体是指确定用户拿取的商品的标识信息。

可选的，服务器还可以将所述商品的标识信息反馈给用户。例如，可以在货架上设置扬声器或显示屏，服务器将商品的表述信息发送给扬声器或显示屏，扬声器可以语音提示用户，或者，显示屏可以向用户显示“您拿取了商品A”。另外，服务器还可以将商品的标识信息发送给用户携带的用户设备如手机等，手机可以向用户显示用户在本店的购物清单，购物清单中包括用户已经拿取的商品的标识信息，方便用户及时了解自己已购商品列表。

在其它可选的实现方式中，也可以将通过图像处理识别商品的功能设置在除服务器以外的其它设备中，例如，可以在拍摄装置中集成图像处理功能，由拍摄装置根据图像确定用户接触的商品的标识信息。

下面结合如下的方法实施例以及附图对本发明实施例提供的方法的实现过程进行介绍。另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

图3为本发明实施例提供的商品识别方法实施例一的流程示意图。本实施例中方法的执行主体可以为任意具有图像处理功能的设备，例如服务器等。如图3所示，本实施例中的商品识别方法，可以包括：

步骤301、获取拍摄用户行为的图像。

步骤302、根据所述图像确定用户接触的商品的标识信息。

本发明实施例中，所述标识信息可以为任意能够标识商品的信息，例如，可以为商品的条码信息或商品的SKU(Stock Keeping Unit，库存量单位)信息等。

其中，商品的条码由一组规则排列的条、空及其对应代码组成，商品条码一般印在商品包装上，或将其制成条码标签附在商品上。商品的SKU信息是在商品分类及编号中使用的一种计量方式。同一个商品对象一般可能包含多个SKU，例如，对于手机商品而言，有白色SKU、黑色SKU等。

本发明实施例中，无人零售店可以包括：进口闸机、出口闸机、货架、拍摄装置等，另外，在店内或者店外还设置有服务器。拍摄装置可以与服务器进行通信，将拍摄到的图像发送给服务器。

用户进店时，需要经过进口闸机，进口闸机可以获取用户的身份信息如购物账号等。进口闸机获取用户身份信息的方式可以有很多种，例如可以通过扫描用户提供的二维码、识别用户的人脸信息、允许用户自己输入账号等方式来获取用户的身份信息。

在用户通过进口闸机后，拍摄装置可以对用户进行持续拍摄，并将拍摄到的视频流发送给服务器，服务器可以根据视频流对用户进行全域跟踪，并根据视频流中的图像识别用户接触的商品，具体可以是识别用户拿取的商品。

可选的，进行全域跟踪和进行商品识别可以采用不同的拍摄装置来实现。例如，用于进行全域跟踪的拍摄装置可以设置在店内天花板上，从而能够更好地对人体姿态进行跟踪，提高全域跟踪的效果；用于进行商品识别的拍摄装置可以设置在货架上，从而更准确地识别用户手中的商品。

在用户购物过程中，服务器可以通过对视频流中的图像进行处理来识别出用户接触的商品。可选的，可以对视频流中的每一帧图像进行处理，也可以从视频流中抽取部分图像进行处理。例如，可以每1秒抽取10帧图像进行处理，确定每一帧图像中的商品的标识信息，然后根据10帧图像的处理结果，比如根据各帧图像的加权投票结果，确定这1秒对应的商品的标识信息。

根据图像确定用户接触的商品的标识信息可以有多种实现方法。可选的，可以确定所述图像中的各个商品的位置信息、标识信息以及用户手的位置信息，并根据商品的位置信息以及图像中用户手的位置信息，确定用户接触的商品的标识信息。

具体地，可以先识别出图像中全部商品，获取每个商品的位置信息以及每个商品的标识信息，然后确定用户手的位置信息，如果某一商品与用户的手的位置重合或距离小于一定值，则认为该商品是用户接触的商品，相应的，该商品对应的标识信息就是用户接触的商品的标识信息。

或者，也可以先识别图像中手的位置信息，根据手的位置信息，查找手附近一定范围内的商品，若一定范围内不存在商品，则认为用户手中没有接触任何商品，若存在商品，则对该商品进行识别，确定商品的标识信息。

根据前述方法可以将商品与手对应起来，确定哪个商品被那只手拿着，根据全域跟踪，可以将手与用户的身份信息对应起来，确定哪只手对应的是哪个身份信息，这样，就可以将商品的标识信息与身份信息对应起来，判断用户接触了哪个商品。

或者，除了全域跟踪以外，还可以通过其他方法来确定接触商品的用户是谁，例如，可以对图像进行人脸识别，通过人脸识别确定用户的身份信息。

本实施例提供的商品识别方法，可以在用户选购商品时，获取拍摄用户行为的图像，并根据所述图像确定用户接触的商品的标识信息，从而快速、准确地识别出用户接触的商品，提高了用户购物结算的效率，并且，整个过程用户无感知，用户无需等待扫描商品条码才能加购商品，有效提高了用户体验度。

此外，可以具体是识别用户拿取的商品，因此，在确定用户拿取的商品的标识信息之后，还可以将所述商品的标识信息添加到所述用户对应的购物清单中。每多拿一件商品，购物清单中就多一个商品的标识信息，该购物清单可以辅助用户了解自己选购的商品，也可以基于购物清单完成商品结算等。因此，如图4中所示，为本发明实施例提供的商品处理方法实施例一的流程示意图。本实施例中方法的执行主体可以为任意具有图像处理功能的设备，例如服务器等。该方法可以包括：

步骤401、获取拍摄用户行为的图像。

步骤402、根据所述图像确定用户拿取的商品的标识信息。

其中，步骤401～步骤402的操作可以参见步骤301～步骤302的操作，在此不再赘述。

步骤403、将所述商品的标识信息添加到所述用户对应的购物清单中。

此外，用户购物完成，从出口闸机出店，服务器可以根据购物清单中的商品的标识信息进行支付结算。

具体地，用户从出口闸机经过时，出口闸机可以向服务器发送出店信息，所述出店信息表明用户将要或者已经出店，所述出店信息可以包括用户的身份信息，所述出口闸机具体可以通过扫描用户出示的二维码、对用户进行人脸识别等方式确定用户的身份信息。服务器在获取到出店信息后，可以对用户购买的商品进行结算。

当然，服务器也可以通过其它方式获知用户出店，例如，对用户进行全域跟踪时，如果检测到用户走出出口闸机，则确定用户出店，进而可以对用户购买的商品进行结算。

在上述方案中，若检测到用户拿取了商品，则将商品的标识信息添加到用户的购物清单中，若检测到用户将商品放回货架，则可以将商品的标识信息从用户的购物清单中删除。

分析用户拿走商品和放回商品的方法可以有很多种。本实施例提供以下两种。

方式一、检测手经过货架边缘时的状态。具体地，若用户的手进入货架时，手里没有商品，然后用户的手从货架出来时，手里有了商品，那么就认为用户拿取了商品；若用户的手进入货架时，手里有商品，然后用户的手从货架出来时，手里没有商品，那么就认为用户放回了商品。

方式二、通过重力传感器进行辅助判断。具体地，在货架上可以设置重力传感器，商品放置在重力传感器上方。重力传感器将检测到的重力信号发送给服务器，服务器根据重力信号确定商品是否被拿走或者被放回。如果重力传感器检测到的重力信号逐渐减小，说明商品被拿走，如果重力传感器检测到的重力信号逐渐增加，说明商品被放回。

在实际应用中，用户可以在无人零售店或者其它购物场合查看并选购商品，拍摄装置可以拍摄用户行为，并将拍摄到的图像发送给服务器，服务器根据图像确定用户拿取的商品的标识信息，从而执行对用户选购的商品进行结算等后续处理，结构简单，成本较低。

本发明实施例中，可以通过机器学习模型识别图像中用户接触的商品的标识信息。可选的，可以通过Faster-RCNN(Regions with CNN features)、SSD(Single ShotMultiBox Detector)、YOLO(You Only Look Once)等模型来实现商品的识别，这些方案的处理速度较快，但是这些端到端一体训练的方法难以使检测和识别模型达到最优。下面详细说明本发明实施例提供的一种识别商品的方法。

图5为本发明实施例提供的一种通过图像识别商品的标识信息的流程示意图。如图5所示，确定所述图像中的各个商品的位置信息、标识信息，可以包括：

步骤501、通过检测模型检测所述图像中各个商品的位置信息。

步骤502、针对图像中的每个商品，根据商品的位置信息，将对应的商品图像输入到识别模型，得到商品的标识信息。

本实施例中，在获取到图像后，将确定图像中商品的标识信息的过程拆分为两个部分：检测和识别。检测和识别可以分别通过检测模型和识别模型来实现。

其中，所述检测模型用于检测出图像中的商品的位置，即检测图像中的哪一部分是属于商品的，根据商品的位置可以确定商品的图像，所述商品图像是指商品所在位置对应的图像，一般情况下，商品所在的位置可以用商品所在的矩形框来表示，因此所述商品图像可以是指商品所在的矩形框内的图像。

所述识别模型用于根据商品图像识别出商品的标识信息。一种直观的解释是，所述检测模型可以将商品图像从原始图像中抠出来，识别模型可以根据抠出的商品图像识别出商品的标识信息。

在利用检测模型和识别模型确定图像中商品的标识信息之前，还可以对检测模型和识别模型进行训练。可选的，可以通过商品数据库中的样本对识别模型进行训练。

图6为本发明实施例提供的一种商品识别的逻辑示意图。如图6所示，初始的商品数据库中可以有商品的条码信息和商品的参考图，然后，将商品的实拍图增加到商品数据库中，再从商品数据库中提取出样本，样本可以用于训练识别模型。

在在线识别的过程中，可以实时获取拍摄用户行为的图像，将图像依次输入到检测模型和识别模型，从而获取商品图像以及商品的标识信息。

图7为本发明实施例提供的一种构建商品数据库的流程示意图。如图6所示，本发明实施例中的方法还可以包括：

步骤701、获取多个商品的标识信息以及对应的参考图。

其中，商品的参考图可以是在比较理想的状况下拍摄商品的图像。商品的标识信息和商品的参考图可以由管理人员人工导入或者可以由商家提供。

步骤702、获取多个商品的实拍图，并根据所述参考图确定实拍图对应的标识信息。

其中，商品的实拍图可以是实际拍摄商品的图像，需要通过参考图来确定每个实拍图属于哪个商品。

具体地，可以利用检测模型或其它抠图模型对实拍图进行抠图，得到商品图像，然后可以通过深度学习算法计算商品图像的特征，并在商品数据库的参考图中进行特征检索，最后根据检索结果确定实拍图与哪个参考图属于同一产品，若根据检索结果无法确定，则可以交由人工进行同款打标、回收、导入到商品数据库中。

可选的，根据所述参考图确定实拍图对应的标识信息，可以包括：针对每一参考图，计算各个实拍图与该参考图属于同一商品的置信度；若该参考图与某一实拍图属于同一商品的置信度大于第一阈值，且其它参考图与该实拍图属于同一商品的置信度均小于第一阈值，则确认该实拍图与该参考图属于同一商品；根据实拍图对应的参考图，确定所述实拍图对应的商品的标识信息。

进一步地，若各个参考图与某一实拍图属于同一商品的置信度均小于第一阈值，或者，存在至少两个参考图与该实拍图属于同一商品的置信度大于第一阈值，则将该实拍图进行人工标注。

具体地，可以通过深度学习提取参考图和实拍图中商品图像的特征，并根据特征的相似程度，计算实拍图与参考图属于同一商品的置信度。可以理解的是，可以针对每个参考图和每个实拍图进行置信度的计算。假设共有100个商品的参考图，目前待识别的实拍图有10000个，那么需要计算100×10000个置信度。

在置信度计算完成后，针对每一个参考图，将与该参考图属于同一商品的置信度大于第一阈值的实拍图挑选出来，如果这些实拍图与其它参考图属于同一商品的置信度均小于第一阈值，则认为这些实拍图都与该参考图属于同一商品，那么这些实拍图中的商品的标识信息就是参考图对应的商品的标识信息。

由此可知，要想确定一个实拍图对应的参考图，需要满足：实拍图对应的多个置信度中，有且仅有一个置信度大于第一阈值。如果各个参考图与某一实拍图属于同一商品的置信度均小于第一阈值，或者，存在至少两个参考图与该实拍图属于同一商品的置信度大于第一阈值，则将该实拍图进行人工标注。

人工标注是指将实拍图显示给管理人员，并获取管理人员输入的图中商品的标识信息。

步骤703、将所述商品的实拍图与对应的标识信息存储在商品数据库中。

具体地，最终得到的商品数据库包括每个商品的标识信息、参考图、实拍图。在后续的模型训练过程中，主要利用实拍图和标识信息对模型进行训练。

另外，参考图主要用于识别实拍图中的商品，在实拍图都被识别完成后，参考图也可以不存储在商品数据库中，而是存储在其它存储位置。

本发明实施例中，也可以不限定参考图与实拍图具体在图像上有哪些差异，而是将管理人员或者商家上传的与商品的标识信息对应的图像称为参考图，后续添加到商品数据库中的图像被称为实拍图。

本发明实施例提供的构建商品数据库的方法，可以首先获取商品的标识信息以及对应的参考图，然后，在获取到实拍图时，通过参考图对实拍图进行归类，将实拍图与对应的商品标识信息对应起来存储在商品数据库中，能够快速实现在商品数据库中添加海量实拍图，提高了商品数据库的构建效率和准确率。

在商品数据库构建完成后，可以利用商品数据库来进行模型训练。对于检测模型来说，可以利用商品数据库中的图像来对检测模型进行训练，也可利用其它图像对检测模型进行训练，因为检测模型只需要找出图像中商品的位置信息即可，不需要知道商品的标识信息。

可选的，对检测模型进行训练，可以包括：获取图像样本，所述图像样本的标签为图像中商品的位置信息；通过所述图像样本对所述检测模型进行训练。

具体的，可以使用Feature Pyramid Network(特征金字塔网络)加Cascade(级联)的方式构建出检测模型。Feature Pyramid Network可以处理存在多尺度的商品的图像。

本发明实施例中，所述图像样本可以是商品数据库中的图像，也可以是其它任意的图像，样本的标签是图像中商品所在的位置信息。通过样本和标签对检测模型进行训练，就得到了输入是图像、输出是商品位置信息的检测模型。

所述位置信息可以用于表示商品所在的矩形框的位置。所述矩形框的位置可以有多种表现方式，例如，通过左上角和右下角的两个坐标，可以完整地还原矩形框，或者，通过矩形框的中心点坐标以及矩形框的长度和宽度，也可以准确地确定矩形框的位置。其中，左上角坐标、右下角坐标或者中心点坐标是指在图像坐标系中左上角、右下角或者中心点的像素坐标，该图像坐标系通常可以是以图像左上角为原点建立的坐标系。

本发明实施例中，可选的是，所述商品的位置信息除了包括矩形框的尺寸信息以外，还可以包括矩形框的旋转角度。具体地，商品的位置信息可以包括商品所在矩形框的对角线的两个端点的坐标以及所述矩形框的旋转角度。其中，矩形框的对角线的两个端点可以是指矩形框任意对角线的两个端点。其中，对角线两个端点的坐标可以具体是指对角线两个端点的在图像坐标系中的坐标，该图像坐标系可以以图像左上角为原点建立的坐标系。

图8为本发明实施例提供的一种商品所在矩形框的位置示意图。如图7所示，商品所在的矩形框包括四个端点A、B、C、D，其中A、B为矩形框一条对角线的两个端点，C、D为矩形框另一条对角线的两个端点。

本发明实施例中，商品的位置信息可以包括A、B两点的坐标及矩形框的旋转角度，或者，商品的位置信息可以包括C、D两点的坐标及矩形框的旋转角度。

其中，矩形框的旋转角度是指矩形框相对于图像的水平线或竖直线之间的夹角。可选的，所述旋转角度可以通过矩形框的中心线与图像的横边或竖边之间的夹角来表示，例如矩形框的旋转角度可以为图7中两条虚线之间的夹角。

在现有技术中，检测物品所在的位置时，只会得到物品所在矩形左上角坐标、右下角坐标两个信息，通过左上角坐标和右下角坐标可以还原矩形框，因为现有技术提取的矩形框在图像中是正的，不会有旋转角度。而本发明实施例中，除了左上角坐标、右下角坐标以外，还可以增加一个旋转角度，通过三个自由度来更准确地检测出商品在图像中的位置。

图9为现有技术中商品及其所在矩形框的位置示意图。图10为本发明实施例提供的一种商品及其所在矩形框的位置示意图。图9和图10中的阴影部分表示商品，虚线框表示商品所在矩形框。

如图9和图10所示，当商品在图像中有一定旋转角度时，通过现有技术的方法会用一个较大的框将商品框住，框中除了商品，还有很多背景像素点。而本发明实施例可以让矩形框旋转一定角度框住商品，更准确地还原商品所在的位置信息，为后续的识别模型提供更精确的输入，提高识别的准确性。

基于Feature Pyramid Network和商品矩形框三自由度构建的检测模型，可以有效应对现实中多尺度、多姿态出现的各种商品，准确检测出商品的位置信息，为后续的识别模型提供更加准确的输入。

对于识别模型来说，可以利用商品数据库中的图像来对其进行训练。可选的，可以从商品数据库中获取实拍图，并对所述实拍图进行检测，确定所述实拍图中的商品图像，所述商品图像可以作为用于训练识别模型的样本。

具体的，可以通过检测模型对所述实拍图进行检测，确定所述实拍图中商品的位置信息，并根据位置信息确定商品图像。

进一步的，还可以对所述实拍图中的商品图像进行样本增强，经过样本增强后的商品图像可以作为用于训练识别模型的样本。其中，所述样本增强可以是指对商品图像进行调整，使得商品图像能更好地模拟实际各种情况下拍摄的图像。

可选的，样本增强可以包括下述至少一项：调整所述商品图像的光线信息、在所述商品图像中增加噪声、对所述商品图像进行几何变换、调整商品图像所在矩形框的旋转角度。

具体的，对图像进行光线调整、增加噪声、几何变换等的具体实现方法属于现有技术，例如，调整所述商品图像的光线信息，可以通过调整所述商品图像内的像素值来实现，通过增大或减小商品图像的像素点的像素值可以实现将图像调亮或调暗，在所述商品图像中增加噪声，可以通过随机更改商品图像中的像素值来实现。

通过对一个实拍图中的商品图像进行样本增强，可以得到一个或多个经过样本增强的商品图像，有效提高了训练样本的丰富性。

对识别模型进行训练时，商品图像作为样本，商品对应的标识信息作为标签，可以训练得到能够识别商品的识别模型。识别模型的训练过程中可以采用***net作为特征，并结合丰富的样本，使得训练得到的模型能够更加准确地识别出实际拍摄的各种图像中的商品。

进一步的，为了增加识别模型的识别准确性，还可以通过细粒度识别的方法对商品进行识别。具体的，识别模型可以包括：粗分类器和若干个细分类器。其中粗分类器用于识别出商品所在的大类，细分类器用于识别出商品的标识信息。

可选的，可以将商品分为至少一个类型，同一类型的商品具有一定的相似性，例如，可以将商品分为：易拉罐类、图书类、花草类等；或者，商品类型的划分也可以不按照实际意义上的类型，而是按照反映在图像中的特征，例如，可以将商品分为：纯色类、花色类、暗色类、明色类等等。

识别模型中的粗分类器的输入可以为商品图像，输出可以为商品的类型；细分类器的个数可以等于商品的类型的个数，例如，将商品分为易拉罐类、图书类和花草类三种类型，那么相应的，识别模型可以包括三个细分类器：用于识别易拉罐类商品的细分类器、用于识别图书类商品的细分类器以及用于识别花草类商品的细分类器。

具体的，根据商品的位置信息，将对应的商品图像输入到识别模型，得到商品的标识信息，可以包括：根据商品的位置信息，将对应的商品图像输入到粗分类器，获取所述商品的类型；将所述商品图像输入到所述商品的类型对应的细分类器，得到所述商品的标识信息。

图11为本发明实施例提供的一种识别模型的架构示意图。如图11所示，识别模型包括一个粗分类器和三个细分类器，商品图像首先输入到粗分类器，并根据粗分类器的结果再启用相应的细分类器。

具体的，如果粗分类器检测出商品的类型为易拉罐类，则可以将商品图像输入到用于识别易拉罐类商品的细分类器，得到商品对应的标识信息；类似的，如果粗分类器检测出商品的类型为图书类，则可以将商品图像输入到用于识别图书类商品的细分类器，如果粗分类器检测出商品的类型为花草类，则可以将商品图像输入到用于识别花草类商品的细分类器。

对所述粗分类器的训练和对细分类器的训练可以分别进行。可选的，对所述识别模型中的粗分类器进行训练，可以包括：从商品数据库中获取样本，所述样本包括商品图像，所述样本的标签为商品图像对应的类型；根据所述样本，对所述粗分类器进行训练。

可选地，商品图像对应的类型可以通过对商品数据库中的商品图像聚类获得，因此，在某些实施例中，所述方法还可以包括：

对所述商品数据库中的商品图像按照图像特征进行聚类，获得至少一个图像集合；

确定所述至少一个图像集合对应的类型；其中，每个商品图像所属图像集合对应的类型作为每个商品图像对应的类型。商品图像对应的类型即可以认为是其表示商品的类型。

按照图像特征对商品数据库中的商品图像进行聚类，可以获得按照视觉特征分类获得的至少一个图像集合。

其中，该至少一个图像集合各自对应的类型可以由人工设定，图像集合对应类型即作为其包含的商品图像对应的类型。

其中，按照图像特征对商品图像进行聚类，使得可以将商品外形相似的商品图像划分在同一个图像集合中，这些外形相似的商品即属于同一个类型。

对所述识别模型中的细分类器进行训练，可以包括：从商品数据库中获取样本，所述样本包括属于所述细分类器对应的类型的商品图像，所述样本的标签为所述商品图像的标识信息；根据所述样本，对所述细分类器进行训练。例如，在对易拉罐类的细分类器进行训练时，样本中可以仅包含易拉罐类的商品图像，而不包含其他类型的商品图像。

在本发明实施例提供的技术方案中，可以利用粗分类器计算商品图像中的商品属于各个类型的置信度，并将置信度最高的类型作为商品的类型，再启用相应的细分类器对商品进行进一步识别。

或者，可以为粗分类器设置一定的容错空间。具体的，粗分类器可以计算出商品属于各个类型的置信度，并将置信度最高的前多个类型作为商品的类型，并启用相应的至少一个细分类器进行进一步识别。具体的，可以启用置信度大于第一阈值的类型对应的细分类器，或者，启用置信度最大的N个类型对应的细分类器，对商品图像进行进一步识别。细分类器的输出也可以是图像中的商品属于商品数据库中各个标识信息对应的商品的置信度，可以选取其中的最大置信度对应的标识信息作为图像中商品的标识信息。

例如，可以设置N＝2，假设粗分类器计算得到商品属于易拉罐类、图书类、花草类的置信度分别为0.8、0.5和0.1，置信度最大的N个类型为易拉罐类和图书类，说明商品最有可能是易拉罐类或者图书类的商品，然后，可以将商品图像分别输入到用于识别易拉罐类商品的细分类器和用于识别图书类商品的细分类器。

假设将商品图像输入到识别易拉罐类商品的细分类器后得到的结果是：商品属于可乐A的置信度为0.9，商品属于啤酒B的概率为0.1；将商品图像输入到用于识别图书类商品的细分类器，得到的结果是：商品属于图书C的置信度为0.2，商品属于图书D的置信度为0.6，那么，图像中的商品最有可能是置信度最大的0.9对应的可乐A，可以认为商品的标识信息就是可乐A的标识信息。

将识别模型分为粗分类器和细分类器，能够针对难以区分的近似款商品做到更好的区分。经过粗分类器和TopN细分类器，能够有效避免粗分类器识别不准确导致遗漏商品可能的结果，提高识别模型的整体识别准确率。

本发明实施例中将检测和识别分开进行优化，检测模型能够有效处理现实中各种以多尺度、多姿态出现的商品，在各种复杂场景下召回率达到93％；与此同时，基于层次化分类的识别模型能够在处理大规模商品时更好地应对，准确率达到96％-97％。

图12为本发明实施例提供的商品识别方法实施例二的流程示意图。本实施例中方法的执行主体可以为拍摄装置。如图12所示，本实施例中的商品识别方法，可以包括：

步骤1201、获取拍摄用户行为的视频流。

步骤1202、将所述视频流发送给服务器，以使所述服务器根据所述视频流中的图像确定图像中用户接触的商品的标识信息。

本实施例中，拍摄装置可以将拍摄的视频流发送给服务器，服务器从视频流中提取出图像，并根据图像来确定用户接触的商品的标识信息。

其中，拍摄装置和服务器的具体功能的实现方法和原理可以参加上述实施例，此处不再赘述。

在其它可选的实施方式中，拍摄装置还可以将拍摄用户行为的图像发送给服务器，而不是发送视频流给服务器，服务器可以直接根据拍摄装置发送的图像来对图像中的商品进行识别，有效节省了传输资源，提高了服务器的处理效率。

综上，本实施例提供的方法，可以在用户选购商品时，对用户的行为进行拍摄，并将拍摄得到的视频流发送给服务器，服务器可以根据所述视频流中的图像确定用户接触的商品的标识信息，从而快速、准确地识别出用户接触的商品，提高了用户购物结算的效率，并且，整个过程用户无感知，用户无需等待扫描商品条码才能加购商品，有效提高了用户体验度。

图13为本发明实施例提供的商品识别方法实施例三的流程示意图。本实施例中方法的执行主体可以为拍摄装置。如图13所示，本实施例中的商品识别方法，可以包括：

步骤1301、获取拍摄用户行为的图像。

步骤1302、根据所述图像确定用户接触的商品的标识信息。

步骤1303、将所述商品的标识信息发送给服务器。

本实施例中，可以由拍摄装置根据拍摄得到的图像确定用户接触的商品的标识信息，并将标识信息发送给服务器。其中，拍摄装置确定用户接触的商品的标识信息的方法与服务器确定用户接触的商品的标识信息的方法类似，具体的实现过程和原理可以参见前述实施例，此处不再赘述。

综上，本实施例提供的方法，可以在用户选购商品时，对用户的行为进行拍摄，并根据拍摄得到的图像确定用户接触的商品的标识信息，并将标识信息发送给服务器，具体识别用户拿取的商品的标识信息时，使得服务器可以根据用户拿取的商品进行支付结算等后续处理，提高了用户购物结算的效率，并且，整个过程用户无感知，用户无需等待扫描商品条码才能加购商品，有效提高了用户体验度。

以下将详细描述本发明的一个或多个实施例的商品识别装置。本领域技术人员可以理解，这些商品识别装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。

图14为本发明实施例提供的商品识别装置实施例一的结构示意图。如图14所示，该装置可以包括：

第一获取模块11，用于获取拍摄用户行为的图像；

第一确定模块12，用于根据所述图像确定用户接触的商品的标识信息。

可选的，所述第一获取模块11具体可以用于：获取拍摄装置拍摄用户行为的视频流，并从所述视频流中选取图像；其中，所述拍摄装置设置在货架上端，所述货架上放置有商品。

可选的，所述第一确定模块12具体可以包括：第一确定单元，用于确定所述图像中的各个商品的位置信息、标识信息；第二确定单元，用于确定所述图像中用户手的位置信息；第三确定单元，用于根据商品的位置信息以及图像中用户手的位置信息，确定用户接触的商品的标识信息。

可选的，所述第一确定单元具体可以用于：通过检测模型检测所述图像中各个商品的位置信息；针对图像中的每个商品，根据商品的位置信息，将对应的商品图像输入到识别模型，得到商品的标识信息。

可选的，所述装置还可以包括：第一训练模块，用于对所述检测模型进行训练；第二训练模块，用于对所述识别模型进行训练。

可选的，所述第一训练模块具体可以用于：获取图像样本，所述图像样本的标签为图像中商品的位置信息；通过所述图像样本对所述检测模型进行训练；其中，所述商品的位置信息包括商品所在矩形框的对角线的两个端点的坐标以及所述矩形框的旋转角度。

可选的，所述识别模型包括粗分类器和至少一个细分类器；相应的，所述第一确定单元具体可以用于：通过检测模型检测所述图像中各个商品的位置信息；针对图像中的每个商品，根据商品的位置信息，将对应的商品图像输入到粗分类器，获取所述商品的类型；将所述商品图像输入到所述商品的类型对应的细分类器，得到所述商品的标识信息。

可选的，所述第二训练模块具体可以用于：从商品数据库中获取样本，所述样本包括商品图像，所述样本的标签为商品图像对应的类型，根据所述样本，对所述粗分类器进行训练；以及，从商品数据库中获取样本，所述样本包括属于所述细分类器对应的类型的商品图像，所述样本的标签为所述商品图像的标识信息，根据所述样本，对所述细分类器进行训练。

可选的，所述装置还可以包括：第一构建模块，用于获取多个商品的标识信息以及对应的参考图；第二构建模块，用于获取多个商品的实拍图，并根据所述参考图确定实拍图对应的标识信息；第三构建模块，用于将所述商品的实拍图与对应的标识信息存储在商品数据库中。

可选的，所述第二构建模块具体可以用于：获取多个商品的实拍图；针对每一参考图，计算各个实拍图与该参考图属于同一商品的置信度；若该参考图与某一实拍图属于同一商品的置信度大于第一阈值，且其它参考图与该实拍图属于同一商品的置信度均小于第一阈值，则确认该实拍图与该参考图属于同一商品；根据实拍图对应的参考图，确定所述实拍图对应的商品的标识信息。

可选的，所述第二构建模块还可以用于：若各个参考图与某一实拍图属于同一商品的置信度均小于第一阈值，或者，存在至少两个参考图与该实拍图属于同一商品的置信度大于第一阈值，则将该实拍图显示给管理人员；获取管理人员输入的实拍图中商品的标识信息。

可选的，所述第二训练模块具体可以用于：从商品数据库中获取实拍图；对所述实拍图进行检测，确定所述实拍图中的商品图像；对所述实拍图中的商品图像进行样本增强，得到用于训练识别模型的样本；其中，所述样本增强包括下述至少一项：调整所述商品图像的光线信息、在所述商品图像中增加噪声、对所述商品图像进行几何变换、调整商品图像所在矩形框的旋转角度；根据所述样本，对所述识别模型中的粗分类器和细分类器进行训练；其中，粗分类器的样本包括商品图像，所述样本的标签为商品图像对应的类型；所述细分类器的样本包括属于所述细分类器对应的类型的商品图像，所述样本的标签为所述商品图像的标识信息。

图14所示装置可以执行前述方法实施例一提供的商品识别方法，本实施例未详细描述的部分，可参考对前述实施例的相关说明。该技术方案的执行过程和技术效果参见前述实施例中的描述，在此不再赘述。

图15为本发明实施例提供的商品识别装置实施例二的结构示意图。如图15所示，该装置可以包括：

第二获取模块13，用于获取拍摄用户行为的视频流；

第一发送模块14，用于将所述视频流发送给服务器，以使所述服务器根据所述视频流中的图像确定图像中用户接触的商品的标识信息。

图15所示装置可以执行前述方法实施例二提供的商品识别方法，本实施例未详细描述的部分，可参考对前述实施例的相关说明。该技术方案的执行过程和技术效果参见前述实施例中的描述，在此不再赘述。

图16为本发明实施例提供的商品识别装置实施例三的结构示意图。如图16所示，该装置可以包括：

第三获取模块15，用于获取拍摄用户行为的图像；

第二确定模块16，用于根据所述图像确定用户接触的商品的标识信息；

第二发送模块17，用于将所述商品的标识信息发送给服务器。

图16所示装置可以执行前述方法实施例三提供的商品识别方法，本实施例未详细描述的部分，可参考对前述实施例的相关说明。该技术方案的执行过程和技术效果参见前述实施例中的描述，在此不再赘述。

图17为本发明实施例提供的商品处理装置实施例一的结构示意图。如图17所示，该装置可以包括：

第四获取模块18、用于获取拍摄用户行为的图像；

第三确定模块19、用于根据所述图像确定用户拿取的商品的标识信息；

商品处理模块20、将所述商品的标识信息添加到所述用户对应的购物清单中。

可选地，商品处理模块20还可以用于根据所述购物清单中的商品的标识信息进行支付结算。

图17所示装置可以执行前述图4提供的商品处理方法，本实施例未详细描述的部分，可参考对前述实施例的相关说明。该技术方案的执行过程和技术效果参见前述实施例中的描述，在此不再赘述。

图18为本发明实施例提供的商品数据库构建装置实施例一的结构示意图。如图18所示，该装置可以包括：

第一构建模块21，用于获取多个商品的标识信息以及对应的参考图。

第二构建模块22，用于获取所述多个商品的实拍图，并根据所述参考图确定所述实拍图对应的标识信息。

第三构建模块23，用于将所述商品的实拍图与对应的标识信息存储在商品数据库中。

可选地，所述第二构建模块根据所述参考图确定所述实拍图对应的标识信息可以具体是针对每一参考图，计算各个实拍图与该参考图属于同一商品的置信度；若该参考图与某一实拍图属于同一商品的置信度大于第一阈值，且其它参考图与该实拍图属于同一商品的置信度均小于第一阈值，则确认该实拍图与该参考图属于同一商品；根据实拍图对应的参考图，确定所述实拍图对应的商品的标识信息。

可选地，所述第二构建模块还用于若各个参考图与某一实拍图属于同一商品的置信度均小于第一阈值，或者，存在至少两个参考图与该实拍图属于同一商品的置信度大于第一阈值，则将该实拍图显示给管理人员；获取管理人员输入的实拍图中商品的标识信息。

图19为本发明实施例提供的电子设备实施例一的结构示意图。所述电子设备可以为任意具有图像处理功能的电子设备，如服务器等。如图19所示，该电子设备可以包括：第一处理器24和第一存储器25。其中，所述第一存储器25用于存储支持电子设备执行前述任一实施例提供的商品识别方法的程序，所述第一处理器24被配置为用于执行所述第一存储器25中存储的程序。

所述程序包括一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第一处理器24执行时能够实现如下步骤：

获取拍摄用户行为的图像；

根据所述图像确定用户接触的商品的标识信息。

可选地，所述第一处理器24还用于执行前述图3所示实施例中的全部或部分步骤。

其中，所述电子设备的结构中还可以包括第一通信接口25，用于电子设备与其他设备或通信网络通信。

可选地，该电子设备可以为物理设备或者云计算平台提供的弹性计算主机等，上述处理器、存储器等可以是从云计算平台租用或购买的基础服务器资源。

图20为本发明实施例提供的电子设备实施例二的结构示意图。所述电子设备可以为任意具有拍摄功能的电子设备，如拍摄装置等。如图17所示，该电子设备可以包括：第二处理器26和第二存储器27。其中，所述第二存储器27用于存储支持电子设备执行前述任一实施例提供的商品识别方法的程序，所述第二处理器26被配置为用于执行所述第二存储器27中存储的程序。

所述程序包括一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第二处理器26执行时能够实现如下步骤：

获取拍摄用户行为的视频流；

可选地，所述第二处理器26还用于执行前述图12所示实施例中的全部或部分步骤。

其中，所述电子设备的结构中还可以包括第二通信接口28，用于电子设备与其他设备或通信网络通信。

图21为本发明实施例提供的电子设备实施例三的结构示意图。所述电子设备可以为任意具有拍摄功能的电子设备，如拍摄装置等。如图18所示，该电子设备可以包括：第三处理器29和第三存储器30。其中，所述第三存储器30用于存储支持电子设备执行前述任一实施例提供的商品识别方法的程序，所述第三处理器29被配置为用于执行所述第三存储器30中存储的程序。

所述程序包括一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第三处理器29执行时能够实现如下步骤：

获取拍摄用户行为的图像；

根据所述图像确定用户接触的商品的标识信息；

将所述商品的标识信息发送给服务器。

可选地，所述第三处理器29还用于执行前述图13所示实施例中的全部或部分步骤。

其中，所述电子设备的结构中还可以包括第三通信接口31，用于电子设备与其他设备或通信网络通信。

图22为本发明实施例提供的电子设备实施例四的结构示意图。所述电子设备可以为任意图像处理功能的电子设备，如服务器等。如图22所示，该电子设备可以包括：第四处理器32和第四存储器33。其中，所述第四存储器31用于存储支持电子设备执行前述任一实施例提供的商品处理方法的程序，所述第四处理器32被配置为用于执行所述第四存储器33中存储的程序。

所述程序包括一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第四处理器32执行时能够实现如下步骤：

获取拍摄用户行为的图像；

根据所述图像确定用户拿取的商品的标识信息；

将所述商品的标识信息添加到所述用户对应的购物清单中。

可选地，所述第四处理器32还用于执行前述图4所示实施例中的全部或部分步骤。

其中，所述电子设备的结构中还可以包括第四通信接口34，用于电子设备与其他设备或通信网络通信。

图23为本发明实施例提供的电子设备实施例四的结构示意图。所述电子设备可以为任意具备图像处理功能的电子设备，如服务器等。如图23所示，该电子设备可以包括：第五处理器35和第五存储器36。其中，所述第五存储器35用于存储支持电子设备执行前述任一实施例提供的商品处理方法的程序，所述第五处理器35被配置为用于执行所述第四存储器36中存储的程序。

所述程序包括一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第五处理器35执行时能够实现如下步骤：

获取多个商品的标识信息以及对应的参考图；

可选地，所述第五处理器32还用于执行前述图7所示实施例中的全部或部分步骤。

其中，所述电子设备的结构中还可以包括第四通信接口37，用于电子设备与其他设备或通信网络通信。

另外，本发明实施例提供了一种存储计算机指令的计算机可读存储介质，当所述计算机指令被处理器执行时，致使所述处理器执行包括以下的动作：

获取拍摄用户行为的图像；

根据所述图像确定用户接触的商品的标识信息。

当所述计算机指令被处理器执行时，还可以致使所述处理器执行上述实施例一中的商品识别方法所涉及的全部或部分步骤。

另外，本发明实施例提供了另一种存储计算机指令的计算机可读存储介质，当所述计算机指令被处理器执行时，致使所述处理器执行包括以下的动作：

获取拍摄用户行为的视频流；

当所述计算机指令被处理器执行时，还可以致使所述处理器执行上述实施例二中的商品识别方法所涉及的全部或部分步骤。

获取拍摄用户行为的图像；

根据所述图像确定用户接触的商品的标识信息；

将所述商品的标识信息发送给服务器。

获取拍摄用户行为的图像；

根据所述图像确定用户拿取的商品的标识信息；

将所述商品的标识信息添加到所述用户对应的购物清单中。

获取多个商品的标识信息以及对应的参考图；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程网络连接设备的处理器以产生一个机器，使得通过计算机或其它可编程网络连接设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其它可编程网络连接设备以特定方式楼层的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其它可编程网络连接设备上，使得在计算机或其它可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其它数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其它类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其它内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其它光学存储、磁盒式磁带，磁带磁磁盘存储或其它磁性存储设备或任何其它非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种商品识别方法，其特征在于，包括：

获取拍摄用户行为的图像；

根据所述图像确定用户接触的商品的标识信息。

2.根据权利要求1所述的方法，其特征在于，获取拍摄用户行为的图像，包括：

获取拍摄装置拍摄用户行为的视频流，并从所述视频流中选取图像；

其中，所述拍摄装置设置在货架上端，所述货架上放置有商品。

3.根据权利要求1所述的方法，其特征在于，根据所述图像确定用户接触的商品的标识信息，包括：

确定所述图像中的各个商品的位置信息、标识信息以及用户手的位置信息；

根据商品的位置信息以及图像中用户手的位置信息，确定用户接触的商品的标识信息。

4.根据权利要求3所述的方法，其特征在于，确定所述图像中的各个商品的位置信息、标识信息，包括：

通过检测模型检测所述图像中各个商品的位置信息；

针对图像中的每个商品，根据商品的位置信息，将对应的商品图像输入到识别模型，得到商品的标识信息。

5.根据权利要求4所述的方法，其特征在于，还包括：

对所述检测模型和所述识别模型进行训练。

6.根据权利要求5所述的方法，其特征在于，对所述检测模型进行训练，包括：

获取图像样本，所述图像样本的标签为图像中商品的位置信息；

通过所述图像样本对所述检测模型进行训练。

7.根据权利要求5所述的方法，其特征在于，所述识别模型包括粗分类器和至少一个细分类器；

相应的，根据商品的位置信息，将对应的商品图像输入到识别模型，得到商品的标识信息，包括：

根据商品的位置信息，将对应的商品图像输入到粗分类器，获取所述商品的类型；

将所述商品图像输入到所述商品的类型对应的细分类器，得到所述商品的标识信息。

8.根据权利要求7所述的方法，其特征在于，对所述识别模型中的粗分类器进行训练，包括：

从商品数据库中获取样本，所述样本包括商品图像，所述样本的标签为商品图像对应的类型；

根据所述样本，对所述粗分类器进行训练。

9.根据权利要求7所述的方法，其特征在于，对所述识别模型中的细分类器进行训练，包括：

从商品数据库中获取样本，所述样本包括属于所述细分类器对应的类型的商品图像，所述样本的标签为所述商品图像的标识信息；

根据所述样本，对所述细分类器进行训练。

10.根据权利要求8或9所述的方法，其特征在于，还包括：

获取多个商品的标识信息以及对应的参考图；

获取多个商品的实拍图，并根据所述参考图确定实拍图对应的标识信息；

将所述商品的实拍图与对应的标识信息存储在商品数据库中。

11.根据权利要求10所述的方法，其特征在于，根据所述参考图确定实拍图对应的标识信息，包括：

针对每一参考图，计算各个实拍图与该参考图属于同一商品的置信度；

若该参考图与某一实拍图属于同一商品的置信度大于第一阈值，且其它参考图与该实拍图属于同一商品的置信度均小于第一阈值，则确认该实拍图与该参考图属于同一商品；

根据实拍图对应的参考图，确定所述实拍图对应的商品的标识信息。

12.根据权利要求11所述的方法，其特征在于，还包括：

若各个参考图与某一实拍图属于同一商品的置信度均小于第一阈值，或者，存在至少两个参考图与该实拍图属于同一商品的置信度大于第一阈值，则将该实拍图显示给管理人员；

获取管理人员输入的实拍图中商品的标识信息。

13.根据权利要求10所述的方法，其特征在于，从商品数据库中获取样本，包括：

从商品数据库中获取实拍图；

对所述实拍图进行检测，确定所述实拍图中的商品图像；

对所述实拍图中的商品图像进行样本增强，得到用于训练识别模型的样本；

其中，所述样本增强包括下述至少一项：调整所述商品图像的光线信息、在所述商品图像中增加噪声、对所述商品图像进行几何变换、调整商品图像所在矩形框的旋转角度。

14.根据权利要求8所述的方法，其特征在于，还包括：

确定所述至少一个图像集合对应的类型；其中，每个商品图像所属图像集合对应的类型作为每个商品图像对应的类型。

15.一种商品识别方法，其特征在于，包括：

获取拍摄用户行为的视频流；

16.一种商品识别方法，其特征在于，包括：

获取拍摄用户行为的图像；

根据所述图像确定用户接触的商品的标识信息；

将所述商品的标识信息发送给服务器。

17.一种商品处理方法，其特征在于，包括：

获取拍摄用户行为的图像；

根据所述图像确定用户拿取的商品的标识信息；

将所述商品的标识信息添加到所述用户对应的购物清单中。

18.根据权利要求17所述的方法，其特征在于，还包括：

根据所述购物清单中的商品的标识信息进行支付结算。

19.一种商品数据库构建方法，其特征在于，包括：

获取多个商品的标识信息以及对应的参考图；

20.根据权利要求19所述的方法，其特征在于，所述根据所述参考图确定所述实拍图对应的标识信息，包括：

21.根据权利要求19所述的方法，其特征在于，还包括：

获取管理人员输入的实拍图中商品的标识信息。

22.一种商品识别装置，其特征在于，包括：

第一获取模块，用于获取拍摄用户行为的图像；

23.一种商品识别装置，其特征在于，包括：

第二获取模块，用于获取拍摄用户行为的视频流；

24.一种商品识别装置，其特征在于，包括：

第三获取模块，用于获取拍摄用户行为的图像；

第二发送模块，用于将所述商品的标识信息发送给服务器。

25.一种商品处理装置，其特征在于，包括：

第四获取模块，用于获取拍摄用户行为的图像；

26.一种商品数据库构建装置，其特征在于，包括：

27.一种电子设备，其特征在于，包括：第一存储器和第一处理器；所述第一存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第一处理器执行时实现如权利要求1至14中任一项所述的商品识别方法。

28.一种电子设备，其特征在于，包括：第二存储器和第二处理器；所述第二存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第二处理器执行时实现如权利要求15所述的商品识别方法。

29.一种电子设备，其特征在于，包括：第三存储器和第三处理器；所述第三存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第三处理器执行时实现如权利要求16所述的商品识别方法。

30.一种电子设备，其特征在于，包括：第四存储器和第四处理器；所述第四存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第四处理器执行时实现如权利要求17至18中任一项所述的商品处理方法。

31.一种电子设备，其特征在于，包括：第五存储器和第五处理器；所述第五存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第五处理器执行时实现如权利要求19至21中任一项所述的商品数据库构建方法。