CN110188695B

CN110188695B - 购物动作决策方法及装置

Info

Publication number: CN110188695B
Application number: CN201910465258.1A
Authority: CN
Inventors: 雷超兵; 亢乐; 包英泽
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2019-05-30
Filing date: 2019-05-30
Publication date: 2021-09-07
Anticipated expiration: 2039-05-30
Also published as: CN110188695A

Abstract

本发明实施例提出一种购物动作决策方法及装置。所述方法包括：获取目标实体的人体特征和与所述目标实体相关的物品特征；将所述人体特征和所述物品特征输入决策模型，得到所述目标实体的动作信息，所述决策模型是基于强化学习训练得到的模型；根据所述动作信息得到回报信息；利用所述回报信息对所述决策模型进行优化。本发明实施例能够在决策过程中自动更新优化模型，无需大量数据训练。

Description

购物动作决策方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种购物动作决策方法及装置。

背景技术

无人零售，源自新零售概念，作为无人值守服务中的一大类,主要指的是无人情形下进行的零售消费行为。无人零售场景中的信息综合与决策是指通过将无人零售店中的传感器采集的数据发送给服务器，服务器根据接收到的数据进行推理进而得到各个主体在各时刻的购物行为。

由于无人零售场景复杂，包含的传感器众多，目前的做法往往将不同的传感器单独处理，这种处理方式不尽消耗大量的计算资源而且各传感器数据单独处理错失了许多联合信息；另一方面，这种做法训练模型需要标注大量的训练数据。

发明内容

本发明实施例提供一种购物动作决策方法及装置，以解决现有技术中的一个或多个技术问题。

第一方面，本发明实施例提供了一种购物动作决策方法，包括：

获取目标实体的人体特征和与所述目标实体相关的物品特征；

将所述人体特征和所述物品特征输入决策模型，得到所述目标实体的动作信息，所述决策模型是基于强化学习训练得到的模型；

根据所述动作信息得到回报信息；

利用所述回报信息对所述决策模型进行优化。

在一种实施方式中，将所述人体特征和所述物品特征输入决策模型，得到所述目标实体的动作信息，包括：

将所述人体特征和所述物品特征输入第一神经网络，预测得到所述目标实体的交互信息，所述目标实体的交互信息包括：所述目标实体与其他实体进行交互的信息、所述目标实体拿取的物品信息、所述目标实体放回的物品信息以及结账信息中的至少一种；

将上一时刻与当前时刻的所述人体特征、上一时刻与当前时刻的所述物品特征和所述交互信息输入第二神经网络，得到所述目标实体在当前时刻的动作信息。

在一种实施方式中，将所述人体特征和所述物品特征输入决策模型，得到所述目标实体的动作信息之后，还包括：

根据所述动作信息更新所述目标实体的状态信息，所述状态信息包括人***置信息、购物车信息以及上一时刻的人体特征和物品特征。

在一种实施方式中，利用所述目标实体的动作信息，得到对应的回报信息，包括：

在所述动作信息为结账，且账单信息指示所述目标实体的动作实际上为结账的情况下，所述回报信息的公式为：R＝n–m；其中，R为所述回报信息，n为购物车信息中正确的物品个数，m为购物车信息中错误的物品个数；

在所述动作信息为结账之外的其它动作信息的情况下，所述回报信息的公式为：R＝0。

在一种实施方式中，获取目标实体的人体特征和与所述目标实体相关的物品特征，包括：

检测到所述目标实体进入检测区域，获取所述目标实体的图像信息；

将所述目标实体的图像信息输入卷积神经网络，得到所述目标实体的人体特征和与目标实体相关的物品特征。

第二方面，本发明提供一种购物动作决策装置，包括：

特征获取模块：用于获取目标实体的人体特征和与所述目标实体相关的物品特征；

决策模块：用于将所述人体特征和所述物品特征输入决策模型，得到所述目标实体的动作信息，所述决策模型是基于强化学习训练得到的模型；

回报模块：用于根据所述动作信息得到回报信息；

优化模块：用于利用所述回报信息对所述决策模型进行优化。

第一预测模块：用于将所述人体特征和所述物品特征输入第一神经网络，预测得到所述目标实体的交互信息，所述目标实体的交互信息包括：所述目标实体与其他实体进行交互的信息、所述目标实体拿取的物品信息、所述目标实体放回的物品信息以及结账信息中的至少一种；

第二预测模块：用于将上一时刻与当前时刻的所述人体特征、上一时刻与当前时刻的所述物品特征和所述交互信息输入第二神经网络，得到所述目标实体在当前时刻的动作信息。

在一种实施方式中，所述装置还包括：

更新模块：用于根据所述动作信息更新所述目标实体的状态信息，所述状态信息包括人***置信息、购物车信息以及上一时刻的人体特征和物品特征。

在一种实施方式中，所述特征获取模块包括：

图像信息获取单元：用于检测到所述目标实体进入检测区域，获取所述目标实体的图像信息；

计算单元：用于将所述目标实体的图像信息输入卷积神经网络，得到所述目标实体的人体特征和与目标实体相关的物品特征。

第三方面，本发明实施例提供了一种购物动作决策设备，所述装置的功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，所述设备的结构中包括处理器和存储器，所述存储器用于存储支持所述设备执行上述购物动作决策方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。所述设备还可以包括通信接口，用于与其他设备或通信网络通信。

第四方面，本发明实施例提供了一种计算机可读存储介质，用于存储购物动作决策装置所用的计算机软件指令，其包括用于执行上述购物动作决策方法所涉及的程序。

上述技术方案中的一个技术方案具有如下优点或有益效果：本发明实施例所提供方法是一种在线的增量学习算法，能够在线不停的优化***。

该方法不需要标注各种人体检测、识别商品检测、识别等训练数据，只需要在结账时check(检查)一下账单。

整个模块是一个整体，能够进行端到端的训练，联合优化达到***的性能最优。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1示出根据本发明实施例的购物动作决策方法的流程图。

图2示出根据本发明实施例的购物动作决策方法的流程图。

图3示出根据本发明实施例的购物动作决策方法的流程图。

图4示出根据本发明实施例的购物动作决策装置的结构框图。

图5示出根据本发明实施例的购物动作决策装置的结构框图。

图6示出根据本发明实施例的购物动作决策装置的结构框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

图1示出根据本发明实施例的一种购物动作决策方法流程图。如图1所示，该购物动作决策方法，包括：

步骤S11：获取目标实体的人体特征和与所述目标实体相关的物品特征。

步骤S12：将所述人体特征和所述物品特征输入决策模型，得到所述目标实体的动作信息，所述决策模型是基于强化学习训练得到的模型。

步骤S13：根据所述动作信息得到回报信息。

步骤S14：利用所述回报信息对所述决策模型进行优化。

在本发明实施例中，目标实体为人体，在模型中可以建立对象Agent来对应目标实体。在该模型中，Agent可以为运行在被管理单元上的自主行为实体，能够对被管理单元上的相关事件作出反应、响应管理者(manager)发来的管理命令等等。在一种示例中，如果检测到有人进入设定区域，可以建立进入该区域的人对应的Agent。目标实体的动作信息，可以包括拿起物品、放下物品、传递物品、结算物品或者不操作等。

在本发明实施例中，物品特征可以包括重力感应模块获取的信息。例如，在无人零售商店的货柜上设置重力感应模块。如果有人拿走了某个物品A，则重力感应模块可以感应到该物品A所在区域的重力会发生变化。这时，可以获取重力发生变化的物品A的信息。

在本发明实施例中，物品特征和人体特征由模型根据数据处理需要获取，可通过图像获取装置结合两个神经网络分别获取物品特征和人体特征。这两个神经网络通过决策模块反传回来的loss(损失)进行训练。

本发明实施例能够在每次目标实体进入设定区域之后，获取目标实体的人体特征和物品特征，并利用决策模型根据人体特征和物品特征计算动作信息，并根据动作信息计算回报信息，再利用回报信息对决策模型进行优化，能够在使用决策模型的过程中对决策模型进行优化，无需大量训练数据。

利用所述回报信息对所述决策模型进行优化，可以是根据回报信息，对决策模型的参数进行调整，以此对其优化。

在本发明实施例中，目标实体的动作信息，包括实***置、与该实体交互的其他实体信息以及该实体与其他实体交互的商品。

在本发明实施例中，决策模型可以基于环境、目标实体、目标实体的动作、状态和回报等信息来建立。环境信息可以包括无人零售商店、自动售货柜等需要检测人体动作的地点。目标实体可以对应环境中的人。目标实体的动作，即人在环境中的动作。状态包含上一个时刻提取的目标实体的人体特征及商品特征、每个目标实体的位置信息和购物车信息。

在本发明实施方式中，将所述人体特征和所述物品特征输入决策模型，得到所述目标实体的动作信息，包括：

所述目标实体在当前时刻的动作信息，为决策模型预测的动作信息。得到目标实体在当前时刻的动作信息后，并不知道动作信息的对错。当目标实体离开检测区域后，只需要检查账单，即可知道最后一个动作信息预测是否正确。根据正确与否，获得相应回报信息，根据回报信息优化模型。

在本发明实施方式中，如图2所示，将所述人体特征和所述物品特征输入决策模型，得到所述目标实体的动作信息之后，还包括：

步骤S21：根据所述动作信息更新所述目标实体的状态信息，所述状态信息包括人***置信息、购物车信息以及上一时刻的人体特征和物品特征。本实施例中的步骤S11-S14可以参见上述实施例中的相关描述，在此不再赘述。

在本发明实施例中，根据动作信息更新所述目标实体的状态信息，包括根据动作信息和环境信息更新目标实体的状态信息。

在本发明实施例中，更新后的目标实体的状态信息，用于计算再当前时刻的动作信息。

在本发明实施方式中，利用所述目标实体的动作信息，得到对应的回报信息，包括：

在所述动作信息为结账，且账单信息指示所述动作实际上为结账的情况下，按照回报信息的公式为：R＝n–m；其中，R为回报信息，n为购物车信息中正确的物品个数，m为购物车信息中错误的物品个数；

在所述动作信息为结账之外的其它动作信息的情况下，回报信息的公式为：R＝0。

在本发明实施例中，***可以不确定每一次动作信息预测结果是否正确，而是在最后目标实体结账时检查账单判断最后的动作是否正确。若最后的结账动作正确，则给予一定的回报。若最后的结账动作错误，则不给予回报。例如，当一个目标实体进入检测区域，建立相应的Agent，目标实体在检测区域中，可能会执行一系列的操作，例如拿取物品、放下物品、传递物品等。在一系列操作之后，目标实体可能会执行结账动作，完成购物。目标实体也可能不购物。若在目标实体离开检测区域之前的最后一个动作预测结果为结账动作，但是根据账单信息，目标实体并没有进行购物，则不给于回报。若目标实体离开检测区域之前的最后一个动作预测结果为结账动作，根据账单信息，目标实体也进行了结账，则根据购物车信息给与相应的回报。若目标实体离开检测区域之前最后一个动作预测结果为结账动作以外的其他动作，但是根据账单信息，目标实体有购物结账行为，那么不给于回报。若目标实体离开检测区域之前的最后一个动作预测结果为结账动作以外的其他动作，根据账单信息，目标实体并没有购物结账行为，那么根据购物车信息给与相应的回报。这样模型能够根据回报而进行学习和优化，最终能够准确预测目标实体是否执行了结账动作。

在本发明实施方式中，获取目标实体的人体特征和与所述目标实体相关的物品特征，包括：

检测到目标实体进入检测区域，获取所述目标实体的图像信息；

在本发明实施例中，检测到目标实体进入检测区域，新建一个Agent，当有结账动作产生，后台发送结账信号并将相应的Agent删除。

在本发明一种示例中，如图3所示，购物动作决策方法包括：

步骤S31：数据采集。

步骤S32：从采集的数据中提取目标实体的人体特征和商品特征。

步骤S33：将所述人体特征和所述物品特征输入第一神经网络，预测得到所述目标实体的交互信息，所述目标实体的交互信息包括：所述目标实体与其他实体进行交互的信息、所述目标实体拿取的物品信息、所述目标实体放回的物品信息以及结账信息中的至少一种。

步骤S34：将上一时刻与当前时刻的所述人体特征、上一时刻与当前时刻的所述物品特征和所述交互信息输入第二神经网络，得到所述目标实体在当前时刻的动作信息，并根据当前时刻的人体特征和物品特征更新状态。

在本发明实施例中，结账动作可根据人体面部识别离开的信息或者扫码结账的信息获取。

图4示出根据本发明实施例的购物动作决策装置的结构框图。如图4所示，购物动作决策装置，包括：

特征获取模块41：用于获取目标实体的人体特征和与所述目标实体相关的物品特征；

决策模块42：用于将所述人体特征和所述物品特征输入决策模型，得到所述目标实体的动作信息，所述决策模型是基于强化学习训练得到的模型；

回报模块43：用于根据所述动作信息得到回报信息；

优化模块44：用于利用所述回报信息对所述决策模型进行优化。

在一种实施方式中，如图5所示，所述装置还包括：

更新模块51：用于根据所述动作信息更新所述目标实体的状态信息，所述状态信息包括人***置信息、购物车信息以及上一时刻的人体特征和物品特征。

在一种实施方式中，所述特征获取模块包括：

图像信息获取单元：用于检测到目标实体进入检测区域，获取所述目标实体的图像信息；

本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

图6示出根据本发明实施例的购物动作决策设备的结构框图。如图6所示，该设备包括：存储器910和处理器920，存储器910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的购物动作决策方法。所述存储器910和处理器920的数量可以为一个或多个。

该设备还包括：

通信接口930，用于与外界设备进行通信，进行数据交互传输。

存储器910可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器910、处理器920和通信接口930独立实现，则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA，Industry Standard Architecture)总线、外部设备互连(PCI，PeripheralComponent Interconnect)总线或扩展工业标准体系结构(EISA，Extended IndustryStandard Architecture)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器910、处理器920及通信接口930集成在一块芯片上，则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。

本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现上述实施例中任一所述的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种购物动作决策方法，其特征在于，包括：

检测到有目标实体进入设定区域的情况下，根据图像检测装置检测的信息，获取目标实体的人体特征和与所述目标实体相关的物品特征；

根据所述动作信息得到回报信息；

利用所述回报信息对所述决策模型进行优化。

2.根据权利要求1所述的方法，其特征在于，将所述人体特征和所述物品特征输入决策模型，得到所述目标实体的动作信息，包括：

3.根据权利要求1所述的方法，其特征在于，将所述人体特征和所述物品特征输入决策模型，得到所述目标实体的动作信息之后，还包括：

根据所述动作信息更新所述目标实体的状态信息，所述状态信息包括人***置信息、购物车信息以及上一时刻的人体特征和物品特征；

所述更新后的目标实体的状态信息，用于计算最新时刻的动作信息。

4.根据权利要求3所述的方法，其特征在于，利用所述目标实体的动作信息，得到对应的回报信息，包括：

在所述动作信息为结账之外的其它动作信息且目标实体的实际动作为结账之外的其它动作的情况下，所述回报信息的公式为：R＝0。

5.根据权利要求1所述的方法，其特征在于，获取目标实体的人体特征和与所述目标实体相关的物品特征，包括：

6.一种购物动作决策装置，其特征在于，包括：

特征获取模块：用于检测到有目标实体进入设定区域的情况下，根据图像检测装置检测的信息，获取目标实体的人体特征和与所述目标实体相关的物品特征；

回报模块：用于根据所述动作信息得到回报信息；

7.根据权利要求6所述的装置，其特征在于，将所述人体特征和所述物品特征输入决策模型，得到所述目标实体的动作信息，包括：

8.根据权利要求6所述的装置，其特征在于，所述装置还包括：

更新模块：用于根据所述动作信息更新所述目标实体的状态信息，所述状态信息包括人***置信息、购物车信息以及上一时刻的人体特征和物品特征；

9.根据权利要求8所述的装置，其特征在于，利用所述目标实体的动作信息，得到对应的回报信息，包括：

10.根据权利要求6所述的装置，其特征在于，所述特征获取模块包括：

11.一种购物动作决策设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

摄像头，用于采集图像；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至5中任一项所述的方法。

12.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至5中任一项所述的方法。