CN111260685B

CN111260685B - 视频处理方法、装置及电子设备

Info

Publication number: CN111260685B
Application number: CN201811459605.1A
Authority: CN
Inventors: 赵小伟; 沈飞; 陈忱; 张�浩; 刘扬; 文杰
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2023-03-31
Anticipated expiration: 2038-11-30
Also published as: CN111260685A

Abstract

本发明实施例提供一种视频处理方法、装置及电子设备，其中方法包括：获取拍摄用户行为的视频流；采用光流跟踪算法检测所述视频流中移动目标的运动轨迹；根据所述移动目标的运动轨迹，查找所述视频流中存在第一特征的视频片段；根据所述视频片段确定是否出现与所述第一特征对应的第一预定行为。本发明实施例提供的视频处理方法、装置及电子设备，可以根据是否存在第一预定行为的判断结果对用户进行监控及后续结算处理，例如可以根据用户是否出现漏扫行为进行辅助结算或者报警等功能，避免或减少用户在结账时出现的漏扫行为，降低零售门店的经济损失，节省了人力物力。

Description

视频处理方法、装置及电子设备

技术领域

本发明涉及计算机技术领域，尤其涉及一种视频处理方法、装置及电子设备。

背景技术

随着新零售业务的不断发展，如何在零售门店中提高效率、降低成本变得越来越重要，例如，如何提高用户购物或结算的效率，或者，如何提高商品的上架效率成为亟待解决的问题。

举例说明，自助收银终端作为一个提高线下用户结账体验与效率的主要手段，得到了越来越广泛的使用。自助收银机大多设置在卖场出口处，能够让消费者以自助的方式扫描商品、结账付款，免去排队的过程，为消费者提供了极大的便利。

现有技术中，消费者在使用自助收银机时常常会出现有意或无意的漏扫行为，为零售门店带来经济损失。为了解决这一问题，目前的自助收银终端采取称重的方式对用户扫描的商品进行确认，需要用户按照规定的步骤来进行结账，对用户行为有较为严格的限制，结账效率较低，用户体验比较差。

发明内容

有鉴于此，本发明实施例提供一种视频处理方法、装置及电子设备，以降低零售门店的成本。

第一方面，本发明实施例提供一种视频处理方法，包括：

获取拍摄用户行为的视频流；

采用光流跟踪算法检测所述视频流中移动目标的运动轨迹；

根据所述移动目标的运动轨迹，查找所述视频流中存在第一特征的视频片段；

根据所述视频片段确定是否出现与所述第一特征对应的第一预定行为。

第二方面，本发明实施例提供一种视频处理方法，包括：

获取传感装置发送的传感信号；

根据所述传感信号，确定用户的手的运动轨迹；

根据所述手的运动轨迹，在拍摄用户行为的视频流中查找存在第一特征的视频片段；

第三方面，本发明实施例提供一种视频处理方法，包括：

获取拍摄用户行为的离线视频；

采用光流跟踪算法检测所述离线视频中移动目标的运动轨迹；

根据所述移动目标的运动轨迹，查找所述离线视频中存在第一特征的视频片段；

根据所述视频片段确定所述用户是否出现与所述第一特征对应的第一预定行为。

第四方面，本发明实施例提供一种门店管理方法，包括：

获取拍摄管理人员行为的视频流；

采用光流跟踪算法检测所述视频流中移动目标的运动轨迹；

根据所述移动目标的运动轨迹，查找所述视频流中存在第二特征的视频片段；

根据所述视频片段确定所述管理人员是否出现与所述第二特征对应的第二预定行为。

第五方面，本发明实施例提供一种门店管理方法，包括：

获取拍摄管理人员行为的离线视频；

根据所述移动目标的运动轨迹，查找所述离线视频中存在第二特征的视频片段；

第六方面，本发明实施例提供一种视频处理装置，包括：

获取模块，用于获取拍摄用户行为的视频流；

检测模块，用于采用光流跟踪算法检测所述视频流中移动目标的运动轨迹；

查找模块，用于根据所述移动目标的运动轨迹，查找所述视频流中存在第一特征的视频片段；

确定模块，用于根据所述视频片段确定是否出现与所述第一特征对应的第一预定行为。

第七方面，本发明实施例提供一种视频处理装置，包括：

获取模块，用于获取传感装置发送的传感信号；

检测模块，用于根据所述传感信号，确定用户的手的运动轨迹；

查找模块，用于根据所述手的运动轨迹，在拍摄用户行为的视频流中查找存在第一特征的视频片段；

第八方面，本发明实施例提供一种视频处理装置，包括：

获取模块，用于获取拍摄用户行为的离线视频；

检测模块，用于采用光流跟踪算法检测所述离线视频中移动目标的运动轨迹；

查找模块，用于根据所述移动目标的运动轨迹，查找所述离线视频中存在第一特征的视频片段；

确定模块，用于根据所述视频片段确定所述用户是否出现与所述第一特征对应的第一预定行为。

第九方面，本发明实施例提供一种门店管理装置，包括：

获取模块，用于获取拍摄管理人员行为的视频流；

查找模块，用于根据所述移动目标的运动轨迹，查找所述视频流中存在第二特征的视频片段；

确定模块，用于根据所述视频片段确定所述管理人员是否出现与所述第二特征对应的第二预定行为。

第十方面，本发明实施例提供一种门店管理装置，包括：

获取模块，用于获取拍摄管理人员行为的离线视频；

查找模块，用于根据所述移动目标的运动轨迹，查找所述离线视频中存在第二特征的视频片段；

第十一方面，本发明实施例提供一种电子设备，包括：第一存储器和第一处理器；所述第一存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第一处理器执行时实现上述第一方面所述的视频处理方法。

第十二方面，本发明实施例提供一种电子设备，包括：第二存储器和第二处理器；所述第二存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第二处理器执行时实现上述第二方面所述的视频处理方法。

第十三方面，本发明实施例提供一种电子设备，包括：第三存储器和第三处理器；所述第三存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第三处理器执行时实现上述第三方面所述的视频处理方法。

第十四方面，本发明实施例提供一种电子设备，包括：第三存储器和第三处理器；所述第三存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第三处理器执行时实现上述第四方面所述的门店管理方法。

第十五方面，本发明实施例提供一种电子设备，包括：第三存储器和第三处理器；所述第三存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第三处理器执行时实现上述第五方面所述的门店管理方法。

本发明实施例提供了一种计算机存储介质，用于储存计算机程序，所述计算机程序使计算机执行时实现上述第一方面所述的视频处理方法。

本发明实施例提供了一种计算机存储介质，用于储存计算机程序，所述计算机程序使计算机执行时实现上述第二方面所述的视频处理方法。

本发明实施例提供了一种计算机存储介质，用于储存计算机程序，所述计算机程序使计算机执行时实现上述第三方面所述的视频处理方法。

本发明实施例提供了一种计算机存储介质，用于储存计算机程序，所述计算机程序使计算机执行时实现上述第四方面所述的门店管理方法。

本发明实施例提供了一种计算机存储介质，用于储存计算机程序，所述计算机程序使计算机执行时实现上述第五方面所述的门店管理方法。

本发明实施例提供的视频处理方法、装置及电子设备，可以获取拍摄用户行为的视频流，查找所述视频流中存在第一特征的视频片段，并根据所述视频片段确定所述用户是否出现与所述第一特征对应的第一预定行为，从而根据是否存在第一预定行为的判断结果对用户进行监控及后续结算处理，例如，可以根据用户是否出现漏扫行为进行辅助结算或者报警等功能，避免或减少用户在结账时出现的漏扫行为，降低零售门店的经济损失，节省了人力物力，并且，通过视频处理实现对用户行为的分析，用户的购物和结账过程不受打扰，有效提高用户购物和结账的处理效率，提高了用户体验度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种应用场景示意图；

图2为本发明实施例提供的一种自助收银终端的交互示意图；

图3为本发明实施例提供的一种自助收银终端的结构示意图；

图4为本发明实施例提供的视频处理方法实施例一的流程示意图；

图5为本发明实施例提供的一种放置台的划分示意图；

图6为本发明实施例提供的一种商品跟踪过程中的漏扫逻辑判断方法示意图；

图7为本发明实施例提供的视频处理方法实施例二的流程示意图；

图8为本发明实施例提供的视频处理方法实施例三的流程示意图；

图9为本发明实施例提供的一种合并置信度的示意图；

图10为本发明实施例提供的视频处理方法实施例四的流程示意图；

图11为本发明实施例提供的门店管理方法实施例一的流程示意图；

图12为本发明实施例提供的门店管理方法实施例二的流程示意图；

图13为本发明实施例提供的视频处理装置实施例一的结构示意图；

图14为本发明实施例提供的视频处理装置实施例二的结构示意图；

图15为本发明实施例提供的视频处理装置实施例三的结构示意图；

图16为本发明实施例提供的门店管理装置实施例一的结构示意图；

图17为本发明实施例提供的门店管理装置实施例二的结构示意图；

图18为本发明实施例提供的电子设备实施例一的结构示意图；

图19为本发明实施例提供的电子设备实施例二的结构示意图；

图20为本发明实施例提供的电子设备实施例三的结构示意图；

图21为本发明实施例提供的电子设备实施例四的结构示意图；

图22为本发明实施例提供的电子设备实施例五的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种，但是不排除包含至少一种的情况。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在......时”或“当......时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者***不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者***所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括所述要素的商品或者***中还存在另外的相同要素。

本发明实施例提供一种视频处理方法，能够获取拍摄用户行为的视频流，查找所述视频流中存在第一特征的视频片段，并根据所述视频片段确定所述用户是否出现与所述第一特征对应的第一预定行为。

其中，所述第一特征和第一预定行为可以根据实际需要来设置。可选的，所述第一预定行为可以为用户在门店中的任意行为，例如，购物过程中的偷盗行为、将商品放置在错误位置的行为、结帐过程中的漏扫行为等等，相应的，所述第一特征可以是疑似所述第一预定行为的特征。

例如，在第一预定行为为偷盗行为时，所述第一特征可以是疑似偷盗行为的特征，比如将手从货架移动到与身体的距离小于预设阈值等等。只要检测到疑似偷盗行为的特征，就可以根据该特征所在的视频片段判断用户是否出现偷盗行为。

根据视频片段判断是否出现第一预定行为的方法可以有很多种。可选的，可以通过机器学习模型对视频片段进行检测，确定所述视频片段中是否出现了第一预定行为。

本发明实施例中，获取到的是实时拍摄的视频流，而通过机器学习模型等方法分析用户的具体行为时，可能需要对比较短的视频片段进行处理，因此，可以通过第一特征来从视频流中找出疑似第一预定行为的视频片段，并对所述视频片段进行进一步处理，确定是否出现了第一预定行为。

为了便于描述，以下以所述第一预定行为为漏扫行为为例，对本发明实施例的实现过程和原理进行详细说明。

图1为本发明实施例提供的一种应用场景示意图。如图1所示，用户可以在卖场内选取要购买的商品，商品一般都设置有条形码、二维码等标识。用户选购完成后，可以在自助收银终端进行结算，自助收银终端可以设置有扫描装置，用户可以通过扫描装置扫描商品的标识，从而实现商品的结算。

图2为本发明实施例提供的一种自助收银终端的交互示意图。如图2所示，当用户在自助收银终端扫描一件商品后，自助收银终端可以将扫描结果发送给服务器，服务器可以查询所述扫描结果对应的商品信息如商品的名称、价格等，并将商品信息发送给自助收银终端，由自助收银终端显示给用户。

当用户将全部商品扫描完毕后，自助收银终端可以计算结算价格，或者，服务器可以根据全部商品的价格以及折扣信息等生成结算价格并发送给自助收银终端，自助收银终端可以将结算价格显示给用户，并根据用户的支付行为完成结算，从而完成整个自助结账流程。

在整个自助结账流程中，自助收银终端可以采集用户扫描商品时的视频流，并根据视频流判断用户有没有漏扫行为。

图3为本发明实施例提供的一种自助收银终端的结构示意图。如图3所示，自助收银终端可以设置有显示装置、扫描装置、放置台和摄像头等。

所述显示装置能够显示商品信息以及最终需要支付的结算价格等信息。所述放置台用于放置商品。所述扫描装置用于扫描商品的标识如条码或二维码等。可选的，所述扫描装置可以为POS(Point Of Sale，销售终端)设备的扫描装置，POS设备能够根据商品的扫描结果确定对应的商品信息。

所述摄像头用于拍摄用户的自助结账行为。图3示出的自助收银终端中，摄像头设置在顶部，在实际应用中，所述摄像头可以设置在能够拍摄到用户结账行为的任意位置，例如，可以设置在用户的对面或者用户的侧面等。在通过对视频流的分析来检测用户是否出现漏扫行为时，可以根据摄像头的具***置来调整对应的检测策略。

本发明实施例提供了一种在用户自助结账的过程拍摄用户的结账行为、并对拍摄到的视频流进行处理从而确定用户是否出现漏扫行为的方法。图1至图3示出的是本发明实施例可选的应用场景及结构。本领域技术人员可以理解的是，具体的硬件架构可以根据实际需要来调整，只要能够实现通过视频流对用户的漏扫行为进行检测即可。

例如，对视频流进行处理、确定用户是否出现漏扫行为的功能可以由自助收银终端来实现，也可以由服务器来实现。可选的，自助收银终端可以将采集到的视频流发送给服务器，由服务器检测是否出现漏扫行为并返回检测结果；或者，也可以自助收银终端也可以将视频流发送给其它设备如门店的后台监控终端进行视频处理。

下面结合如下的方法实施例以及附图对本发明实施例提供的视频处理方法的实现过程进行介绍。另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。

图4为本发明实施例提供的视频处理方法实施例一的流程示意图。本实施例中方法的执行主体可以为任意具有视频处理功能的电子设备，可选的，可以为自助收银终端。如图4所示，本实施例中的视频处理方法，可以包括：

步骤401、获取拍摄用户行为的视频流。

步骤402、查找所述视频流中存在第一特征的视频片段。

步骤403、根据所述视频片段确定是否出现与所述第一特征对应的第一预定行为。

本发明实施例中以自助收银终端作为执行主体为例进行说明。本领域技术人员可以理解的是，用其它设备来实现视频处理的原理和方法与自助收银终端类似。

其中，第一预定行为可以为漏扫行为，存在第一特征的视频片段可以是存在疑似漏扫行为的视频片段。为了便于描述，本发明实施例中，将疑似漏扫行为记为可疑行为，存在第一特征的视频片段可以具体为存在可疑行为的视频片段。

具体地，可以对视频流进行实时处理，确定视频流中是否存在可疑行为的视频片段。本发明实施例中，漏扫的具体表现形式可以有很多种。表1示出了一种漏扫行为分类的示例。

表1漏扫行为分类示例

如表1所示，可以将漏扫行为分为两大类型：扫码漏扫行为和直接装袋行为。其中，扫码漏扫行为是指用户有扫码动作，但是由于主观或客观的原因导致最终没有扫码成功，例如，用户故意遮挡条码，或者POS设备反应较慢，没来得及扫上。直接装袋行为是指用户没有扫码的动作，直接将商品移动到已扫码区域。

图5为本发明实施例提供的一种放置台的划分示意图。如图5所示，俯视放置台，放置台可以划分为两个区域：A区域为待扫码区域，B区域为已扫码区域，在结算前，用户可以将商品放置在A区域，结算时，将商品从A区域拿起，通过POS设备完成扫码，然后将扫码后的商品放到B区域。

如果用户没有扫码，直接将商品移动至B区域，则会被认为是直接装袋行为。可选的，将商品移动至B区域，可以是从A区域移动至B区域，也可以是从其它区域移动至B区域，无论起始位置在哪，只要是从非B区域移动到B区域，就可以认为是直接装袋行为。即，图5中，无论是箭头1所代表的移动行为或者是箭头2所代表的移动行为，都可以认为是直接装袋行为。

如前所述，漏扫行为可以分为扫码漏扫行为和直接装袋行为，相应的，只要出现了扫码动作，或者，只要出现了将商品移动至扫码区域，就认为有可能是漏扫行为，记为可疑行为。是否真的是漏扫行为，可以结合POS设备的扫描结果和/或机器学习模型来进一步确认。

表1只是示出了几种常见的漏扫行为的示例。通常情况下，当POS设备成功扫描到商品的标识后，可以获取该商品对应的扫描结果；若没有扫码到商品的标识，则不会获取对应的扫描结果。可以理解的是，若某行为应该伴随有扫描结果的获取(即，出现该行为时必须获取到扫描结果，否则就说明出现漏扫)，那么该行为就可以被认为是可疑行为。例如，当用户有扫码动作时，或者将商品从待扫码区域移动到已扫码区域时，应该要获取到扫描结果，否则就是漏扫，那么，用户的扫码动作或者将商品从待扫码区域移动到已扫码区域的动作，就可以被认为是可疑行为。

检测视频流中是否出现可疑行为的视频片段的方法有很多种。可选的，可以通过识别模型对视频流中的可疑行为进行检测。具体地，可以通过样本对识别模型进行训练，并根据训练后的模型来查找视频流中的可疑行为。

其中，样本可以包括多个视频，对每个视频进行打标，标记出其中的可疑行为的起止时间，然后，根据样本对识别模型进行训练，训练完成后，将待检测的视频输入到识别模型，就可以检测出其中的可疑行为的视频片段。

具体地，是否出现漏扫行为，可以结合POS设备的扫描结果和/或机器学习模型来判断。

可选的，若在可疑行为的视频片段的起止时间内，获取到了扫描结果，则认为没有出现漏扫行为，若没有获取到扫描结果，则认为出现了漏扫行为。

或者，可以将视频片段输入到机器学习模型，获取该视频片段是否属于漏扫行为的检测结果。机器学习模型可以通过大量样本训练完成。

或者，也可以将POS信号与机器学习模型结合起来，首先判断视频片段的起止时间内是否获取到的扫描结果，若获取到了，则认为没有出现漏扫；若没有获取到，则可以将视频片段输入到机器学习模型，利用机器学习模型进行进一步地确认。

以上方法要求每个可疑行为的视频片段内都伴随有扫描结果，没有考虑商品的跟踪过程，逻辑简单，易于实现，但是可能会出现误报。为了提高准确性，还可以将视频片段与商品的跟踪过程结合起来。

可选的，根据所述视频片段确定是否出现与所述第一特征对应的第一预定行为，可以包括：在一件商品的跟踪过程结束后，若在跟踪过程中出现了存在第一特征的视频片段，则判断所述跟踪过程中是否获取到对商品的扫描结果；若没有获取到扫描结果，则根据所述存在第一特征的视频片段，判断是否出现第一预定行为。

具体地，在一件商品的跟踪过程结束后，若在跟踪过程中出现了可疑行为的视频片段，则判断所述跟踪过程中是否获取到对商品的扫描结果；若在一件商品的跟踪过程中获取到扫描结果，则确定所述商品的跟踪过程中没有出现漏扫行为。其中，所述商品的跟踪过程为所述商品被拿在手里的过程。

所述可疑行为的视频片段可以为一个完整的商品跟踪过程中的片段。例如，根据用户的手和商品的移动轨迹可以判断用户的拿起商品的时刻和放下商品的时刻，根据拿起商品的时刻和放下商品的时刻，可以确定一个完整的商品跟踪过程，该过程的起止时间就是拿起商品和放下商品的时刻。在一个完整的商品跟踪过程中，可能会出现一个或者多个可疑行为的视频片段。

例如，用户开始自助结账后，第0.5秒开始，拿起一个商品，向扫码装置移动，第1.5秒至第2.0秒检测到出现扫码行为，第2.5秒至第3.0秒检测到从非B区移动到B区域，第4.0秒检测到放下商品，则该商品对应的跟踪过程为第0.5秒至第4秒，共3.5秒，其中有两个可疑片段，第1.5秒至第2.0秒的扫码行为的视频片段以及第2.5秒至第3.0秒的将商品移动至B区域的视频片段，两个视频片段均持续0.5秒。

若在商品的跟踪过程中即第0.5秒至第4秒的过程中获取到了扫描结果，就认为不属于漏扫。若没有获取到扫描结果，则可以认为出现了漏扫行为，或者，若没有获取到扫描结果，则可以进一步根据两个可疑行为的视频片段，判断是否出现漏扫行为，具体地，可以通过机器学习模型对两个可疑行为的视频片段进行分析，确认是否出现漏扫行为。

综上所述，如果一个商品的跟踪过程中POS设备没有扫描到的商品的标识，那么用户可能存在漏扫行为。除此之外，如果扫描到商品的标识，但是通过扫描确定的商品信息与通过视频流确定的商品信息不一致，也可以认为出现了漏扫行为，防止用户作弊，用假的标识代替真的标识，给门店带来损失。

例如，通过对视频流进行处理发现，用户手中的商品为饮品。但是扫描结果为口香糖，则说明通过标识确定的商品信息与通过视频流检测到的商品信息不一致，同样可以认为出现了漏扫行为。

在用户将全部商品扫描完毕后，可以根据用户的漏扫情况对商品进行结算。具体地，若所述用户的漏扫情况满足预设的条件，则可以对用户扫描的商品进行结算，用户正常完成支付后可以带着商品离开。若不满足预设的条件，则不允许对商品进行结算。所述预设的条件可以根据实际需要来设置。

在一种可选的实施方式中，只要检测到用户存在漏扫行为，则不允许对物品进行结算，只有用户在整个扫描过程中不存在漏扫行为，才能够正常进行结算。

在另一种可选的实施方式中，只要所述用户的漏扫次数小于一定值，就允许对用户扫描的物品进行结算，能够为视频处理算法提供容错空间，防止误判影响用户购物体验，节省购物流程。

相应的，本实施例中的方法还可以包括：响应于所述用户确认商品扫描完毕的操作事件，统计所述用户出现漏扫行为的次数；若所述用户出现漏扫行为的次数小于预设次数，则对用户扫描的商品进行结算。所述预设次数可以根据实际需要来设置，例如可以为4次。

所述用户确认商品扫描完毕的操作事件，可以是指用户通过点击屏幕、按下按键、语音输入等方式确定全部商品已经扫描完毕的操作，例如，在自助收银终端上可以显示“完成”按钮，用户在将全部商品扫描完毕时，可以点击“完成”按钮，自助收银终端响应于用户的点击操作，可以对用户扫描的商品进行结算。

若所述用户出现漏扫行为的次数不小于预设次数，则不允许对商品进行结算。此外，还可以显示禁止结算界面，和/或，向监控终端发送警示信息。

具体地，所述禁止结算界面用于提示用户无法进行结算，可选的，所述禁止结算界面上可以显示“检测到您存在漏扫行为，无法进行结算”，或者，可以显示“存在漏扫行为，需要店员前来处理”等等。

所述监控终端可以为后台监控终端和/或现场监控终端等。所述现场监控终端可以是现场监控人员携带的任意终端，例如手机或可穿戴设备如手表、智能手环等，所述现场监控人员可以是门店小二等用于在现场协助用户完成自助收银的人员。所述现场监控终端接收到所述警示信息后，可以根据所述警示信息向现场监控人员推送所述警示信息，提示现场监控人员进行处理。例如，可以显示或播放“xx号收银终端检测到漏扫行为，请前去处理”。

所述后台监控终端用于供后台监控人员对用户的扫描行为进行监控。所述后台监控人员可以是门店内用于监控视频的工作人员，所述后台监控终端可以是任意具有视频播放功能的终端如手机、平板设备、计算机、智能电视、显示器等。所述后台监控终端在接收到警示信息后，可以显示给后台监控人员，方便后台监控人员调度现场监控人员进行处理或了解前场各个自助收银终端的使用情况。

在实际应用中，自助收银终端在用户扫描商品时可以采集拍摄用户行为的视频流，并根据视频流对用户的行为进行检测，判断用户有没有漏扫行为，只有在用户的行为满足一定条件，例如没有出现漏扫行为或者用户漏扫的次数小于预设次数时才允许用户正常进行支付，否则可以阻断用户的支付行为，防止用户漏扫为商家带来损失。

本发明实施例采用视频流检测用户是否存在漏扫行为，相对于现有技术中的利用称重装置进行结算的方法有着显著的进步。

现有技术中，在自助收银终端设置有称重机，利用重力感应来称重防损，把扫码商品对应的重量与称重机上的商品的重量进行对比，如果重量不同则提示报警，从而实现称重防损，机器本身占地较大，而且每件商品必须称重，用户体验欠佳。而本发明实施例提供的视频处理方法，通过视频处理来实现防损功能，用户无感知，减少对用户的干扰，使得用户收银过程不受打扰，能够有效提升用户体验度，节约门店空间，适用范围更广。

本发明各实施例中，以漏扫行为为例进行了详细说明，本领域技术人员可以理解的是，可以将漏扫行为替换为任意其它的第一预定行为例如偷盗行为、放错物品的行为等等，具体的处理过程可以参见漏扫行为的处理过程，此处不再赘述。

综上，本实施例提供的视频处理方法，可以获取拍摄用户行为的视频流，查找所述视频流中存在第一特征的视频片段，并根据所述视频片段确定所述用户是否出现与所述第一特征对应的第一预定行为，从而根据是否存在第一预定行为的判断结果对用户进行监控及后续结算处理，例如，可以根据用户是否出现漏扫行为进行辅助结算或者报警等功能，避免或减少用户在结账时出现的漏扫行为，降低零售门店的经济损失，节省了人力物力，并且，通过视频处理实现对用户行为的分析，用户的购物和结账过程不受打扰，有效提高用户购物和结账的处理效率，提高了用户体验度。

为了提高算法准确率，在获取到视频流后，可以通过多种检测方式对视频流中是否存在可疑行为的视频片段进行检测。具体地，本发明实施例还提供一种视频处理方法，包括：获取拍摄用户行为的视频流；将所述视频流分别输入至多个检测模块，查找所述视频流中存在第一特征的视频片段；根据查找到的视频片段确定是否出现与所述第一特征对应的第一预定行为。

依然以第一预定行为为漏扫行为、存在第一特征的视频片段为可疑行为的视频片段为例，不同的检测模块用不同的检测方法查找所述视频流中的可疑行为的视频片段。本发明实施例中的检测模块，可以为任意能够检测用户行为的模块。

可选的，所述多个检测模块可以包括下述至少两项：轨迹检测模块、光流检测模块、分割检测模块。其中，轨迹检测模块、光流检测模块、分割检测模块分别通过手的轨迹、光流、分割视频流等方法来实现用户行为的检测。

可选的，将所述视频流输入至轨迹检测模块，查找所述视频流中可疑行为的视频片段，可以包括：检测所述视频流的各帧图像中手和/或商品的位置信息；根据各帧图像中手和/或商品的位置信息，确定所述手和/或商品的运动轨迹；根据所述手和/或商品的运动轨迹查找可疑行为的视频片段。

可选的，将所述视频流输入至光流检测模块，查找所述视频流中可疑行为的视频片段，可以包括：采用光流跟踪算法检测视频流中移动目标的运动轨迹；根据所述移动目标的运动轨迹查找可疑行为的视频片段；其中，所述移动目标包括用户的手和/或商品。

可选的，将所述视频流输入至分割检测模块，查找所述视频流中可疑行为的视频片段，可以包括：获取所述视频流中的预设时长的视频；在所述预设时长的视频中查找可疑行为的视频片段。

具体地，在通过多个模块查找到一个或多个可疑行为的视频片段后，可以根据查找到一个或多个可疑行为的视频片段确定是否出现漏扫。

可选的，一件商品的跟踪过程结束后，若在跟踪过程中出现了可疑行为的视频片段，则可以判断所述跟踪过程中是否获取到对商品的扫描结果；若没有获取到扫描结果，则可以根据所述可疑行为的视频片段，判断是否出现漏扫行为；其中，所述商品的跟踪过程为所述商品被拿在手里的过程。

商品的跟踪过程可以通过视频流中商品和手的位置信息来确定。可选的，可以检测所述视频流中商品和手的位置信息，根据所述商品和手的位置信息，确定商品和手的运动轨迹，并根据商品与手的运动轨迹，确定商品是否被拿在手里。

具体地，若商品的位置与手的位置重合或距离较近，且移动轨迹相似，则可以认为商品被拿在手里。在其它可选的实现方式中，只要商品所在的区域与手所在的区域有重叠，即可认为商品被拿在手里。

当商品与手分离，则可以认为手已将商品放下，跟踪过程结束。可选的，在确定商品被拿在手里后，若检测到空手(即手里没有商品)的时间超过预设时间，则确定所述商品的跟踪过程结束。若检测到空手，但是没有超过预设时间，则认为不算是跟踪过程结束，防止误判，提高检测的准确性。

以上所述的商品跟踪过程检测方法中，可以不检测用户手里的商品具体是哪一种商品，只要检测到用户手里长时间没有商品，就认为用户放下了商品，即前一个商品的跟踪过程结束。

或者，也可以对商品的具体类型进行检测，例如检测商品到底是饮品还是口香糖，如果检测到用户手里换了商品，则说明前一个商品的跟踪过程已经结束。

本发明实施例中，也可以采用其目标跟踪算法对商品的跟踪过程进行检测，不同算法的准确性和效率可能不同，在实际应用中可以根据需要进行选择。

在确定商品的跟踪过程后，若所述跟踪过程中存在多个可疑行为的视频片段，则可以根据最后一个视频片段判断是否出现漏扫行为，或者，可以查找与所述最后一个视频片段有重叠部分的视频片段，将查找到的视频片段与所述最后一个视频片段进行合并，根据合并后的视频片段，判断是否出现漏扫行为。

其中，本发明实施例中所述的最后一个视频片段，是指商品跟踪过程中结束时间最靠后的一个视频片段。

可选的，可以通过机器学习模型来确定视频片段中的行为是否属于漏扫行为。

图6为本发明实施例提供的一种商品跟踪过程中的漏扫逻辑判断方法示意图。如图6所示，在确定一件商品的跟踪过程后，可以判断跟踪过程中是否存在可疑行为的视频片段，不存在，则认为该跟踪过程中没有出现漏扫行为。

如果跟踪过程中出现了可疑行为的视频片段，则判断所述跟踪过程中是否获取到了扫描结果。若在一件商品的跟踪过程中获取到扫描结果，则确定所述商品的跟踪过程中没有出现漏扫行为。

本发明实施例中，只要在跟踪过程中获取到一次扫描结果，就可以认为该跟踪过程中没有出现漏扫，若跟踪过程中一次扫描结果都没有获取到，则可以通过机器学习模型对跟踪过程中的最后一个视频片段进行验证。

可选的，在对最后一个视频片段进行验证之前，若存在与最后一个视频片段重合的其它视频片段，则将所述其它视频片段与最后一个视频片段合并，然后将合并后的最后一个视频片段输入到机器学习模型，判断该视频片段中的行为是否为漏扫行为。如果最后一个视频片段不与其它任何视频片段重合，则直接将所述最后一个视频片段输入到机器学习模型，判断视频片段中的行为是否属于漏扫行为。

若确定最后一个视频片段中的行为是漏扫行为，则说明商品跟踪过程中出现了漏扫行为；若最后一个视频片段中的行为不是漏扫行为，则认为商品跟踪过程中没有出现漏扫行为。

下面举例说明。一件商品的跟踪过程从视频流的第1.5秒到第5.5秒共持续4秒的时间，这4秒中共检测到三个可疑行为的视频片段，第2.0秒至第2.4秒为第一个视频片段，第3.0秒至第3.5秒为第二个视频片段，第3.3秒至第3.6秒为第三个视频片段。

既然跟踪过程中存在可疑行为的视频片段，那么就可以进一步判断所述跟踪过程中是否获取到了扫描结果。若在视频流的第1.5秒至第5.5秒之间，获取到了扫描结果，那么就可以确定所述商品的跟踪过程中没有出现漏扫行为。

如果没有获取到扫描结果，则可以将可疑行为的视频片段输入到机器学习模型进行进一步确认。按照前面的例子，最后一个视频片段为第三个视频片段，第二个视频片段和第三个视频片段有部分重合，则可以将第二视频片段与第三个视频片段合并，得到从第3.0秒至第3.6秒的视频片段。

将视频流中的第3.0秒至第3.6秒的视频片段输入到机器学习模型，确认其中的行为是否为漏扫行为，若是，则认为商品跟踪过程中出现了漏扫行为，反之则认为没有出现漏扫行为。

在商品的跟踪过程中存在多个可疑行为的视频片段时，仅检测最后一个视频片段或合并后的最后一个视频片段，能够提高视频流的处理效率。

在其它可选的实施方式中，也可以将跟踪过程中的全部可疑行为的视频片段输入到机器学习模型进行检测，以提高检测的准确率。

以上所述的视频处理方法，通过多个检测模块共同查找可疑行为的视频片段，有效提高了算法准确性；此外，在确定商品的跟踪过程中没有获取到扫描结果时，可以将视频片段输入到机器学习模型进行漏扫检测，能够根据查找到的视频片段对是否出现漏扫行为进行确认，提高了对视频流的处理效率和准确性。

在本发明各实施例所提供的技术方案中，通过机器学习模型来确定视频片段中的行为是否属于漏扫行为的具体实现方法可以包括：通过机器学习模型确定可疑行为的视频片段属于漏扫行为的置信度；根据所述置信度判断是否出现漏扫行为。

具体地，机器学习模型的输出可以为输入的视频片段属于漏扫行为的置信度，若置信度大于预设的阈值，则认为出现了漏扫行为，例如，阈值可以为0.6。将商品跟踪过程中的最后一个视频片段输入的机器学习模型，得到属于漏扫行为的置信度为0.3，说明该视频片段中的行为只有30％的概率属于漏扫行为，小于阈值0.6，此时可以认为整个商品跟踪过程没有出现漏扫行为；若得到的属于漏扫行为的置信度为0.8，说明该视频片段中的行为有80％的概率属于漏扫行为，此时可以认为商品跟踪过程中出现了漏扫行为。

在其它可选的实施方式中，根据所述可疑行为的视频片段，判断是否出现漏扫行为，可以包括：若所述跟踪过程中存在多个可疑行为的视频片段，则通过机器学习模型确定每个可疑行为的视频片段属于漏扫行为的置信度；计算所述多个可疑行为的视频片段对应的置信度的加权和；若所述多个视频片段的加权和大于预设的阈值，则确定出现漏扫行为。

如前文所述，可以采用不同的检测方法对视频流进行处理，查找其中存在的可疑行为的视频片段，这里，用不同的检测方法查找的视频片段对应的权重可以不同。例如，通过A算法和B算法来查找视频流中的可疑行为的视频片段，其中，A算法的准确度比较高，则通过A算法查找到的视频片段的权重可以较大，B算法的准确度比较低，则通过B算法查找到的视频片段的权重可以较小。当然，也可以根据其它策略来对权重进行设置，例如可以设置所有视频片段的权重均相同，等等。

在本发明各实施例提供的技术方案中，通过机器学习模型确定可疑行为的视频片段属于漏扫行为的置信度，可以包括：根据所述可疑行为的视频片段的类型，确定对应的机器学习模型；将所述视频片段输入到所述对应的机器学习模型，得到所述视频片段属于漏扫行为的置信度。

在一种可选的实施方式中，可以将视频片段按照表1进行分类。可选的，可以将视频片段分为扫码漏扫行为和直接装袋行为两种类型，也可以分为更细的多种类型：挡码扫描、背码扫描、扫码过快、A到B、其它区域到B等。在步骤602中查找可疑行为的视频片段时，可以确定查找到的视频片段的类型。

相应的，机器学习模型也可以分为多种类型：用于确认扫码漏扫行为的机器学习模型和用于确认直接装袋行为的机器学习模型，或者更细的多种类型。在对机器学习模型进行训练时，可以按照相应类型的样本对机器学习模型进行训练。在需要确认视频片段是否为漏扫行为时，可以采用对应类型的机器学习模型进行处理。

例如，在商品的跟踪过程中检测到多个可疑行为的视频片段，若最后一个视频片段为扫码漏扫行为的视频片段，则可以采用对扫码漏扫行为进行识别的机器学习模型，对所述视频片段是否为漏扫行为进行确认；若最后一个视频片段为直接装袋行为的视频片段，则可以采用对直接装袋行为进行识别的机器学习模型，对所述视频片段是否为漏扫行为进行确认。

不同类型的机器学习模型的实现原理可以是类似的，例如，都可以采用DNN(DeepNeural Network，深度神经网络)来实现，但是训练样本可以不同，从而有效地针对不同类型的行为进行训练，提高检测不同类型的视频片段是否为漏扫行为的准确性。

在另外一些实施方式中，也可以采用其他的分类方法。例如，可以将视频片段分为三种类型：通过轨迹检测模块得到的视频片段、通过光流检测模块得到的视频片段、通过分割检测模块得到的视频片段等。

图7为本发明实施例提供的视频处理方法实施例二的流程示意图。如图7所示，本实施例中的视频处理方法，可以包括：

步骤701、获取拍摄用户行为的视频流。

步骤702、采用光流跟踪算法检测所述视频流中移动目标的运动轨迹。

步骤703、根据所述移动目标的运动轨迹，查找所述视频流中存在第一特征的视频片段。

步骤704、根据所述视频片段确定是否出现与所述第一特征对应的第一预定行为。

其中，光流(Optical Flow)跟踪算法是目前运动图像分析的重要方法，它的概念是由James J.Gibson于20世纪40年代首先提出的，当物体在运动时，它在图像上对应点的亮度模式也在运动，这种图像亮度模式的表观运动(Apparent Motion)就是光流。

可选的，本实施例中可以采取Fast Optical Flow using Dense Inverse Search的快速光流计算方法，来计算视频流中的运动目标。根据光流跟踪算法检测出视频流中的运动目标后，可以以所述运动目标作为用户的手和/或商品，从而实现根据手和/或商品的运动轨迹来查找可疑行为的视频片段。

可选的，根据所述移动目标的运动轨迹，查找所述视频流中存在第一特征的视频片段，可以包括：若检测到所述移动目标进入预设区域，或者，检测到所述移动目标离开预设区域，则确认出现存在第一特征的视频片段。

或者，根据所述移动目标的运动轨迹，查找所述视频流中存在第一特征的视频片段，可以包括：若检测到移动目标进入预设区域后又离开，则确定出现存在第一特征的视频片段。

其中，所述预设区域可以为已扫码区域，或者，所述预设区域可以为距离扫描装置较近的区域。以后者为例，所述预设区域可以为所述扫描装置的预设范围内的区域。其中，所述扫描装置用于在用户扫描商品时获取对应的扫描结果。

可选的，所述预设区域可以为竖直方向上距离扫描装置小于预设距离值的区域。具体地，可以对光流进行分析，对Y方向的运动轨迹进行建模，将其分解为靠近和离开两种动作模式，从而可以判断是否存在可疑行为。当移动目标靠近扫描装置又离开后，可以认为出现了一次可疑行为。

当然，也可以利用X方向上的靠近和离开来确认出现了一次可疑行为，或者，将X方向和Y方向结合起来，若移动目标在X方向和Y方向上进入了预设的范围又离开，说明出现了一次可疑行为。

此外，还可以在检测到靠近又离开后，对移动目标进行识别，如果移动目标是商品，则确定出现了可疑行为，若移动目标是非商品如手机或者袋子等，则认为没有出现可疑行为。

相应的，根据所述移动目标的运动轨迹，查找所述视频流中存在第一特征的视频片段，可以包括：若检测到移动目标进入预设区域后又离开，则对所述移动目标进行识别，判断所述移动目标是否包括商品；若所述移动目标包括商品，则确定出现存在第一特征的视频片段。

所述存在第一特征的视频片段的开始时间可以为进入所述预设区域的时间，所述存在第一特征的视频片段的结束时间可以为离开所述预设区域的时间。

也就是说，可以根据进入和/或离开预设区域的时间来确定可疑行为的起止时间。可选的，所述可疑行为的视频片段的开始时间可以为进入所述预设区域的时间，所述可疑行为的视频片段的结束时间可以为离开所述预设区域的时间。

或者，也可以根据实际需要来进行调整，例如，所述可疑行为的视频片段的开始时间可以为进入所述预设区域的时间的前N秒，所述可疑行为的视频片段的结束时间可以为离开所述预设区域的时间的后M秒，其中，N和M均为实数。

可选的，在确定出现可疑行为的视频片段之后，还可以根据机器学习模型确定所述视频片段的准确开始时间和准确结束时间。具体地，可以将可疑行为的视频片段输入到机器学习模型，根据机器学习模型确定准确的开始时间和结束时间。

在确定准确的开始时间和结束时间后，可以通过DNN来对视频片段进行处理。具体地，在获取到可疑行为的视频片段后，可以直接通过DNN确定视频片段是否属于漏扫行为，也可以将本实施例中的方法与其它各实施例中的方法结合起来使用。例如，可以结合商品的跟踪过程以及获取到的扫描结果来综合确定是否将视频片段输入到DNN中进行进一步确认。

可选的，在一件商品的跟踪过程中，可能会检测到多个可疑行为的视频片段，例如，用户可能拿着商品来回进出已扫码区域，但是，只要在一件商品的跟踪过程中，获取到一次扫描结果即可认为没有出现漏扫行为，若没有获取到扫描结果，则可以将最后一段视频片段输入到DNN中进行确认。

当然，也可以结合其他检测方法，利用多种检测方法同时对视频流进行检测，查找其中的可疑行为的视频片段。

当前主流的行为分析方法采用的是离线分析的方法，即需要看到完整的包含动作的视频片段才可以预测视频中发生的动作的起止时间和类型，不适用于需要实时预警的情况。本实施例中，采用了简单高效的基于光流的解决方案，可以对漏扫的动作进行实时预测和判断，第一时间识别出用户的漏扫行为。

综上，本实施例提供的视频处理方法，可以采用光流跟踪算法检测视频流中移动目标的运动轨迹，并根据所述移动目标的运动轨迹查找存在第一特征的视频片段，并结合机器学习模型确认用户是否有第一预定行为例如是否有漏扫行为等，从而基于视觉维度有效的解决了商品防损问题，提高了用户结账的处理效率，且无需限制用户的操作行为，改善了用户的操作体验，并且，基于光流能够及时检测出存在第一特征的视频片段，满足实时监控和预警的需求。

图8为本发明实施例提供的视频处理方法实施例三的流程示意图。如图8所示，本实施例中的视频处理方法，可以包括：

步骤801、获取传感装置发送的传感信号。

步骤802、根据所述传感信号，确定用户的手的运动轨迹。

步骤803、根据所述手的运动轨迹，在拍摄用户行为的视频流中查找存在第一特征的视频片段。

步骤804、根据所述视频片段确定是否出现与所述第一特征对应的第一预定行为。

可选的，根据所述手的运动轨迹，在拍摄用户行为的视频流中查找存在第一特征的视频片段，可以包括：判断所述用户的手是否进入预设区域又离开；若是，则确定拍摄用户行为的视频流中出现存在第一特征的视频片段。

其中，所述传感装置可以为任意类型的能够检测手的位置的装置。所述传感信号可以为能够表现手的位置变化的任意信号。

在一种可选的实现方式中，所述传感装置可以为距离传感器，距离传感器可以检测周围障碍物与自身的距离。相应的，所述传感信号可以为手与距离传感器之间的距离。在获取到手与距离传感器之间的距离后，可以根据距离来确定手的运动轨迹。

可选的，所述距离传感器可以设置在能够检测用户的手是否进入或离开预设区域的位置。例如，所述距离传感器可以设置在扫描装置旁，当用户的手靠近或离开扫描装置时，与距离传感器之间的距离先变小再变大。

这样，通过距离传感器检测的传感信号可以确定是否满足触发可疑行为的视频片段的条件。具体地，若所述传感信号由大于预设值变为小于预设值，然后，由重新变为大于预设值，则说明经过了靠近-离开的过程，此时可以认为出现了可疑行为的视频片段。

与前文所述的方法类似，可疑行为的视频片段的开始时间可以为手进入预设区域的时间，结束时间可以为手离开预设区域的时间。

在另一种可选的实现方式中，所述传感装置可以为红外传感器。红外传感器也可以检测到用户是否靠近或离开预设的区域，根据红外传感器反馈的传感信号可以查找视频流中可疑行为的视频片段，具体的实现原理和过程可以参考前述各实施例，此处不再赘述。

综上，本实施例提供的视频处理方法，可以利用传感装置检测手的运动轨迹，并根据所述运动轨迹在视频流中查找存在第一特征的视频片段，并根据所述视频片段确认用户是否有第一预定行为例如是否有漏扫行为等，能够有效提高检测的准确性和速度。

除了以上实施例所述的根据光流或者传感信息来查找视频片段以外，还可以通过其他的方法来查找视频片段。例如，可以通过对视频中手的移动轨迹进行分析或者通过对预设时长的视频进行分析来查找视频流中的存在第一特征的视频片段。

本发明实施例还提供一种视频处理方法，包括：获取拍摄用户行为的视频流；确定所述视频流中用户的手的移动轨迹；根据所述视频流中手的移动轨迹，查找所述视频流中存在第一特征的视频片段；根据所述视频片段确定是否出现与所述第一特征对应的第一预定行为。

具体地，可以检测所述视频流的各帧图像中用户的手的位置信息，并根据各帧图像中手的位置信息，确定手的运动轨迹。

可选的，根据所述视频流中手的移动轨迹，查找所述视频流中存在第一特征的视频片段，可以包括下述任意一项：若所述用户的手从非已扫码区域进入已扫码区域，则确定出现存在第一特征的视频片段；若所述用户的手从非已扫码区域进入已扫码区域，且与上次进入已扫码区域的时间间隔大于预设间隔，则确定出现存在第一特征的视频片段；若所述用户的手从非已扫码区域进入已扫码区域，且从上次离开已扫码区域后与已扫码区域之间的最远距离大于预设距离，则确定出现存在第一特征的视频片段。下面以漏扫行为为例进行说明。

具体地，通过用户的手的运动轨迹，可以判断用户的手是否从非已扫码区域进入已扫码区域。其中，已扫码区域可以为图5中的B区域，非已扫码区域可以是指B区域以外的其它任意区域，可以是A区域，也可以是其它非A且非B的区域。

若所述用户的手从非已扫码区域进入已扫码区域，则可以确定出现了可疑行为的视频片段。其中，所述可疑行为的视频片段可以为进入已扫码区域的时刻的前后一段时间内的视频片段。

可选的，所述可疑行为的视频片段可以为进入已扫码区域前的第一预设时段与进入扫码区域后的第二预设时段内的视频片段。

假设所述第一预设时段和第二预设时段均为t₀，那么，如果用户的手T时刻从非已扫码区域进入已扫码区域，则[T-t₀,T+t₀]这一时段内的视频可以作为可疑行为的视频片段。一个更直观的例子是，若第一预设时段和第二预设时段均为1秒，用户的手在视频流的第15秒进入已扫码区域，那么，对应的可疑行为的视频片段为第14秒至第16秒的视频。

若在视频流中，用户的手多次从非已扫码区域进入已扫码区域，则可以找出对应的多个视频片段。

可选的，为了避免用户的手抖动带来的误报，在用户的手进入已扫码区域后，认为出现了一次可疑行为，在手离开已扫码区域后再次进入的情况下，如果两次进入的时间间隔较短，或者手的移动距离较短，则认为没有再次出现可疑行为。

也就是说，在手在已扫码区域的边界处的移动距离和/或移动时间很短时，可以认为是手的抖动行为，而不是第二次进入已扫码区域的行为。

在一种可选的实施方式中，根据所述用户的手的运动轨迹查找存在可疑行为的视频片段，可以包括：若所述用户的手从非已扫码区域进入已扫码区域，且与上次进入已扫码区域的时间间隔大于预设间隔，则确定出现可疑行为的视频片段。

在检测到用户的手从非已扫码区域进入已扫码区域时，如果与上次进入已扫码区域的时间间隔小于预设间隔，则不认为当前的行为属于可疑行为。所述预设间隔可以为1秒。例如，检测到用户的手在第15.5秒进入已扫码区域，后又迅速离开并在15.8秒重新进入了已扫码区域，那么，可以认为用户的手在15.5秒与15.8秒之间在已扫码区域的边界发生抖动行为，这两次进入只算做一次可疑行为，而不算作两次可疑行为。

在另一种可选的实施方式中，根据所述用户的手的运动轨迹查找存在可疑行为的视频片段，可以包括：若所述用户的手从非已扫码区域进入已扫码区域，且从上次离开已扫码区域后与已扫码区域之间的最远距离大于预设距离，则确定出现可疑行为的视频片段。

在检测到用户的手从非已扫码区域进入已扫码区域时，如果上次离开已扫码区域后一直没有走远，手与已扫码区域之间的最远距离小于预设距离，则不认为当前的行为属于可疑行为。所述预设间隔可以为5厘米。例如，检测到用户的手在第10秒进入已扫码区域，后又离开，并在第12秒重新进入了已扫码区域，且第10秒到第12秒之间，用户的手与已扫码区域之间的距离一直小于5厘米，那么，可以认为用户的手在10秒与12秒之间在已扫码区域的边界徘徊，这两次进入只算做一次可疑行为，而不算作两次可疑行为。

以上以用户的手为目标，提供了判断是否出现可疑行为的视频片段的方法。类似地，也可以以商品为目标来判断是否出现可疑行为的视频片段。利用商品为目标的具体实现原理及过程与利用手为目标类似，在上述方法中用商品代替手即可得到以商品为目标的实现方法。

进一步地，为了增加检测的准确性，可以利用用户的手加商品作为目标，通过手的轨迹和商品的轨迹共同判断是否出现可疑行为的视频片段。

可选的，根据所述视频流中手的移动轨迹，查找所述视频流中存在第一特征的视频片段，可以包括下述任意一项：若所述用户的手和商品从非已扫码区域进入已扫码区域，则确定出现存在第一特征的视频片段；若所述用户的手和商品从非已扫码区域进入已扫码区域，且与上次进入已扫码区域的时间间隔大于预设间隔，则确定出现存在第一特征的视频片段；若所述用户的手和商品从非已扫码区域进入已扫码区域，且从上次离开已扫码区域后与已扫码区域之间的最远距离大于预设距离，则确定出现存在第一特征的视频片段。下面以漏扫行为为例进行说明。

其中，所述手和商品进入已扫码区域，可以是指手拿商品进入已扫码区域。存在第一特征的视频片段可以为手拿商品进入已扫码区域前的第一预设时段与进入扫码区域后的第二预设时段内的视频片段。

在利用用户的手加商品作为检测目标判断是否出现可疑行为的视频片段的情况下，如果仅检测到手进入已扫码区域，而没有商品进入已扫码区域，则不认为出现了可疑行为，只有手和商品同时进入已扫码区域，才认为出现了可疑行为。

在查到到视频片段后，可以通过机器学习模型对所述可疑行为的视频片段进行检测，确定是否出现漏扫行为。

可选的，可以通过DNN来对视频片段进行处理。DNN的识别率较高，能够比较准确地确定视频片段是否属于漏扫行为。

可选的，可以在获取到可疑行为的视频片段后，直接通过DNN确定视频片段是否属于漏扫行为，也可以将本实施例中的方法与上述各实施例中的方法结合起来使用。例如，可以结合商品的跟踪过程以及获取到的扫描结果来综合确定是否将视频片段输入到DNN中进行进一步确认。

可选的，在一件商品的跟踪过程中，可能会检测到多个可疑行为的视频片段，例如，用户可能拿着商品来回进出已扫码区域，但是，只要在一件商品的跟踪过程中获取到至少一次扫描结果，即可认为没有出现漏扫行为，若没有获取到扫描结果，则可以将最后一段视频片段输入到DNN中进行确认。

以上所述的视频处理方法，可以检测所述视频流中用户的手的运动轨迹，并根据所述用户的手的运动轨迹，分析得到手的状态，进而分析是否出现存在第一特征的视频片段，并结合机器学习模型确认用户是否有第一预定行为例如是否有漏扫行为等，从而基于视觉维度有效的解决了商品防损问题，提高了用户结账的处理效率，且无需限制用户的操作行为，改善了用户的操作体验。

本发明实施例还提供一种视频处理方法，包括：获取拍摄用户行为的视频流中的预设时长的视频；在所述预设时长的视频中查找存在第一特征的视频片段；根据所述视频片段确定是否出现与所述第一特征对应的第一预定行为。

可选的，本实施例中，在获取到视频流后，可以对视频流进行分割，获取其中预设时长的视频，并对各预设时长的视频分别进行处理，判断预设时长的视频中是否存在可疑行为的视频片段。

本步骤具体可以用于获取预设时长的视频。可选的，获取所述视频流中的预设时长的视频，可以包括：确定用户扫码结账的开始时间；根据预设时长对所述开始时间后的视频流进行分割，得到预设时长的视频流。所述预设时长可以根据实际需要来设置，例如可以为5.2秒，也就是说对视频流中的每5.2秒的视频进行处理。

具体地，以用户开始进行扫码结账的时刻作为视频流的第0秒，那么，第0秒至第5.2秒为一个视频，第5.3秒至第10.4秒为一个视频，第10.5秒至第15.6秒为一个视频，以此类推，可以将视频流分割为多个视频。

其中，确定用户扫码结账的开始时间的方法可以有很多种。可选的，可以获取用户输入的开始结账指令，根据所述开始结账指令，确定用户扫码结账的开始时间。

例如，可以向用户提供开始操作的选项、按键等，供用户选择。可选的，可以在自助收银终端的显示装置上显示“开始”按钮，响应于用户点击所述“开始”按钮的操作事件，可以确定用户扫码结账的开始时间为用户点击“开始”按钮的时间。

或者，可以根据获取到第一个扫描结果的时间，确定用户扫码结账的开始时间。具体的，在用户拿取第一个商品并扫描成功后，可以确认用户扫码结账的开始时间为获取第一个商品的扫描结果的时间。这样，无需用户手动点击开始，节约了用户扫码结账的时间。

可选的，可以在用户开始扫码结账后，再开始进行视频流的采集。在用户未开始扫描商品时，可以暂不开启视频采集功能，有效减少资源消耗。

在采集到视频流后，可以针对每一个预设时长的视频，可以从中查找可疑行为的视频片段。从预设时长的视频中查找可疑行为的视频片段的方法有很多种。例如，通过机器学习的方法可以从预设时长的视频中提取符合要求的视频片段。

可选的，可以提取所述预设时长的视频的3D卷积特征，并根据所述卷积特征确定所述预设时长的视频中的可疑行为的视频片段。

具体地，本实施例中所述的3D卷积特征可以为Inflated 3D ConvNet特征，或者其他的3D卷积特征如Pseudo-3D ConvNet特征等。基于提取的3D卷积特征，可以采用ActionProposal Network对视频中的可疑行为进行检测和识别。然后，可以对于检测到的可疑行为的视频片段进行归一化操作，使所有视频片段的特征具有统一的尺寸，方便后续处理，例如，在后续确定可疑行为的视频片段是否属于漏扫行为时，可以通过3D卷积特征来实现。

在其它可选的实现方式中，可以首先通过3D卷积特征查找到可疑行为的视频片段后，若视频片段的个数为多个，则可以对可疑行为的视频片段进行合并。为了便于描述，这里将通过3D卷积特征直接查找到的视频片段记为子片段。

可选的，在所述预设时长的视频中查找可疑行为的视频片段，可以包括：查找所述预设时长的视频中的可疑行为的子片段；若所述视频中有多个可疑行为的子片段，则计算每个子片段中各时间点存在漏扫行为的置信度；根据各时间点存在漏扫行为的置信度，得到至少一个可疑行为的视频片段。

具体地，针对每一个5.2秒的视频，可以通过3D卷积特征来查找其中的可疑行为的子片段，例如，5.2秒的视频中共有3个可疑行为的子片段，这些可疑行为的子片段的时长可能相同，也可能不同，且这些可疑行为的子片段有可能存在重合的部分。

针对这3个子片段中的每一个子片段，可以计算每个子片段存在漏扫行为的置信度，5.2秒的视频中除这3个子片段以外的时间，置信度都可以认为是0。计算每个子片段存在漏扫行为的置信度时，可以输出一条曲线，表示该子片段中各个时间点的置信度。

具体地，针对每个子片段，可以计算该子片段的全部时长的置信度变化曲线，也可以计算该子片段中的多个时间点对应的置信度，并将多个时间点对应的置信度连接成光滑的曲线，从而得到该子片段对应的置信度。

在确定每个子片段对应的置信度之后，可以将遍历所有检测出的可疑行为的子片段，在时间维度上，将置信度进行累加，并根据累加后的置信度确定最终的可疑行为的子片段。

可选的，根据各时间点存在漏扫行为的置信度，得到至少一个可疑行为的视频片段，可以包括：针对每个时间点，将该时间点在各子片段中对应的置信度叠加，得到该时间点对应的合并置信度；查找合并置信度大于预设阈值的时间点；根据查找到的时间点得到至少一个可疑行为的视频片段。

例如，对视频流的前5.2秒的视频进行处理，得到多个子片段，其中，包含视频流第1.5秒的子片段共有两个，第1秒至第2秒是第一个可疑行为的子片段，第1.5秒至第3秒是第二个可疑行为的子片段。在第一个子片段中，第1.5秒对应的置信度为1，也就是说，在对第一个子片段进行处理时，第1.5秒属于漏扫行为的置信度为1。在第二个子片段中，第1.5秒对应的置信度为0.8。则视频流的第1.5秒对应的合并置信度为1+0.8＝1.8。

然后，根据各时间点的合并置信度可以确定可疑行为的视频片段。具体地，合并置信度大于指定阈值(如1.0)的片段可以作为可疑行为的视频片段。

图9为本发明实施例提供的一种合并置信度的示意图。如图9所示，可合并置信度大于1.0的片段可以作为可疑行为的视频片段。例如，第3.6秒至第4秒之间的置信度大于1.0，则认为第3.6秒至第4秒出现了一次可疑行为。

进一步地，若任意两视频片段之间的时间间隔小于预设时间间隔，则将所述两视频片段合并。例如，所述预设时间间隔可以为0.25秒，当两个片段的间隔小于0.25秒时，将两个片段进行合并。

在查找到可疑行为的视频片段后，可以针对每一视频片段，通过机器学习模型分析视频片段中是否存在扫码行为或者将商品移动到已扫码区域的行为，若存在，则判断视频片段的开始时间到结束时间之间，是否获取到商品的扫描结果，若没有获取到，则确认存在漏扫，反之则认为不存在漏扫。

或者，也可以在一件商品的跟踪过程结束后，若在跟踪过程中出现了可疑行为的视频片段，则判断所述跟踪过程中是否获取到对商品的扫描结果；若没有获取到扫描结果，则根据所述可疑行为的视频片段，通过机器学习模型判断是否出现漏扫行为。

在实际应用中，可以通过三个模块：动作检测模块、后处理模块、动作验证模块来实现上述功能，这三个模块可以采用级联的结构，通过级联的结构，可以对漏扫行为进行更精细的检测和分类。

动作检测模块首先对输入的视频流进行动作检测，对每5.2秒的视频进行处理，从视频流中检测出可疑行为的子片段。具体地，动作检测模块可以通过3D卷积的方式确定可疑行为的子片段，针对每个子片段，确定开始时间、结束时间以及中间每个时间点属于扫码动作的置信度，各个子片段之间可能会有重叠。

然后，后处理模块对于从视频中检测出的子片段进行后处理，将时间维度上相临近的片段连接起来，形成一个完整的视频片段。具体地，后处理模块模块可以针对每个时间点，将该时间点在各个子片段中对应的置信度累加，输出置信度大于1的片段(图11中间横线以上的片段)，并且，可以将相互靠近的片段结合起来，输出完整的视频片段。

最后，动作验证模块对每一个完整的视频片段做进一步确认，确定是否出现漏扫，可以得到更准确的漏扫时间片段，并排除一些动作检测时的干扰。

以上所述的视频处理方法，可以获取视频流中的预设时长的视频，在所述预设时长的视频中查找存在第一特征的视频片段，并通过机器学习模型对所述视频片段进行检测，确定是否出现第一预定行为，可以在用户无感知的情况下对用户进行监控，并且逻辑简单，易于实现。

线下零售场景中，用户的每件商品结账过程很短，因此要求商品检测和顾客姿态估计算法能够在有限的计算资源下达到实时准确。

本发明实施例还提供了一种视频处理方法，能够检测图像中商品的位置和用户姿态信息。该方法可以包括：对视频流中的图像进行处理，得到图像对应的语义特征图；根据所述语义特征图，检测所述图像中的商品的位置信息和用户的姿态信息。

具体地，可以获取拍摄用户行为的视频流，并对视频流进行解码，获得逐帧的图像。然后，可以针对每一帧图像进行处理，确定每一帧图像对应的语义特征图。其中，所述图像可以为任意类型的图像如RGB图像、灰度图像、YUV图像等。

可选的，在确定图像对应的语义特征图之前，还可以首先对图像进行中心化和尺度归一化。其中，中心化是指将图像中每个像素点对应的像素值减去均值，尺度归一化是指将减去均值后的每个像素值除以方差，方便收敛，使得后续模型的训练效果更好。其中，均值和方差指的是视频样本中的所有图像中的像素点对应的像素值的均值和方差。

本实施例中，对视频流中的图像进行处理，得到图像对应的语义特征图，可以包括：根据视频流中的图像的各像素点的像素值，计算各像素点对应的特征向量；其中，图像对应的语义特征图包括所述图像中各个像素点对应的特征向量；像素点对应的特征向量包括所述像素点属于各个语义特征的概率信息。

对于一帧图像来说，其对应的语义特征图包括该图像中每一个像素点属于各个语义特征的概率信息。

其中，语义特征可以为任意的特征，例如人的手、人的眼睛、商品、桌子等等。假设预先设置有128种语义特征，那么在本步骤中，针对每一个像素点，可以计算该像素点属于每一个语义特征的概率信息，得到该像素点对应的特征向量，所述特征向量包括该像素点属于每一个语义特征的概率信息，也就是说，所述特征向量包括128个数值，每一个数值代表该像素点属于一种语义特征的概率信息。

所述概率信息表示像素点属于语义特征的强度，这里的概率信息可以是没有经过归一化的概率，数值越大，表示该像素点属于该语义特征的概率就越大。

可选的，可以通过自底向上的通道级卷积和1x1的组卷积，并结合自顶向下的尺度金字塔特征融合，提取每一帧图像对应的语义特征图。

通道级卷积和1x1的组卷积的计算量低于相同大小卷积核的普通卷积的计算量，因此前向卷积操作计算开销很小，尺度金字塔特征融合能够融合具有不同语义的图像特征，使特征表示具有强区分性。

对每一帧图像都进行如上的处理，得到每一帧图像对应的语义特征图。

本实施例中，可以根据语义特征图确定商品的位置信息，同时对用户的姿态进行估计。其中，确定商品的位置信息和用户姿态估计可以采用任意的目标检测方法以及姿态估计方法来实现。

可选的，根据所述语义特征图，检测所述图像中的商品的位置信息和用户的姿态信息，可以包括以下步骤a至d：

步骤a、根据所述语义特征图，预测图像中多个候选物体的位置信息。

可选的，根据所述语义特征图，预测图像中多个候选物体的位置信息，可以包括：针对每一像素点对应的特征向量，预测图像中多个候选物体的位置信息。

具体地，对于每一个像素点，可以根据该像素点对应的特征向量，预测该像素点周围的多个候选物体的位置。每个像素点预测的候选物体的个数可以根据实际需要来设置。例如，针对每个像素点，可以预测该像素点周围15个候选物体的位置信息。

所述候选物体的位置信息可以包括候选物体的中心点坐标以及候选物体所在矩形框的长度和宽度等信息。

通过语义特征图来预测候选物体的方法有很多种。可选的，可以采用mask RCNN算法来确定候选物体。

可选的，在针对每一像素点对应的特征向量，预测多个候选物体的位置信息之后，在对候选物体进行分类之前，还可以将根据各个像素点对应的特征向量预测得到的候选物体进行去重，得到所述图像中多个候选物体的位置信息。

假设图像中共有800×1000个像素点，针对每个像素点预测15个候选物体，那么一共得到800×1000×15个候选物体，中间有很多可能是重复的，可以通过算法对候选物体进行去重，并对去重后的候选物体进行分类。可选的，去重可以通过非极大抑制算法来实现。例如，800×1000×15个候选物体，经过去重后，只剩1000个候选物体了，那么可以对这1000个候选物体进行下一步的分类操作。

步骤b、对所述多个候选物体进行分类，确定每个候选物体的类型，其中，候选物体的类型包括下述至少一项：用户、商品、背景。

如前所述，可以对去重后的1000个候选物体进行分类，将所有候选物体分为用户、商品和背景三类，还可以对商品和用户所在的矩形框的边界进行精化。

对候选物体进行分类的方法可以有很多种，可选的，可以采用机器学习模型如神经网络模型等，可以对候选物体进行分类。分类完成后，可以对商品和用户所在的矩形框进行精化。其中精化是指矩形框的回归，即对矩形框进行处理，使得商品或用户所在的矩形框更加精确。

步骤c、根据类型为用户的候选物体的位置信息，确定用户所在区域对应的特征向量。

步骤d、根据用户所在区域对应的特征向量，预测用户的姿态信息。

具体地，根据用户所在区域中的每个像素点对应的特征向量，可以对用户的姿态信息进行估计。所述姿态信息可以包括用户的多个关键点的位置信息。例如，对识别为用户的区域，可以通过特征向量定位用户的鼻子、眼睛、耳朵，肩膀、手肘、手腕、骨盆、膝盖、脚踝等共17个关键点的位置信息。根据关键点的位置信息可以确定用户手的位置信息。

计算用户关键点的位置信息的方法有很多种。本实施例中，可以根据语义特征图，通过卷积网络和反卷积网络，来预测17个关键点的位置信息。具体地，可以通过4次卷积加2次反卷积来预测关键点的位置信息，速度较快且效果不会下降。

综上所述，若某候选物体被认为是用户，则可以进一步根据用户的姿态确定用户的手的位置信息；若某候选物体被认为是商品，则直接就可以得到商品的位置信息。若某候选物体被认为是背景，则不再需要对其进行其它的处理。

其中，所述商品的位置信息可以包括所述商品所在的多边形框的位置信息；所述手的位置信息可以包括手的中心点坐标。手的位置信息和商品的位置信息可以应用在自助收银过程的任何流程中。

可选的，在需要确定商品的跟踪过程时，根据所述视频流的各个图像中的手的位置信息以及商品的位置信息，可以确定所述视频流中手的移动轨迹和商品的移动轨迹；根据所述手的移动轨迹和商品的移动轨迹，可以确定商品的跟踪过程。

可选的，在需要查找视频流中的可疑行为的视频片段时，可以通过手和商品的移动轨迹确定是否手和商品是否进入已扫码区域，从而确定是否出现可疑行为的视频片段。

本发明各实施例中使用的各个算法还可以用其他任何通用的能够实现相关功能的算法来代替。例如，在确定语义特征图时，还可以通过RCNN(Regions with CNNfeatures)、SSD(Single Shot MultiBox Detector)、YOLO(You Only Look Once)等确定图像的语义特征图，并根据语义特征图检测候选物体在图像中的位置信息和类别。

其中，RCNN、SSD、YOLO都属于目标检测算法，能够通过大规模物体标注进行学习，预测目标在图像中的坐标和类别信息。

在根据语义特征图对用户的姿态进行估计时，可以采用OpenPose等算法或卷积加反卷积的方式来实现。

本实施例可以基于深度学习实现对商品和用户的手的定位，通过对商品和手的分析，从视觉维度发现顾客漏结账和不结账行为，达到视觉防损的目的。

本实施例中方法相对于现有技术的优势在于，检测商品位置和检测用户姿态共享语义特征图。具体来说，在通过语义特征图获取候选物体的位置和类别后，对判定为用户的区域，从语义特征图中选取区域内的特征向量，所述特征向量经过一个浅层全卷积网络，就可以预测顾客的鼻子、眼睛、耳朵、肩膀、手肘、手腕、骨盆、膝盖、脚踝等共17个关键点。

相比于通过SSD、YOLO等目标检测算法对图像进行处理，得到用户和商品的位置信息，再通过OpenPose等姿态估计算法对图像进行处理，得到用户姿态信息的方法，本实施例能够通过同一语义特征图同时实现商品的检测和用户的姿态估计。

在检测到用户和商品的位置信息后，不需要重新进行语义特征图的提取即可实现姿态估计，减少了重复提取的语义特征图的流程，降低了算法复杂度。通过商品检测与姿态估计共享语义特征图的方式，能够更高效地完成商品检测和姿态估计。

以上所述的视频处理方法，可以对视频流中的图像进行处理，得到图像对应的语义特征图，并根据图像对应的语义特征图，检测所述图像中的商品的位置信息和用户的姿态信息，能够通过用户的手和商品在视频流中的位置和状态，分析顾客的结账行为，从视觉维度发现顾客漏结账和不结账行为，达到视觉防损的目的，提高了自助收银终端的效率；此外，通过共享语义特征图来实现商品的检测和用户姿态估计，能够更加高效地对视频流进行检测，提高算法的处理效率，提升用户体验度。

图10为本发明实施例提供的视频处理方法实施例四的流程示意图。如图10所示，本实施例中的视频处理方法，可以包括：

步骤1001、获取拍摄用户行为的离线视频。

步骤1002、采用光流跟踪算法检测所述离线视频中移动目标的运动轨迹。

步骤1003、根据所述移动目标的运动轨迹，查找所述离线视频中存在第一特征的视频片段。

步骤1004、根据所述视频片段确定所述用户是否出现与所述第一特征对应的第一预定行为。

本实施例中的方法的实现原理和过程均可以参考前述实施例，唯一不同的是，前述实施例可以用于对实时的视频流进行处理，而本实施例可以用于对离线视频进行处理。

本实施例未详细描述的部分，可参考对前述实施例的相关说明。该技术方案的执行过程和技术效果参见前述实施例中的描述，在此不再赘述。

图11为本发明实施例提供的门店管理方法实施例一的流程示意图。如图11所示，本实施例中的门店管理方法，可以包括：

步骤1101、获取拍摄管理人员行为的视频流。

步骤1102、采用光流跟踪算法检测所述视频流中移动目标的运动轨迹。

步骤1103、根据所述移动目标的运动轨迹，查找所述视频流中存在第二特征的视频片段。

步骤1104、根据所述视频片段确定所述管理人员是否出现与所述第二特征对应的第二预定行为。

具体地，可以在管理人员的工作区域设置一个或多个拍摄装置，拍摄装置可以拍摄管理人员的行为，并发送给服务器进行分析处理。

其中，所述管理人员可以是指在门店工作的任意人员例如服务人员、拣货人员等等。所述第二预定行为可以是指门店管理人员的任意行为，例如上架商品、整理货架、打包商品等各种行为，所述第二特征可以是疑似所述第二预设行为的任意特征。

例如，所述第二预定行为可以是将上架行为，即商品放入货架的行为，所述第二特征可以是疑似将商品放入货架这种行为的特征，比如将手从放置商品的货筐内移动到货架上。只要检测到疑似上架行为的特征，就可以根据该特征所在的视频片段判断用户是否出现上架行为。

根据视频片段判断是否出现第二预定行为的方法可以有很多种。可选的，可以通过机器学习模型对视频片段进行检测，确定所述视频片段中是否出现了第二预定行为。

如何查找视频片段以及如何根据视频片段确定是否出现了预定的行为的具体实现原理和过程与前述实施例类似，只需要前述实施例中的第一预定行为替换为第二预定行为即可。

可选的，还可以向监控终端发送监控信息，所述监控信息可以包含管理人员是否出现第二预定行为或者出现第二预定行为的次数等信息，监控人员可以根据该信息对管理人员进行监控，在管理人员的行为出现异常上，通过人工或机器介入的方式对管理人员进行处理。

综上，本发明实施例提供的门店管理方法，可以获取拍摄管理人员行为的视频流，采用光流跟踪算法检测所述视频流中移动目标的运动轨迹，根据所述移动目标的运动轨迹，查找所述视频流中存在第二特征的视频片段，并根据所述视频片段确定所述管理人员是否出现与所述第二特征对应的第二预定行为，从而根据是否存在第二预定行为的判断结果对用户进行监控及后续结算处理，例如，可以根据管理人员上架商品的次数确定管理人员的工作是否达标，有效零售门店的经济损失，并且，通过视频处理实现对管理人员行为的分析，管理人员的工作过程不受打扰，提高了管理人员工作效率。

图12为本发明实施例提供的门店管理方法实施例二的流程示意图。如图12所示，本实施例中的门店管理方法，可以包括：

步骤1201、获取拍摄管理人员行为的离线视频。

步骤1202、采用光流跟踪算法检测所述离线视频中移动目标的运动轨迹。

步骤1203、根据所述移动目标的运动轨迹，查找所述离线视频中存在第二特征的视频片段。

步骤1204、根据所述视频片段确定所述管理人员是否出现与所述第二特征对应的第二预定行为。

本实施例中的方法的实现原理和过程均可以参考前述实施例提供的门店处理方法，唯一不同的是，前述实施例可以用于对实时的视频流进行处理，而本实施例可以用于对离线视频进行处理。

以下将详细描述本发明的一个或多个实施例的视频处理装置。本领域技术人员可以理解，这些视频处理装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。

图13为本发明实施例提供的视频处理装置实施例一的结构示意图。如图13所示，该装置可以包括：

获取模块131，用于获取拍摄用户行为的视频流；

检测模块132，用于采用光流跟踪算法检测所述视频流中移动目标的运动轨迹；

查找模块133，用于根据所述移动目标的运动轨迹，查找所述视频流中存在第一特征的视频片段；

确定模块134，用于根据所述视频片段确定是否出现与所述第一特征对应的第一预定行为。

可选的，所述第一特征为疑似漏扫行为的特征；所述第一预定行为为漏扫行为。

可选的，所述查找模块133具体可以用于：若检测到所述移动目标进入预设区域，或者，检测到所述移动目标离开预设区域，则确认出现存在第一特征的视频片段。

可选的，所述查找模块133具体可以用于：若检测到移动目标进入预设区域后又离开，则确定出现存在第一特征的视频片段。

可选的，所述查找模块133具体可以用于：若检测到移动目标进入预设区域后又离开，则对所述移动目标进行识别，判断所述移动目标是否包括商品；若所述移动目标包括商品，则确定出现存在第一特征的视频片段。

可选的，所述预设区域为竖直方向上距离扫描装置小于预设距离值的区域；其中，所述扫描装置用于在用户扫描商品时获取对应的扫描结果。

可选的，所述存在第一特征的视频片段的开始时间为进入所述预设区域的时间，所述存在第一特征的视频片段的结束时间为离开所述预设区域的时间。

可选的，所述查找模块133还可以用于：在确定出现存在第一特征的视频片段之后，根据机器学习模型确定所述视频片段的准确开始时间和准确结束时间。

可选的，所述确定模块134具体可以包括：第一判断单元，用于在一件商品的跟踪过程结束后，若在跟踪过程中出现了存在第一特征的视频片段，则判断所述跟踪过程中是否获取到对商品的扫描结果；第二判断单元，用于在没有获取到扫描结果时，根据所述存在第一特征的视频片段，判断是否出现第一预定行为；其中，所述商品的跟踪过程为所述商品被拿在手里的过程。

可选的，所述第一判断单元还可以用于：检测所述视频流中商品和手的位置信息；根据所述商品和手的位置信息，确定商品和手的运动轨迹；根据商品与手的运动轨迹，确定商品是否被拿在手里。

可选的，所述第一判断单元还可以用于：在确定商品被拿在手里后，若检测到空手的时间超过预设时间，则确定所述商品的跟踪过程结束。

可选的，所述第一判断单元还可以用于：若在一件商品的跟踪过程中获取到扫描结果，则确定所述商品的跟踪过程中没有出现第一预定行为。

可选的，所述第二判断单元具体可以用于：在没有获取到扫描结果时，若所述跟踪过程中有多个存在第一特征的视频片段，则根据最后一个视频片段判断是否出现第一预定行为。

可选的，所述第二判断单元具体可以用于：在没有获取到扫描结果时，若所述跟踪过程中有多个存在第一特征的视频片段，则查找与所述最后一个视频片段有重叠部分的其它视频片段；将查找到的视频片段与所述最后一个视频片段进行合并；根据合并后的视频片段，判断是否出现第一预定行为。

可选的，所述第二判断单元具体可以用于：在没有获取到扫描结果时，通过机器学习模型确定存在第一特征的视频片段属于第一预定行为的置信度；根据所述置信度判断是否出现第一预定行为。

可选的，所述第二判断单元具体可以用于：在没有获取到扫描结果时，若所述跟踪过程中有多个存在第一特征的视频片段，则通过机器学习模型确定每个存在第一特征的视频片段属于第一预定行为的置信度；计算所述多个存在第一特征的视频片段对应的置信度的加权和；若所述加权和大于预设的阈值，则确定出现第一预定行为。

可选的，所述第二判断单元具体可以用于：在没有获取到扫描结果时，根据所述存在第一特征的视频片段的类型，确定对应的机器学习模型；将所述视频片段输入到所述对应的机器学习模型，得到所述视频片段属于第一预定行为的置信度；根据所述置信度判断是否出现第一预定行为。

可选的，所述第二判断单元具体可以用于：在没有获取到扫描结果时，若所述跟踪过程中有多个存在第一特征的视频片段，则通过机器学习模型确定每个存在第一特征的视频片段属于第一预定行为的置信度；计算所述多个存在第一特征的视频片段对应的置信度的加权和；若所述加权和大于预设的阈值，则确定出现第一预定行为；其中，通过机器学习模型确定存在第一特征的视频片段属于第一预定行为的置信度，包括：根据所述存在第一特征的视频片段的类型，确定对应的机器学习模型；将所述视频片段输入到所述对应的机器学习模型，得到所述视频片段属于第一预定行为的置信度。

可选的，所述确定模块134还可以用于：响应于所述用户确认商品扫描完毕的操作事件，统计所述用户出现第一预定行为的次数；若所述用户出现第一预定行为的次数小于预设次数，则对用户扫描的商品进行结算。

可选的，所述确定模块134还可以用于：若所述用户出现第一预定行为的次数不小于预设次数，则显示禁止结算界面，和/或，向监控终端发送警示信息。

可选的，所述装置还可以包括：语义处理模块，用于对视频流中的图像进行处理，得到图像对应的语义特征图；姿态检测模块，用于根据所述语义特征图，检测所述图像中的商品的位置信息和用户的姿态信息。

可选的，所述语义处理模块具体可以用于：根据视频流中的图像的各像素点的像素值，计算各像素点对应的特征向量；其中，图像对应的语义特征图包括所述图像中各个像素点对应的特征向量；像素点对应的特征向量包括所述像素点属于各个语义特征的概率信息。

可选的，所述姿态检测模块具体可以用于：根据所述语义特征图，预测图像中多个候选物体的位置信息；对所述多个候选物体进行分类，确定每个候选物体的类型，其中，候选物体的类型包括下述至少一项：用户、商品、背景；根据类型为用户的候选物体的位置信息，确定用户所在区域对应的特征向量；根据用户所在区域对应的特征向量，预测用户的姿态信息。

可选的，所述姿态检测模块具体可以用于：针对每一像素点对应的特征向量，预测多个候选物体的位置信息；将根据各个像素点对应的特征向量预测得到的候选物体进行去重，得到所述图像中多个候选物体的位置信息；对所述多个候选物体进行分类，确定每个候选物体的类型，其中，候选物体的类型包括下述至少一项：用户、商品、背景；根据类型为用户的候选物体的位置信息，确定用户所在区域对应的特征向量；根据用户所在区域对应的特征向量，预测用户的姿态信息。

可选的，所述姿态检测模块还可以用于：根据所述用户的姿态信息确定手的位置信息。

可选的，所述姿态检测模块还可以用于：根据所述视频流的各个图像中的手的位置信息以及商品的位置信息，确定所述视频流中手的移动轨迹和商品的移动轨迹；根据所述手的移动轨迹和商品的移动轨迹，确定商品的跟踪过程。

图13所示装置可以执行前述视频处理方法实施例二提供的方案，本实施例未详细描述的部分，可参考对前述实施例的相关说明。该技术方案的执行过程和技术效果参见前述实施例中的描述，在此不再赘述。

图14为本发明实施例提供的视频处理装置实施例二的结构示意图。如图14所示，该装置可以包括：

获取模块141，用于获取传感装置发送的传感信号；

检测模块142，用于根据所述传感信号，确定用户的手的运动轨迹；

查找模块143，用于根据所述手的运动轨迹，在拍摄用户行为的视频流中查找存在第一特征的视频片段；

确定模块144，用于根据所述视频片段确定是否出现与所述第一特征对应的第一预定行为。

图14所示装置可以执行前述视频处理方法实施例三提供的方案，本实施例未详细描述的部分，可参考对前述实施例的相关说明。该技术方案的执行过程和技术效果参见前述实施例中的描述，在此不再赘述。

图15为本发明实施例提供的视频处理装置实施例三的结构示意图。如图15所示，该装置可以包括：

获取模块151，用于获取拍摄用户行为的离线视频；

检测模块152，用于采用光流跟踪算法检测所述离线视频中移动目标的运动轨迹；

查找模块153，用于根据所述移动目标的运动轨迹，查找所述离线视频中存在第一特征的视频片段；

确定模块154，用于根据所述视频片段确定所述用户是否出现与所述第一特征对应的第一预定行为。

图15所示装置可以执行前述视频处理方法实施例四提供的方案，本实施例未详细描述的部分，可参考对前述实施例的相关说明。该技术方案的执行过程和技术效果参见前述实施例中的描述，在此不再赘述。

图16为本发明实施例提供的门店管理装置实施例一的结构示意图。如图16所示，该装置可以包括：

获取模块161，用于获取拍摄管理人员行为的视频流；

检测模块162，用于采用光流跟踪算法检测所述视频流中移动目标的运动轨迹；

查找模块163，用于根据所述移动目标的运动轨迹，查找所述视频流中存在第二特征的视频片段；

确定模块164，用于根据所述视频片段确定所述管理人员是否出现与所述第二特征对应的第二预定行为。

图16所示装置可以执行前述门店管理方法实施例一提供的方案，本实施例未详细描述的部分，可参考对前述实施例的相关说明。该技术方案的执行过程和技术效果参见前述实施例中的描述，在此不再赘述。

图17为本发明实施例提供的门店管理装置实施例二的结构示意图。如图17所示，该装置可以包括：

获取模块171，用于获取拍摄管理人员行为的离线视频；

检测模块172，用于采用光流跟踪算法检测所述离线视频中移动目标的运动轨迹；

查找模块173，用于根据所述移动目标的运动轨迹，查找所述离线视频中存在第二特征的视频片段；

确定模块174，用于根据所述视频片段确定所述管理人员是否出现与所述第二特征对应的第二预定行为。

图17所示装置可以执行前述门店管理方法实施例二提供的方案，本实施例未详细描述的部分，可参考对前述实施例的相关说明。该技术方案的执行过程和技术效果参见前述实施例中的描述，在此不再赘述。

图18为本发明实施例提供的电子设备实施例一的结构示意图。所述电子设备可以为任意具有视频处理功能的电子设备，如自助收银终端、服务器等。如图18所示，该电子设备可以包括：第一处理器21和第一存储器22。其中，所述第一存储器22用于存储支持电子设备执行前述任一实施例提供的视频处理方法的程序，所述第一处理器21被配置为用于执行所述第一存储器22中存储的程序。

所述程序包括一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第一处理器21执行时能够实现如下步骤：

获取拍摄用户行为的视频流；

采用光流跟踪算法检测所述视频流中移动目标的运动轨迹；

可选地，所述第一处理器21还用于执行前述图7所示实施例中的全部或部分步骤。

其中，所述电子设备的结构中还可以包括第一通信接口23，用于电子设备与其他设备或通信网络通信。

图19为本发明实施例提供的电子设备实施例二的结构示意图。所述电子设备可以为任意具有视频处理功能的电子设备，如自助收银终端、服务器等。如图19所示，该电子设备可以包括：第二处理器24和第二存储器25。其中，所述第二存储器25用于存储支持电子设备执行前述任一实施例提供的视频处理方法的程序，所述第二处理器24被配置为用于执行所述第二存储器25中存储的程序。

所述程序包括一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第二处理器24执行时能够实现如下步骤：

获取传感装置发送的传感信号；

根据所述传感信号，确定用户的手的运动轨迹；

可选地，所述第二处理器24还用于执行前述图8所示实施例中的全部或部分步骤。

其中，所述电子设备的结构中还可以包括第二通信接口26，用于电子设备与其他设备或通信网络通信。

图20为本发明实施例提供的电子设备实施例三的结构示意图。所述电子设备可以为任意具有视频处理功能的电子设备，如自助收银终端、服务器等。如图20所示，该电子设备可以包括：第三处理器27和第三存储器28。其中，所述第三存储器28用于存储支持电子设备执行前述任一实施例提供的视频处理方法的程序，所述第三处理器27被配置为用于执行所述第三存储器28中存储的程序。

所述程序包括一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第三处理器27执行时能够实现如下步骤：

获取拍摄用户行为的离线视频；

可选地，所述第三处理器27还用于执行前述图10所示实施例中的全部或部分步骤。

其中，所述电子设备的结构中还可以包括第三通信接口29，用于电子设备与其他设备或通信网络通信。

图21为本发明实施例提供的电子设备实施例四的结构示意图。所述电子设备可以为任意具有门店管理功能的电子设备，如服务器等。如图21所示，该电子设备可以包括：第四处理器210和第四存储器211。其中，所述第四存储器211用于存储支持电子设备执行前述任一实施例提供的门店管理方法的程序，所述第四处理器210被配置为用于执行所述第四存储器211中存储的程序。

所述程序包括一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第四处理器210执行时能够实现如下步骤：

获取拍摄管理人员行为的视频流；

采用光流跟踪算法检测所述视频流中移动目标的运动轨迹；

可选地，所述第四处理器210还用于执行前述图11所示实施例中的全部或部分步骤。

其中，所述电子设备的结构中还可以包括第四通信接口212，用于电子设备与其他设备或通信网络通信。

图22为本发明实施例提供的电子设备实施例五的结构示意图。所述电子设备可以为任意具有门店管理功能的电子设备，如服务器等。如图22所示，该电子设备可以包括：第五处理器213和第五存储器214。其中，所述第五存储器214用于存储支持电子设备执行前述任一实施例提供的门店管理方法的程序，所述第五处理器213被配置为用于执行所述第五存储器214中存储的程序。

所述程序包括一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第五处理器213执行时能够实现如下步骤：

获取拍摄管理人员行为的离线视频；

可选地，所述第五处理器213还用于执行前述图12所示实施例中的全部或部分步骤。

其中，所述电子设备的结构中还可以包括第五通信接口215，用于电子设备与其他设备或通信网络通信。

另外，本发明实施例提供了一种存储计算机指令的计算机可读存储介质，当所述计算机指令被处理器执行时，致使所述处理器执行包括以下的动作：

获取拍摄用户行为的视频流；

采用光流跟踪算法检测所述视频流中移动目标的运动轨迹；

当所述计算机指令被处理器执行时，还可以致使所述处理器执行上述视频处理方法实施例二所涉及的全部或部分步骤。

获取传感装置发送的传感信号；

根据所述传感信号，确定用户的手的运动轨迹；

当所述计算机指令被处理器执行时，还可以致使所述处理器执行上述视频处理方法实施例三所涉及的全部或部分步骤。

获取拍摄用户行为的离线视频；

当所述计算机指令被处理器执行时，还可以致使所述处理器执行上述视频处理方法实施例四所涉及的全部或部分步骤。

获取拍摄管理人员行为的视频流；

采用光流跟踪算法检测所述视频流中移动目标的运动轨迹；

当所述计算机指令被处理器执行时，还可以致使所述处理器执行上述门店管理方法实施例一所涉及的全部或部分步骤。

获取拍摄管理人员行为的离线视频；

当所述计算机指令被处理器执行时，还可以致使所述处理器执行上述门店管理方法实施例二所涉及的全部或部分步骤。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程网络连接设备的处理器以产生一个机器，使得通过计算机或其他可编程网络连接设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程网络连接设备以特定方式楼层的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程网络连接设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种视频处理方法，其特征在于，包括：

获取拍摄用户行为的视频流；

采用光流跟踪算法检测所述视频流中移动目标的运动轨迹；

在一件商品的跟踪过程结束后，若在跟踪过程中出现了存在第一特征的视频片段，则判断所述跟踪过程中是否获取到对商品的扫描结果；

若没有获取到扫描结果，则根据所述存在第一特征的视频片段，判断是否出现第一预定行为；

其中，所述商品的跟踪过程为所述商品被拿在手里的过程。

2.根据权利要求1所述的方法，其特征在于，所述第一特征为疑似漏扫行为的特征；所述第一预定行为为漏扫行为。

3.根据权利要求1所述的方法，其特征在于，根据所述移动目标的运动轨迹，查找所述视频流中存在第一特征的视频片段，包括：

若检测到所述移动目标进入预设区域，或者，检测到所述移动目标离开预设区域，则确认出现存在第一特征的视频片段。

4.根据权利要求1所述的方法，其特征在于，根据所述移动目标的运动轨迹，查找所述视频流中存在第一特征的视频片段，包括：

若检测到移动目标进入预设区域后又离开，则确定出现存在第一特征的视频片段。

5.根据权利要求1所述的方法，其特征在于，根据所述移动目标的运动轨迹，查找所述视频流中存在第一特征的视频片段，包括：

若检测到移动目标进入预设区域后又离开，则对所述移动目标进行识别，判断所述移动目标是否包括商品；

若所述移动目标包括商品，则确定出现存在第一特征的视频片段。

6.根据权利要求3至5中任一项所述的方法，其特征在于，所述预设区域为竖直方向上距离扫描装置小于预设距离值的区域；

其中，所述扫描装置用于在用户扫描商品时获取对应的扫描结果。

7.根据权利要求6所述的方法，其特征在于，所述存在第一特征的视频片段的开始时间为进入所述预设区域的时间，所述存在第一特征的视频片段的结束时间为离开所述预设区域的时间。

8.根据权利要求6所述的方法，其特征在于，在确定出现存在第一特征的视频片段之后，还包括：

根据机器学习模型确定所述视频片段的准确开始时间和准确结束时间。

9.根据权利要求1所述的方法，其特征在于，所述用户存在第一特征的视频片段包括扫码动作的视频片段和/或将商品移动至已扫码区域的视频片段。

10.根据权利要求1所述的方法，其特征在于，还包括：

检测所述视频流中商品和手的位置信息；

根据所述商品和手的位置信息，确定商品和手的运动轨迹；

根据商品与手的运动轨迹，确定商品是否被拿在手里。

11.根据权利要求10所述的方法，其特征在于，还包括：

在确定商品被拿在手里后，若检测到空手的时间超过预设时间，则确定所述商品的跟踪过程结束。

12.根据权利要求1所述的方法，其特征在于，还包括：

若在一件商品的跟踪过程中获取到扫描结果，则确定所述商品的跟踪过程中没有出现第一预定行为。

13.根据权利要求1所述的方法，其特征在于，根据所述存在第一特征的视频片段，判断是否出现第一预定行为，包括：

若所述跟踪过程中有多个存在第一特征的视频片段，则根据最后一个视频片段判断是否出现第一预定行为。

14.根据权利要求13所述的方法，其特征在于，根据最后一个视频片段判断是否出现第一预定行为，包括：

查找与所述最后一个视频片段有重叠部分的其它视频片段；

将查找到的视频片段与所述最后一个视频片段进行合并；

根据合并后的视频片段，判断是否出现第一预定行为。

15.根据权利要求1所述的方法，其特征在于，根据所述存在第一特征的视频片段，判断是否出现第一预定行为，包括：

通过机器学习模型确定存在第一特征的视频片段属于第一预定行为的置信度；

根据所述置信度判断是否出现第一预定行为。

16.根据权利要求1所述的方法，其特征在于，根据所述存在第一特征的视频片段，判断是否出现第一预定行为，包括：

若所述跟踪过程中有多个存在第一特征的视频片段，则通过机器学习模型确定每个存在第一特征的视频片段属于第一预定行为的置信度；

计算所述多个存在第一特征的视频片段对应的置信度的加权和；

若所述加权和大于预设的阈值，则确定出现第一预定行为。

17.根据权利要求15或16所述的方法，其特征在于，通过机器学习模型确定存在第一特征的视频片段属于第一预定行为的置信度，包括：

根据所述存在第一特征的视频片段的类型，确定对应的机器学习模型；

将所述视频片段输入到所述对应的机器学习模型，得到所述视频片段属于第一预定行为的置信度。

18.根据权利要求1所述的方法，其特征在于，还包括：

响应于所述用户确认商品扫描完毕的操作事件，统计所述用户出现第一预定行为的次数；

若所述用户出现第一预定行为的次数小于预设次数，则对用户扫描的商品进行结算。

19.根据权利要求18所述的方法，其特征在于，还包括：

若所述用户出现第一预定行为的次数不小于预设次数，则显示禁止结算界面，和/或，向监控终端发送警示信息。

20.根据权利要求1所述的方法，其特征在于，还包括：

对视频流中的图像进行处理，得到图像对应的语义特征图；

根据所述语义特征图，检测所述图像中的商品的位置信息和用户的姿态信息。

21.根据权利要求20所述的方法，其特征在于，对视频流中的图像进行处理，得到图像对应的语义特征图，包括：

根据视频流中的图像的各像素点的像素值，计算各像素点对应的特征向量；

其中，图像对应的语义特征图包括所述图像中各个像素点对应的特征向量；像素点对应的特征向量包括所述像素点属于各个语义特征的概率信息。

22.根据权利要求20所述的方法，其特征在于，根据所述语义特征图，检测所述图像中的商品的位置信息和用户的姿态信息，包括：

根据所述语义特征图，预测图像中多个候选物体的位置信息；

对所述多个候选物体进行分类，确定每个候选物体的类型，其中，候选物体的类型包括下述至少一项：用户、商品、背景；

根据类型为用户的候选物体的位置信息，确定用户所在区域对应的特征向量；

根据用户所在区域对应的特征向量，预测用户的姿态信息。

23.根据权利要求22所述的方法，其特征在于，根据所述语义特征图，预测图像中多个候选物体的位置信息，包括：

针对每一像素点对应的特征向量，预测多个候选物体的位置信息；

将根据各个像素点对应的特征向量预测得到的候选物体进行去重，得到所述图像中多个候选物体的位置信息。

24.根据权利要求20所述的方法，其特征在于，还包括：

根据所述用户的姿态信息确定手的位置信息。

25.根据权利要求20所述的方法，其特征在于，还包括：

根据所述视频流的各个图像中的手的位置信息以及商品的位置信息，确定所述视频流中手的移动轨迹和商品的移动轨迹；

根据所述手的移动轨迹和商品的移动轨迹，确定商品的跟踪过程。

26.一种视频处理方法，其特征在于，包括：

获取传感装置发送的传感信号；

根据所述传感信号，确定用户的手的运动轨迹；

其中，所述商品的跟踪过程为所述商品被拿在手里的过程。

27.根据权利要求26所述的方法，其特征在于，根据所述手的运动轨迹，在拍摄用户行为的视频流中查找存在第一特征的视频片段，包括：

判断所述用户的手是否进入预设区域又离开；

若是，则确定拍摄用户行为的视频流中出现存在第一特征的视频片段。

28.根据权利要求26所述的方法，其特征在于，所述传感装置为距离传感器或红外传感器。

29.一种视频处理方法，其特征在于，包括：

获取拍摄用户行为的离线视频；

若没有获取到扫描结果，则根据所述存在第一特征的视频片段，判断所述用户是否出现与所述第一特征对应的第一预定行为；

其中，所述商品的跟踪过程为所述商品被拿在手里的过程。

30.一种门店管理方法，其特征在于，包括：

获取拍摄管理人员行为的视频流；

采用光流跟踪算法检测所述视频流中移动目标的运动轨迹；

在一件商品的跟踪过程结束后，若在跟踪过程中出现了存在第二特征的视频片段，则判断所述跟踪过程中是否获取到对商品的扫描结果；

若没有获取到扫描结果，则根据所述存在第二特征的视频片段，判断所述管理人员是否出现与所述第二特征对应的是否出现第二预定行为；

其中，所述商品的跟踪过程为所述商品被拿在手里的过程。

31.一种门店管理方法，其特征在于，包括：

获取拍摄管理人员行为的离线视频；

其中，所述商品的跟踪过程为所述商品被拿在手里的过程。

32.一种视频处理装置，其特征在于，包括：

获取模块，用于获取拍摄用户行为的视频流；

确定模块，用于在一件商品的跟踪过程结束后，若在跟踪过程中出现了存在第一特征的视频片段，则判断所述跟踪过程中是否获取到对商品的扫描结果；若没有获取到扫描结果，则根据所述存在第一特征的视频片段，判断是否出现第一预定行为；其中，所述商品的跟踪过程为所述商品被拿在手里的过程。

33.一种视频处理装置，其特征在于，包括：

获取模块，用于获取传感装置发送的传感信号；

34.一种视频处理装置，其特征在于，包括：

获取模块，用于获取拍摄用户行为的离线视频；

确定模块，用于在一件商品的跟踪过程结束后，若在跟踪过程中出现了存在第一特征的视频片段，则判断所述跟踪过程中是否获取到对商品的扫描结果；

若没有获取到扫描结果，则根据所述存在第一特征的视频片段，判断所述用户是否出现与所述第一特征对应的第一预定行为；其中，所述商品的跟踪过程为所述商品被拿在手里的过程。

35.一种门店管理装置，其特征在于，包括：

获取模块，用于获取拍摄管理人员行为的视频流；

确定模块，用于在一件商品的跟踪过程结束后，若在跟踪过程中出现了存在第二特征的视频片段，则判断所述跟踪过程中是否获取到对商品的扫描结果；若没有获取到扫描结果，则根据所述存在第二特征的视频片段，判断所述管理人员是否出现与所述第二特征对应的是否出现第二预定行为；其中，所述商品的跟踪过程为所述商品被拿在手里的过程。

36.一种门店管理装置，其特征在于，包括：

获取模块，用于获取拍摄管理人员行为的离线视频；

37.一种电子设备，其特征在于，包括：第一存储器和第一处理器；所述第一存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第一处理器执行时实现如权利要求1至25中任一项所述的视频处理方法。

38.一种电子设备，其特征在于，包括：第二存储器和第二处理器；所述第二存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第二处理器执行时实现如权利要求26所述的视频处理方法。

39.一种电子设备，其特征在于，包括：第三存储器和第三处理器；所述第三存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第三处理器执行时实现如权利要求29所述的视频处理方法。

40.一种电子设备，其特征在于，包括：第四存储器和第四处理器；所述第四存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第四处理器执行时实现如权利要求30所述的门店管理方法。

41.一种电子设备，其特征在于，包括：第五存储器和第五处理器；所述第五存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述第五处理器执行时实现如权利要求31所述的门店管理方法。