CN110378215A

CN110378215A - 基于第一人称视角购物视频的购物分析方法

Info

Publication number: CN110378215A
Application number: CN201910508074.9A
Authority: CN
Inventors: 段凌宇; 张琳; 王策
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2019-06-12
Filing date: 2019-06-12
Publication date: 2019-10-25
Anticipated expiration: 2039-06-12
Also published as: CN110378215B

Abstract

本发明涉及人工智能应用技术领域，特别涉及一种基于第一人称视角购物视频的购物分析方法。具体包括：将完整的购物视频划分为多个视频片段；从所述视频片段中提取N帧图像帧；分析提取的图像帧获得所述视频频段对应的购物动作类型；并根据获得的各视频片段对应的购物动作类型，识别预设购物动作类型的视频片段对应的商品；建立识别出的商品与其对应的购物动作类型之间的对应关系。本发明用第一人称视角的消费者购物视频，进行全面的消费分析，相对于基于图片的分析方法，本专利节省了消费者拍摄和上传的负担，并且可以全面地分析整个购物过程，得到完整的消费记录。

Description

基于第一人称视角购物视频的购物分析方法

技术领域

本发明涉及人工智能应用技术领域，特别涉及一种基于第一人称视角购物视频的购物分析方法。

背景技术

消费者购物的分析与记录是分析消费者偏好，发现影响购买的关键因素，定向推荐与帮助消费者购物的基础，对商场的智能化服务和消费者生活质量提升有重要意义，具有巨大的商业价值。

图1展示了传统的消费分析。基于用户上传的商品图片，检测商品存在的区域，对每一个区域提取图像特征，同时对于数据库中商品图片提取特征，将拍摄图片每个区域的特征与数据库图片特征进行对比，得到最终的商品识别结果。这种方法依赖用户的手动拍摄与上传，低效、操作繁琐且难以获得全面的消费分析，一旦用户忘记拍摄或上传，将不能得到全面的消费者购物记录，这种方法得到的“商品-用户”关系单一，不能利用购物全过程的丰富的消费者行为建立“商品-用户”的多种关联。

发明内容

本发明实施例提供了一种基于第一人称视角购物视频的购物分析方法，用第一人称视角的消费者购物视频，进行全面的消费分析，相对于基于图片的分析方法，本专利节省了消费者拍摄和上传的负担，并且可以全面地分析整个购物过程，得到完整的消费记录。

根据本发明实施例的第一方面，一种基于第一人称视角购物视频的购物分析方法，具体包括：

将完整的购物视频划分为多个视频片段；

针对每一视频片段，从所述视频片段中提取N帧图像帧，其中，N为大于 1的整数；

分析提取的图像帧获得所述视频频段对应的购物动作类型；并

根据获得的各视频片段对应的购物动作类型，识别预设购物动作类型的视频片段对应的商品；

建立识别出的商品与其对应的购物动作类型之间的对应关系。

所述预设购物动作类型包括挑选动作和购买动作；以及

建立识别出的商品与其对应的购物动作类型之间的对应关系，具体包括：

确定购买动作对应的视频片段中识别的前若干商品作为购物记录；

确定挑选动作对应的视频片段中识别的前若干商品作为用户感兴趣的商品记录。

分析提取的图像帧获得所述视频频段对应的购物动作类型，具体包括：

使用非局部神经网络分析提取的图像帧获得所述视频频段对应的购物动作类型。

识别预设购物动作类型的视频片段对应的商品，具体包括：

将预设购物动作类型对应的视频片段输入分类网络得到所述视频片段中包含的商品类型，所述商品类型包括食材类或非食材类；

对于食材类商品，使用多分类模型识别其中关键帧的商品；

对于非食材类商品，使用多物体检索的方法检索关键帧中的非食材商品。

非局部神经网络的基本网络为ResNet50，将ResNet50转换为3D ResNet50 网络，在3D ResNet50网络的前三个block的结尾均***一个非局部块。

对于食材类商品识别，包括以下子步骤：

2.a.1提取视频片段的图像帧的关键帧；

2.a.2将关键帧依次输入预训练好的空间正则化网络，得到该帧在每一个食材类别上的预测分数；

2.a.3所有关键帧的对应类别分数相加，除以关键帧数量，得到视频片段在每个食材类别上的预测分数。

对于非食材商品识别，具体包括以下子步骤：

2.b.1提取视频片段的图像帧的关键帧；

2.b.2预处理，使用网络公开的商品数据集RPC，训练一个fast r-cnn网络；RPC数据集包括多张商品图，每张图片用多个检测框bbox给所有检测框bbox一个统一的标签“商品”类别；在训练时，构建一个商品图像库，该库包含多个商品图像，每个图像都包含一个商品，并且是干净背景的，对于该商品库的所有图片，使用紧凑视觉搜索技术建立提取特征，建立索引；

2.b.3对每一个关键帧，使用训练好的fast r-cnn进行商品区域的检测，产生多个检测框bbox，以及检测框bbox的预测分数，保留预测分数大于0.5 的检测框bbox。

2.b.4对每个关键帧，使用检测框bbox对图像进行剪裁，生成多个局部图。

2.b.5对每个关键帧，将其剪裁出的多个局部图，每个局部图都使用紧凑视觉搜索技术提取特征，使用商品库建立的索引，在商品库中检索相关的商品，得到每个局部图的相关商品列表，其中相关程度从高到低。

2.b.6对于一个视频片段的多个关键帧，每个关键帧都有多个局部图，每个图有一个相关商品列表，按照局部图的预测分数得到相关商品列表。

所述步骤2.a.2的空间正则化网络包括

将关键帧依次输入ResNet50，提供粗略的类预测以及初步特征f_cls；

将初步特征f_cls输入空间正则化模块，生成两个特征图，注意力特征图f_att和置信度特征图f_cof；

然后f_att被f_cof重新加权，并输出一系列卷积层的精确预测结果通过对 f_att进行线性转换样得到一个粗略的预测

通过得到预测值。

预测值是在应用中预测值是

所述步骤2.b.2和步骤2.b.5中的紧凑视觉搜索技术的特征提取包括兴趣点检测，局部特征选择，局部特征描述，局部特征压缩，局部特征位置压缩，局部特征聚合。

所述步骤一中，对于***的非局部块，位置i的输出为其中，x_i为位置i的输入，x_j为位置j的输入，g(x_j)＝W_gx_j，其中W_g是一个可学习的权重矩阵。

本发明实施例提供的技术方案可以包括以下有益效果：

1、传统方法使用消费者上传的商品图片进行分析的方法，本专利使用第一人称视角的消费者购物视频，进行全面的消费分析，相对于基于图片的分析方法，本专利节省了消费者拍摄和上传的负担，并且可以全面地分析整个购物过程，得到完整的消费记录。

2、对于商店商品随时间变更问题，本专利减小商品类别改变所需的模型改变。对于食材类商品，尽管其原产地、生产商不尽相同，但食材的类别一样，新生产商的食材商品也隶属于原食材类别，因此模型保持不变。对于非食材类商品，需要根据生产商和属性区别，建立个体级别的识别模型，新商品的引入也会带来新的商品类别。本专利使用紧凑检索技术，保证在商店商品的变更过程中，只需要加入新商品的白背景商品图片到商品库中，不需要对检索模型做任何改动，即可找到相关商品。其他方法往往不考虑模型变动问题，并且对食材和非食材类商品进行统一处理。

3、本专利对整个购物视频进行深入挖掘，建立多种“商品-用户”关系，相对于传统简单地“购买”关系，本专利能够提供更丰富的消费者消费信息，建立完整的消费者画像。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是传统购物分析方法流程示意图；

图2是本发明实施例提出的基于第一人称视角购物视频的购物分析方法示意图；

图3是本发明实施例提出的基于第一人称视角购物视频的购物分析方法流程图；

图4是本发明非食材类商品的局部图的预测分数流程图；

图5是使用的紧凑视觉搜索在特征提取上的流程示意图。

具体实施方式

图2展示了本发明的流程示意图。如图2、图3所示，本发明提供了一种基于第一人称视角购物视频的购物分析方法，包括：

对于完整的购物视频，将视频分为多个视频片段；

将每个视频片段等时间间隔选取N个图像帧，将视频片段进行购物动作的分类。

对于完整的用户在商店的购物视频，基于不同的消费者行为定义，将视频等时间间隔将购物视频分为若干视频片段，并从所述视频片段中提取N帧图像帧，其中，N为正整数；优选的，隔两秒取一个两秒视频片段，在视频片段中抽取相等间隔的16帧进行动作预测；

优选的，将视频片段进行购物动作的分类，为视频片段的N个图像帧，输入到预训练好的非局部神经网络中，得到该片段在每一个购物动作上的预测分数，取最高分数对应的购物动作，作为该视频片段的动作类别；

非局部神经网络预训练为采集视频，把视频分成了视频片段，然后人工标注好类别标签，视频拆成帧做成矩阵输入非局部神经网络，非局部神经网络输出一个分数向量，将向量和真实的类别标签使用交叉熵损失函数计算损失，使用反向传播的方式更新网络参数。

购物视频首先输入购物行为分类模型，以获取不同消费者行为的若干动作片段。因为第一人称购物视频只能记录场景变化，消费者的行为是不可见的，从而难以从视频中估计动作类别；此外，购物动作数据存在较大的类间相似性，这是由于视频中的背景总是商店，而且购物动作之间的差异很小。因此，分类模型应该更加关注帧之间的变化和相关性，以发现类别判别性外观。在这个***中，我们使用非局部神经网络进行购物行为分类。

优选的，非局部神经网络的基本网络可以为ResNet50，为了在视频数据上使用它，将ResNet50转换为3D ResNet50网络，即把所有卷积层换成3d卷积，在3D ResNet50网络的前三个block的结尾，即activation_59、activation_71、 activation_89的输出端均***一个非局部块。

非局部神经网络使用非局部块来捕获数据的空间，时间和时空之间的依赖性。

优选的，对于***的非局部块，位置i的输出被视为输入中所有位置深度信息的规范化线性组合，即线性系数f(x_i，x_j)是一个反映位置之间关系的标量，g(x_j)包含位置j中输入的深层信息。非局部神经网络可以处理所有输入信号上的消息。通过使用该网络，分类模型可以发现信息流和帧中的变化。x_i为位置i的输入，x_j为位置j的输入，g(x_j)是线性转换W_gx_j，其中W_g是一个可学习的权重矩阵。

对于视频动作的分类如表1所示。

表1视频动作的分类

将购物动作的片段中属于“挑选”和“选择”的视频片段输入分类网络，区分其中的商品为食材类或非食材类；

对于食材类商品，使用多分类模型识别视频片段的关键帧的多个食材类别；

对于非食材类商品，由于种类较多且不断增长，使用多物体检索的方法检索视频片段的关键帧中的非食材商品；

将视频分为多个动作片段后，我们对其中“挑选”和“选择”动作片段进行视频内容分析，以获得消费者购物记录，因为这些片段包含用户喜欢和购买的商品信息。商品包括食材类和非食材类商品，我们对这两种类型的商品使用两种视觉分析模型。

优选的，我们首先在输入视频片段的关键帧上使用RetNet50分类网络区分食材类和非食材类商品帧。然后将食物帧输入到相应的分类或检索模型。

对于食材类，例如蔬菜和肉类，采用多分类模型，因为虽然它们可能具有不同的生长区域，但是类别是有限的和固定的。具体包括以下子步骤：

2.a.1采用ffmpeg提取视频片段的图像帧的关键帧；

2.a.2将关键帧依次输入预训练好的空间正则化网络(SRN)，得到该帧在每一个食材类别上的预测分数；

商店的环境复杂，拍摄过会遇到反射、色变等问题，食材在商店中往往也被切分和包装，使用空间正则化网络(SRN)作为多分类模型，专注于类区域，发现细粒度特征并同时调整图片出现在局部的反射、色变问题。

SRN由两部分组成，即特征提取模块和空间正则化模块。特征提取模块使用ResNet50，提供粗略的类预测以及初步特征f_cls。

空间正则化模块将初步特征f_cls作为输入，首先生成两个特征图——注意力特征图f_att和置信度特征图f_cof。然后f_att被f_cof重新加权，并输出一系列卷积层的精确预测结果通过对f_att进行线性转换同样可以得到一个粗略的预测空间正则化模块中的机制将极大地促进性能，因为注意力特征图为每个类生成重要的区域，以发现细微的类别特征，置信度特征图调整f_att中的局部条件，从而调整反射和色变等问题。

优选的，在训练过程中，模型使用交叉熵损失优化，优化的预测值是在应用中使用作为预测分数。

对于非食材商品，考虑到其类别多样性以及不断增长的数量，采用检索技术来保证数据扩展后方法的可用性。***只需要逐步更新商品数据库，不需要重新培训新模型。

对于非食材类商品，具体包括以下子步骤：

2.b.1采用ffmpeg提取视频片段的图像帧的关键帧；

2.b.2预处理，使用网络公开的商品数据集RPC，训练一个fast r-cnn网络，最终在该数据集上达到97.6％的检测结果。RPC数据集包括多张商品图，每张图片用多个检测框(bounding box，bbox)标注该图的多个商品区域，每个检测框有一个附带的商品类别标签。在训练时，我们忽略附带的商品类别标签，而是给所有bbox一个统一的标签“商品”类别。构建一个商品图像库，该库包含多个商品图像，每个图像都包含一个商品，并且是干净背景的。对于该商品库的所有图片，使用紧凑视觉搜索技术建立提取特征，建立索引。

2.b.3对每一个关键帧，使用训练好的fast r-cnn进行商品区域的检测，产生多个bbox，以及bbox的预测分数(0-1之间，表示该bbox有多大可能包含商品)。保留预测分数大于0.5的bbox。

2.b.4对每个关键帧，使用bbox对图像进行剪裁，生成多个局部图。

2.b.6对于一个视频片段的多个关键帧，每个关键帧都有多个局部图，每个图有一个相关商品列表，按照局部图的预测分数将局部图从上到下排列，结果如图4所示，图中的圆圈代表商品检索列表。其中横着的一行圆圈代表的商品不可能重复，但竖着的一列可能重复，因为每个局部图的检测是相互不影响的。

首先将一个关键帧的结果融合。假设有k个局部图B₁-B_k，预测分数从高到低，对于局部图B_i取前30个商品相关程度从高到低。融合时，维护一个列表L，首先将B₁-B_k的第一个商品依次加入L，如果有已经在L 中，则跳过。之后将的第二个商品依次加入L，以此类推，直到L 中的商品达到30个为止。这样每一个关键帧，都有一个长为30的列表L。

接着将所有关键帧的结果融合。假设有t个关键帧F₁-F_t，相关程度从高到低，对于关键帧F_i的列表L_i，有商品相关程度从高到低。融合时，维护一个列表E，统计将F₁-F_k的第一个商品的商品类别数和每个类别出现个数，按照出现个数从高到低将商品类别加入E，。之后将B₁-B_k的第二个商品统计，加入E，如果已经存在于E中则跳过，以此类推，直到E中的商品达到30个为止。

我们使用多产品检索方法来获取消费者购买或喜欢的产品。为了获得更准确的检索结果，我们首先使用商品位置检测模型将图像裁剪成多个可能包含商品的的区域，这部分将增加计算需求和时间。此外，实现超细粒度的商品检索，例如同一薯片品牌的不同口味，将面临较小的类间差异(如商品包装的文本和纹理中)。为了解决这两个问题，使用紧凑视觉搜索技术来检索产品，从而更多地关注局部特征，达到更高效的检索。在使用紧凑视觉搜索技术之前，

图5展示了紧凑视觉搜索技术的特征提取流程示意图。

步骤2.b.2和步骤2.b.5紧凑视觉搜索技术的特征提取可以分为6部分：兴趣点检测，局部特征选择，局部特征描述，局部特征压缩，局部特征位置压缩，局部特征聚合。使用基于块的频域拉普拉斯高斯(BFLoG)方法与ALP检测器集成作为兴趣点检测方法；计算相关性用来对特征排序，选择固定数量的局部特征；使用SIFT描述子作为特征描述子；采用了低复杂度的变换编码方案，将小线性变换应用于SIFT描述符的每个单独空间区间的8个值，在比特流中仅包括变换的描述符元素的子集，从而对局部特征进行压缩；采用直方图编码方案对局部特征位置进行压缩，位置数据表示为由二进制图和一组直方图计数组成的空间直方图；采用可缩放压缩Fisher矢量，基于总特征数据预算选择来自高斯混合模型的高斯分量的子集，仅保留所选分量中的信息。基于能量在Fisher 矢量中的集中位置，为每个图像选择一组不同的分量，从而进行局部特征聚合。

步骤2.b.2建立索引，采用MBIT检索技术，对于长二进制全局描述符，可以非常快速地计算汉明距离。MBIT将特征之间的穷举距离计算减少为对齐的组件-组件的独立匹配问题，并为这些组件构造多个哈希表。给定查询描述符，使用查询二进制子向量(即组件)作为其对应的哈希表的索引来检索其候选的相关数据，从而显着减少用于后续线性搜索的所需候选图像的数量。

对于“选择”视频片段，使用食材预测第一个对应的食材类别以及非食材检索的第一个检索结果，作为用户购买的商品记录；对于“挑选”动作视频，使用食材预测前三个分数对应的食材类别以及非食材检索的前三个检索结果，作为用户感兴趣的商品记录。

最终的消费者购物记录由用户购买和感兴趣的商品信息构成，其中消费者购买的商品为在“选择”动作视频片段上的食材分类第一个食材类别和非食材检索第一个商品类别，消费者感兴趣商品为在“挑选”动作视频片段上的食材分类前三个食材类别和非食材检索前三个商品类别。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于第一人称视角购物视频的购物分析方法，其特征在于，具体包括：

将完整的购物视频划分为多个视频片段；

针对每一视频片段，从所述视频片段中提取N帧图像帧，其中，N为大于1的整数；

2.如权利要求1所述的方法，其特征在于，所述预设购物动作类型包括挑选动作和购买动作；以及

3.如权利要求1所述的方法，其特征在于，分析提取的图像帧获得所述视频频段对应的购物动作类型，具体包括：

4.如权利要求1所述的方法，其特征在于，识别预设购物动作类型的视频片段对应的商品，具体包括：

对于食材类商品，使用多分类模型识别其中关键帧的商品；

5.如权利要求3或4所述的方法，其特征在于，非局部神经网络的基本网络为ResNet50，将ResNet50转换为3D ResNet50网络，在3D ResNet50网络的前三个block的结尾均***一个非局部块。

6.如权利要求5所述的方法，其特征在于，对于食材类商品识别，包括以下子步骤：

2.a.1提取视频片段的图像帧的关键帧；

7.如权利要求6所述的方法，其特征在于，对于非食材商品识别，具体包括以下子步骤：

2.b.1提取视频片段的图像帧的关键帧；

2.b.3对每一个关键帧，使用训练好的fast r-cnn进行商品区域的检测，产生多个检测框bbox，以及检测框bbox的预测分数，保留预测分数大于0.5的检测框bbox。

8.如权利要求7所述的方法，其特征在于，所述步骤2.a.2的空间正则化网络包括

然后f_att被f_cof重新加权，并输出一系列卷积层的精确预测结果通过对f_att进行线性转换样得到一个粗略的预测

通过得到预测值。

9.如权利要求8所述的方法，其特征在于，所述步骤2.b.2和步骤2.b.5中的紧凑视觉搜索技术的特征提取包括兴趣点检测，局部特征选择，局部特征描述，局部特征压缩，局部特征位置压缩，局部特征聚合。

10.如权利要求9所述的方法，其特征在于，所述步骤一中，对于***的非局部块，位置i的输出为其中， x_i为位置i的输入，x_j为位置j的输入，g(x_j)＝W_gx_j，其中W_g是一个可学习的权重矩阵。