CN110378215B - 基于第一人称视角购物视频的购物分析方法 - Google Patents

基于第一人称视角购物视频的购物分析方法 Download PDF

Info

Publication number
CN110378215B
CN110378215B CN201910508074.9A CN201910508074A CN110378215B CN 110378215 B CN110378215 B CN 110378215B CN 201910508074 A CN201910508074 A CN 201910508074A CN 110378215 B CN110378215 B CN 110378215B
Authority
CN
China
Prior art keywords
commodity
shopping
video
commodities
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910508074.9A
Other languages
English (en)
Other versions
CN110378215A (zh
Inventor
段凌宇
张琳
王策
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201910508074.9A priority Critical patent/CN110378215B/zh
Publication of CN110378215A publication Critical patent/CN110378215A/zh
Application granted granted Critical
Publication of CN110378215B publication Critical patent/CN110378215B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Multimedia (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及人工智能应用技术领域,特别涉及一种基于第一人称视角购物视频的购物分析方法。具体包括:将完整的购物视频划分为多个视频片段;从所述视频片段中提取N帧图像帧;分析提取的图像帧获得所述视频频段对应的购物动作类型;并根据获得的各视频片段对应的购物动作类型,识别预设购物动作类型的视频片段对应的商品;建立识别出的商品与其对应的购物动作类型之间的对应关系。本发明用第一人称视角的消费者购物视频,进行全面的消费分析,相对于基于图片的分析方法,本专利节省了消费者拍摄和上传的负担,并且可以全面地分析整个购物过程,得到完整的消费记录。

Description

基于第一人称视角购物视频的购物分析方法
技术领域
本发明涉及人工智能应用技术领域,特别涉及一种基于第一人称视角购物视频的购物分析方法。
背景技术
消费者购物的分析与记录是分析消费者偏好,发现影响购买的关键因素,定向推荐与帮助消费者购物的基础,对商场的智能化服务和消费者生活质量提升有重要意义,具有巨大的商业价值。
图1展示了传统的消费分析。基于用户上传的商品图片,检测商品存在的区域,对每一个区域提取图像特征,同时对于数据库中商品图片提取特征,将拍摄图片每个区域的特征与数据库图片特征进行对比,得到最终的商品识别结果。这种方法依赖用户的手动拍摄与上传,低效、操作繁琐且难以获得全面的消费分析,一旦用户忘记拍摄或上传,将不能得到全面的消费者购物记录,这种方法得到的“商品-用户”关系单一,不能利用购物全过程的丰富的消费者行为建立“商品-用户”的多种关联。
发明内容
本发明实施例提供了一种基于第一人称视角购物视频的购物分析方法,用第一人称视角的消费者购物视频,进行全面的消费分析,相对于基于图片的分析方法,本专利节省了消费者拍摄和上传的负担,并且可以全面地分析整个购物过程,得到完整的消费记录。
根据本发明实施例的第一方面,一种基于第一人称视角购物视频的购物分析方法,具体包括:
将完整的购物视频划分为多个视频片段;
针对每一视频片段,从所述视频片段中提取N帧图像帧,其中,N为大于 1的整数;
分析提取的图像帧获得所述视频频段对应的购物动作类型;并
根据获得的各视频片段对应的购物动作类型,识别预设购物动作类型的视频片段对应的商品;
建立识别出的商品与其对应的购物动作类型之间的对应关系。
所述预设购物动作类型包括挑选动作和购买动作;以及
建立识别出的商品与其对应的购物动作类型之间的对应关系,具体包括:
确定购买动作对应的视频片段中识别的前若干商品作为购物记录;
确定挑选动作对应的视频片段中识别的前若干商品作为用户感兴趣的商品记录。
分析提取的图像帧获得所述视频频段对应的购物动作类型,具体包括:
使用非局部神经网络分析提取的图像帧获得所述视频频段对应的购物动作类型。
识别预设购物动作类型的视频片段对应的商品,具体包括:
将预设购物动作类型对应的视频片段输入分类网络得到所述视频片段中包含的商品类型,所述商品类型包括食材类或非食材类;
对于食材类商品,使用多分类模型识别其中关键帧的商品;
对于非食材类商品,使用多物体检索的方法检索关键帧中的非食材商品。
非局部神经网络的基本网络为ResNet50,将ResNet50转换为3D ResNet50 网络,在3D ResNet50网络的前三个block的结尾均***一个非局部块。
对于食材类商品识别,包括以下子步骤:
2.a.1提取视频片段的图像帧的关键帧;
2.a.2将关键帧依次输入预训练好的空间正则化网络,得到该帧在每一个食材类别上的预测分数;
2.a.3所有关键帧的对应类别分数相加,除以关键帧数量,得到视频片段在每个食材类别上的预测分数。
对于非食材商品识别,具体包括以下子步骤:
2.b.1提取视频片段的图像帧的关键帧;
2.b.2预处理,使用网络公开的商品数据集RPC,训练一个fast r-cnn网络;RPC数据集包括多张商品图,每张图片用多个检测框bbox给所有检测框bbox一个统一的标签“商品”类别;在训练时,构建一个商品图像库,该库包含多个商品图像,每个图像都包含一个商品,并且是干净背景的,对于该商品库的所有图片,使用紧凑视觉搜索技术建立提取特征,建立索引;
2.b.3对每一个关键帧,使用训练好的fast r-cnn进行商品区域的检测,产生多个检测框bbox,以及检测框bbox的预测分数,保留预测分数大于0.5 的检测框bbox。
2.b.4对每个关键帧,使用检测框bbox对图像进行剪裁,生成多个局部图。
2.b.5对每个关键帧,将其剪裁出的多个局部图,每个局部图都使用紧凑视觉搜索技术提取特征,使用商品库建立的索引,在商品库中检索相关的商品,得到每个局部图的相关商品列表,其中相关程度从高到低。
2.b.6对于一个视频片段的多个关键帧,每个关键帧都有多个局部图,每个图有一个相关商品列表,按照局部图的预测分数得到相关商品列表。
所述步骤2.a.2的空间正则化网络包括
将关键帧依次输入ResNet50,提供粗略的类预测
Figure RE-GDA0002163994760000031
以及初步特征fcls
将初步特征fcls输入空间正则化模块,生成两个特征图,注意力特征图fatt和置信度特征图fcof
然后fatt被fcof重新加权,并输出一系列卷积层的精确预测结果
Figure RE-GDA0002163994760000032
通过对 fatt进行线性转换样得到一个粗略的预测
Figure RE-GDA0002163994760000033
通过
Figure RE-GDA0002163994760000034
得到预测值。
预测值是
Figure RE-GDA0002163994760000035
在应用中预测值是
Figure RE-GDA0002163994760000036
Figure RE-GDA0002163994760000037
所述步骤2.b.2和步骤2.b.5中的紧凑视觉搜索技术的特征提取包括兴趣点检测,局部特征选择,局部特征描述,局部特征压缩,局部特征位置压缩,局部特征聚合。
所述步骤一中,对于***的非局部块,位置i的输出为
Figure RE-GDA0002163994760000038
其中,
Figure RE-GDA0002163994760000039
xi为位置i的输入,xj为位置j的输入,g(xj)=Wgxj,其中Wg是一个可学习的权重矩阵。
本发明实施例提供的技术方案可以包括以下有益效果:
1、传统方法使用消费者上传的商品图片进行分析的方法,本专利使用第一人称视角的消费者购物视频,进行全面的消费分析,相对于基于图片的分析方法,本专利节省了消费者拍摄和上传的负担,并且可以全面地分析整个购物过程,得到完整的消费记录。
2、对于商店商品随时间变更问题,本专利减小商品类别改变所需的模型改变。对于食材类商品,尽管其原产地、生产商不尽相同,但食材的类别一样,新生产商的食材商品也隶属于原食材类别,因此模型保持不变。对于非食材类商品,需要根据生产商和属性区别,建立个体级别的识别模型,新商品的引入也会带来新的商品类别。本专利使用紧凑检索技术,保证在商店商品的变更过程中,只需要加入新商品的白背景商品图片到商品库中,不需要对检索模型做任何改动,即可找到相关商品。其他方法往往不考虑模型变动问题,并且对食材和非食材类商品进行统一处理。
3、本专利对整个购物视频进行深入挖掘,建立多种“商品-用户”关系,相对于传统简单地“购买”关系,本专利能够提供更丰富的消费者消费信息,建立完整的消费者画像。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是传统购物分析方法流程示意图;
图2是本发明实施例提出的基于第一人称视角购物视频的购物分析方法示意图;
图3是本发明实施例提出的基于第一人称视角购物视频的购物分析方法流程图;
图4是本发明非食材类商品的局部图的预测分数流程图;
图5是使用的紧凑视觉搜索在特征提取上的流程示意图。
具体实施方式
图2展示了本发明的流程示意图。如图2、图3所示,本发明提供了一种基于第一人称视角购物视频的购物分析方法,包括:
对于完整的购物视频,将视频分为多个视频片段;
将每个视频片段等时间间隔选取N个图像帧,将视频片段进行购物动作的分类。
对于完整的用户在商店的购物视频,基于不同的消费者行为定义,将视频等时间间隔将购物视频分为若干视频片段,并从所述视频片段中提取N帧图像帧,其中,N为正整数;优选的,隔两秒取一个两秒视频片段,在视频片段中抽取相等间隔的16帧进行动作预测;
优选的,将视频片段进行购物动作的分类,为视频片段的N个图像帧,输入到预训练好的非局部神经网络中,得到该片段在每一个购物动作上的预测分数,取最高分数对应的购物动作,作为该视频片段的动作类别;
非局部神经网络预训练为采集视频,把视频分成了视频片段,然后人工标注好类别标签,视频拆成帧做成矩阵输入非局部神经网络,非局部神经网络输出一个分数向量,将向量和真实的类别标签使用交叉熵损失函数计算损失,使用反向传播的方式更新网络参数。
购物视频首先输入购物行为分类模型,以获取不同消费者行为的若干动作片段。因为第一人称购物视频只能记录场景变化,消费者的行为是不可见的,从而难以从视频中估计动作类别;此外,购物动作数据存在较大的类间相似性,这是由于视频中的背景总是商店,而且购物动作之间的差异很小。因此,分类模型应该更加关注帧之间的变化和相关性,以发现类别判别性外观。在这个***中,我们使用非局部神经网络进行购物行为分类。
优选的,非局部神经网络的基本网络可以为ResNet50,为了在视频数据上使用它,将ResNet50转换为3D ResNet50网络,即把所有卷积层换成3d卷积,在3D ResNet50网络的前三个block的结尾,即activation_59、activation_71、 activation_89的输出端均***一个非局部块。
非局部神经网络使用非局部块来捕获数据的空间,时间和时空之间的依赖性。
优选的,对于***的非局部块,位置i的输出被视为输入中所有位置深度信息的规范化线性组合,即
Figure RE-GDA0002163994760000051
线性系数f(xi,xj)是一个反映位置之间关系的标量,g(xj)包含位置j中输入的深层信息。非局部神经网络可以处理所有输入信号上的消息。通过使用该网络,分类模型可以发现信息流和帧中的变化。
Figure RE-GDA0002163994760000061
xi为位置i的输入,xj为位置j的输入,g(xj)是线性转换Wgxj,其中Wg是一个可学习的权重矩阵。
对于视频动作的分类如表1所示。
表1视频动作的分类
Figure RE-GDA0002163994760000062
将购物动作的片段中属于“挑选”和“选择”的视频片段输入分类网络,区分其中的商品为食材类或非食材类;
对于食材类商品,使用多分类模型识别视频片段的关键帧的多个食材类别;
对于非食材类商品,由于种类较多且不断增长,使用多物体检索的方法检索视频片段的关键帧中的非食材商品;
将视频分为多个动作片段后,我们对其中“挑选”和“选择”动作片段进行视频内容分析,以获得消费者购物记录,因为这些片段包含用户喜欢和购买的商品信息。商品包括食材类和非食材类商品,我们对这两种类型的商品使用两种视觉分析模型。
优选的,我们首先在输入视频片段的关键帧上使用RetNet50分类网络区分食材类和非食材类商品帧。然后将食物帧输入到相应的分类或检索模型。
对于食材类,例如蔬菜和肉类,采用多分类模型,因为虽然它们可能具有不同的生长区域,但是类别是有限的和固定的。具体包括以下子步骤:
2.a.1采用ffmpeg提取视频片段的图像帧的关键帧;
2.a.2将关键帧依次输入预训练好的空间正则化网络(SRN),得到该帧在每一个食材类别上的预测分数;
2.a.3所有关键帧的对应类别分数相加,除以关键帧数量,得到视频片段在每个食材类别上的预测分数。
商店的环境复杂,拍摄过会遇到反射、色变等问题,食材在商店中往往也被切分和包装,使用空间正则化网络(SRN)作为多分类模型,专注于类区域,发现细粒度特征并同时调整图片出现在局部的反射、色变问题。
SRN由两部分组成,即特征提取模块和空间正则化模块。特征提取模块使用ResNet50,提供粗略的类预测
Figure RE-GDA0002163994760000071
以及初步特征fcls
空间正则化模块将初步特征fcls作为输入,首先生成两个特征图——注意力特征图fatt和置信度特征图fcof。然后fatt被fcof重新加权,并输出一系列卷积层的精确预测结果
Figure RE-GDA0002163994760000072
通过对fatt进行线性转换同样可以得到一个粗略的预测
Figure RE-GDA0002163994760000073
空间正则化模块中的机制将极大地促进性能,因为注意力特征图为每个类生成重要的区域,以发现细微的类别特征,置信度特征图调整fatt中的局部条件,从而调整反射和色变等问题。
优选的,在训练过程中,模型使用交叉熵损失优化,优化的预测值是
Figure RE-GDA0002163994760000074
在应用中使用
Figure RE-GDA0002163994760000075
作为预测分数。
对于非食材商品,考虑到其类别多样性以及不断增长的数量,采用检索技术来保证数据扩展后方法的可用性。***只需要逐步更新商品数据库,不需要重新培训新模型。
对于非食材类商品,具体包括以下子步骤:
2.b.1采用ffmpeg提取视频片段的图像帧的关键帧;
2.b.2预处理,使用网络公开的商品数据集RPC,训练一个fast r-cnn网络,最终在该数据集上达到97.6%的检测结果。RPC数据集包括多张商品图,每张图片用多个检测框(bounding box,bbox)标注该图的多个商品区域,每个检测框有一个附带的商品类别标签。在训练时,我们忽略附带的商品类别标签,而是给所有bbox一个统一的标签“商品”类别。构建一个商品图像库,该库包含多个商品图像,每个图像都包含一个商品,并且是干净背景的。对于该商品库的所有图片,使用紧凑视觉搜索技术建立提取特征,建立索引。
2.b.3对每一个关键帧,使用训练好的fast r-cnn进行商品区域的检测,产生多个bbox,以及bbox的预测分数(0-1之间,表示该bbox有多大可能包含商品)。保留预测分数大于0.5的bbox。
2.b.4对每个关键帧,使用bbox对图像进行剪裁,生成多个局部图。
2.b.5对每个关键帧,将其剪裁出的多个局部图,每个局部图都使用紧凑视觉搜索技术提取特征,使用商品库建立的索引,在商品库中检索相关的商品,得到每个局部图的相关商品列表,其中相关程度从高到低。
2.b.6对于一个视频片段的多个关键帧,每个关键帧都有多个局部图,每个图有一个相关商品列表,按照局部图的预测分数将局部图从上到下排列,结果如图4所示,图中的圆圈代表商品检索列表。其中横着的一行圆圈代表的商品不可能重复,但竖着的一列可能重复,因为每个局部图的检测是相互不影响的。
首先将一个关键帧的结果融合。假设有k个局部图B1-Bk,预测分数从高到低,对于局部图Bi取前30个商品
Figure RE-GDA0002163994760000081
相关程度从高到低。融合时,维护一个列表L,首先将B1-Bk的第一个商品
Figure RE-GDA0002163994760000082
依次加入L,如果有
Figure RE-GDA0002163994760000083
已经在L 中,则跳过。之后将
Figure RE-GDA0002163994760000084
的第二个商品
Figure RE-GDA0002163994760000085
依次加入L,以此类推,直到L 中的商品达到30个为止。这样每一个关键帧,都有一个长为30的列表L。
接着将所有关键帧的结果融合。假设有t个关键帧F1-Ft,相关程度从高到低,对于关键帧Fi的列表Li,有商品
Figure RE-GDA0002163994760000086
相关程度从高到低。融合时,维护一个列表E,统计将F1-Fk的第一个商品
Figure RE-GDA0002163994760000087
的商品类别数和每个类别出现个数,按照出现个数从高到低将商品类别加入E,。之后将B1-Bk的第二个商品
Figure RE-GDA0002163994760000088
统计,加入E,如果已经存在于E中则跳过,以此类推,直到E中的商品达到30个为止。
我们使用多产品检索方法来获取消费者购买或喜欢的产品。为了获得更准确的检索结果,我们首先使用商品位置检测模型将图像裁剪成多个可能包含商品的的区域,这部分将增加计算需求和时间。此外,实现超细粒度的商品检索,例如同一薯片品牌的不同口味,将面临较小的类间差异(如商品包装的文本和纹理中)。为了解决这两个问题,使用紧凑视觉搜索技术来检索产品,从而更多地关注局部特征,达到更高效的检索。在使用紧凑视觉搜索技术之前,
图5展示了紧凑视觉搜索技术的特征提取流程示意图。
步骤2.b.2和步骤2.b.5紧凑视觉搜索技术的特征提取可以分为6部分:兴趣点检测,局部特征选择,局部特征描述,局部特征压缩,局部特征位置压缩,局部特征聚合。使用基于块的频域拉普拉斯高斯(BFLoG)方法与ALP检测器集成作为兴趣点检测方法;计算相关性用来对特征排序,选择固定数量的局部特征;使用SIFT描述子作为特征描述子;采用了低复杂度的变换编码方案,将小线性变换应用于SIFT描述符的每个单独空间区间的8个值,在比特流中仅包括变换的描述符元素的子集,从而对局部特征进行压缩;采用直方图编码方案对局部特征位置进行压缩,位置数据表示为由二进制图和一组直方图计数组成的空间直方图;采用可缩放压缩Fisher矢量,基于总特征数据预算选择来自高斯混合模型的高斯分量的子集,仅保留所选分量中的信息。基于能量在Fisher 矢量中的集中位置,为每个图像选择一组不同的分量,从而进行局部特征聚合。
步骤2.b.2建立索引,采用MBIT检索技术,对于长二进制全局描述符,可以非常快速地计算汉明距离。MBIT将特征之间的穷举距离计算减少为对齐的组件-组件的独立匹配问题,并为这些组件构造多个哈希表。给定查询描述符,使用查询二进制子向量(即组件)作为其对应的哈希表的索引来检索其候选的相关数据,从而显着减少用于后续线性搜索的所需候选图像的数量。
对于“选择”视频片段,使用食材预测第一个对应的食材类别以及非食材检索的第一个检索结果,作为用户购买的商品记录;对于“挑选”动作视频,使用食材预测前三个分数对应的食材类别以及非食材检索的前三个检索结果,作为用户感兴趣的商品记录。
最终的消费者购物记录由用户购买和感兴趣的商品信息构成,其中消费者购买的商品为在“选择”动作视频片段上的食材分类第一个食材类别和非食材检索第一个商品类别,消费者感兴趣商品为在“挑选”动作视频片段上的食材分类前三个食材类别和非食材检索前三个商品类别。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (5)

1.一种基于第一人称视角购物视频的购物分析方法,其特征在于,具体包括:
将完整的购物视频划分为多个视频片段;
针对每一视频片段,从所述视频片段中提取N帧图像帧,其中,N为大于1的整数;
使用非局部神经网络分析提取的图像帧获得所述视频片段对应的购物动作类型;非局部神经网络的基本网络为ResNet50,将ResNet50转换为3D ResNet50网络,在3D ResNet50网络的前三个block的结尾均***一个非局部块,并
根据获得的各视频片段对应的购物动作类型,识别预设购物动作类型的视频片段对应的商品,包括:将预设购物动作类型对应的视频片段输入分类网络得到所述视频片段中包含的商品类型,所述商品类型包括食材类或非食材类;对于食材类商品,使用多分类模型识别其中关键帧的商品;对于非食材类商品,使用多物体检索的方法检索关键帧中的非食材商品;对于食材类商品识别,包括以下子步骤:2.a.1提取视频片段的图像帧的关键帧;2.a.2将关键帧依次输入预训练好的空间正则化网络,得到该帧在每一个食材类别上的预测分数;2.a.3所有关键帧的对应类别分数相加,除以关键帧数量,得到视频片段在每个食材类别上的预测分数;
对于非食材商品识别,具体包括以下子步骤:
2.b.1提取视频片段的图像帧的关键帧;
2.b.2预处理,使用网络公开的商品数据集RPC,训练一个fast r-cnn网络;RPC数据集包括多张商品图,每张图片用多个检测框bbox给所有检测框bbox一个统一的标签“商品”类别;在训练时,构建一个商品图像库,该库包含多个商品图像,每个图像都包含一个商品,并且是干净背景的,对于该商品图像库的所有图片,使用紧凑视觉搜索技术建立提取特征,建立索引;
2.b.3对每一个关键帧,使用训练好的fast r-cnn进行商品区域的检测,产生多个检测框bbox,以及检测框bbox的预测分数,保留预测分数大于0.5的检测框bbox;
2.b.4对每个关键帧,使用检测框bbox对图像进行剪裁,生成多个局部图;
2.b.5对每个关键帧,将其剪裁出的多个局部图,每个局部图都使用紧凑视觉搜索技术提取特征,使用商品库建立的索引,在商品库中检索相关的商品,得到每个局部图的相关商品列表,其中相关程度从高到低;
2.b.6对于一个视频片段的多个关键帧,每个关键帧都有多个局部图,每个图有一个相关商品列表,按照局部图的预测分数得到相关商品列表;
建立识别出的商品与其对应的购物动作类型之间的对应关系。
2.如权利要求1所述的方法,其特征在于,所述预设购物动作类型包括挑选动作和购买动作;以及
建立识别出的商品与其对应的购物动作类型之间的对应关系,具体包括:
确定购买动作对应的视频片段中识别的前若干商品作为购物记录;
确定挑选动作对应的视频片段中识别的前若干商品作为用户感兴趣的商品记录。
3.如权利要求1所述的方法,其特征在于,所述步骤2.a.2的空间正则化网络包括:
将关键帧依次输入ResNet50,提供粗略的类预测
Figure FDA0003188970560000021
以及初步特征fcls
将初步特征fcls输入空间正则化模块,生成两个特征图,注意力特征图fatt和置信度特征图fcof
然后fatt被fcof重新加权,并输出一系列卷积层的精确预测结果
Figure FDA0003188970560000022
通过对fatt进行线性转换样得到一个粗略的预测
Figure FDA0003188970560000023
通过
Figure FDA0003188970560000024
得到预测值。
4.如权利要求3所述的方法,其特征在于,所述步骤2.b.2和步骤2.b.5中的紧凑视觉搜索技术的特征提取包括兴趣点检测,局部特征选择,局部特征描述,局部特征压缩,局部特征位置压缩,局部特征聚合。
5.如权利要求4所述的方法,其特征在于,对于***的非局部块,位置i的输出为
Figure FDA0003188970560000031
其中,
Figure FDA0003188970560000032
Figure FDA0003188970560000033
xi为位置i的输入,xj为位置j的输入,g(xj)=Wgxj,其中Wg是一个可学习的权重矩阵。
CN201910508074.9A 2019-06-12 2019-06-12 基于第一人称视角购物视频的购物分析方法 Active CN110378215B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910508074.9A CN110378215B (zh) 2019-06-12 2019-06-12 基于第一人称视角购物视频的购物分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910508074.9A CN110378215B (zh) 2019-06-12 2019-06-12 基于第一人称视角购物视频的购物分析方法

Publications (2)

Publication Number Publication Date
CN110378215A CN110378215A (zh) 2019-10-25
CN110378215B true CN110378215B (zh) 2021-11-02

Family

ID=68250201

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910508074.9A Active CN110378215B (zh) 2019-06-12 2019-06-12 基于第一人称视角购物视频的购物分析方法

Country Status (1)

Country Link
CN (1) CN110378215B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113392671A (zh) * 2020-02-26 2021-09-14 上海依图信息技术有限公司 基于顾客动作的商品检索方法、装置及电子设备
CN112906759A (zh) * 2021-01-29 2021-06-04 哈尔滨工业大学 一种基于纯视觉的免门禁无人商店结账方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101978370A (zh) * 2008-03-21 2011-02-16 日升研发控股有限责任公司 获取在购物者的产品选择期间实际的实时购物者行为数据
CN109063534A (zh) * 2018-05-25 2018-12-21 隆正信息科技有限公司 一种基于图像的购物识别和表意方法
CN109166007A (zh) * 2018-08-23 2019-01-08 深圳码隆科技有限公司 一种基于自动售货机的商品推荐方法及其装置
CN109711481A (zh) * 2019-01-02 2019-05-03 京东方科技集团股份有限公司 用于画作多标签识别的神经网络、相关方法、介质和设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ITMI20121210A1 (it) * 2012-07-11 2014-01-12 Rai Radiotelevisione Italiana A method and an apparatus for the extraction of descriptors from video content, preferably for search and retrieval purpose

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101978370A (zh) * 2008-03-21 2011-02-16 日升研发控股有限责任公司 获取在购物者的产品选择期间实际的实时购物者行为数据
CN109063534A (zh) * 2018-05-25 2018-12-21 隆正信息科技有限公司 一种基于图像的购物识别和表意方法
CN109166007A (zh) * 2018-08-23 2019-01-08 深圳码隆科技有限公司 一种基于自动售货机的商品推荐方法及其装置
CN109711481A (zh) * 2019-01-02 2019-05-03 京东方科技集团股份有限公司 用于画作多标签识别的神经网络、相关方法、介质和设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
结合模板匹配与单样本深度学习的货架商品定位与识别技术研究;朱柳依;《中国优秀硕士学位论文全文数据库信息科技辑》;20190115;第56-69页 *
超市中人体异常行为识别方法的研究;陈若愚;《中国优秀硕士学位论文全文数据库信息科技辑》;20160315;全文 *

Also Published As

Publication number Publication date
CN110378215A (zh) 2019-10-25

Similar Documents

Publication Publication Date Title
US10671853B2 (en) Machine learning for identification of candidate video insertion object types
CN110263265B (zh) 用户标签生成方法、装置、存储介质和计算机设备
JP3568117B2 (ja) ビデオ画像の分割、分類、および要約のための方法およびシステム
Kuanar et al. Video key frame extraction through dynamic Delaunay clustering with a structural constraint
CN107220365B (zh) 基于协同过滤与关联规则并行处理的精准推荐***及方法
KR20230087622A (ko) 스트리밍 비디오 내의 객체를 검출하고, 필터링하고 식별하기 위한 방법 및 장치
CN102334118B (zh) 基于用户兴趣学习的个性化广告推送方法与***
US20110106656A1 (en) Image-based searching apparatus and method
Ullah et al. Image-based service recommendation system: A JPEG-coefficient RFs approach
CN110427517B (zh) 一种基于场景词典树的图搜视频方法,装置及计算机可读存储介质
CN105792010A (zh) 基于图像内容解析及图片索引的电视购物的方法与装置
CN110378215B (zh) 基于第一人称视角购物视频的购物分析方法
CN111984824A (zh) 一种基于多模态的视频推荐方法
CN109934681B (zh) 用户感兴趣商品的推荐方法
US20200327600A1 (en) Method and system for providing product recommendation to a user
CN105894362A (zh) 一种推荐视频中的相关物品的方法及装置
Papadopoulos et al. Automatic summarization and annotation of videos with lack of metadata information
CN111327930A (zh) 获取目标对象的方法、装置、电子设备及存储介质
CN112714349B (zh) 数据处理方法、商品展示方法和视频播放方法
CN110379483A (zh) 针对疾病人群的饮食监督与推荐方法
CN107944946B (zh) 商品标签生成方法及装置
Yang et al. Keyframe recommendation based on feature intercross and fusion
Kobs et al. Indirect: Language-guided zero-shot deep metric learning for images
Almeida et al. Unsupervised manifold learning for video genre retrieval
Vrochidis et al. Video popularity prediction through fusing early viewership with video content

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant