CN110378215A - 基于第一人称视角购物视频的购物分析方法 - Google Patents
基于第一人称视角购物视频的购物分析方法 Download PDFInfo
- Publication number
- CN110378215A CN110378215A CN201910508074.9A CN201910508074A CN110378215A CN 110378215 A CN110378215 A CN 110378215A CN 201910508074 A CN201910508074 A CN 201910508074A CN 110378215 A CN110378215 A CN 110378215A
- Authority
- CN
- China
- Prior art keywords
- commodity
- video
- shopping
- video clip
- action
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Multimedia (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Entrepreneurship & Innovation (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及人工智能应用技术领域,特别涉及一种基于第一人称视角购物视频的购物分析方法。具体包括:将完整的购物视频划分为多个视频片段;从所述视频片段中提取N帧图像帧;分析提取的图像帧获得所述视频频段对应的购物动作类型;并根据获得的各视频片段对应的购物动作类型,识别预设购物动作类型的视频片段对应的商品;建立识别出的商品与其对应的购物动作类型之间的对应关系。本发明用第一人称视角的消费者购物视频,进行全面的消费分析,相对于基于图片的分析方法,本专利节省了消费者拍摄和上传的负担,并且可以全面地分析整个购物过程,得到完整的消费记录。
Description
技术领域
本发明涉及人工智能应用技术领域,特别涉及一种基于第一人称视角购物视频的购物分析方法。
背景技术
消费者购物的分析与记录是分析消费者偏好,发现影响购买的关键因素,定向推荐与帮助消费者购物的基础,对商场的智能化服务和消费者生活质量提升有重要意义,具有巨大的商业价值。
图1展示了传统的消费分析。基于用户上传的商品图片,检测商品存在的区域,对每一个区域提取图像特征,同时对于数据库中商品图片提取特征,将拍摄图片每个区域的特征与数据库图片特征进行对比,得到最终的商品识别结果。这种方法依赖用户的手动拍摄与上传,低效、操作繁琐且难以获得全面的消费分析,一旦用户忘记拍摄或上传,将不能得到全面的消费者购物记录,这种方法得到的“商品-用户”关系单一,不能利用购物全过程的丰富的消费者行为建立“商品-用户”的多种关联。
发明内容
本发明实施例提供了一种基于第一人称视角购物视频的购物分析方法,用第一人称视角的消费者购物视频,进行全面的消费分析,相对于基于图片的分析方法,本专利节省了消费者拍摄和上传的负担,并且可以全面地分析整个购物过程,得到完整的消费记录。
根据本发明实施例的第一方面,一种基于第一人称视角购物视频的购物分析方法,具体包括:
将完整的购物视频划分为多个视频片段;
针对每一视频片段,从所述视频片段中提取N帧图像帧,其中,N为大于 1的整数;
分析提取的图像帧获得所述视频频段对应的购物动作类型;并
根据获得的各视频片段对应的购物动作类型,识别预设购物动作类型的视频片段对应的商品;
建立识别出的商品与其对应的购物动作类型之间的对应关系。
所述预设购物动作类型包括挑选动作和购买动作;以及
建立识别出的商品与其对应的购物动作类型之间的对应关系,具体包括:
确定购买动作对应的视频片段中识别的前若干商品作为购物记录;
确定挑选动作对应的视频片段中识别的前若干商品作为用户感兴趣的商品记录。
分析提取的图像帧获得所述视频频段对应的购物动作类型,具体包括:
使用非局部神经网络分析提取的图像帧获得所述视频频段对应的购物动作类型。
识别预设购物动作类型的视频片段对应的商品,具体包括:
将预设购物动作类型对应的视频片段输入分类网络得到所述视频片段中包含的商品类型,所述商品类型包括食材类或非食材类;
对于食材类商品,使用多分类模型识别其中关键帧的商品;
对于非食材类商品,使用多物体检索的方法检索关键帧中的非食材商品。
非局部神经网络的基本网络为ResNet50,将ResNet50转换为3D ResNet50 网络,在3D ResNet50网络的前三个block的结尾均***一个非局部块。
对于食材类商品识别,包括以下子步骤:
2.a.1提取视频片段的图像帧的关键帧;
2.a.2将关键帧依次输入预训练好的空间正则化网络,得到该帧在每一个食材类别上的预测分数;
2.a.3所有关键帧的对应类别分数相加,除以关键帧数量,得到视频片段在每个食材类别上的预测分数。
对于非食材商品识别,具体包括以下子步骤:
2.b.1提取视频片段的图像帧的关键帧;
2.b.2预处理,使用网络公开的商品数据集RPC,训练一个fast r-cnn网络;RPC数据集包括多张商品图,每张图片用多个检测框bbox给所有检测框bbox一个统一的标签“商品”类别;在训练时,构建一个商品图像库,该库包含多个商品图像,每个图像都包含一个商品,并且是干净背景的,对于该商品库的所有图片,使用紧凑视觉搜索技术建立提取特征,建立索引;
2.b.3对每一个关键帧,使用训练好的fast r-cnn进行商品区域的检测,产生多个检测框bbox,以及检测框bbox的预测分数,保留预测分数大于0.5 的检测框bbox。
2.b.4对每个关键帧,使用检测框bbox对图像进行剪裁,生成多个局部图。
2.b.5对每个关键帧,将其剪裁出的多个局部图,每个局部图都使用紧凑视觉搜索技术提取特征,使用商品库建立的索引,在商品库中检索相关的商品,得到每个局部图的相关商品列表,其中相关程度从高到低。
2.b.6对于一个视频片段的多个关键帧,每个关键帧都有多个局部图,每个图有一个相关商品列表,按照局部图的预测分数得到相关商品列表。
所述步骤2.a.2的空间正则化网络包括
将关键帧依次输入ResNet50,提供粗略的类预测以及初步特征fcls;
将初步特征fcls输入空间正则化模块,生成两个特征图,注意力特征图fatt和置信度特征图fcof;
然后fatt被fcof重新加权,并输出一系列卷积层的精确预测结果通过对 fatt进行线性转换样得到一个粗略的预测
通过得到预测值。
预测值是在应用中预测值是
所述步骤2.b.2和步骤2.b.5中的紧凑视觉搜索技术的特征提取包括兴趣点检测,局部特征选择,局部特征描述,局部特征压缩,局部特征位置压缩,局部特征聚合。
所述步骤一中,对于***的非局部块,位置i的输出为其中,xi为位置i的输入,xj为位置j的输入,g(xj)=Wgxj,其中Wg是一个可学习的权重矩阵。
本发明实施例提供的技术方案可以包括以下有益效果:
1、传统方法使用消费者上传的商品图片进行分析的方法,本专利使用第一人称视角的消费者购物视频,进行全面的消费分析,相对于基于图片的分析方法,本专利节省了消费者拍摄和上传的负担,并且可以全面地分析整个购物过程,得到完整的消费记录。
2、对于商店商品随时间变更问题,本专利减小商品类别改变所需的模型改变。对于食材类商品,尽管其原产地、生产商不尽相同,但食材的类别一样,新生产商的食材商品也隶属于原食材类别,因此模型保持不变。对于非食材类商品,需要根据生产商和属性区别,建立个体级别的识别模型,新商品的引入也会带来新的商品类别。本专利使用紧凑检索技术,保证在商店商品的变更过程中,只需要加入新商品的白背景商品图片到商品库中,不需要对检索模型做任何改动,即可找到相关商品。其他方法往往不考虑模型变动问题,并且对食材和非食材类商品进行统一处理。
3、本专利对整个购物视频进行深入挖掘,建立多种“商品-用户”关系,相对于传统简单地“购买”关系,本专利能够提供更丰富的消费者消费信息,建立完整的消费者画像。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是传统购物分析方法流程示意图;
图2是本发明实施例提出的基于第一人称视角购物视频的购物分析方法示意图;
图3是本发明实施例提出的基于第一人称视角购物视频的购物分析方法流程图;
图4是本发明非食材类商品的局部图的预测分数流程图;
图5是使用的紧凑视觉搜索在特征提取上的流程示意图。
具体实施方式
图2展示了本发明的流程示意图。如图2、图3所示,本发明提供了一种基于第一人称视角购物视频的购物分析方法,包括:
对于完整的购物视频,将视频分为多个视频片段;
将每个视频片段等时间间隔选取N个图像帧,将视频片段进行购物动作的分类。
对于完整的用户在商店的购物视频,基于不同的消费者行为定义,将视频等时间间隔将购物视频分为若干视频片段,并从所述视频片段中提取N帧图像帧,其中,N为正整数;优选的,隔两秒取一个两秒视频片段,在视频片段中抽取相等间隔的16帧进行动作预测;
优选的,将视频片段进行购物动作的分类,为视频片段的N个图像帧,输入到预训练好的非局部神经网络中,得到该片段在每一个购物动作上的预测分数,取最高分数对应的购物动作,作为该视频片段的动作类别;
非局部神经网络预训练为采集视频,把视频分成了视频片段,然后人工标注好类别标签,视频拆成帧做成矩阵输入非局部神经网络,非局部神经网络输出一个分数向量,将向量和真实的类别标签使用交叉熵损失函数计算损失,使用反向传播的方式更新网络参数。
购物视频首先输入购物行为分类模型,以获取不同消费者行为的若干动作片段。因为第一人称购物视频只能记录场景变化,消费者的行为是不可见的,从而难以从视频中估计动作类别;此外,购物动作数据存在较大的类间相似性,这是由于视频中的背景总是商店,而且购物动作之间的差异很小。因此,分类模型应该更加关注帧之间的变化和相关性,以发现类别判别性外观。在这个***中,我们使用非局部神经网络进行购物行为分类。
优选的,非局部神经网络的基本网络可以为ResNet50,为了在视频数据上使用它,将ResNet50转换为3D ResNet50网络,即把所有卷积层换成3d卷积,在3D ResNet50网络的前三个block的结尾,即activation_59、activation_71、 activation_89的输出端均***一个非局部块。
非局部神经网络使用非局部块来捕获数据的空间,时间和时空之间的依赖性。
优选的,对于***的非局部块,位置i的输出被视为输入中所有位置深度信息的规范化线性组合,即线性系数f(xi,xj)是一个反映位置之间关系的标量,g(xj)包含位置j中输入的深层信息。非局部神经网络可以处理所有输入信号上的消息。通过使用该网络,分类模型可以发现信息流和帧中的变化。xi为位置i的输入,xj为位置j的输入,g(xj)是线性转换Wgxj,其中Wg是一个可学习的权重矩阵。
对于视频动作的分类如表1所示。
表1视频动作的分类
将购物动作的片段中属于“挑选”和“选择”的视频片段输入分类网络,区分其中的商品为食材类或非食材类;
对于食材类商品,使用多分类模型识别视频片段的关键帧的多个食材类别;
对于非食材类商品,由于种类较多且不断增长,使用多物体检索的方法检索视频片段的关键帧中的非食材商品;
将视频分为多个动作片段后,我们对其中“挑选”和“选择”动作片段进行视频内容分析,以获得消费者购物记录,因为这些片段包含用户喜欢和购买的商品信息。商品包括食材类和非食材类商品,我们对这两种类型的商品使用两种视觉分析模型。
优选的,我们首先在输入视频片段的关键帧上使用RetNet50分类网络区分食材类和非食材类商品帧。然后将食物帧输入到相应的分类或检索模型。
对于食材类,例如蔬菜和肉类,采用多分类模型,因为虽然它们可能具有不同的生长区域,但是类别是有限的和固定的。具体包括以下子步骤:
2.a.1采用ffmpeg提取视频片段的图像帧的关键帧;
2.a.2将关键帧依次输入预训练好的空间正则化网络(SRN),得到该帧在每一个食材类别上的预测分数;
2.a.3所有关键帧的对应类别分数相加,除以关键帧数量,得到视频片段在每个食材类别上的预测分数。
商店的环境复杂,拍摄过会遇到反射、色变等问题,食材在商店中往往也被切分和包装,使用空间正则化网络(SRN)作为多分类模型,专注于类区域,发现细粒度特征并同时调整图片出现在局部的反射、色变问题。
SRN由两部分组成,即特征提取模块和空间正则化模块。特征提取模块使用ResNet50,提供粗略的类预测以及初步特征fcls。
空间正则化模块将初步特征fcls作为输入,首先生成两个特征图——注意力特征图fatt和置信度特征图fcof。然后fatt被fcof重新加权,并输出一系列卷积层的精确预测结果通过对fatt进行线性转换同样可以得到一个粗略的预测空间正则化模块中的机制将极大地促进性能,因为注意力特征图为每个类生成重要的区域,以发现细微的类别特征,置信度特征图调整fatt中的局部条件,从而调整反射和色变等问题。
优选的,在训练过程中,模型使用交叉熵损失优化,优化的预测值是在应用中使用作为预测分数。
对于非食材商品,考虑到其类别多样性以及不断增长的数量,采用检索技术来保证数据扩展后方法的可用性。***只需要逐步更新商品数据库,不需要重新培训新模型。
对于非食材类商品,具体包括以下子步骤:
2.b.1采用ffmpeg提取视频片段的图像帧的关键帧;
2.b.2预处理,使用网络公开的商品数据集RPC,训练一个fast r-cnn网络,最终在该数据集上达到97.6%的检测结果。RPC数据集包括多张商品图,每张图片用多个检测框(bounding box,bbox)标注该图的多个商品区域,每个检测框有一个附带的商品类别标签。在训练时,我们忽略附带的商品类别标签,而是给所有bbox一个统一的标签“商品”类别。构建一个商品图像库,该库包含多个商品图像,每个图像都包含一个商品,并且是干净背景的。对于该商品库的所有图片,使用紧凑视觉搜索技术建立提取特征,建立索引。
2.b.3对每一个关键帧,使用训练好的fast r-cnn进行商品区域的检测,产生多个bbox,以及bbox的预测分数(0-1之间,表示该bbox有多大可能包含商品)。保留预测分数大于0.5的bbox。
2.b.4对每个关键帧,使用bbox对图像进行剪裁,生成多个局部图。
2.b.5对每个关键帧,将其剪裁出的多个局部图,每个局部图都使用紧凑视觉搜索技术提取特征,使用商品库建立的索引,在商品库中检索相关的商品,得到每个局部图的相关商品列表,其中相关程度从高到低。
2.b.6对于一个视频片段的多个关键帧,每个关键帧都有多个局部图,每个图有一个相关商品列表,按照局部图的预测分数将局部图从上到下排列,结果如图4所示,图中的圆圈代表商品检索列表。其中横着的一行圆圈代表的商品不可能重复,但竖着的一列可能重复,因为每个局部图的检测是相互不影响的。
首先将一个关键帧的结果融合。假设有k个局部图B1-Bk,预测分数从高到低,对于局部图Bi取前30个商品相关程度从高到低。融合时,维护一个列表L,首先将B1-Bk的第一个商品依次加入L,如果有已经在L 中,则跳过。之后将的第二个商品依次加入L,以此类推,直到L 中的商品达到30个为止。这样每一个关键帧,都有一个长为30的列表L。
接着将所有关键帧的结果融合。假设有t个关键帧F1-Ft,相关程度从高到低,对于关键帧Fi的列表Li,有商品相关程度从高到低。融合时,维护一个列表E,统计将F1-Fk的第一个商品的商品类别数和每个类别出现个数,按照出现个数从高到低将商品类别加入E,。之后将B1-Bk的第二个商品统计,加入E,如果已经存在于E中则跳过,以此类推,直到E中的商品达到30个为止。
我们使用多产品检索方法来获取消费者购买或喜欢的产品。为了获得更准确的检索结果,我们首先使用商品位置检测模型将图像裁剪成多个可能包含商品的的区域,这部分将增加计算需求和时间。此外,实现超细粒度的商品检索,例如同一薯片品牌的不同口味,将面临较小的类间差异(如商品包装的文本和纹理中)。为了解决这两个问题,使用紧凑视觉搜索技术来检索产品,从而更多地关注局部特征,达到更高效的检索。在使用紧凑视觉搜索技术之前,
图5展示了紧凑视觉搜索技术的特征提取流程示意图。
步骤2.b.2和步骤2.b.5紧凑视觉搜索技术的特征提取可以分为6部分:兴趣点检测,局部特征选择,局部特征描述,局部特征压缩,局部特征位置压缩,局部特征聚合。使用基于块的频域拉普拉斯高斯(BFLoG)方法与ALP检测器集成作为兴趣点检测方法;计算相关性用来对特征排序,选择固定数量的局部特征;使用SIFT描述子作为特征描述子;采用了低复杂度的变换编码方案,将小线性变换应用于SIFT描述符的每个单独空间区间的8个值,在比特流中仅包括变换的描述符元素的子集,从而对局部特征进行压缩;采用直方图编码方案对局部特征位置进行压缩,位置数据表示为由二进制图和一组直方图计数组成的空间直方图;采用可缩放压缩Fisher矢量,基于总特征数据预算选择来自高斯混合模型的高斯分量的子集,仅保留所选分量中的信息。基于能量在Fisher 矢量中的集中位置,为每个图像选择一组不同的分量,从而进行局部特征聚合。
步骤2.b.2建立索引,采用MBIT检索技术,对于长二进制全局描述符,可以非常快速地计算汉明距离。MBIT将特征之间的穷举距离计算减少为对齐的组件-组件的独立匹配问题,并为这些组件构造多个哈希表。给定查询描述符,使用查询二进制子向量(即组件)作为其对应的哈希表的索引来检索其候选的相关数据,从而显着减少用于后续线性搜索的所需候选图像的数量。
对于“选择”视频片段,使用食材预测第一个对应的食材类别以及非食材检索的第一个检索结果,作为用户购买的商品记录;对于“挑选”动作视频,使用食材预测前三个分数对应的食材类别以及非食材检索的前三个检索结果,作为用户感兴趣的商品记录。
最终的消费者购物记录由用户购买和感兴趣的商品信息构成,其中消费者购买的商品为在“选择”动作视频片段上的食材分类第一个食材类别和非食材检索第一个商品类别,消费者感兴趣商品为在“挑选”动作视频片段上的食材分类前三个食材类别和非食材检索前三个商品类别。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种基于第一人称视角购物视频的购物分析方法,其特征在于,具体包括:
将完整的购物视频划分为多个视频片段;
针对每一视频片段,从所述视频片段中提取N帧图像帧,其中,N为大于1的整数;
分析提取的图像帧获得所述视频频段对应的购物动作类型;并
根据获得的各视频片段对应的购物动作类型,识别预设购物动作类型的视频片段对应的商品;
建立识别出的商品与其对应的购物动作类型之间的对应关系。
2.如权利要求1所述的方法,其特征在于,所述预设购物动作类型包括挑选动作和购买动作;以及
建立识别出的商品与其对应的购物动作类型之间的对应关系,具体包括:
确定购买动作对应的视频片段中识别的前若干商品作为购物记录;
确定挑选动作对应的视频片段中识别的前若干商品作为用户感兴趣的商品记录。
3.如权利要求1所述的方法,其特征在于,分析提取的图像帧获得所述视频频段对应的购物动作类型,具体包括:
使用非局部神经网络分析提取的图像帧获得所述视频频段对应的购物动作类型。
4.如权利要求1所述的方法,其特征在于,识别预设购物动作类型的视频片段对应的商品,具体包括:
将预设购物动作类型对应的视频片段输入分类网络得到所述视频片段中包含的商品类型,所述商品类型包括食材类或非食材类;
对于食材类商品,使用多分类模型识别其中关键帧的商品;
对于非食材类商品,使用多物体检索的方法检索关键帧中的非食材商品。
5.如权利要求3或4所述的方法,其特征在于,非局部神经网络的基本网络为ResNet50,将ResNet50转换为3D ResNet50网络,在3D ResNet50网络的前三个block的结尾均***一个非局部块。
6.如权利要求5所述的方法,其特征在于,对于食材类商品识别,包括以下子步骤:
2.a.1提取视频片段的图像帧的关键帧;
2.a.2将关键帧依次输入预训练好的空间正则化网络,得到该帧在每一个食材类别上的预测分数;
2.a.3所有关键帧的对应类别分数相加,除以关键帧数量,得到视频片段在每个食材类别上的预测分数。
7.如权利要求6所述的方法,其特征在于,对于非食材商品识别,具体包括以下子步骤:
2.b.1提取视频片段的图像帧的关键帧;
2.b.2预处理,使用网络公开的商品数据集RPC,训练一个fast r-cnn网络;RPC数据集包括多张商品图,每张图片用多个检测框bbox给所有检测框bbox一个统一的标签“商品”类别;在训练时,构建一个商品图像库,该库包含多个商品图像,每个图像都包含一个商品,并且是干净背景的,对于该商品库的所有图片,使用紧凑视觉搜索技术建立提取特征,建立索引;
2.b.3对每一个关键帧,使用训练好的fast r-cnn进行商品区域的检测,产生多个检测框bbox,以及检测框bbox的预测分数,保留预测分数大于0.5的检测框bbox。
2.b.4对每个关键帧,使用检测框bbox对图像进行剪裁,生成多个局部图。
2.b.5对每个关键帧,将其剪裁出的多个局部图,每个局部图都使用紧凑视觉搜索技术提取特征,使用商品库建立的索引,在商品库中检索相关的商品,得到每个局部图的相关商品列表,其中相关程度从高到低。
2.b.6对于一个视频片段的多个关键帧,每个关键帧都有多个局部图,每个图有一个相关商品列表,按照局部图的预测分数得到相关商品列表。
8.如权利要求7所述的方法,其特征在于,所述步骤2.a.2的空间正则化网络包括
将关键帧依次输入ResNet50,提供粗略的类预测以及初步特征fcls;
将初步特征fcls输入空间正则化模块,生成两个特征图,注意力特征图fatt和置信度特征图fcof;
然后fatt被fcof重新加权,并输出一系列卷积层的精确预测结果通过对fatt进行线性转换样得到一个粗略的预测
通过得到预测值。
9.如权利要求8所述的方法,其特征在于,所述步骤2.b.2和步骤2.b.5中的紧凑视觉搜索技术的特征提取包括兴趣点检测,局部特征选择,局部特征描述,局部特征压缩,局部特征位置压缩,局部特征聚合。
10.如权利要求9所述的方法,其特征在于,所述步骤一中,对于***的非局部块,位置i的输出为其中, xi为位置i的输入,xj为位置j的输入,g(xj)=Wgxj,其中Wg是一个可学习的权重矩阵。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910508074.9A CN110378215B (zh) | 2019-06-12 | 2019-06-12 | 基于第一人称视角购物视频的购物分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910508074.9A CN110378215B (zh) | 2019-06-12 | 2019-06-12 | 基于第一人称视角购物视频的购物分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110378215A true CN110378215A (zh) | 2019-10-25 |
CN110378215B CN110378215B (zh) | 2021-11-02 |
Family
ID=68250201
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910508074.9A Active CN110378215B (zh) | 2019-06-12 | 2019-06-12 | 基于第一人称视角购物视频的购物分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110378215B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112906759A (zh) * | 2021-01-29 | 2021-06-04 | 哈尔滨工业大学 | 一种基于纯视觉的免门禁无人商店结账方法 |
CN113392671A (zh) * | 2020-02-26 | 2021-09-14 | 上海依图信息技术有限公司 | 基于顾客动作的商品检索方法、装置及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101978370A (zh) * | 2008-03-21 | 2011-02-16 | 日升研发控股有限责任公司 | 获取在购物者的产品选择期间实际的实时购物者行为数据 |
US20150154456A1 (en) * | 2012-07-11 | 2015-06-04 | Rai Radiotelevisione Italiana S.P.A. | Method and an apparatus for the extraction of descriptors from video content, preferably for search and retrieval purpose |
CN109063534A (zh) * | 2018-05-25 | 2018-12-21 | 隆正信息科技有限公司 | 一种基于图像的购物识别和表意方法 |
CN109166007A (zh) * | 2018-08-23 | 2019-01-08 | 深圳码隆科技有限公司 | 一种基于自动售货机的商品推荐方法及其装置 |
CN109711481A (zh) * | 2019-01-02 | 2019-05-03 | 京东方科技集团股份有限公司 | 用于画作多标签识别的神经网络、相关方法、介质和设备 |
-
2019
- 2019-06-12 CN CN201910508074.9A patent/CN110378215B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101978370A (zh) * | 2008-03-21 | 2011-02-16 | 日升研发控股有限责任公司 | 获取在购物者的产品选择期间实际的实时购物者行为数据 |
US20150154456A1 (en) * | 2012-07-11 | 2015-06-04 | Rai Radiotelevisione Italiana S.P.A. | Method and an apparatus for the extraction of descriptors from video content, preferably for search and retrieval purpose |
CN109063534A (zh) * | 2018-05-25 | 2018-12-21 | 隆正信息科技有限公司 | 一种基于图像的购物识别和表意方法 |
CN109166007A (zh) * | 2018-08-23 | 2019-01-08 | 深圳码隆科技有限公司 | 一种基于自动售货机的商品推荐方法及其装置 |
CN109711481A (zh) * | 2019-01-02 | 2019-05-03 | 京东方科技集团股份有限公司 | 用于画作多标签识别的神经网络、相关方法、介质和设备 |
Non-Patent Citations (2)
Title |
---|
朱柳依: "结合模板匹配与单样本深度学习的货架商品定位与识别技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
陈若愚: "超市中人体异常行为识别方法的研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113392671A (zh) * | 2020-02-26 | 2021-09-14 | 上海依图信息技术有限公司 | 基于顾客动作的商品检索方法、装置及电子设备 |
CN112906759A (zh) * | 2021-01-29 | 2021-06-04 | 哈尔滨工业大学 | 一种基于纯视觉的免门禁无人商店结账方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110378215B (zh) | 2021-11-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10671853B2 (en) | Machine learning for identification of candidate video insertion object types | |
Gu et al. | Ava: A video dataset of spatio-temporally localized atomic visual actions | |
US8750602B2 (en) | Method and system for personalized advertisement push based on user interest learning | |
Zhang et al. | Context-aware surveillance video summarization | |
Shao et al. | Deeply learned attributes for crowded scene understanding | |
KR20230087622A (ko) | 스트리밍 비디오 내의 객체를 검출하고, 필터링하고 식별하기 위한 방법 및 장치 | |
EP1444644B1 (en) | A computerized method for discovering patterns in unknown multi-dimensional data | |
US20160239711A1 (en) | Visual Data Mining | |
JP2006508565A (ja) | 映像の未知の内容を要約する方法 | |
US20110106656A1 (en) | Image-based searching apparatus and method | |
CN103714181B (zh) | 一种层级化的特定人物检索方法 | |
CN112738556B (zh) | 视频处理方法及装置 | |
JP2006505040A (ja) | 映像の内容をマイニングする方法 | |
CN102165464A (zh) | 用于对视频内容中的人进行自动注释的方法和*** | |
CN111984824A (zh) | 一种基于多模态的视频推荐方法 | |
CN109658194A (zh) | 一种基于视频追踪的客户推荐方法及*** | |
CN110378215A (zh) | 基于第一人称视角购物视频的购物分析方法 | |
CN110379483A (zh) | 针对疾病人群的饮食监督与推荐方法 | |
CN117132368B (zh) | 一种基于ai的新媒体智能营销平台 | |
US20040086180A1 (en) | Pattern discovery in video content using association rules on multiple sets of labels | |
Haroon et al. | Video scene detection using compact bag of visual word models | |
Vandecasteele et al. | Spott: On-the-spot e-commerce for television using deep learning-based video analysis techniques | |
Lu et al. | Temporal segmentation and assignment of successive actions in a long-term video | |
CN113742487A (zh) | 一种商品自动化匹配方法 | |
Wang et al. | Recognition of multi-modal fusion images with irregular interference |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |