CN110263733A - 图像处理方法、提名评估方法及相关装置 - Google Patents

图像处理方法、提名评估方法及相关装置 Download PDF

Info

Publication number
CN110263733A
CN110263733A CN201910552360.5A CN201910552360A CN110263733A CN 110263733 A CN110263733 A CN 110263733A CN 201910552360 A CN201910552360 A CN 201910552360A CN 110263733 A CN110263733 A CN 110263733A
Authority
CN
China
Prior art keywords
nomination
sequence
feature
probability
timing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910552360.5A
Other languages
English (en)
Other versions
CN110263733B (zh
Inventor
苏海昇
王蒙蒙
甘伟豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Sensetime Intelligent Technology Co Ltd
Original Assignee
Shanghai Sensetime Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Sensetime Intelligent Technology Co Ltd filed Critical Shanghai Sensetime Intelligent Technology Co Ltd
Priority to CN201910552360.5A priority Critical patent/CN110263733B/zh
Publication of CN110263733A publication Critical patent/CN110263733A/zh
Priority to KR1020207023267A priority patent/KR20210002355A/ko
Priority to SG11202009661VA priority patent/SG11202009661VA/en
Priority to US16/975,213 priority patent/US20230094192A1/en
Priority to PCT/CN2019/111476 priority patent/WO2020258598A1/zh
Priority to JP2020543216A priority patent/JP7163397B2/ja
Priority to TW109103874A priority patent/TWI734375B/zh
Application granted granted Critical
Publication of CN110263733B publication Critical patent/CN110263733B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例涉及计算机视觉领域,公开了一种时序提名生成方法及装置,该方法可包括:获取视频流的第一特征序列;基于该第一特征序列,得到第一对象边界概率序列,其中,该第一对象边界概率序列包含该多个片段属于对象边界的概率;基于该视频流的第二特征序列,得到第二对象边界概率序列;该第二特征序列和该第一特征序列包括的特征数据相同且排列顺序相反;基于该第一对象边界概率序列和该第二对象边界概率序列,生成时序对象提名集。本申请实施例中,基于融合后的概率序列生成时序对象提名集,使得生成的时序提名的边界更精确。

Description

图像处理方法、提名评估方法及相关装置
技术领域
本发明涉及图像处理领域,尤其涉及一种图像处理方法、提名评估方法及相关装置。
背景技术
时序对象检测技术是视频行为理解领域一个重要且极具挑战性的课题。时序对象检测技术在很多领域都起到重要作用,比如视频推荐,安防监控以及智能家居等等。
时序对象检测任务旨在从未修剪的长视频中定位到对象出现的具体时间和类别。此类问题的一大难点是如何提高生成的时序对象提名的质量。高质量的时序对象提名应该具备两个关键属性:(1)生成的提名应该尽可能地覆盖真实的对象标注;(2)提名的质量应该能够被全面且准确地评估,为每一个提名生成一个置信度分数用于后续检索。当前,采用的时序提名生成方法通常存在生成提名的边界不够准确的问题。
发明内容
本发明实施例提供了一种视频处理方案。
第一方面,本申请实施例提供了一种图像处理方法,该方法可包括:获取视频流的第一特征序列,其中,该第一特征序列包含该视频流的多个片段中每个片段的特征数据;基于该第一特征序列,得到第一对象边界概率序列,其中,该第一对象边界概率序列包含该多个片段属于对象边界的概率;基于该视频流的第二特征序列,得到第二对象边界概率序列;该第二特征序列和该第一特征序列包括的特征数据相同且排列顺序相反;基于该第一对象边界概率序列和该第二对象边界概率序列,生成时序对象提名集。
本申请实施例中,基于融合后的对象边界概率序列生成时序对象提名集,可以得到边界更精确的概率序列,使得生成的时序对象提名的质量更高。
在一个可选的实现方式中,该基于该视频流的第二特征序列,得到第二对象边界概率序列之前,该方法还包括:将该第一特征序列进行时序翻转处理,得到该第二特征序列。
在该实现方式中,对第一特征序列进行时序翻转处理以得到第二特征序列,操作简单。
在一个可选的实现方式中,该基于该第一对象边界概率序列和该第二对象边界概率序列,生成时序对象提名集包括:对该第一对象边界概率序列以及该第二对象边界概率序列进行融合处理,得到目标边界概率序列;基于该目标边界概率序列,生成该时序对象提名集。
在该实现方式中,通过对两个对象边界序列进行融合处理可以得到一个边界更加准确地对象边界概率,进而生成质量更高的时序对象提名集。
在一个可选的实现方式中,该对该第一对象边界概率序列以及该第二对象边界概率序列进行融合处理,得到目标边界概率序列包括:将该第二对象边界概率序列进行时序翻转处理,得到第三对象边界概率序列;融合该第一对象边界概率序列和该第三对象边界概率序列,得到该目标边界概率序列。
在该实现方式中,从两个相反的时序方向来评估视频中每个片段的边界概率,并采用一个简单有效地的融合策略来去除噪声,使得最终定位到的时序边界拥有更高的精度。
在一个可选的实现方式中,该第一对象边界概率序列和该第二对象边界概率序列中的每个对象边界概率序列包括起始概率序列和结束概率序列;该对该第一对象边界概率序列以及该第二对象边界概率序列进行融合处理,得到目标边界概率序列包括:将该第一对象边界概率序列和该第二对象边界概率序列中的起始概率序列进行融合处理,得到目标起始概率序列;和/或
将该第一对象边界概率序列和该第二对象边界概率序列中的结束概率序列进行融合处理,得到目标结束概率序列,其中,该目标边界概率序列包括该目标初始概率序列和该目标结束概率序列的至少一项。
在该实现方式中,从两个相反的时序方向来评估视频中每个片段的边界概率,并采用一个简单有效地的融合策略来去除噪声,使得最终定位到的时序边界拥有更高的精度。
在一个可选的实现方式中,基于该目标边界概率序列,生成该时序对象提名集包括:基于该目标边界概率序列包括的目标起始概率序列和目标结束概率序列,生成该时序对象提名集;
或者,基于该目标边界概率序列包括的目标起始概率序列和该第一对象边界概率序列包括的结束概率序列,生成该时序对象提名集;
或者,基于该目标边界概率序列包括的目标起始概率序列和该第二对象边界概率序列包括的结束概率序列,生成该时序对象提名集;
或者,基于该第一对象边界概率序列包括的起始概率序列和该目标边界概率序列包括的目标结束概率序列,生成该时序对象提名集;
或者,基于该第二对象边界概率序列包括的起始概率序列和该目标边界概率序列包括的目标结束概率序列,生成该时序对象提名集。
在该实现方式中,可以快速、准确地生成候选时序对象提名集。
在一个可选的实现方式中,该基于该目标边界概率序列包括的目标起始概率序列和目标结束概率序列,生成该时序对象提名集包括:基于该目标起始概率序列中包含的该多个片段的目标起始概率,得到第一片段集,以及基于该目标结束概率序列中包括的该多个片段的目标结束概率,得到第二片段集,其中,该第一片段集包括目标起始概率超过第一阈值的片段和/或目标起始概率高于至少两个相邻片段的片段,该第二片段集包括目标结束概率超过第二阈值的片段和/或目标结束概率高于至少两个相邻片段的片段;基于该第一片段集和该第二片段集,生成该时序对象提名集。
在该实现方式中,可以快速、准确地筛选出第一片段集以及第二片段集,进而根据该第一片段集和该第二片段集生成时序对象提名集。
在一个可选的实现方式中,该图像处理方法还包括:基于该视频流的视频特征序列,得到第一时序对象提名的长期提名特征,其中,该长期提名特征对应的时间段长于该第一时序对象提名对应的时间段,该第一时序对象提名包含于该时序对象提名集;基于该视频流的视频特征序列,得到该第一时序对象提名的短期提名特征,其中,该短期提名特征对应的时间段与该第一时序对象提名对应的时间段相同;基于该长期提名特征和该短期提名特征,得到该第一时序对象提名的评估结果。
在该方式中,可以整合长期提名特征和短期提名特征之间的交互信息以及其他多粒度线索来生成丰富的提名特征,进而提高提名质量评估的准确性。
在一个可选的实现方式中,该基于该视频流的视频特征序列,得到该视频流的第一时序对象提名的长期提名特征之前,该方法还包括:基于该第一特征序列和该第二特征序列中的至少一项,得到目标动作概率序列;将该第一特征序列和该目标动作概率序列进行拼接,得到该视频特征序列。
在该实现方式中,通过拼接动作概率序列和第一特征序列,可以快速地得到包括更多特征信息的特征序列,以便于采样得到的提名特征包含的信息更丰富。
在一个可选的实现方式中,该基于该视频流的视频特征序列,得到该第一时序对象提名的短期提名特征,包括:基于该第一时序对象提名对应的时间段,对该视频特征序列进行采样,得到该短期提名特征。
在该实现方式中,可以快速、准确地提取到长期提名特征。
在一个可选的实现方式中,该基于该长期提名特征和该短期提名特征,得到该第一时序对象提名的评估结果包括:基于该长期提名特征和该短期提名特征,得到该第一时序对象提名的目标提名特征;基于该第一时序对象提名的目标提名特征,得到该第一时序对象提名的评估结果。
在该实现方式中,通过整合长期提名特征和短期提名特征可以得到一个质量更好的提名特征,以便于更准确地评估时序对象提名的质量。
在一个可选的实现方式中,该基于该长期提名特征和该短期提名特征,得到该第一时序对象提名的目标提名特征包括:对该长期提名特征和该短期特征提名执行非局部注意力操作,得到中间提名特征;将该短期提名特征和该中间提名特征进行拼接,得到该目标提名特征。
在该实现方式中,通过非局部注意力操作以及融合操作,可以得到特征更加丰富的提名特征,以便于更准确地评估时序对象提名的质量。
在一个可选的实现方式中,该基于该视频流的视频特征序列,得到第一时序对象提名的长期提名特征包括:基于该视频特征序列中对应于参考时间区间的特征数据,得到该长期提名特征,其中,该参考时间区间从该时序对象提名集中的首个时序对象的开始时间到最后一个时序对象的结束时间。
在该实现方式中,可以快速地得到长期提名特征。
在一个可选的实现方式中,该图像处理方法还包括:将该目标提名特征输入至提名评估网络进行处理,得到该第一时序对象提名的至少两项质量指标,其中,该至少两项质量指标中的第一指标用于表征该第一时序对象提名与真值的交集占该第一时序对象提名的长度比例,该至少两项质量指标中的第二指标用于表征该第一时序对象提名与该真值的交集占该真值的长度比例;根据该至少两项质量指标,得到该评估结果。
在该实现方式中,根据至少两项质量指标得到评估结果,可以更准确地评估时序对象提名的质量,评估结果质量更高。
在一个可选的实现方式中,该图像处理方法应用于时序提名生成网络,该时序提名生成网络包括提名生成网络和提名评估网络;该时序提名生成网络的训练过程包括:将训练样本输入至该时序提名生成网络进行处理,得到该提名生成网络输出的样本时序提名集和该提名评估网络输出的该样本时序提名集中包括的样本时序提名的评估结果;基于该训练样本的样本时序提名集和该样本时序提名集中包括的样本时序提名的评估结果分别与该训练样本的标注信息之间的差异,得到网络损失;基于该网络损失,调整该时序提名生成网络的网络参数。
在该方式中,在该实现方式中,将提名生成网络和提名评估网络作为一个整体进行联合训练,在有效提升时序提名集的精度的同时稳健提升了提名评估的质量,进而保证了后续提名检索的可靠性。
在一个可选的实现方式中,该图像处理方法应用于时序提名生成网络,该时序提名生成网络包括第一提名生成网络、第二提名生成网络和提名评估网络;该时序提名生成网络的训练过程包括;将第一训练样本输入至该第一提名生成网络做处理得到第一样本起始概率序列、第一样本动作概率序列、第一样本结束概率序列,以及将第二训练样本输入至该第二提名生成网络做处理得到第二样本起始概率序列、第二样本动作概率序列、第二样本结束概率序列;基于该第一样本起始概率序列、该第一样本动作概率序列、该第一样本结束概率序列、该第二样本起始概率序列、该第二样本动作概率序列、该第二样本结束概率序列,得到样本时序提名集以及样本提名特征集;将该样本提名特征集输入至该提名评估网络做处理,得到该样本提名特征集中各样本提名特征的至少两项质量指标;根据该各样本提名特征的至少两项质量指标,确定该各样本提名特征的置信度分数;根据该第一提名生成网络和该第二提名生成网络对应的第一损失和该提名评估网络对应的第二损失的加权和,更新该第一提名生成网络、该第二提名生成网络以及该提名评估网络。
在该实现方式中,将第一提名生成网络、第二提名生成网络、提名评估网络作为一个整体进行联合训练,在有效提升时序提名集的精度的同时稳健提升了提名评估的质量,进而保证了后续提名检索的可靠性。
在一个可选的实现方式中,该基于该第一样本起始概率序列、该第一样本动作概率序列、该第一样本结束概率序列、该第二样本起始概率序列、该第二样本动作概率序列、该第二样本结束概率序列,得到样本时序提名集包括:融合该第一样本起始概率序列和该第二样本起始概率序列,得到目标样本起始概率序列;融合该第一样本结束概率序列和该第二样本结束概率序列,得到目标样本结束概率序列;基于该目标样本起始概率序列和该目标样本结束概率序列,生成该样本时序提名集。
在该实现方式中,从两个相反的时序方向来评估视频中每个片段的边界概率,并采用一个简单有效地的融合策略来去除噪声,使得最终定位到的时序边界拥有更高的精度。
在一个可选的实现方式中,该第一损失为以下任一项或以下至少两项的加权和:该目标样本起始概率序列相对于真实样本起始概率序列的损失、该目标样本结束概率序列相对于真实样本结束概率序列的损失以及该目标样本动作概率序列相对于真实样本动作概率序列的损失;该第二损失为该各样本提名特征的至少一项质量指标相对于各样本提名特征的真实质量指标的损失。
在该实现方式中,可以快速训练得到第一提名生成网络、第二提名生成网络以及提名评估网络。
第二方面,本申请实施例提供了一种提名评估方法,该方法可包括:基于视频流的视频特征序列,得到第一时序对象提名的长期提名特征,其中,该视频特征序列包含该视频流包含的多个片段中每个片段的特征数据和基于该视频流得到的动作概率序列,或者,该视频特征序列为基于该视频流得到的动作概率序列,该长期提名特征对应的时间段长于该第一时序对象提名对应的时间段,该第一时序对象提名包含于基于该视频流得到的时序对象提名集;基于该视频流的视频特征序列,得到该第一时序对象提名的短期提名特征,其中,该短期提名特征对应的时间段与该第一时序对象提名对应的时间段相同;基于该长期提名特征和该短期提名特征,得到该第一时序对象提名的评估结果。
本申请实施例中,通过整合长期提名特征和短期提名特征之间的交互信息以及其他多粒度线索来生成丰富的提名特征,进而提高提名质量评估的准确性。
在一个可选的实现方式中,该基于视频流的视频特征序列,得到第一时序对象提名的长期提名特征之前,该方法还包括:基于第一特征序列和第二特征序列中的至少一项,得到目标动作概率序列;其中,该第一特征序列和该第二特征序列均包含该视频流的多个片段中每个片段的特征数据,且该第二特征序列和该第一特征序列包括的特征数据相同且排列顺序相反;将该第一特征序列和该目标动作概率序列进行拼接,得到该视频特征序列。
在该实现方式中,通过拼接动作概率序列和第一特征序列,可以快速地得到包括更多特征信息的特征序列,以便于采样得到的提名特征包含的信息更丰富。
在一个可选的实现方式中,该基于该视频流的视频特征序列,得到该第一时序对象提名的短期提名特征包括:基于该第一时序对象提名对应的时间段,对该视频特征序列进行采样,得到该短期提名特征。
在该实现方式中,可以快速地得到短期提名特征。
在一个可选的实现方式中,该基于该长期提名特征和该短期提名特征,得到该第一时序对象提名的评估结果包括:基于该长期提名特征和该短期提名特征,得到该第一时序对象提名的目标提名特征;基于该第一时序对象提名的目标提名特征,得到该第一时序对象提名的评估结果。
在该实现方式中,通过整合长期提名特征和短期提名特征可以得到一个质量更好的提名特征,以便于更准确地评估时序对象提名的质量。
在一个可选的实现方式中,该基于该长期提名特征和该短期提名特征,得到该第一时序对象提名的目标提名特征包括:对该长期提名特征和该短期特征提名执行非局部注意力操作,得到中间提名特征;将该短期提名特征和该中间提名特征进行拼接,得到该目标提名特征。
在该实现方式中,通过非局部注意力操作以及融合操作,可以得到特征更加丰富的提名特征,以便于更准确地评估时序对象提名的质量。
在一个可选的实现方式中,该基于该视频流的视频特征序列,得到第一时序对象提名的长期提名特征包括:基于该视频特征序列中对应于参考时间区间的特征数据,得到该长期提名特征,其中,该参考时间区间从该时序对象提名集中的首个时序对象的开始时间到最后一个时序对象的结束时间。
在该实现方式中,可以快速地得到长期提名特征。
在一个可选的实现方式中,该基于该第一时序对象提名的目标提名特征,得到该第一时序对象提名的评估结果包括:将该目标提名特征输入至提名评估网络进行处理,得到该第一时序对象提名的至少两项质量指标,其中,该至少两项质量指标中的第一指标用于表征该第一时序对象提名与真值的交集占该第一时序对象提名的长度比例,该至少两项质量指标中的第二指标用于表征该第一时序对象提名与该真值的交集占该真值的长度比例;根据该至少两项质量指标,得到该评估结果。
在该实现方式中,根据至少两项质量指标得到评估结果,可以更准确地评估时序对象提名的质量,评估结果质量更高。
第三方面,本申请实施例提供了另一种提名评估方法,该方法可包括:基于视频流的第一特征序列,得到所述视频流的目标动作概率序列,其中,所述第一特征序列包含所述视频流的多个片段中每个片段的特征数据;将所述第一特征序列和所述目标动作概率序列进行拼接,得到视频特征序列;基于所述视频特征序列,得到所述视频流的第一时序对象提名的评估结果。
本申请实施例中,将特征序列和目标动作概率序列在通道维度上进行拼接得到包括更多特征信息的视频特征序列,以便于采样得到的提名特征包含的信息更丰富。
在一个可选的实现方式中,所述基于视频流的第一特征序列,得到所述视频流的目标动作概率序列包括:基于所述第一特征序列,得到第一动作概率序列;基于所述视频流的第二特征序列,得到第二动作概率序列,其中,所述第二特征序列和所述第一特征序列包括的特征数据相同且排列顺序相反;对所述第一动作概率序列和所述第二动作概率序列进行融合处理,得到所述目标动作概率序列。
在该实现方式中,从两个相反的时序方向来评估视频中每个时刻(即时间点)的边界概率,并采用一个简单有效地的融合策略来去除噪声,使得最终定位到的时序边界拥有更高的精度。
在一个可选的实现方式中,所述对所述第一动作概率序列和所述第二动作概率序列进行融合处理,得到所述目标动作概率序列包括:将所述第二动作概率序列进行时序翻转处理,得到第三动作概率序列;融合所述第一动作概率序列和所述第三动作概率序列,得到所述目标动作概率序列。
在一个可选的实现方式中,所述基于所述视频特征序列,得到所述视频流的第一时序对象提名的评估结果包括:基于所述第一时序对象提名对应的时间段,对所述视频特征序列进行采样,得到目标提名特征;基于所述目标提名特征,得到所述第一时序对象提名的评估结果。
在一个可选的实现方式中,所述基于所述目标提名特征,得到所述第一时序对象提名的评估结果包括:将所述目标提名特征输入至提名评估网络进行处理,得到所述第一时序对象提名的至少两项质量指标,其中,所述至少两项质量指标中的第一指标用于表征所述第一时序对象提名与真值的交集占所述第一时序对象提名的长度比例,所述至少两项质量指标中的第二指标用于表征所述第一时序对象提名与所述真值的交集占所述真值的长度比例;根据所述至少两项质量指标,得到所述评估结果。
在一个可选的实现方式中,所述基于所述视频特征序列,得到所述视频流的第一时序对象提名的评估结果之前,所述方法还包括:基于所述第一特征序列,得到第一对象边界概率序列,其中,所述第一对象边界概率序列包含所述多个片段属于对象边界的概率;基于所述视频流的第二特征序列,得到第二对象边界概率序列;基于所述第一对象边界概率序列和所述第二对象边界概率序列,生成所述第一时序对象提名。
在一个可选的实现方式中,所述基于所述第一对象边界概率序列和所述第二对象边界概率序列,生成所述第一时序对象提名包括:对所述第一对象边界概率序列以及所述第二对象边界概率序列进行融合处理,得到目标边界概率序列;基于所述目标边界概率序列,生成所述第一时序对象提名。
在一个可选的实现方式中,所述对所述第一对象边界概率序列以及所述第二对象边界概率序列进行融合处理,得到目标边界概率序列包括:将所述第二对象边界概率序列进行时序翻转处理,得到第三对象边界概率序列;融合所述第一对象边界概率序列和所述第三对象边界概率序列,得到所述目标边界概率序列。
第四方面,本申请实施例提供了另一种提名评估方法,该方法可包括:基于视频流的第一特征序列,得到第一动作概率序列,其中,所述第一特征序列包含所述视频流的多个片段中每个片段的特征数据;基于所述视频流的第二特征序列,得到第二动作概率序列,其中,所述第二特征序列和所述第一特征序列包括的特征数据相同且排列顺序相反;基于所述第一动作概率序列和所述第二动作概率序列,得到所述视频流的目标动作概率序列;基于所述视频流的目标动作概率序列,得到所述视频流的第一时序对象提名的评估结果。
本申请实施例中,基于第一动作概率序列和第二动作概率序列可以得到更加准确地的目标动作概率序列,以便于利用该目标动作概率序列更准确地评估时序对象提名的质量。
在一个可选的实现方式中,所述基于所述第一动作概率序列和所述第二动作概率序列,得到所述视频流的目标动作概率序列包括:对所述第一动作概率序列和所述第二动作概率序列进行融合处理,得到所述目标动作概率序列。
在一个可选的实现方式中,所述对所述第一动作概率序列和所述第二动作概率序列进行融合处理,得到所述目标动作概率序列包括:对所述第二动作概率序列进行时序翻转,得到第三动作概率序列;融合所述第一动作概率序列和所述第三动作概率序列,得到所述目标动作概率序列。
在一个可选的实现方式中,所述基于所述视频流的目标动作概率序列,得到所述视频流的第一时序对象提名的评估结果包括:基于所述目标动作概率序列,得到所述第一时序对象提名的长期提名特征,其中,所述长期提名特征对应的时间段长于所述第一时序对象提名对应的时间段;基于所述目标动作概率序列,得到所述第一时序对象提名的短期提名特征,其中,所述短期提名特征对应的时间段与所述第一时序对象提名对应的时间段相同;基于所述长期提名特征和所述短期提名特征,得到所述第一时序对象提名的评估结果。
在一个可选的实现方式中,所述基于所述目标动作概率序列,得到所述第一时序对象提名的长期提名特征包括:对所述目标动作概率序列进行采样,得到所述长期提名特征。
在一个可选的实现方式中,所述基于所述目标动作概率序列,得到所述第一时序对象提名的短期提名特征包括:基于所述第一时序对象提名对应的时间段,对所述目标动作概率序列进行采样,得到所述短期提名特征。
在一个可选的实现方式中,所述基于所述长期提名特征和所述短期提名特征,得到所述第一时序对象提名的评估结果包括:基于所述长期提名特征和所述短期提名特征,得到所述第一时序对象提名的目标提名特征;基于所述第一时序对象提名的目标提名特征,得到所述第一时序对象提名的评估结果。
在一个可选的实现方式中,所述基于所述长期提名特征和所述短期提名特征,得到所述第一时序对象提名的目标提名特征包括:对所述长期提名特征和所述短期特征提名执行非局部注意力操作,得到中间提名特征;将所述短期提名特征和所述中间提名特征进行拼接,得到所述目标提名特征。
第五方面,本申请实施例提供了一种图像处理装置,该装置可包括:
获取单元,用于获取视频流的第一特征序列,其中,该第一特征序列包含该视频流的多个片段中每个片段的特征数据;
处理单元,用于基于该第一特征序列,得到第一对象边界概率序列,其中,该第一对象边界概率序列包含该多个片段属于对象边界的概率;
该处理单元,还用于基于该视频流的第二特征序列,得到第二对象边界概率序列;该第二特征序列和该第一特征序列包括的特征数据相同且排列顺序相反;
生成单元,还用于基于该第一对象边界概率序列和该第二对象边界概率序列,生成时序对象提名集。
在一个可选的实现方式中,该装置还包括:时序翻转单元,用于将该第一特征序列进行时序翻转处理,得到该第二特征序列。
在一个可选的实现方式中,该生成单元,具体用于对该第一对象边界概率序列以及该第二对象边界概率序列进行融合处理,得到目标边界概率序列;基于该目标边界概率序列,生成该时序对象提名集。
在一个可选的实现方式中,该生成单元,具体用于将该第二对象边界概率序列进行时序翻转处理,得到第三对象边界概率序列;融合该第一对象边界概率序列和该第三对象边界概率序列,得到该目标边界概率序列。
在一个可选的实现方式中,该第一对象边界概率序列和该第二对象边界概率序列中的每个对象边界概率序列包括起始概率序列和结束概率序列;
该生成单元,具体用于将该第一对象边界概率序列和该第二对象边界概率序列中的起始概率序列进行融合处理,得到目标起始概率序列;和/或
该生成单元,具体用于将该第一对象边界概率序列和该第二对象边界概率序列中的结束概率序列进行融合处理,得到目标结束概率序列,其中,该目标边界概率序列包括该目标初始概率序列和该目标结束概率序列的至少一项。
在一个可选的实现方式中,该生成单元,具体用于基于该目标边界概率序列包括的目标起始概率序列和目标结束概率序列,生成该时序对象提名集;
或者,该生成单元,具体用于基于该目标边界概率序列包括的目标起始概率序列和该第一对象边界概率序列包括的结束概率序列,生成该时序对象提名集;
或者,该生成单元,具体用于基于该目标边界概率序列包括的目标起始概率序列和该第二对象边界概率序列包括的结束概率序列,生成该时序对象提名集;
或者,该生成单元,具体用于基于该第一对象边界概率序列包括的起始概率序列和该目标边界概率序列包括的目标结束概率序列,生成该时序对象提名集;
或者,该生成单元,具体用于基于该第二对象边界概率序列包括的起始概率序列和该目标边界概率序列包括的目标结束概率序列,生成该时序对象提名集。
在一个可选的实现方式中,该生成单元,具体用于基于该目标起始概率序列中包含的该多个片段的目标起始概率,得到第一片段集,以及基于该目标结束概率序列中包括的该多个片段的目标结束概率,得到第二片段集,其中,该第一片段集包括目标起始概率超过第一阈值的片段和/或目标起始概率高于至少两个相邻片段的片段,该第二片段集包括目标结束概率超过第二阈值的片段和/或目标结束概率高于至少两个相邻片段的片段;基于该第一片段集和该第二片段集,生成该时序对象提名集。
在一个可选的实现方式中,该装置还包括:特征确定单元,还用于基于该视频流的视频特征序列,得到第一时序对象提名的长期提名特征,其中,该长期提名特征对应的时间段长于该第一时序对象提名对应的时间段,该第一时序对象提名包含于该时序对象提名集;基于该视频流的视频特征序列,得到该第一时序对象提名的短期提名特征,其中,该短期提名特征对应的时间段与该第一时序对象提名对应的时间段相同;
评估单元,用于基于该长期提名特征和该短期提名特征,得到该第一时序对象提名的评估结果。
在一个可选的实现方式中,该特征确定单元,还用于基于该第一特征序列和该第二特征序列中的至少一项,得到目标动作概率序列;将该第一特征序列和该目标动作概率序列进行拼接,得到该视频特征序列。
在一个可选的实现方式中,该特征确定单元,具体用于基于该第一时序对象提名对应的时间段,对该视频特征序列进行采样,得到该短期提名特征。
在一个可选的实现方式中,该特征确定单元,具体用于基于该长期提名特征和该短期提名特征,得到该第一时序对象提名的目标提名特征;
该评估单元,具体用于基于该第一时序对象提名的目标提名特征,得到该第一时序对象提名的评估结果。
在一个可选的实现方式中,该特征确定单元,具体用于对该长期提名特征和该短期特征提名执行非局部注意力操作,得到中间提名特征;将该短期提名特征和该中间提名特征进行拼接,得到该目标提名特征。
在一个可选的实现方式中,该特征确定单元,具体用于基于该视频特征序列中对应于参考时间区间的特征数据,得到该长期提名特征,其中,该参考时间区间从该时序对象提名集中的首个时序对象的开始时间到最后一个时序对象的结束时间。
在一个可选的实现方式中,该评估单元,具体用于将该目标提名特征输入至提名评估网络进行处理,得到该第一时序对象提名的至少两项质量指标,其中,该至少两项质量指标中的第一指标用于表征该第一时序对象提名与真值的交集占该第一时序对象提名的长度比例,该至少两项质量指标中的第二指标用于表征该第一时序对象提名与该真值的交集占该真值的长度比例;根据该至少两项质量指标,得到该评估结果。
在一个可选的实现方式中,该装置执行的图像处理方法应用于时序提名生成网络,该时序提名生成网络包括提名生成网络和提名评估网络;其中,该处理单元用于实现该提名生成网络的功能,该评估单元用于实现该提名评估网络的功能;
该时序提名生成网络的训练过程包括:将训练样本输入至该时序提名生成网络进行处理,得到该提名生成网络输出的样本时序提名集和该提名评估网络输出的该样本时序提名集中包括的样本时序提名的评估结果;基于该训练样本的样本时序提名集和该样本时序提名集中包括的样本时序提名的评估结果分别与该训练样本的标注信息之间的差异,得到网络损失;基于该网络损失,调整该时序提名生成网络的网络参数。
第六方面,本申请实施例提供了一种提名评估装置,该装置包括:特征确定单元,用于基于视频流的视频特征序列,得到第一时序对象提名的长期提名特征,其中,该视频特征序列包含该视频流包含的多个片段中每个片段的特征数据和基于该视频流得到的动作概率序列,或者,该视频特征序列为基于该视频流得到的动作概率序列,该长期提名特征对应的时间段长于该第一时序对象提名对应的时间段,该第一时序对象提名包含于基于该视频流得到的时序对象提名集;
该特征确定单元,还用于基于该视频流的视频特征序列,得到该第一时序对象提名的短期提名特征,其中,该短期提名特征对应的时间段与该第一时序对象提名对应的时间段相同;
评估单元,用于基于该长期提名特征和该短期提名特征,得到该第一时序对象提名的评估结果。
在一个可选的实现方式中,该装置还包括:
处理单元,用于基于第一特征序列和第二特征序列中的至少一项,得到目标动作概率序列;该第一特征序列和该第二特征序列均包含该视频流的多个片段中每个片段的特征数据,且该第二特征序列和该第一特征序列包括的特征数据相同且排列顺序相反;
拼接单元,用于将该第一特征序列和该目标动作概率序列进行拼接,得到该视频特征序列。
在一个可选的实现方式中,该特征确定单元,具体用于基于该第一时序对象提名对应的时间段,对该视频特征序列进行采样,得到该短期提名特征。
在一个可选的实现方式中,该特征确定单元,具体用于基于该长期提名特征和该短期提名特征,得到该第一时序对象提名的目标提名特征;
该评估单元,具体用于基于该第一时序对象提名的目标提名特征,得到该第一时序对象提名的评估结果。
在一个可选的实现方式中,该特征确定单元,具体用于对该长期提名特征和该短期特征提名执行非局部注意力操作,得到中间提名特征;将该短期提名特征和该中间提名特征进行拼接,得到该目标提名特征。
在一个可选的实现方式中,该特征确定单元,具体用于基于该视频特征序列中对应于参考时间区间的特征数据,得到该长期提名特征,其中,该参考时间区间从该时序对象提名集中的首个时序对象的开始时间到最后一个时序对象的结束时间。
在一个可选的实现方式中,该特征确定单元,具体用于基于该视频特征序列中对应于参考时间区间的特征数据,得到该长期提名特征,其中,该参考时间区间从该时序对象提名集中的首个时序对象的开始时间到最后一个时序对象的结束时间。
第七方面,本申请实施例提供了另一种提名评估装置,该装置可包括:处理单元,用于基于视频流的第一特征序列,得到所述视频流的目标动作概率序列,其中,所述第一特征序列包含所述视频流的多个片段中每个片段的特征数据;
拼接单元,用于将所述第一特征序列和所述目标动作概率序列进行拼接,得到视频特征序列;
评估单元,用于基于所述视频特征序列,得到所述视频流的第一时序对象提名的评估结果。
在一个可选的实现方式中,所述处理单元,具体用于基于所述第一特征序列,得到第一动作概率序列;基于所述视频流的第二特征序列,得到第二动作概率序列,其中,所述第二特征序列和所述第一特征序列包括的特征数据相同且排列顺序相反;对所述第一动作概率序列和所述第二动作概率序列进行融合处理,得到所述目标动作概率序列。
在一个可选的实现方式中,所述处理单元,具体用于将所述第二动作概率序列进行时序翻转处理,得到第三动作概率序列;融合所述第一动作概率序列和所述第三动作概率序列,得到所述目标动作概率序列。
在一个可选的实现方式中,所述评估单元,具体用于基于所述第一时序对象提名对应的时间段,对所述视频特征序列进行采样,得到目标提名特征;基于所述目标提名特征,得到所述第一时序对象提名的评估结果。
在一个可选的实现方式中,所述评估单元,具体用于将所述目标提名特征输入至提名评估网络进行处理,得到所述第一时序对象提名的至少两项质量指标,其中,所述至少两项质量指标中的第一指标用于表征所述第一时序对象提名与真值的交集占所述第一时序对象提名的长度比例,所述至少两项质量指标中的第二指标用于表征所述第一时序对象提名与所述真值的交集占所述真值的长度比例;根据所述至少两项质量指标,得到所述评估结果。
在一个可选的实现方式中,所述处理单元,还用于基于所述第一特征序列,得到第一对象边界概率序列,其中,所述第一对象边界概率序列包含所述多个片段属于对象边界的概率;基于所述视频流的第二特征序列,得到第二对象边界概率序列;基于所述第一对象边界概率序列和所述第二对象边界概率序列,生成所述第一时序对象提名。
在一个可选的实现方式中,所述处理单元,具体用于对所述第一对象边界概率序列以及所述第二对象边界概率序列进行融合处理,得到目标边界概率序列;基于所述目标边界概率序列,生成所述第一时序对象提名。
在一个可选的实现方式中,所述处理单元,具体用于将所述第二对象边界概率序列进行时序翻转处理,得到第三对象边界概率序列;融合所述第一对象边界概率序列和所述第三对象边界概率序列,得到所述目标边界概率序列。
第八方面,本申请实施例提供了另一种提名评估装置,该装置可包括:处理单元,用于基于视频流的第一特征序列,得到第一动作概率序列,其中,所述第一特征序列包含所述视频流的多个片段中每个片段的特征数据;基于所述视频流的第二特征序列,得到第二动作概率序列,其中,所述第二特征序列和所述第一特征序列包括的特征数据相同且排列顺序相反;基于所述第一动作概率序列和所述第二动作概率序列,得到所述视频流的目标动作概率序列;
评估单元,用于基于所述视频流的目标动作概率序列,得到所述视频流的第一时序对象提名的评估结果。
在一个可选的实现方式中,所述处理单元,具体用于对所述第一动作概率序列和所述第二动作概率序列进行融合处理,得到所述目标动作概率序列。
在一个可选的实现方式中,所述处理单元,具体用于对所述第二动作概率序列进行时序翻转,得到第三动作概率序列;融合所述第一动作概率序列和所述第三动作概率序列,得到所述目标动作概率序列。
在一个可选的实现方式中,所述评估单元,具体用于基于所述目标动作概率序列,得到所述第一时序对象提名的长期提名特征,其中,所述长期提名特征对应的时间段长于所述第一时序对象提名对应的时间段;基于所述目标动作概率序列,得到所述第一时序对象提名的短期提名特征,其中,所述短期提名特征对应的时间段与所述第一时序对象提名对应的时间段相同;基于所述长期提名特征和所述短期提名特征,得到所述第一时序对象提名的评估结果。
在一个可选的实现方式中,所述评估单元,具体用于对所述目标动作概率序列进行采样,得到所述长期提名特征。
在一个可选的实现方式中,评估单元,具体用于基于所述第一时序对象提名对应的时间段,对所述目标动作概率序列进行采样,得到所述短期提名特征。
在一个可选的实现方式中,所述评估单元,具体用于基于所述长期提名特征和所述短期提名特征,得到所述第一时序对象提名的目标提名特征;基于所述第一时序对象提名的目标提名特征,得到所述第一时序对象提名的评估结果。
在一个可选的实现方式中,所述评估单元,具体用于对所述长期提名特征和所述短期特征提名执行非局部注意力操作,得到中间提名特征;将所述短期提名特征和所述中间提名特征进行拼接,得到所述目标提名特征。
第九方面,本申请实施例提供了另一种电子设备,该电子设备包括:存储器,用于存储程序;处理器,用于执行所述存储器存储的所述程序,当所述程序被执行时,所述处理器用于执行如上述第一方面至第四方面以及任一种可选的实现方式的方法。
第十方面,本申请实施例提供了一种芯片,该芯片包括处理器与数据接口,该处理器通过该数据接口读取存储器上存储的指令,执行如上述第一方面至第四方面以及任一种可选的实现方式的方法。
第十一方面,本申请实施例提供了一种计算机可读存储介质,该计算机存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令当被处理器执行时使该处理器执行上述第一方面至第三方面以及任一种可选的实现方式的方法。
第十二方面,本申请实施例提供了一种计算机程序产品,该计算机程序产品包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面至第三方面以及任一种可选的实现方式的方法。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对本发明实施例或背景技术中所需要使用的附图进行说明。
图1为本申请实施例提供的一种图像处理方法流程图;
图2为本申请实施例提名的一种生成时序对象提名集的过程示意图;
图3为本申请实施例提供的一种采样过程示意图;
图4为本申请实施例提供的一种非局部注意力操作的计算过程示意图;
图5为本申请实施例提供的一种图像处理装置的结构示意图;
图6为本申请实施例提供的一种提名评估方法流程图;
图7为本申请实施例提供的另一种提名评估方法流程图;
图8为本申请实施例提供的又一种提名评估方法流程图;
图9为本申请实施例提供的另一种图像处理装置的结构示意图;
图10为本申请实施例提供的一种提名评估装置的结构示意图;
图11为本申请实施例提供的另一种提名评估装置的结构示意图;
图12为本申请实施例提供的又一种提名评估装置的结构示意图;
图13为本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请实施例方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。
本申请的说明书实施例和权利要求书及上述附图中的术语“第一”、“第二”、和“第三”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元。方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应理解,本公开实施例可以应用于各种时序对象提名的生成和评估,例如,检测视频流中出现特定人物的时间段或者检测视频流中出现动作的时间段,等等,为了便于理解,下文的例子中均以动作提名进行描述,但本公开实施例对此不做限定。
时序动作检测任务旨在从未修剪的长视频中定位到动作发生的具体时间和类别。此类问题的一大难点是生成的时序动作提名的质量。高质量的时序动作提名应该具备两个关键属性:(1)生成的时序动作提名应该尽可能地覆盖真实的动作标注;(2)时序动作提名的质量应该能够被全面且准确地评估,即为每一个时序动作提名生成一个置信度分数用于后续检索。
目前主流的时序动作提名生成方法不能得到高质量的时序动作提名。因此,需要研究新的时序提名生成方法,以得到高质量的时序动作提名。本申请实施例提供的技术方案,可以按照两种或两种以上时序评估视频中任意时刻的动作概率或者边界概率,并将得到的多种评估结果(动作概率或者边界概率)进行融合,以得到高质量的概率序列,从而生成高质量的时序对象提名集(也称为候选提名集)。
本申请实施例提供的时序提名生成方法能够应用在智能视频分析、安防监控等场景。下面分别对本申请实施例提供的时序提名生成方法在智能视频分析场景以及安防监控场景中的应用进行简单的介绍。
智能视频分析场景:举例来说,图像处理装置,例如服务器,对从视频中提取出的特征序列进行处理得到候选提名集以及该候选提名集中各提名的置信度分数;根据该候选提名集和该候选提名集中各提名的置信度分数进行时序动作定位,从而提取出该视频中的精彩片段(例如打斗片段)。又举例来说,图像处理装置,例如服务器,对用户观看过的视频进行时序动作检测,从而预测该用户喜欢的视频的类型,并向该用户推荐类似的视频。
安防监控场景:图像处理装置,对从监控视频中提取出的特征序列进行处理得到候选提名集以及该候选提名集中各提名的置信度分数;根据该候选提名集和该候选提名集中各提名的置信度分数进行时序动作定位,从而提取出该监控视频中包括某些时序动作的片段。例如,从某个路口的监控视频中提取出车辆进出的片段。又举例来说,对多个监控视频进行时序动作检测,从而从该多个监控视频中找到包括某些时序动作的视频,例如车辆撞人的动作。
在上述场景中,采用本申请提供的时序提名生成方法可以得到高质量的时序对象提名集,进而高效的完成时序动作检测任务。
请参见图1,图1为本申请实施例提供的一种图像处理方法。
101、获取视频流的第一特征序列。
该第一特征序列包含该视频流的多个片段中每个片段的特征数据。本申请实施例的执行主体为图像处理装置,例如,服务器、终端设备或其他计算机设备。获取视频流的第一特征序列可以是图像处理装置按照该视频流的时序对该视频流包括的多个片段中每个片段进行特征提取以得到该第一特征序列。该第一特征序列可以是图像处理装置利用双流网络(two-stream network)对该视频流进行特征提取得到的原始双流特征序列。
102、基于第一特征序列,得到第一对象边界概率序列。
该第一对象边界概率序列包含该多个片段属于对象边界的概率,例如,包含多个片段中每个片段属于对象边界的概率。在一些实施例中,可以将该第一特征序列输入至提名生成网络做处理以得到该第一对象边界概率序列。第一对象边界概率序列可以包括第一起始概率序列和第一结束概率序列。该第一起始概率序列中的每个起始概率表示该视频流包括的多个片段中某个片段对应起始动作的概率,即某个片段为动作起始片段的概率。该第一结束概率序列中的每个结束概率表示该视频流包括的多个片段中某个片段对应结束动作的概率,即某个片段为动作结束片段的概率。
103、基于视频流的第二特征序列,得到第二对象边界概率序列。
该第二特征序列和该第一特征序列包括的特征数据相同且排列顺序相反。举例来说,第一特征序列依次包括第一特征至第M特征,第二特征序列依次包括该第M特征至该第一特征,M为大于1的整数。可选地,在一些实施例中,该第二特征序列可以为将该第一特征序列中的特征数据的时序进行翻转得到的特征序列,或者是翻转后进行其他进一步的处理得到的。可选的,图像处理装置在执行步骤103之前,将该第一特征序列进行时序翻转处理,得到该第二特征序列。或者,第二特征序列是通过其他方式得到的,本公开实施例对此不做限定。
在一些实施例中,可以将该第二特征序列输入至提名生成网络做处理以得到该第二对象边界概率序列。第二对象边界概率序列可以包括第二起始概率序列和第二结束概率序列。该第二起始概率序列中的每个起始概率表示该视频流包括的多个片段中某个片段对应起始动作的概率,即某个片段为动作起始片段的概率。该第二结束概率序列中的每个结束概率表示该视频流包括的多个片段中某个片段对应结束动作的概率,即某个片段为动作结束片段的概率。这样,该第一起始概率序列和该第二起始概率序列包含多个相同的片段对应的起始概率。举例来说,第一起始概率序列中依次包括第一片段至第N片段对应的起始概率,第二起始概率序列中依次包括该第N片段至第一片段对应的起始概率。类似地,该第一结束概率序列和该第二结束概率序列包含多个相同的片段对应的结束概率。举例来说,第一结束概率序列中依次包括第一片段至第N片段对应的结束概率,第二结束概率序列中依次包括该第N片段至第一片段对应的结束概率。
104、基于该第一对象边界概率序列和该第二对象边界概率序列,生成时序对象提名集。
在一些实施例中,可以对该第一对象边界概率序列以及该第二对象边界概率序列进行融合处理,得到目标边界概率序列;基于该目标边界概率序列,生成该时序对象提名集。例如,将该第二对象边界概率序列进行时序翻转处理,得到第三对象边界概率序列;融合该第一对象边界概率序列和该第三对象边界概率序列,得到该目标边界概率序列。再例如,将该第一对象边界概率序列进行时序翻转处理,得到第四对象边界概率序列;融合该第二对象边界概率序列和该第四对象边界概率序列,得到该目标边界概率序列。
本申请实施例中,基于融合后的概率序列生成时序对象提名集,可以得到边界更精确的概率序列,使得生成的时序对象提名的边界更精确。
下面介绍步骤101的具体实现方式。
可选的,图像处理装置将该第一特征序列输入至第一提名生成网络进行处理,得到该第一对象边界概率序列,以及将该第二特征序列输入至第二提名生成网络进行处理,得到该第二对象边界概率序列。该第一提名生成网络和第二提名生成网络可以相同,也可以不同。可选的,该第一提名生成网络和第二提名生成网络的结构和参数配置均相同,图像处理装置利用这两个网络可以并行或以任意先后顺序处理该第一特征序列和该第二特征序列,或者第一提名生成网络和第二提名生成网络具有相同的超参数,而网络参数是在训练过程学习到的,其数值可以相同,也可以不同。
可选的,图像处理装置先将该第一特征序列输入至提名生成网络进行处理,得到该第一对象边界概率序列,再将该第二特征序列输入至提名生成网络进行处理,得到该第二对象边界概率序列。也就是说,图像处理装置可以利用同一个提名生成网络串行处理该第一特征序列和该第二特征序列。
在本公开实施例中,可选的,提名生成网络包含三个时序卷积层,或者包含其他数量的卷积层和/或其他类型的处理层。每一个时序卷积层定义为Conv(nf,k,Act),其中,nf,k,Act分别代表卷积核个数,卷积核大小以及激活函数。在一个例子中,对于每个提名生成网络的前两个时序卷积层,nf可以为512,k可以为3,使用线性整流函数(Rectified LinearUnit,ReLU)作为激活函数,而最后一个时序卷积层的nf可以为3,k可以为1,使用Sigmoid激活函数用作预测输出,但本公开实施例对提名生成网络的具体实现不作限定。
在该实现方式中,图像处理装置分别对第一特征序列和第二特征序列进行处理,以便于对处理得到的两个对象边界概率序列进行融合以得到更准确的对象边界概率序列。
下面描述如何对第一对象边界概率序列和第二对象边界概率序列进行融合处理,以得到目标边界概率序列。
在一个可选的实现方式中,该第一对象边界概率序列和该第二对象边界概率序列中的每个对象边界概率序列包括起始概率序列和结束概率序列。相应地,将该第一对象边界概率序列和该第二对象边界概率序列中的起始概率序列进行融合处理,得到目标起始概率序列;和/或,将该第一对象边界概率序列和该第二对象边界概率序列中的结束概率序列进行融合处理,得到目标结束概率序列,其中,该目标边界概率序列包括该目标初始概率序列和该目标结束概率序列的至少一项。
在一个可选例子中,将该第二起始概率序列中各概率的顺序进行翻转以得到参考起始概率序列,该第一起始概率序列中的概率和该参考起始概率序列中的概率依次对应;融合该第一起始概率序列和该参考起始概率序列,得到目标起始概率序列。举例来说,第一起始概率序列中依次为第一片段至第N片段对应的起始概率,第二起始概率序列中依次为该第N片段至第一片段对应的起始概率,将该第二起始概率序列中各概率的顺序进行翻转得到的参考起始概率序列中依次为该第一片段至该第N片段对应的起始概率;将该第一起始概率序列和该参考起始概率序列中第一片段至第N片段对应的起始概率的平均值依次作为该目标起始概率中该第一片段至该第N片段对应的起始概率,以得到该目标起始概率序列,也就是说,将该第一起始概率序列中第i片段对应的起始概率和该参考起始概率序列中第i片段的起始概率的平均值作为该目标起始概率中该第i片段对应的起始概率,其中,i=1,……,N。
类似地,在一个可选实现方式中,将该第二结束概率序列中的各概率的顺序进行翻转以得到参考结束概率序列,该第一结束概率序列中的概率和该参考结束概率序列中的概率依次对应;融合该第一结束概率序列和该参考结束概率序列,得到该目标结束概率序列。举例来说,第一结束概率序列中依次为第一片段至第N片段对应的结束概率,第二结束概率序列中依次为该第N片段至第一片段对应的结束概率,将该第二结束概率序列中各概率的顺序进行翻转得到的参考结束概率序列中依次为该第一片段至该第N片段对应的结束概率;并将该第一结束概率序列和该参考结束概率序列中第一片段至第N片段对应的结束概率的平均值依次作为该目标结束概率中该第一片段至该第N片段对应的结束概率,以得到目标结束概率序列。
可选地,也可以以其他方式对两个概率序列中的起始概率或结束概率进行融合,本公开实施例对此不做限定。
本申请实施例,通过对两个对象边界序列进行融合处理可以得到一个边界更加准确地对象边界概率序列,进而生成质量更高的时序对象提名集。
下面描述基于目标边界概率序列生成时序对象提名集的具体实现方式。
在一个可选的实现方式中,目标边界概率序列包括目标起始概率序列和目标结束概率序列,相应地,可以基于该目标边界概率序列包括的目标起始概率序列和目标结束概率序列,生成该时序对象提名集。
在另一个可选实现方式中,目标边界概率序列包括目标起始概率序列,相应地,可以基于该目标边界概率序列包括的目标起始概率序列和该第一对象边界概率序列包括的结束概率序列,生成该时序对象提名集;或者,基于该目标边界概率序列包括的目标起始概率序列和该第二对象边界概率序列包括的结束概率序列,生成该时序对象提名集。
在另一个可选实现方式中,目标边界概率序列包括目标结束概率序列,相应地,基于该第一对象边界概率序列包括的起始概率序列和该目标边界概率序列包括的目标结束概率序列,生成该时序对象提名集;或者,基于该第二对象边界概率序列包括的起始概率序列和该目标边界概率序列包括的目标结束概率序列,生成该时序对象提名集。
下面以目标起始概率序列和目标结束概率序列为例,介绍生成时序对象提名集的方法。
可选的,可以基于该目标起始概率序列中包含的该多个片段的目标起始概率,得到第一片段集,其中,该第一片段集包括多个对象起始片段;基于该目标结束概率序列中包括的该多个片段的目标结束概率,得到第二片段集,其中,该第二片段集包括多个对象结束片段;基于该第一片段集和该第二片段集,生成该时序对象提名集。
在一些例子中,可以基于多个片段中每个片段的目标起始概率,从多个片段中选取对象起始片段,例如,将目标起始概率超过第一阈值的片段作为对象起始片段,或者,将在局部区域中具有最高目标起始概率的片段作为对象起始片段,或者将目标起始概率高于其相邻的至少两个片段的目标起始概率的片段作为对象起始片段,或者将目标起始概率高于其前一片段和后一片段的目标起始概率的片段作为对象起始片段,等等,本公开实施例对确定对象起始片段的具体实现不做限定。
在一些例子中,可以基于多个片段中每个片段的目标结束概率,从多个片段中选取对象结束片段,例如,将目标结束概率超过第一阈值的片段作为对象结束片段,或者,将在局部区域中具有最高目标结束概率的片段作为对象结束片段,或者将目标结束概率高于其相邻的至少两个片段的目标结束概率的片段作为对象结束片段,或者将目标结束概率高于其前一片段和后一片段的目标结束概率的片段作为对象结束片段,等等,本公开实施例对确定对象结束片段的具体实现不做限定。
在一个可选实施方式中,将该第一片段集中的一个片段对应的时间点作为一个时序对象提名的起始时间点以及将该第二片段集中的一个片段对应的时间点作为该时序对象提名的结束时间点。举例来说,第一片段集中一个片段对应第一时间点,第二片段集中一个片段对应第二时间点,则基于该第一片段集和该第二片段集生成的时序对象提名集包括的一个时序对象提名为[第一时间点第二时间点]。该第一阈值可以是0.7、0.75、0.8、0.85、0.9等。该第二阈值可以是0.7、0.75、0.8、0.85、0.9等。
可选的,基于该目标起始概率序列得到第一时间点集,以及基于该目标结束概率序列得到第二时间点集;该第一时间点集包括该目标起始概率序列中对应的概率超过第一阈值的时间点和/或至少一个局部时间点,任一局部时间点在该目标起始概率序列中对应的概率比该任一局部时间点相邻的时间点在该目标起始概率序列中对应的概率高;该第二时间点集包括该目标结束概率序列中对应的概率超过第二阈值的时间点和/或至少一个参考时间点,任一参考时间点在该目标结束概率序列中对应的概率比该任一参考时间点相邻的时间点在该目标结束概率序列中对应的概率高;基于该第一时间点集和该第二时间点集,生成该时序提名集;该时序提名集中任一提名的起始时间点为该第一时间点集中的一个时间点,该任一提名的结束时间点为该第二时间点集中的一个时间点;该起始时间点在该结束时间点之前。
该第一阈值可以是0.7、0.75、0.8、0.85、0.9等。该第二阈值可以是0.7、0.75、0.8、0.85、0.9等。第一阈值和第二阈值可以相同或不同。任一局部时间点可以是在目标起始概率序列中对应的概率高于其前一时间点对应的概率以及其后一时间点对应的概率的时间点。任一参考时间点可以是在目标结束概率序列中对应的概率高于其前一时间点对应的概率以及其后一时间点对应的概率的时间点。生成时序对象提名集的过程可以理解为:首先选择目标起始概率序列和目标结束概率序列中满足以下两点条件之一的时间点作为候选时序边界节点(包括候选起始时间点和候选结束时间点):(1)该时间点的概率高于一个阈值,(2)该时间点的概率高于其前面一个或多个时间点以及其后面一个或多个时间点的概率(即一个概率峰值对应的时间点);然后,将候选起始时间点和候选结束时间点两两结合,保留时长符合要求的候选起始时间点-候选结束时间点的组合作为时序动作提名。时长符合要求的候选起始时间点-候选结束时间点的组合可以是候选起始时间点在候选结束时间点之前的组合;也可以是候选起始时间点与候选结束时间点之间的间隔小于第三阈值且第三第四阈值的组合,其中,该第三阈值和该第四阈值可根据实际需求进行配置,例如该第三阈值为1ms,该第四阈值为100ms。
其中,候选起始时间点为该第一时间点集包括的时间点,候选结束时间点为该第二时间点集包括的时间点。图2为本申请实施例提名的一种生成时序提名集的过程示意图。如图2所示,对应的概率超过第一阈值的起始时间点以及概率峰值对应的时间点为候选起始时间点;对应的概率超过第二阈值的结束时间点以及概率峰值对应的时间点为候选结束时间点。图2中每条连线对应一个时序提名(即一个候选起始时间点与候选结束时间点的组合),每个时序提名中候选起始时间点位于候选结束时间点之前,且候选起始时间点和候选结束时间点之间的时间间隔符合时长要求。
在该实现方式中,可以快速、准确地生成时序对象提名集。
前述实施例描述了生成时序对象提名集的方式,在实际应用中在获得时序对象提名集后通常需要对各时序对象提名做质量评估,并基于质量评估结果对时序对象提名集进行输出。下面介绍评估时序对象提名的质量的方式。
在一个可选的实现方式中,获得提名特征集,其中,该提名特征集包括时序对象提名集中每个时序对象提名的提名特征;将该提名特征集输入至提名评估网络进行处理,得到该时序对象提名集中各时序对象提名的至少两项质量指标;根据该各时序对象提名的至少两项质量指标,得到各时序对象提名的评估结果(例如置信度分数)。
可选地,该提名评估网络可以是一个神经网络,该提名评估网络用于对该提名特征集中的各提名特征做处理,得到各时序对象提名的至少两项质量指标;该提名评估网络也可以包括两个或两个以上并行的提名评估子网络,每个提名评估子网络用于确定各时序对应提名的一项质量指标。举例来说,该提名评估网络包括三个并行的提名评估子网络,即第一提名评估子网络、第二提名评估子网络以及第三提名评估子网络,每个提名评估子网络均包含了三个全连接层,其中前两个全连接层各自包含1024个单元用来处理输入的提名特征,并且使用Relu作为激活函数,第三个全连接层则包含一个输出节点,经过Sigmoid激活函数输出对应的预测结果;该第一提名评估子网络输出反映时序提名的整体质量(overall-quality)的第一指标(即时序提名与真值的交集占并集的比例),该第二提名评估子网络输出反映时序提名的完整度质量(completeness-quality)的第二指标(即时序提名与真值的交集占时序提名长度的比例),该第三提名评估子网络输出反映时序提名的动作质量(actionness-quality)的第三指标(时序提名与真值的交集占真值长度的比例)。IoU、IoP、IoG可以依次表示该第一指标、该第二指标以及该第三指标。该提名评估网络对应的损失函数可以如下:
其中,λIoU,λIoP,λIoG为权衡因子且可根据实际情况进行配置。依次表示第一指标(IoU)、第二指标(IoP)以及第三指标(IoG)的损失。均可采用smoothL1损失函数来进行计算,也可以采用其他损失函数。smoothL1损失函数的定义如下:
对于来说,(2)中x为IoU;对于来说,(2)中x为IoP;对于来说,(2)中x为IoG。根据IoU,IoP和IoG的定义,图像处理装置可以由IoP和IoG额外计算出然后得到定位分数ploc=α·pIoU+(1-α)·pIoU,。其中,pIoU表示时序提名的IoU,pIoU′表示时序提名的IoU′。也就是说,pIoU′为IoU′,pIoU为IoU。α可以设为0.6,也可以设为其他常数。图像处理装置,可以采用如下公式计算得到提名的置信度分数:
其中,表示该时序提名对应的起始概率,表示该时序提名对应的结束概率。
下面描述图像处理装置如何获得提名特征集的方式。
可选的,获得提名特征集可以包括:将第一特征序列和目标动作概率序列在通道维度上进行拼接,得到视频特征序列;获得第一时序对象提名在该视频特征序列对应的目标视频特征序列,该第一时序对象提名包含于该时序对象提名集,该第一时序对象提名对应的时间段与该目标视频特征序列对应的时间段相同;对该目标视频特征序列进行采样,得到目标提名特征;该目标提名特征为该第一时序对象提名的提名特征,且包含于该提名特征集。
可选地,该目标动作概率序列可以为将该第一特征序列输入至该第一提名生成网络做处理得到的第一动作概率序列,或,将该第二特征序列输入至该第二提名生成网络做处理得到的第二动作概率序列,或,该第一动作概率序列和该第二动作概率序列融合得到的概率序列。该第一提名生成网络、该第二提名生成网络以及该提名评估网络可以是作为一个网络联合训练得到的。该第一特征序列和该目标动作概率序列可以均对应一个三维矩阵。该第一特征序列和该目标动作概率序列包含的通道数相同或不同,每个通道上对应的二维矩阵的大小相同。因此,该第一特征序列和该目标动作概率序列可以在通道维度上进行拼接,得到该视频特征序列。举例来说,第一特征序列对应一个包括400个通道的三维矩阵,目标动作概率序列对应一个二维矩阵(可以理解为一个包括1个通道的三维矩阵),则该视频特征序列对应一个包括401个通道的三维矩阵。
该第一时序对象提名为时序对象提名集中的任一时序对象提名。可以理解,图像处理装置可以采用相同的方式确定时序对象提名集中每个时序对象提名的提名特征。视频特征序列包括图像处理装置从视频流包括的多个片段提取出的特征数据。获得第一时序对象提名在该视频特征序列对应的目标视频特征序列可以是获得该视频特征序列中该第一时序对象提名对应的时间段对应的目标视频特征序列。举例来说,第一时序对象提名对应的时间段为第P毫秒至第Q毫秒,则视频特征序列中第P毫秒至第Q毫秒对应的子特征序列为目标视频特征序列。P和Q均为大于0的实数。对该目标视频特征序列进行采样,得到目标提名特征可以是:对该目标视频特征序列进行采样,得到目标长度的目标提名特征。可以理解,图像处理装置对每个时序对象提名对应的视频特征序列进行采样,得到一个目标长度的提名特征。也就是说,各时序对象提名的提名特征的长度相同。每个时序对象提名的提名特征对应一个包括多个通道的矩阵,且每个通道上为一个目标长度的一维矩阵。例如,视频特征序列对应一个包括401个通道的三维矩阵,每个时序对象提名的提名特征对应一个TS行401列的二维矩阵,可以理解每一行对应一个通道。TS即为目标长度,TS可以为16。
在该方式中,图像处理装置可以根据时长不同的时序提名,得到固定长度的提名特征,实现简单。
可选的,获得提名特征集也可以包括:将该第一特征序列和目标动作概率序列在通道维度上进行拼接,得到视频特征序列;基于该视频特征序列,得到第一时序对象提名的长期提名特征,其中,该长期提名特征对应的时间段长于该第一时序对象提名对应的时间段,该第一时序对象提名包含于该时序对象提名集;基于该视频特征序列,得到该第一时序对象提名的短期提名特征,其中,该短期提名特征对应的时间段与该第一时序对象提名对应的时间段相同;基于该长期提名特征和该短期提名特征,得到该第一时序对象提名的目标提名特征。图像处理装置可以基于该第一特征序列和该第二特征序列中的至少一项,得到目标动作概率序列。该目标动作概率序列可以为将该第一特征序列输入至该第一提名生成网络做处理得到的第一动作概率序列,或,将该第二特征序列输入至该第二提名生成网络做处理得到的第二动作概率序列,或,该第一动作概率序列和该第二动作概率序列融合得到的概率序列。
基于该视频特征序列,得到第一时序对象提名的长期提名特征可以是:基于该视频特征序列中对应于参考时间区间的特征数据,得到该长期提名特征,其中,该参考时间区间从该时序对象提名集中的首个时序对象的开始时间到最后一个时序对象的结束时间。该长期提名特征可以为一个包括多个通道的矩阵,且每个通道上为一个长度为TL的一维矩阵。例如,长期提名特征为一个TL行401列的二维矩阵,可以理解每一行对应一个通道。TL为大于TS的整数。例如TS为16,TL为100。对该视频特征序列进行采样,得到长期提名特征可以是对该视频特征序列中处于参考时间区间内的特征进行采样,得到该长期提名特征;该参考时间区间对应于基于该时序对象提名集确定的第一个动作的开始时间以及最后一个动作的结束时间。图3为本申请实施例提供的一种采样过程示意图。如图3所示,参考时间区间包括开始区域301、中心区域302以及结束区域303,中心区域302的起始片段为第一个动作的起始片段,中心区域302的结束片段为最后一个动作的结束片段,开始区域301和结束区域303对应的时长均为中心区域302对应的时长的十分之一;304表示采样得到的长期提名特征。
在一些实施例中,基于该视频特征序列,得到该第一时序对象提名的短期提名特征可以是:基于该第一时序对象提名对应的时间段,对该视频特征序列进行采样,得到该短期提名特征。这里对该视频特征序列进行采样,得到短期提名特征的方式与对该视频特征序列进行采样,得到长期提名特征的方式类似,这里不再详述。
在一些实施例中,基于该长期提名特征和该短期提名特征,得到该第一时序对象提名的目标提名特征可以是:对该长期提名特征和该短期特征提名执行非局部注意力操作,得到中间提名特征;将该短期提名特征和该中间提名特征进行拼接,得到该目标提名特征。图4为本申请实施例提供的一种非局部注意力操作的计算过程示意图。如图4所示,S表示短期提名特征,L表示长期提名特征,C(大于0的整数)对应于通道数,401至403以及407均表示线性变换操作,405表示归一化处理,404和406均表示矩阵乘法操作,408表示过拟合处理,409表示求和操作。步骤401是将短期提名特征进行线性变换;步骤402是将该长期提名特征进行线性变换;步骤403是将长期提名特征进行线性变换;步骤404是计算二维矩阵(TS×C)和二维矩阵(C×TL)的乘积;步骤405是对在步骤404计算得到的二维矩阵(TS×TL)进行归一化处理,使得该二维矩阵(TS×TL)中每一列的元素之和为1;步骤406是计算步骤405输出的二维矩阵(TS×TL)与二维矩阵(TL×C)的乘积,得到一个新的(TS×C)的二维矩阵;步骤407是对该新的二维矩阵(TS×C)进行线性变换以得到参考提名特征;步骤408是执行过拟合处理,即执行dropout以解决过拟合问题;步骤409是计算该参考提名特征与该短期提名特征之和,以得到中间提名特征S’。该参考提名特征与该短期提名特征对应的矩阵的大小相同。与标准的非局部模块Non-local block)执行的非局部注意力操作不同,本申请实施例采用的是S与L之间的相互注意力来替代了自注意力机制。其中,归一化处理的实现方式可以是先将步骤404计算得到的二维矩阵(TS×TL)中每个元素乘以得到新的二维矩阵(TS×TL),再执行Softmax操作。401至403以及407执行的线性操作相同或不同。可选的,401至403以及407均对应同一个线性函数。将该短期提名特征和该中间提名特征在通道维度上进行拼接,得到该目标提名特征可以是先将该中间提名特征的通道数从C个降到D个,再将该短期提名特征和处理后的中间提名特征(对应D个通道数)在通道维度上进行拼接。举例来说,短期提名特征为一个(TS×401)的二维矩阵,中间提名特征为一个(TS×401)的二维矩阵,利用线性变换将该中间提名特征转换为一个(TS×128)的二维矩阵,将该短期提名特征和变换后的中间提名特征在通道维度上进行拼接,得到一个(TS×529)的二维矩阵;其中,D为小于C且大于0的整数,401对应于C,128对应于D。
在该方式中,可以整合长期提名特征和短期提名特征之间的交互信息以及其他多粒度线索来生成丰富的提名特征,进而提高提名质量评估的准确性。
为更清楚地描述本申请提供的时序提名的生成方式以及提名质量评估的方式。下面结合图像处理装置的结构来进一步进行介绍。
图5为本申请实施例提供的一种图像处理装置的结构示意图。如图5所示,该图像处理装置可以包括四个部分,第一部分为特征提取模块501,第二部分为双向评估模块502,第三部分为长期特征操作模块503,第四部分为提名打分模块504。特征提取模块501用于对未修剪的视频进行特征提取以得到原始双流特征序列(即第一特征序列)。
特征提取模块501可以采用双流网络(two-stream network)对未修剪的视频进行特征提取,也可以采用其他网络对该未修剪的视频进行特征提取,本申请不作限定。对未修剪的视频进行特征提取以得到特征序列是本领域常用的技术手段,这里不再详述。
双向评估模块502可以包括处理单元以及生成单元。图5中,5021表示第一提名生成网络,5022表示第二提名生成网络,该第一提名生成网络用于对输入的第一特征序列进行处理得到第一起始概率序列、第一结束概率序列以及第一动作概率序列,该第二提名生成网络用于对输入的第二特征序列进行处理得到第二起始概率序列、第二结束概率序列以及第二动作概率序列。如图5所示,第一提名生成网络和第二提名生成网络均包括3个时序卷积层,且配置的参数均相同。处理单元,用于实现第一提名生成网络和第二提名生成网络的功能。图5中的F表示翻转操作,一个F表示将该第一特征序列中各特征的顺序进行时序翻转以得到第二特征序列;另一个F表示将第二起始概率序列中各概率的顺序进行翻转以得到参考起始概率序列、将第二结束概率序列中各概率的顺序进行翻转以得到参考结束概率序列以及将第二动作概率序列中各概率的顺序进行翻转以得到参考动作概率序列。处理单元用于实现图5中的翻转操作。图5中的“+”表示融合操作,处理单元,还用于融合第一起始概率序列以及参考起始概率序列以得到目标起始概率序列、融合第一结束概率序列以及参考结束概率序列以得到目标结束概率序列以及融合第一动作概率序列以及参考动作概率序列以得到目标动作概率序列。处理单元,还用于确定上述第一片段集以及上述第二片段集。生成单元,用于根据该第一片段集和该第二片段集,生成时序对象提名集(即图5中的候选提名集)。在具体实现过程中,生成单元可以实现步骤104中所提到的方法以及可以等同替换的方法;处理单元具体用于执行步骤102和步骤103中所提到的方法以及可以等同替换的方法。
长期特征操作模块503对应本申请实施例中的特征确定单元。图5中的“C”表示拼接操作,一个“C”表示将第一特征序列和目标动作概率序列在通道维度上进行拼接,得到视频特征序列;另一个“C”表示将原始的短期提名特征和调整后的短期提名特征(对应中间提名特征)在通道维度上进行拼接,得到目标提名特征。长期特征操作模块503,用于对该视频特征序列中的特征进行采样,得到长期提名特征;还用于确定各时序对象提名在该视频特征序列对应的子特征序列,并对各时序对象提名在该视频特征序列对应的子特征序列进行采样以得到各时序对象提名的短期提名特征(对应上述原始的短期提名特征);还用于将该长期提名特征和各时序对象提名的短期提名特征作为输入以执行非局部注意力操作以得到各时序对象提名对应的中间提名特征;还用于将各时序对象提名的短期提名特征与各时序对象提名对应的中间提名特征在通道上进行拼接以得到提名特征集。
提名打分模块504对应本申请中的评估单元。图5中的5041为提名评估网络,该提名评估网络可包括3个子网络,即第一提名评估子网络、第二提名评估子网络以及第三提名评估子网络;该第一提名评估子网络用于对输入的提名特征集进行处理以输出时序对象提名集中各时序对象提名的第一指标(即IoU),该第二提名评估子网络用于对输入的提名特征集进行处理以输出时序对象提名集中各时序对象提名的第二指标(即IoP),该第三提名评估子网络用于对输入的提名特征集进行处理以输出时序对象提名集中各时序对象提名的第三指标(即IoG)。这三个提名评估子网络的网络结构可以相同或不同,每个提名评估子网络对应的参数不同。提名打分模块504用于实现提名评估网络的功能;还用于根据各时序对象提名的至少两项质量指标,确定该各时序对象提名的置信度分数。
需要说明的是,应理解图5所示图像处理装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过软件通过处理元件调用的形式实现,部分模块通过硬件的形式实现。
从图5可以看出,图像处理装置主要完成了两个子任务:时序动作提名生成和提名质量评估。其中,双向评估模块502用于完成时序动作提名生成,长期特征操作模块503和提名打分模块504用于完成提名质量评估。在实际应用中,图像处理装置在执行这两个子任务之前,需要获得或者训练得到第一提名生成网络5021、第二提名生成网络5022以及提名评估网络5041。在通常采用的自底向上的提名生成方法中,时序提名生成和提名质量评估往往各自独立训练,缺乏整体的优化。本申请实施例中,将时序动作提名生成和提名质量评估整合到一个统一的框架进行联合训练。下面介绍训练得到第一提名生成网络、第二提名生成网络以及提名评估网络的方式。
可选的,训练过程如下:将第一训练样本输入至该第一提名生成网络做处理得到第一样本起始概率序列、第一样本动作概率序列、第一样本结束概率序列,以及将第二训练样本输入至该第二提名生成网络做处理得到第二样本起始概率序列、第二样本动作概率序列、第二样本结束概率序列;融合该第一样本起始概率序列和该第二样本起始概率序列,得到目标样本起始概率序列;融合该第一样本结束概率序列和该第二样本结束概率序列,得到目标样本结束概率序列;融合该第一样本动作概率序列和该第二样本动作概率序列,得到目标样本动作概率序列;基于该目标样本起始概率序列和该目标样本结束概率序列,生成该样本时序对象提名集;基于样本时序对象提名集、目标样本动作概率序列以及第一训练样本得到样本提名特征集;将该样本提名特征集输入至该提名评估网络做处理,得到该样本提名特征集中各样本提名特征的至少一项质量指标;根据该各样本提名特征的至少一项质量指标,确定该各样本提名特征的置信度分数;根据该第一提名生成网络和该第二提名生成网络对应的第一损失和该提名评估网络对应的第二损失的加权和,更新该第一提名生成网络、该第二提名生成网络以及该提名评估网络。
基于样本时序对象提名集、目标样本动作概率序列以及第一训练样本得到样本提名特征集的操作与图5中长期特征操作模块503得到提名特征集的操作相似,这里不再详述。可以理解,在训练过程中得到样本提名特征集的过程与应用过程中生成时序对象提名集的过程相同;在训练过程中确定各样本时序提名的置信度分数的过程与应用过程中确定各时序提名的置信度分数的过程相同。训练过程与应用过程相比,区别主要在于,根据该第一提名生成网络和该第二提名生成网络对应的第一损失和该提名评估网络对应的第二损失的加权和,更新该第一提名生成网络、该第二提名生成网络以及该提名评估网络。
第一提名生成网络和第二提名生成网络对应的第一损失即为双向评估模块502对应的损失。计算第一提名生成网络和第二提名生成网络对应的第一损失的损失函数如下:
其中,λs,λe,λa为权衡因子且可根据实际情况进行配置,例如均设为1, 依次表示目标起始概率序列、目标结束概率序列以及目标动作概率序列的损失, 均为交叉熵损失函数,具体形式为:
其中,bt=sign(gt-0.5),用于将每一时刻匹配到的对应IoP真值gt进行二值化。α+和α-用来平衡训练时正负样本的比例。且其中,T+=∑gt,T-w-+对应的函数类似。对于来说,(5)中pt为目标起始概率序列中时刻t的起始概率,gt为时刻t匹配到的对应IoP真值;对于来说,(5)中pt为目标结束概率序列中时刻t的结束概率,gt为时刻t匹配到的对应IoP真值;对于来说,(5)中pt为目标动作概率序列中时刻t的动作概率,gt为时刻t匹配到的对应IoP真值。
提名评估网络对应的第二损失即为提名打分模块504对应的损失。计算提名评估网络对应的第二损失的损失函数如下:
其中,λIoU,λIoP,λIoG为权衡因子且可根据实际情况进行配置。依次表示第一指标(IoU)、第二指标(IoP)以及第三指标(IoG)的损失。
第一提名生成网络和第二提名生成网络对应的第一损失和提名评估网络对应的第二损失的加权和即为整个网络框架的损失。整个网络框架的损失函数为:
LBSN++=LBEM+β·LPSM (7);
其中,β为权衡因子且可设为10,LBEM表示第一提名生成网络和第二提名生成网络对应的第一损失,LPSM表示提名评估网络对应的第二损失。图像处理装置可以采用反向传播等算法根据由(7)计算得到的损失,更新第一提名生成网络、第二提名生成网络以及提名评估网络的参数。停止训练的条件可以是迭代更新的次数达到阈值,例如一万次;也可以是整个网络框架的损失值收敛,即整个网络框架的损失基本不再减少。
本申请实施例中,将第一提名生成网络、第二提名生成网络、提名评估网络作为一个整体进行联合训练,在有效提升时序对象提名集的精度的同时稳健提升了提名评估的质量,进而保证了后续提名检索的可靠性。
在实际应用中,提名评估装置至少可采用前述实施例描述的三种不同的方法来评估时序对象提名的质量。下面结合附图分别介绍这三种提名评估方法的方法流程。
图6为本申请实施例提供的一种提名评估方法流程图,该方法可包括:
601、基于视频流的视频特征序列,得到视频流的第一时序对象提名的长期提名特征。
该视频特征序列包含该视频流包含的多个片段中每个片段的特征数据,该长期提名特征对应的时间段长于该第一时序对象提名对应的时间段;
602、基于视频流的视频特征序列,得到第一时序对象提名的短期提名特征。
该短期提名特征对应的时间段与该第一时序对象提名对应的时间段相同。
603、基于长期提名特征和该短期提名特征,得到第一时序对象提名的评估结果。
本申请实施例中,通过整合长期提名特征和短期提名特征之间的交互信息以及其他多粒度线索来生成丰富的提名特征,进而提高提名质量评估的准确性。
应理解,本公开实施例提供的提名评估方法的具体实现可以参照上文具体描述,为了简洁,这里不再赘述。
图7为本申请实施例提供的另一种提名评估方法流程图,该方法可包括:
701、基于视频流的第一特征序列,得到该视频流的目标动作概率序列。
该第一特征序列包含该视频流的多个片段中每个片段的特征数据。
702、将第一特征序列和该目标动作概率序列进行拼接,得到视频特征序列。
703、基于视频特征序列,得到视频流的第一时序对象提名的评估结果。
本申请实施例中,将特征序列和目标动作概率序列在通道维度上进行拼接得到包括更多特征信息的视频特征序列,以便于采样得到的提名特征包含的信息更丰富。
应理解,本公开实施例提供的提名评估方法的具体实现可以参照上文具体描述,为了简洁,这里不再赘述。
图8为本申请实施例提供的一种提名评估方法流程图,该方法可包括:
801、基于视频流的第一特征序列,得到第一动作概率序列。
该第一特征序列包含该视频流的多个片段中每个片段的特征数据。
802、基于视频流的第二特征序列,得到第二动作概率序列。
该第二特征序列和该第一特征序列包括的特征数据相同且排列顺序相反。
803、基于第一动作概率序列和第二动作概率序列,得到视频流的目标动作概率序列。
804、基于视频流的目标动作概率序列,得到视频流的第一时序对象提名的评估结果。
本申请实施例中,基于第一动作概率序列和第二动作概率序列可以得到更加准确地的目标动作概率序列,以便于利用该目标动作概率序列更准确地评估时序对象提名的质量。
应理解,本公开实施例提供的提名评估方法的具体实现可以参照上文具体描述,为了简洁,这里不再赘述。
图9为本申请实施例提供的一种图像处理装置的结构示意图。如图9所示,该图像处理装置可包括:
获取单元901,用于获取视频流的第一特征序列,其中,该第一特征序列包含该视频流的多个片段中每个片段的特征数据;
处理单元902,用于基于该第一特征序列,得到第一对象边界概率序列,其中,该第一对象边界概率序列包含该多个片段属于对象边界的概率;
处理单元902,还用于基于该视频流的第二特征序列,得到第二对象边界概率序列;该第二特征序列和该第一特征序列包括的特征数据相同且排列顺序相反;
生成单元903,用于基于该第一对象边界概率序列和该第二对象边界概率序列,生成时序对象提名集。
本申请实施例中,基于融合后的概率序列生成时序对象提名集,可以更准确地确定概率序列,使得生成的时序提名的边界更精确。
在一个可选的实现方式中,时序翻转单元904,用于将将该第一特征序列进行时序翻转处理,得到该第二特征序列。
在一个可选的实现方式中,生成单元903,具体用于对该第一对象边界概率序列以及该第二对象边界概率序列进行融合处理,得到目标边界概率序列;基于该目标边界概率序列,生成该时序对象提名集。
在该实现方式中,图像处理装置对两个对象边界概率序列进行融合处理以得到更准确的对象边界概率序列,进而得到更准确的时序对象提名集。
在一个可选的实现方式中,生成单元903,具体用于将该第二对象边界概率序列进行时序翻转处理,得到第三对象边界概率序列;融合该第一对象边界概率序列和该第三对象边界概率序列,得到该目标边界概率序列。
在一个可选的实现方式中,该第一对象边界概率序列和该第二对象边界概率序列中的每个对象边界概率序列包括起始概率序列和结束概率序列;
生成单元903,具体用于将该第一对象边界概率序列和该第二对象边界概率序列中的起始概率序列进行融合处理,得到目标起始概率序列;和/或
生成单元903,具体用于将该第一对象边界概率序列和该第二对象边界概率序列中的结束概率序列进行融合处理,得到目标结束概率序列,其中,该目标边界概率序列包括该目标初始概率序列和该目标结束概率序列的至少一项。
在一个可选的实现方式中,生成单元903,具体用于基于该目标边界概率序列包括的目标起始概率序列和目标结束概率序列,生成该时序对象提名集;
或者,生成单元903,具体用于基于该目标边界概率序列包括的目标起始概率序列和该第一对象边界概率序列包括的结束概率序列,生成该时序对象提名集;
或者,生成单元903,具体用于基于该目标边界概率序列包括的目标起始概率序列和该第二对象边界概率序列包括的结束概率序列,生成该时序对象提名集;
或者,生成单元903,具体用于基于该第一对象边界概率序列包括的起始概率序列和该目标边界概率序列包括的目标结束概率序列,生成该时序对象提名集;
或者,生成单元903,具体用于基于该第二对象边界概率序列包括的起始概率序列和该目标边界概率序列包括的目标结束概率序列,生成该时序对象提名集。
在一个可选的实现方式中,生成单元903,具体用于基于该目标起始概率序列中包含的该多个片段的目标起始概率,得到第一片段集,以及基于该目标结束概率序列中包括的该多个片段的目标结束概率,得到第二片段集,其中,该第一片段集包括目标起始概率超过第一阈值的片段和/或目标起始概率高于至少两个相邻片段的片段,该第二片段集包括目标结束概率超过第二阈值的片段和/或目标结束概率高于至少两个相邻片段的片段;基于该第一片段集和该第二片段集,生成该时序对象提名集。
在一个可选的实现方式中,该装置还包括:
特征确定单元905,用于基于该视频流的视频特征序列,得到第一时序对象提名的长期提名特征,其中,该长期提名特征对应的时间段长于该第一时序对象提名对应的时间段,该第一时序对象提名包含于该时序对象提名集;基于该视频流的视频特征序列,得到该第一时序对象提名的短期提名特征,其中,该短期提名特征对应的时间段与该第一时序对象提名对应的时间段相同;
评估单元906,用于基于该长期提名特征和该短期提名特征,得到该第一时序对象提名的评估结果。
在一个可选的实现方式中,特征确定单元905,还用于基于该第一特征序列和该第二特征序列中的至少一项,得到目标动作概率序列;将该第一特征序列和该目标动作概率序列进行拼接,得到该视频特征序列。
在一个可选的实现方式中,特征确定单元905,具体用于基于该第一时序对象提名对应的时间段,对该视频特征序列进行采样,得到该短期提名特征。
在一个可选的实现方式中,特征确定单元905,具体用于基于该长期提名特征和该短期提名特征,得到该第一时序对象提名的目标提名特征;
评估单元906,具体用于基于该第一时序对象提名的目标提名特征,得到该第一时序对象提名的评估结果。
在一个可选的实现方式中,特征确定单元905,具体用于对该长期提名特征和该短期特征提名执行非局部注意力操作,得到中间提名特征;将该短期提名特征和该中间提名特征进行拼接,得到该目标提名特征。
在一个可选的实现方式中,特征确定单元905,具体用于基于该视频特征序列中对应于参考时间区间的特征数据,得到该长期提名特征,其中,该参考时间区间从该时序对象提名集中的首个时序对象的开始时间到最后一个时序对象的结束时间。
在一个可选的实现方式中,评估单元905,具体用于将该目标提名特征输入至提名评估网络进行处理,得到该第一时序对象提名的至少两项质量指标,其中,该至少两项质量指标中的第一指标用于表征该第一时序对象提名与真值的交集占该第一时序对象提名的长度比例,该至少两项质量指标中的第二指标用于表征该第一时序对象提名与该真值的交集占该真值的长度比例;根据该至少两项质量指标,得到该评估结果。
在一个可选的实现方式中,装置执行的图像处理方法应用于时序提名生成网络,该时序提名生成网络包括提名生成网络和提名评估网络;其中,该处理单元用于实现该提名生成网络的功能,该评估单元用于实现该提名评估网络的功能;
该时序提名生成网络的训练过程包括:
将训练样本输入至该时序提名生成网络进行处理,得到该提名生成网络输出的样本时序提名集和该提名评估网络输出的该样本时序提名集中包括的样本时序提名的评估结果;
基于该训练样本的样本时序提名集和该样本时序提名集中包括的样本时序提名的评估结果分别与该训练样本的标注信息之间的差异,得到网络损失;
基于该网络损失,调整该时序提名生成网络的网络参数。
图10为本申请实施例提供的一种提名评估装置的结构示意图。如图10所示,该提名评估装置可包括:
特征确定单元1001,用于基于视频流的视频特征序列,得到第一时序对象提名的长期提名特征,其中,该视频特征序列包含该视频流包含的多个片段中每个片段的特征数据和基于该视频流得到的动作概率序列,或者,该视频特征序列为基于该视频流得到的动作概率序列,该长期提名特征对应的时间段长于该第一时序对象提名对应的时间段,该第一时序对象提名包含于基于该视频流得到的时序对象提名集;
特征确定单元1001,还用于基于该视频流的视频特征序列,得到该第一时序对象提名的短期提名特征,其中,该短期提名特征对应的时间段与该第一时序对象提名对应的时间段相同;
评估单元1002,用于基于该长期提名特征和该短期提名特征,得到该第一时序对象提名的评估结果。
本申请实施例中,通过整合长期提名特征和短期提名特征之间的交互信息以及其他多粒度线索来生成丰富的提名特征,进而提高提名质量评估的准确性。
在一个可选的实现方式中,该装置还包括:
处理单元1003,用于基于第一特征序列和第二特征序列中的至少一项,得到目标动作概率序列;该第一特征序列和该第二特征序列均包含该视频流的多个片段中每个片段的特征数据,且该第二特征序列和该第一特征序列包括的特征数据相同且排列顺序相反;
拼接单元1004,用于将该第一特征序列和该目标动作概率序列进行拼接,得到该视频特征序列。
在一个可选的实现方式中,特征确定单元1001,具体用于基于该第一时序对象提名对应的时间段,对该视频特征序列进行采样,得到该短期提名特征。
在一个可选的实现方式中,特征确定单元1001,具体用于基于该长期提名特征和该短期提名特征,得到该第一时序对象提名的目标提名特征;
评估单元1002,具体用于基于该第一时序对象提名的目标提名特征,得到该第一时序对象提名的评估结果。
在一个可选的实现方式中,特征确定单元1001,具体用于对该长期提名特征和该短期特征提名执行非局部注意力操作,得到中间提名特征;将该短期提名特征和该中间提名特征进行拼接,得到该目标提名特征。
在一个可选的实现方式中,特征确定单元1001,具体用于基于该视频特征序列中对应于参考时间区间的特征数据,得到该长期提名特征,其中,该参考时间区间从该时序对象提名集中的首个时序对象的开始时间到最后一个时序对象的结束时间。
在一个可选的实现方式中,评估单元1002,具体用于将该目标提名特征输入至提名评估网络进行处理,得到该第一时序对象提名的至少两项质量指标,其中,该至少两项质量指标中的第一指标用于表征该第一时序对象提名与真值的交集占该第一时序对象提名的长度比例,该至少两项质量指标中的第二指标用于表征该第一时序对象提名与该真值的交集占该真值的长度比例;根据该至少两项质量指标,得到该评估结果。
图11为本申请实施例提供的另一种提名评估装置的结构示意图。如图11所示,该提名评估装置可包括:
处理单元1101,用于基于视频流的第一特征序列,得到所述视频流的目标动作概率序列,其中,所述第一特征序列包含所述视频流的多个片段中每个片段的特征数据;
拼接单元1102,用于将该第一特征序列和该目标动作概率序列进行拼接,得到视频特征序列;
评估单元1103,用于基于所述视频特征序列,得到所述视频流的第一时序对象提名的评估结果。
可选地,评估单元1103,具体用于基于该视频特征序列,得到第一时序对象提名的目标提名特征,其中,该目标提名特征对应的时间段与该第一时序对象提名对应的时间段相同,该第一时序对象提名包含于基于该视频流得到的时序对象提名集;基于该目标提名特征,得到该第一时序对象提名的评估结果。
本申请实施例中,将特征序列和目标动作概率序列在通道维度上进行拼接得到包括更多特征信息的视频特征序列,以便于采样得到的提名特征包含的信息更丰富。
在一个可选的实现方式中,处理单元1101,具体用于基于该第一特征序列,得到第一动作概率序列;基于该第二特征序列,得到第二动作概率序列;融合该第一动作概率序列和该第二动作概率序列得到该目标动作概率序列。可选的,该目标动作概率序列可以是该第一动作概率序列或该第二动作概率序列。
图12为本申请实施例提供的又一种提名评估装置的结构示意图。如图12所示,该提名评估装置可包括:
处理单元1201,用于基于视频流的第一特征序列,得到第一动作概率序列,其中,所述第一特征序列包含所述视频流的多个片段中每个片段的特征数据;
基于所述视频流的第二特征序列,得到第二动作概率序列,其中,所述第二特征序列和所述第一特征序列包括的特征数据相同且排列顺序相反;
基于所述第一动作概率序列和所述第二动作概率序列,得到所述视频流的目标动作概率序列;
评估单元1202,用于基于所述视频流的目标动作概率序列,得到所述视频流的第一时序对象提名的评估结果。
可选地,处理单元1201,具体用于对所述第一动作概率序列和所述第二动作概率序列进行融合处理,得到所述目标动作概率序列。
本申请实施例中,基于第一动作概率序列和第二动作概率序列可以得到更加准确地的目标动作概率序列,以便于利用该目标动作概率序列更准确地评估时序对象提名的质量。
应理解以上图像处理装置以及提名评估装置的各个单元的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。例如,以上各个单元可以为单独设立的处理元件,也可以集成同一个芯片中实现,此外,也可以以程序代码的形式存储于控制器的存储元件中,由处理器的某一个处理元件调用并执行以上各个单元的功能。此外各个单元可以集成在一起,也可以独立实现。这里的处理元件可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个单元可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。该处理元件可以是通用处理器,例如中央处理器(英文:central processing unit,简称:CPU),还可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(英文:application-specific integrated circuit,简称:ASIC),或,一个或多个微处理器(英文:digital signal processor,简称:DSP),或,一个或者多个现场可编程门阵列(英文:field-programmable gate array,简称:FPGA)等。
图13是本发明实施例提供的一种服务器结构示意图,该服务器1300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processingunits,CPU)1322(例如,一个或一个以上处理器)和存储器1332,一个或一个以上存储应用程序1342或数据1344的存储介质1330(例如一个或一个以上海量存储设备)。其中,存储器1332和存储介质1330可以是短暂存储或持久存储。存储在存储介质1330的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1322可以设置为与存储介质1330通信,在服务器1300上执行存储介质1330中的一系列指令操作。服务器1300可以为本申请提供的图像处理装置。
服务器1300还可以包括一个或一个以上电源1326,一个或一个以上有线或无线网络接口1350,一个或一个以上输入输出接口1358,和/或,一个或一个以上操作***1341,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图13所示的服务器结构。具体的,中央处理器1322可实现图9至图12中各单元的功能。
在本发明的实施例中提供一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现:获取视频流的第一特征序列,其中,该第一特征序列包含该视频流的多个片段中每个片段的特征数据;基于该第一特征序列,得到第一对象边界概率序列,其中,该第一对象边界概率序列包含该多个片段属于对象边界的概率;基于该视频流的第二特征序列,得到第二对象边界概率序列;该第二特征序列和该第一特征序列包括的特征数据相同且排列顺序相反;基于该第一对象边界概率序列和该第二对象边界概率序列,生成时序对象提名集。
在本发明的实施例中提供另一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现:基于视频流的视频特征序列,得到第一时序对象提名的长期提名特征,其中,该视频特征序列包含该视频流包含的多个片段中每个片段的特征数据和基于该视频流得到的动作概率序列,或者,该视频特征序列为基于该视频流得到的动作概率序列,该长期提名特征对应的时间段长于该第一时序对象提名对应的时间段,该第一时序对象提名包含于基于该视频流得到的时序对象提名集;基于该视频流的视频特征序列,得到该第一时序对象提名的短期提名特征,其中,该短期提名特征对应的时间段与该第一时序对象提名对应的时间段相同;基于该长期提名特征和该短期提名特征,得到该第一时序对象提名的评估结果。
在本发明的实施例中提供又一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现:基于第一特征序列和第二特征序列中的至少一项,得到目标动作概率序列;其中,该第一特征序列和该第二特征序列均包含视频流的多个片段中每个片段的特征数据,且该第二特征序列和该第一特征序列包括的特征数据相同且排列顺序相反;将该第一特征序列和该目标动作概率序列进行拼接,得到视频特征序列;基于该视频特征序列,得到第一时序对象提名的目标提名特征,其中,该目标提名特征对应的时间段与该第一时序对象提名对应的时间段相同,该第一时序对象提名包含于基于该视频流得到的时序对象提名集;基于该目标提名特征,得到该第一时序对象提名的评估结果。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种图像处理方法,其特征在于,包括:
获取视频流的第一特征序列,其中,所述第一特征序列包含所述视频流的多个片段中每个片段的特征数据;
基于所述第一特征序列,得到第一对象边界概率序列,其中,所述第一对象边界概率序列包含所述多个片段属于对象边界的概率;
基于所述视频流的第二特征序列,得到第二对象边界概率序列,其中,所述第二特征序列和所述第一特征序列包括的特征数据相同且排列顺序相反;
基于所述第一对象边界概率序列和所述第二对象边界概率序列,生成时序对象提名集。
2.一种提名评估方法,其特征在于,包括:
基于视频流的视频特征序列,得到所述视频流的第一时序对象提名的长期提名特征,其中,所述视频特征序列包含所述视频流包含的多个片段中每个片段的特征数据,所述长期提名特征对应的时间段长于所述第一时序对象提名对应的时间段;
基于所述视频流的视频特征序列,得到所述第一时序对象提名的短期提名特征,其中,所述短期提名特征对应的时间段与所述第一时序对象提名对应的时间段相同;
基于所述长期提名特征和所述短期提名特征,得到所述第一时序对象提名的评估结果。
3.一种提名评估方法,其特征在于,包括:
基于视频流的第一特征序列,得到所述视频流的目标动作概率序列,其中,所述第一特征序列包含所述视频流的多个片段中每个片段的特征数据;
将所述第一特征序列和所述目标动作概率序列进行拼接,得到视频特征序列;
基于所述视频特征序列,得到所述视频流的第一时序对象提名的评估结果。
4.一种提名评估方法,其特征在于,包括:
基于视频流的第一特征序列,得到第一动作概率序列,其中,所述第一特征序列包含所述视频流的多个片段中每个片段的特征数据;
基于所述视频流的第二特征序列,得到第二动作概率序列,其中,所述第二特征序列和所述第一特征序列包括的特征数据相同且排列顺序相反;
基于所述第一动作概率序列和所述第二动作概率序列,得到所述视频流的目标动作概率序列;
基于所述视频流的目标动作概率序列,得到所述视频流的第一时序对象提名的评估结果。
5.一种图像处理装置,其特征在于,包括:
获取单元,用于获取视频流的第一特征序列,其中,所述第一特征序列包含所述视频流的多个片段中每个片段的特征数据;
处理单元,用于基于所述第一特征序列,得到第一对象边界概率序列,其中,所述第一对象边界概率序列包含所述多个片段属于对象边界的概率;
所述处理单元,还用于基于所述视频流的第二特征序列,得到第二对象边界概率序列;所述第二特征序列和所述第一特征序列包括的特征数据相同且排列顺序相反;
生成单元,还用于基于所述第一对象边界概率序列和所述第二对象边界概率序列,生成时序对象提名集。
6.一种提名评估装置,其特征在于,包括:
特征确定单元,用于基于视频流的视频特征序列,得到第一时序对象提名的长期提名特征,其中,所述视频特征序列包含所述视频流包含的多个片段中每个片段的特征数据和基于所述视频流得到的动作概率序列,或者,所述视频特征序列为基于所述视频流得到的动作概率序列,所述长期提名特征对应的时间段长于所述第一时序对象提名对应的时间段,所述第一时序对象提名包含于基于所述视频流得到的时序对象提名集;
所述特征确定单元,还用于基于所述视频流的视频特征序列,得到所述第一时序对象提名的短期提名特征,其中,所述短期提名特征对应的时间段与所述第一时序对象提名对应的时间段相同;
评估单元,用于基于所述长期提名特征和所述短期提名特征,得到所述第一时序对象提名的评估结果。
7.一种提名评估装置,其特征在于,包括:
处理单元,用于基于视频流的第一特征序列,得到所述视频流的目标动作概率序列,其中,所述第一特征序列包含所述视频流的多个片段中每个片段的特征数据;
拼接单元,用于将所述第一特征序列和所述目标动作概率序列进行拼接,得到视频特征序列;
评估单元,用于基于所述视频特征序列,得到所述视频流的第一时序对象提名的评估结果。
8.一种提名评估装置,其特征在于,包括:
处理单元,用于基于视频流的第一特征序列,得到第一动作概率序列,其中,所述第一特征序列包含所述视频流的多个片段中每个片段的特征数据;
基于所述视频流的第二特征序列,得到第二动作概率序列,其中,所述第二特征序列和所述第一特征序列包括的特征数据相同且排列顺序相反;
基于所述第一动作概率序列和所述第二动作概率序列,得到所述视频流的目标动作概率序列;
评估单元,用于基于所述视频流的目标动作概率序列,得到所述视频流的第一时序对象提名的评估结果。
9.一种芯片,其特征在于,所述芯片包括处理器与数据接口,所述处理器通过所述数据接口读取存储器上存储的指令,执行如权利要求1至4中任一项所述的方法。
10.一种电子设备,其特征在于,包括:存储器,用于存储程序;处理器,用于执行所述存储器存储的所述程序,当所述程序被执行时,所述处理器用于执行如权利要求1至4中任一项所述的方法。
CN201910552360.5A 2019-06-24 2019-06-24 图像处理方法、提名评估方法及相关装置 Active CN110263733B (zh)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN201910552360.5A CN110263733B (zh) 2019-06-24 2019-06-24 图像处理方法、提名评估方法及相关装置
KR1020207023267A KR20210002355A (ko) 2019-06-24 2019-10-16 이미지 처리 방법, 후보 평가 방법 및 관련 장치
SG11202009661VA SG11202009661VA (en) 2019-06-24 2019-10-16 Method for image processing, method for proposal evaluation, and related apparatuses
US16/975,213 US20230094192A1 (en) 2019-06-24 2019-10-16 Method for image processing, method for proposal evaluation, and related apparatuses
PCT/CN2019/111476 WO2020258598A1 (zh) 2019-06-24 2019-10-16 图像处理方法、提名评估方法及相关装置
JP2020543216A JP7163397B2 (ja) 2019-06-24 2019-10-16 画像処理方法、候補評価方法および関連装置
TW109103874A TWI734375B (zh) 2019-06-24 2020-02-07 圖像處理方法、提名評估方法及相關裝置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910552360.5A CN110263733B (zh) 2019-06-24 2019-06-24 图像处理方法、提名评估方法及相关装置

Publications (2)

Publication Number Publication Date
CN110263733A true CN110263733A (zh) 2019-09-20
CN110263733B CN110263733B (zh) 2021-07-23

Family

ID=67921137

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910552360.5A Active CN110263733B (zh) 2019-06-24 2019-06-24 图像处理方法、提名评估方法及相关装置

Country Status (7)

Country Link
US (1) US20230094192A1 (zh)
JP (1) JP7163397B2 (zh)
KR (1) KR20210002355A (zh)
CN (1) CN110263733B (zh)
SG (1) SG11202009661VA (zh)
TW (1) TWI734375B (zh)
WO (1) WO2020258598A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111327949A (zh) * 2020-02-28 2020-06-23 华侨大学 一种视频的时序动作检测方法、装置、设备及存储介质
CN111368786A (zh) * 2020-03-16 2020-07-03 平安科技(深圳)有限公司 动作区域提取方法、装置、设备及计算机可读存储介质
WO2020258598A1 (zh) * 2019-06-24 2020-12-30 上海商汤智能科技有限公司 图像处理方法、提名评估方法及相关装置
CN112200103A (zh) * 2020-04-07 2021-01-08 北京航空航天大学 一种基于图注意力的视频分析***和方法
CN112906586A (zh) * 2021-02-26 2021-06-04 上海商汤科技开发有限公司 时序动作提名生成方法和相关产品

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114627556B (zh) 2022-03-15 2023-04-07 北京百度网讯科技有限公司 动作检测方法、动作检测装置、电子设备以及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875610A (zh) * 2018-06-05 2018-11-23 北京大学深圳研究生院 一种基于边界查找的用于视频中动作时间轴定位的方法
CN108898614A (zh) * 2018-06-05 2018-11-27 南京大学 一种基于层次式时空区域合并的物体轨迹提议方法
CN109784269A (zh) * 2019-01-11 2019-05-21 中国石油大学(华东) 一种基于时空联合的人体动作检测和定位方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8171030B2 (en) * 2007-06-18 2012-05-01 Zeitera, Llc Method and apparatus for multi-dimensional content search and video identification
TWI430664B (zh) * 2011-04-13 2014-03-11 Chunghwa Telecom Co Ltd Intelligent Image Monitoring System Object Track Tracking System
CN103902966B (zh) * 2012-12-28 2018-01-05 北京大学 基于序列时空立方体特征的视频交互事件分析方法及装置
CN104200494B (zh) * 2014-09-10 2017-05-17 北京航空航天大学 一种基于光流的实时视觉目标跟踪方法
US9881380B2 (en) * 2016-02-16 2018-01-30 Disney Enterprises, Inc. Methods and systems of performing video object segmentation
CN108234821B (zh) * 2017-03-07 2020-11-06 北京市商汤科技开发有限公司 检测视频中的动作的方法、装置和***
CN108229280B (zh) * 2017-04-20 2020-11-13 北京市商汤科技开发有限公司 时域动作检测方法和***、电子设备、计算机存储介质
GB2565775A (en) * 2017-08-21 2019-02-27 Nokia Technologies Oy A Method, an apparatus and a computer program product for object detection
CN110472647B (zh) * 2018-05-10 2022-06-24 百度在线网络技术(北京)有限公司 基于人工智能的辅助面试方法、装置及存储介质
US10936630B2 (en) * 2018-09-13 2021-03-02 Microsoft Technology Licensing, Llc Inferring topics with entity linking and ontological data
CN110263733B (zh) * 2019-06-24 2021-07-23 上海商汤智能科技有限公司 图像处理方法、提名评估方法及相关装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108875610A (zh) * 2018-06-05 2018-11-23 北京大学深圳研究生院 一种基于边界查找的用于视频中动作时间轴定位的方法
CN108898614A (zh) * 2018-06-05 2018-11-27 南京大学 一种基于层次式时空区域合并的物体轨迹提议方法
CN109784269A (zh) * 2019-01-11 2019-05-21 中国石油大学(华东) 一种基于时空联合的人体动作检测和定位方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JUNCHAO ZHANG: ""Object-aware Aggregation with Bidirectional Temporal Graph for Video Captioning"", 《ARXIV》 *
TIANWEI LIN: ""BSN: Boundary Sensitive Network for Temporal Action Proposal Generation"", 《ARXIV》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020258598A1 (zh) * 2019-06-24 2020-12-30 上海商汤智能科技有限公司 图像处理方法、提名评估方法及相关装置
CN111327949A (zh) * 2020-02-28 2020-06-23 华侨大学 一种视频的时序动作检测方法、装置、设备及存储介质
CN111327949B (zh) * 2020-02-28 2021-12-21 华侨大学 一种视频的时序动作检测方法、装置、设备及存储介质
CN111368786A (zh) * 2020-03-16 2020-07-03 平安科技(深圳)有限公司 动作区域提取方法、装置、设备及计算机可读存储介质
CN112200103A (zh) * 2020-04-07 2021-01-08 北京航空航天大学 一种基于图注意力的视频分析***和方法
CN112906586A (zh) * 2021-02-26 2021-06-04 上海商汤科技开发有限公司 时序动作提名生成方法和相关产品
CN112906586B (zh) * 2021-02-26 2024-05-24 上海商汤科技开发有限公司 时序动作提名生成方法和相关产品

Also Published As

Publication number Publication date
US20230094192A1 (en) 2023-03-30
KR20210002355A (ko) 2021-01-07
TW202101384A (zh) 2021-01-01
JP7163397B2 (ja) 2022-10-31
SG11202009661VA (en) 2021-01-28
WO2020258598A1 (zh) 2020-12-30
CN110263733B (zh) 2021-07-23
JP2021531523A (ja) 2021-11-18
TWI734375B (zh) 2021-07-21

Similar Documents

Publication Publication Date Title
CN110263733A (zh) 图像处理方法、提名评估方法及相关装置
CN109784269A (zh) 一种基于时空联合的人体动作检测和定位方法
CN110111366A (zh) 一种基于多级损失量的端到端光流估计方法
CN110084603A (zh) 训练欺诈交易检测模型的方法、检测方法以及对应装置
CN108681774A (zh) 基于生成对抗网络负样本增强的人体目标跟踪方法
CN111767847B (zh) 一种集成目标检测和关联的行人多目标跟踪方法
CN109272509A (zh) 一种连续图像的目标检测方法、装置、设备及存储介质
CN109800770A (zh) 一种实时目标检测的方法、***及装置
CN108229290A (zh) 视频物体分割方法和装置、电子设备、存储介质和程序
CN103559724A (zh) 一种高粘连度细胞环境下的多细胞同步跟踪方法
CN107025420A (zh) 视频中人体行为识别的方法和装置
CN110490052A (zh) 基于级联多任务学习的人脸检测及人脸属性分析方法及***
CN112734809B (zh) 基于Deep-Sort跟踪框架的在线多行人跟踪方法及装置
CN113963304B (zh) 基于时序-空间图的跨模态视频时序动作定位方法及***
CN109033955A (zh) 一种人脸跟踪方法和***
CN112434608A (zh) 一种基于双流结合网络的人体行为识别方法及***
CN111785366A (zh) 患者治疗方案的确定方法、装置及计算机设备
CN104809455B (zh) 基于可判别性二叉树投票的动作识别方法
Ma et al. Robust tracking via uncertainty-aware semantic consistency
CN113887501A (zh) 行为识别方法、装置、存储介质及电子设备
Zahan et al. Learning sparse temporal video mapping for action quality assessment in floor gymnastics
CN109829909A (zh) 一种目标检测方法、装置及存储介质
CN116186561B (zh) 基于高维时序图网络的跑步姿势识别纠正方法及***
CN115546491B (zh) 一种跌倒报警方法、***、电子设备及存储介质
CN115187629A (zh) 一种使用图注意力网络融合目标跟踪特征的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40011001

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant