CN110674783B - 一种基于多级预测架构的视频描述方法及*** - Google Patents

一种基于多级预测架构的视频描述方法及*** Download PDF

Info

Publication number
CN110674783B
CN110674783B CN201910947833.1A CN201910947833A CN110674783B CN 110674783 B CN110674783 B CN 110674783B CN 201910947833 A CN201910947833 A CN 201910947833A CN 110674783 B CN110674783 B CN 110674783B
Authority
CN
China
Prior art keywords
layer
language description
description
fine
granularity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910947833.1A
Other languages
English (en)
Other versions
CN110674783A (zh
Inventor
尹晓雅
李锐
于治楼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Inspur Scientific Research Institute Co Ltd
Original Assignee
Shandong Inspur Scientific Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Inspur Scientific Research Institute Co Ltd filed Critical Shandong Inspur Scientific Research Institute Co Ltd
Priority to CN201910947833.1A priority Critical patent/CN110674783B/zh
Publication of CN110674783A publication Critical patent/CN110674783A/zh
Application granted granted Critical
Publication of CN110674783B publication Critical patent/CN110674783B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多级预测架构的视频描述方法及***,属于深度学习中计算机视觉以及自然语言处理领域,本发明要解决的技术问题为如何生成细粒度的语言描述,避免模型复杂度提高造成梯度消失,同时从根本上解决曝光偏差的难题,避免发生错误累计,造成最终结果的失效,采用的技术方案为:该方法步骤如下:S1、获取原始数据;S2、使用nltk对描述进行筛选分词;S4、预训练YOLO;S5、通过多层解码器LSTM及堆叠注意力机制得到语言描述;S6、将得到的语言描述分别与真实标注计算交叉熵,同时将得到的语言描述的和作为总体损失。该***包括原始数据获取模块、筛选分词模块、单词表制作模块、YOLO预训练模块、语言描述获取模块及梯度计算模块。

Description

一种基于多级预测架构的视频描述方法及***
技术领域
本发明涉及深度学习中计算机视觉以及自然语言处理领域,可用于多种视频场景,如监控视频,社交视频,娱乐视频等,具体地说是一种基于多级预测架构的视频描述方法及***。
背景技术
近年来,伴随着我国进入互联网+时代,计算机和相关技术日益深度融入我们的生活、生产中,并成为重要生产力。得益于网络渗透率的快速提高,我国网络视频用户规模也居世界首位,截至2018年12月,网络视频用户规模达6.12亿,且规模还在高速增长。充斥网络的视频等媒体文件数量繁多,质量参差不齐,完全依靠人力理解这些数量庞大的视频以及根据内容筛选出符合需求的视频媒体文件已经成为了一项不可能完成的任务。随着计算机硬件技术的不断创新与提高,计算机的计算能力得到了质的发展,并且计算机的高速计算能力已经逐渐用于帮助人类解决一些繁杂的问题,因此视频自然语言描述的自动生成已经成为计算机视觉和自然语言处理研究的热点。
视频自然语言描述的自动生成仍然面临许多挑战:由于视频内容的复杂性和多样性,视频自然语言描述是一个颇具难度的任务;如何理解视频内容与自然语言句子之间的关系,仍然是一个有待解决的问题。由于深度学习方法较好的性能和高速计算力,基于深度学习的方法越来越受到视频内容理解领域的重视。基于编码器-解码器LSTM框架,自动生成视频自然语言描述任务取得了一定的进展,采用基于卷积神经网络(CNN)的编码器理解视频内容,将视频内容编码成高级抽象向量,再利用基于循环神经网络(RNN)的解码器LSTM讲编码得到的表示向量解码成一系列的文字,按顺序组成一句完整的句子,得到最终的语言描述。
基于编码器-解码器LSTM框架的视频描述方法虽然取得了一定的成果,但是,生成的结果并不那么令人满意;具体问题如下:
首先,模型很难生成丰富的细粒度描述。这是因为要生成细粒度的描述需要复杂性更高的模型,而考虑到反向传播的梯度在经过复杂网络中多层传播时强度会降低,因此高复杂度的模型在训练过程中常常会出现梯度消失的问题,导致训练失去控制,无法得到预想中的结果。
其次,在训练阶段和推论阶段之间存在着曝光偏差问题,具体来说,在训练阶段,解码器LSTM经过训练,能够根据上一时刻的真实词预测下一时刻的单词,在推论阶段,与训练阶段不同的是,描述句子的生成是通过贪婪搜索或波束搜索完成的,根据模型前一时刻生成的单词来预测下一个单词。由于在训练时模型从未接收过它自己预测的单词,这将导致在推论时一旦某一时刻发生了错误,之后的时刻错误将会积累。为了解决曝光偏差问题,schedule sampling已成为当前主流的基于RNN模型的训练方法,即在训练阶段,在真实词和模型生成词之间根据概率进行随机选择作为下一时刻的输入。然而,这只能减轻曝光偏差问题,但不能在很大程度上从根本上解决它。
综上所述,经典的视频描述方法局限于无法生成细粒度的语言描述,一旦模型复杂度提高,很容易发生梯度消失问题;且在训练阶段和推论阶段之间由于输入不同,存在着曝光偏差问题,再应用推论阶段由于曝光偏差问题很容易发生错误累计问题,造成最终结果的失效,现存方法只能减轻曝光偏差问题,但不能从根本上解决它。
故如何生成细粒度的语言描述,避免模型复杂度提高造成梯度消失,同时从根本上解决曝光偏差的难题,避免发生错误累计,造成最终结果的失效是目前现有技术中存在的技术问题。
专利号为CN109874029A的专利文献公开了一种视频描述生成方法、装置、设备及存储介质。该方法包括:通过视频描述生成模型的编码器对目标视频进行编码,得到目标视频的目标视觉特征;通过视频描述生成模型的基础解码器LSTM对目标视觉特征进行解码,得到各个候选词汇对应的第一选取概率,基础解码器LSTM用于采用注意力机制解码出与目标视觉特征匹配的候选词汇;通过视频描述生成模型的辅助解码器LSTM对目标视觉特征进行解码,得到各个候选词汇对应的第二选取概率,辅助解码器LSTM的记忆结构中包括各个候选词汇对应的参考视觉上下文信息,参考视觉上下文信息根据候选词汇对应的相关视频生成;根据第一选取概率和第二选取概率确定候选词汇中的解码词;根据若干个解码词生成视频描述。但是该技术方案不能从根本上解决曝光偏差问题。
发明内容
本发明的技术任务是提供一种基于多级预测架构的视频描述方法及***,来解决如何生成细粒度的语言描述,避免模型复杂度提高造成梯度消失,同时从根本上解决曝光偏差的难题,避免发生错误累计,造成最终结果的失效的问题。
本发明的技术任务是按以下方式实现的,一种基于多级预测架构的视频描述方法,该方法具体步骤如下:
S1、获取原始数据:将获取的原始监控视频切割成短视频,短视频是每隔相等短时间间隔抽取帧进行分析,并在每段短视频中通过人工进行标注,同时将短视频划分为训练集和测试集;
S2、使用nltk对描述进行筛选分词:对每段短视频中的人工标注进行筛选分词,将标注筛分成单词;
S3、制作单词表:根据筛分完成的训练集的标注制作单词表,按照标注中单词次数由高到低排序组成单词表;
S4、预训练YOLO:使用训练好的训练集模型提取k个显著区域;
S5、通过多层解码器LSTM及堆叠注意力机制得到语言描述:采用一种由粗粒度到细粒度的框架,使用编码器提取一组显著的图像区域,每个区域由一个特征向量表示,再将提取到的特征向量序列通过一层粗粒度解码器LSTM和两层细粒度解码器LSTM,经过堆叠注意力机制得到语言描述;
S6、将得到的语言描述分别与真实标注计算交叉熵,同时将得到的语言描述的和作为总体损失。
作为优选,所述步骤S4中预训练YOLO的具体步骤如下:
S401、使用目标检测网络YOLO来提取帧中的显著区域,YOLO具有很好的检测效果以及实时性,可以很好的节省时间,确定所有待定区域的边界框;
S402、采用非极大值抑制方法对所有待定区域进行筛选;
S403、对筛选后得到的感兴趣的区域采用分类网络,用分类网络的最后一层卷积层表示显著区域的语义特征向量;
S404、最终使用空间自适应平均池将语义特征向量调整为固定大小的空间表示向量。
更优地,所述步骤S5中通过多层解码器LSTM及堆叠注意力机制得到语言描述的具体是将得到的视觉特征翻译为流畅的语言,整个解码器LSTM由一层粗粒度解码器LSTM和两层细粒度解码器LSTM组成,两层细粒度解码器LSTM中更高层的细粒度解码器LSTM会有更加精细的结果;具体如下:
第一阶段是粗粒度解码器LSTM:全局视觉向量,结合最后一层细粒度解码器LSTM的输出一同作为输入,得到粗粒度解码器LSTM的隐藏状态和第一层粗粒度的语言描述;
第二阶段是第一层细粒度解码器LSTM:通过堆叠注意力机制,计算注意力权值,将加权平均后的视觉向量作为输入,结合上一层的隐藏状态一同作为输入,得到第一层细粒度的隐藏状态和第一层细粒度的语言描述;
第三阶段是第二层细粒度解码器LSTM:通过堆叠注意力机制,计算堆叠注意力权重,将加权平均后的视觉向量作为输入,结合上一层的隐藏状态一同作为输入,得到最终最精细的语言描述。
作为优选,所述步骤S1获取原始数据中短视频每段的时长为10-20秒;训练集和测试集的划分比例为8:2。
作为优选,所述步骤S2使用nltk对描述进行筛选分词是判断标注是英文还是中文:
若是英文,则根据空格划分;
若是中文,则根据自带的语料库进行划分;其中,nltk为python中自带的语料库。
作为优选,所述步骤S6中交叉熵函数使用tensorflow库中的交叉熵损失函数;
将得到的第一层粗粒度的语言描述、第一层细粒度的语言描述和最终最精细的语言描述分别与真实标注计算交叉熵,同时将得到的第一层粗粒度的语言描述、第一层细粒度的语言描述和最终最精细的语言描述的和作为总体损失。
一种基于多级预测架构的视频描述***,该***包括,
原始数据获取模块,用于将获取的原始监控视频切割成短视频,短视频是每隔相等短时间间隔抽取帧进行分析,并在每段短视频中通过人工进行标注,同时将短视频划分为训练集和测试集;
筛选分词模块,用于使用nltk对描述进行筛选分词,对每段短视频中的人工标注进行筛选分词,将标注筛分成单词;
单词表制作模块,用于根据筛分完成的训练集的标注制作单词表,按照标注中单词次数由高到低排序组成单词表;
YOLO预训练模块,用于使用训练好的训练集模型提取k个显著区域;
语言描述获取模块,用于通过多层解码器LSTM及堆叠注意力机制得到语言描述,具体采用一种由粗粒度到细粒度的框架,使用编码器提取一组显著的图像区域,每个区域由一个特征向量表示,再将提取到的特征向量序列通过一层粗粒度解码器LSTM和两层细粒度解码器LSTM,经过堆叠注意力机制得到语言描述;
梯度计算模块,用于将得到的语言描述分别与真实标注计算交叉熵,同时将得到的语言描述的和作为总体损失。
作为优选,所述语言描述获取模块包括如下三个阶段:
第一阶段粗粒度解码器LSTM:从全局图像特征预测粗粒度描述,将编码器阶段得到的所有显著区域的向量表示采用平均池化得到一个完整的全局视觉表示向量,结合最后一层细粒度解码器LSTM的输出一同作为输入,得到第一层粗粒度的隐藏状态和第一层粗粒度的语言描述;
第二阶段第一层细粒度解码器LSTM:每个时间步骤的更新不再只考虑全局的视觉特征,而是通过堆叠注意力机制,过滤噪声,强调详细的视觉信息;结合上一层当前时刻的隐藏状态,计算当前层当前时刻的对每个区域的注意力权值,将加权平均后的视觉向量作为输入,结合上一层的隐藏状态一同作为输入,得到第一层细粒度的隐藏状态和第一层细粒度的语言描述;
第三阶段第二层细粒度解码器LSTM:该阶段会得到比第一层细粒度解码器LSTM更加精细的描述以及注意力权重;结合上一层当前时刻的隐藏状态和上一层加权后视觉向量,计算当前层当前时刻的堆叠注意力权重,将加权平均后的视觉向量作为输入,结合上一层的隐藏状态一同作为输入,得到最终最精细的语言描述。
本发明的基于多级预测架构的视频描述方法及***具有以下优点:
(一)、本发明采用多层解码器,第一阶段粗粒度解码器得到粗粒度级别的描述,第二阶段细粒度解码器结合堆叠注意力机制,参考粗粒度解码器最终状态,得到较详细描述,第三阶段细粒度解码器结合堆叠注意力机制,参考上一层解码器最终状态,较上一层级细粒度解码器得到更为精细的描述;本发明在目前流行方法的基础上进一步改进,使用多层级解码器,得到精细描述,更加准确有针对性;
(二)、目标检测网络提取显著区域,使得方法具有更针对性的注意效果,保障即使目标多且复杂,都能准确注意到;
(三)、本发明采用由粗到精的自动描述模型,结合多层LSTM网络,依靠每层的中间结果计算损失,减少甚至解决复杂模型中梯度消失问题;
(四)、本发明使用堆叠的视觉注意模型,不仅考虑当前层的状态,还将之前层的状态一同考虑,实现更准确具有针对性的关注点;
(五)、本发明实现了生成从粗粒度到细粒度的多级别语言描述,结果准确度高,描述精细,实用性高。
附图说明
下面结合附图对本发明进一步说明。
附图1为基于多级预测架构的视频描述方法的流程框图;
附图2为通过多层解码器LSTM及堆叠注意力机制得到语言描述的流程框图;
附图3为基于多级预测架构的视频描述***的结构框图。
具体实施方式
参照说明书附图和具体实施例对本发明的一种基于多级预测架构的视频描述方法及***作以下详细地说明。
实施例1:
如附图1所示,本发明的基于多级预测架构的视频描述方法,该方法具体步骤如下:
S1、获取原始数据:将获取的原始监控视频切割成短视频,短视频是每隔相等短时间间隔抽取帧进行分析,并在每段短视频中通过人工进行标注,同时将短视频划分为训练集和测试集;
S2、使用nltk对描述进行筛选分词:对每段短视频中的人工标注进行筛选分词,将标注筛分成单词;
S3、制作单词表:根据筛分完成的训练集的标注制作单词表,按照标注中单词次数由高到低排序组成单词表;
S4、预训练YOLO:使用训练好的训练集模型提取k个显著区域;
S5、通过多层解码器LSTM及堆叠注意力机制得到语言描述:采用一种由粗粒度到细粒度的框架,使用编码器提取一组显著的图像区域,每个区域由一个特征向量表示,再将提取到的特征向量序列通过一层粗粒度解码器LSTM和两层细粒度解码器LSTM,经过堆叠注意力机制得到语言描述;
S6、将得到的语言描述分别与真实标注计算交叉熵,同时将得到的语言描述的和作为总体损失。
步骤S1获取原始数据中短视频每段的时长为10-20秒;训练集和测试集的划分比例为8:2。
步骤S2使用nltk对描述进行筛选分词是判断标注是英文还是中文:
若是英文,则根据空格划分;
若是中文,则根据自带的语料库进行划分;其中,nltk为python中自带的语料库。
步骤S4中预训练YOLO的具体步骤如下:
S401、使用目标检测网络YOLO来提取帧中的显著区域,YOLO具有很好的检测效果以及实时性,可以很好的节省时间,确定所有待定区域的边界框;
S402、采用非极大值抑制方法对所有待定区域进行筛选;
S403、对筛选后得到的感兴趣的区域采用分类网络,用分类网络的最后一层卷积层表示显著区域的语义特征向量;
S404、最终使用空间自适应平均池将语义特征向量调整为固定大小的空间表示向量。
步骤S5中通过多层解码器LSTM及堆叠注意力机制得到语言描述的具体是将得到的视觉特征翻译为流畅的语言,整个解码器LSTM由一层粗粒度解码器LSTM和两层细粒度解码器LSTM组成,两层细粒度解码器LSTM中更高层的细粒度解码器LSTM会有更加精细的结果;如附图2所示,具体如下:
第一阶段是粗粒度解码器LSTM:全局视觉向量,结合最后一层细粒度解码器LSTM的输出一同作为输入,得到粗粒度解码器LSTM的隐藏状态和第一层粗粒度的语言描述;
第二阶段是第一层细粒度解码器LSTM:通过堆叠注意力机制,计算注意力权值,将加权平均后的视觉向量作为输入,结合上一层的隐藏状态一同作为输入,得到第一层细粒度的隐藏状态和第一层细粒度的语言描述;
第三阶段是第二层细粒度解码器LSTM:通过堆叠注意力机制,计算堆叠注意力权重,将加权平均后的视觉向量作为输入,结合上一层的隐藏状态一同作为输入,得到最终最精细的语言描述。
步骤S6中交叉熵函数使用tensorflow库中的交叉熵损失函数;
将得到的第一层粗粒度的语言描述、第一层细粒度的语言描述和最终最精细的语言描述分别与真实标注计算交叉熵,同时将得到的第一层粗粒度的语言描述、第一层细粒度的语言描述和最终最精细的语言描述的和作为总体损失。
实施例2:
如附图3所示,本发明的基于多级预测架构的视频描述***,该***包括,
原始数据获取模块,用于将获取的原始监控视频切割成短视频,短视频是每隔相等短时间间隔抽取帧进行分析,并在每段短视频中通过人工进行标注,同时将短视频划分为训练集和测试集;
筛选分词模块,用于使用nltk对描述进行筛选分词,对每段短视频中的人工标注进行筛选分词,将标注筛分成单词;
单词表制作模块,用于根据筛分完成的训练集的标注制作单词表,按照标注中单词次数由高到低排序组成单词表;
YOLO预训练模块,用于使用训练好的训练集模型提取k个显著区域;
语言描述获取模块,用于通过多层解码器LSTM及堆叠注意力机制得到语言描述,具体采用一种由粗粒度到细粒度的框架,使用编码器提取一组显著的图像区域,每个区域由一个特征向量表示,再将提取到的特征向量序列通过一层粗粒度解码器LSTM和两层细粒度解码器LSTM,经过堆叠注意力机制得到语言描述;语言描述获取模块包括如下三个阶段:
第一阶段粗粒度解码器LSTM:从全局图像特征预测粗粒度描述,将编码器阶段得到的所有显著区域的向量表示采用平均池化得到一个完整的全局视觉表示向量,结合最后一层细粒度解码器LSTM的输出一同作为输入,得到第一层粗粒度的隐藏状态和第一层粗粒度的语言描述;
第二阶段第一层细粒度解码器LSTM:每个时间步骤的更新不再只考虑全局的视觉特征,而是通过堆叠注意力机制,过滤噪声,强调详细的视觉信息;结合上一层当前时刻的隐藏状态,计算当前层当前时刻的对每个区域的注意力权值,将加权平均后的视觉向量作为输入,结合上一层的隐藏状态一同作为输入,得到第一层细粒度的隐藏状态和第一层细粒度的语言描述;
第三阶段第二层细粒度解码器LSTM:该阶段会得到比第一层细粒度解码器LSTM更加精细的描述以及注意力权重;结合上一层当前时刻的隐藏状态和上一层加权后视觉向量,计算当前层当前时刻的堆叠注意力权重,将加权平均后的视觉向量作为输入,结合上一层的隐藏状态一同作为输入,得到最终最精细的语言描述。
梯度计算模块,用于将得到的语言描述分别与真实标注计算交叉熵,同时将得到的语言描述的和作为总体损失。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (4)

1.一种基于多级预测架构的视频描述方法,其特征在于,该方法具体步骤如下:
S1、获取原始数据:将获取的原始监控视频切割成短视频,短视频是每隔相等短时间间隔抽取帧进行分析,并在每段短视频中通过人工进行标注,同时将短视频划分为训练集和测试集;
S2、使用nltk对描述进行筛选分词:对每段短视频中的人工标注进行筛选分词,将标注筛分成单词;
S3、制作单词表:根据筛分完成的训练集的标注制作单词表,按照标注中单词次数由高到低排序组成单词表;
S4、预训练YOLO:使用训练好的训练集模型提取k个显著区域;具体步骤如下:
S401、使用目标检测网络YOLO来提取帧中的显著区域,确定所有待定区域的边界框;
S402、采用非极大值抑制方法对所有待定区域进行筛选;
S403、对筛选后得到的感兴趣的区域采用分类网络,用分类网络的最后一层卷积层表示显著区域的语义特征向量;
S404、最终使用空间自适应平均池将语义特征向量调整为固定大小的空间表示向量;
S5、通过多层解码器LSTM及堆叠注意力机制得到语言描述:采用一种由粗粒度到细粒度的框架,使用编码器提取一组显著的图像区域,每个区域由一个特征向量表示,再将提取到的特征向量序列通过一层粗粒度解码器LSTM和两层细粒度解码器LSTM,经过堆叠注意力机制得到语言描述;具体如下:
第一阶段是粗粒度解码器LSTM:全局视觉向量,结合最后一层细粒度解码器LSTM的输出一同作为输入,得到粗粒度解码器LSTM的隐藏状态和第一层粗粒度的语言描述;
第二阶段是第一层细粒度解码器LSTM:通过堆叠注意力机制,计算注意力权值,将加权平均后的视觉向量作为输入,结合上一层的隐藏状态一同作为输入,得到第一层细粒度的隐藏状态和第一层细粒度的语言描述;
第三阶段是第二层细粒度解码器LSTM:通过堆叠注意力机制,计算堆叠注意力权重,将加权平均后的视觉向量作为输入,结合上一层的隐藏状态一同作为输入,得到最终最精细的语言描述;
S6、将得到的语言描述分别与真实标注计算交叉熵,同时将得到的语言描述的和作为总体损失;其中,交叉熵函数使用tensorflow库中的交叉熵损失函数;
将得到的第一层粗粒度的语言描述、第一层细粒度的语言描述和最终最精细的语言描述分别与真实标注计算交叉熵,同时将得到的第一层粗粒度的语言描述、第一层细粒度的语言描述和最终最精细的语言描述的和作为总体损失。
2.根据权利要求1所述的基于多级预测架构的视频描述方法,其特征在于,所述步骤S1获取原始数据中短视频每段的时长为10-20秒;训练集和测试集的划分比例为8:2。
3.根据权利要求1所述的基于多级预测架构的视频描述方法,其特征在于,所述步骤S2使用nltk对描述进行筛选分词是判断标注是英文还是中文:
若是英文,则根据空格划分;
若是中文,则根据自带的语料库进行划分;其中,nltk为python中自带的语料库。
4.一种基于多级预测架构的视频描述***,其特征在于,该***包括,
原始数据获取模块,用于将获取的原始监控视频切割成短视频,短视频是每隔相等短时间间隔抽取帧进行分析,并在每段短视频中通过人工进行标注,同时将短视频划分为训练集和测试集;
筛选分词模块,用于使用nltk对描述进行筛选分词,对每段短视频中的人工标注进行筛选分词,将标注筛分成单词;
单词表制作模块,用于根据筛分完成的训练集的标注制作单词表,按照标注中单词次数由高到低排序组成单词表;
YOLO预训练模块,用于使用训练好的训练集模型提取k个显著区域;
语言描述获取模块,用于通过多层解码器LSTM及堆叠注意力机制得到语言描述,具体采用一种由粗粒度到细粒度的框架,使用编码器提取一组显著的图像区域,每个区域由一个特征向量表示,再将提取到的特征向量序列通过一层粗粒度解码器LSTM和两层细粒度解码器LSTM,经过堆叠注意力机制得到语言描述;其中,语言描述获取模块包括如下三个阶段:
第一阶段粗粒度解码器LSTM:从全局图像特征预测粗粒度描述,将编码器阶段得到的所有显著区域的向量表示采用平均池化得到一个完整的全局视觉表示向量,结合最后一层细粒度解码器LSTM的输出一同作为输入,得到第一层粗粒度的隐藏状态和第一层粗粒度的语言描述;
第二阶段第一层细粒度解码器LSTM:通过堆叠注意力机制,过滤噪声,强调详细的视觉信息;结合上一层当前时刻的隐藏状态,计算当前层当前时刻的对每个区域的注意力权值,将加权平均后的视觉向量作为输入,结合上一层的隐藏状态一同作为输入,得到第一层细粒度的隐藏状态和第一层细粒度的语言描述;
第三阶段第二层细粒度解码器LSTM:该阶段会得到比第一层细粒度解码器LSTM更加精细的描述以及注意力权重;结合上一层当前时刻的隐藏状态和上一层加权后视觉向量,计算当前层当前时刻的堆叠注意力权重,将加权平均后的视觉向量作为输入,结合上一层的隐藏状态一同作为输入,得到最终最精细的语言描述;
梯度计算模块,用于将得到的语言描述分别与真实标注计算交叉熵,同时将得到的语言描述的和作为总体损失。
CN201910947833.1A 2019-10-08 2019-10-08 一种基于多级预测架构的视频描述方法及*** Active CN110674783B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910947833.1A CN110674783B (zh) 2019-10-08 2019-10-08 一种基于多级预测架构的视频描述方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910947833.1A CN110674783B (zh) 2019-10-08 2019-10-08 一种基于多级预测架构的视频描述方法及***

Publications (2)

Publication Number Publication Date
CN110674783A CN110674783A (zh) 2020-01-10
CN110674783B true CN110674783B (zh) 2022-06-28

Family

ID=69081132

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910947833.1A Active CN110674783B (zh) 2019-10-08 2019-10-08 一种基于多级预测架构的视频描述方法及***

Country Status (1)

Country Link
CN (1) CN110674783B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108415901A (zh) * 2018-02-07 2018-08-17 大连理工大学 一种基于词向量和上下文信息的短文本主题模型
CN109344288A (zh) * 2018-09-19 2019-02-15 电子科技大学 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN109684912A (zh) * 2018-11-09 2019-04-26 中国科学院计算技术研究所 一种基于信息损失函数的视频描述方法和***
CN109902296A (zh) * 2019-01-18 2019-06-18 华为技术有限公司 自然语言处理方法、训练方法及数据处理设备
CN109992668A (zh) * 2019-04-04 2019-07-09 上海冰鉴信息科技有限公司 一种基于自注意力的企业舆情分析方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10776581B2 (en) * 2018-02-09 2020-09-15 Salesforce.Com, Inc. Multitask learning as question answering

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108415901A (zh) * 2018-02-07 2018-08-17 大连理工大学 一种基于词向量和上下文信息的短文本主题模型
CN109344288A (zh) * 2018-09-19 2019-02-15 电子科技大学 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN109684912A (zh) * 2018-11-09 2019-04-26 中国科学院计算技术研究所 一种基于信息损失函数的视频描述方法和***
CN109902296A (zh) * 2019-01-18 2019-06-18 华为技术有限公司 自然语言处理方法、训练方法及数据处理设备
CN109992668A (zh) * 2019-04-04 2019-07-09 上海冰鉴信息科技有限公司 一种基于自注意力的企业舆情分析方法和装置

Also Published As

Publication number Publication date
CN110674783A (zh) 2020-01-10

Similar Documents

Publication Publication Date Title
CN107608943B (zh) 融合视觉注意力和语义注意力的图像字幕生成方法及***
CN113850162B (zh) 一种视频审核方法、装置及电子设备
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN111429887B (zh) 基于端到端的语音关键词识别方法、装置以及设备
CN110705399A (zh) 一种数学公式自动识别的方法
CN114817494B (zh) 基于预训练和注意力交互网络的知识型检索式对话方法
CN111696136A (zh) 一种基于编解码结构的目标跟踪方法
CN112597766A (zh) 一种基于BERT-base网络的带噪半监督文本分类方法
CN116229482A (zh) 网络舆情分析中视觉多模态文字检测识别及纠错方法
CN114417058A (zh) 一种视频素材的筛选方法、装置、计算机设备和存储介质
DE102022131824A1 (de) Visuelle Spracherkennung für Digitalvideos unter Einsatz generativ-adversativen Lernens
CN117217368A (zh) 预测模型的训练方法、装置、设备、介质及程序产品
CN114821569A (zh) 一种基于注意力机制的场景文本识别方法及***
Lin et al. Ctc network with statistical language modeling for action sequence recognition in videos
CN112131429B (zh) 一种基于深度预测编码网络的视频分类方法及***
CN117877460A (zh) 语音合成方法、装置、语音合成模型训练方法、装置
CN110674783B (zh) 一种基于多级预测架构的视频描述方法及***
Li Research on methods of english text detection and recognition based on neural network detection model
CN115484456B (zh) 一种基于语义聚类的视频异常预测方法及装置
CN114677631B (zh) 一种基于多特征融合及多阶段训练的文化资源视频中文描述生成方法
CN114692604A (zh) 一种基于深度学习的方面级情感分类方法
CN117291193A (zh) 机器翻译方法、设备及存储介质
CN114896969A (zh) 一种基于深度学习的方面词提取方法
CN110969187B (zh) 一种图谱迁移的语义分析方法
Cheng et al. Video reasoning for conflict events through feature extraction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220607

Address after: Building S02, 1036 Gaoxin Langchao Road, Jinan, Shandong 250100

Applicant after: Shandong Inspur Scientific Research Institute Co.,Ltd.

Address before: North 6th floor, S05 building, Langchao Science Park, 1036 Langchao Road, hi tech Zone, Jinan City, Shandong Province, 250100

Applicant before: SHANDONG INSPUR ARTIFICIAL INTELLIGENCE RESEARCH INSTITUTE Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant