CN111783852A - 一种基于深度强化学习自适应式生成图像描述的方法 - Google Patents

一种基于深度强化学习自适应式生成图像描述的方法 Download PDF

Info

Publication number
CN111783852A
CN111783852A CN202010550939.0A CN202010550939A CN111783852A CN 111783852 A CN111783852 A CN 111783852A CN 202010550939 A CN202010550939 A CN 202010550939A CN 111783852 A CN111783852 A CN 111783852A
Authority
CN
China
Prior art keywords
description
image
formula
visual information
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010550939.0A
Other languages
English (en)
Other versions
CN111783852B (zh
Inventor
李建强
吴敬怡
董大强
冯慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202010550939.0A priority Critical patent/CN111783852B/zh
Publication of CN111783852A publication Critical patent/CN111783852A/zh
Application granted granted Critical
Publication of CN111783852B publication Critical patent/CN111783852B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

一种基于深度强化学习自适应式生成图像描述的方法及图像描述技术领域,提供一种更好的决策机制使生成描述过程中自适应的决策是否利用视觉信息。如利用语义信息生成下一个词语时不必要使用视觉信息;如利用注意力机制生成下一个单词时视觉信息的占比应该尽可能的大,可进行自适应的比重修正。本发明使在图像描述问题中生成下一个单词时能够自适应的决策是否利用视觉信息;采用强化学习的奖励机制调整在利用注意力机制生成词语时视觉信息所占比重,使得算法具有很强的学习能力、自适应性、科学性和鲁棒性。

Description

一种基于深度强化学习自适应式生成图像描述的方法
技术领域
本发明涉及图像描述技术领域,具体是一种基于深度强化学习自适应式生成图像描述的方法。
背景技术
图像描述技术可以根据输入机器的图像自动生成人类可理解的文字描述。该技术要求模型不仅能够识别图片中的物体还要理解物体之间的关系,然后以自然语言的方式自动阐述图像特征。图像描述在标注图像、婴幼儿早教、辅助医生临床诊断等方面有重大研究意义。
早期的图像描述工作大多基于检索和语义模板的方法,人们无法有效的提取图像特征,生成的句子描述缺乏灵活性,且不能进行泛化。近些年随着计算机视觉和自然语言处理技术的不断发展,目前大多数图像描述问题基于“编码—解码”框架进行处理。JunhuaMao等人第一次将“编码—解码”框架应用于图像描述问题,通过卷积神经网络(Convolutional Neural Networks,CNN)提取图像特征,后经过递归神经网络(RecurrentNeural Network,RNN)生成图像描述;Xu等人引入注意力机制,使在生成图像描述时更关注图像显著区域来提升图像描述工作性能;Jiasen Lu等人提出一种哨兵机制使得模型在生成下一个单词时利用“哨兵”控制视觉信息和语义信息各自占的比重。
当前这些方法在生成下一个单词时不能够科学的决策是否利用视觉信息,且在利用注意力机制生成下一个单词时无法修正视觉信息的比重。
发明内容
本发明所要解决的技术问题是:提供一种更好的决策机制使生成描述过程中自适应的决策是否利用视觉信息。如利用语义信息生成下一个词语时不必要使用视觉信息;如利用注意力机制生成下一个单词时视觉信息的占比应该尽可能的大,可进行自适应的比重修正。
为实现上述目的,本发明采用一种基于深度强化学习自适应式生成图像描述的技术方案,具体步骤如下:
步骤1:将数据分为训练集和测试集,训练集由图像及其相应的描述组成,测试集由图像组成;
步骤2:将训练数据集的图像输入卷积神经网络提取图像特征;
步骤3:将训练集的图像描述用one-hot编码方式进行编码来生成与图像对应的文本序列;
步骤4:将步骤2、3中的图像特征向量和文本序列输入至决策模块,以控制生成下一个词语时是否利用视觉信息;
步骤5:若通过决策模块后触发不利用视觉信息的方法索引,则将图像特征向量和文本序列输入至长短期记忆网络(Long Short-Term Memory,LSTM)生成图像描述;若通过决策模块后触发利用视觉信息索引生成下一个单词,则将图像特征向量和文本序列输入至有注意力机制的LSTM中生成描述;
步骤6:使用基于一致性的图像描述评价(Consensus-based Image DescriptionEvaluation,CIDEr)计算奖励反馈到决策模块进行更新并同时反馈到生成模块中进行比重的修正;
步骤7:最大限度的提高最终生成描述y相对于真实描述y*的回报以对图像描述模型进行训练;
步骤8:将测试数据集的图像分别输入到训练好的图像描述模型中得到相对应的描述语句。
作为一种优选的技术方案,为提供一种内容可控式定向生成图像描述的方法,所述步骤4中的决策模块具体实现为——令
Figure BDA0002542489950000021
作为生成下一个单词的决策概率分布。计算如下:
gt=σ(Wxxt+Whht-1) (1)
st=gt⊙tanh(mt) (2)
ut=softmax(Wust+bu) (3)
nt=argmax(ut) (4)
式(1)中gt表示记忆控制门,Wx和Wh为要学习的权重矩阵,xt为t时刻LSTM的输入,ht-1为前一时刻的输出状态,σ为非线性激活函数。式(2)中st表示当前时刻包含的语义信息的状态,mt为LSTM中的记忆细胞,tanh为激活函数,⊙表示元素乘积。式(3)中的ut为生成下一个单词的决策概率分布,Wu和bu是网络参数,softmax为激活函数。式(4)表示ut经过argmax函数得到最高概率索引nt。计算后,将根据最高概率索引去触发生成模块中的不同生成方法。
本发明的有益效果如下:
本发明提出了一种新的决策方式,使在图像描述问题中生成下一个单词时能够自适应的决策是否利用视觉信息;采用强化学习的奖励机制调整在利用注意力机制生成词语时视觉信息所占比重,使得算法具有很强的学习能力、自适应性、科学性和鲁棒性。
附图说明
图1是本发明总体流程图。
图2是生成模块的具体模型图。
具体实施方式
下面结合附图和实施例对本发明进行详细说明,但实例仅用于解释本发明,并不限于此。
结合图1和图2,本实施例基于深度强化学习自适应式生成图像描述的方法由下述步骤组成:
步骤1:从MSCOCO数据集中选择82783张图像和相应描述作为训练集,并选择4000张图像作为测试集;
步骤2:将训练数据集的图像输入到卷积神经网络VGG-19提取图像特征;
步骤3:将训练集的图像描述用one-hot编码方式进行编码来生成与图像对应的文本序列;
步骤4:将步骤2、3中的图像特征向量和文本序列输入至决策模块,以控制生成下一个词语时是否利用视觉信息;
本实例中的决策模块具体实现为令
Figure BDA0002542489950000041
为生成下一个单词的决策概率分布,其中st为包含之前单词语义信息的参数。计算如下:
gt=σ(Wxxt+Whht-1) (1)
st=gt⊙tanh(mt) (2)
ut=softmax(Wust+bu) (3)
nt=argmax(ut) (4)
式(1)中gt表示记忆控制门,Wx和Wh为要学习的权重矩阵,xt为t时刻LSTM的输入,ht-1为前一时刻的输出状态,σ为非线性激活函数。式(2)中st表示当前时刻包含的语义信息的状态,mt为LSTM中的记忆细胞,tanh为激活函数,⊙表示元素乘积。式(3)中的ut为生成下一个单词的决策概率分布,Wu和bu是网络参数,softmax为激活函数。式(4)表示ut经过argmax函数得到最高概率索引nt。计算后,将根据最高概率索引去触发生成模块中的不同生成方法。
步骤5:若通过决策模块后触发不利用视觉信息的方法索引,则将图像特征向量和文本序列输入至长短期记忆网络(Long Short-Term Memory,LSTM)生成图像描述,如图2中的分支一(图2上半部分)所示,此时用上一时刻的隐层状态ht-1、当前输入xt和当前隐层状态ht经过多层感知机(Multilayer Perceptron,MLP)预测得到输出yt
若通过决策模块后触发利用视觉信息索引生成下一个单词,则将图像特征向量和文本序列输入至有注意力机制的LSTM中生成描述,如图2中的分支二(图2下半部分)所示,令上下文向量:
Ct=Atten(V,ht-1) (5)
式(5)中V为图像特征,Atten为注意力机制的函数。此时用上下文向量Ct、上一时刻的隐层状态ht-1、当前输入xt和当前隐层状态ht经过多层感知机(MultilayerPerceptron,MLP)预测得到输出yt
步骤6:使用基于一致性的图像描述评价(Consensus-based Image DescriptionEvaluation,CIDEr)计算奖励反馈到决策模块进行更新并同时反馈到生成模块中进行比重的修正;
其中计算奖励过程如下:
Figure BDA0002542489950000051
公式(6)中yt为当前时刻模型输出的描述,Rt(yt)定义为当前的单词奖励,f为CIDEr评估方法,
Figure BDA0002542489950000052
分别表示从开始到t和t-1时刻的生成描述集合,gts为真实描述即训练集中图像对应的描述;
应用奖励机制反馈到决策模块、生成模块的更新过程具体计算如下:
Figure BDA0002542489950000053
Figure BDA0002542489950000054
Figure BDA0002542489950000055
式(7)中yt表示为t时刻模型生成的描述,R(yt)定义为所有单词的折扣奖励,为折扣因子,
Figure BDA0002542489950000056
表示目标最大化一个累积未来折扣回报,即希望学得一个策略(policy),通过执行这个策略使上式最大化。式(8)中L(θt)定义为期望回报,θt为决策模块或生成模块中的所有参数,yt与式(7)中定义相同,yt *表示t时刻图像对应的真实描述,Eyt[R(yt,yt *)]表示使状态yt转移到yt *的回报。式(9)
Figure BDA0002542489950000057
表示最终对θt求导的梯度,
Figure BDA0002542489950000058
为分值函数(score function),则
Figure BDA0002542489950000059
表示为与式(8)结合并在分值函数的计算下应用奖励机制的反馈更新计算;
步骤7:最大限度的提高最终生成描述y相对于真实描述y*的回报以对图像描述模型进行训练,损失函数为:
L(θ)=-En,y[R(y,y*)] (10)
Figure BDA00025424899500000510
在式(10)、(11)中θ代表整个模型的参数,n为公示(4)中的概率索引参数,y为模型最终生成描述,y*为图像对应真实描述。式(10)中L(θ)定义为期望回报,En,y[R(y,y*)]表示使状态y转移到y*的回报。式(11)中
Figure BDA00025424899500000511
定义为损失函数,
Figure BDA00025424899500000512
为分值函数(score function),通过与式(10)结合计算得到
Figure BDA00025424899500000513
步骤8:将测试数据集的一张图像输入到训练好的图像描述模型中得到相对应的描述语句。

Claims (5)

1.一种基于深度强化学习自适应式生成图像描述的方法,其特征在于,具体步骤如下:
步骤1:将数据分为训练集和测试集,训练集由图像及其相应的描述组成,测试集由图像组成;
步骤2:将训练数据集的图像输入卷积神经网络提取图像特征;
步骤3:将训练集的图像描述用one-hot编码方式进行编码来生成与图像对应的文本序列;
步骤4:将步骤2、3中的图像特征向量和文本序列输入至决策模块,以控制生成下一个词语时是否利用视觉信息;
步骤5:若通过决策模块后触发不利用视觉信息的方法索引,则将图像特征向量和文本序列输入至长短期记忆网络(Long Short-Term Memory,LSTM)生成图像描述;若通过决策模块后触发利用视觉信息索引生成下一个单词,则将图像特征向量和文本序列输入至有注意力机制的LSTM中生成描述;
步骤6:使用基于一致性的图像描述评价(Consensus-based Image DescriptionEvaluation,CIDEr)计算奖励反馈到决策模块进行更新并同时反馈到生成模块中进行比重的修正;
步骤7:最大限度的提高最终生成描述y相对于真实描述y*的回报以对图像描述模型进行训练;
步骤8:将测试数据集的图像分别输入到训练好的图像描述模型中得到相对应的描述语句。
2.根据权利要求1所述的方法,其特征在于:所述步骤4中的决策模块具体实现为——令
Figure FDA0002542489940000011
作为生成下一个单词的决策概率分布;计算如下:
gt=σ(Wxxt+Whht-1) (1)
st=gt⊙tanh(mt) (2)
ut=softmax(Wust+bu) (3)
nt=argmax(ut) (4)
式(1)中gt表示记忆控制门,Wx和Wh为要学习的权重矩阵,xt为t时刻LSTM的输入,ht-1为前一时刻的输出状态,σ为非线性激活函数;式(2)中st表示当前时刻包含的语义信息的状态,mt为LSTM中的记忆细胞,tanh为激活函数,⊙表示元素乘积;式(3)中的ut为生成下一个单词的决策概率分布,Wu和bu是网络参数,softmax为激活函数;式(4)表示ut经过argmax函数得到最高概率索引nt;计算后,将根据最高概率索引去触发生成模块中的不同生成方法。
3.根据权利要求1所述的方法,其特征在于:步骤5中若通过决策模块后触发不利用视觉信息的方法索引,则将图像特征向量和文本序列输入至长短期记忆网络(Long Short-Term Memory,LSTM)生成图像描述,此时用上一时刻的隐层状态ht-1、当前输入xt和当前隐层状态ht经过多层感知机预测得到输出yt
若通过决策模块后触发利用视觉信息索引生成下一个单词,则将图像特征向量和文本序列输入至有注意力机制的LSTM中生成描述,令上下文向量:
Ct=Atten(V,ht-1) (5)
式(5)中V为图像特征,Atten为注意力机制的函数;此时用上下文向量Ct、上一时刻的隐层状态ht-1、当前输入xt和当前隐层状态ht经过多层感知机预测得到输出yt
4.根据权利要求1所述的方法,其特征在于:步骤6中计算奖励过程如下:
Figure FDA0002542489940000021
公式(6)中yt为当前时刻模型输出的描述,Rt(yt)定义为当前的单词奖励,f为CIDEr评估方法,
Figure FDA0002542489940000022
分别表示从开始到t和t-1时刻的生成描述集合,gts为真实描述即训练集中图像对应的描述;
应用奖励机制反馈到决策模块、生成模块的更新过程具体计算如下:
Figure FDA0002542489940000023
Figure FDA0002542489940000024
Figure FDA0002542489940000025
式(7)中yt表示为t时刻模型生成的描述,R(yt)定义为所有单词的折扣奖励,γ为折扣因子,
Figure FDA0002542489940000031
表示目标最大化一个累积未来折扣回报,即希望学得一个策略,通过执行这个策略使上式最大化;式(8)中L(θt)定义为期望回报,θt为决策模块或生成模块中的所有参数,yt与式(7)中定义相同,yt *表示t时刻图像对应的真实描述,
Figure FDA0002542489940000039
表示使状态yt转移到yt *的回报;式(9)
Figure FDA0002542489940000032
表示最终对θt求导的梯度,
Figure FDA0002542489940000033
为分值函数(score function),则
Figure FDA0002542489940000034
表示为与式(8)结合并在分值函数的计算下应用奖励机制的反馈更新计算。
5.根据权利要求1所述的方法,其特征在于:步骤7中最大限度的提高最终生成描述y相对于真实描述y*的回报以对图像描述模型进行训练,损失函数为:
L(θ)=-En,y[R(y,y*)] (10)
Figure FDA0002542489940000035
在式(10)、(11)中θ代表整个模型的参数,n为公示(4)中的概率索引参数,y为模型最终生成描述,y*为图像对应真实描述;式(10)中L(θ)定义为期望回报,En,y[R(y,y*)]表示使状态y转移到y*的回报;式(11)中
Figure FDA0002542489940000036
定义为损失函数,
Figure FDA0002542489940000037
为分值函数(score function),通过与式(10)结合计算得到
Figure FDA0002542489940000038
CN202010550939.0A 2020-06-16 2020-06-16 一种基于深度强化学习自适应式生成图像描述的方法 Active CN111783852B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010550939.0A CN111783852B (zh) 2020-06-16 2020-06-16 一种基于深度强化学习自适应式生成图像描述的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010550939.0A CN111783852B (zh) 2020-06-16 2020-06-16 一种基于深度强化学习自适应式生成图像描述的方法

Publications (2)

Publication Number Publication Date
CN111783852A true CN111783852A (zh) 2020-10-16
CN111783852B CN111783852B (zh) 2024-03-12

Family

ID=72755970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010550939.0A Active CN111783852B (zh) 2020-06-16 2020-06-16 一种基于深度强化学习自适应式生成图像描述的方法

Country Status (1)

Country Link
CN (1) CN111783852B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989088A (zh) * 2021-02-04 2021-06-18 西安交通大学 一种基于强化学习的视觉关系实例学习方法
CN113408430A (zh) * 2021-06-22 2021-09-17 哈尔滨理工大学 基于多级策略和深度强化学习框架的图像中文描述***及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188779A (zh) * 2019-06-03 2019-08-30 中国矿业大学 一种图像语义描述的生成方法
CN110210499A (zh) * 2019-06-03 2019-09-06 中国矿业大学 一种图像语义描述的自适应生成***
CN110674850A (zh) * 2019-09-03 2020-01-10 武汉大学 一种基于注意力机制的图像描述生成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188779A (zh) * 2019-06-03 2019-08-30 中国矿业大学 一种图像语义描述的生成方法
CN110210499A (zh) * 2019-06-03 2019-09-06 中国矿业大学 一种图像语义描述的自适应生成***
CN110674850A (zh) * 2019-09-03 2020-01-10 武汉大学 一种基于注意力机制的图像描述生成方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989088A (zh) * 2021-02-04 2021-06-18 西安交通大学 一种基于强化学习的视觉关系实例学习方法
CN112989088B (zh) * 2021-02-04 2023-03-21 西安交通大学 一种基于强化学习的视觉关系实例学习方法
CN113408430A (zh) * 2021-06-22 2021-09-17 哈尔滨理工大学 基于多级策略和深度强化学习框架的图像中文描述***及方法
CN113408430B (zh) * 2021-06-22 2022-09-09 哈尔滨理工大学 基于多级策略和深度强化学习框架的图像中文描述***及方法

Also Published As

Publication number Publication date
CN111783852B (zh) 2024-03-12

Similar Documents

Publication Publication Date Title
CN110309839B (zh) 一种图像描述的方法及装置
CN105139864B (zh) 语音识别方法和装置
CN110647612A (zh) 一种基于双视觉注意力网络的视觉对话生成方法
US20210279576A1 (en) Attention neural networks with talking heads attention
CN107133211A (zh) 一种基于注意力机制的作文评分方法
CN110321418A (zh) 一种基于深度学习的领域、意图识别和槽填充方法
CN106599198A (zh) 一种多级联结循环神经网络的图像描述方法
CN107836000A (zh) 用于语言建模和预测的改进的人工神经网络
CN108416065A (zh) 基于层级神经网络的图像-句子描述生成***及方法
CN110570920A (zh) 一种基于集中注意力模型的实体、关系联合学习方法
US11776269B2 (en) Action classification in video clips using attention-based neural networks
CN110807069B (zh) 一种基于强化学习算法的实体关系联合抽取模型构建方法
CN112036276A (zh) 一种人工智能视频问答方法
US12050983B2 (en) Attention neural networks with parallel attention and feed-forward layers
Chen et al. Deep neural networks for multi-class sentiment classification
CN111783852B (zh) 一种基于深度强化学习自适应式生成图像描述的方法
CN112464816A (zh) 基于二次迁移学习的地方手语识别方法、装置
CN116051388A (zh) 经由语言请求的自动照片编辑
CN111191461B (zh) 一种基于课程学习的远程监督关系抽取方法
US20230316536A1 (en) Systems and methods for object tracking
CN110188791B (zh) 基于自动估计的视觉情感标签分布预测方法
CN114925232A (zh) 一种文段问答框架下跨模态的时域视频定位方法
CN111242059A (zh) 基于递归记忆网络的无监督图像描述模型的生成方法
CN113297374A (zh) 一种基于bert和字词特征融合的文本分类方法
CN112905750A (zh) 一种优化模型的生成方法和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant