CN107909115B - 一种图像中文字幕生成方法 - Google Patents

一种图像中文字幕生成方法 Download PDF

Info

Publication number
CN107909115B
CN107909115B CN201711260141.7A CN201711260141A CN107909115B CN 107909115 B CN107909115 B CN 107909115B CN 201711260141 A CN201711260141 A CN 201711260141A CN 107909115 B CN107909115 B CN 107909115B
Authority
CN
China
Prior art keywords
image
neural network
chinese
training
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711260141.7A
Other languages
English (en)
Other versions
CN107909115A (zh
Inventor
王斌
王剑锋
周小平
张倩
黄继风
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Normal University
Original Assignee
Shanghai Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Normal University filed Critical Shanghai Normal University
Priority to CN201711260141.7A priority Critical patent/CN107909115B/zh
Publication of CN107909115A publication Critical patent/CN107909115A/zh
Application granted granted Critical
Publication of CN107909115B publication Critical patent/CN107909115B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图像中文字幕生成方法,包括以下步骤:步骤一,构建训练集:收集图像并通过人工对图像加上意思相近的中文描述;步骤二,训练卷积神经网络进行图像特征提取,训练完成卷积神经网络后,对步骤一收集的图像进行正向传播运算,得到图像的语义特征;步骤三,对每一句中文描述按语义进行分词,并构造中文字典;步骤四,训练循环神经网络进行中文字幕生成;步骤五,进行图像字幕生成,在测试或使用阶段,将待生成字幕的图像依次通过卷积神经网络、循环神经网络完成其图像字幕生成任务。

Description

一种图像中文字幕生成方法
技术领域
本发明涉及计算机视觉,机器学习和人工神经网络领域,尤其涉及一种图像中文字幕生成方法。
背景技术
在人工智能领域,人们的长期目标是开发出一种机器,它不仅能够感知和理解我们周围丰富的视觉世界,而且能够运用自然语言与我们沟通。在计算机视觉领域,目前已经实现了多种不同的任务,例如图像识别、图像定位、图像分割等。这些任务实现的主要步骤包括图像特征提取以及分类器的训练。图像特征提取方法主要有:颜色直方图特征、图像纹理特征、方向梯度直方图(Histogram of Oriented,HOG)特征、局部二值模式(LocalBinary Pattern,LBP)特征等,其中颜色直方图和图像纹理特征是图像的全局特征,HOG和LBP是图像的局部特征。分类器一般有SOFTMAX分类器、SVM分类器、神经网络分类器以及集成分类器。这些任务的实现在很大程度上促进了人工智能的发展,但是这些任务都是将图像或者图像的局部划分到事先指定的类别或者离散的标签中。
图像字幕生成(Image Caption Generation)是给定一张图像,让机器自动地生成一句自然语言来描述该图像的内容,它本质上是一个从视觉到语言(Visual-to-language)的问题,简单的来说就是我们希望计算机能够根据图像的内容给出能够描述图像内容的句子。图像字幕生成任务不仅需要计算机理解图像中所包含的对象,更重要的是要将这些对象之间的关系通过正确的自然语言表达出来。
因此,本领域的技术人员致力于开发一种图像中文字幕生成方法,在初始阶段利用了图像的局部特征信息,并且还建立了图像内容之间的位置关系,将每个单词的语意信息同图像的局部特征联系起来;利用带有注意力机制的神经网络模型进行建模,建立的序列模型在每个时刻都会根据图像特征信息和单词语意信息产生一个注意力变量的分布,该变量分布就表示此时模型所注意图像的位置信息。
发明内容
本发明的目的在于针对现在大多数计算机视觉任务都是将图像划分到离散的标签中的不足,提出一种基于神经网络的中文图像字幕生成方法,从而克服了图像到语言的障碍。
为实现上述目的,本发明提出了一种图像中文字幕生成方法,包括以下步骤:
步骤一,构建训练集:收集图像并通过人工对图像加上意思相近的中文描述;
步骤二,训练卷积神经网络进行图像特征提取,训练完成卷积神经网络后,对步骤一收集的图像进行正向传播运算,得到图像的语义特征;
步骤三,对每一句中文描述按语义进行分词,并构造中文字典;
步骤四,训练循环神经网络进行中文字幕生成;
步骤五,进行图像字幕生成,在测试或使用阶段,将待生成字幕的图像依次通过卷积神经网络、循环神经网络完成其图像字幕生成任务。
进一步地,步骤一选用Flickr8k图像字幕数据集。
进一步地,步骤二采用16层神经网络,包括卷积、池化、激活等操作,利用卷积神经网络提取图像特征,获得具有语义信息的特征。
进一步地,16层神经网络包括13层卷积层和3层全连接层,每一层的激活函数选用Relu函数,并且在最后三层后加上Dropout层。
进一步地,步骤二包括数据集,数据集采用ImageNet数据集,并采用Adadelta梯度下降算法作为步骤二的训练算法,并按以下公式进行网络参数的更新:
Figure BDA0001493413040000031
Figure BDA0001493413040000032
wt+1=wt+Δwt (4)
其中,wt代表第t次迭代的参数值,g代表梯度,E[g2]代表梯度g平方的移动平均数,α为计算移动平均数的系数,一般取0.99,η为学习速率取0.0001,ε取一个很小的数防止分母为0。
进一步地,步骤四采用加入Dropout的LSTM网络,在不同的时许周期采用随机置0的方法,从而提升模型的泛化能力。
进一步地,步骤四对条件概率P(St|I,S0,S1,…,St-1;θ)进行建模,在模型中使用固定长度的隐藏单元输出ht来表达第t时刻的条件概率值,与上一个时刻的隐藏单元ht-1,和该时刻的输入xt有关,因此,隐藏单元输出ht=f(ht-1,xt),
其中f为tanh非线性函数;对于初始值h-1则是通过步骤三的卷积神经网络对输入图像I进行特征提取的到,xt则表示在每个时刻t对应的某个词汇向量。对于每幅图像面临中文描述长度不等的问题,本发明采用在序号向量的末尾补0来解决。同样训练该网络时。
进一步地,训练循环神经网络时,每次迭代的输入选取步骤二得到图像特征以及步骤三生成的字幕序号向量,网络权重更新的方法采用Adadelta梯度下降算法,学习速率被设置为0.0001。
技术效果:
在初始阶段利用了图像的局部特征信息,并且还建立了图像内容之间的位置关系,将每个单词的语意信息同图像的局部特征联系起来;利用带有注意力机制的神经网络模型进行建模,建立的序列模型在每个时刻都会根据图像特征信息和单词语意信息产生一个注意力变量的分布,该变量分布就表示此时模型所注意图像的位置信息。
附图说明
图1为本发明的一种图像中文字幕生成方法的流程图。
图2为本发明的一种图像中文字幕生成方法的图像中文字幕数据示例。
图3为本发明的一种图像中文字幕生成方法的中文字幕分词示例。
图4为本发明的一种图像中文字幕生成方法的测试图像中文字幕生成结果与真实结果对比。
图5为本发明的一种图像中文字幕生成方法的测试图像中文字幕生成结果与真实结果对比。
图6为本发明和传统方法在Flickr8K CN上的CIDEr学习曲线对比图。
图7为本发明和传统方法在Flickr8K上的CIDEr学习曲线对比图。
表1为本发明和传统方法在Flickr8k CN数据集上各实验结果对比。
具体实施方式
本发明的具体实施例为标准数据集Flickr8K及其中文版Flickr8K CN。本发明提供了一种中文图像字幕生成的方法,通过以下方案来实现。首先,在训练阶段根据实际需求构建训练集,收集尽可能多的图像,并通过人工对每一幅图像加上合适的中文字幕,这个数据集的作用是训练机器,让其学会如何根据这些样本自动地给图像加上中文字幕。接着,通过训练一个多层卷积神经网络来对训练集的图像进行特征提取。紧接着,对每幅图像的中文字幕进行语义上的分词,并根据词汇出现的频率构造字典。最后通过训练一个循环神经网络,对这些中文字幕进行建模,并让其学习如何根据图像特征进行中文字幕生成。在测试或者使用阶段,对于输入的图像,利用训练阶段得到的卷积神经网络来提取特征,并将该特征输入到循环神经网络中得到中文字幕。该模型是一种判别模型,即在给定某个图片I的条件下,使其取得正确描述序列S的概率最大。该过程可以形式化的表达为,
Figure BDA0001493413040000051
其中:θ是该模型待学习的参数;第一个求和是针对训练集中所有的图片I和其正确的描述序列S;第二个求和是对于正确描述序列S中的每个单词St。根据贝叶斯公式,其中第二个求和结果代表着在给定图片I的条件下,得到整个描述序列S的对数联合概率值。
如图1所示,本发明的一较佳实施例提供了一种图像中文字幕生成方法包括以下几个步骤:
步骤一、构建训练集
按照实际需求,收集若干图像并通过人工对这些图像加上若干句中文描述。由于模型的局限性,给图像加上的中文描述,要求尽量选择简单并且能够直接表达图像的含义的词汇。
本实施例选择了跟日常生活比较贴近的Flickr8k图像字幕数据集,该数据集一共大约有8000多幅图像,其中大多展示的是人类和动物在参与到某项活动中的情景,示例如图2所示。原数据集中每幅图像对应的标注为5句英文,为了实施本发明的图像中文字幕生成,本发明给每幅图像添加了5句简单中文字幕的描述,如图2所示,从而构成数据集。
步骤二、训练卷积神经网络进行图像特征提取
本发明利用卷积神经网络来实现对图像的语义特征提取。在对上述数据集进行特征提取之前,需要在一个更大的数据集上来预训练该网络。卷积神经网络包括一系列卷积、池化、激活等操作,利用卷积神经网络提取图像特征,能够获得较传统的LBP、HOG、颜色直方图特征更加具有语义信息的特征。本实施例使用ImageNet数据库来训练16层神经网络,其中前13层是卷积层,最后3层为全连接层,其中每个卷积层又包括卷积、激活、池化等操作。每三层的卷积核数目分别是16、32、64、128、256,其初始化权值采用均值为0、方差为
Figure BDA0001493413040000061
的高斯分布初始化,其中input_size代表该层输入数据的维度。网络的最后一层是SOFTMAX分类器,用来计算每幅训练图像对应每个类别的概率。每一层的激活函数均选用Relu函数,并且在最后三层后加上Dropout层。训练该卷积神经网络的数据集采用ImageNet数据集,该数据集包括1000类别,每个类别大概包括数千张图像。经过试验,训练方法采用Adadelta梯度下降算法,按以下公式进行网络参数的更新:
Figure BDA0001493413040000062
Figure BDA0001493413040000063
wt+1=wt+Δwt (4)
其中,wt代表第t次迭代的参数值,g代表它的梯度,E[g2]代表梯度g平方的移动平均,α为计算该移动平均数的系数,一般取0.99,η为学习速率取0.0001,ε在这里是一个很小的数防止分母为0。训练时,待模型的损失函数变化不大时停止训练,并且在以后步骤中模型参数保持不变。最后我们利用模型的第二个全连接层的4096维输出当经过卷积神经网络提取的特征,用于后续字幕生成。经试验可得,每次更新的学习速率为0.0001,每次随机选取128幅图像结果较好
步骤三、对每一句中文描述按语义进行分词,并构造中文字典
对步骤一中收集的中文字幕按语义进行分词,该分词可以采用人工分词法,也可以采用分词软件进行分词,人工分词结果则会更加准确。一个正确的分词例子可以表示,如图3所示,原句是:“一只狗在草地上玩耍”,分词结果是:“一只/狗/在/草地/上/玩耍”。最后,对所有中文描述分词后,统计所有出现过的词汇,并按照词汇出现的频率进行排序,本发明取前2000个词汇以及未知词汇标记符<UNK>作为字典。这样针对每一句话都可以用一个序号向量表示,该向量在其维度空间中,就代表了该中文描述。
步骤四、训练循环神经网络进行中文字幕生成
传统的循环神经网络(Recurrent Neural Networks,RNNs),在训练过程中,由于梯度***和消失等现象导致其末端的序列单元权重更新较快,而前端的序列单元权重往往得不到有效的更新,这样使得RNN网络在处理一些较长序列时效果很差。Long Short-TermMemory(LSTM)网络通过添加了一个记忆单元和几个不同的门结构,解决了由于时间序列过长而导致的梯度消失与梯度***等问题,并且在处理长期依赖的问题上获得了较好的效果。本发明在传统的LSTM网络上,加入了Dropout层,该层与传统的不同的是它在每一个时序周期是不变的,在不同的时许周期采用与传统方式一样随机置0的方法,从而提升模型的泛化能力。LSTM的单元结构有一个细胞状态(Cell State)在时序之间传递,以及几种不同的门(Gates)结构去控制输入,输出以及细胞状态。这些门结构包括:输入门it、输出门ot、忘记门ft,以及输入调制结构gt,在每一个时刻t,LSTM网络的细胞状ct以及隐层输出ht可以通过下列式子求出:
it=σ(Wixxt+Wihht-1+bi) (6)
ft=σ(Wfxxt+Wfhht-1+bf) (7)
ot=σ(Woxxt+Wohht-1+bo) (8)
gt=tanh(Wgxxt+Wghht-1+bg) (9)
ct=ft⊙ct-1+it⊙gt (10)
ht=ot⊙tanh(ct) (11)
其中,xt为第t时刻的输入,ht-1为上一时刻隐层单元的输出,σ(x)=1/(1+e-x)是sigmoid函数,tanh(x)=(e^x-e^(-x))/(e^x+e^(-x))是双曲正切函数,Wix、Wfx、Wox、Wgx、Wih、Wfh、Woh、Wgh与bi、bf、bo、bg为该模型待学习的参数,他们不随时刻t变化而变化,符号⊙代表矩阵对应元素相乘。接着,在每个隐层后加上一个Dropout层,构建出一个Drop-LSTM网络,即在每一个时刻t将隐层输出ht乘以同一个与其形状相同的0-1随机矩阵:
ht=ht⊙mh
其中mh代表随机矩阵,该矩阵的产生方法可以通过让其每个元素服从概率为p的0-1二元分布产生,p一般取0.5,mh不会随着时刻t变化而变化,在同一个时序中它是一个定值。最后,利用卷积神经网络提取的特征和对应的中文描述序号矩阵当作输入,并按照上述训练卷积神经网络的方法,训练该网络,使其学会如何自动生成字幕。
步骤五、使用上述模型进行图像中文字幕生成
基于训练完成的图像中文字幕生成模型,对于每一幅待生成字幕的图像,依次通过卷积神经网络提取其特征,并将特征输入循环神经网络中,循环神经网络利用步骤三构造的字典里面的词汇自动生成相应的中文字幕。为了验证本发明方法的有效性,在具体实施例上进行了验证。
如图4所示,为本发明的一种图像中文字幕生成方法的测试图像中文字幕生成结果与真实结果对比。图像选自Flickr 8k数据集的测试集,中英文参考字幕分别由各自数据集提供。如图4所示,对于测试图像生成的中文字幕和英文字幕都很好的描述了图像的主体及其动作。图5和图6为本发明方法和传统方法在Flickr8K和Flickr8K CN上的CIDEr学习曲线对比图。CIDEr是图像字幕生成任务的评价指标。如图5和图6所示,本文发明的模型生成中文字幕和英文字幕的效果要明显高于传统的不带注意力的基本模型。
表1本发明和传统方法在Flickr8k CN数据集上各实验结果对比
Figure BDA0001493413040000091
表1给出了本发明模型和传统两种模型在数据库Flickr8k CN各实验结果对比。其中,Baseline和CS-NIC是两种常用的字幕生成传统模型;BLEU,ROUGE-L和CIDEr是图像中文字幕生成任务的三种评价指标,三者的值越高表明字幕生成任务效果好。从该表看出,本发明的注意力模型在所有指标上都高于Baseline基准模型和CS-NIC两种传统模型。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (3)

1.一种图像中文字幕生成方法,其特征在于,包括以下步骤:
步骤一,构建训练集:收集图像并通过人工对所述图像加上意思相近的中文描述;所述步骤一选用Flickr8k图像字幕数据集,原数据集中每幅图像对应的标注为5句英文,给每幅图像添加了5句简单中文字幕的描述;
步骤二,训练卷积神经网络进行图像特征提取,在对上述数据集进行特征提取之前,需要在一个更大的数据集上来预训练该网络;使用ImageNet数据库来训练16层神经网络,其中前13层是卷积层,最后3层为全连接层,其中每个卷积层又包括卷积、激活、池化操作;每三层的卷积核数目分别是16、32、64、128、256,其初始化权值采用均值为0、方差为
Figure FDA0003309823170000011
的高斯分布初始化,其中input_size代表该层输入数据的维度;网络的最后一层是SOFTMAX分类器,用来计算每幅训练图像对应每个类别的概率;每一层的激活函数均选用Relu函数,并且在最后三层后加上Dropout层;训练该卷积神经网络的数据集采用ImageNet数据集,该数据集包括1000类别,每个类别包括数千张图像;训练方法采用Adadelta梯度下降算法,按以下公式进行网络参数的更新:
Figure FDA0003309823170000012
Figure FDA0003309823170000013
wt+1=wt+Δwt (3)
其中,wt代表第t次迭代的参数值,g代表它的梯度,E[g2]代表梯度g平方的移动平均数,E[g2]t代表第t次迭代梯度g平方的移动平均数,α为计算该移动平均数的系数,取0.99,Δwt代表第t次迭代的参数变化值,η为学习速率取0.0001,ε在这里是一个很小的数防止分母为0;gt为调制结构,代表第t次迭代的梯度,训练时,待模型的损失函数变化不大时停止训练,并且在以后步骤中模型参数保持不变;最后利用模型的第二个全连接层的4096维输出当经过卷积神经网络提取的特征,用于后续字幕生成;
训练完成所述卷积神经网络后,对所述步骤一收集的所述图像进行正向传播运算,得到所述图像的语义特征;
步骤三,对每一句所述中文描述按语义进行分词,并构造中文字典;对所有中文描述分词后,统计所有出现过的词汇,并按照词汇出现的频率进行排序,取前2000个词汇以及未知词汇标记符<UNK>作为字典;
步骤四,训练循环神经网络进行中文字幕生成;在传统的LSTM网络上,加入了Dropout层,该层与传统的不同的是它在每一个时序周期是不变的,在不同的时序周期采用与传统方式一样随机置0的方法,从而提升模型的泛化能力;LSTM的单元结构有一个细胞状态在时序之间传递,以及几种不同的门Gates结构去控制输入,输出以及细胞状态;这些门结构包括:输入门it、输出门ot、忘记门ft,以及输入调制结构gt,在第t次迭代,LSTM网络的细胞状态ct以及隐层输出ht通过下列式子求出:
it=σ(Wixxt+Wihht-1+bi) (4)
ft=σ(Wfxxt+Wfhht-1+bf) (5)
ot=σ(Woxxt+Wohht-1+bo) (6)
gt=tanh(Wgxxt+Wghht-1+bg) (7)
ct=ft⊙ct-1+it⊙gt (8)
ht=ot⊙tanh(ct) (9)
其中,xt为第t次迭代的输入,ht-1为t-1次迭代隐层单元的输出,σ(x)=1/(1+e-x)是sigmoid函数,tanh(x)=(e^x-e^(-x))/(e^x+e^(-x))是双曲正切函数,Wix、Wfx、Wox、Wgx、Wih、Wfh、Woh、Wgh与bi、bf、bo、bg为该模型待学习的参数,它们不随迭代次数t的变化而变化,符号⊙代表矩阵对应元素相乘;接着,在每个隐层后加上一个Dropout层,构建出一个Drop-LSTM网络,即每一次迭代t将隐层输出ht乘以同一个与其形状相同的0-1随机矩阵:
ht=ht⊙mh
其中mh代表随机矩阵,该矩阵的产生方法通过让其每个元素服从概率为p的0-1二元分布产生,p取0.5,mh不会随着迭代次数t变化而变化,在同一个时序中它是一个定值;最后,利用卷积神经网络提取的特征和对应的中文描述序号矩阵当作输入,并按照上述训练卷积神经网络的方法,训练该网络,使其学会如何自动生成字幕;
步骤五,进行图像字幕生成,在测试或使用阶段,将待生成字幕的图像依次通过所述卷积神经网络、所述循环神经网络完成其图像字幕生成任务。
2.如权利要求1所述的一种图像中文字幕生成方法,其特征在于,所述步骤四对条件概率P(St|I,S0,S1,...,St-1;θ)进行建模,其中,θ是该模型待学习的所有参数,在模型中,由隐层单元输出ht来表达第t次迭代的条件概率,ht的长度固定;与上一个时刻的隐藏单元ht-1,和该时刻的输入xt有关,因此,所述隐藏单元输出ht=f(ht-1,xt),
其中f为tanh非线性函数;对于初始值h-1则是通过所述步骤二的卷积神经网络对输入图像I进行特征提取的到,xt则表示在每个时刻t对应的某个词汇向量。
3.如权利要求2所述的一种图像中文字幕生成方法,其特征在于,训练所述循环神经网络时,每次迭代的输入选取所述步骤二得到所述图像特征以及所述步骤三生成的字幕序号向量,网络权重更新的方法采用Adadelta梯度下降算法,学习速率被设置为0.0001。
CN201711260141.7A 2017-12-04 2017-12-04 一种图像中文字幕生成方法 Active CN107909115B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711260141.7A CN107909115B (zh) 2017-12-04 2017-12-04 一种图像中文字幕生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711260141.7A CN107909115B (zh) 2017-12-04 2017-12-04 一种图像中文字幕生成方法

Publications (2)

Publication Number Publication Date
CN107909115A CN107909115A (zh) 2018-04-13
CN107909115B true CN107909115B (zh) 2022-02-15

Family

ID=61854300

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711260141.7A Active CN107909115B (zh) 2017-12-04 2017-12-04 一种图像中文字幕生成方法

Country Status (1)

Country Link
CN (1) CN107909115B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108764299B (zh) * 2018-05-04 2020-10-23 北京物灵智能科技有限公司 故事模型训练及生成方法、***、机器人及存储设备
CN109033321B (zh) * 2018-07-18 2021-12-17 成都快眼科技有限公司 一种图像与自然语言特征提取及基于关键词的语言指示图像分割方法
CN109242090B (zh) * 2018-08-28 2020-06-26 电子科技大学 一种基于gan网络的视频描述及描述一致性判别方法
US10980030B2 (en) 2019-03-29 2021-04-13 Huawei Technologies Co., Ltd. Method and apparatus for wireless communication using polarization-based signal space mapping
CN110110770A (zh) * 2019-04-24 2019-08-09 佛山科学技术学院 基于神经网络的服装图片导购文字生成方法及装置
US10885345B2 (en) * 2019-04-29 2021-01-05 Tencent America LLC End-to-end video captioning with multi-task reinforcement learning
CN112183513B (zh) * 2019-07-03 2023-09-05 杭州海康威视数字技术股份有限公司 一种图像中文字的识别方法、装置、电子设备及存储介质
CN110750669B (zh) * 2019-09-19 2023-05-23 深思考人工智能机器人科技(北京)有限公司 一种图像字幕生成的方法及***
US11252004B2 (en) 2020-03-30 2022-02-15 Huawei Technologies Co., Ltd. Multiple access wireless communications using a non-gaussian manifold
CN112347764B (zh) * 2020-11-05 2024-05-07 中国平安人寿保险股份有限公司 生成弹幕云的方法、装置和计算机设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105894475A (zh) * 2016-04-21 2016-08-24 上海师范大学 一种国际音标图像字符细化方法
CN106503055A (zh) * 2016-09-27 2017-03-15 天津大学 一种从结构化文本到图像描述的生成方法
CN106649542A (zh) * 2015-11-03 2017-05-10 百度(美国)有限责任公司 用于视觉问答的***和方法
CN107391709A (zh) * 2017-07-28 2017-11-24 深圳市唯特视科技有限公司 一种基于新型注意模型进行图像字幕生成的方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9858524B2 (en) * 2014-11-14 2018-01-02 Google Inc. Generating natural language descriptions of images
US10395118B2 (en) * 2015-10-29 2019-08-27 Baidu Usa Llc Systems and methods for video paragraph captioning using hierarchical recurrent neural networks
US9807473B2 (en) * 2015-11-20 2017-10-31 Microsoft Technology Licensing, Llc Jointly modeling embedding and translation to bridge video and language
CN105894043A (zh) * 2016-04-27 2016-08-24 上海高智科技发展有限公司 一种视频描述语句生成方法及***
CN106354701B (zh) * 2016-08-30 2019-06-21 腾讯科技(深圳)有限公司 汉字处理方法和装置
CN106844442A (zh) * 2016-12-16 2017-06-13 广东顺德中山大学卡内基梅隆大学国际联合研究院 基于fcn特征提取的多模态循环神经网络图像描述方法
CN106934352A (zh) * 2017-02-28 2017-07-07 华南理工大学 一种基于双路分形网络和lstm的视频描述方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649542A (zh) * 2015-11-03 2017-05-10 百度(美国)有限责任公司 用于视觉问答的***和方法
CN105894475A (zh) * 2016-04-21 2016-08-24 上海师范大学 一种国际音标图像字符细化方法
CN106503055A (zh) * 2016-09-27 2017-03-15 天津大学 一种从结构化文本到图像描述的生成方法
CN107391709A (zh) * 2017-07-28 2017-11-24 深圳市唯特视科技有限公司 一种基于新型注意模型进行图像字幕生成的方法

Also Published As

Publication number Publication date
CN107909115A (zh) 2018-04-13

Similar Documents

Publication Publication Date Title
CN107909115B (zh) 一种图像中文字幕生成方法
CN107526785B (zh) 文本分类方法及装置
Yan Computational methods for deep learning
CN110287320B (zh) 一种结合注意力机制的深度学习多分类情感分析模型
Chaturvedi et al. Learning word dependencies in text by means of a deep recurrent belief network
Mansimov et al. Generating images from captions with attention
Adams et al. A survey of feature selection methods for Gaussian mixture models and hidden Markov models
Fe-Fei A Bayesian approach to unsupervised one-shot learning of object categories
Karpathy Connecting images and natural language
CN108830287A (zh) 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN110222163A (zh) 一种融合cnn与双向lstm的智能问答方法及***
CN110263174B (zh) —基于焦点关注的主题类别分析方法
CN111291556A (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
Steinberg et al. A Bayesian nonparametric approach to clustering data from underwater robotic surveys
Yan Computational methods for deep learning: theory, algorithms, and implementations
Tekir et al. Deep learning: Exemplar studies in natural language processing and computer vision
CN114116974A (zh) 一种基于注意力机制的情感原因提取方法
Newatia et al. Convolutional neural network for ASR
Zemmari et al. Deep Learning in Mining of Visual Content
Shrivastava et al. CLIP-Lite: Information Efficient Visual Representation Learning with Language Supervision
CN115422362B (zh) 一种基于人工智能的文本匹配方法
Kanungo Analysis of Image Classification Deep Learning Algorithm
Glick et al. Insect classification with heirarchical deep convolutional neural networks
Stamp Alphabet soup of deep learning topics
Li et al. Supervised classification of plant image based on attention mechanism

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant