CN110750669A - 一种图像字幕生成的方法及*** - Google Patents

一种图像字幕生成的方法及*** Download PDF

Info

Publication number
CN110750669A
CN110750669A CN201910885349.0A CN201910885349A CN110750669A CN 110750669 A CN110750669 A CN 110750669A CN 201910885349 A CN201910885349 A CN 201910885349A CN 110750669 A CN110750669 A CN 110750669A
Authority
CN
China
Prior art keywords
image
model
vector information
feature extraction
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910885349.0A
Other languages
English (en)
Other versions
CN110750669B (zh
Inventor
杨志明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Reflections On Artificial Intelligence Robot Technology (beijing) Co Ltd
Original Assignee
Reflections On Artificial Intelligence Robot Technology (beijing) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Reflections On Artificial Intelligence Robot Technology (beijing) Co Ltd filed Critical Reflections On Artificial Intelligence Robot Technology (beijing) Co Ltd
Priority to CN201910885349.0A priority Critical patent/CN110750669B/zh
Publication of CN110750669A publication Critical patent/CN110750669A/zh
Application granted granted Critical
Publication of CN110750669B publication Critical patent/CN110750669B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种图像字幕生成的方法及***,本发明实施例中的神经网络模型采用编码器‑解码器(encoder‑decoder)递归双向循环神经网络架构,该模型包括两个主要部分:图像特征提取部分和图像字幕生成部分。其中,对于图像特征提取部分,设置卷积神经网络将图像转换为图像的特征矢量信息;对于图像字幕生成部分,设置双向循环神经网络,输入图像的特征矢量信息,双向循环神经网络提取到文本中的深度语义信息,最终得到图像字幕信息。本发明实施例简单地自动生成图像字幕,且提高图像字幕生成的准确率。

Description

一种图像字幕生成的方法及***
技术领域
本发明涉及计算机的图像处理技术和自然语言处理技术,特别涉及一种图像字幕生成的方法及***。
背景技术
图像字幕生成就是为给定的图像,例如某个对象或场景的图片生成可读的文本描述信息,该文本描述信息也被称为自动图像注释或图像标注。图像字幕生成技术是继图像分类、目标检测、图像分割后的又一新的计算机视觉领域的研究方向。图像字幕生成技术需要使用正确形式的自然语言句子对图像中的对象及对象之间的关系进行描述,这是一项非常具有挑战性的任务,为了实现图像字幕生成需要结合计算机视觉和自然语言处理的相关知识,即需要用计算机视觉的技术来解释图像的内容,又需要自然语言处理技术来生成文本描述信息。但是,图像字幕生成技术可以产生非常大的影响,例如可以帮助视障人士更好地理解互联网中的图像内容。
如何生成图像字幕是人工智能领域中结合计算机视觉和自然语言处理的一个具有挑战性的问题,快速浏览图像就能够指出并描述有关视觉场景中的大量细节,这对于人来说是一个相对简单的问题,但对于计算机来说是非常具有挑战性的,因为这既涉及到如何理解图像的内容,又涉及到如何将这种理解转化为自然语言。
目前,图像字幕生成过程的实现主要采用两种方法,分别为基于模板方式及基于最近邻方式。其中,基于模板方式时,预先设置标题模板,所述标题模板根据对图像中的对象检测和属性发现的结果对所设置的标题模板进行填写;基于最邻近方式时,从大型数据库中检索类似字幕的图像,然后修改这些检索到的字幕以适合当前查询。但是,这两种方式在生成图像字幕过程时,比较繁琐且生成的字幕准确性不高。
发明内容
有鉴于此,本发明实施例提供一种图像字幕生成的方法,该方法能够简单地自动生成图像字幕,且提高图像字幕生成的准确率。
本发明实施例提供一种图像字幕生成的***,该***能够简单地自动生成图像字幕,且提高图像字幕生成的准确率。
本发明实施例是这样实现的:
一种图像字幕生成的方法,该方法包括:
训练得到编码器-解码器encoder-decoder递归双向循环神经网络作为图像字幕生成模型,包括特征提取模型及语言模型;
将获取的图像输入到特征提取模型进行图像特征提取处理,得到图像的特征矢量信息;
将所述图像的特征矢量信息输入到语言模型中,语言模型根据所述图像的特征矢量信息进行语义信息提取,得到图像字幕。
所述特征提取模型采用卷积神经网络构成,所述语言模型采用双向循环神经网络模型构成。
所述特征提取模型为深度卷积神经网络构成,包括多个卷积层、多个全连接层及分类器。
所述得到图像字幕包括:
将图像的特征矢量信息及基于图像的特征矢量信息生成的字幕特征进行设置的BiLSTM网络的循环处理后,将循环处理得到的图像字幕进行全连接网络的连接,再经过Softmax分类器的处理后,得到图像字幕。
所述特征提取模型中还设置全连接网络,所述图像的特征矢量信息是通过全连接网络提供给语言模型的。
该方法还包括:
对所述图像字幕生成模型采用BLEU工具进行评估。
一种图像字幕生成的***,包括:特征提取模型模块及语言模型模块,其中,
特征提取模型模块,用于训练得到特征提取模型,将获取的图像输入到特征提取模型进行图像特征提取处理,得到图像的特征矢量信息,输出给语言模型模块;
语言模型模块,用于训练得到语言模型,将所述图像的特征矢量信息输入到语言模型中,语言模型根据所述图像的特征矢量信息进行语义信息提取,得到图像字幕。
所述特征提取模型是采用深度卷积神经网络训练构成的,包括多个卷积层、多个全连接层及分类器;
所述语言模型采用双向循环神经网络训练构成,用于将所述图像的特征矢量信息及基于图像的特征矢量信息生成的字幕特征进行设置的BiLSTM网络的循环处理后,将循环处理得到的图像字幕进行全连接网络的连接,再经过Softmax分类器的处理后,得到图像字幕。
所述特征提取模型模块,还用于通过所设置的全连接网络对得到的图像的特征矢量信息进行全连接处理后,再输出给语言模型模块。
还包括BLEU工具评估模块,用于对设置的特征提取模型及设置的语言模型构造得到的图像字幕生成模型进行评估。
如上所见,本发明实施例中的神经网络模型采用编码器-解码器(encoder-decoder)递归双向循环神经网络架构,该模型包括两个主要部分:图像特征提取部分和图像字幕生成部分。其中,对于图像特征提取部分,设置卷积神经网络将图像转换为图像的特征矢量信息;对于图像字幕生成部分,设置双向循环神经网络,输入图像的特征矢量信息,双向循环神经网络提取到文本中的深度语义信息,最终得到图像字幕信息。这样,本发明实施例简单地自动生成图像字幕,且提高图像字幕生成的准确率。
附图说明
图1为本发明实施例提供的图像字幕生成的方法流程图;
图2为本发明实施例提供的特征提取模型的结构简化图;
图3为本发明实施例提供的特征提取模型进行图像特征提取的方法例子流程图;
图4为本发明实施例提供的语言模型执行过程示意图;
图5为本发明实施例提供的整个图像字幕生成的模型架构示意图;
图6为本发明实施例提供的图像字幕生成的***结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明进一步详细说明。
本发明实施例为了简单地自动生成图像字幕,且提高图像字幕生成的准确率,将神经网络模型引入到生成图像字幕的实现中。随着神经网络模型的快速发展,可以将神经网络模型应用在图像字幕的生成过程中。本发明实施例中的神经网络模型结合了计算机视觉和机器翻译(自然语言处理)的最新进展,以及迁移学习的思想,可用于生成描述图像的自然语言句子。本发明实施例中的神经网络模型以最大化给定训练图像的目标描述句子的可能性。
具体地说,本发明实施例中的神经网络模型采用编码器-解码器(encoder-decoder)递归双向循环神经网络架构,该模型包括两个主要部分:图像特征提取部分和图像字幕生成部分。其中,对于图像特征提取部分,设置卷积神经网络将图像转换为图像的特征矢量信息;对于图像字幕生成部分,设置双向循环神经网络,输入图像的特征矢量信息,双向循环神经网络提取到文本中的深度语义信息,最终得到图像字幕信息。
因此,本发明实施例就可以简单地自动生成图像字幕,且提高图像字幕生成的准确率。
图1为本发明实施例提供的图像字幕生成的方法流程图,其具体步骤为:
步骤101、设置encoder-decoder递归双向循环神经网络作为图像字幕生成模型,包括特征提取模型及语言模型;
在这里,特征提取模型是采用卷积神经网络实现的,语言模型采用双向循环神经网络实现的;
步骤102、将获取的图像输入到特征提取模型进行图像特征提取处理,得到图像的特征矢量信息;
步骤103、将所述图像的特征矢量信息输入到语言模型中,语言模型根据所述图像的特征矢量信息进行语义信息提取,得到图像字幕。
在本发明实施例中,所述图像特征提取是指计算机经过一系列的运算将一幅红绿蓝(RGB)图像转化成一个特征矩阵或特征向量,通常以固定长度的矢量进行表示,该固定长度的矢量在空间上就代表了这幅图像,成为图像的特征矢量信息。用于图形特征提取的特征提取模型可以采用深度卷积神经网络,可以在图像字幕集中的图像上训练得到该网络,也可以使用训练得到的该网络对获取到的图像进行处理。特征提取模型架构有VGG、AlexNet、GoogleNet或ResNet等。
图2为本发明实施例提供的特征提取模型的结构简化图,如图所示,该特征提取模型采用深度卷积神经网络构成,该深度卷积神经网络包括多个卷积层、全连接层及分类器,其中,将获取的图像输入到卷积层中进行卷积处理,再到全连接层中进行全连接,最后由分类器对其进行分类,得到图像的特征矢量信息。
图3为本发明实施例提供的特征提取模型进行图像特征提取的方法例子流程图,其中,选用深度卷积神经网络ResNet模型进行特征提取,包括:
步骤301、将图像进行输入;
步骤302、图像被输入到特征提取模型中;
步骤303、特征提取模型对图像进行图像特征提取,得到固定维度的特征编码。
在本发明实施例中,语言模型是在给定已经存在于序列中的单词情况下预测序列中下一个单词的概率。对于图像字幕,语言模型是一种神经网络,给定所述图像的特征矢量信息就可以预测描述中的单次序列,并以已经生成的单词为条件建立描述。本发明实施例使用双向循环神经网络作为语言模型,在每个输出时间点上,在序列中生成一个新单词,然后使用字嵌入(比如Word2Vec)对生成的每个字进行编码,并将其作为输入传递给语言模型中的解码器用于生成后续字,图4为本发明实施例提供的语言模型执行过程示意图,其具体步骤为:
步骤401、输入固定维度的特征编码;
步骤402、将固定维度的特征编码输入到语言模型中;
步骤403、语言模型根据固定维度的特征编码进行语义信息提取,输出句子。
可以看出,本发明实施例的图像字幕生成模型主要分为图像特征提取和字幕生成两个部分,这两部分内容可以使用一个全连接网络进行连接起来。也就是将特征提取模型及语言模型采用全连接网络进行连接。假设图像字幕生成模型的输入图像为I对应的字幕描述为S,字幕序列长度为n,即S={S1,S2,...,Sn}。在本发明实施中,对于图像特征提取,采用预先训练好的卷积神经网络ResNet进行图像特征提取,将提取得到的图像的特征矢量信息输入到设置的全连接层中,连接卷积神经网络和双向循环神经网络的全连接层的作用是通过仿射变换方式将图像的特征矢量信息转变成合适的维度,用于后续的输入;对于语言模型可以使用BiLSTM网络接收图像的特征矢量信息及已经生成的字幕特征,一起经过BiLSTM网络的处理后,经过语言模型中的全连接层处理后,最后通过Softmax分类器输出对应的序列。整个图像字幕生成的模型架构如图5所示。
在对图像字幕生成模型进行训练时,输入一个图像将会输出该图像的标题,并且标题的生成过程是一次生成一个单词,先前生成的单词作为输入用于后续单词的生成。因此,需要设置初始单词来表示启动生成过程,设置结束单词来表示表示结束标识,在处理时使用startseq和endseq表示序列的开始和结束标志。本发明实施例中的图像字幕生成模型将接收一张图片及初始单词,并生成下一个单词,然后将描述前两个单词作为输入提供给该模型,以生成下一个单词。这就是图像字幕生成模型的训练过程或者训练好的图像字幕生成模型输出最终字幕的过程。例如,对于输入序列“Two people climbing up a snowymountain”将被分为8对输入和输出用于图像字幕生成模型的训练,构建的模型输入和输出对如表1所示。
表1
这样,就训练得到了一个图像字幕生成模型。
在本发明实施例中,对于训练得到的图像字幕生成模型,如何评价其好坏是一个很重要的问题。一般对于图像字幕生成模型的评估主要有人工和机器两种方式。但是,采用人工这种评价方式很慢及成本高,且这种人工评价比较主观,需要依赖专业水平和经验。本发明实施例主要采用机器评价方式,即设置双语评估互补(BLEU,Bilingual EvaluationUnderstudy)工具对所述模型进行评价。该工具是用于衡量机器翻译文本与设置的参考文本相似程度的指标,取值范围在[0,1]之间,可以为一系列自然语言处理认为生成的文本进行评估,如语言生成、图片标题生成、文本摘要或语音识别等任务。BLEU工具具有以下优点:1)计算速度快,消耗资源少;2)很容易理解;3)与语言无关;4)与人类评价高度相关;5)被广泛采用。
在采用BLEU工具对训练得到的图像字幕生成模型进行训练时,通过将候选的字幕文本与处设置的参考文本中的相匹配的n-gram的计数进行工作,其中1-gram或unigram比较的是每一个单词,而二元组(bigram)比较的是每个单词对,这种比较不考虑单词的顺序。匹配个数越多,标识候选字幕的质量就越好。BLEU工具的评价体系的计算公式如下所示。
Figure BDA0002207148950000062
其中,
Figure BDA0002207148950000063
r为参考文本的词数,c为候选的字幕中的词数,BP代表字幕中句子较短的惩罚值。
Figure BDA0002207148950000064
分子表示n-gram在字幕中和参考文本中出现的最小次数,分母标识取n-gram在字幕中出现的次数。
图6为本发明实施例提供的图像字幕生成的***结构示意图,包括:特征提取模型模块及语言模型模块,其中,
特征提取模型模块,用于训练得到特征提取模型,将获取的图像输入到特征提取模型进行图像特征提取处理,得到图像的特征矢量信息,输出给语言模型模块;
语言模型模块,用于训练得到语言模型,将所述图像的特征矢量信息输入到语言模型中,语言模型根据所述图像的特征矢量信息进行语义信息提取,得到图像字幕。
在该***中,所述特征提取模型是采用卷积神经网络训练构成的,包括多个卷积层、多个全连接层及分类器。
在该***中,所述语言模型采用双向循环神经网络训练构成,将图像的特征矢量信息及基于图像的特征矢量信息生成的字幕特征进行设置的BiLSTM网络的循环处理后,将循环处理得到的图像字幕进行全连接网络的连接,再经过Softmax分类器的处理后,最终得到图像字幕。
在该***中,所述特征提取模型模块,还用于通过所设置的全连接网络对得到的图像的特征矢量信息进行全连接处理后,再输出给语言模型模块。
在该***中,还包括BLEU工具评估模块,用于对设置的特征提取模型及设置的语言模型构造得到的图像字幕生成模型进行评估。
可以看出,本发明实施例构建了一个字幕生成模型,融合了计算机视觉和自然语言处理的相关技术。首先进行图像特征提取时,采用深度卷积神经网络,比如采用训练好的ResNet50深度卷积神经网络,得到所述图像的特征矢量信息;其次是文本序列处理技术的使用,选用了双向循环神经网络用于提取所述图像的特征矢量信息中的语义信息,在该过程中使用了迁移学习的思想,将Word2ved训练好的语言模型融合进来作为词向量的初始化一起用于提取语义信息,然后使用解码器,将图像特征提取和文本序列处理输出的所述图像的特征矢量信息进行融合后,经过全连接层用于最终预测。这样,就取得了较高的准确性及生成的图像字幕较好的流畅性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种图像字幕生成的方法,其特征在于,该方法包括:
训练得到编码器-解码器encoder-decoder递归双向循环神经网络作为图像字幕生成模型,包括特征提取模型及语言模型;
将获取的图像输入到特征提取模型进行图像特征提取处理,得到图像的特征矢量信息;
将所述图像的特征矢量信息输入到语言模型中,语言模型根据所述图像的特征矢量信息进行语义信息提取,得到图像字幕。
2.如权利要求1所述的方法,其特征在于,所述特征提取模型采用卷积神经网络构成,所述语言模型采用双向循环神经网络模型构成。
3.如权利要求2所述的方法,其特征在于,所述特征提取模型为深度卷积神经网络构成,包括多个卷积层、多个全连接层及分类器。
4.如权利要求2所述的方法,其特征在于,所述得到图像字幕包括:
将图像的特征矢量信息及基于图像的特征矢量信息生成的字幕特征进行设置的BiLSTM网络的循环处理后,将循环处理得到的图像字幕进行全连接网络的连接,再经过Softmax分类器的处理后,得到图像字幕。
5.如权利要求1所述的方法,其特征在于,所述特征提取模型中还设置全连接网络,所述图像的特征矢量信息是通过全连接网络提供给语言模型的。
6.如权利要求1所述的方法,其特征在于,该方法还包括:
对所述图像字幕生成模型采用BLEU工具进行评估。
7.一种图像字幕生成的***,其特征在于,包括:特征提取模型模块及语言模型模块,其中,
特征提取模型模块,用于训练得到特征提取模型,将获取的图像输入到特征提取模型进行图像特征提取处理,得到图像的特征矢量信息,输出给语言模型模块;
语言模型模块,用于训练得到语言模型,将所述图像的特征矢量信息输入到语言模型中,语言模型根据所述图像的特征矢量信息进行语义信息提取,得到图像字幕。
8.如权利要求7所述的***,其特征在于,所述特征提取模型是采用深度卷积神经网络训练构成的,包括多个卷积层、多个全连接层及分类器;
所述语言模型采用双向循环神经网络训练构成,用于将所述图像的特征矢量信息及基于图像的特征矢量信息生成的字幕特征进行设置的BiLSTM网络的循环处理后,将循环处理得到的图像字幕进行全连接网络的连接,再经过Softmax分类器的处理后,得到图像字幕。
9.如权利要求7所述的***,其特征在于,所述特征提取模型模块,还用于通过所设置的全连接网络对得到的图像的特征矢量信息进行全连接处理后,再输出给语言模型模块。
10.如权利要求7所述的***,其特征在于,还包括BLEU工具评估模块,用于对设置的特征提取模型及设置的语言模型构造得到的图像字幕生成模型进行评估。
CN201910885349.0A 2019-09-19 2019-09-19 一种图像字幕生成的方法及*** Active CN110750669B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910885349.0A CN110750669B (zh) 2019-09-19 2019-09-19 一种图像字幕生成的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910885349.0A CN110750669B (zh) 2019-09-19 2019-09-19 一种图像字幕生成的方法及***

Publications (2)

Publication Number Publication Date
CN110750669A true CN110750669A (zh) 2020-02-04
CN110750669B CN110750669B (zh) 2023-05-23

Family

ID=69276733

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910885349.0A Active CN110750669B (zh) 2019-09-19 2019-09-19 一种图像字幕生成的方法及***

Country Status (1)

Country Link
CN (1) CN110750669B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414505A (zh) * 2020-03-11 2020-07-14 上海爱数信息技术股份有限公司 一种基于序列生成模型的快速图像摘要生成方法
CN113449564A (zh) * 2020-03-26 2021-09-28 上海交通大学 基于人体局部语义知识的行为图像分类方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2546360A (en) * 2016-01-13 2017-07-19 Adobe Systems Inc Image captioning with weak supervision
CN107729987A (zh) * 2017-09-19 2018-02-23 东华大学 基于深度卷积‑循环神经网络的夜视图像的自动描述方法
CN107909115A (zh) * 2017-12-04 2018-04-13 上海师范大学 一种图像中文字幕生成方法
US20180373979A1 (en) * 2017-06-22 2018-12-27 Adobe Systems Incorporated Image captioning utilizing semantic text modeling and adversarial learning
CN109902750A (zh) * 2019-03-04 2019-06-18 山西大学 基于双向单注意力机制图像描述方法
CN109919221A (zh) * 2019-03-04 2019-06-21 山西大学 基于双向双注意力机制图像描述方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2546360A (en) * 2016-01-13 2017-07-19 Adobe Systems Inc Image captioning with weak supervision
US20180373979A1 (en) * 2017-06-22 2018-12-27 Adobe Systems Incorporated Image captioning utilizing semantic text modeling and adversarial learning
CN107729987A (zh) * 2017-09-19 2018-02-23 东华大学 基于深度卷积‑循环神经网络的夜视图像的自动描述方法
CN107909115A (zh) * 2017-12-04 2018-04-13 上海师范大学 一种图像中文字幕生成方法
CN109902750A (zh) * 2019-03-04 2019-06-18 山西大学 基于双向单注意力机制图像描述方法
CN109919221A (zh) * 2019-03-04 2019-06-21 山西大学 基于双向双注意力机制图像描述方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SOW, DAOUDA ET AL.: "A SEQUENTIAL GUIDING NETWORK WITH ATTENTION FOR IMAGE CAPTIONING" *
杨楠;南琳;张丁一;库涛;: "基于深度学习的图像描述研究" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414505A (zh) * 2020-03-11 2020-07-14 上海爱数信息技术股份有限公司 一种基于序列生成模型的快速图像摘要生成方法
CN111414505B (zh) * 2020-03-11 2023-10-20 上海爱数信息技术股份有限公司 一种基于序列生成模型的快速图像摘要生成方法
CN113449564A (zh) * 2020-03-26 2021-09-28 上海交通大学 基于人体局部语义知识的行为图像分类方法
CN113449564B (zh) * 2020-03-26 2022-09-06 上海交通大学 基于人体局部语义知识的行为图像分类方法

Also Published As

Publication number Publication date
CN110750669B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
CN110119786B (zh) 文本话题分类方法及装置
CN109933801B (zh) 基于预测位置注意力的双向lstm命名实体识别方法
CN111738251B (zh) 一种融合语言模型的光学字符识别方法、装置和电子设备
CN110866399B (zh) 一种基于增强字符向量的中文短文本实体识别与消歧方法
CN111737511B (zh) 基于自适应局部概念嵌入的图像描述方法
CN110175246B (zh) 一种从视频字幕中提取概念词的方法
WO2017177809A1 (zh) 语言文本的分词方法和***
CN113298151A (zh) 一种基于多级特征融合的遥感图像语义描述方法
Vinnarasu et al. Speech to text conversion and summarization for effective understanding and documentation
CN114153971B (zh) 一种含错中文文本纠错识别分类设备
CN112329482A (zh) 机器翻译方法、装置、电子设备和可读存储介质
CN113657115A (zh) 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN114339450A (zh) 视频评论生成方法、***、设备及存储介质
CN114780775B (zh) 一种基于内容选择和引导机制的图像描述文本生成方法
CN110750669B (zh) 一种图像字幕生成的方法及***
CN110659392B (zh) 检索方法及装置、存储介质
CN115129934A (zh) 一种多模态视频理解方法
CN112084788A (zh) 一种影像字幕隐式情感倾向自动标注方法及***
CN115186683B (zh) 一种基于跨模态翻译的属性级多模态情感分类方法
CN115359323A (zh) 图像的文本信息生成方法和深度学习模型的训练方法
CN116152118B (zh) 基于轮廓特征增强的图像描述方法
CN113139378B (zh) 一种基于视觉嵌入和条件归一化的图像描述方法
KR102685135B1 (ko) 영상 편집 자동화 시스템
US20240127812A1 (en) Method and system for auto-correction of an ongoing speech command
Prakash Image Caption Generation for Low Light Images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant