CN109740012B - 基于深度神经网络对图像语义进行理解和问答的方法 - Google Patents
基于深度神经网络对图像语义进行理解和问答的方法 Download PDFInfo
- Publication number
- CN109740012B CN109740012B CN201811535632.2A CN201811535632A CN109740012B CN 109740012 B CN109740012 B CN 109740012B CN 201811535632 A CN201811535632 A CN 201811535632A CN 109740012 B CN109740012 B CN 109740012B
- Authority
- CN
- China
- Prior art keywords
- image
- information
- neural network
- layer
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 14
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000011156 evaluation Methods 0.000 claims abstract description 14
- 238000013507 mapping Methods 0.000 claims abstract description 13
- 238000006243 chemical reaction Methods 0.000 claims abstract description 10
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 8
- 102100031554 Double C2-like domain-containing protein alpha Human genes 0.000 claims abstract description 3
- 101000866272 Homo sapiens Double C2-like domain-containing protein alpha Proteins 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000012795 verification Methods 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims 1
- 239000013589 supplement Substances 0.000 claims 1
- 230000000007 visual effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 210000002364 input neuron Anatomy 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于深度神经网络对图像语义进行理解和问答的方法包括:根据已有图像数据集,使用带动态参数层的卷积神经网络提取给定图像特征信息,然后在知识库中对图像进行信息检索获取给定图像的外部知识;对检索到的外部知识使用Doc2Vec进行编码转换成固定大小的向量形式;将需要提出的问题和图像检索信息联合,作为输入放到神经网络的门控循环单元GRU中进行训练;把训练得到的候选权重通过hashing转换映射到卷积神经网络的动态参数层;在全连接层后添加一个分类层得到各种问答的答案,并将分类精度作为评价准则;基于多种实验基准,再使用WUPS评价准则进行评估,得到最终的图像问答结果。
Description
技术领域
本发明涉及一种计算机视觉和自然语言处理技术,特别时一种基于深度神经网络对图像语义进行理解和问答的方法。
背景技术
随着计算机视觉和自然语言处理领域的快速发展,人们对于图像认知的要求越来越智能化。每张图像都包含着丰富的信息,图像中的人、物、场景以及他们的相互联系无一不给人们带来很多感兴趣的地方,所以如何让机器帮助人们更好的理解图像显得格外重要。对于图像语义信息的理解在多方面有着广泛的应用场景:能够有效帮助视障者理解图像场景和各种物体间的关联;可用于机器人领域的视觉分析和信息推断;可促进网络信息检索和电子商务平台信息检索的大力发展;可为医疗、交通以及教育事业提供极大的便利。
让机器理解图像语义信息已经引起了广大研究者们的高度重视,虽然问答***的准确率和信息范围的不断扩大,但问答干扰因素的多样性和不确定性仍然无法满足实际应用的需求。主要挑战在于图像问答的开放和自由性;外在信息如常识信息的干扰;图像视觉的关注点以及场景的多样性;对图像关联信息的推断和理解,并且现有的图像问答技术大多训练模型比较复杂耗时。
发明内容
本发明的目的在于提供一种基于深度神经网络对图像语义进行理解和问答的方法,包括以下步骤:
步骤1,根据已有图像数据集,使用带动态参数层的卷积神经网络提取给定图像特征信息,然后在知识库中对图像进行信息检索获取给定图像的外部知识;
步骤2,对检索到的外部知识使用Doc2Vec进行编码转换成固定大小的向量形式;
步骤3,将需要提出的问题和图像检索信息联合,作为输入放到神经网络的门控循环单元GRU中进行训练;
步骤4,把训练得到的候选权重通过hashing转换映射到卷积神经网络的动态参数层;
步骤5,在全连接层后添加一个分类层得到各种问答的答案,并将分类精度作为评价准则;
步骤6,基于多种实验基准,再使用WUPS评价准则进行评估,得到最终的图像问答结果。
本发明提出一种基于深度神经网络对图像语义进行理解和问答的***和方法,该方法训练网络简单有效,并且对多种方式的问答均有具有较高精度的问答结果。
下面结合说明书附图对本发明作进一步描述。
附图说明
图1是本发明的流程图。
图2是联合嵌入模型图。
图3是门控循环单元(GRU)结构图。
具体实施方式
结合图1、图2,一种基于深度神经网络对图像语义进行理解和问答的***和方法,包括图像特征提取和外部检索信息转换、模型训练产生预测参数和hashing映射、问答结果分类、多种实验基准和评估得到最终问答结果这四个过程。
一、图像特征提取和外部检索信息转换包括以下步骤:
步骤1,使用预训练的深度卷积神经网络(vgg19),在原网络最后一层后添加动态参数层(一个全连接层),调整好网络初始参数和结构,对整理好的训练集和验证集图像提取特征信息。
步骤2,在步骤1中将神经网络层中的fc7层输出信息作为图像特征保存,获取到图像特征向量Vf(I)。
步骤3,选择先验知识库(DBpedia)并对其进行扩充。考虑到编码和信息检索过程会在问答时产生干扰或无关的信息,尽最大可能以记忆增强的模式进行合并或自适应的选择相关的信息作为常识性补充。通过给定图像和步骤1中的属性信息Vf(I)作为一个查询,对RDF使用SparQL数据查询语言检索图像外部知识并作为机器理解图像语义的常识性信息。
步骤4,对步骤3中获取到的外部知识使用Doc2Vec转换成固定的向量形式来得到语义信息,其转换公式如下:
y=b+Uh(wt-k,...wt+k;W,D)
其中,U和b代表softmax分类函数的参数,h是段落标记矩阵D和词向量矩阵W连接或平均后得到的值,wt-k,...wt+k是段落词向量。
二、模型训练产生预测参数和hashing映射包括以下步骤:
步骤5,结合图3,调整好GRU门控循环单元的网络结构和训练参数,预测网络模型由GRU后再连接一个全连接层组成。GRU模型结构中,重置门用来控制前一时刻有多少状态信息被忽略;更新门则决定保留多少前一刻状态信息。可得到如下模型表达式:
rt=σ(Wrxt+Urht-1)
Zt=σ(Wzxt+Uzht-i)
其中,rt和zt分别代表t时刻的重置门和更新门;激活函数σ(*)he tanh(*)分别是非线性sigmoid函数和是双曲正切函数;是候选隐含状态,使用重置门来控制包含过去时刻信息的上一个隐含状态的流入;ht表示隐含状态,使用更新门在t时刻对t-1时刻隐含状态和候选状态进行更新。将步骤4)中转换得到的外部知识语义向量K和需要提出的问题Q(使用Word2Vec转换)作为GRU的输入进行训练。
步骤6,由步骤5训练后得到hq,k,经过全连接层后输出候选权重向量P(P=[p1...pk]T),即P就是产生的预测参数。
步骤7,在步骤6中训练产生的预测参数P数量特别庞大,也有很多冗余参数的产生,为进一步优化模型增加训练效率,需通过hashing随机权重共享技术来构造动态参数层的权重,使得自由参数的数量大大减少而网络性能几乎没什么损失。所以,将动态参数层的输入P经过优化筛选后得到Wd(q,k),将使用如下映射方式:
其中,对应于Wd(q,k)中第m个输出和第n个输入神经元间的映射,而Ψ(m,n)是一个散列函数将(m,n)映射到自然数{1,...,K}之间,K是预测参数P的维数,ξ(m,n):N×N→{+1,-1}是另一个与Ψ(m,n)无关的散列函数,可用来消除散列内积的偏差。
三,问答结果分类包括以下步骤:
步骤8,经由步骤7hashing映射转换得到的参数对应于卷积神经网络的动态参数层,和该层的权重fi一起作用得到输出fo,再将fo通过一个softmax分类层,即在动态参数层后添加一个分类层。其中,考虑把步骤1)中动态参数层放在倒数第二层而不是分类层,是因为该层比分类层涉及更少的参数,这样在通过分类层后能更好得到问答产生的一系列结果。
步骤9,由于问答的开放和自由性,很难设定一个衡量问答准确性的标准,此处依据分类的精度作为评估问答***好坏的准则之一,在优化问答模型的同时也能高效的在步骤8中产生的各个分类结果中选择出比较好的答案。
四,多种实验基准和评估准则得到最终问答结果包含以下步骤:
步骤10,为了验证多方面因素对问答***产生的影响,此处提出多种实验基准:(1)仅带有问题的问答模型,此时,仅将问题作为模型的输入,训练中不加入图像视觉信息和图像外部知识信息,最后将得到的问答结果记录;(2)有图像和问题的问答模型,在训练模型时不加入外部知识库信息,即在机器问答时不加入图像外部常识信息;(3)带有图像视觉、图像先验知识和问题的问答模型,在训练时对图像视觉使用关注机制,并且加入外部知识信息和问题一起训练。通过多种对比实验,可以验证在机器问答中常识信息和图像视觉特征发挥的重要作用。
步骤11,在步骤9中依据分类的精度对问答结果进行评估虽然比较简单,但评估的方式还不够严谨。需要基于词汇语义相似性再对问答进行评估,考虑使用WUPS指标进行评估,它使用基于WordNet分类法的采用阈值化的方式来计算单词之间的相似性。评估方式如下:
其中,Ai和Ti分别表示第i个样例的预测答案和准确答案,μ(.)是预测答案(问答结果)和真实答案之间的阈值化WUP相似性,评估时阈值主要设置为0.9和0.0两种。基于该WUPS评分准则对问答结果进行评估,和步骤9中的分类准确度相结合可更好得到该问答***的最终结果。
Claims (8)
1.一种基于深度神经网络对图像语义进行理解和问答的方法,其特征在于,包括以下步骤:
步骤1,根据已有图像数据集,使用带动态参数层的卷积神经网络提取给定图像特征信息,然后在知识库中对图像进行信息检索获取给定图像的外部知识;
步骤2,对检索到的外部知识使用Doc2Vec进行编码转换成固定大小的向量形式;
步骤3,将需要提出的问题和图像检索信息联合,作为输入放到神经网络的门控循环单元GRU中进行训练;
步骤4,把训练得到的候选权重通过hashing映射转换到卷积神经网络的动态参数层;
步骤5,在全连接层后添加一个分类层得到各种问答的答案,并将分类精度作为评价准则;
步骤6,先进行基于多种实验基准的评估,再使用WUPS评价准则进行评估,得到最终的图像问答结果。
2.根据权利要求1所述的方法,其特征在于,步骤1的具体过程为:
步骤101,使用预训练的深度卷积神经网络vgg19,在网络最后一层后添加动态参数层,调整好网络初始参数和结构,对训练集和验证集图像提取特征信息;
步骤102,将步骤101中调整好的神经网络fc7层输出的信息作为图像特征保存,获取图像特征向量Vf(I);
步骤103,选择先验知识库并以记忆增强的模式进行合并或自适应的选择相关的信息作为常识性补充并对先验知识库用资源描述框架RDF进行描述,通过给定图像和其属性信息Vf(I)作为一个查询,对资源描述框架RDF使用SparQL数据查询语言检索到给定图像外部知识。
3.根据权利要求1所述的方法,其特征在于,步骤2的具体过程为:
对获取的外部知识使用Doc2Vec转换成固定的向量形式来得到语义信息,其转换公式如下:
y=b+Uh(wt-k,...wt+k;W,D)
其中,U和b是softmax函数的参数,wt-k表示段落中的第t-k个词,h是段落标记矩阵D和词向量矩阵W连接或平均后得到的值。
4.根据权利要求1所述的方法,其特征在于,步骤3的具体过程为:
步骤301,调整门控循环单元GRU的网络结构和训练参数,其中预测网络模型由门控循环单元GRU后再连接一个全连接层组成;
步骤302,将问答需要的问题和转换后的给定图像外部知识信息联合,一起放到模型中进行训练。
5.根据权利要求1所述的方法,其特征在于,步骤4的具体过程为:
步骤401,将步骤3中联合嵌入模型训练产生的权重值P作为预测参数值
P=Wphq,h
其中,Wp表示全连接层的权重,hq,h是经过门控循环单元GRU训练后的输出值;
步骤402,通过hashing映射转换将P优化筛选得到Wd(q,k)。
6.根据权利要求5所述的方法,其特征在于,步骤5的具体过程如下:
步骤501,将步骤402得到Wd(q,k)和神经网络的动态参数层的权重fi得到输出fo;
步骤502,将fo通过一个softmax分类层,并将分类精度作为评价准则。
7.根据权利要求1所述的方法,其特征在于,步骤6中的实验基准为(1)~(3)中任一种:
(1)仅有问题的问答模型;
(2)有图像和问题的问答模型;
(2)有图像、先验知识和问题的问答模型。
8.根据权利要求1所述的方法,其特征在于,步骤6中采用WUPS评价准则对问答结果再次进行评估得到问答结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811535632.2A CN109740012B (zh) | 2018-12-14 | 2018-12-14 | 基于深度神经网络对图像语义进行理解和问答的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811535632.2A CN109740012B (zh) | 2018-12-14 | 2018-12-14 | 基于深度神经网络对图像语义进行理解和问答的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109740012A CN109740012A (zh) | 2019-05-10 |
CN109740012B true CN109740012B (zh) | 2023-08-25 |
Family
ID=66359453
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811535632.2A Active CN109740012B (zh) | 2018-12-14 | 2018-12-14 | 基于深度神经网络对图像语义进行理解和问答的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109740012B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110309850A (zh) * | 2019-05-15 | 2019-10-08 | 山东省计算中心(国家超级计算济南中心) | 基于语言先验问题识别和缓解的视觉问答预测方法及*** |
CN110717024B (zh) * | 2019-10-08 | 2022-05-17 | 苏州派维斯信息科技有限公司 | 基于图像视觉到文本转换的视觉问答问题解决方法 |
CN110825903A (zh) * | 2019-10-12 | 2020-02-21 | 江南大学 | 一种改进哈希融合机制的视觉问答方法 |
CN113342982B (zh) * | 2021-06-24 | 2023-07-25 | 长三角信息智能创新研究院 | 融合RoBERTa和外部知识库的企业行业分类方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804544A (zh) * | 2018-05-17 | 2018-11-13 | 深圳市小蛙数据科技有限公司 | 互联网影视多源数据融合方法和装置 |
CN108830287A (zh) * | 2018-04-18 | 2018-11-16 | 哈尔滨理工大学 | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 |
-
2018
- 2018-12-14 CN CN201811535632.2A patent/CN109740012B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108830287A (zh) * | 2018-04-18 | 2018-11-16 | 哈尔滨理工大学 | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 |
CN108804544A (zh) * | 2018-05-17 | 2018-11-13 | 深圳市小蛙数据科技有限公司 | 互联网影视多源数据融合方法和装置 |
Non-Patent Citations (1)
Title |
---|
基于时空注意力网络的视频问答;杨启凡;《https://d.wanfangdata.com.cn/thesis/ChJUaGVzaXNOZXdTMjAyMjA5MDESCFkzNDYzODkyGghsam9tOHY1dA%3D%3D》;20181126;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109740012A (zh) | 2019-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN107766447B (zh) | 一种使用多层注意力网络机制解决视频问答的方法 | |
CN109740012B (zh) | 基于深度神经网络对图像语义进行理解和问答的方法 | |
CN110263912B (zh) | 一种基于多目标关联深度推理的图像问答方法 | |
Vinyals et al. | Show and tell: A neural image caption generator | |
CN106650813B (zh) | 一种基于深度残差网络和lstm的图像理解方法 | |
CN109783666B (zh) | 一种基于迭代精细化的图像场景图谱生成方法 | |
CN108416065B (zh) | 基于层级神经网络的图像-句子描述生成***及方法 | |
US11776269B2 (en) | Action classification in video clips using attention-based neural networks | |
CN111652357B (zh) | 一种利用基于图的特定目标网络解决视频问答问题的方法及其*** | |
CN110704601A (zh) | 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法 | |
KR102186326B1 (ko) | 구조 정보 선행 학습을 통한 딥러닝 관계 추출 시스템 및 이를 이용한 딥러닝 관계 추출 성능 향상 방법 | |
CN111274790B (zh) | 基于句法依存图的篇章级事件嵌入方法及装置 | |
US20190392624A1 (en) | Creative gan generating art deviating from style norms | |
CN110795549B (zh) | 短文本对话方法、装置、设备及存储介质 | |
AU2019101138A4 (en) | Voice interaction system for race games | |
CN111460121A (zh) | 视觉语义对话方法及*** | |
CN111079837B (zh) | 一种用于二维灰度图像检测识别分类的方法 | |
CN107679225A (zh) | 一种基于关键词的回复生成方法 | |
CN115393933A (zh) | 一种基于帧注意力机制的视频人脸情绪识别方法 | |
CN117437317A (zh) | 图像生成方法、装置、电子设备、存储介质和程序产品 | |
CN116821294A (zh) | 一种基于隐式知识反刍的问答推理方法和装置 | |
CN113554040B (zh) | 一种基于条件生成对抗网络的图像描述方法、装置设备 | |
CN113869005A (zh) | 一种基于语句相似度的预训练模型方法和*** | |
CN111445545B (zh) | 一种文本转贴图方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |