CN115455225A - 一种图文语义对齐模型的构建方法及装置 - Google Patents

一种图文语义对齐模型的构建方法及装置 Download PDF

Info

Publication number
CN115455225A
CN115455225A CN202211108881.XA CN202211108881A CN115455225A CN 115455225 A CN115455225 A CN 115455225A CN 202211108881 A CN202211108881 A CN 202211108881A CN 115455225 A CN115455225 A CN 115455225A
Authority
CN
China
Prior art keywords
image
text
semantic alignment
pair
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211108881.XA
Other languages
English (en)
Inventor
陈畅新
陈第
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Youmi Technology Co ltd
Original Assignee
Youmi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Youmi Technology Co ltd filed Critical Youmi Technology Co ltd
Priority to CN202211108881.XA priority Critical patent/CN115455225A/zh
Publication of CN115455225A publication Critical patent/CN115455225A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种图文语义对齐模型的构建方法及装置,包括:将若干个图文对输入语义对齐模型,以使语义对齐模型对每个图文对进行分析,得到每个图文对的语义对齐结果,语义对齐结果用于表示相应图文对中样本图像和样本文本的匹配度;根据所有图文对的语义对齐结果和实际匹配结果,判断语义对齐模型是否满足收敛条件;若否,修正模型参数,直至得到满足收敛条件的可用于预测文本对应的图像、图像对应的文本、图像和文本之间的匹配度的图文语义对齐模型。可见,实施本发明通过若干个图文对训练语义对齐模型,得到可用于多种图文匹配场景的图文语义对齐模型,能够提高图文匹配的效率以及图文匹配方式的多样性。

Description

一种图文语义对齐模型的构建方法及装置
技术领域
本发明涉及图像分类技术领域,尤其涉及一种图文语义对齐模型的构建方法及装置。
背景技术
随着数字化时代的发展,互联网上存在海量的图文信息,人们在工作中经常要处理图像信息和文本信息,例如,将多个图像和多个文本进行匹配等。当图像和文本的数量较少时,人们可以手动将图像和文本进行匹配,然而,当图像和文本数量较多时,手动匹配图像和文本的效率较低,无法满足人们处理海量图文信息的需求。可见,如何构建一种图文语义对齐模型,从而提高图文匹配的效率显得尤为重要。
发明内容
本发明所要解决的技术问题在于,提供一种图文语义对齐模型的构建方法及装置,不仅能够提高图文匹配的效率,还能够提高图文匹配方式的多样性。
为了解决上述技术问题,本发明第一方面公开了一种图文语义对齐模型的构建方法,所述方法包括:
将预先确定出的若干个图文对输入待训练的语义对齐模型中,以使所述语义对齐模型对每个所述图文对进行分析,得到每个所述图文对的语义对齐结果,每个所述图文对包括一个样本图像和一个样本文本,所述语义对齐结果用于表示相应图文对中样本图像和样本文本的匹配度;
根据所有所述图文对的语义对齐结果和预先标注的所有所述图文对的实际匹配结果,判断所述语义对齐模型是否满足收敛条件;
当判断结果为否时,修正所述语义对齐模型的模型参数,并重新执行所述的将预先确定出的若干个图文对输入待训练的语义对齐模型中,以使所述语义对齐模型对每个所述图文对进行分析,得到每个所述图文对的语义对齐结果的操作以及执行所述的根据所有所述图文对的语义对齐结果和预先标注的所有所述图文对的实际匹配结果,判断所述语义对齐模型是否满足收敛条件的操作,直至得到满足所述收敛条件的图文语义对齐模型,所述图文语义对齐模型用于预测任意文本对应的图像、任意图像对应的文本、任意图像和任意文本之间的匹配度中的一个或多个。
作为一种可选的实施方式,在本发明第一方面中,所述语义对齐模型包括图像处理结构、文本处理结构以及对齐结构;
所述语义对齐模型对每个所述图文对进行分析,得到每个所述图文对的语义对齐结果,包括:
由所述图像处理结构对每个所述图文对的样本图像进行特征提取操作,得到每个所述图文对的图像特征,并由所述文本处理结构对每个所述图文对的样本文本进行特征提取操作,得到每个所述图文对的文本特征;
由所述对齐结构对每个所述图文对的图像特征和文本特征拼接后得到的图文拼接特征进行分析,得到每个所述图文对的语义对齐结果。
作为一种可选的实施方式,在本发明第一方面中,所述语义对齐模型还包括一个或多个特征转换结构,每个所述特征转换结构至少包括全连接层;
在所述由所述图像处理结构对每个所述图文对的样本图像进行特征提取操作,得到每个所述图文对的图像特征之后,所述由所述对齐结构对每个所述图文对的图像特征和文本特征拼接后得到的图文拼接特征进行分析,得到每个所述图文对的语义对齐结果之前,所述方法还包括:
由所述全连接层对每个所述图文对的图像特征进行特征转换处理,以更新该图文对的图像特征,所述特征转换处理用于使每个所述图文对的图像特征对应的特征属性与该图文对的文本特征对应的特征属性相匹配,所述特征属性包括特征维度和/或特征空间;
其中,每个在前特征转换结构的输出结果为其在后相邻特征转换结构的输入内容。
作为一种可选的实施方式,在本发明第一方面中,每个所述特征转换结构还包括非线性处理层;
在所述由所述全连接层对每个所述图文对的图像特征进行特征转换处理,以更新该图文对的图像特征之后,所述方法还包括:
由所述非线性处理层对每个所述图文对被所述全连接层处理后的图像特征进行非线性处理,以更新该图文对的图像特征;
其中,所述非线性处理层对每个所述图文对被所述全连接层处理后的图像特征进行非线性处理,以更新该图文对的图像特征,包括:
由所述非线性处理层基于预先设定的激活函数,对每个所述图文对被所述全连接层处理后的图像特征进行激活函数运算处理;
由所述非线性处理层基于预先设定的随机隐藏方式和随机隐藏概率,将每个所述图文对所对应的神经网络层中一个或多个输出神经元的值进行随机隐藏处理,以更新该图文对的图像特征,每个所述图文对所对应的神经网络包括该图文对被所述激活函数运算处理后得到的图像特征所对应的神经网络层。
作为一种可选的实施方式,在本发明第一方面中,所述对齐结构对每个所述图文对的图像特征和文本特征拼接后得到的图文拼接特征进行分析,得到每个所述图文对的语义对齐结果,包括:
由所述对齐结构的向量处理结构对每个所述图文对的图像特征和文本特征拼接后得到的图文拼接特征进行向量转换处理,得到每个所述图文对所对应的目标矩阵;
由所述对齐结构的全连接层对每个所述图文对所对应的目标矩阵进行处理,得到该图文对的样本图像的语义和样本文本的语义相匹配的置信度,作为该图文对的语义对齐结果。
作为一种可选的实施方式,在本发明第一方面中,每个所述图文对的语义对齐结果包括该图文对的样本图像的语义和样本文本的语义相匹配的置信度;
所述根据所有所述图文对的语义对齐结果和预先标注的所有所述图文对的实际匹配结果,判断所述语义对齐模型是否满足收敛条件,包括:
根据每个所述图文对的语义对齐结果与预先标注的该图文对的实际匹配结果对应的目标置信度之间的差异度,计算所述语义对齐模型的预测损失值;
判断所述预测损失值是否小于预设的损失值阈值;
当判断结果为是时,确定所述语义对齐模型满足收敛条件,当判断结果为否时,确定所述语义对齐模型不满足收敛条件。
作为一种可选的实施方式,在本发明第一方面中,所有所述图文对包括至少一个正例图文对和/或至少一个负例图文对,所述正例图文对的实际匹配结果为所述样本图像和所述样本文本相匹配的第一匹配结果,所述负例图文对的实际匹配结果为所述样本图像和所述样本文本不匹配的第二匹配结果;
在所述根据每个所述图文对的语义对齐结果与预先标注的该图文对的实际匹配结果对应的目标置信度之间的差异度,计算所述语义对齐模型的预测损失值之前,所述方法还包括:
根据预先设定的标签平滑系数,对每种所述实际匹配结果对应的初始置信度进行更新,得到每种实际匹配结果对应的目标置信度;
其中,所述第一匹配结果对应的目标置信度以及所述第二匹配结果对应的目标置信度分别为:
P1=1-ε,
P2=ε/(N-1),
其中,P1用于表示所述第一匹配结果所对应的目标置信度,P2用于表示所述第二匹配结果所对应的目标置信度,ε用于表示标签平滑系数,N用于表示所有所述负例图文对的数量。
作为一种可选的实施方式,在本发明第一方面中,在所述判断所述预测损失值是否小于预设的损失值阈值之前,所述方法还包括:
确定基于所述语义对齐模型确定出的每个所述图文对的目标图像特征和目标文本特征之间的相似度,作为该图文对所对应的相似度;
根据所有所述图文对所对应的相似度以及所有所述图文对的实际匹配结果,更新所述预测损失值;
以及,在所述确定每个所述图文对的目标图像特征和目标文本特征之间的相似度之前,所述方法还包括:
对于每个所述图文对,根据在所述语义对齐模型分析该图文对的过程中所述语义对齐模型的向量处理结构的输入内容所对应的输入特征维度,将所述向量处理结构输出的该图文对所对应的目标矩阵切分为目标图像特征和目标文本特征,其中,所述输入内容包括所述语义对齐模型基于每个所述图文对的样本图像和样本文本确定出的图文拼接特征。
本发明第二方面公开了一种图文语义对齐模型的构建装置,所述装置包括:
输入模块,用于将预先确定出的若干个图文对输入待训练的语义对齐模型中,以使所述语义对齐模型对每个所述图文对进行分析,得到每个所述图文对的语义对齐结果,每个所述图文对包括一个样本图像和一个样本文本,所述语义对齐结果用于表示相应图文对中样本图像和样本文本的匹配度;
判断模块,用于根据所有所述图文对的语义对齐结果和预先标注的所有所述图文对的实际匹配结果,判断所述语义对齐模型是否满足收敛条件;
修正模块,用于当所述判断模块判断出所述语义对齐模型不满足所述收敛条件时,修正所述语义对齐模型的模型参数,并触发所述输入模块重新执行所述的将预先确定出的若干个图文对输入待训练的语义对齐模型中,以使所述语义对齐模型对每个所述图文对进行分析,得到每个所述图文对的语义对齐结果的操作以及触发所述判断模块执行所述的根据所有所述图文对的语义对齐结果和预先标注的所有所述图文对的实际匹配结果,判断所述语义对齐模型是否满足收敛条件的操作,直至得到满足所述收敛条件的图文语义对齐模型,所述图文语义对齐模型用于预测任意文本对应的图像、任意图像对应的文本、任意图像和任意文本之间的匹配度中的一个或多个。
作为一种可选的实施方式,在本发明第二方面中,所述语义对齐模型包括图像处理结构、文本处理结构以及对齐结构;
所述语义对齐模型对每个所述图文对进行分析,得到每个所述图文对的语义对齐结果的具体方式包括:
由所述图像处理结构对每个所述图文对的样本图像进行特征提取操作,得到每个所述图文对的图像特征,并由所述文本处理结构对每个所述图文对的样本文本进行特征提取操作,得到每个所述图文对的文本特征;
由所述对齐结构对每个所述图文对的图像特征和文本特征拼接后得到的图文拼接特征进行分析,得到每个所述图文对的语义对齐结果。
作为一种可选的实施方式,在本发明第二方面中,所述语义对齐模型还包括一个或多个特征转换结构,每个所述特征转换结构至少包括全连接层;
所述全连接层,用于在所述图像处理结构对每个所述图文对的样本图像进行特征提取操作,得到每个所述图文对的图像特征之后,所述对齐结构对每个所述图文对的图像特征和文本特征拼接后得到的图文拼接特征进行分析,得到每个所述图文对的语义对齐结果之前,对每个所述图文对的图像特征进行特征转换处理,以更新该图文对的图像特征,所述特征转换处理用于使每个所述图文对的图像特征对应的特征属性与该图文对的文本特征对应的特征属性相匹配,所述特征属性包括特征维度和/或特征空间;
其中,每个在前特征转换结构的输出结果为其在后相邻特征转换结构的输入内容。
作为一种可选的实施方式,在本发明第二方面中,每个所述特征转换结构还包括非线性处理层;
所述非线性处理层,用于在所述全连接层对每个所述图文对的图像特征进行特征转换处理,以更新该图文对的图像特征之后,对每个所述图文对被所述全连接层处理后的图像特征进行非线性处理,以更新该图文对的图像特征;
其中,所述非线性处理层对每个所述图文对被所述全连接层处理后的图像特征进行非线性处理,以更新该图文对的图像特征的具体方式包括:
所述非线性处理层基于预先设定的激活函数,对每个所述图文对被所述全连接层处理后的图像特征进行激活函数运算处理;
所述非线性处理层基于预先设定的随机隐藏方式和随机隐藏概率,将每个所述图文对所对应的神经网络层中一个或多个输出神经元的值进行随机隐藏处理,以更新该图文对的图像特征,每个所述图文对所对应的神经网络包括该图文对被所述激活函数运算处理后得到的图像特征所对应的神经网络层。
作为一种可选的实施方式,在本发明第二方面中,所述对齐结构对每个所述图文对的图像特征和文本特征拼接后得到的图文拼接特征进行分析,得到每个所述图文对的语义对齐结果的具体方式包括:
由所述对齐结构的向量处理结构对每个所述图文对的图像特征和文本特征拼接后得到的图文拼接特征进行向量转换处理,得到每个所述图文对所对应的目标矩阵;
由所述对齐结构的全连接层对每个所述图文对所对应的目标矩阵进行处理,得到该图文对的样本图像的语义和样本文本的语义相匹配的置信度,作为该图文对的语义对齐结果。
作为一种可选的实施方式,在本发明第二方面中,每个所述图文对的语义对齐结果包括该图文对的样本图像的语义和样本文本的语义相匹配的置信度;
所述判断模块根据所有所述图文对的语义对齐结果和预先标注的所有所述图文对的实际匹配结果,判断所述语义对齐模型是否满足收敛条件的具体方式包括:
根据每个所述图文对的语义对齐结果与预先标注的该图文对的实际匹配结果对应的目标置信度之间的差异度,计算所述语义对齐模型的预测损失值;
判断所述预测损失值是否小于预设的损失值阈值;
当判断结果为是时,确定所述语义对齐模型满足收敛条件,当判断结果为否时,确定所述语义对齐模型不满足收敛条件。
作为一种可选的实施方式,在本发明第二方面中,所有所述图文对包括至少一个正例图文对和/或至少一个负例图文对,所述正例图文对的实际匹配结果为所述样本图像和所述样本文本相匹配的第一匹配结果,所述负例图文对的实际匹配结果为所述样本图像和所述样本文本不匹配的第二匹配结果;
所述装置还包括:
第一更新模块,用于在所述判断模块根据每个所述图文对的语义对齐结果与预先标注的该图文对的实际匹配结果对应的目标置信度之间的差异度,计算所述语义对齐模型的预测损失值之前,根据预先设定的标签平滑系数,对每种所述实际匹配结果对应的初始置信度进行更新,得到每种实际匹配结果对应的目标置信度;
其中,所述第一匹配结果对应的目标置信度以及所述第二匹配结果对应的目标置信度分别为:
P1=1-ε,
P2=ε/(N-1),
其中,P1用于表示所述第一匹配结果所对应的目标置信度,P2用于表示所述第二匹配结果所对应的目标置信度,ε用于表示标签平滑系数,N用于表示所有所述负例图文对的数量。
作为一种可选的实施方式,在本发明第二方面中,所述装置还包括:
确定模块,用于在所述判断模块判断所述预测损失值是否小于预设的损失值阈值之前,确定基于所述语义对齐模型确定出的每个所述图文对的目标图像特征和目标文本特征之间的相似度,作为该图文对所对应的相似度;
第二更新模块,用于根据所有所述图文对所对应的相似度以及所有所述图文对的实际匹配结果,更新所述预测损失值;
以及,所述装置还包括:
特征切分模块,用于对于每个所述图文对,根据在所述语义对齐模型分析该图文对的过程中所述语义对齐模型的向量处理结构的输入内容所对应的输入特征维度,将所述向量处理结构输出的该图文对所对应的目标矩阵切分为目标图像特征和目标文本特征,其中,所述输入内容包括所述语义对齐模型基于每个所述图文对的样本图像和样本文本确定出的图文拼接特征。
本发明第三方面公开了另一种图文语义对齐模型的构建装置,所述装置包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明第一方面公开的图文语义对齐模型的构建方法。
本发明第四方面公开了一种计算机存储介质,所述计算机存储介质存储有计算机指令,所述计算机指令被调用时,用于执行本发明第一方面公开的图文语义对齐模型的构建方法。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例中,将预先确定出的若干个图文对输入待训练的语义对齐模型中,以使语义对齐模型对每个图文对进行分析,得到每个图文对的语义对齐结果,每个图文对包括一个样本图像和一个样本文本,语义对齐结果用于表示相应图文对中样本图像和样本文本的匹配度;根据所有图文对的语义对齐结果和预先标注的所有图文对的实际匹配结果,判断语义对齐模型是否满足收敛条件;当判断结果为否时,修正语义对齐模型的模型参数,直至得到满足收敛条件的图文语义对齐模型,图文语义对齐模型用于预测任意文本对应的图像、任意图像对应的文本、任意图像和任意文本之间的匹配度中的一个或多个。可见,实施本发明能够通过若干个图文对训练语义对齐模型,得到可用于预测任意文本对应的图像、任意图像对应的文本、任意图像和文本之间的匹配度的图文语义对齐模型,不仅能够提高图文匹配的效率,还能够提高图文匹配方式的多样性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种图文语义对齐模型的构建方法的流程示意图;
图2是本发明实施例公开的一种语义对齐模型的结构示意图;
图3是本发明实施例公开的另一种图文语义对齐模型的构建方法的流程示意图;
图4是本发明实施例公开的一种图文语义对齐模型的构建装置的结构示意图;
图5是本发明实施例公开的另一种图文语义对齐模型的构建装置的结构示意图;
图6是本发明实施例公开的又一种图文语义对齐模型的构建装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明公开了一种图文语义对齐模型的构建方法及装置,能够通过若干个图文对训练语义对齐模型,得到可用于预测任意文本对应的图像、任意图像对应的文本、任意图像和文本之间的匹配度的图文语义对齐模型,不仅能够提高图文匹配的效率,还能够提高图文匹配方式的多样性。以下分别进行详细说明。
实施例一
请参阅图1,图1是本发明实施例公开的一种图文语义对齐模型的构建方法的流程示意图。其中,图1所描述的图文语义对齐模型的构建方法可以应用于基于任意架构的图文语义对齐模型的构建流程中,本发明实施例不做限定。如图1所示,该图文语义对齐模型的构建方法可以包括以下操作:
101、将预先确定出的若干个图文对输入待训练的语义对齐模型中,以使语义对齐模型对每个图文对进行分析,得到每个图文对的语义对齐结果。
本发明实施例中,可选的,每个图文对可以包括一个样本图像和一个样本文本,语义对齐结果用于表示相应图文对中样本图像和样本文本的匹配度。进一步可选的,所有图文对包括至少一个正例图文对和/或至少一个负例图文对,正例图文对用于表示图文匹配的图文对,如样本文本为“狸花猫”,样本图像为狸花猫图像。负例图文对用于表示图文不匹配的图文对,如样本文本为“金毛犬”,样本图像为“阿拉斯加犬”。这样能够减少语义对齐模型训练过度拟合的情况发生。
本发明实施例中,可选的,每个图文对的语义对齐结果可以包括该图文对的样本图像的语义和样本文本的语义相匹配的置信度。
本发明实施例中,可选的,用于训练语义对齐模型的图文对集合可以包括基于任意粒度进行类别区分的多个图文对,本发明实施例不做限定,进一步可选的,任意粒度可以包括基于基础类别(如鸟、狗、猫等)的粒度和/或基于基础类别的多个子类(如杜鹃、啄木鸟、燕子等)的粒度,本发明实施例不做限定,优选的,用于训练语义对齐模型的图文对集合包括基础类别的多个子类对应的图文对,此时子类对应的文本标签即样本文本,这样能够提高训练得到的图文语义对齐模型进行图像分类的精准度。
本发明实施例中,可选的,如图2所示,语义对齐模型可以包括图像处理结构、文本处理结构以及对齐结构,进一步可选的,对齐结构可以包括向量处理结构和全连接层,可选的,图像处理结构可以包括图像编码器,文本处理结构可以包括文本编码器,向量处理结构用于对图像特征和文本特征进行语义解析,该向量处理结构可以包括基于自注意力机制的向量转换结构;优选的,图像编码器可以为CNN编码器,文本编码器可以为BERT编码器,向量转换结构可以为Transformer结构。这样能够提高图像编码结果和文本编码结果与图像和文本之间的匹配程度,并且通过采用基于自注意力机制的向量转换结构能够提高图像特征以及文本特征自身内部信息之间的关联性和全局性。
本发明实施例中,进一步可选的,如图2所示,语义对齐模型还可以包括一个或多个特征转换结构,每个特征转换结构至少包括全连接层,又进一步可选的,每个特征转换结构还可以包括非线性处理层。
作为一种可选的实施方式,如图2所示,语义对齐模型对每个图文对进行分析,得到每个图文对的语义对齐结果,可以包括:
由图像处理结构对每个图文对的样本图像进行特征提取操作,得到每个图文对的图像特征,并由文本处理结构对每个图文对的样本文本进行特征提取操作,得到每个图文对的文本特征;
由对齐结构对每个图文对的图像特征和文本特征拼接后得到的图文拼接特征进行分析,得到每个图文对的语义对齐结果。
可见,实施该可选的实施方式能够分别提取图文对中样本图像的图像特征和样本文本的文本特征,并对图文特征和文本特征拼接后得到的拼接结果进行分析得到语义对齐结果,从而增加图文特征的维度,提高了语义对齐模型的神经网络复杂度,从而有利于提高训练图文语义对齐模型的准确性和可靠性。
在该可选的实施方式中,可选的,如图2所示,对齐结构对每个图文对的图像特征和文本特征拼接后得到的图文拼接特征进行分析,得到每个图文对的语义对齐结果,可以包括:
由对齐结构的向量处理结构对每个图文对的图像特征和文本特征拼接后得到的图文拼接特征进行向量转换处理,得到每个图文对所对应的目标矩阵;
由对齐结构的全连接层对每个图文对所对应的目标矩阵进行处理,得到该图文对的样本图像的语义和样本文本的语义相匹配的置信度,作为该图文对的语义对齐结果。
可见,实施该可选的实施方式还能够利用向量处理结构对图像特征和文本特征的语义进行理解,并通过全连接层来确定出图文对的图文匹配的置信度,提高了通过语义对齐模型确定图文对的语义对齐结果的效率和准确性。
在该可选的实施方式中,进一步可选的,对齐结构的全连接层对每个图文对所对应的目标矩阵进行处理,得到该图文对的样本图像的语义和样本文本的语义相匹配的置信度,作为该图文对的语义对齐结果,可以包括:
由对齐模型的全连接层对每个图文对所对应的目标矩阵进行处理,得到一个或多个分类结果以及每个分类结果所对应的置信度,并将所有分类结果对应的置信度中最高的目标置信度确定为该图文对的样本图像的语义和样本文本的语义相匹配的置信度,作为该图文对的语义对齐结果。
可见,实施该可选的实施方式还能够全连接层对向量处理结构输出的目标矩阵进行线性处理得到的多个分类结果对应的置信度中最高的目标置信度作为图文对语义匹配的置信度,从而使得模型训练样本的下游任务与全连接层的处理方式相匹配,提高了语义对齐模型获取图文对语义匹配的置信度的准确性和可靠性。
102、根据所有图文对的语义对齐结果和预先标注的所有图文对的实际匹配结果,判断语义对齐模型是否满足收敛条件。
作为一种可选的实施方式,根据所有图文对的语义对齐结果和预先标注的所有图文对的实际匹配结果,判断语义对齐模型是否满足收敛条件,可以包括:
根据每个图文对的语义对齐结果与预先标注的该图文对的实际匹配结果对应的目标置信度之间的差异度,计算语义对齐模型的预测损失值;
判断预测损失值是否小于预设的损失值阈值;
当判断结果为是时,确定语义对齐模型满足收敛条件,当判断结果为否时,确定语义对齐模型不满足收敛条件。
可见,实施该可选的实施方式能够根据图文对语义对齐的置信度与预先设定的目标置信度之间的差异度计算语义对齐模型的损失值,以判断语义对齐模型是否满足收敛条件,提高了判断语义对齐模型是否满足收敛条件的准确性和可靠性,进而提高语义对齐模型的训练结果与训练目的的匹配程度。
103、当步骤102的判断结果为否时,修正语义对齐模型的模型参数,并重新执行步骤101以及步骤102。
104、当步骤102的判断结果为是时,结束当前流程,得到满足收敛条件的图文语义对齐模型。
本发明实施例中,可选的,图文语义对齐模型可以用于预测任意文本对应的图像、任意图像对应的文本、任意图像和任意文本之间的匹配度中的一个或多个。
可见,实施本发明实施例能够通过若干个图文对训练语义对齐模型,得到可用于预测任意文本对应的图像、任意图像对应的文本、任意图像和文本之间的匹配度的图文语义对齐模型,不仅能够提高图文匹配的效率,还能够提高图文匹配方式的多样性。
在一个可选的实施例中,如图2所示,在由图像处理结构对每个图文对的样本图像进行特征提取操作,得到每个图文对的图像特征之后,由对齐结构对每个图文对的图像特征和文本特征拼接后得到的图文拼接特征进行分析,得到每个图文对的语义对齐结果之前,该方法还可以包括:
由全连接层对每个图文对的图像特征进行特征转换处理,以更新该图文对的图像特征,特征转换处理用于使每个图文对的图像特征对应的特征属性与该图文对的文本特征对应的特征属性相匹配,特征属性包括特征维度和/或特征空间;
其中,每个在前特征转换结构的输出结果为其在后相邻特征转换结构的输入内容。
在该可选的实施例中,优选的,语义对齐模型可以包括2个特征转换结构,第一个特征转换结构中的全连接层用于使每个图文对的图像特征对应的特征维度与该图文对的文本特征对应的特征维度相匹配,第二个特征转换结构中的全连接层用于使每个图文对的图像特征对应的特征空间与该图文对的文本特征对应的特征空间相匹配。
可见,实施该可选的实施例能够通过全连接层使得图文对的图像特征对应的特征属性与文本特征对应的特征属性相匹配,从而减少图像特征和文本特征之间的分布差异性,提高图像特征和文本特征拼接成功的可能性,并且通过在同一特征属性的前提下对比图像特征和文本特征,有利于进一步提高确定图文对的语义对齐结果的准确性和可靠性。
在该可选的实施例中,作为一种可选的实施方式,如图2所示,在由全连接层对每个图文对的图像特征进行特征转换处理,以更新该图文对的图像特征之后,该方法还可以包括:
由非线性处理层对每个图文对被全连接层处理后的图像特征进行非线性处理,以更新该图文对的图像特征。
在该可选的实施方式中,可选的,非线性处理层对每个图文对被全连接层处理后的图像特征进行非线性处理,以更新该图文对的图像特征,可以包括:
由非线性处理层基于预先设定的激活函数,对每个图文对被全连接层处理后的图像特征进行激活函数运算处理;
由非线性处理层基于预先设定的随机隐藏方式和随机隐藏概率,将每个图文对所对应的神经网络层中一个或多个输出神经元的值进行随机隐藏处理,以更新该图文对的图像特征,每个图文对所对应的神经网络包括该图文对被激活函数运算处理后得到的图像特征所对应的神经网络层。
在该可选的实施方式中,进一步可选的,非线性处理层基于预先设定的随机隐藏方式和随机隐藏概率,将每个图文对所对应的神经网络层中一个或多个输出神经元的值进行随机隐藏处理,以更新该图文对的图像特征,可以包括:
由非线性处理层基于预先设定的随机隐藏方式和随机隐藏概率,将每个图文对所对应的神经网络层中一个或多个输出神经元的值随机转变成0,以更新该图文对的图像特征。
在该可选的实施方式中,优选的,激活函数可以为GELU激活函数,随机隐藏方式可以为dropout隐藏方式,随机隐藏概率可以为0.2。
可见,实施该可选的实施方式通过激活函数对特征转换处理后的图像特征进行激活函数运算处理,从而能够在图像特征中引入非线性因素,进而有利于使得语义对齐模型具有解决非线性分类的能力,进一步提高语义对齐模型的图文匹配能力,此外,通过将激活函数运算处理后的图像特征所对应的神经网络层中的神经元的值进行随机隐藏,能够减少固定的神经元组合之间的依赖性,减少语义对齐模型训练过度拟合的情况发生,提高语义对齐模型的泛化能力。
在又一个可选的实施例中,如图2所示,语义对齐模型还可以包括拼接结构;
以及,在由对齐结构的向量处理结构对每个图文对的图像特征和文本特征拼接后得到的图文拼接特征进行向量转换处理,得到每个图文对所对应的目标矩阵之前,该方法还可以包括:
由拼接结构根据每个图文对的图像特征的特征维度以及文本特征的特征维度,拼接该图文对的图像特征和文本特征,得到每个图文对所对应的图文拼接特征。
举例来说,某一图文对的图像特征的特征维度为[64,768],文本特征的特征维度为[64,768],则拼接后所得到的图文拼接特征的特征维度为[64,1536]。
可见,实施该可选的实施例能够基于特征维度对图像特征和文本特征进行拼接,从而使得图文特征拼接过程中图像特征的每个特征维度与文本特征的每个特征维度一一对应拼接,进而提高了图文特征拼接的准确性和可靠性。
实施例二
请参阅图3,图3是本发明实施例公开的另一种图文语义对齐模型的构建方法的流程示意图。其中,图3所描述的图文语义对齐模型的构建方法可以应用于基于任意架构的图文语义对齐模型的构建流程中,本发明实施例不做限定。
如图3所示,该图文语义对齐模型的构建方法可以包括以下操作:
201、将预先确定出的若干个图文对输入待训练的语义对齐模型中,以使语义对齐模型对每个图文对进行分析,得到每个图文对的语义对齐结果。
202、根据每个图文对的语义对齐结果与预先标注的该图文对的实际匹配结果对应的目标置信度之间的差异度,计算语义对齐模型的预测损失值。
本发明实施例中,可选的,正例图文对的实际匹配结果为样本图像和样本文本相匹配的第一匹配结果,负例图文对的实际匹配结果为样本图像和样本文本不匹配的第二匹配结果。
本发明实施例中,可选的,对于正例图文对,当该图文对的图文语义匹配的置信度大于等于第一匹配结果对应的目标置信度时,该图文对的语义对齐结果与该图文对的实际匹配结果对应的目标置信度之间的差异度为0,对于负例图文对,当该图文对的图文语义匹配的置信度小于等于第二匹配结果对应的目标置信度时,该图文对的语义对齐结果与该图文对的实际匹配结果对应的目标置信度之间的差异度为0。例如,第一匹配结果对应的目标置信度为0.8,若某正例图文对的图文语义匹配的置信度为0.9,表明语义对齐模型准确预测该正例图文对的语义对齐结果,则该正例图文对的语义对齐结果与正例图文对的实际匹配结果的目标置信度之间的差异度为0。这样能够减少由于采用标签平滑方法而导致语义对齐模型确定出的图文对匹配的置信度与实际置信度偏离的情况发生。
作为一个可选的实施方式,根据每个图文对的语义对齐结果与预先标注的该图文对的实际匹配结果对应的目标置信度之间的差异度,计算语义对齐模型的预测损失值,可以包括:
根据二值交叉熵损失函数以及每个图文对的语义对齐结果与预先标注的该图文对的实际匹配结果对应的目标置信度之间的差异度,计算语义对齐模型的预测损失值。
可见,实施该可选的实施方式能够利用二值交叉熵损失函数计算语义对齐模型的预测损失值,从而将语义对齐模型看作基于两种类别的分类模型计算模型损失值,降低了计算语义对齐模型的预测损失值的难度以及提高了损失计算的准确性。
203、判断预测损失值是否小于预设的损失值阈值。
204、当步骤203的判断结果为否时,修正语义对齐模型的模型参数,并重新执行步骤201、步骤202以及步骤203。
205、当步骤202的判断结果为是时,结束当前流程,得到满足收敛条件的图文语义对齐模型。
本发明实施例中,针对步骤201、步骤204、步骤205的其他描述,请参照实施例一中针对步骤101、步骤103、步骤104的详细描述,本发明实施例不再赘述。
可见,实施本发明实施例能够通过若干个图文对训练语义对齐模型,得到可用于预测任意文本对应的图像、任意图像对应的文本、任意图像和文本之间的匹配度的图文语义对齐模型,不仅能够提高图文匹配的效率,还能够提高图文匹配方式的多样性,并且通过根据图文对语义对齐的置信度与预先设定的目标置信度之间的差异度计算语义对齐模型的损失值,以判断语义对齐模型是否满足收敛条件,提高了判断语义对齐模型是否满足收敛条件的准确性和可靠性,进而提高语义对齐模型的训练结果与训练目的的匹配程度。
在一个可选的实施例中,在根据每个图文对的语义对齐结果与预先标注的该图文对的实际匹配结果对应的目标置信度之间的差异度,计算语义对齐模型的预测损失值之前,该方法还可以包括:
根据预先设定的标签平滑系数,对每种实际匹配结果对应的初始置信度进行更新,得到每种实际匹配结果对应的目标置信度;
在该可选的实施例中,可选的,第一匹配结果对应的目标置信度以及第二匹配结果对应的目标置信度分别为:
P1=1-ε,
P2=ε/(N-1),
其中,P1用于表示第一匹配结果所对应的目标置信度,P2用于表示第二匹配结果所对应的目标置信度,ε用于表示标签平滑系数,N用于表示所有负例图文对的数量。
例如,第一匹配结果对应的初始置信度为1,第二匹配结果对应的初始置信度为2,若设定ε=0.2,则第一匹配结果对应的目标置信度P1=0.8,第二匹配结果对应的目标置信度P2=0.2/(N-1)。
在该可选的实施例中,每种实际匹配结果对应的目标置信度即该实际匹配结果对应的相似度标签。
可见,实施该可选的实施例通过利用标签平滑***对所需的目标置信度即相似度标签进行标签平滑处理,从而减少语义对齐模型训练过度拟合的情况发生,使得模型训练过程中能够采用语义不完全匹配的图文对以及不同子类之间存在相似性图文对作为训练样本,进而提高语义对齐模型的语义对齐其鲁棒性。
在另一个可选的实施例中,在判断预测损失值是否小于预设的损失值阈值之前,该方法还可以包括:
确定基于语义对齐模型确定出的每个图文对的目标图像特征和目标文本特征之间的相似度,作为该图文对所对应的相似度;
根据所有图文对所对应的相似度以及所有图文对的实际匹配结果,更新预测损失值。
可见,实施该可选的实施例通过将每个图文对的目标图像特征和目标文本特征之间的相似度作为计算语义对齐模型的损失值的一个因素,提高了计算模型损失的准确性和全面性,从而提高了语义对齐模型的语义对齐准确性。
在该可选的实施例中,作为一种可选的实施方式,根据所有图文对所对应的相似度以及所有图文对的实际匹配结果,更新预测损失值,可以包括:
根据余弦损失函数、所有图文对所对应的相似度以及所有图文对的实际匹配结果,计算语义对齐模型的余弦损失值;
根据余弦损失值,更新预测损失值。
可见,实施该可选的实施方式能够利用余弦损失函数计算图文对的语义对齐模型的余弦损失值,能够提高计算语义对齐模型的预测损失值的准确性和可靠性。
在该可选的实施例中,作为一种可选的实施方式,在确定每个图文对的目标图像特征和目标文本特征之间的相似度之前,该方法还可以包括:
对于每个图文对,根据在语义对齐模型分析该图文对的过程中语义对齐模型的向量处理结构的输入内容所对应的输入特征维度,将向量处理结构输出的该图文对所对应的目标矩阵切分为目标图像特征和目标文本特征,其中,输入内容包括语义对齐模型基于每个图文对的样本图像和样本文本确定出的图文拼接特征。
举例来说,对于某一图文对,语义对齐模型基于该图文对的样本图像确定出的图像特征对应的特征维度为[64,768],基于该图文对的样本文本确定出的文本特征对应的特征维度为[64,768],两者拼接后确定出的图文拼接特征对应的特征维度为[64,1536],作为输入向量处理结构输入内容所对应的输入特征维度,因此,将向量处理结构输入的该图文对所对应的目标矩阵切分得到的目标图像特征和目标文本特征对应的特征维度也为[64,768]。
可见,实施该可选的实施方式通过将向量处理结构输入的目标矩阵切分得到的目标图像特征和目标文本特征,能够使得训练得到的图文语义对齐模型可以直接应用待预测的图文对的图像特征和文本特征的相似度来进行语义对齐,减少了图文语义对齐模型实际应用过程中非必要的拼接操作,提高图文语义对齐模型的分析效率。
在又一个可选的实施例中,将预先确定出的若干个图文对输入待训练的语义对齐模型中,以使语义对齐模型对每个图文对进行分析,得到每个图文对的语义对齐结果,该方法还可以包括:
将预先准备的图文匹配的若干个正例图文对中任意正例图文对的样本图像与其他任意正例图文对的样本文本进行组合,得到若干个负例图文对;
将一个或多个正例图文对以及一个或多个负例图文对确定为用于训练待训练的语义对齐模型的图文对。
可见,实施该可选的实施例能够将多个正例图文对的样本图像和样本文本打乱重组来获取负例图文对,提高了获取负例图文对的效率以及数量。
实施例三
请参阅图4,图4是本发明实施例公开的另一种图文语义对齐模型的构建装置的结构示意图。其中,图4所描述的图文语义对齐模型的构建装置可以应用于基于任意架构的图文语义对齐模型的构建流程中,本发明实施例不做限定。
如图4所示,该图文语义对齐模型的构建装置可以包括:
输入模块301,用于将预先确定出的若干个图文对输入待训练的语义对齐模型中,以使语义对齐模型对每个图文对进行分析,得到每个图文对的语义对齐结果,每个图文对包括一个样本图像和一个样本文本,语义对齐结果用于表示相应图文对中样本图像和样本文本的匹配度;
判断模块302,用于根据所有图文对的语义对齐结果和预先标注的所有图文对的实际匹配结果,判断语义对齐模型是否满足收敛条件;
修正模块303,用于当判断模块302判断出语义对齐模型不满足收敛条件时,修正语义对齐模型的模型参数,并触发输入模块301重新执行上述的将预先确定出的若干个图文对输入待训练的语义对齐模型中,以使语义对齐模型对每个图文对进行分析,得到每个图文对的语义对齐结果的操作以及触发判断模块302执行上述的根据所有图文对的语义对齐结果和预先标注的所有图文对的实际匹配结果,判断语义对齐模型是否满足收敛条件的操作,直至得到满足收敛条件的图文语义对齐模型,图文语义对齐模型用于预测任意文本对应的图像、任意图像对应的文本、任意图像和任意文本之间的匹配度中的一个或多个。
可见,实施图4所描述的装置能够通过若干个图文对训练语义对齐模型,得到可用于预测任意文本对应的图像、任意图像对应的文本、任意图像和文本之间的匹配度的图文语义对齐模型,不仅能够提高图文匹配的效率,还能够提高图文匹配方式的多样性。
在一个可选的实施例中,如图4所示,语义对齐模型包括图像处理结构、文本处理结构以及对齐结构;
语义对齐模型对每个图文对进行分析,得到每个图文对的语义对齐结果的具体方式可以包括:
由图像处理结构对每个图文对的样本图像进行特征提取操作,得到每个图文对的图像特征,并由文本处理结构对每个图文对的样本文本进行特征提取操作,得到每个图文对的文本特征;
由对齐结构对每个图文对的图像特征和文本特征拼接后得到的图文拼接特征进行分析,得到每个图文对的语义对齐结果。
可见,实施图4所描述的装置还能够分别提取图文对中样本图像的图像特征和样本文本的文本特征,并对图文特征和文本特征拼接后得到的拼接结果进行分析得到语义对齐结果,从而增加图文特征的维度,提高了语义对齐模型的神经网络复杂度,从而有利于提高训练图文语义对齐模型的准确性和可靠性。
在另一个可选的实施例中,如图4所示,语义对齐模型还包括一个或多个特征转换结构,每个特征转换结构至少包括全连接层;
全连接层,用于在图像处理结构对每个图文对的样本图像进行特征提取操作,得到每个图文对的图像特征之后,对齐结构对每个图文对的图像特征和文本特征拼接后得到的图文拼接特征进行分析,得到每个图文对的语义对齐结果之前,对每个图文对的图像特征进行特征转换处理,以更新该图文对的图像特征,特征转换处理用于使每个图文对的图像特征对应的特征属性与该图文对的文本特征对应的特征属性相匹配,特征属性包括特征维度和/或特征空间;
其中,每个在前特征转换结构的输出结果为其在后相邻特征转换结构的输入内容。
可见,实施图4所描述的装置还能够通过全连接层使得图文对的图像特征对应的特征属性与文本特征对应的特征属性相匹配,从而减少图像特征和文本特征之间的分布差异性,提高图像特征和文本特征拼接成功的可能性,并且通过在同一特征属性的前提下对比图像特征和文本特征,有利于进一步提高确定图文对的语义对齐结果的准确性和可靠性。
在又一个可选的实施例中,如图4所示,每个特征转换结构还包括非线性处理层;
非线性处理层,用于在全连接层对每个图文对的图像特征进行特征转换处理,以更新该图文对的图像特征之后,对每个图文对被全连接层处理后的图像特征进行非线性处理,以更新该图文对的图像特征;
其中,非线性处理层对每个图文对被全连接层处理后的图像特征进行非线性处理,以更新该图文对的图像特征的具体方式包括:
非线性处理层基于预先设定的激活函数,对每个图文对被全连接层处理后的图像特征进行激活函数运算处理;
非线性处理层基于预先设定的随机隐藏方式和随机隐藏概率,将每个图文对所对应的神经网络层中一个或多个输出神经元的值进行随机隐藏处理,以更新该图文对的图像特征,每个图文对所对应的神经网络包括该图文对被激活函数运算处理后得到的图像特征所对应的神经网络层。
可见,实施图4所描述的装置还能够利用激活函数对特征转换处理后的图像特征进行激活函数运算处理,从而能够在图像特征中引入非线性因素,进而有利于使得语义对齐模型具有解决非线性分类的能力,进一步提高语义对齐模型的图文匹配能力,此外,通过将激活函数运算处理后的图像特征所对应的神经网络层中的神经元的值进行随机隐藏,能够减少固定的神经元组合之间的依赖性,减少语义对齐模型训练过度拟合的情况发生,提高语义对齐模型的泛化能力。
在又一个可选的实施例中,如图4所示,对齐结构对每个图文对的图像特征和文本特征拼接后得到的图文拼接特征进行分析,得到每个图文对的语义对齐结果的具体方式可以包括:
由对齐结构的向量处理结构对每个图文对的图像特征和文本特征拼接后得到的图文拼接特征进行向量转换处理,得到每个图文对所对应的目标矩阵;
由对齐结构的全连接层对每个图文对所对应的目标矩阵进行处理,得到该图文对的样本图像的语义和样本文本的语义相匹配的置信度,作为该图文对的语义对齐结果。
可见,实施图4所描述的装置还能够利用向量处理结构对图像特征和文本特征的语义进行理解,并通过全连接层来确定出图文对的图文匹配的置信度,提高了通过语义对齐模型确定图文对的语义对齐结果的效率和准确性。
在又一个可选的实施例中,如图4所示,每个图文对的语义对齐结果包括该图文对的样本图像的语义和样本文本的语义相匹配的置信度;
判断模块302根据所有图文对的语义对齐结果和预先标注的所有图文对的实际匹配结果,判断语义对齐模型是否满足收敛条件的具体方式可以包括:
根据每个图文对的语义对齐结果与预先标注的该图文对的实际匹配结果对应的目标置信度之间的差异度,计算语义对齐模型的预测损失值;
判断预测损失值是否小于预设的损失值阈值;
当判断结果为是时,确定语义对齐模型满足收敛条件,当判断结果为否时,确定语义对齐模型不满足收敛条件。
可见,实施该可选的实施例能够根据图文对语义对齐的置信度与预先设定的目标置信度之间的差异度计算语义对齐模型的损失值,以判断语义对齐模型是否满足收敛条件,提高了判断语义对齐模型是否满足收敛条件的准确性和可靠性,进而提高语义对齐模型的训练结果与训练目的的匹配程度。
在又一个可选的实施例中,如图5所示,所有图文对包括至少一个正例图文对和/或至少一个负例图文对,正例图文对的实际匹配结果为样本图像和样本文本相匹配的第一匹配结果,负例图文对的实际匹配结果为样本图像和样本文本不匹配的第二匹配结果;
该装置还可以包括:
第一更新模块304,用于在判断模块302根据每个图文对的语义对齐结果与预先标注的该图文对的实际匹配结果对应的目标置信度之间的差异度,计算语义对齐模型的预测损失值之前,根据预先设定的标签平滑系数,对每种实际匹配结果对应的初始置信度进行更新,得到每种实际匹配结果对应的目标置信度;
其中,第一匹配结果对应的目标置信度以及第二匹配结果对应的目标置信度分别为:
P1=1-ε,
P2=ε/(N-1),
其中,P1用于表示第一匹配结果所对应的目标置信度,P2用于表示第二匹配结果所对应的目标置信度,ε用于表示标签平滑系数,N用于表示所有负例图文对的数量。
可见,实施图5所描述的装置能够利用标签平滑***对所需的目标置信度即相似度标签进行标签平滑处理,从而减少语义对齐模型训练过度拟合的情况发生,使得模型训练过程中能够采用语义不完全匹配的图文对以及不同子类之间存在相似性图文对作为训练样本,进而提高语义对齐模型的语义对齐其鲁棒性。
在又一个可选的实施例中,如图5所示,该装置还可以包括:
确定模块305,用于在判断模块302判断预测损失值是否小于预设的损失值阈值之前,确定基于语义对齐模型确定出的每个图文对的目标图像特征和目标文本特征之间的相似度,作为该图文对所对应的相似度;
第二更新模块306,用于根据所有图文对所对应的相似度以及所有图文对的实际匹配结果,更新预测损失值;
以及,该装置还可以包括:
特征切分模块307,用于对于每个图文对,根据在语义对齐模型分析该图文对的过程中语义对齐模型的向量处理结构的输入内容所对应的输入特征维度,将向量处理结构输出的该图文对所对应的目标矩阵切分为目标图像特征和目标文本特征,其中,输入内容包括语义对齐模型基于每个图文对的样本图像和样本文本确定出的图文拼接特征。
可见,实施图5所描述的装置还能够将向量处理结构输入的目标矩阵切分得到的目标图像特征和目标文本特征之间的相似度作为计算语义对齐模型的损失值的一个因素,提高了计算模型损失的准确性和全面性,从而提高了语义对齐模型的语义对齐准确性,并且能够使得训练得到的图文语义对齐模型直接应用图文对的图像特征和文本特征的相似度来进行语义对齐,减少了图文语义对齐模型实际应用过程中非必要的拼接操作,提高图文语义对齐模型的分析效率。
实施例四
请参阅图6,图6是本发明实施例公开的又一种图文语义对齐模型的构建装置的结构示意图。如图6所示,该图文语义对齐模型的构建装置可以包括:
存储有可执行程序代码的存储器401;
与存储器401耦合的处理器402;
处理器402调用存储器401中存储的可执行程序代码,执行本发明实施例一或本发明实施例二所描述的图文语义对齐模型的构建方法中的步骤。
实施例五
本发明实施例公开了一种计算机存储介质,该计算机存储介质存储有计算机指令,该计算机指令被调用时,用于执行本发明实施例一或本发明实施例二所描述的图文语义对齐模型的构建方法中的步骤。
实施例六
本发明实施例公开了一种计算机程序产品,该计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,且该计算机程序可操作来使计算机执行实施例一或实施例二中所描述的图文语义对齐模型的构建方法中的步骤。
以上所描述的装置实施例仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施例的具体描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
最后应说明的是:本发明实施例公开的一种图文语义对齐模型的构建方法及装置所揭露的仅为本发明较佳实施例而已,仅用于说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解;其依然可以对前述各项实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或替换,并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims (10)

1.一种图文语义对齐模型的构建方法,其特征在于,所述方法包括:
将预先确定出的若干个图文对输入待训练的语义对齐模型中,以使所述语义对齐模型对每个所述图文对进行分析,得到每个所述图文对的语义对齐结果,每个所述图文对包括一个样本图像和一个样本文本,所述语义对齐结果用于表示相应图文对中样本图像和样本文本的匹配度;
根据所有所述图文对的语义对齐结果和预先标注的所有所述图文对的实际匹配结果,判断所述语义对齐模型是否满足收敛条件;
当判断结果为否时,修正所述语义对齐模型的模型参数,并重新执行所述的将预先确定出的若干个图文对输入待训练的语义对齐模型中,以使所述语义对齐模型对每个所述图文对进行分析,得到每个所述图文对的语义对齐结果的操作以及执行所述的根据所有所述图文对的语义对齐结果和预先标注的所有所述图文对的实际匹配结果,判断所述语义对齐模型是否满足收敛条件的操作,直至得到满足所述收敛条件的图文语义对齐模型,所述图文语义对齐模型用于预测任意文本对应的图像、任意图像对应的文本、任意图像和任意文本之间的匹配度中的一个或多个。
2.根据权利要求1所述的图文语义对齐模型的构建方法,其特征在于,所述语义对齐模型包括图像处理结构、文本处理结构以及对齐结构;
所述语义对齐模型对每个所述图文对进行分析,得到每个所述图文对的语义对齐结果,包括:
由所述图像处理结构对每个所述图文对的样本图像进行特征提取操作,得到每个所述图文对的图像特征,并由所述文本处理结构对每个所述图文对的样本文本进行特征提取操作,得到每个所述图文对的文本特征;
由所述对齐结构对每个所述图文对的图像特征和文本特征拼接后得到的图文拼接特征进行分析,得到每个所述图文对的语义对齐结果。
3.根据权利要求2所述的图文语义对齐模型的构建方法,其特征在于,所述语义对齐模型还包括一个或多个特征转换结构,每个所述特征转换结构至少包括全连接层;
在所述由所述图像处理结构对每个所述图文对的样本图像进行特征提取操作,得到每个所述图文对的图像特征之后,所述由所述对齐结构对每个所述图文对的图像特征和文本特征拼接后得到的图文拼接特征进行分析,得到每个所述图文对的语义对齐结果之前,所述方法还包括:
由所述全连接层对每个所述图文对的图像特征进行特征转换处理,以更新该图文对的图像特征,所述特征转换处理用于使每个所述图文对的图像特征对应的特征属性与该图文对的文本特征对应的特征属性相匹配,所述特征属性包括特征维度和/或特征空间;
其中,每个在前特征转换结构的输出结果为其在后相邻特征转换结构的输入内容。
4.根据权利要求3所述的图文语义对齐模型的构建方法,其特征在于,每个所述特征转换结构还包括非线性处理层;
以及,在所述由所述全连接层对每个所述图文对的图像特征进行特征转换处理,以更新该图文对的图像特征之后,所述方法还包括:
由所述非线性处理层对每个所述图文对被所述全连接层处理后的图像特征进行非线性处理,以更新该图文对的图像特征;
其中,所述非线性处理层对每个所述图文对被所述全连接层处理后的图像特征进行非线性处理,以更新该图文对的图像特征,包括:
由所述非线性处理层基于预先设定的激活函数,对每个所述图文对被所述全连接层处理后的图像特征进行激活函数运算处理;
由所述非线性处理层基于预先设定的随机隐藏方式和随机隐藏概率,将每个所述图文对所对应的神经网络层中一个或多个输出神经元的值进行随机隐藏处理,以更新该图文对的图像特征,每个所述图文对所对应的神经网络包括该图文对被所述激活函数运算处理后得到的图像特征所对应的神经网络层。
5.根据权利要求2-4中任一项所述的图文语义对齐模型的构建方法,其特征在于,所述对齐结构对每个所述图文对的图像特征和文本特征拼接后得到的图文拼接特征进行分析,得到每个所述图文对的语义对齐结果,包括:
由所述对齐结构的向量处理结构对每个所述图文对的图像特征和文本特征拼接后得到的图文拼接特征进行向量转换处理,得到每个所述图文对所对应的目标矩阵;
由所述对齐结构的全连接层对每个所述图文对所对应的目标矩阵进行处理,得到该图文对的样本图像的语义和样本文本的语义相匹配的置信度,作为该图文对的语义对齐结果。
6.根据权利要求1-4中任一项所述的图文语义对齐模型的构建方法,其特征在于,每个所述图文对的语义对齐结果包括该图文对的样本图像的语义和样本文本的语义相匹配的置信度;
所述根据所有所述图文对的语义对齐结果和预先标注的所有所述图文对的实际匹配结果,判断所述语义对齐模型是否满足收敛条件,包括:
根据每个所述图文对的语义对齐结果与预先标注的该图文对的实际匹配结果对应的目标置信度之间的差异度,计算所述语义对齐模型的预测损失值;
判断所述预测损失值是否小于预设的损失值阈值;
当判断结果为是时,确定所述语义对齐模型满足收敛条件,当判断结果为否时,确定所述语义对齐模型不满足收敛条件。
7.根据权利要求6所述的图文语义对齐模型的构建方法,其特征在于,所有所述图文对包括至少一个正例图文对和/或至少一个负例图文对,所述正例图文对的实际匹配结果为所述样本图像和所述样本文本相匹配的第一匹配结果,所述负例图文对的实际匹配结果为所述样本图像和所述样本文本不匹配的第二匹配结果;
在所述根据每个所述图文对的语义对齐结果与预先标注的该图文对的实际匹配结果对应的目标置信度之间的差异度,计算所述语义对齐模型的预测损失值之前,所述方法还包括:
根据预先设定的标签平滑系数,对每种所述实际匹配结果对应的初始置信度进行更新,得到每种实际匹配结果对应的目标置信度;
其中,所述第一匹配结果对应的目标置信度以及所述第二匹配结果对应的目标置信度分别为:
P1=1-ε,
P2=ε/(N-1),
其中,P1用于表示所述第一匹配结果所对应的目标置信度,P2用于表示所述第二匹配结果所对应的目标置信度,ε用于表示标签平滑系数,N用于表示所有所述负例图文对的数量。
8.根据权利要求6所述的图文语义对齐模型的构建方法,其特征在于,在所述判断所述预测损失值是否小于预设的损失值阈值之前,所述方法还包括:
确定基于所述语义对齐模型确定出的每个所述图文对的目标图像特征和目标文本特征之间的相似度,作为该图文对所对应的相似度;
根据所有所述图文对所对应的相似度以及所有所述图文对的实际匹配结果,更新所述预测损失值;
以及,在所述确定每个所述图文对的目标图像特征和目标文本特征之间的相似度之前,所述方法还包括:
对于每个所述图文对,根据在所述语义对齐模型分析该图文对的过程中所述语义对齐模型的向量处理结构的输入内容所对应的输入特征维度,将所述向量处理结构输出的该图文对所对应的目标矩阵切分为目标图像特征和目标文本特征,其中,所述输入内容包括所述语义对齐模型基于每个所述图文对的样本图像和样本文本确定出的图文拼接特征。
9.一种图文语义对齐模型的构建装置,其特征在于,所述装置包括:
输入模块,用于将预先确定出的若干个图文对输入待训练的语义对齐模型中,以使所述语义对齐模型对每个所述图文对进行分析,得到每个所述图文对的语义对齐结果,每个所述图文对包括一个样本图像和一个样本文本,所述语义对齐结果用于表示相应图文对中样本图像和样本文本的匹配度;
判断模块,用于根据所有所述图文对的语义对齐结果和预先标注的所有所述图文对的实际匹配结果,判断所述语义对齐模型是否满足收敛条件;
修正模块,用于当所述判断模块判断出所述语义对齐模型不满足所述收敛条件时,修正所述语义对齐模型的模型参数,并触发所述输入模块重新执行所述的将预先确定出的若干个图文对输入待训练的语义对齐模型中,以使所述语义对齐模型对每个所述图文对进行分析,得到每个所述图文对的语义对齐结果的操作以及触发所述判断模块执行所述的根据所有所述图文对的语义对齐结果和预先标注的所有所述图文对的实际匹配结果,判断所述语义对齐模型是否满足收敛条件的操作,直至得到满足所述收敛条件的图文语义对齐模型,所述图文语义对齐模型用于预测任意文本对应的图像、任意图像对应的文本、任意图像和任意文本之间的匹配度中的一个或多个。
10.一种图文语义对齐模型的构建装置,其特征在于,所述装置包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行如权利要求1-8任一项所述的图文语义对齐模型的构建方法。
CN202211108881.XA 2022-09-13 2022-09-13 一种图文语义对齐模型的构建方法及装置 Pending CN115455225A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211108881.XA CN115455225A (zh) 2022-09-13 2022-09-13 一种图文语义对齐模型的构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211108881.XA CN115455225A (zh) 2022-09-13 2022-09-13 一种图文语义对齐模型的构建方法及装置

Publications (1)

Publication Number Publication Date
CN115455225A true CN115455225A (zh) 2022-12-09

Family

ID=84303130

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211108881.XA Pending CN115455225A (zh) 2022-09-13 2022-09-13 一种图文语义对齐模型的构建方法及装置

Country Status (1)

Country Link
CN (1) CN115455225A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115860587A (zh) * 2023-03-02 2023-03-28 广州市玄武无线科技股份有限公司 基于图文匹配的拜访考核方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115860587A (zh) * 2023-03-02 2023-03-28 广州市玄武无线科技股份有限公司 基于图文匹配的拜访考核方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN112492343A (zh) 一种视频直播监控方法及相关装置
CN107832300A (zh) 面向微创医疗领域文本摘要生成方法及装置
CN113596007A (zh) 一种基于深度学习的漏洞攻击检测方法和设备
CN110399472B (zh) 面试提问提示方法、装置、计算机设备及存储介质
CN112086087B (zh) 语音识别模型训练方法、语音识别方法及装置
CN112257437A (zh) 语音识别纠错方法、装置、电子设备和存储介质
EP4191544A1 (en) Method and apparatus for recognizing token, electronic device and storage medium
CN115495553A (zh) 查询文本排序方法、装置、计算机设备及存储介质
CN115455225A (zh) 一种图文语义对齐模型的构建方法及装置
CN112215236A (zh) 文本识别方法、装置、电子设备及存储介质
CN115357699A (zh) 文本抽取方法、装置、设备及存储介质
CN113268985B (zh) 基于关系路径的远程监督关系抽取方法、装置及介质
CN117251559B (zh) 基于自然语言大模型的工程标准规范获取方法及***
CN113268588A (zh) 文本摘要提取方法、装置、设备、存储介质及程序产品
CN116644183B (zh) 文本分类方法、装置及存储介质
CN112766051A (zh) 基于Attention的图像文字识别方法及装置
CN116306663B (zh) 语义角色标注方法、装置、设备以及介质
CN116680385A (zh) 基于人工智能的对话问答方法、装置、计算机设备及介质
CN115909381A (zh) 一种文本图像识别方法、***及相关装置
CN115238124A (zh) 视频人物检索方法、装置、设备和存储介质
CN115828848A (zh) 字体生成模型的训练方法、装置、设备及存储介质
CN113157880A (zh) 一种要素内容获取方法、装置、设备及存储介质
CN115292455B (zh) 图文匹配模型的训练方法及装置
CN115100419B (zh) 目标检测方法、装置、电子设备及存储介质
CN114328883B (zh) 一种机器阅读理解的数据处理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination