CN107480194A

CN107480194A - 多模态知识表示自动学习模型的构建方法及***

Info

Publication number: CN107480194A
Application number: CN201710570848.1A
Authority: CN
Inventors: 徐常胜; 鲍秉坤
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2017-07-13
Filing date: 2017-07-13
Publication date: 2017-12-15
Anticipated expiration: 2037-07-13
Also published as: CN107480194B

Abstract

本发明涉及一种多模态知识表示自动学习模型的构建方法及***，所述构建方法包括：从互联网的数据中挖掘出结构化的文本集；从互联网的数据中挖掘出结构化的图片集；根据所述结构化的文本集和图片集，构建统一特征空间的自动学习模型，用于确定多模态待检测信息的知识向量。本发明多模态知识表示自动学习模型的构建方法通过从互联网的数据中挖掘结构化的文本集和图片集，进而构建统一特征空间的自动学习模型，从而能够快速实现对多模态待检测信息的知识向量的分析检索，可提高准确度高和识别效率。

Description

多模态知识表示自动学习模型的构建方法及***

技术领域

本发明涉及网络信息处理技术领域，更具体地，涉及一种多模态知识表示自动学习模型的构建方法及***。

背景技术

海量互联网数据中蕴含着大量的知识，人们理解数据的基本单元也是知识，例如，给定一句文本“猫和狗在厨房里嬉闹”实际包含“猫在厨房”、“狗在厨房”、“猫狗在嬉闹”三个知识。在信息检索领域需要将数据转变为向量才能被计算机处理，而知识表示学习的目的就是通过训练学习的方法将知识转化为有鲁棒性和具有区分性的向量表示。

传统的知识表示学习技术致力于结构化的三元组文本表示，即将<主，谓，宾>三元组结构表示为向量。这类方法最大的缺点在于具有<主，谓，宾>三元组结构的数据需要大量人员进行手工标注。

近年来，也有一些工作开始研究图像的知识化表示，一幅图像可能包含多个物体且这些物体两两之间可能会具有一些空间或者其他交互信息，例如“人在骑马”，“狗躺在沙发上”，图像的知识化的表示的目的是将同时包含两个物体的区域表示为特征向量。这类方法的缺点在于需要大量人工精确标注每一幅图片中各个物体所在的位置与物体两两之间的关系，这种对于图像的结构化的标注是极其费时费力的，现在最大的可用于图像知识表示学习的数据库Visual Genome也仅仅含有完整标注的数千张图片。

此外，现在的知识表示学习方法的显著缺陷在于其没有考虑多模态信息，而网络数据中的很多知识是以多种模态形式呈现给用户，例如一句文本“一个男人在骑马”向用户表达了一个知识，但同时网络有很多图片可以表达和这个文本相同的知识，将这两种模态的知识进行统一表达将有助于更加精准的跨模态信息检索任务。现有的方法没有对这一情况进行***的研究，导致多模态信息识别的准确度较低、识别效率差。

发明内容

为了解决现有技术中的上述问题，即为了解决多模态信息识别的准确度较低、识别效率差，本发明提供了一种多模态知识表示自动学习模型的构建方法及***。

一种多模态知识表示自动学习模型的构建方法，所述构建方法包括：

从互联网的数据中挖掘出结构化的文本集；

从互联网的数据中挖掘出结构化的图片集；

根据所述结构化的文本集和图片集，构建统一特征空间的自动学习模型，用于确定多模态待检测信息的知识向量。

可选的，所述从互联网的文本数据中挖掘出结构化的文本集，具体包括：

利用信息抽取工具，将互联网的文本数据转换为结构化表示，确定候选结构化文本集；

利用词典数据库，对所述候选结构化文本集进行初次过滤，删除不包含属于实体的结构化文本数据，获得初滤结构化文本集；

利用文本搜索引擎，对所述初滤结构化文本集进行二次过滤，获得结构化文本集。

可选的，所述利用文本搜索引擎，对所述初滤结构化文本集进行二次过滤，具体包括：

将所述初滤结构化文本集中的各结构化文本数据连接成句子；

将各所述句子分别输入至搜索引擎中进行搜索，如果返回相关网页，则保留所述句子对应的结构化文本数据；否则，删除所述句子对应的结构化文本数据，保留的各结构化文本数据形成结构化文本集。

可选的，所述从互联网的图片数据中挖掘出结构化的图片集，具体包括：

根据所述结构化的文本集，采用图片搜索引擎从互联网的图片数据中获得候选结构化图片数据集；

根据结构化图片的可表示力，删除所述候选结构化图片数据集中无效图片，获得初滤结构化图片数据集；

对所述初滤结构化图片数据集进行噪声过滤，获得结构化的图片集。

可选的，所述根据结构化图片的可表示力，删除所述候选结构化图片数据集中无效图片，具体包括：

根据以下公式确定图片组V_i的可表示力φ(V_i)：

其中，每一个结构化文本S_i具有表示相同知识的一组图片记为V_i,i是索引号，图片组V_i中含有N_i张图片，Cent(V_i)是第i组图片的中心，dist(k,Cent(V_i))表示第i组图片组V_i中图片k和中心Cent(V_i)之间的距离；

判断所述图片组V_i的可表示力φ(V_i)是否大于可表示力阈值，如果大于，则可表示力对应的图片组为无效，删除无效图片组；否则保留对应的图片组；保留的各图片组形成初滤结构化图片数据集。

可选的，所述对所述初滤结构化图片数据集进行噪声过滤，具体包括：

根据以下公式，计算图片组V_i中图片k的噪声分数S_noisy(k)：

其中，j表示图片组V_i中的图片，dist(k,j)表示第i组图片组V_i中图片k和图片j之间的距离；

判断所述噪声分数是否大于噪声阈值，如果大于，则删除对应噪声分数图片组中的图片；否则保留，保留下的图片组形成结构化的图片集。

可选的根据以下公式确定第i组图片组V_i中图片k和图片j之间的距离dist(k,j)：

其中，*表示共轭运算，表示点积，F表示一维离散傅里叶变换，F^-1是其逆变换，λ是正则因子项，X_k表示图片k采用传统词袋模型和空间金字塔匹配模型的特征向量，X_j表示图片j采用传统词袋模型和空间金字塔匹配模型的特征向量。

可选的所述根据所述结构化的文本集和图片集，构建统一特征空间的自动学习模型，具体包括：

根据所述结构化的图片集中的各图片信息学习结构化文本的知识表示，确定第一优化目标函数；

根据所述结构化的文本集中的各结构化文本表示学习图片的知识表示，确定第二优化目标函数；

根据所述学习图片的知识表示与所述总体优化目标函数进行迭代确定自动学习模型。

可选的，所述确定第一优化目标函数，具体包括：

计算结构化文本S_i的优化函数：

一个结构化文本S_i中的种子文本与对应的结构化图片组V_i相似的图片组所对应的结构化文本全部被视为相似结构化文本否则将被视为不相似结构化文本

将结构化文本S_i的知识表示记为h(S_i)，所有的文本知识表示应满足下式：

其中，α是控制相似与不相似之间的阈值超参数；

根据以下公式确定对于结构化文本S_i的优化函数：

其中，每次训练时送入网络一个三元组

根据以下公式确定结构化文本S_i的分类损失函数：

其中，W和b分别表示分类层的需要参数，其中，C表示三元组对的数量，b_ya、b_yp、b_yn、b_c、分别表示种子文本相似结构化文本不相似结构化文本对应网络模型的权重与偏置参数；

根据所述结构化文本S_i的优化函数及分类损失函数，确定第一优化目标函数：

可选的，所述根据所述结构化的文本集中的各结构化文本表示学习图片的知识表示，具体包括：

将结构化文本的知识表示向量作为监督信号，利用深度脊回归算法学习图片的知识表示学习模型，确认第二目标函数：

其中，N_j是第j组图片组中图片的个数，K表示训练集中总的结构化多模态数据的个数，Ii_j表示第j组的第i幅图片、g(Ii_j)表示其对应的由网络提取的图片语义特征、λ||W||²是正则项，h(S_j)表示结构化文本S_j的知识表示记。

可选的，所述根据所述学习图片的知识表示与所述总体优化目标函数进行迭代确定自动学习模型，具体包括：

根据所述第二优化目标函数确定三元组；

将所述三元组代入到所述第一优化目标函数中进行迭代运算；

当所述第一优化目标函数和第二目标函数得到最优解，得到所述自动学习模型。

根据本发明的实施例，本发明公开了以下技术效果：

本发明多模态知识表示自动学习模型的构建方法通过从互联网的数据中挖掘结构化的文本集和图片集，进而构建统一特征空间的自动学习模型，从而能够快速实现对多模态待检测信息的知识向量的分析检索，可提高准确度高和识别效率。

实现上述目的，本发明还提供了如下方案：

一种多模态知识表示自动学习模型的构建***，所述构建***包括：

第一挖掘单元，用于从互联网的数据中挖掘出结构化的文本集；

第二挖掘单元，从互联网的数据中挖掘出结构化的图片集；

建模单元，用于根据所述结构化的文本集和图片集，构建统一特征空间的自动学习模型，用于确定多模态待检测信息的知识向量。

根据本发明的实施例，本发明公开了以下技术效果：

本发明多模态知识表示自动学习模型的构建***通过第一挖掘单元、第二挖掘单元，从互联网的数据中挖掘结构化的文本集和图片集，进而通过建模单元构建统一特征空间的自动学习模型，从而能够快速实现对多模态待检测信息的知识向量的分析检索，可提高准确度高和识别效率。

附图说明

图1是本发明多模态知识表示自动学习模型的构建方法的流程图；

图2是本发明多模态知识表示自动学习模型的构建***的模块结构示意图。

符号说明：

第一挖掘单元—1，第二挖掘单元—2，建模单元—3。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

本发明提供了一种多模态知识表示自动学习模型的构建方法，通过从互联网的数据中挖掘结构化的文本集和图片集，进而构建统一特征空间的自动学习模型，从而能够快速实现对多模态待检测信息的知识向量的分析检索，可提高准确度高和识别效率。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明多模态知识表示自动学习模型的构建方法包括：

步骤100：从互联网的数据中挖掘出结构化的文本集；

步骤200：从互联网的数据中挖掘出结构化的图片集；

步骤300：根据所述结构化的文本集和图片集，构建统一特征空间的自动学习模型，用于确定多模态待检测信息的知识向量。

其中，在步骤100中，所述从互联网的文本数据中挖掘出结构化的文本集，具体包括：

步骤101：利用信息抽取工具，将互联网的文本数据转换为结构化表示，确定候选结构化文本集。

其中，所述候选结构化文本集中包括多个结构化文本，所述结构化文本由<主，谓，宾>组成。本发明以挖掘结构化文本数据为切入点，对于互联网上的大规模的文本数据，利用现有的信息抽取工具将原始文本转换为结构化的表示，如<人，骑，马>，<男人，在上面，自行车>等主谓宾形式。

步骤102：利用词典数据库，对所述候选结构化文本集进行初次过滤，删除不包含属于实体的结构化文本数据，获得初滤结构化文本集。

在步骤101中获得的候选结构化文本集中有许多无法用图片表示，例如<奥巴马，前总统，美国>这一结构化文本中，“前总统”和“美国”都无法用图片表示。本发明利用词典数据库对步骤101生成的结构化文本进行过滤，本发明通过大量实验统计发现仅当实体属于词典中特定一些类别时才可能被图片无歧义的进行表示，如“animal(动物)”“person(人)”、“plant(植物)”、“artifact(人工制品)”、“natural object(自然物体)”、“substance(物质)”、“body(身体)”、“food(食物)”、“group(团体)”等。因此，本发明将根据词典数据库删除包含不属于这些实体的结构化文本数据。

步骤103：利用文本搜索引擎，对所述初滤结构化文本集进行二次过滤，获得结构化文本集。

其中，所述利用文本搜索引擎，对所述初滤结构化文本集进行二次过滤，具体包括：

步骤1031：将所述初滤结构化文本集中的各结构化文本数据连接成句子；

步骤1032：将各所述句子分别输入至搜索引擎中进行搜索，如果返回相关网页，则保留所述句子对应的结构化文本数据；否则，删除所述句子对应的结构化文本数据，保留的各结构化文本数据形成结构化文本集。

由于在步骤101中采用的信息抽取工具的缺陷，一些候选结构化文本数据是错误的或者不符合逻辑的，例如<一栋大房子，凝视，羊群>。本发明利用文本搜索引擎过滤这些错误或者不和逻辑的结构化文本数据。具体地说，本发明将结构化的文本数据连接成一句话送入搜索引擎进行搜索，如果返回相关网页则保留此结构化文本，否则将其删除。

其中，在步骤200中，所述从互联网的图片数据中挖掘出结构化的图片集，具体包括：

步骤201：根据所述结构化的文本集，采用图片搜索引擎从互联网的图片数据中获得候选结构化图片数据集。

通过步骤100，可以获得大量的有意义的结构化文本数据，但是仍然没有结构化图片信息。为了获得与结构化文本相对应的结构化信息，本发明采用图片搜索引擎获得候选结构化图片数据。具体地说，每一个候选结构化文本都被送入到图片搜索引擎，返回的前50张图片作为候选结构化图片集。

步骤202：根据结构化图片的可表示力，删除所述候选结构化图片数据集中无效图片，获得初滤结构化图片数据集。

其中，所述根据结构化图片的可表示力，删除所述候选结构化图片数据集中无效图片，具体包括：

步骤2021：根据公式(1)确定图片组V_i的可表示力φ(V_i)：

其中，每一个结构化文本S_i具有表示相同知识的一组图片记为V_i,i是索引号，图片组V_i中含有N_i张图片，Cent(V_i)是第i组图片的中心，dist(k,Cent(V_i))表示第i组图片组V_i中图片k和中心Cent(V_i)之间的距离。

本发明采用迁移学习的思想获得图片特征提取器，这里我们首先使用仅包含单物体标注的数据集预训练一个深度残差网络作为图片的特征提取器的初始网络，由于预训练数据集中的图片仅包含一个物体，而我们的数据集中包含至少两个主要物体，因此我们采用具有多物体标签的数据集微调我们的图片特征提取网络，距离dist(k,Cent(V_i))度量采用欧式距离计算方法确定。

步骤2022：判断所述图片组V_i的可表示力φ(V_i)是否大于可表示力阈值，如果大于，则可表示力对应的图片组为无效，删除无效图片组；否则保留对应的图片组；保留的各图片组形成初滤结构化图片数据集。

步骤203：对所述初滤结构化图片数据集进行噪声过滤，获得结构化的图片集。

其中，所述对所述初滤结构化图片数据集进行噪声过滤，具体包括：

步骤2031：根据公式(2)，计算图片组V_i中图片k的噪声分数S_noisy(k)：

其中，j表示图片组V_i中的图片，dist(k,j)表示第i组图片组V_i中图片k和图片j之间的距离。

第i组图片组V_i中图片k和图片j之间的距离dist(k,j)可采用采用欧式距离计算方法确定，也可采用公式(3)确定

步骤2032：判断所述噪声分数是否大于噪声阈值，如果大于，则删除对应噪声分数图片组中的图片；否则保留，保留下的图片组形成结构化的图片集。

在步骤300中，所述根据所述结构化的文本集和图片集，构建统一特征空间的自动学习模型，具体包括：

步骤301：根据所述结构化的图片集中的各图片信息学习结构化文本的知识表示，确定第一优化目标函数。

步骤302：根据所述结构化的文本集中的各结构化文本表示学习图片的知识表示，确定第二优化目标函数。

步骤303：根据所述学习图片的知识表示与所述总体优化目标函数进行迭代确定自动学习模型。

所述确定第一优化目标函数，具体包括：

步骤3011：计算结构化文本S_i的优化函数：

将结构化文本S_i的知识表示记为h(S_i)，所有的文本知识表示应满足下式(4)：

其中，α是控制相似与不相似之间的阈值超参数

根据公式(5)确定对于结构化文本S_i的优化函数：

其中，每次训练时送入网络一个三元组

每次训练时需送入网络一个三元组仅仅优化上式(5)可能导致一个问题即出现两个结构化文本的知识表示相同的情况，但是在人的实际感知中两个不同的结构化的文本所表示的知识只可能相似而不肯能相等，例如“男孩骑自行车”“男孩在自行车上”就是极其相似但不同的知识。因此，同时引入了分类损失函数。具体的，如步骤3012所示。

步骤3012：根据公式(6)确定结构化文本S_i的分类损失函数：

其中，W和b分别表示分类层的需要参数，其中，C表示三元组对的数量，b_ya、b_yp、b_yn、b_c、分别表示种子文本相似结构化文本不相似结构化文本对应网络模型的权重与偏置参数。

步骤3013：根据公式(7)，根据所述结构化文本S_i的优化函数及分类损失函数，确定第一优化目标函数：

通过自适应矩估计算法优化上式(7)。

本发明采用具有双层LSTM((Long Short-Term Memory，长短时记忆)结构的循环神经网络模型作为结构化文本的知识表示学习模型，结构化文本的最后一个实体对应的循环神经网络模型的输出即是此结构化文本的知识表示。不同于传统的文本表示学习任务，本发明基于图片信息构造结构化文本三元组的方法用于结构化文本知识表示学习，从而使得使用的数据不具有任何人工标注信息可用于直接监督学习，降低劳动强度，提高识别效率。

在步骤302中，所述根据所述结构化的文本集中的各结构化文本表示学习图片的知识表示，具体包括：

将结构化文本的知识表示向量作为监督信号，利用深度脊回归算法学习图片的知识表示学习模型，根据公式(8)确认第二目标函数：

在步骤303中，所述根据所述学习图片的知识表示与所述总体优化目标函数进行迭代确定自动学习模型，具体包括：

步骤3031：根据所述第二优化目标函数确定三元组；

步骤3032：将所述三元组代入到所述第一优化目标函数中进行迭代运算；

步骤3033：当所述第一优化目标函数和第二目标函数得到最优解，得到所述自动学习模型。

本发明多模态知识表示自动学习模型的构建方法可以在复杂海量的网络数据中自动的挖掘出结构化多模态数据并将其进行统一知识化表示，不仅可以解决基于知识的跨模态信息检索问题，还可以利用已经具有的知识对训练数据中未出现的知识进行准确的表达，例如训练的数据中仅具有“牛在吃草”与“人在骑马”的结构化的文本与图片多模态数据，本发明可以将未在训练数据中出现的“人在骑牛”的文本与图片进行准确的知识化表示。

例如，本发明通过从网络上挖掘出近3万组结构化多模态数据(约70万个结构化实例)(即结构化的文本集和图片集)，其中80％作为训练集，20％作为测试集(注意测试集中的多模态数据从未在训练集中出现过)。通过训练集确定统一特征空间的自动学习模型，通过所述自动学习模型在测试集中进行多模态与跨模态检索任务，实验证明本发明所提取到的多模态知识表示是准确且有意义的。

本发明多模态知识表示自动学习模型的构建方法综合利用网络数据的多模态特点及现有搜索引擎弱标签的特性从繁杂的网络数据中自动挖掘出结构化的多模态数据，并提出了一种有效的多模态知识表示学习方法，不但可以在同一空间表示多种数据模态的知识，还可以利用已有结构化数据对训练集中未出现的结构化数据进行有效知识表示，有助于互联网时代的跨模态与多模态检索任务。

此外，本发明还提供一种多模态知识表示自动学习模型的构建***。具体的，如图2所示，本发明多模态知识表示自动学习模型的构建***包括第一挖掘单元1、第二挖掘单元2及建模单元3。

其中，所述第一挖掘单元1用于从互联网的数据中挖掘出结构化的文本集；所述第二挖掘单元2从互联网的数据中挖掘出结构化的图片集；所述建模单元3用于根据所述结构化的文本集和图片集，构建统一特征空间的自动学习模型，用于确定多模态待检测信息的知识向量。

相对于现有技术，本发明多模态知识表示自动学习模型的构建***与多模态知识表示自动学习模型的构建方法的有益效果相同，在此不再赘述。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种多模态知识表示自动学习模型的构建方法，其特征在于，所述构建方法包括：

从互联网的数据中挖掘出结构化的文本集；

从互联网的数据中挖掘出结构化的图片集；

2.根据权利要求1所述的多模态知识表示自动学习模型的构建方法，其特征在于，所述从互联网的文本数据中挖掘出结构化的文本集，具体包括：

3.根据权利要求2所述的多模态知识表示自动学习模型的构建方法，其特征在于，所述利用文本搜索引擎，对所述初滤结构化文本集进行二次过滤，具体包括：

4.根据权利要求1所述的多模态知识表示自动学习模型的构建方法，其特征在于，所述从互联网的图片数据中挖掘出结构化的图片集，具体包括：

5.根据权利要求4所述的多模态知识表示自动学习模型的构建方法，其特征在于，所述根据结构化图片的可表示力，删除所述候选结构化图片数据集中无效图片，具体包括：

根据以下公式确定图片组V_i的可表示力φ(V_i)：

6.根据权利要求5所述的多模态知识表示自动学习模型的构建方法，其特征在于，所述对所述初滤结构化图片数据集进行噪声过滤，具体包括：

根据以下公式，计算图片组V_i中图片k的噪声分数S_noisy(k)：

7.根据权利要求6所述的多模态知识表示自动学习模型的构建方法，其特征在于，根据以下公式确定第i组图片组V_i中图片k和图片j之间的距离dist(k,j)：

其中，*表示共轭运算，⊙表示点积，F表示一维离散傅里叶变换，F^-1是其逆变换，λ是正则因子项，X_k表示图片k采用传统词袋模型和空间金字塔匹配模型的特征向量，X_j表示图片j采用传统词袋模型和空间金字塔匹配模型的特征向量。

8.根据权利要求1所述的多模态知识表示自动学习模型的构建方法，其特征在于，所述根据所述结构化的文本集和图片集，构建统一特征空间的自动学习模型，具体包括：

9.根据权利要求8所述的多模态知识表示自动学习模型的构建方法，其特征在于，所述确定第一优化目标函数，具体包括：

计算结构化文本S_i的优化函数：

其中，α是控制相似与不相似之间的阈值超参数；

根据以下公式确定对于结构化文本S_i的优化函数：

其中，每次训练时送入网络一个三元组

根据以下公式确定结构化文本S_i的分类损失函数：

。

10.根据权利要求9所述多模态知识表示自动学习模型的构建方法，其特征在于，所述根据所述结构化的文本集中的各结构化文本表示学习图片的知识表示，具体包括：

11.根据权利要求10所述的多模态知识表示自动学习模型的构建方法，其特征在于，所述根据所述学习图片的知识表示与所述总体优化目标函数进行迭代确定自动学习模型，具体包括：

根据所述第二优化目标函数确定三元组；

12.一种多模态知识表示自动学习模型的构建***，其特征在于，所述构建***包括：

第二挖掘单元，从互联网的数据中挖掘出结构化的图片集；