CN103995804A

CN103995804A - 基于多模态信息融合与图聚类的跨媒体话题检测方法、装置

Info

Publication number: CN103995804A
Application number: CN201410203087.2A
Authority: CN
Inventors: 黄庆明; 张艳雁; 褚令洋; 李国荣; 王树徽; 张维刚
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2013-05-20
Filing date: 2014-05-14
Publication date: 2014-08-20
Anticipated expiration: 2034-05-14
Also published as: CN103995804B

Abstract

本发明公开了一种基于多模态信息融合与图聚类的跨媒体话题检测方法、装置，其中该方法包括：步骤一，进行文本信息、视频内容预处理；步骤二，进行文本融合及高层特征提取，获取文本信息相似度；步骤三，进行视频相似片段检测，获取视觉信息相似度；步骤四，根据文本信息相似度、视觉信息相似度并融合数据的时间信息计算最终数据相似度；步骤五，根据最终数据相似度进行图融合、图聚类，完成话题检测。该方法有效避免了对时间轴的硬量化带来的过分割与过生成的问题以及现有话题检测方法无法移植到来自不同媒体源的多模态数据的话题检测问题。

Description

基于多模态信息融合与图聚类的跨媒体话题检测方法、装置

技术领域

本发明涉及多媒体数据中的话题检测技术，特别是涉及一种基于多模态信息融合与图聚类的跨媒体话题检测方法。

背景技术

社交网络与社交媒体的快速发展，以及在社交网络和社交媒体上面数据的高速传播，使得从网络数据中进行话题检测成为信息处理领域的研究热点之一。合理有效的按照话题组织网络数据，一方面可以方便用户浏览网络数据，提高用户体验，使他们能更快更准确的找到想要了解的社会现实话题，另一方面有利于网络管理员与政府相关部门进行信息管理。

目前，大多数进行话题检测的方法，按照研究对象大体可分为三类：

(1).只关注来自单一媒体源的具有多种模态信息的多媒体数据，如网络视频。

(2).只关注来自单一媒体源的单一模态的数据，如只关注新闻文本或微博数据。

(3).关注来自不同媒体源的特定模态的数据，如只关注新闻文本和微博数据。

但在实际网络数据中，来自不同媒体源的多种模态数据往往共生存在。而且单一媒体源的信息容量、接受群体有限，单一媒体源的数据往往无法很好的体现社会现实话题。来自不同媒体源的不同模态的数据包含更加丰富多样的信息，具有一定程度的互补性，可以为话题提供更加全面的描述。

但是，不同数据源之间具有多种模态信息的数据，数据与数据之间具有各种各样的关联性，如数据各种模态信息的相似性、数据产生时间等，而且这种关联性具有多对多的结构。不同媒体数据源包含多种数据模态，但是不是所有的数据源的数据都含有所有潜在的数据模态(数据不完整性)，比如，新闻文本可能只包含文本信息，个别视频没有周边文本信息。而且，不同媒体源的数据同一模态的信息特点差异也很大(数据不整齐性)，如，信息容量、数据量化后的维度、信噪比等多个层面。这样的数据不完整性与不整齐性，必然会影响数据表示，进而影响话题检测效果。

在现有进行话题检测的方法中并没有提供很好的解决数据不完整性与不整齐性的思路。同时，现有方法往往按照某种规则划分时间片段，对每个时间段内数据分别进行无监督聚类，然后根据内容相似性对不同时间段内所得的聚类结果进行连接得到话题，如图1所示。这种解决思路在执行过程中存在着话题过分割(划分时间片段导致，话题具有时间连续性)与过生成(不同时间段内结果进行连接导致)之间的折中问题，以及对噪声敏感(往往由聚类方法引起)的问题。因此需要采取一种对时间进行软量化然后直接融入数据相似度计算的思路，以有效避免硬量化带来过分割与过生成的问题。对于噪声敏感问题，主要是由于聚类方法的选取引起的，现有用于话题检测的聚类方法往往对噪声不鲁棒，从而导致整个话题检测***对于噪声较为敏感。而且现有话题检测方法无法移植到来自不同媒体源的多模态数据的话题检测问题上。

发明内容

本发明所要解决的技术问题在于提供一种基于多模态信息融合与图聚类的跨媒体话题检测方法及其装置，用于有效避免对时间轴的硬量化带来的过分割与过生成的问题以及现有话题检测方法无法移植到来自不同媒体源的多模态数据的话题检测问题。

为了实现上述目的，本发明提供了一种基于多模态信息融合与图聚类的跨媒体话题检测方法，其特征在于，包括：

步骤一，进行文本信息、视频内容预处理；

步骤二，进行文本融合及高层特征提取，获取文本信息相似度；

步骤三，进行视频相似片段检测，获取视觉信息相似度；

步骤四，根据文本信息相似度、视觉信息相似度并融合数据的时间信息计算最终数据相似度；

步骤五，根据最终数据相似度进行图融合、图聚类，完成话题检测。

所述的跨媒体话题检测方法，其中，所述步骤二中，包括：利用余弦距离计算两个数据点间的文本信息相似度，公式如下：

{Sim}_{ij}^{T} = \cos ine (d_{i}^{T}, d_{j}^{T})

其中：

表示第i个数据和第j个数据在文本层面的文本信息相似度；

表示第i个数据的文本高层特征；

表示第j个数据的文本高层特征。

所述的跨媒体话题检测方法，其中，所述步骤三中，包括：将视频信息相似度定义为视频重复关键帧的数目；

{Sim}_{ij}^{v} = &NotEqual; NDK (i, j)

其中：

表示第i个数据与第j个数据在视觉信息层面的视觉信息相似度；

#NDK(i,j)表示第i个数据的视频与第j个数据的视频重复关键帧的数目。

所述的跨媒体话题检测方法，其中，所述步骤四中，包括：采用Jaccard相似度计算两个数据点k近邻的数据集的相似度作为两个节点的实际相似度：

J_{ij}^{T} = \frac{| N_{i}^{T} (k) \cap N_{j}^{T} (k) |}{| N_{i}^{T} (k) \cup N_{j}^{T} (k) |}

J_{ij}^{V} = \frac{| N_{i}^{V} (k) \cap N_{j}^{V} (k) |}{| N_{i}^{V} (k) \cup N_{j}^{V} (k) |}

其中：

表示第i个节点文本信息相似度排名最高的k个数据点集合，不包含i节点本身；

表示第j个节点文本信息相似度排名最高的k个数据点集合，不包含j节点本身；

表示第i个节点视觉信息相似度排名最高的k个数据点集合，不包含i节点本身；

表示第j个节点视觉信息相似度排名最高的k个数据点集合，不包含j节点本身；

表示第i个节点和第j个节点在文本信息层面的Jaccard相似度；

表示第i个节点和第j个节点在视觉信息层面的Jaccard相似度。

所述的跨媒体话题检测方法，其中，所述步骤四中，包括：对数据进行时序约束：

其中：

α_ij表示第i个数据与第j个数据时间轴上的相似度衰减关系，t_i、t_j分别表示第i个数据、第j个数据的上传时间，Δ为量化系数，表示在Δ时间段内，数据间的相似度不存在衰减，相似度为实际相似度。

所述的跨媒体话题检测方法，其中，所述步骤五中，包括：获取不同模态信息图的边权重：

w_{ij}^{T} = α_{ij} \cdot J_{ij}^{T}

w_{ij}^{V} = α_{ij} \cdot J_{ij}^{V}

其中：

为第i个数据与第j个数据在文本模态信息相关图上的边权重；

是第i个数据与第j个数据在视觉模态信息相关图上的边权重。

为了实现上述目的，本发明还提供一种基于多模态信息融合与图聚类的跨媒体话题检测装置，其特征在于，包括：

预处理模块，用于进行文本信息、视频内容预处理；

融合提取模块，连接预处理模块，用于进行文本融合及高层特征提取，获取文本信息相似度；

第一相似度计算模块，连接预处理模块，用于进行视频相似片段检测，获取视觉信息相似度；

第二相似度计算模块，连接融合提取模块、第一相似度计算模块，用于根据文本信息相似度、视觉信息相似度并融合数据的时间信息计算最终数据相似度；

融合聚类模块，连接第二相似度计算模块，用于根据最终数据相似度进行图融合、图聚类，完成话题检测。

所述的跨媒体话题检测装置，其中，所述融合提取模块利用余弦距离计算两个数据点间的文本相似度，公式如下：

{Sim}_{ij}^{T} = \cos ine (d_{i}^{T}, d_{j}^{T})

其中：

表示第i个数据和第j个数据在文本层面的文本信息相似度；

表示第i个数据的文本高层特征；

表示第j个数据的文本高层特征。

所述的跨媒体话题检测装置，其中，所述第一相似度计算模块将视频信息相似度定义为视频重复关键帧的数目；

{Sim}_{ij}^{v} = &NotEqual; NDK (i, j)

其中：

表示第i个数据与第j个数据在视觉信息层面的相似度；

所述的跨媒体话题检测装置，其中，所述第二相似度计算模块采用Jaccard相似度计算两个数据点k近邻的数据集的相似度作为两个节点的实际相似度：

J_{ij}^{T} = \frac{| N_{i}^{T} (k) \cap N_{j}^{T} (k) |}{| N_{i}^{T} (k) \cup N_{j}^{T} (k) |}

J_{ij}^{V} = \frac{| N_{i}^{V} (k) \cap N_{j}^{V} (k) |}{| N_{i}^{V} (k) \cup N_{j}^{V} (k) |}

其中：

表示第i个节点和第j个节点在文本信息层面的Jaccard相似度；

表示第i个节点和第j个节点在视觉信息层面的Jaccard相似度。

所述的跨媒体话题检测装置，其中，所述第二相似度计算模块对数据进行时序约束：

其中：

所述的跨媒体话题检测装置，其中，所述融合聚类模块获取不同模态信息图的边权重：

w_{ij}^{T} = α_{ij} \cdot J_{ij}^{T}

w_{ij}^{V} = α_{ij} \cdot J_{ij}^{V}

其中：

本发明涉及对于来自不同媒体源的多种模态信息的融合与异质数据转化的技术，提出一个可灵活进行多模态信息融合的框架，可以根据实际任务需求与数据特点，添加任意理论上能够提供增益的数据模态，可扩展性强，易行高效。基于多源多模态信息融合的话题检测方法，是对该框架实际应用的一个示例，也是该框架有效性的证明。

本发明根据话题检测的实际任务需求，定义了时间衰减函数，连续量化时间轴，对数据进行时序约束。连续量化时间可以很好的降低对话题的过分割，以及后期过拟合带来的损失。利用时间衰减函数中的衰减系数可控制时间因素对于数据相似度的影响，使得所得检测结果的时间跨度倾向一定程度可控，对话题的时间多粒度性容忍度更高。

以下结合附图和具体实施例对本发明进行详细描述，但不作为对本发明的限定。

附图说明

图1是现有文本话题检测常用思路示意图；

图2是本发明基于多模态信息融合框架与图聚类的跨媒体话题检测方法流程图；

图3是本发明基于多模态信息融合框架与图聚类的跨媒体话题检测方法示意图；

图4是本发明多种模态信息图融合示例；该图以文本与视觉信息两种模态为例，方点节点为包含文本信息的数据，圆点节点为包含视觉信息的数据，实线节点为同时包含两种信息的数据；

图5是本发明多模态信息图融合框架；

图6是本发明基于多模态信息融合框架与图聚类的跨媒体话题检测装置结构图。

具体实施方式

下面结合附图和具体实施方式对本发明的技术方案作进一步更详细的描述。

如图2所示，是本发明基于多模态信息融合框架与图聚类的跨媒体话题检测方法流程图，图3是本发明基于多模态信息融合框架与图聚类的跨媒体话题检测方法示意图，图4是本发明多种模态信息图融合示例；该图以文本与视觉信息两种模态为例，其中，方点节点为包含文本信息的数据，圆点节点为包含视觉信息的数据，实线节点为同时包含两种信息的数据。图5是本发明多模态信息图融合框架。

表格1中给出了利用本发明在公共数据集MCG-WEBV上进行话题检测得到的前十个话题的信息。

在图2中，具体包括如下步骤：

步骤201，进行文本信息、视频内容预处理；

该步骤中，利用数据间复杂的相关性将所有的数据互相连接起来，形成图结构，并考虑到数据模态不整齐与不完整的问题，采用多种平行的模态信息图的结构，每个基元数据的一种模态的信息为一个单模态信息图中的节点，数据在该模态上关联性为节点间的边，关联性的大小为边权重。如此，便得到了几个不同模态信息的图模型。在本发明中，主要任务是对来自不同媒体源的新闻文本和网络视频联合进行话题检测，所以本发明以文本与视频信息作为示例，以下的文本信息图建立与视觉信息图建立的过程是专为这个任务设计的。实际上是可以根据实际需要进行修改，并且可以增加认为可以提升任务性能产生信息增益的其他模态信息。

步骤202，进行文本融合及高层特征提取；

来自不同媒体源的文本信息具有很大差异性(信息容量，数据量化后的维度，信噪比)，传统的tf-idf的文本特征或标签集的形式可以处理某种特定的文本数据，而对于这种差别很大的文本效果往往就差强人意。在这里利用隐含话题模型的一种LDA模型进行文本特征提取。LDA模型在文本分类问题中对于噪声和不整齐数据表现出良好的鲁棒性。通过LDA模型，得到各个文本数据在隐含话题上的分布，如公式(1)所示，将这种隐含话题的分布定义为文本的高层特征。虽然隐含话题中的“话题”不同于话题检测的“话题”，但两者具有密切的联系，而且利用隐含话题模型进行特征提取得到的文本高层特征对于话题有着更高的敏感性。这样一个在多媒体源数据上利用LDA模型进行特征提取的过程，本身就是一个文本信息融合的过程。同时，这种融合大大增强了视频周边文本中与视频相关的关键词的话题描述能力。

d_{i}^{T} = [p_{i 1}, p_{i 2}, . . ., p_{ic}] - - - (1)

其中，表示第i个数据的文本高层特征，p_ic为第i个数据在第c个话题上的分布，即组成第i个数据文本信息的词项集合中属于第k个话题的词项数占第i个数据词项总数的比例，C为隐含话题数目，c的取值范围为1-C。在本发明中隐含话题数目C的选择与数据规模有一定关系，如果数据量在1W左右，C可选择300-400，对于小一点的数据量，如3K-5K，C可选择在150-250之间。整体来说，C的大小选择一般为150-500。

在获取到以隐含话题分布表示的文本高层特征后，利用余弦距离计算两个数据点间的文本信息相似度。如公式(2)所示，表示第i个数据和第j个数据在文本层面的文本信息相似度。

{Sim}_{ij}^{T} = \cos ine (d_{i}^{T}, d_{j}^{T}) - - - (2)

其中，表示第i个数据的文本高层特征，表示第j个数据的文本高层特征。

如此，便可以得到以数据为节点，数据间文本信息相似度为边权重的文本信息相关图。第i个数据和第i个节点是对应关系，第j个数据和第j个节点是对应关系。以数据为节点是指以第i个数据为第i个节点，以第j个数据为第j个节点。

步骤203，进行视频相似片段检测及相似度计算。

本发明采用了网络视频信息处理领域常用的重复关键帧检测技术来检测不同视频中重复相似关键帧的数目，并将视频的相似度定义为视频重复关键帧的数目，如公式(3)，其中表示第i个数据与第j个数据在视觉信息层面的视觉信息相似度。#NDK(i,j)表示第i个数据的视频与第j个数据的视频重复关键帧的数目。

{Sim}_{ij}^{v} = &NotEqual; NDK (i, j) - - - (3)

如此，便可以得到以数据为节点，数据间视觉信息相似度为边权重的视觉信息相关图。第i个数据和第i个节点是对应关系，第j个数据和第j个节点是对应关系。以数据为节点是指以第i个数据为第i个节点，以第j个数据为第j个节点。

步骤204，根据文本信息相似度、视觉信息相似度并融合数据的时间信息计算最终数据相似度。

通过步骤202得到的文本信息相似度为文本高层特征的余弦距离，而步骤203得到的视觉信息相似度为视频重复关键帧的个数，两者是不同质的，不具可比性。在此采用Jaccard相似度计算两个数据点k近邻的数据集的相似度作为两个节点(第i个节点、第j个节点)的实际相似度，此实际相似度是指最终数据相似度，也就是最终作为边权重的相似度，k为在求Jaccard相似度时，对于某个数据选择近邻的数目，k一般设置经验值为30。如公式(4)、(5)所示：

J_{ij}^{T} = \frac{| N_{i}^{T} (k) \cap N_{j}^{T} (k) |}{| N_{i}^{T} (k) \cup N_{j}^{T} (k) |} - - - (4)

J_{ij}^{V} = \frac{| N_{i}^{V} (k) \cap N_{j}^{V} (k) |}{| N_{i}^{V} (k) \cup N_{j}^{V} (k) |} - - - (5)

其中，表示第i个节点文本信息相似度排名最高的k个数据点集合(不包含i节点本身)，表示第j个节点文本信息相似度排名最高的k个数据点集合(不包含j节点本身)，表示第i个节点视觉信息相似度排名最高的k个数据点集合(不包含i节点本身)，表示第j个节点视觉信息相似度排名最高的k个数据点集合(不包含j节点本身)。

表示第i个节点和第j个节点在文本信息层面的Jaccard相似度，也就是它们在文本信息层面k近邻的一致性；表示第i个节点和第j个节点在视觉信息层面的Jaccard相似度，也就是它们在视觉信息层面k近邻的一致性。注意，在这里文本信息相似度节点与视觉信息相似度节点是一一对应的，存在模态信息缺失的数据，它们所缺失的模态在对应的模态信息图上为空节点，与其他节点以权重值为0的边相连。加入空节点是为了保证不同模态信息图在结构上的一致性以便于在步骤205进行图融合。

这样，通过Jaccard相似度的转化，所得到的文本信息相似度和视觉信息相似度就完成了异构到同质的转化，具有可比性，可进行线性操作。但是，考虑到话题具有时间因素，需要考虑时间的时序约束，本发明定义了时间衰减函数，连续量化时间轴，对数据进行时序约束，如公式(6)，其中α_ij表示第i个数据与第j个数据时间轴上的相似度衰减关系，t_i、t_j分别表示第i、j个数据的上传时间，Δ为量化系数，表示在Δ时间段内，数据间的相似度不存在衰减，数据在内容上的相似度为实际相似度，也就是最终数据相似度。时间衰减函数中的衰减系数β为控制时间衰减速度的参数，可以控制时间因素对于数据相似度的影响，从而起到控制检测所得结果时间跨度倾向的目的。β越大，则表示时间因素对于数据间相似度的影响越大，检测得到的话题越发倾向时间跨度较短的话题。而β越小，则表示时间因素对于数据间相似度的影响越小，检测得到的话题越发倾向时间跨度较短的话题。

最终不同模态信息图的边权重定义为公式(7)，(8)。

w_{ij}^{T} = α_{ij} \cdot J_{ij}^{T} - - - (7)

w_{ij}^{V} = α_{ij} \cdot J_{ij}^{V} - - - (8)

其中，α_ij是由公式(6)计算得到，和是由公式(4)(5)计算得到，为第i个数据与第j个数据在文本模态信息相关图上的边权重，是第i个数据与第j个数据在视觉模态信息相关图上的边权重。至此，得到各模态信息相关图的最终边权重。

衰减系数β一般设定为0.01-1，这与数据集内话题的持续时间有关。如果话题的持续时间较长，比如在几十天左右，可选择小一点的β值，如0.01，而如果话题的持续时间较短，则可以选择较大一些的β值，如0.1或者1。

量化系数Δ一般设置为3。

步骤205，图融合。

经过步骤204，不同模态信息相关图的边权重由异构数据转化为同质的状态。考虑到没有任何先验信息证明哪种模态会提供更多的信息增益，会更有效，采取直接进行权重加和的方式进行两张图的融合，如公式(9)所示，其中W_ij表示最终多模态信息图上的边权重，为由公式(7)、(8)计算得到的单模态信息图的边权重。在步骤S204中提到，为了保证不同模态信息图结构上的一致性，存在模态缺失的节点在所缺失的模态信息图上为空节点，与其他节点以权重为0的边进行连接。因此，在融合过程中，就可以直接将不同模态的图进行叠加。即不同模态信息图上由同一个数据抽象得到的节点作为同一个节点加入多模态信息图；不同模态信息图上对应节点间的相似度进行加和得到数据在各模态信息上总的相似度，并作为边权重加入多模态信息图。过程如图4所示，在该图中，以文本与视觉信息两种模态为例。其中，方点节点为包含文本信息的数据，圆点节点为包含视觉信息的数据，实线节点为同时包含文本信息、视觉信息这两种信息的数据。存在模态缺失的数据，在所缺失的模态的模态信息图中以空节点存在，图中并未画出。最终的边权重定义如公式(9)所示。这样，便得到了以包含多模态信息的数据为节点，以融合了不同模态信息相似度的{w_ij}为边权重的多模态信息图。

w_{ij} = w_{ij}^{T} + w_{ij}^{V} - - - (9)

步骤206，图聚类。

在通过步骤205得到最终的多模态信息图后，本发明利用无监督的成对的图聚类算法—图漂移算法(Graph Shift，GS)查找多模态信息图结构中的密集子图，并将检测得到的密集子图视为话题，完成话题检测。话题是由大量的在一段时间内产生的具有相似内容的数据聚集而成。本发明中将数据视为图结构中的节点，那么，这些数据在内容和产生时间上的高度相似性会使数据所对应的节点间具有非常高的边权重，从而在图结构上形成紧密连接的密集子图，所以此处将利用GS方法检测得到的密集子图看作话题。GS具有对噪声鲁棒的特点，即在寻找密集子图的迭代过程中，与该密集子图中节点关联性不强的数据点，不会被包含到密集子图中，如此可以保证所得到话题内部的在内容上的高度相关性。

本发明提出了一种基于多源多模态数据融合与图聚类的话题检测方法，该方法对噪声鲁棒，对话题时间多粒度性容忍度高。本发明同时提供了一种灵活的融合多种模态信息的处理框架，如图5所示。首先将包含多模态信息的数据的各个模态的信息抽象为图结构，得到单模态信息图。各个单模态信息图具有结构一致性，即各个单模态信息图具有相同的节点，对于存在模态缺失的数据，它在所缺失模态对应的模态信息图上为空节点，并与其他节点以权重为0的边连接。接下来，借助融合了时间衰减的Jaccard相似度进行异质图转换。虽然各单模态信息图的结构具有一致性，但不同模态信息相似度的计算方式不同使不同的单模态信息图的边权重具有异质性。利用各模态信息图节点k近邻的一致性重新计算节点间的边权重，将异质图转化为可加。然后将具有结构一致性的可加的各个单模态信息图进行加和得到多模态信息图。最后利用无监督的成对的图聚类方法-图漂移算法在多模态信息图上检测密集子图，并将检测得到的密集子图视为话题。

如图6所示，是本发明基于多模态信息融合框架与图聚类的跨媒体话题检测装置结构图。结合图1-5，该装置600包括：预处理模块601、融合提取模块602、第一相似度计算模块603、第二相似度计算模块604、图融合模块605、图聚类模块606。

预处理模块601，用于进行文本信息、视频内容预处理。

在一实施例中，利用数据间复杂的相关性将所有的数据互相连接起来，形成图结构，并考虑到数据模态不整齐与不完整的问题，采用多种平行的模态信息图的结构，每个基元数据的一种模态的信息为一个单模态信息图中的节点，数据在该模态上关联性为节点间的边，关联性的大小为边权重。如此，便得到了几个不同模态信息的图模型。在本发明中，主要任务是对来自不同媒体源的新闻文本和网络视频联合进行话题检测，所以本发明以文本与视频信息作为示例，以下的文本信息图建立与视觉信息图建立的过程是专为这个任务设计的。实际上是可以根据实际需要进行修改，并且可以增加认为可以提升任务性能产生信息增益的其他模态信息。

融合提取模块602，用于进行文本融合及高层特征提取。

d_{i}^{T} = [p_{i 1}, p_{i 2}, . . ., p_{ic}] - - - (1)

在获取到以隐含话题分布表示的文本高层特征后，利用余弦距离计算两个数据点间的文本相似度。如公式(2)所示，表示第i个数据和第j个数据在文本层面的文本信息相似度。

{Sim}_{ij}^{T} = \cos ine (d_{i}^{T}, d_{j}^{T}) - - - (2)

第一相似度计算模块603，用于进行视频相似片段检测及相似度计算。

{Sim}_{ij}^{v} = &NotEqual; NDK (i, j) - - - (3)

第二相似度计算模块604，用于根据文本信息相似度、视觉信息相似度并融合数据的时间信息计算最终数据相似度。

通过融合提取模块602得到的文本信息相似度为文本高层特征的余弦距离，而第一相似度计算模块603得到的视觉信息相似度为视频重复关键帧的个数，两者是不同质的，不具可比性。在此采用Jaccard相似度计算两个数据点k近邻的数据集的相似度作为两个节点(第i个节点、第j个节点)的实际相似度，此实际相似度是指最终数据相似度，也就是最终作为边权重的相似度，k为在求Jaccard相似度时，对于某个数据选择近邻的数目，k一般设置经验值为30。如公式(4)、(5)所示：

J_{ij}^{T} = \frac{| N_{i}^{T} (k) \cap N_{j}^{T} (k) |}{| N_{i}^{T} (k) \cup N_{j}^{T} (k) |} - - - (4)

J_{ij}^{V} = \frac{| N_{i}^{V} (k) \cap N_{j}^{V} (k) |}{| N_{i}^{V} (k) \cup N_{j}^{V} (k) |} - - - (5)

表示第i个节点和第j个节点在文本信息层面的Jaccard相似度，也就是它们在文本信息层面k近邻的一致性；表示第i个节点和第j个节点在视觉信息层面的Jaccard相似度，也就是它们在视觉信息层面k近邻的一致性。注意，在这里文本信息相似度节点与视觉信息相似度节点是一一对应的，存在模态信息缺失的数据，它们所缺失的模态在对应的模态信息图上为空节点，与其他节点以权重值为0的边相连。加入空节点是为了保证不同模态图信息在结构上的一致性以便于由图融合模块605进行图融合。

这样，通过Jaccard相似度的转化，所得到的文本信息相似度和视觉信息相似度就完成了异构到同质的转化，具有可比性，可进行线性操作。但是，考虑到话题具有时间因素，需要考虑时间的时序约束，本发明定义了时间衰减函数，连续量化时间轴，对数据进行时序约束，如公式(6)，其中α_ij表示第i个数据与第j个数据时间轴上的相似度衰减关系，t_i、t_j分别表示第i、j个数据上传时间，Δ为量化系数，表示在Δ时间段内，数据间的相似度不存在衰减，数据在内容上的相似度为实际相似度，也就是最终数据相似度。时间衰减函数中的衰减系数β为控制时间衰减速度的参数，可以控制时间因素对于数据相似度的影响，从而起到控制检测所得结果时间跨度倾向的目的。β越大，则表示时间因素对于数据间相似度的影响越大，检测得到的话题越发倾向时间跨度较短的话题。而β越小，则表示时间因素对于数据间相似度的影响越小，检测得到的话题越发倾向时间跨度较短的话题。

最终不同模态信息图的边权重定义为公式(7)，(8)。

w_{ij}^{T} = α_{ij} \cdot J_{ij}^{T} - - - (7)

w_{ij}^{V} = α_{ij} \cdot J_{ij}^{V} - - - (8)

量化系数Δ一般设置为3。

图融合模块605，用于进行图融合。

经过第二相似度计算模块604的处理，不同模态信息相关图的边权重由异构数据转化为同质的状态。考虑到没有任何先验信息证明哪种模态会提供更多的信息增益，会更有效，采取直接进行权重加和的方式进行两张图的融合，如公式(9)所示，其中W_ij表示最终多模态信息图上的边权重，为由公式(7)、(8)计算得到的单模态信息图的边权重。在模块604中，为了保证不同模态信息图结构上的一致性，存在模态缺失的节点在所缺失的模态信息图上为空节点，与其他节点以权重为0的边进行连接。因此，在融合过程中，就可以直接将不同模态的图进行叠加。即不同模态信息图上由同一个数据抽象得到的节点作为同一个节点加入多模态信息图；不同模态信息图上对应节点间的相似度进行加和得到数据在各模态信息上总的相似度，并作为边权重加入多模态信息图。过程如图4所示，在该图中，以文本与视觉信息两种模态为例。其中，方点节点为包含文本信息的数据，圆点节点为包含视觉信息的数据，实线节点为同时包含文本信息、视觉信息这两种信息的数据。存在模态缺失的数据，在所缺失的模态的模态信息图中以空节点存在，图中并未画出。最终的边权重定义如公式(9)所示。这样，便得到了以包含多模态信息的数据为节点，以融合了不同模态信息相似度的{w_ij}为边权重的多模态信息图。

w_{ij} = w_{ij}^{T} + w_{ij}^{V} - - - (9)

图聚类模块606，用于进行图聚类。

在通过图融合模块605处理得到最终的多模态图后，本发明利用无监督的成对的图聚类算法—图漂移算法(Graph Shift，GS)查找多模态信息图结构中的密集子图，并将检测得到的密集子图视为话题，完成话题检测。话题是由大量的在一段时间内产生的具有相似内容的数据聚集而成。本发明中将数据视为图结构中的节点，那么，这些数据在内容和产生时间上的高度相似性会使数据所对应的节点间具有非常高的边权重，从而在图结构上形成紧密连接的密集子图，所以此处将利用GS方法检测得到的密集子图看作话题。GS具有对噪声鲁棒的特点，即在寻找密集子图的迭代过程中，与该密集子图中节点关联性不强的数据点，不会被包含到密集子图中，如此可以保证所得到话题内部的在内容上的高度相关性。

本发明根据多源数据模态不整齐以及单源多模态数据模态不完整的特点，提出分别对不同模态的数据构建关系图及图融合后进行话题检测的框架。其可以高效的将含有多种模态的信息融合到一起，可以提供更多的信息增益，提升任务效果。

本发明通过异质数据转化进行多模态图融合。此处采用的是计算数据k近邻点的重合度作为数据间真正的相似度。一方面高效的将不同质的多种模态数据的相似度转化为同质可比的数据相似度，从而充分有效的利用不同模态的信息；另一方面，这种k近邻相似的思想使得所得数据间相似度的包容性更高，更贴近现实。

本发明采用对噪声更加鲁棒的，基于博弈论竞争策略得到的自适应成对聚类的方法进行话题检测。这很好的契合了在图结构的前提下话题内部数据的特点，保持话题内的紧密型，同时避免引入噪声。

本发明提出的可灵活进行多模态信息融合的框架，参见图3所示，可以根据实际任务需求与数据特点，添加任意理论上能够提供增益的数据模态，可扩展性强，易行高效。基于多源多模态信息融合的话题检测方法，是对该框架实际应用的一个示例，也是该框架有效性的证明。

本发明对数据之间的相互关系抽象为无向图结构，边权重为数据(节点)的相似度。首先，对来自不同媒体源不同模态的数据关系进行分析，考虑到多源数据模态不整齐以及单源多模态数据模态不完整的特点，本发明提出分别对不同模态的数据构建关系图的思想，即数据的每种模态信息分别对应一张单模态图中的一个节点，而对于缺失模态则无对应模态图节点，即不同模态信息对应的图的节点不完全相同。对于不完全相同结构的图的融合问题，后面会加以解释。由于每个模态的数据相似度无法以同一种相似性度量方式进行计算，本发明以通过计算数据k近邻点的重合度作为数据间真正的相似度。这样一方面将不同质的多种模态数据的相似度转化为同质可比的数据相似度。另一方面，这种k近邻相似的思想使得所得数据间相似度的包容性更高，更贴近现实。在经过异构数据转化后，不同模态信息的对应图的边权重便具备了可比性，考虑到没有先验信息证明哪种模态的信息更有效，采取直接加和的形式将不同模态的图叠加到一起。就是多张模态信息图中相同的对应节点进行叠加，而各模态信息图单独的节点及其与其他节点的对应边则直接添加到最后的总图中。

在实际的基于多源多模态信息融合的话题检测的任务下，考虑到不同媒体源(新闻文本，网络视频)原始文本特征(稀疏性，噪声程度，文本长度等)的巨大差异性，本发明利用LDA将来自不同媒体源的文本数据进行数据融合，提取更具话题敏感性的高层特征，可以很好的提升***后期话题检测的效果以及***的鲁棒性。

同时，考虑到话题本身具有一定的时间信息，本发明定义了时间衰减函数，连续量化时间轴，对数据进行时序约束。连续量化时间轴可以很好的避免硬性离散型量化引起的话题内部的过分割，还可通过时间衰减函数中的衰减系数控制时间因素对于数据相似度的影响，从而起到控制检测所得结果时间跨度倾向的目的，对话题的时间多粒度性有更好的容忍度。

采用对噪声更加鲁棒的，基于博弈论竞争策略得到的自适应成对聚类的方法进行话题检测。当数据及其相互关系被表示为图模型时，话题数据由于其数据的紧密联系在图结构中会呈现为密集子图。本发明采用的聚类方法便是一种高效的用以寻找密集子图的聚类方法，符合图结构情况下话题的呈现形式，有利于保持话题内数据的紧密特性，同时算法本身对噪声的鲁棒性可以避免所得结果引入更多噪声。

当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种基于多模态信息融合与图聚类的跨媒体话题检测方法，其特征在于，包括：

步骤一，进行文本信息、视频内容预处理；

步骤三，进行视频相似片段检测，获取视觉信息相似度；

2.根据权利要求1所述的跨媒体话题检测方法，其特征在于，所述步骤二中，包括：利用余弦距离计算两个数据点间的文本信息相似度，公式如下：

{Sim}_{ij}^{T} = \cos ine (d_{i}^{T}, d_{j}^{T})

其中：

表示第i个数据和第j个数据在文本层面的文本信息相似度；

表示第i个数据的文本高层特征；

表示第j个数据的文本高层特征。

3.根据权利要求1或2所述的跨媒体话题检测方法，其特征在于，所述步骤三中，包括：将视频信息相似度定义为视频重复关键帧的数目；

{Sim}_{ij}^{v} = &NotEqual; NDK (i, j)

其中：

4.根据权利要求3所述的跨媒体话题检测方法，其特征在于，所述步骤四中，包括：采用Jaccard相似度计算两个数据点k近邻的数据集的相似度作为两个节点的实际相似度：

J_{ij}^{T} = \frac{| N_{i}^{T} (k) \cap N_{j}^{T} (k) |}{| N_{i}^{T} (k) \cup N_{j}^{T} (k) |}

J_{ij}^{V} = \frac{| N_{i}^{V} (k) \cap N_{j}^{V} (k) |}{| N_{i}^{V} (k) \cup N_{j}^{V} (k) |}

其中：

表示第i个节点和第j个节点在文本信息层面的Jaccard相似度；

表示第i个节点和第j个节点在视觉信息层面的Jaccard相似度。

5.根据权利要求4所述的跨媒体话题检测方法，其特征在于，所述步骤四中，包括：对数据进行时序约束：

其中：

6.根据权利要求5所述的跨媒体话题检测方法，其特征在于，所述步骤五中，包括：获取不同模态信息图的边权重：

w_{ij}^{T} = α_{ij} \cdot J_{ij}^{T}

w_{ij}^{V} = α_{ij} \cdot J_{ij}^{V}

其中：

7.一种基于多模态信息融合与图聚类的跨媒体话题检测装置，其特征在于，包括：

预处理模块，用于进行文本信息、视频内容预处理；

8.根据权利要求7所述的跨媒体话题检测装置，其特征在于，所述融合提取模块利用余弦距离计算两个数据点间的文本相似度，公式如下：

{Sim}_{ij}^{T} = \cos ine (d_{i}^{T}, d_{j}^{T})

其中：

表示第i个数据和第j个数据在文本层面的文本信息相似度；

表示第i个数据的文本高层特征；

表示第j个数据的文本高层特征。

9.根据权利要求7或8所述的跨媒体话题检测装置，其特征在于，所述第一相似度计算模块将视频信息相似度定义为视频重复关键帧的数目；

{Sim}_{ij}^{v} = &NotEqual; NDK (i, j)

其中：

表示第i个数据与第j个数据在视觉信息层面的相似度；

10.根据权利要求9所述的跨媒体话题检测装置，其特征在于，所述第二相似度计算模块采用Jaccard相似度计算两个数据点k近邻的数据集的相似度作为两个节点的实际相似度：

J_{ij}^{T} = \frac{| N_{i}^{T} (k) \cap N_{j}^{T} (k) |}{| N_{i}^{T} (k) \cup N_{j}^{T} (k) |}

J_{ij}^{V} = \frac{| N_{i}^{V} (k) \cap N_{j}^{V} (k) |}{| N_{i}^{V} (k) \cup N_{j}^{V} (k) |}

其中：

表示第i个节点和第j个节点在文本信息层面的Jaccard相似度；

表示第i个节点和第j个节点在视觉信息层面的Jaccard相似度。

11.根据权利要求10所述的跨媒体话题检测装置，其特征在于，所述第二相似度计算模块对数据进行时序约束：

其中：

12.根据权利要求11所述的跨媒体话题检测装置，其特征在于，所述融合聚类模块获取不同模态信息图的边权重：

w_{ij}^{T} = α_{ij} \cdot J_{ij}^{T}

w_{ij}^{V} = α_{ij} \cdot J_{ij}^{V}

其中：