CN104679902B

CN104679902B - 一种结合跨媒体融合的信息摘要提取方法

Info

Publication number: CN104679902B
Application number: CN201510123093.1A
Authority: CN
Inventors: 裴廷睿; 赵津锋; 李哲涛; 崔荣峻; 吴相润; 关屋大雄
Original assignee: Xiangtan University
Current assignee: Xiangtan University
Priority date: 2015-03-20
Filing date: 2015-03-20
Publication date: 2017-11-28
Anticipated expiration: 2035-03-20
Also published as: CN104679902A

Abstract

本发明提出了一种结合跨媒体融合的信息摘要提取方法。首先将输入的多媒体数据(文字、图像、音频、视频等)按数据类型将其分类；再将异构多媒体数据同维化并建立数据的文本标签，获得同维图像和文本标签；然后将同维图像数据聚类并进行文本标签的关联性检验；再分类别融合若干张同维图像为一副图像；最后生成跨媒体信息摘要。用户通过信息摘要可查看每类信息的融合图像，并可快速访问对应的多媒体数据。

Description

一种结合跨媒体融合的信息摘要提取方法

技术领域

本发明涉及一种结合跨媒体融合的信息摘要提取方法，属于信息提取领域。

背景技术

我们生活在一个信息时代，海量信息扩增，互联网每天在新增大量的信息，而信息的存储方式日渐多样化，文本、图像、音频、视频是多媒体资源的基本存在形式。如今多种类型媒体数据混合并存，媒体数据组织结构复杂，但不同类型的媒体数据从不同侧面表达同一语义，信息提取中需要根据媒体之间存在的各种联系，从一种媒体跨越到另一种媒体。因此，如何跨越媒体之间的界限，如何提取多种媒体之间的潜在关联性，成为目前信息提取所面临的挑战。

对于多种媒体形式混合并存的大数据，现有方法主要是通过同一种媒体的特征辨识来实现的，难以跨越多媒体之间的语义鸿沟，例如图像的视觉特征与音频的听觉特征之间的特征维数不同而无法直接度量他们之间的相似性，因此，现有信息提取方法不能很好为用户提供直观缩略图（或信息摘要），如何将混合的大量多媒体数据分类与提取，成为信息提取亟需解决的关键技术难题之一，也是目前所研究的热门课题。

现有的成熟文本挖掘技术、图像特征提取算法、音频场景识别、语音识别、视频场景分割、关键帧提取等方法可以提取单一媒体的语义信息，如何将这些算法加以结合，将不同维数的特征信息提取，形成处理多媒体的信息提取***，我们通过图像这一中间维数的媒体来解决此问题。

发明内容

针对上述问题，本发明提出一种结合跨媒体融合的信息摘要提取方法。通过采用将异维数据同维化为图像的方法，解决了难以跨越多媒体语义鸿沟的问题。通过图像聚类方法，从而间接的将多媒体数据分类和提取，生成跨媒体信息摘要。

本发明提出了一种结合跨媒体融合的信息摘要提取方法。首先将输入的多媒体数据(文字、图像、音频、视频等)按数据类型将其分类；再将异维多媒体数据同维化并建立数据的文本标签，获得同维图像和文本标签；然后将同维图像数据聚类并进行文本标签的关联性检验；再分类别融合若干张同维图像为一副图像；最后生成跨媒体信息摘要。用户通过信息摘要可查看每类信息的融合图像，并可快速访问对应的多媒体数据。

本发明提出一种结合跨媒体融合的信息摘要提取方法，包括以下步骤：

步骤一：将输入的多媒体数据中(文字、图像、音频、视频)按数据类型分类为原始文本数据，原始图像数据，原始音频数据，原始视频数据；

步骤二：设置图像数据维数（图像像素）标准值，建立带有文本标签的同维图像样本库，进行异维多媒体数据同维化处理，根据数据类型的不同采用相对应的处理方法；

步骤三：对已处理的同维图像数据，根据聚类所需要的准确度确定阈值，按照图像聚类算法进行聚类，根据每类数据的文本标签进行文本标签关联性检验，将不满足条件的数据再次聚类，直到不满足条件的数据数量小于阈值，可得类同维图像数据的地址，即索引；

步骤四：对已聚类的同维图像数据，按照一种融合规则，进行融合，从而得到每一类同维图像数据的融合图像；

步骤五：根据每一类同维图像数据的融合图像以及索引，生成信息摘要。

与现有方法相比，本发明的优势在于：

1、将异维的多媒体数据语义用同维图像数据表达，跨越了多种媒体之间的界限，并运用图像处理的相关算法处理多媒体数据；

2、图像聚类方法与文本标签关联性检验相结合，保证了分类的准确性和数据之间的强关联性。

附图说明

图1 是本发明的流程图；

图2 是本发明中异维数据同维化方法流程图；

图3 是本发明中同维图像数据聚类与文本标签关联性检验示意图。

具体实施方法

下面结合附图和具体实施方式对本发明进一步详细描述：

步骤一：将输入的多媒体数据中(文字、图像、音频、视频)按数据类型分类为原始文本数据，原始图像数据，原始音频数据，原始视频数据。

步骤二：参见图2，设置图像数据维数（图像像素）标准值，建立带有文本标签的同维图像样本库，进行异维多媒体数据同维化处理，根据数据类型的不同的采用相对应的处理方法；

现有分类结果为组原始文本数据、组原始图像数据、组原始音频数据、组原始视频数据，将组原始文本数据处理为同维图像数据，将组原始图像数据处理为同维图像数据，将组原始音频数据处理为同维图像数据，将组原始视频数据处理为同维图像数据，详细步骤如下；

1）将原始文本数据处理为同维图像数据的过程和相关操作；

a）预处理，利用某种文本挖掘技术（如基于语义理解的文本挖掘），将原始文本数据中每组文本信息段落的关键词提取为标签；

b）将组文本数据根据标签关键词和样本库对应到同维图像数据，其中，一组文本可对应多个标签以及同维图像数据，对应的样本图像可表示为。

2）将原始图像数据处理为同维图像数据的过程和相关操作；

a）预处理原始图像数据，利用相关算法增强关键特征(如剔除背景区域)，得到处理后的图像；

b）对于图像，利用某种图像缩放技术（如双三次插值与小波逆向插值）缩放为同维图像数据（与样本库同维）；

c）将同维图像数据采用某种识别方法(如基于视觉信息的图像特征提取算法)与样本库比对，获得图像的文本标签，结果存放于。

3）将原始音频数据处理为同维图像数据的过程和相关操作；

a）预处理原始音频数据，利用相关算法提取音频场景（如基于概率潜在语义分析的音频场景识别方法），语言语义（如基于神经网络的语音识别）等关键特征，得到提取的文本标签；

b）对于提取的文本标签，文本标签与样本库对应，得到同维图像数据，其中，同组音频可对应多个标签以及同维图像数据，对应的多个样本图像可表示为。

4）将原始视频数据处理为同维图像数据的过程和相关操作；

a）预处理原始视频数据，利用某一场景分割算法（如基于语义的视频场景分割算法），对于每一视频，得到分割场景后个视频片段；

b）对于的每个视频片段，采用某一关键帧提取方法（如基于聚类算法的多特征融合关键帧提取），获得关键帧图像，每一视频的关键帧图像的集合记为；

c）对于关键帧图像，利用相关算法增强关键特征（如剔除背景区域）；

d）对已处理的图像利用某种图像缩放技术（如双三次插值与小波逆向插值）缩放为同维图像数据（与样本库同维）；

e）将同维图像数据，采用某种识别方法与样本库比对，获得图像的文本标签，结果存放于。

步骤三：参见图3，对已处理的同维图像数据，根据聚类所需要的准确度确定阈值，按照某种图像聚类算法进行聚类（如基于遗传算法的图像聚类），根据每类数据的文本标签进行文本标签关联性检验，将不满足条件的数据再次聚类，直到不满足条件的数据数量小于阈值，可得索引，为类同维图像数据的地址，详细步骤如下：

1）对已处理的同维图像数据，根据聚类所需要的准确度确定阈值，越小，分类数量越多，分类越精确，反之，分类数量越少；

2）按照某种图像聚类算法进行聚类（如基于遗传算法的图像聚类），存储已聚类的同维图像地址，对于已聚类的同一类同维图像，提取其对应的文本标签，进行文本标签与图像聚类结果的文本标签关联性检验；

3）对于已聚类的同维图像数据，若不满足文本标签关联性检验条件的数量大于阈值，则将不满足条件的数据剔除本类，重新成为未聚类的同维图像数据，并按照相同或不同的聚类方法再次聚类，直到不满足条件的数据数量小于阈值；

4）将分类结果以地址的形式存储，得到索引，为类同维图像数据的地址。

步骤四：对已聚类的同维图像数据，按照某一融合规则（如选取目标较多一幅图像），进行融合，从而得到每一类同维图像数据的融合图像；

依次按索引取出类同维图像数据，按照某一融合规则，进行融合，从而得到每一类同维图像数据的融合图像。

步骤五：根据每一类同维图像数据的融合图像以及索引，生成信息摘要；

将获得的融合图像以及索引生成信息摘要，用户可查看融合图像，访问对应的多媒体数据。

Claims

1.一种结合跨媒体融合的信息摘要提取方法，其特征在于，首先将输入的多媒体数据，包括文字、图像、音频、视频，按数据类型将其分类；再将异维多媒体数据同维化并建立数据的文本标签，获得同维图像和文本标签；然后将同维图像数据聚类并进行文本标签的关联性检验；再分类别融合若干张同维图像为一副图像；最后生成跨媒体信息摘要；所述方法至少包括以下步骤：

步骤一：将输入的多媒体数据中，包括文字、图像、音频、视频，按数据类型分类为原始文本数据T{T₁，T₂，T₃，...，T_t}，原始图像数据P{P₁，P₂，P₃，...，P_p}，原始音频数据A{A₁，A₂，A₃，...，A_a}，原始视频数据V{V₁，V₂，V₃，...，V_v}；

步骤二：设置图像数据维数(图像像素)标准值，建立带有文本标签的同维图像样本库，进行异维多媒体数据同维化处理，根据数据类型的不同采用相对应的处理方法；

1)将原始文本数据T{T₁，T₂，T₃，...，T_t}处理为同维图像数据Ft{F_t1,F_t2,F_t3,...,F_tt}，步骤包含，预处理，利用文本挖掘技术，将原始文本数据T{T₁，T₂，T₃，...，T_t}中每组文本信息段落的关键词提取为标签L_t{L_t1，L_t2，L_t3，...，L_tt}；然后将T组文本数据根据标签关键词和样本库对应到同维图像数据F_t{F_t1,F_t2,F_t3,...,F_tt}，其中，一组文本可对应多个标签以及同维图像数据；

2)将原始图像数据P{P₁,P₂,P₃,...,P_p}处理为同维图像数据F_p{F_p1，F_p2，F_p3，...，F_pp}，步骤包括：预处理原始图像数据P{P₁，P₂，P₃，...，P_p}，利用相关算法增强关键特征，得到处理后的图像P′{P′₁，P′₂，P′₃，...，P′_p}；对于图像P′{P′₁，P′₂，P′₃，...，P′_p}，利用图像缩放技术缩放为同维图像数据F_p{F_p1，F_p2，F_p3，...，F_pp}(与样本库同维)；将同维图像数据F_p{F_p1，F_p2，F_p3，...，F_pp}采用图像识别方法与样本库比对，获得图像的文本标签，结果存放于L_p{L_p1，L_p2，L_p3，...，L_pp}；

3)将原始音频数据A{A₁，A₂，A₃，...，A_a}处理为同维图像数据F_a{F_a1，F_a2，F_a3，...，F_aa}，步骤包含：预处理原始音频数据A{A₁，A₂，A₃，...，A_a}，利用相关算法提取音频场景，语言语义特征，得到提取的文本标签L_a{L_a1，L_a2，L_a3，...，L_aa}；

对于提取的文本标签L_a{L_a1，L_a2，L_a3，...，L_aa}，文本标签与样本库对应，得到同维图像数据F_a{F_a1，F_a2，F_a3，...，F_aa}，其中，同组音频可对应多个标签以及同维图像数据；

4)将原始视频数据V{V₁，V₂，V₃，...，V_v}处理为同维图像数据F_v{F_v1，F_v2，F_v3，...，F_vv}，步骤包含：预处理原始视频数据V_i{V₁，V₂，V₃，...，V_v}，利用场景分割算法，对于每一视频V_i，得到分割场景后j个视频片段V_ij{V_i1，V_i2，V_i3，...，V_ij}；

对于的每个视频片段V_ij，采用关键帧提取方法，获得关键帧图像SV_ij，每一视频的关键帧图像的集合记为SV{SV₁，SV₂，SV₃，...，SV_v}；

对于关键帧图像SV{SV₁，SV₂，SV₃，...，SV_v}，利用相关算法增强关键特征；

对已处理的图像利用图像缩放技术缩放为同维图像数据F_v{F_v1，F_v2，F_v3，...，F_vv}(与样本库同维)；

将同维图像数据F_v{F_v1，F_v2，F_v3，...，F_vv}，采用图像识别方法与样本库比对，获得图像的文本标签，结果存放于L_v{L_v1，L_v2，L_v3，...，L_vv}；

步骤三：对已处理的同维图像数据，根据聚类所需要的准确度确定阈值N，按照图像聚类算法进行聚类，根据每类数据的文本标签进行文本标签关联性检验，将不满足条件的数据再次聚类，直到不满足条件的数据数量小于阈值N，可得m类同维图像数据C{C₁，C₂，C₃，...，C_m}的地址，即索引K{K₁，K₂，K₃，...，K_m}；

步骤四：对已聚类的同维图像数据，按照一种融合规则，进行融合，从而得到每一类同维图像数据的融合图像F_C{F_C1，F_C2，F_C3，...，F_Cm}；

2.根据权利要求1所述的一种结合跨媒体融合的信息摘要提取方法，其特征在于步骤三中对同维图像聚类以及建立索引的过程，至少还包括以下步骤：

1)对已处理的同维图像数据，根据聚类所需要的准确度确定阈值N(N＞0，N∈Z)，N越小，分类数量越多，分类越精确，反之，分类数量越少；

2)按照图像聚类算法进行聚类，存储已聚类的同维图像地址，对于已聚类的同一类同维图像，提取其对应的文本标签，进行文本标签与图像聚类结果的关联性检验；

3)对于已聚类的同维图像数据，若不满足检验条件的数量大于阈值N，则将不满足条件的数据剔除本类，重新成为未聚类的同维图像数据，并按照相同或不同的方法再次聚类，直到不满足条件的数据数量小于阈值N；

4)将分类结果以地址的形式存储，得到索引K{K₁,K₂,K₃,...,K_m}，为m类同维图像数据C{C₁,C₂,C₃,...,C_m}的地址。

3.根据权利要求1所述的一种结合跨媒体融合的信息摘要提取方法，其特征在于步骤四中分类别融合同维图像数据为一幅的过程，至少还包括以下步骤：

1)依次按索引K{K₁,K₂,K₃,...,K_m}取出m类同维图像数据C{C₁，C₂，C₃，...，C_m}，按照一种融合规则，进行融合，从而得到每一类同维图像数据的融合图像F_C{F_C1，F_C2，F_C3，...，F_Cm}。

4.根据权利要求1所述的一种结合跨媒体融合的信息摘要提取方法，其特征在于步骤五中根据每一类信息的融合同维图像以及索引，生成信息摘要的过程，至少还包括以下步骤：

1)将获得的融合图像F_C{F_C1，F_C2，F_C3，...，F_Cm}以及索引K{K₁，K₂，K₃，...，K_m}生成信息摘要I{I₁{F_C1，K₁}，I₂{F_C2，K₂}，...}。