CN104679902B - 一种结合跨媒体融合的信息摘要提取方法 - Google Patents

一种结合跨媒体融合的信息摘要提取方法 Download PDF

Info

Publication number
CN104679902B
CN104679902B CN201510123093.1A CN201510123093A CN104679902B CN 104679902 B CN104679902 B CN 104679902B CN 201510123093 A CN201510123093 A CN 201510123093A CN 104679902 B CN104679902 B CN 104679902B
Authority
CN
China
Prior art keywords
image
data
dimensional data
text label
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510123093.1A
Other languages
English (en)
Other versions
CN104679902A (zh
Inventor
裴廷睿
赵津锋
李哲涛
崔荣峻
吴相润
关屋大雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiangtan University
Original Assignee
Xiangtan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiangtan University filed Critical Xiangtan University
Priority to CN201510123093.1A priority Critical patent/CN104679902B/zh
Publication of CN104679902A publication Critical patent/CN104679902A/zh
Application granted granted Critical
Publication of CN104679902B publication Critical patent/CN104679902B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种结合跨媒体融合的信息摘要提取方法。首先将输入的多媒体数据(文字、图像、音频、视频等)按数据类型将其分类;再将异构多媒体数据同维化并建立数据的文本标签,获得同维图像和文本标签;然后将同维图像数据聚类并进行文本标签的关联性检验;再分类别融合若干张同维图像为一副图像;最后生成跨媒体信息摘要。用户通过信息摘要可查看每类信息的融合图像,并可快速访问对应的多媒体数据。

Description

一种结合跨媒体融合的信息摘要提取方法
技术领域
本发明涉及一种结合跨媒体融合的信息摘要提取方法,属于信息提取领域。
背景技术
我们生活在一个信息时代,海量信息扩增,互联网每天在新增大量的信息,而信息的存储方式日渐多样化,文本、图像、音频、视频是多媒体资源的基本存在形式。如今多种类型媒体数据混合并存,媒体数据组织结构复杂,但不同类型的媒体数据从不同侧面表达同一语义,信息提取中需要根据媒体之间存在的各种联系,从一种媒体跨越到另一种媒体。因此,如何跨越媒体之间的界限,如何提取多种媒体之间的潜在关联性,成为目前信息提取所面临的挑战。
对于多种媒体形式混合并存的大数据,现有方法主要是通过同一种媒体的特征辨识来实现的,难以跨越多媒体之间的语义鸿沟,例如图像的视觉特征与音频的听觉特征之间的特征维数不同而无法直接度量他们之间的相似性,因此,现有信息提取方法不能很好为用户提供直观缩略图(或信息摘要),如何将混合的大量多媒体数据分类与提取,成为信息提取亟需解决的关键技术难题之一,也是目前所研究的热门课题。
现有的成熟文本挖掘技术、图像特征提取算法、音频场景识别、语音识别、视频场景分割、关键帧提取等方法可以提取单一媒体的语义信息,如何将这些算法加以结合,将不同维数的特征信息提取,形成处理多媒体的信息提取***,我们通过图像这一中间维数的媒体来解决此问题。
发明内容
针对上述问题,本发明提出一种结合跨媒体融合的信息摘要提取方法。通过采用将异维数据同维化为图像的方法,解决了难以跨越多媒体语义鸿沟的问题。通过图像聚类方法,从而间接的将多媒体数据分类和提取,生成跨媒体信息摘要。
本发明提出了一种结合跨媒体融合的信息摘要提取方法。首先将输入的多媒体数据(文字、图像、音频、视频等)按数据类型将其分类;再将异维多媒体数据同维化并建立数据的文本标签,获得同维图像和文本标签;然后将同维图像数据聚类并进行文本标签的关联性检验;再分类别融合若干张同维图像为一副图像;最后生成跨媒体信息摘要。用户通过信息摘要可查看每类信息的融合图像,并可快速访问对应的多媒体数据。
本发明提出一种结合跨媒体融合的信息摘要提取方法,包括以下步骤:
步骤一:将输入的多媒体数据中(文字、图像、音频、视频)按数据类型分类为原始文本数据,原始图像数据,原始音频数据,原始视频数据
步骤二:设置图像数据维数(图像像素)标准值,建立带有文本标签的同维图像样本库,进行异维多媒体数据同维化处理,根据数据类型的不同采用相对应的处理方法;
步骤三:对已处理的同维图像数据,根据聚类所需要的准确度确定阈值,按照图像聚类算法进行聚类,根据每类数据的文本标签进行文本标签关联性检验,将不满足条件的数据再次聚类,直到不满足条件的数据数量小于阈值,可得类同维图像数据的地址,即索引
步骤四:对已聚类的同维图像数据,按照一种融合规则,进行融合,从而得到每一类同维图像数据的融合图像
步骤五:根据每一类同维图像数据的融合图像以及索引,生成信息摘要。
与现有方法相比,本发明的优势在于:
1、 将异维的多媒体数据语义用同维图像数据表达,跨越了多种媒体之间的界限,并运用图像处理的相关算法处理多媒体数据;
2、 图像聚类方法与文本标签关联性检验相结合,保证了分类的准确性和数据之间的强关联性。
附图说明
图1 是本发明的流程图;
图2 是本发明中异维数据同维化方法流程图;
图3 是本发明中同维图像数据聚类与文本标签关联性检验示意图。
具体实施方法
下面结合附图和具体实施方式对本发明进一步详细描述:
步骤一:将输入的多媒体数据中(文字、图像、音频、视频)按数据类型分类为原始文本数据,原始图像数据,原始音频数据,原始视频数据
步骤二:参见图2,设置图像数据维数(图像像素)标准值,建立带有文本标签的同维图像样本库,进行异维多媒体数据同维化处理,根据数据类型的不同的采用相对应的处理方法;
现有分类结果为组原始文本数据、组原始图像数据、组原始音频数据、组原始视频数据,将组原始文本数据处理为同维图像数据,将组原始图像数据处理为同维图像数据,将组原始音频数据处理为同维图像数据,将组原始视频数据处理为同维图像数据,详细步骤如下;
1)将原始文本数据处理为同维图像数据的过程和相关操作;
a)预处理,利用某种文本挖掘技术(如基于语义理解的文本挖掘),将原始文本数据中每组文本信息段落的关键词提取为标签
b)将组文本数据根据标签关键词和样本库对应到同维图像数据,其中,一组文本可对应多个标签以及同维图像数据,对应的样本图像可表示为
2)将原始图像数据处理为同维图像数据的过程和相关操作;
a)预处理原始图像数据,利用相关算法增强关键特征(如剔除背景区域),得到处理后的图像
b)对于图像,利用某种图像缩放技术(如双三次插值与小波逆向插值)缩放为同维图像数据(与样本库同维);
c)将同维图像数据采用某种识别方法(如基于视觉信息的图像特征提取算法)与样本库比对,获得图像的文本标签,结果存放于
3)将原始音频数据处理为同维图像数据的过程和相关操作;
a)预处理原始音频数据,利用相关算法提取音频场景(如基于概率潜在语义分析的音频场景识别方法),语言语义(如基于神经网络的语音识别)等关键特征,得到提取的文本标签
b)对于提取的文本标签,文本标签与样本库对应,得到同维图像数据,其中,同组音频可对应多个标签以及同维图像数据,对应的多个样本图像可表示为
4)将原始视频数据处理为同维图像数据的过程和相关操作;
a)预处理原始视频数据,利用某一场景分割算法(如基于语义的视频场景分割算法),对于每一视频,得到分割场景后个视频片段
b)对于的每个视频片段,采用某一关键帧提取方法(如基于聚类算法的多特征融合关键帧提取),获得关键帧图像,每一视频的关键帧图像的集合记为
c)对于关键帧图像,利用相关算法增强关键特征(如剔除背景区域);
d)对已处理的图像利用某种图像缩放技术(如双三次插值与小波逆向插值)缩放为同维图像数据(与样本库同维);
e)将同维图像数据,采用某种识别方法与样本库比对,获得图像的文本标签,结果存放于
步骤三:参见图3,对已处理的同维图像数据,根据聚类所需要的准确度确定阈值,按照某种图像聚类算法进行聚类(如基于遗传算法的图像聚类),根据每类数据的文本标签进行文本标签关联性检验,将不满足条件的数据再次聚类,直到不满足条件的数据数量小于阈值,可得索引,为类同维图像数据的地址,详细步骤如下:
1)对已处理的同维图像数据,根据聚类所需要的准确度确定阈值越小,分类数量越多,分类越精确,反之,分类数量越少;
2)按照某种图像聚类算法进行聚类(如基于遗传算法的图像聚类),存储已聚类的同维图像地址,对于已聚类的同一类同维图像,提取其对应的文本标签,进行文本标签与图像聚类结果的文本标签关联性检验;
3)对于已聚类的同维图像数据,若不满足文本标签关联性检验条件的数量大于阈值,则将不满足条件的数据剔除本类,重新成为未聚类的同维图像数据,并按照相同或不同的聚类方法再次聚类,直到不满足条件的数据数量小于阈值
4)将分类结果以地址的形式存储,得到索引,为类同维图像数据的地址。
步骤四:对已聚类的同维图像数据,按照某一融合规则(如选取目标较多一幅图像),进行融合,从而得到每一类同维图像数据的融合图像
依次按索引取出类同维图像数据,按照某一融合规则,进行融合,从而得到每一类同维图像数据的融合图像
步骤五:根据每一类同维图像数据的融合图像以及索引,生成信息摘要;
将获得的融合图像以及索引生成信息摘要,用户可查看融合图像,访问对应的多媒体数据。

Claims (4)

1.一种结合跨媒体融合的信息摘要提取方法,其特征在于,首先将输入的多媒体数据,包括文字、图像、音频、视频,按数据类型将其分类;再将异维多媒体数据同维化并建立数据的文本标签,获得同维图像和文本标签;然后将同维图像数据聚类并进行文本标签的关联性检验;再分类别融合若干张同维图像为一副图像;最后生成跨媒体信息摘要;所述方法至少包括以下步骤:
步骤一:将输入的多媒体数据中,包括文字、图像、音频、视频,按数据类型分类为原始文本数据T{T1,T2,T3,...,Tt},原始图像数据P{P1,P2,P3,...,Pp},原始音频数据A{A1,A2,A3,...,Aa},原始视频数据V{V1,V2,V3,...,Vv};
步骤二:设置图像数据维数(图像像素)标准值,建立带有文本标签的同维图像样本库,进行异维多媒体数据同维化处理,根据数据类型的不同采用相对应的处理方法;
1)将原始文本数据T{T1,T2,T3,...,Tt}处理为同维图像数据Ft{Ft1,Ft2,Ft3,...,Ftt},步骤包含,预处理,利用文本挖掘技术,将原始文本数据T{T1,T2,T3,...,Tt}中每组文本信息段落的关键词提取为标签Lt{Lt1,Lt2,Lt3,...,Ltt};然后将T组文本数据根据标签关键词和样本库对应到同维图像数据Ft{Ft1,Ft2,Ft3,...,Ftt},其中,一组文本可对应多个标签以及同维图像数据;
2)将原始图像数据P{P1,P2,P3,...,Pp}处理为同维图像数据Fp{Fp1,Fp2,Fp3,...,Fpp},步骤包括:预处理原始图像数据P{P1,P2,P3,...,Pp},利用相关算法增强关键特征,得到处理后的图像P′{P′1,P′2,P′3,...,P′p};对于图像P′{P′1,P′2,P′3,...,P′p},利用图像缩放技术缩放为同维图像数据Fp{Fp1,Fp2,Fp3,...,Fpp}(与样本库同维);将同维图像数据Fp{Fp1,Fp2,Fp3,...,Fpp}采用图像识别方法与样本库比对,获得图像的文本标签,结果存放于Lp{Lp1,Lp2,Lp3,...,Lpp};
3)将原始音频数据A{A1,A2,A3,...,Aa}处理为同维图像数据Fa{Fa1,Fa2,Fa3,...,Faa},步骤包含:预处理原始音频数据A{A1,A2,A3,...,Aa},利用相关算法提取音频场景,语言语义特征,得到提取的文本标签La{La1,La2,La3,...,Laa};
对于提取的文本标签La{La1,La2,La3,...,Laa},文本标签与样本库对应,得到同维图像数据Fa{Fa1,Fa2,Fa3,...,Faa},其中,同组音频可对应多个标签以及同维图像数据;
4)将原始视频数据V{V1,V2,V3,...,Vv}处理为同维图像数据Fv{Fv1,Fv2,Fv3,...,Fvv},步骤包含:预处理原始视频数据Vi{V1,V2,V3,...,Vv},利用场景分割算法,对于每一视频Vi,得到分割场景后j个视频片段Vij{Vi1,Vi2,Vi3,...,Vij};
对于的每个视频片段Vij,采用关键帧提取方法,获得关键帧图像SVij,每一视频的关键帧图像的集合记为SV{SV1,SV2,SV3,...,SVv};
对于关键帧图像SV{SV1,SV2,SV3,...,SVv},利用相关算法增强关键特征;
对已处理的图像利用图像缩放技术缩放为同维图像数据Fv{Fv1,Fv2,Fv3,...,Fvv}(与样本库同维);
将同维图像数据Fv{Fv1,Fv2,Fv3,...,Fvv},采用图像识别方法与样本库比对,获得图像的文本标签,结果存放于Lv{Lv1,Lv2,Lv3,...,Lvv};
步骤三:对已处理的同维图像数据,根据聚类所需要的准确度确定阈值N,按照图像聚类算法进行聚类,根据每类数据的文本标签进行文本标签关联性检验,将不满足条件的数据再次聚类,直到不满足条件的数据数量小于阈值N,可得m类同维图像数据C{C1,C2,C3,...,Cm}的地址,即索引K{K1,K2,K3,...,Km};
步骤四:对已聚类的同维图像数据,按照一种融合规则,进行融合,从而得到每一类同维图像数据的融合图像FC{FC1,FC2,FC3,...,FCm};
步骤五:根据每一类同维图像数据的融合图像以及索引,生成信息摘要。
2.根据权利要求1所述的一种结合跨媒体融合的信息摘要提取方法,其特征在于步骤三中对同维图像聚类以及建立索引的过程,至少还包括以下步骤:
1)对已处理的同维图像数据,根据聚类所需要的准确度确定阈值N(N>0,N∈Z),N越小,分类数量越多,分类越精确,反之,分类数量越少;
2)按照图像聚类算法进行聚类,存储已聚类的同维图像地址,对于已聚类的同一类同维图像,提取其对应的文本标签,进行文本标签与图像聚类结果的关联性检验;
3)对于已聚类的同维图像数据,若不满足检验条件的数量大于阈值N,则将不满足条件的数据剔除本类,重新成为未聚类的同维图像数据,并按照相同或不同的方法再次聚类,直到不满足条件的数据数量小于阈值N;
4)将分类结果以地址的形式存储,得到索引K{K1,K2,K3,...,Km},为m类同维图像数据C{C1,C2,C3,...,Cm}的地址。
3.根据权利要求1所述的一种结合跨媒体融合的信息摘要提取方法,其特征在于步骤四中分类别融合同维图像数据为一幅的过程,至少还包括以下步骤:
1)依次按索引K{K1,K2,K3,...,Km}取出m类同维图像数据C{C1,C2,C3,...,Cm},按照一种融合规则,进行融合,从而得到每一类同维图像数据的融合图像FC{FC1,FC2,FC3,...,FCm}。
4.根据权利要求1所述的一种结合跨媒体融合的信息摘要提取方法,其特征在于步骤五中根据每一类信息的融合同维图像以及索引,生成信息摘要的过程,至少还包括以下步骤:
1)将获得的融合图像FC{FC1,FC2,FC3,...,FCm}以及索引K{K1,K2,K3,...,Km}生成信息摘要I{I1{FC1,K1},I2{FC2,K2},...}。
CN201510123093.1A 2015-03-20 2015-03-20 一种结合跨媒体融合的信息摘要提取方法 Expired - Fee Related CN104679902B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510123093.1A CN104679902B (zh) 2015-03-20 2015-03-20 一种结合跨媒体融合的信息摘要提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510123093.1A CN104679902B (zh) 2015-03-20 2015-03-20 一种结合跨媒体融合的信息摘要提取方法

Publications (2)

Publication Number Publication Date
CN104679902A CN104679902A (zh) 2015-06-03
CN104679902B true CN104679902B (zh) 2017-11-28

Family

ID=53314944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510123093.1A Expired - Fee Related CN104679902B (zh) 2015-03-20 2015-03-20 一种结合跨媒体融合的信息摘要提取方法

Country Status (1)

Country Link
CN (1) CN104679902B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105142096B (zh) * 2015-08-14 2018-10-19 湘潭大学 物联网中基于神经网络的跨媒体数据融合方法
CN105245370B (zh) * 2015-10-13 2019-03-19 湘潭大学 一种物联网中自适应分层跨媒体数据融合方法
CN106815253B (zh) * 2015-12-01 2020-04-10 慧科讯业有限公司 一种基于混合数据类型数据的挖掘方法
CN105706088A (zh) * 2016-01-31 2016-06-22 深圳市博信诺达经贸咨询有限公司 大数据的应用方法及***
CN106686403B (zh) * 2016-12-07 2019-03-08 腾讯科技(深圳)有限公司 一种视频预览图生成方法、装置、服务器以及***
CN106997387B (zh) * 2017-03-28 2019-08-09 中国科学院自动化研究所 基于文本-图像匹配的多模态自动文摘方法
CN107437100A (zh) * 2017-08-08 2017-12-05 重庆邮电大学 一种基于跨模态关联学习的图像位置预测方法
CN107885845B (zh) * 2017-11-10 2020-11-17 广州酷狗计算机科技有限公司 音频分类方法及装置、计算机设备及存储介质
CN108388942A (zh) * 2018-02-27 2018-08-10 四川云淞源科技有限公司 基于大数据的信息智能处理方法
CN110472075A (zh) * 2018-05-09 2019-11-19 中国互联网络信息中心 一种基于机器学习的异构数据分类存储方法及***
CN109299315B (zh) 2018-09-03 2023-03-28 腾讯科技(深圳)有限公司 多媒体资源分类方法、装置、计算机设备及存储介质
CN110489475B (zh) * 2019-08-14 2021-01-26 广东电网有限责任公司 一种多源异构数据处理方法、***及相关装置
CN110532426A (zh) * 2019-08-27 2019-12-03 新华智云科技有限公司 一种基于模板抽取多媒体素材生成视频的方法及***
CN110837560B (zh) * 2019-11-15 2022-03-15 北京字节跳动网络技术有限公司 标签挖掘方法、装置、设备、存储介质
CN111291204B (zh) * 2019-12-10 2023-08-29 河北金融学院 一种多媒体数据融合方法及设备
CN111488490A (zh) * 2020-03-31 2020-08-04 北京奇艺世纪科技有限公司 视频聚类方法、装置、服务器及存储介质
CN111767395B (zh) * 2020-06-30 2023-12-26 平安国际智慧城市科技股份有限公司 基于图片的摘要生成方法与***
CN112925902B (zh) * 2021-02-22 2024-01-30 新智认知数据服务有限公司 案情文本中智能提取文本摘要的方法、***及电子设备
CN112860905A (zh) * 2021-04-08 2021-05-28 深圳壹账通智能科技有限公司 文本信息抽取方法、装置、设备及可读存储介质
CN113505201A (zh) * 2021-07-29 2021-10-15 宁波薄言信息技术有限公司 一种基于SegaBert预训练模型的合同抽取方法
CN117371533B (zh) * 2023-11-01 2024-05-24 深圳市马博士网络科技有限公司 一种生成数据标签规则的方法及装置
CN117573870B (zh) * 2023-11-20 2024-05-07 中国人民解放军国防科技大学 一种多模态数据的文本标签提取方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021849A (zh) * 2006-09-14 2007-08-22 浙江大学 基于内容相关性的跨媒体检索方法
CN102693321A (zh) * 2012-06-04 2012-09-26 常州南京大学高新技术研究院 一种跨媒体间信息分析与检索的方法
CN103646094A (zh) * 2013-12-18 2014-03-19 上海紫竹数字创意港有限公司 实现视听类产品内容摘要自动提取生成的***及方法
CN104166982A (zh) * 2014-06-30 2014-11-26 复旦大学 基于典型相关性分析的图像优化聚类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030004922A1 (en) * 2001-06-27 2003-01-02 Ontrack Data International, Inc. System and method for data management

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101021849A (zh) * 2006-09-14 2007-08-22 浙江大学 基于内容相关性的跨媒体检索方法
CN102693321A (zh) * 2012-06-04 2012-09-26 常州南京大学高新技术研究院 一种跨媒体间信息分析与检索的方法
CN103646094A (zh) * 2013-12-18 2014-03-19 上海紫竹数字创意港有限公司 实现视听类产品内容摘要自动提取生成的***及方法
CN104166982A (zh) * 2014-06-30 2014-11-26 复旦大学 基于典型相关性分析的图像优化聚类方法

Also Published As

Publication number Publication date
CN104679902A (zh) 2015-06-03

Similar Documents

Publication Publication Date Title
CN104679902B (zh) 一种结合跨媒体融合的信息摘要提取方法
Cheng et al. Scene recognition with objectness
Bielski et al. Emergence of object segmentation in perturbed generative models
CN104376105B (zh) 一种社会媒体中图像低层视觉特征与文本描述信息的特征融合***及方法
Zhu et al. Video synopsis by heterogeneous multi-source correlation
CN106709032A (zh) 抽取电子表格文档中结构化信息的方法及装置
CN107292642B (zh) 一种基于图像的商品推荐方法及***
Maigrot et al. Mediaeval 2016: A multimodal system for the verifying multimedia use task
Papadopoulos et al. Image clustering through community detection on hybrid image similarity graphs
Elkasrawi et al. What you see is what you get? Automatic Image Verification for Online News Content
CN108268875A (zh) 一种基于数据平滑的图像语义自动标注方法及装置
US12020484B2 (en) Methods and systems for grouping of media based on similarities between features of the media
US20150356353A1 (en) Method for identifying objects in an audiovisual document and corresponding device
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品
Wang et al. MindCamera: Interactive sketch-based image retrieval and synthesis
CN114463552A (zh) 迁移学习、行人重识别方法及相关设备
Wan et al. Efficient virtual data search for annotation‐free vehicle reidentification
Guo et al. Bag of surrogate parts feature for visual recognition
Luo et al. An optimization framework of video advertising: using deep learning algorithm based on global image information
CN110532449B (zh) 一种业务文档的处理方法、装置、设备和存储介质
Guo et al. Saliency detection on sampled images for tag ranking
CN115984547A (zh) 目标检测模型、训练方法及***、目标检测方法及***
Saravanan Segment based indexing technique for video data file
CN117648504A (zh) 媒体资源序列的生成方法、装置、计算机设备和存储介质
KR102444172B1 (ko) 영상 빅 데이터의 지능적 마이닝 방법과 처리 시스템

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171128

CF01 Termination of patent right due to non-payment of annual fee