CN102136001A - 一种多媒体信息模糊检索方法 - Google Patents

一种多媒体信息模糊检索方法 Download PDF

Info

Publication number
CN102136001A
CN102136001A CN2011100730481A CN201110073048A CN102136001A CN 102136001 A CN102136001 A CN 102136001A CN 2011100730481 A CN2011100730481 A CN 2011100730481A CN 201110073048 A CN201110073048 A CN 201110073048A CN 102136001 A CN102136001 A CN 102136001A
Authority
CN
China
Prior art keywords
information
time point
phoneme
confidence
retrieved
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011100730481A
Other languages
English (en)
Other versions
CN102136001B (zh
Inventor
伍昕
吴鹏
刘赵杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TVMining Beijing Media Technology Co Ltd
Original Assignee
TVMining Beijing Media Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TVMining Beijing Media Technology Co Ltd filed Critical TVMining Beijing Media Technology Co Ltd
Priority to CN 201110073048 priority Critical patent/CN102136001B/zh
Publication of CN102136001A publication Critical patent/CN102136001A/zh
Application granted granted Critical
Publication of CN102136001B publication Critical patent/CN102136001B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多媒体信息模糊检索方法,首先采集音视频数据,获取音频数据的Lattice结果,根据时间点信息和匹配似然值打分信息,获得置信度打分信息,采用更强的语音模型对多候选信息进行重新排序,并给出最优识别结果,建立字词级和音素级索引库,生成原始信息库,输入待检索文本和时间点信息,转成音素序列,并利用音素混淆矩阵,获得类似的音素序列,拆分成多个音素组合,分别进入后向索引库进行查询,再进入原始信息库进行精确匹配,返回候选位置。采用了本发明的技术方案,能够最大限度地增加检索到的数量,并在保证***性能的前提下,极大提高检索速度。

Description

一种多媒体信息模糊检索方法
技术领域
本发明涉及多媒体技术领域,尤其涉及一种多媒体信息模糊检索方法。
背景技术
伴随信息时代的发展、多媒体资料的增多,新闻广播节目日益呈现海量化的规模。相对比传统的报纸、杂志、书籍等文本信息,以及先进的互联网的丰富文本信息,音视频数据等多媒体资料具有更加丰富、生动的展现形式,也更有利于人们轻松地接受。但是,由于多媒体资料的多和杂,如何便捷的获取感兴趣的内容成为一个亟待解决的课题。通常做的方法是,用人工对这些资料进行信息提取,这样做很费时费力,因此近年来涌现了很多基于人工智能的技术来应用于该领域,其中最热门的就是语音识别技术。语音识别技术是一种语音到文本的转换技术,而变成了文本之后,就可以利用搜索技术进行全方位的索引和检索。
然而,语音识别技术并不是一个完全可靠的技术,针对其中的识别错误进行弥补来修正检索技术,是非常有必要的。随着自动语音识别技术的实用化和开源化,很多公司着手买入或者搭建适合自己领域和需求的自动语音识别***。利用语音识别技术对音视频资料中的文本进行识别,就可以获得该段资料中的文本信息,把这些文本信息输入到数据库中,就可以方便的进行检索。
常规的语音识别技术只能给出识别的最终汉字信息,一方面在具体索引词的定位精度上需要人工的判断、费时费力,另一方面受到语音识别性能的限制,索引和搜索的准确率也是很难控制的。例如某处北京被识别成了“毕竟”,那么当用户向搜索“北京”时就找不到这里了。有时候,“北京”可能被发成“北津”或者“北惊”,也是无法找到的。因此,传统的基于文本搜索的技术,性能将会受到语音识别的影响。
发明内容
本发明的目的在于提出一种多媒体信息模糊检索方法,能够最大限度地增加检索到的数量,并在保证***性能的前提下,极大提高检索速度。
为达此目的,本发明采用以下技术方案:
一种多媒体信息模糊检索方法,包括以下步骤:
A、采集音视频数据;
B、获取音频数据的Lattice结果,包括时间点信息和匹配似然值打分信息,并转成多候选信息;
C、根据时间点信息和匹配似然值打分信息,获得置信度打分信息;
D、采用更强的语音模型对多候选信息进行重新排序,并给出最优识别结果;
E、采用多候选信息、时间点信息和置信度打分信息建立字词级和音素级索引库,构成后向索引库,并将原始信息进行编码生成原始信息库;
F、输入待检索文本和时间点信息,将待检索文本转成音素序列,并利用音素混淆矩阵,获得类似的音素序列,拆分成不少于1个音素组合;
G、字和音素序列分别进入后向索引库进行查询,获得一组原始信息库的入口位置以及对应的置信度打分信息,按照置信度打分信息高低依次返回;
H、分别进入到原始信息库进行精确匹配,根据入口个数和置信度打分信息选择置信度阈值,返回大于置信度阈值的候选位置。
步骤A还包括以下步骤:
将音频数据格式转成WINDOWS WAV格式,采样率为16千赫。
步骤A中,采用电脑和电视卡的方式采集电视节目中的音频数据;采用收音机和声卡的方式采集广播信号中的音频数据。
步骤F中,根据字转音方式将待检索文本转成音素序列。
采用了本发明的技术方案,针对可能出现的语音识别错误类型,利用其在音素级别的相似性,并通过音素混淆矩阵引入的模糊化,能够最大限度的增加检索到的数量,同时针对音素级别重复率高的问题,引入多个音素组合建索引的方式,在保证***性能的前提下,大大提高了检索速度。
附图说明
图1是本发明具体实施方式中多媒体信息模糊检索的流程图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
图1是本发明具体实施方式中多媒体信息模糊检索的流程图。如图1所示,该多媒体信息检索流程包括以下步骤:
步骤101、采集音视频数据。采用电脑和电视卡的方式采集电视节目中的音频数据,采用收音机和声卡的方式采集广播信号中的音频数据,然后将音频数据格式转成WINDOWS WAV格式(pcm无压缩),采样率为16千赫。
由于电视卡以及声卡录制的格式是确定的,只需要针对特定格式进行编程转码即可。
步骤102、获取音频数据的Lattice结果,包括时间点信息、静音信息和匹配似然值打分信息,并转成多候选信息。
和通常的识别结果不同,本具体实施方式的识别结果并不是常规意义上的最优结果(又称1-Best),而是语音识别中保留的较丰富的解码路径,又称Lattice格式结果。该格式的主要特点是:含有丰富的时间点和静音信息、以及匹配似然值打分信息,并可以转成逐词多候选信息,或者称为混淆网络,以及最优结果,混淆网络上可以得到比最优识别结果更好的性能。
步骤103、根据时间点信息和匹配似然值打分信息,计算得到评估识别效果的打分,也称置信度打分信息。
步骤104、采用更强的语音模型对多候选信息进行重新排序,并给出最优识别结果。
步骤105、采用多候选信息、时间点信息和置信度打分信息建立字词级和音素级索引库,构成后向索引库,并将原始信息进行编码生成原始信息库。
在本步骤中,根据搜索引擎的原理,利用以上步骤得到的多重信息,对基本的索引级别进行索引。这里用到两层索引级别,分别是字词级和音素集,其中音素可以简单的理解为声母或者韵母。这种做法在搜索引擎中也是很少用到的,之所以增加了音素级的索引,主要是因为语音识别可能出现识别错误,同时这些识别错误和正确文本之间又有一定的相关性,例如音素还是比较相似的,根据常见的识别错误训练了音素混淆矩阵,因此有了音素级的索引,就可以利用音素混淆矩阵了。同时考虑到音素的出现频率远远高于单字,可以导致大量的候选结果而降低搜索效率,因此采用了多个音素组合的索引方法,可以在保证搜索质量的前提下,大大提高搜索效率。两层索引构成了后向索引库,它包含了时间点和置信度信息,同时把原始信息进行有效的编码压缩生成原始信息库。
步骤106、输入待检索文本和时间点信息,根据字转音方式(Grapheme-to-Phoneme, G2P)将待检索文本转成音素序列,并利用音素混淆矩阵,获得类似的音素序列,拆分成多个音素组合。
步骤107、字和音素序列分别进入后向索引库进行查询,获得一组原始信息库的入口位置以及对应的置信度打分信息,按照置信度打分信息高低依次返回。
步骤108、分别进入到原始信息库进行精确匹配,根据入口个数和置信度打分信息选择置信度阈值,返回大于置信度阈值的候选位置,供用户浏览,完成一次检索。
通过本具体实施方式,可以对多媒体信息进行更彻底的标注和建库,后期查询能更加精细、快捷地索引和定位到感兴趣的位置。利用音素级别的索引,可以大大增加查找到的多媒体信息,利用置信度信息,可以过滤掉识别不是很好的多媒体信息,以上两个技术都可以有效地回避因为语音识别的错误带来的检索错误。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (4)

1.一种多媒体信息模糊检索方法,其特征在于,包括以下步骤:
A、采集音视频数据;
B、获取音频数据的Lattice结果,包括时间点信息和匹配似然值打分信息,并转成多候选信息; 
C、根据时间点信息和匹配似然值打分信息,获得置信度打分信息;
D、采用更强的语音模型对多候选信息进行重新排序,并给出最优识别结果;
E、采用多候选信息、时间点信息和置信度打分信息建立字词级和音素级索引库,构成后向索引库,并将多媒体数据进行编码生成多媒体数据库;
F、输入待检索文本和时间点信息,将待检索文本转成音素序列,并利用音素混淆矩阵,获得类似的音素序列,拆分成不少于1个音素组合;
G、字和音素序列分别进入后向索引库进行查询,获得一组原始信息库的入口位置以及对应的置信度打分信息,按照置信度打分信息高低依次返回;
H、分别进入到原始信息库进行精确匹配,根据入口个数和置信度打分信息选择置信度阈值,返回大于置信度阈值的候选位置。
2.根据权利要求1所述的一种多媒体信息模糊检索方法,其特征在于,步骤A还包括以下步骤:
将音频数据格式转成WINDOWS WAV格式,采样率为16千赫。
3.根据权利要求1所述的一种多媒体信息模糊检索方法,其特征在于,步骤A中,采用电脑和电视卡的方式采集电视节目中的音频数据;采用收音机和声卡的方式采集广播信号中的音频数据。
4.根据权利要求1所述的一种多媒体信息模糊检索方法,其特征在于,步骤F中,根据字转音方式将待检索文本转成音素序列。
CN 201110073048 2011-03-25 2011-03-25 一种多媒体信息模糊检索方法 Expired - Fee Related CN102136001B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110073048 CN102136001B (zh) 2011-03-25 2011-03-25 一种多媒体信息模糊检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110073048 CN102136001B (zh) 2011-03-25 2011-03-25 一种多媒体信息模糊检索方法

Publications (2)

Publication Number Publication Date
CN102136001A true CN102136001A (zh) 2011-07-27
CN102136001B CN102136001B (zh) 2012-12-26

Family

ID=44295787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110073048 Expired - Fee Related CN102136001B (zh) 2011-03-25 2011-03-25 一种多媒体信息模糊检索方法

Country Status (1)

Country Link
CN (1) CN102136001B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164403A (zh) * 2011-12-08 2013-06-19 深圳市北科瑞声科技有限公司 视频索引数据的生成方法和***
CN103500579A (zh) * 2013-10-10 2014-01-08 中国联合网络通信集团有限公司 语音识别方法、装置及***
CN104008132A (zh) * 2014-05-04 2014-08-27 深圳市北科瑞声科技有限公司 语音地图搜索方法及***
CN112906369A (zh) * 2021-02-19 2021-06-04 脸萌有限公司 一种歌词文件生成方法及装置
CN113096242A (zh) * 2021-04-29 2021-07-09 平安科技(深圳)有限公司 虚拟主播生成方法、装置、电子设备及存储介质
CN113744718A (zh) * 2020-05-27 2021-12-03 海尔优家智能科技(北京)有限公司 语音文本的输出方法及装置、存储介质、电子装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477527A (zh) * 2008-12-30 2009-07-08 深圳市迅雷网络技术有限公司 一种检索多媒体资源的方法及装置
CN101552003A (zh) * 2009-02-25 2009-10-07 北京派瑞根科技开发有限公司 一种媒体信息处理方法
CN101916251A (zh) * 2009-03-26 2010-12-15 富士通株式会社 多媒体集成检索装置和多媒体集成检索程序的存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477527A (zh) * 2008-12-30 2009-07-08 深圳市迅雷网络技术有限公司 一种检索多媒体资源的方法及装置
CN101552003A (zh) * 2009-02-25 2009-10-07 北京派瑞根科技开发有限公司 一种媒体信息处理方法
CN101916251A (zh) * 2009-03-26 2010-12-15 富士通株式会社 多媒体集成检索装置和多媒体集成检索程序的存储介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164403A (zh) * 2011-12-08 2013-06-19 深圳市北科瑞声科技有限公司 视频索引数据的生成方法和***
CN103164403B (zh) * 2011-12-08 2016-03-16 深圳市北科瑞声科技有限公司 视频索引数据的生成方法和***
CN103500579A (zh) * 2013-10-10 2014-01-08 中国联合网络通信集团有限公司 语音识别方法、装置及***
CN103500579B (zh) * 2013-10-10 2015-12-23 中国联合网络通信集团有限公司 语音识别方法、装置及***
CN104008132A (zh) * 2014-05-04 2014-08-27 深圳市北科瑞声科技有限公司 语音地图搜索方法及***
CN113744718A (zh) * 2020-05-27 2021-12-03 海尔优家智能科技(北京)有限公司 语音文本的输出方法及装置、存储介质、电子装置
CN112906369A (zh) * 2021-02-19 2021-06-04 脸萌有限公司 一种歌词文件生成方法及装置
CN113096242A (zh) * 2021-04-29 2021-07-09 平安科技(深圳)有限公司 虚拟主播生成方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN102136001B (zh) 2012-12-26

Similar Documents

Publication Publication Date Title
CN101382937B (zh) 基于语音识别的多媒体资源处理方法及其在线教学***
CN102122506B (zh) 一种语音识别的方法
CN102136001B (zh) 一种多媒体信息模糊检索方法
CN103761261B (zh) 一种基于语音识别的媒体搜索方法及装置
CN101464896B (zh) 语音模糊检索方法及装置
CN101326572B (zh) 具有巨大词汇量的语音识别***
CN113326387B (zh) 一种会议信息智能检索方法
CN105159870A (zh) 一种精准完成连续自然语音文本化的处理***及方法
CN102667773A (zh) 搜索设备、搜索方法及程序
CN103730115A (zh) 一种语音中检测关键词的方法和装置
JP5296598B2 (ja) 音声情報抽出装置
US20150371627A1 (en) Voice dialog system using humorous speech and method thereof
Levin et al. Automated closed captioning for Russian live broadcasting
CN106550268B (zh) 视频处理方法和视频处理装置
CN115455946A (zh) 语音识别纠错方法、装置、电子设备和存储介质
CN114547373A (zh) 一种基于音频智能识别搜索节目的方法
JP2019020597A (ja) エンドツーエンド日本語音声認識モデル学習装置およびプログラム
WO2008100037A1 (en) The system and method for generating indexing information of multimedia data file using vocal data and retrieving indexing information of multimedia data file
Servan et al. Conceptual decoding from word lattices: application to the spoken dialogue corpus media
Salimbajevs Creating Lithuanian and Latvian speech corpora from inaccurately annotated web data
CN102117335B (zh) 一种多媒体信息检索的方法
US20050125224A1 (en) Method and apparatus for fusion of recognition results from multiple types of data sources
WO2007105615A1 (ja) 要求内容識別システム、自然言語による要求内容の識別方法及びプログラム
de Jong et al. OLIVE: Speech-based video retrieval
Nouza et al. Large-scale processing, indexing and search system for Czech audio-visual cultural heritage archives

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Multi-media information fuzzy search method

Effective date of registration: 20130605

Granted publication date: 20121226

Pledgee: Zhongguancun Beijing technology financing Company limited by guarantee

Pledgor: TVMining (Beijing) Media Technology Co., Ltd.

Registration number: 2013990000345

PLDC Enforcement, change and cancellation of contracts on pledge of patent right or utility model
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121226

Termination date: 20210325

CF01 Termination of patent right due to non-payment of annual fee