CN102136001A

CN102136001A - 一种多媒体信息模糊检索方法

Info

Publication number: CN102136001A
Application number: CN2011100730481A
Authority: CN
Inventors: 伍昕; 吴鹏; 刘赵杰
Original assignee: TVMining Beijing Media Technology Co Ltd
Current assignee: TVMining Beijing Media Technology Co Ltd
Priority date: 2011-03-25
Filing date: 2011-03-25
Publication date: 2011-07-27
Anticipated expiration: 2031-03-25
Also published as: CN102136001B

Abstract

本发明公开了一种多媒体信息模糊检索方法，首先采集音视频数据，获取音频数据的Lattice结果，根据时间点信息和匹配似然值打分信息，获得置信度打分信息，采用更强的语音模型对多候选信息进行重新排序，并给出最优识别结果，建立字词级和音素级索引库，生成原始信息库，输入待检索文本和时间点信息，转成音素序列，并利用音素混淆矩阵，获得类似的音素序列，拆分成多个音素组合，分别进入后向索引库进行查询，再进入原始信息库进行精确匹配，返回候选位置。采用了本发明的技术方案，能够最大限度地增加检索到的数量，并在保证***性能的前提下，极大提高检索速度。

Description

一种多媒体信息模糊检索方法

技术领域

本发明涉及多媒体技术领域，尤其涉及一种多媒体信息模糊检索方法。

背景技术

伴随信息时代的发展、多媒体资料的增多，新闻广播节目日益呈现海量化的规模。相对比传统的报纸、杂志、书籍等文本信息，以及先进的互联网的丰富文本信息，音视频数据等多媒体资料具有更加丰富、生动的展现形式，也更有利于人们轻松地接受。但是，由于多媒体资料的多和杂，如何便捷的获取感兴趣的内容成为一个亟待解决的课题。通常做的方法是，用人工对这些资料进行信息提取，这样做很费时费力，因此近年来涌现了很多基于人工智能的技术来应用于该领域，其中最热门的就是语音识别技术。语音识别技术是一种语音到文本的转换技术，而变成了文本之后，就可以利用搜索技术进行全方位的索引和检索。

然而，语音识别技术并不是一个完全可靠的技术，针对其中的识别错误进行弥补来修正检索技术，是非常有必要的。随着自动语音识别技术的实用化和开源化，很多公司着手买入或者搭建适合自己领域和需求的自动语音识别***。利用语音识别技术对音视频资料中的文本进行识别，就可以获得该段资料中的文本信息，把这些文本信息输入到数据库中，就可以方便的进行检索。

常规的语音识别技术只能给出识别的最终汉字信息，一方面在具体索引词的定位精度上需要人工的判断、费时费力，另一方面受到语音识别性能的限制，索引和搜索的准确率也是很难控制的。例如某处北京被识别成了“毕竟”，那么当用户向搜索“北京”时就找不到这里了。有时候，“北京”可能被发成“北津”或者“北惊”，也是无法找到的。因此，传统的基于文本搜索的技术，性能将会受到语音识别的影响。

发明内容

本发明的目的在于提出一种多媒体信息模糊检索方法，能够最大限度地增加检索到的数量，并在保证***性能的前提下，极大提高检索速度。

为达此目的，本发明采用以下技术方案：

一种多媒体信息模糊检索方法，包括以下步骤：

A、采集音视频数据；

B、获取音频数据的Lattice结果，包括时间点信息和匹配似然值打分信息，并转成多候选信息；

C、根据时间点信息和匹配似然值打分信息，获得置信度打分信息；

D、采用更强的语音模型对多候选信息进行重新排序，并给出最优识别结果；

E、采用多候选信息、时间点信息和置信度打分信息建立字词级和音素级索引库，构成后向索引库，并将原始信息进行编码生成原始信息库；

F、输入待检索文本和时间点信息，将待检索文本转成音素序列，并利用音素混淆矩阵，获得类似的音素序列，拆分成不少于1个音素组合；

G、字和音素序列分别进入后向索引库进行查询，获得一组原始信息库的入口位置以及对应的置信度打分信息，按照置信度打分信息高低依次返回；

H、分别进入到原始信息库进行精确匹配，根据入口个数和置信度打分信息选择置信度阈值，返回大于置信度阈值的候选位置。

步骤A还包括以下步骤：

将音频数据格式转成WINDOWS WAV格式，采样率为16千赫。

步骤A中，采用电脑和电视卡的方式采集电视节目中的音频数据；采用收音机和声卡的方式采集广播信号中的音频数据。

步骤F中，根据字转音方式将待检索文本转成音素序列。

采用了本发明的技术方案，针对可能出现的语音识别错误类型，利用其在音素级别的相似性，并通过音素混淆矩阵引入的模糊化，能够最大限度的增加检索到的数量，同时针对音素级别重复率高的问题，引入多个音素组合建索引的方式，在保证***性能的前提下，大大提高了检索速度。

附图说明

图1是本发明具体实施方式中多媒体信息模糊检索的流程图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

图1是本发明具体实施方式中多媒体信息模糊检索的流程图。如图1所示，该多媒体信息检索流程包括以下步骤：

步骤101、采集音视频数据。采用电脑和电视卡的方式采集电视节目中的音频数据，采用收音机和声卡的方式采集广播信号中的音频数据，然后将音频数据格式转成WINDOWS WAV格式（pcm无压缩），采样率为16千赫。

由于电视卡以及声卡录制的格式是确定的，只需要针对特定格式进行编程转码即可。

步骤102、获取音频数据的Lattice结果，包括时间点信息、静音信息和匹配似然值打分信息，并转成多候选信息。

和通常的识别结果不同，本具体实施方式的识别结果并不是常规意义上的最优结果（又称1-Best），而是语音识别中保留的较丰富的解码路径，又称Lattice格式结果。该格式的主要特点是：含有丰富的时间点和静音信息、以及匹配似然值打分信息，并可以转成逐词多候选信息，或者称为混淆网络，以及最优结果，混淆网络上可以得到比最优识别结果更好的性能。

步骤103、根据时间点信息和匹配似然值打分信息，计算得到评估识别效果的打分，也称置信度打分信息。

步骤104、采用更强的语音模型对多候选信息进行重新排序，并给出最优识别结果。

步骤105、采用多候选信息、时间点信息和置信度打分信息建立字词级和音素级索引库，构成后向索引库，并将原始信息进行编码生成原始信息库。

在本步骤中，根据搜索引擎的原理，利用以上步骤得到的多重信息，对基本的索引级别进行索引。这里用到两层索引级别，分别是字词级和音素集，其中音素可以简单的理解为声母或者韵母。这种做法在搜索引擎中也是很少用到的，之所以增加了音素级的索引，主要是因为语音识别可能出现识别错误，同时这些识别错误和正确文本之间又有一定的相关性，例如音素还是比较相似的，根据常见的识别错误训练了音素混淆矩阵，因此有了音素级的索引，就可以利用音素混淆矩阵了。同时考虑到音素的出现频率远远高于单字，可以导致大量的候选结果而降低搜索效率，因此采用了多个音素组合的索引方法，可以在保证搜索质量的前提下，大大提高搜索效率。两层索引构成了后向索引库，它包含了时间点和置信度信息，同时把原始信息进行有效的编码压缩生成原始信息库。

步骤106、输入待检索文本和时间点信息，根据字转音方式（Grapheme-to-Phoneme， G2P）将待检索文本转成音素序列，并利用音素混淆矩阵，获得类似的音素序列，拆分成多个音素组合。

步骤107、字和音素序列分别进入后向索引库进行查询，获得一组原始信息库的入口位置以及对应的置信度打分信息，按照置信度打分信息高低依次返回。

步骤108、分别进入到原始信息库进行精确匹配，根据入口个数和置信度打分信息选择置信度阈值，返回大于置信度阈值的候选位置，供用户浏览，完成一次检索。

通过本具体实施方式，可以对多媒体信息进行更彻底的标注和建库，后期查询能更加精细、快捷地索引和定位到感兴趣的位置。利用音素级别的索引，可以大大增加查找到的多媒体信息，利用置信度信息，可以过滤掉识别不是很好的多媒体信息，以上两个技术都可以有效地回避因为语音识别的错误带来的检索错误。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种多媒体信息模糊检索方法，其特征在于，包括以下步骤：

A、采集音视频数据；

E、采用多候选信息、时间点信息和置信度打分信息建立字词级和音素级索引库，构成后向索引库，并将多媒体数据进行编码生成多媒体数据库；

2.根据权利要求1所述的一种多媒体信息模糊检索方法，其特征在于，步骤A还包括以下步骤：

将音频数据格式转成WINDOWS WAV格式，采样率为16千赫。

3.根据权利要求1所述的一种多媒体信息模糊检索方法，其特征在于，步骤A中，采用电脑和电视卡的方式采集电视节目中的音频数据；采用收音机和声卡的方式采集广播信号中的音频数据。

4.根据权利要求1所述的一种多媒体信息模糊检索方法，其特征在于，步骤F中，根据字转音方式将待检索文本转成音素序列。