CN102970618A

CN102970618A - 基于音节识别的视频点播方法

Info

Publication number: CN102970618A
Application number: CN201210486825XA
Authority: CN
Inventors: 吕勇
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2012-11-26
Filing date: 2012-11-26
Publication date: 2013-03-13

Abstract

本发明公开一种基于音节识别的视频点播方法，以语音的音节为单位，将待识别语音的音节序列直接识别为视频名称，无需进行文本匹配。在训练阶段，将视频名称分解为音节序列，并按音节将视频名称分类，将每个视频名称与其音节建立索引关系；在识别阶段，首先将待识别视频名称的语音切分并识别为音节序列，然后根据得到的音节，从音节索引中选取全部有可能的视频名称，将待识别音节序列与这些视频名称的音节序列匹配解码，得到待识别视频名称。本发明可以显著降低视频点播***的复杂性，有利于其在嵌入式***等独立终端上实现。

Description

基于音节识别的视频点播方法

技术领域

本发明涉及一种基于音节识别的视频点播方法，具体涉及到以音节为单位，将待识别语音的音节序列直接识别为视频名称的视频点播方法，属于语音识别技术领域。

背景技术

近年来，随着计算机技术、信号处理技术和模式识别技术的发展，语音识别技术取得了显著进步，在通信、医疗、消费电子、自助服务、办公自动化等多个领域得到了广泛应用。

在语音视频点播领域，目前广泛的做法是将用户发出的语音指令用自然语言处理方法识别为文本，再将该文本与预先存储的视频名称文本逐一匹配，识别出用户选择的视频名称，完成点播过程。

基于大词汇量连续语音识别的自然语言处理***，结构复杂，运算量大，需要占用较多的处理器和内存资源，难以在缺少网络服务器支持的独立终端上实现。而且大词汇量连续语音识别***的抗干扰能力较弱，鲁棒性较差，在嘈杂的KTV环境中难以取得较好的识别效果。

音乐、歌曲、电影、电视等音频和视频内容的命名具有较大的随意性，不一定符合正常的语法规则和习惯用法。因此用自然语言处理方法，识别视频名称，得到的文本内容未必准确，从而给后续的视频文本匹配带来不利影响。

发明内容

发明目的：针对汉语汉字多，同音字多，但音节较少的不足，本发明提供一种基于音节识别的视频点播方法。

技术方案：一种基于音节识别的视频点播方法，在训练阶段，首先对视频库中的每个视频名称进行音节提取，得到视频音节序列库，然后进行中/英文模型训练、音节模型训练、音节上下文训练和音节索引提取，分别得到中/英文识别模型、音节模型、音节序列上下文模型和音节索引库。在识别阶段，对用户输入的待识别语音进行语音切分后，首先进行中/英文名称识别，识别出是中文名称或英文名称；然后用中文音节模型或英文音节模型进行音节识别，得到待识别语音的音节序列；最后利用音节索引库和音节序列上下文模型进行音节序列的匹配解码，得到视频名称。

具体包括如下步骤：

(1)建立索引库：从视频名称库中提取音节，得到每个视频名称的音节序列，将每个视频名称归类到其音节索引中，由于每个视频名称含有多个音节，因此其会属于多个不同的音节；

(2)建立中/英文识别模型：为了区分中文视频名称和英文视频名称，在音节识别之前需要进行中/英文识别；

(3)建立音节模型：用每个音节的训练语音，训练生成该音节的隐马尔可夫模型(HMM)；

(4)建立音节序列的上下文模型：音频和视频名称的命名有较大的自由性，不一定符合自然语言的语法规则，甚至有较大的差别，因此从已有的视频库中提取音节序列的上下文模型，用于待识别音节序列的匹配解码；

(5)中/英文名称识别：在识别阶段，首先进行中/英文名称识别，然后再按中文名称或英文名称分别处理；

(6)音节识别：将待识别视频名称的语音切分并用音节HMM识别为音节序列；

(7)音节序列匹配解码：根据待识别音节序列中的每个音节，从索引库中调出全部有可能的视频名称序列，并用音节序列的上下文模型进行匹配解码，得到待识别视频的名称。

对中文音节，为汉语的每个音节建立索引库；对于英文音节，对视频名称库中的英文音节进行聚类，将其划分为若干类，然后对每一类英文音节进行建模。

用中文音节的训练语音，训练生成中文高斯混合模型(GMM)；用英文音节的训练语音，训练生成英文GMM；用中/英文GMM模型对待识别视频名称的语音进行语言识别，区分中文视频名称和英文视频名称。

为待识别音节序列每个音节标注权重，在视频名称库中音节出现的概率越小，其权重就越大，反之权重越小；权重信息标注在音节序列的上下文模型中，用于待识别语音序列的匹配解码。

根据待识别音节序列的匹配解码结果，除了以概率最大的视频名称作为输出结果外，还为用户提供多个备选结果，并根据输出概率大小进行排序，供用户选择。

用户可以自行增添视频内容，增加的视频名称会自动归属到其音节索引中。

有益效果：与现有技术相比，本发明提供的基于音节识别的视频点播方法，为每个音节建立视频名称索引库，为待识别语音从索引库中选取可能的视频名称，再将待识别音节序列与候选视频名称音节阵列，直接匹配，得到当前视频名称，不需要将语音转换为文本，提高了识别性能和***鲁棒性。

附图说明

图1为本发明实施例的原理图；

图2为本发明实施例的音节索引库的框图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

如图1所示，基于音节识别的视频点播方法主要包括训练阶段和识别阶段。训练阶段主要完成中/英文识别模型、音节模型、音节序列上下文模型和音节索引库的提取工作；识别阶段则根据训练阶段提取的模型和索引库，对用户输入的语音进行音节识别和音节序列匹配解码，识别出视频名称，完成点播过程。下面详细说明图1中各模块的实现方案。

1、音节序列提取：

将视频库中视频名称的每个汉字转换为汉语拼音音节，得到该视频名称的音节序列。如果是英文视频名称，则将英文单词拆分为音节，组成音节序列。这里的视频名称指该视频的关键字序列，不仅包括该段视频本身的名称，还包括主要演员等其他主要信息。

2、中/英文模型训练：

通过高斯混合模型(GMM:Gaussian Mixture Model)对中文和英文分别建模，用中文音节的全部训练语音训练生成中文GMM；用英文音节的全部训练语音训练生成英文GMM。中文GMM和英文GMM组成***的中/英文识别模型。

3、音节模型训练：

通过隐马尔可夫模型(HMM:Hidden Markov Model)对每个音节进行建模，用该音节的训练语音训练生成该音节的HMM。对汉语，不考虑音调，只有412个音节，因此可以对全部音节进行建模；而英文的音节较多，并且考虑到视频库中无中文名称的外文视频只占一小部分，因此只对视频库中出现的常用英文音节进行建模。

4、音节上下文训练：

在音节上下文训练中，首先用统计方法提取视频音节序列库的上下文信息，用于提高音节识别的准确性；然后为音节索引库中的每个音节标注权重信息，音节在视频音节序列库中出现的次数越多，其权重就越小；反之，权重就越大。音节的权重信息用于音节序列的匹配解码。

5、音节索引提取：

根据每个视频名称的音节信息，将其归类到相应音节目录中，构成音节索引库。由于视频名称一般包含多个音节，因此其会出现在索引库的多个音节条目中。图2是音节索引库的示意图，***中有两段视频，视频1的音节序列由音节1和音节2组成，视频2的音节序列由音节2和音节3组成。因此，视频1归属在索引库的音节1条目和音节2条目中，视频2归属在索引库的音节2和音节3条目中。对中文，可以对全部412个音节建立音节条目；对英文，由于音节较多，无法为所有音节一一建立音节条目，因此以元音和浊音为基础，将视频音节序列库中的英文音节划分为若干类，每一类英文音节建立一个音节条目，含有该类音节的全部视频都归属在该音节条目中。

6、中/英文名称识别：

在中/英文名称识别中，首先将用户输入的待识别语音按音节切分为语音序列，提取特征；然后分别输入到中文GMM和英文GMM中，计算概率，根据概率大小判断用户输入的语音为中文还是英文。

7、音节识别：

判断输入语音为中文或英文后，分别调用中文音节模型库或英文音节模型库进行音节识别。对输入语音序列的每段语音提取特征，输入到音节模型库中每个音节的HMM中，计算概率，根据概率大小判断该段语音为哪个音节。在音节识别中，还将利用音节序列的上下文信息，提高音节识别的准确性，得到更加可靠的音节序列。

8、音节序列匹配解码：

通过音节识别，得到输入语音的音节序列后，即可进行音节序列的匹配解码，将音节序列识别为视频名称。从音节索引库中提取候选视频名称，对输入语音的音节序列直接匹配解码，得到输入语音表示的视频名称，而不是将音节序列转换为汉字或单词组成的文本，再进行文本匹配。对音节序列直接匹配解码，一方面提高了识别的准确性，因为匹配解码只对候选的一部分视频名称进行，无需对所有视频逐一匹配；另一方面可以减小***的复杂性，有利于在独立终端上实现。

根据输入语音音节序列的每个音节从音节索引库的对应音节条目中选取候选视频名称后，按以下顺序对音节序列进行匹配解码：

(1)视频归属的音节条目数：用户输入的语音含有多个音节，对应多个音节条目，视频归属的音节条目越多，则输入语音为该视频的可能性越大；

(2)音节的权重信息：如果多个候选视频归属的音节条目数相同，则将每个候选视频对应音节条目的权重相加，权重值越大，则输入语音对应该候选视频的可能性越大；

(3)音节序列的前后次序：如果多个候选视频的权重值也相同，则将这些视频的音节序列与输入语音的音节序列进行次序比较，与输入语音的音节次序匹配度高的候选视频优先；

(4)多个识别结果：如果经过上述三个步骤仍然不能得到唯一的候选视频，则在剩下的候选视频中随机挑选一个作为识别结果，其他视频作为备选结果显示在屏幕上，供用户快速修正错误的识别结果；对经过上述三个步骤得到唯一候选视频的情况，也将其他几个可能性较大的候选视频显示在屏幕上，供用户快速选择。

经过音节序列匹配解码，得到视频名称后，即可读取该视频，完成点播过程。

Claims

1.一种基于音节识别的视频点播方法，其特征在于：包括训练阶段和识别阶段的方法；其中在训练阶段，首先对视频名称库中的每个视频名称进行音节提取，得到视频音节序列库，然后进行中/英文模型训练、音节模型训练、音节上下文训练和音节索引提取，分别得到中/英文识别模型、音节模型、音节序列上下文模型和音节索引库；在识别阶段，对用户输入的待识别语音进行语音切分后，首先进行中/英文名称识别，识别出是中文名称或英文名称；然后用中文音节模型或英文音节模型进行音节识别，得到待识别语音的音节序列；最后利用音节索引库和音节序列上下文模型进行音节序列的匹配解码，得到视频名称。

2.如权利要求1所述的基于音节识别的视频点播方法，其特征在于：从视频名称库中提取音节，得到每个视频名称的音节序列，将每个视频名称归类到其音节索引中，对于含有多个音节的视频名称，将其归类到多个不同的音节中。

3.如权利要求1所述的基于音节识别的视频点播方法，其特征在于：通过每个音节的训练语音，训练生成该音节的隐马尔可夫模型，完成音节模型的建立。

4.如权利要求1所述的基于音节识别的视频点播方法，其特征在于：将待识别视频名称的语音切分后，并用音节HMM识别为音节序列。

5.如权利要求1所述的基于音节识别的视频点播方法，其特征在于：对中文音节，为汉语的每个音节建立索引库；对于英文音节，需要对音节进行聚类，将其划分为若干类，只对视频名称库中每一类英文音节进行建模。

6.如权利要求1所述的基于音节识别的视频点播方法，其特征在于：用中文音节的训练语音，训练生成中文高斯混合模型；用英文音节的训练语音，训练生成英文GMM；用中/英文GMM模型对待识别视频名称的语音进行语言识别，区分中文视频名称和英文视频名称。

7.如权利要求1所述的基于音节识别的视频点播方法，其特征在于：为待识别音节序列每个音节标注权重，在视频名称库中音节出现的概率越小，其权重就越大，反之权重越小；权重信息标注在音节序列的上下文模型中，用于待识别语音序列的匹配解码。

8.如权利要求1所述的基于音节识别的视频点播方法，其特征在于：根据待识别音节序列的匹配解码结果，除了以概率最大的视频名称作为输出结果外，还为用户提供多个备选结果，并根据输出概率大小进行排序，供用户选择。

9.如权利要求1所述的基于音节识别的视频点播方法，其特征在于：当用户增添视频内容时，将增加的视频名称归属到其相应的音节索引中。