CN102568478A

CN102568478A - 一种基于语音识别的视频播放控制方法和***

Info

Publication number: CN102568478A
Application number: CN2012100259248A
Authority: CN
Inventors: 吴昊宇; 邓龙; 姚键; 邱丹; 潘柏宇; 卢述奇; 刘睿姝
Original assignee: 1Verge Internet Technology Beijing Co Ltd
Current assignee: Beijing Alibaba Music Technology Co Ltd
Priority date: 2012-02-07
Filing date: 2012-02-07
Publication date: 2012-07-11
Anticipated expiration: 2032-02-07
Also published as: CN102568478B

Abstract

本发明公开了一种基于语音识别的视频控制方法，包括：对用户的语音进行训练提取语音特征并保存在语音特征库中；接收用户的语音控制命令，与所述保存的用户语音特征进行对比；其中，当该用户的语音特征与服务器中的用户语音特征相匹配后，提取该语音控制命令并基于该语音控制命令进行视频播放的控制。本发明采取了上述技术方案以后，克服了现有技术中语音识别都是应用于单机或者必须下载特征的软件的技术缺点；并且，由于本申请的语音特征是基于特定人而保存在语音特征库中，能够实现基于特征人的语音识别的效果，并且，该种方法进行语音识别和控制，其准确率较高。此外，本发明还公开了一种基于语音识别的视频控制***。

Description

一种基于语音识别的视频播放控制方法和***

技术领域

本发明涉及一种视频控制方法，尤其涉及一种基于语音识别的视频播放控制方法，属于语音识别领域。

背景技术

目前，计算机语音识别的任务是让计算机能够听懂人类说话的语句或者命令，并做出相应的动作。

其中，从上世纪70年代开始，计算机语音识别技术在研究上取得了突破性的进展。现在计算机语音识别技术在各个领域都有广泛的应用，比如语音识别拨号，语音搜索，语音控制等。但是现有的计算机语音识别***都存在一些问题。由于计算机语音识别需要进行大量的计算，所以现有的计算机语音识别计算基本上都是应用于单机的计算，或者需要下载并且安装特定的软件才能进行语音识别的任务，没有和互联网技术很好的结合。操作***自带的语音识别***只能完成特定的简单任务，与别的程序，或者与互联网应用没有连接，已经不能适应当今互联网的快速发展的需求。

由于人类的语言多种多样，而且同一个词的不同人的发音也不同，计算机语音识别从对人的语音的依赖程度上，按照声学模型建立的方式进行划分，可以分为特定人识别和非特定人语音识别***。

发明内容

本发明针对现有技术的缺点，提供了一种基于语音识别的视频播放控制方法，该方法能够具有较灵活的视频控制效果。此外，本发明还公开了一种基于语音识别的视频播放控制***。

根据本发明的第一目的，本发明提供了一种基于语音识别的视频播放控制方法，包括：

对用户的语音进行训练提取语音特征并保存在语音特征库中；

接收用户的语音控制命令，与所述保存的用户语音特征进行对比；

其中，当该用户的语音特征与服务器中的用户语音特征相匹配后，提取该语音控制命令并基于该语音控制命令进行视频播放的控制。

进一步地，优选的方法是，所述对用户语音进行训练提取语音特征并保存在语音特征库中，具体包括：

计算用户的语音的声学参数，提取出能够反映语音信号特征的关键特征参数并进行降维；

获取用户输入的若干次控制命令的训练语音；

经过预处理和语音特征后，得到特定用户的语音特征矢量参数并存储在网络服务器中的语音特征库中。

进一步地，优选的方法是，所述关键特征参数采用MFCC参数。

进一步地，优选的方法是，所述接收用户的语音控制命令，与所述保存的用户语音特征进行对比，具体包括：

将用户后续输入的语音控制命令与服务器中存储的中各指令语音特征进行相似性度量，判断用户的语音控制命令是否匹配语音特征库的特征。

进一步地，优选的方法是，所述视频控制方法基于FLASH播旋器，其中，还包括：

在10秒钟完成对应的用户语音控制命令的识别步骤，在返回成功以后进行相应的视频控制动作。

本发明采取了上述技术方案以后，克服了现有技术中语音识别都是应用于单机或者必须下载特征的软件的技术缺点；并且，由于本申请的语音特征是基于特定人而保存在语音特征库中，能够实现基于特征人的语音识别的效果，并且，该种方法进行语音识别和控制，其准确率较高。

根据本发明的又一目的，本发明提供了一种基于语音识别的视频播放控制***，包括：

语音特征训练单元，用于对用户的语音进行训练提取语音特征并保存在语音特征库中；

语音特征识别单元，用于接收用户的语音控制命令，与所述保存的用户语音特征进行对比；

视频控制单元，用于当该用户的语音特征与服务器中的用户语音特征相匹配后，提取该语音控制命令并基于该语音控制命令进行视频播放的控制。

进一步地，优选的是，所述语音特征训练单元，具体包括：

特征参数提取子单元，用于计算用户的语音的声学参数，提取出能够反映语音信号特征的关键特征参数并进行降维；

特征参数训练子单元，用于获取用户输入的若干次控制命令的训练语音；经过预处理和语音特征后，得到特定用户的语音特征矢量参数；

发送子单元，用于将上述语音特征矢量参数存储在网络服务器中的语音特征库中。

进一步地，优选的是，所述关键特征参数采用MFCC参数。

进一步地，优选的是，所述语音特征识别单元，具体包括：

对比子单元，用于将用户后续输入的语音控制命令与服务器中存储的中各指令语音特征进行相似性度量，判断用户的语音控制命令是否匹配语音特征库的特征。

进一步地，优选的是，所述视频控制单元，还包括：

FLASH播放器子单元；

播放器控制子单元，用于在10秒钟完成对应的用户语音控制命令的识别，在返回成功以后进行相应的视频控制动作。

本发明采取了上述技术方案以后，具有前述方法的所有优点，即本申请克服了现有技术中语音识别都是应用于单机或者必须下载特征的软件的技术缺点；并且，由于本申请的语音特征是基于特定人而保存在语音特征库中，能够实现基于特征人的语音识别的效果，并且，该种方法进行语音识别和控制，其准确率较高。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

下面结合附图对本发明进行详细的描述，以使得本发明的上述优点更加明确。

图1是本发明基于语音识别的视频播放控制方法的流程示意图；

图2是本发明的一个实施例中的进行语音视频的示意图；

图3是本发明的一个实施例中的进行语音训练的示意图；

图4是本发明的一个实施例的进行语音识别视频控制的流程示意图；

图5是本发明的另一个实施例的进行语音识别视频控制的流程示意图；

图6是本发明基于语音识别的视频播放控制***的结构示意图；

图7是本发明的一个实施例中的语音特征训练单元的示意图；

图8是本发明的一个实施例的语音特征训练单元的架构示意图；

图9是本发明的一个实施例的语音特征识别单元的示意图；

图10是本发明的一个实施例的视频控制单元的示意图。

具体实施方式

以下结合附图和具体实施例对本发明进行详细的描述。

方法实施例一

以下结合附图对本发明进行一个详细的描述；

其中，图1是本发明基于语音识别的视频播放控制方法的流程示意图，图2是本发明的一个实施例中的进行语音视频的示意图；

根据本实施例，所述基于语音识别的视频播放控制方法，包括：

S101：对某一个用户的语音进行训练提取语音特征；

S102：将上述特定用户的语音特征保存在语音特征库中；

S103：接收用户的语音控制命令；

S014：将接收到的用户的语音控制命令与所述保存的用户语音特征进行对比；

S015：当该用户的语音特征与服务器中的用户语音特征相匹配后，提取该语音控制命令并基于该语音控制命令进行视频播放的控制。

其中，在步骤S102中，可以基于用户名和账户和具体的语音特征一起保存在语音特征库中，其中，在优选的实施例中，该语音特征库是一个互联网服务器中的数据库。

并且，步骤S103包括：

其中，本申请所述的视频控制方法基于FLASH播放器，其中，还包括：

方法实施例二：

进一步对本发明进行描述，其中，本申请主要包括：语音特征训练步骤、语音特征识别步骤以及视频控制步骤，以下对本发明的上述三个步骤分别进行详细描述。

图3是本发明的一个实施例中的进行语音训练的示意图；

如图3所示，所述方法主要包括以下步骤：

某一个特定的注册用户打开网页，网页中会显示一个语音识别FLASH，该FLASH技术是现有技术较为公知的，在此不详细说明。

其中，当***获取到该用户没有进行语音特征训练时，其会提示用户进行语音训练，否则直接进入下一个步骤；

其中，***会给出一些基本的词，例如：开始、暂停、播放、提高音量、快进等，用户按照上述提示进行语音特征训练。

其中，在语音特征训练步骤中，包括：

语音特征提取阶段：计算语音的声学参数，进行语音特征的计算，提取出能够反映语音信号特征的关键特征参数，实现降维。

其中，在语音识别技术中，采取的是MFCC和DTW技术，其中，MFCC(MelFrequency Cepstrum Coefficient，Mel频率倒谱系数)，是音频的频域分析中，最常用的一种特征系数，应用也最为广泛。它的特点在于充分考虑了人的听觉***中的非线性特性，在低频情况下使用线性刻度，在高频情况下使用对数刻度。因此，MFCC可以将音频信号进行更为合理的分段。对于一段音频，就可以获得n组(n对应于音框数)MFCC参数。之后的语音识别过程，就可以使用这n组参数进行处理。

在孤立词识别***中，DTW(Dynamic Time Warping，动态时间归整)是最为常用的算法，其使用动态规划的思想，解决了发音长短不一带来的模板匹配问题，是语音识别中一种较为经典的算法。DTW算法首先需要训练待识别的孤立词所对应的模板。DTW算法首先需要训练待识别的孤立词所对应的模板。训练样本之间，长度也是不一样的。因此如何选择模板也是一个必须考虑的问题。

通常的做法是，首先计算出音频样本的平均长度，然后将最接***均长度的样本作为模板，将其它样本作为训练样本，用来训练、调整模板的具体值。最后对于与模板同样长度的样本，就可以计算相似性与距离，进行识别操作。

本申请中，主要采取的是MFCC参数，借助于该MFCC参数，其整体的语音特征良好的抗噪性和鲁棒性。

训练阶段：用户输入若干次训练语音，***经过预处理和语音特征提取两个阶段，得到了特定用户的特征矢量参数。

最后，网页会提示用户是否上传该语音特征，根据该提示，用户选择将自己的语音特征上传至特定语音特征库或者本地电脑中。

在训练了用户的语音特征之后，用户便可以进行语音识别和视频控制等后续步骤。

方法实施例三：

其中，所述语音识别步骤包括：

接收用户输入的语音；

将用户后续输入的语音控制命令与语音特征库中存储的中各指令语音特征进行相似性度量；

根据两者的相似度大小以判断用户的语音控制命令是否匹配语音特征库的特征。

在一个实施例中，用户在观看过程中，需要点击特定的语音操作按钮；图4是本发明的一个实施例的进行语音识别视频控制的流程示意图；

其中，在点击操作按钮之后，在特定时间内，例如10秒之内说出语音控制命令，在这10秒之内说出的操作命令被认为是有效的，并且进行识别，匹配相应的操作命令，并且做出反应。

此外，在一个实施例中，在观看过程中，需要首先对着麦克风说出某个发语词，比如“开始”，图5是本发明的另一个实施例的进行语音识别视频控制的流程示意图；

其中，语音识别程序在识别发语词之后，在特定时间内，例如，10秒内说出语音控制命令，在这10秒之内说出的操作命令被认为是有效的，并且进行识别，匹配相应的操作命令，并且做出反应。

并且，在语音识别程序识别出发语词10秒之后，如果没有识别出语音控制命令，那么再次进入等待阶段，这时候需要再次对麦克风说出发语词，之后才能进行语音控制。

通过上述技术方案，解决了在语音识别过程之中，由于语音识别程序始终监听用户的麦克风，避免用户在观看视频的过程中，由于某些误操作使得观看体验不好，具有很好的技术效果。

此外，由于在服务器存储用户的语音特征之后，下次用户在别的电脑，或者移动设备上再次打开语音识别程序，无需再次训练，而是用已经保存的语音特征，来进行语音识别并且对视频播放器进行控制，进而使得本申请基于特定人进行语音控制，克服了多个客户端无法应用的缺点。

例如，某一用户完成语音训练并将训练得到的语音特征上传至服务器后，以后在本机，他机或移动设备使用此语音识别flash程序，无需再训练，直接选择识别阶段的两种启动语音识别操作，进行再次识别并进而实现语音控制。

其中，在本申请之中，使用了互联网广泛使用的flash技术，具有覆盖率高，方便传播，易于使用，多终端配合等特点。当然，也可以采取微软的HTML5技术，这些都是本领域技术人员所能知晓的，在此不详细说明。

方法实施例四：

下面对本发明的应用实例进行说明：

1.用户A的UID＝1，他首次下载了网页上提示的语音识别flash程序，特定人语音特征库中未曾建立UID＝1的用户的语音特征，提示用户必须在语音训练后才可以使用语音识别功能，并给出语音训练操作提示，训练完成后用户A可使用语音识别对视频进行语音控制。

2.用户A的UID＝1，他已完成了语音训练，以后无论在本机，他机或移动设备上想要实现语音识别功能，只需下载或打开flash语音识别扩展程序，无需再次进行语音训练，直接开启语音识别功能即可。若用户采用语音识别阶段的方式1，点击“开始”按钮并在10秒内给出指令“播放”，***完成语音识别进而做出“播放”视频的反应，如用户还有其它指令则需要再次点击“开始”按钮，在10秒内给出控制指令；若采用方式2，给出发语词“开始”，等待用户给出后续指令10秒，如果10秒内用户给出指令“播放”，进而做出反应，之后***恢复等待用户给出发语词状态，如用户还有其它指令则需要再次说明发语词后再给出后续指令。

3.用户B试图使用用户A的ID进行语音识别，点击开始后给出指令播放，服务器搜索UID＝1的语音特征，发现本次语音指令的语音特征与特定语音特征库中UID＝1的语音特征不匹配，则给出提示信息，提示用户注册或登录自己的账户，再进行语音识别操作。

结合上述描述，对本发明的技术优点进行详细说明如下：

1.覆盖率高，是指99％的浏览器装有flash插件，并且现在的移动设备很多也都支持flash插件，无需特殊的支持就可以广泛进行部署。

2.方便传播是指本语音识别方案不需要安装特定程序，只需要自动下载语音识别程序，就可以在flash上进行使用。

3.易于使用是指对于在线视频的语音控制，语音识别指令简单，可以通过少量的语音实现特定的视频播放控制功能。

4.多终端支持是可以通过服务器记录用户的语音特征，换了电脑或者移动设备之后，无需再次训练就能进行语音控制。

***实施例一：

下面结合附图对本发明的***进行详细说明，其中，图6是本发明基于语音识别的视频播放控制***的结构示意图；

如图6所示，所述基于语音识别的视频控制***，包括：

图7是本发明的一个实施例中的语音特征训练单元的示意图；图8是本发明的一个实施例的语音特征训练单元的架构示意图；

所述语音特征训练单元，具体包括：

其中，所述关键特征参数采用MFCC参数。

图9是本发明的一个实施例的语音特征识别单元的示意图；

所述语音特征识别单元，具体包括：

对比子单元，用于将用户后续输入的语音控制命令与语音特征库中存储的中各指令语音特征进行相似性度量，判断用户的语音控制命令是否匹配语音特征库的特征。

图10是本发明的一个实施例的视频控制单元的示意图。

如图10所示，所述视频控制单元，还包括：

FLASH播放器子单元；

本申请克服了现有技术中语音识别都是应用于单机或者必须下载特征的软件的技术缺点；并且，由于本申请的语音特征是基于特定人而保存在语音特征库中，能够实现基于特征人的语音识别的效果，并且，该种方法进行语音识别和控制，其准确率较高。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：只读存储器(Read Only Memory，简称ROM)、随机存取存储器(Random Acess Memory，简称RAM)、磁碟、终端手机软件或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于语音识别的视频控制方法，包括：

2.根据权利要求1所述的基于语音识别的视频控制方法，其特征在于，所述对用户语音进行训练提取语音特征并保存在语音特征库中，具体包括：

获取用户输入的若干次控制命令的训练语音；

3.根据权利要求2所述的基于语音识别的视频控制方法，其特征在于，所述关键特征参数采用MFCC参数。

4.根据权利要求1～3任一所述的基于语音识别的视频控制方法，其特征在于，所述接收用户的语音控制命令，与所述保存的用户语音特征进行对比，具体包括：

将用户后续输入的语音控制命令与语音特征库中存储的中各指令语音特征进行相似性度量，判断用户的语音控制命令是否匹配语音特征库的特征。

5.根据权利要求4所述的基于语音识别的视频控制方法，其特征在于，所述视频控制方法基于FLASH播放器，其中，还包括：

6.一种基于语音识别的视频控制***，包括：

7.根据权利要求6所述的基于语音识别的视频控制***，其特征在于，所述语音特征训练单元，具体包括：

8.根据权利要求7所述的基于语音识别的视频控制***，其特征在于，所述关键特征参数采用MFCC参数。

9.根据权利要求6～8任一所述的基于语音识别的视频控制***，其特征在于，所述语音特征识别单元，具体包括：

10.根据权利要求9所述的基于语音识别的视频控制***，其特征在于，所述视频控制单元，还包括：

FLASH播放器子单元；