CN104123085B

CN104123085B - 通过语音访问多媒体互动网站的方法和装置

Info

Publication number: CN104123085B
Application number: CN201410015324.2A
Authority: CN
Inventors: 林雨
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2014-01-14
Filing date: 2014-01-14
Publication date: 2015-08-12
Anticipated expiration: 2034-01-14
Also published as: WO2015106688A1; CN104123085A; US10936280B2; US20160283193A1

Abstract

本申请提供了通过语音访问多媒体互动网站的方法和装置。其中，该方法包括：为所述多媒体互动网站上的至少一个链接编译可选的人机交互方式，所述可选的人机交互方式至少包括：语音方式和非语音方式；监听用户在所述多媒体互动网站上选择的待***，并识别用户针对所述待***选择的人机交互方式；当识别出用户选择语音方式时，跳转至用于引导用户提供语音的页面，引导用户在所述页面提供语音，并获取用户在所述页面提供的语音数据；判断所述语音数据是否满足设定的用于触发所述待***的要求，如果是，提供所述待***对应的信息。采用本发明，能够通过语音实现用户与多媒体网站互动。

Description

通过语音访问多媒体互动网站的方法和装置

技术领域

本申请涉及网络技术，特别涉及通过语音访问多媒体互动网站的方法和装置。

背景技术

目前，随着网站技术的不断发展，已产生了很多多媒体网站。其中，在多媒体网站中，有一种人机强交互性质的网站，简称多媒体互动网站。

其中，用户与多媒体互动网站交互的方式很多，包括但不限于以下几种：

1，点击触发方式，比如，用户通过鼠标点击多媒体互动网站中的链接进入链接对应的网页等；

2，滚轮触发方式，比如，用户通过鼠标中的滚轮触发多媒体互动网站中的链接进入链接对应的网页等；

3，键盘触发方式，比如用户通过键盘触发多媒体互动网站中的链接进入链接对应的网页等；

4、触控方式，比如，用户通过触控选择多媒体互动网站中的链接进入链接对应的网页等。

在上述用户与多媒体互动网站交互的方式中，不管采用哪种方式，都无法实现通过语音实现用户访问多媒体互动网站。

因此，一种通过语音实现用户访问多媒体互动网站的方法是当前亟待解决的技术问题。

发明内容

本申请提供了本申请提供了通过语音访问多媒体互动网站的方法和装置，以通过语音实现用户访问多媒体互动网站。

本申请提供的技术方案包括：

一种通过语音访问多媒体互动网站的方法，所述多媒体互动网站具有人机交互功能，该方法包括：

为所述多媒体互动网站上的至少一个链接编译可选的人机交互方式，所述可选的人机交互方式至少包括：语音方式和非语音方式；

监听用户在所述多媒体互动网站上选择的待***，并识别用户针对所述待***选择的人机交互方式；

当识别出用户选择语音方式时，跳转至用于引导用户提供语音的页面，引导用户在所述页面提供语音，并获取用户在所述页面提供的语音数据；

判断所述语音数据是否满足设定的用于触发所述待***的要求，如果是，提供所述待***对应的信息。

一种通过语音访问多媒体互动网站的装置，所述多媒体互动网站具有人机交互功能，该装置应用于多媒体网站的客户端，包括：

显示单元，用于显示多媒体互动网站，所述多媒体互动网站上的至少一个链接编译了可选的人机交互方式，所述可选的人机交互方式至少包括：语音方式和非语音方式；

监听单元，用于监听用户在所述多媒体互动网站选择的待***；

识别单元，用于识别用户针对所述待***选择的人机交互方式；

引导单元，用于所述识别单元识别出用户选择语音方式时，跳转至用于引导用户提供语音的页面，引导用户在所述页面提供语音，并获取用户在所述页面提供的语音数据；

判断单元，用于判断所述语音数据是否满足设定的用于触发所述待***的要求，如果是，提供所述待***对应的信息。

由以上技术方案可以看出，本发明中，通过在多媒体互动网站上的链接编译可选的人机交互方式，监听用户在所述多媒体互动网站选择的待***，识别用户针对所述待***选择的人机交互方式；当识别出用户选择语音方式时，跳转至用于引导用户提供语音的页面；引导用户在所述页面提供语音，并获取用户在所述页面提供的语音数据；判断所述语音数据是否满足设定的用于触发所述待***的要求，如果是，提供所述待***对应的信息，这能够通过语音方式代替传统的鼠标、键盘等方式实现用户与多媒体互动网站之间的互动，这能够提高用户访问多媒体互动网站的效率。

附图说明

图1为本发明实施例提供的方法流程图；

图2为本发明实施例提供的多媒体网站上的链接示意图；

图3为本发明实施例提供的包含语音方式的页面示意图；

图4为本发明实施例提供的步骤104实现流程图；

图5为本发明实施例提供的语音音谱示意图；

图6为本发明实施例提供的另一语音音谱示意图；

图7为本发明实施例提供的装置结构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

本申请提供了通过语音访问多媒体互动网站的方法。这里，多媒体互动网站具有人机交互功能。

参见图1，图1为本发明提供的方法流程图。如图1所示，该流程可应用于客户端，包括以下步骤：

步骤101，为所述多媒体互动网站上的至少一个链接编译可选的人机交互方式。

这里，多媒体互动网站，其一般是人机强交互性质的网站。本发明中，在现有多媒体互动网站上做了少许改进，即：针对多媒体互动网站上部分或全部的链接编译可选的人机交互方式。

其中，作为本发明的一个实施例，所述可选的人机交互方式至少包括：语音方式和非语音方式。

作为本发明的一个实施例，所述语音方式通过用于表示有麦克风的提示按钮实现；而所述非语音方式通过用于表示无麦克风的提示按钮实现。图2示出了多媒体互动网站上一个链接比如“我要当男主角”上编译的可选的人机交互方式。

步骤102，监听用户在所述多媒体互动网站上选择的待***，并识别用户针对所述待***选择的人机交互方式。

当用户进入多媒体互动网站时，用户会根据自己的兴趣在多媒体互动网站上选择待访问的链接。

当用户在所述多媒体互动网站选择完待***后，基于步骤101描述的，假如针对该待***编译了可选的人机交互方式，则用户会从可选的人机交互方式中选择其待使用的交互方式，比如选择语音方式，或者选择非语音方式。

步骤103，当识别出用户选择语音方式时，跳转至用于引导用户提供语音的页面，引导用户在所述页面提供语音，并获取用户在所述页面提供的语音数据。

作为本发明的一个实施例，本步骤103中，所述跳转至用于引导用户提供语音的页面包括：

通过动画形式展示一个与所述待***关联且用于引导用户提供语音的新的页面；其中，所述页面中包含用于引导用户提供语音的引导信息。如图3所示，图3示出了通过动画形式展示的一个与待***关联且用于引导用户提供语音的新的页面。在该新页面中，“请对着麦克风说：”为引导信息，引导用户对着麦克风提供语音数据。并且，在图3中，还包括一个进程框，用于表示用户的状态，当用户对着麦克风提供语音数据时，该进程框内的进程动态变化，反之，当用户停止对着麦克风提供语音数据时，该进程框内的进程不变。

基于跳转的页面包含引导信息的前提，则本步骤103中，引导用户在所述页面提供语音具体可为：

通过所述页面中的引导信息引导用户在所述页面提供语音。

需要说明的是，本步骤103是以识别出用户选择语音方式为前提执行的，而如果本发明中，当识别出用户选择非语音方式时，则可执行以下步骤：

提示用户基于设定的非语音方式触发所述链接。

其中，该非语音方式与现有人机交互方式类似，包括但不限于以下任一种方式或任意组合：

鼠标；

键盘；

触控。

步骤104，判断所述语音数据是否满足设定的用于触发所述待***的要求，如果是，提供所述待***对应的信息。

优选地，作为本发明的一个优选实施例，本步骤104中，当判断出所述语音数据不满足设定的用于触发所述待***的要求，则可引导用户在所述页面提供语音，并获取用户在所述页面提供的语音数据，即返回执行步骤103。

至此，完成图1所示流程。

从图1所示流程可以看出，本发明中，通过语音方式代替传统的鼠标、键盘等方式实现用户与多媒体网站之间的互动，这能够提高用户访问多媒体网站的效率。

优选地，作为本发明的一个实施例，在上面描述中，多媒体互动网站上的链接编译的可选人机交互方式可通过Flash工具编译。

基于多媒体互动网站上的链接编译的可选人机交互方式通过Flash工具编译，则在上述步骤103中，获取用户在所述页面提供的语音数据可为：

通过Flash中脚本语言ActionScript的声音应用接口（SoundMixer API）获取用户在所述页面提供的语音数据。

另外，本发明中，作为本发明的一个实施例，上述步骤104中的判断可通过图4所示流程实现：

参见图4，图4为本发明实施例提供的步骤104实现流程图。如图4所示，该流程可包括以下步骤：

步骤401，从获取的语音数据中提取出语音音谱。

本发明中，该获取的语音数据是一个二进制数据。而从该二进制数据组成的语音数据中提取出语音音谱可通过隐马尔可夫模型（HMM)状态关联的数据进行操作的快速傅立叶变换（fft)实现。

其中，该提取出的语音音谱由左通道、右通道组成。图5示出了fftmode为true时的一种语音音谱，图6示出了fftmode为false时的另一种语音音谱。

从图5或图6示出的语音音谱可以看出，该语音音谱具体可由左通道、右通道组成。

步骤402，依据所述语音音谱中左通道或者右通道中语音的高低起伏识别出所述语音音谱关联的文字数量。

本发明中，其中，从语音音谱中的两个不同通道识别出的文字数量结果相同，因此，可选择从语音音谱中的单一通道比如左通道或者右通道即可识别出语音音谱关联的文字数量。

具体地，在语音音谱中，不同起伏的两个语音就是两个不同的汉字，基于此，依据该不同起伏的两个语音就是两个不同汉字的原则从语音音谱中左通道或者右通道中语音的高低起伏识别出所述语音音谱关联的文字数量。

步骤403，判断在步骤402识别出的文字数量是否为所述待***要求的文字数量，如果是，确定所述语音数据满足设定的用于触发所述待***的要求，如果否，确定所述语音数据不满足设定的用于触发所述待***的要求。

假如所述待***要求的文字数量为3个汉字，则本步骤403就判断在步骤402识别出的文字数量是否为3个汉字，如果是，则确定所述语音数据满足设定的用于触发所述待***的要求，如果否，确定所述语音数据不满足设定的用于触发所述待***的要求。

至此，完成图4所示的流程。

可以看出，通过图4所示的流程，能够完成步骤104中判断语音数据是否满足设定的用于触发所述待***的要求，但是，需要说明的是，图4所示流程只是判断语音数据是否满足设定的用于触发所述待***的要求的一种举例，并非用于限定本发明。

本领域技术人员还可以采用其他方式判断语音数据是否满足设定的用于触发所述待***的要求，下面仅举2个例子说明：

例1，基于现有语音识别***识别获取的语音数据中是否存在设定的语音数据，假如设定的语音数据为“我愿意”，则就基于现有语音识别***识别获取的语音数据中是否“我愿意”，如果是，则确定所述语音数据满足设定的用于触发所述待***的要求，如果否，确定所述语音数据不满足设定的用于触发所述待***的要求。

例2，该例2主要是例1和图4所示流程的结合，即先基于现有语音识别***识别获取的语音数据中是否存在设定的语音数据，只有从获取的语音数据中识别出设定的语音数据时，才执行图4所示流程，否则，确定所述语音数据不满足设定的用于触发所述待***的要求。通过例2，能够更加精准依据用户需求触发所述待***。

至此，完成本发明提供的方法描述。

下面对本发明提供的装置进行描述：

参见图7，图7为本发明实施例提供的装置结构图。该装置应用于多媒体互动网站的客户端，所述多媒体互动网站具有人机交互功能，如图7所示，该装置可包括：

优选地，作为本发明的一个实施例，所述跳转至用于引导用户提供语音的页面包括：

通过动画形式展示一个与所述待***关联且用于引导用户提供语音的新的页面；其中，所述页面中包含用于引导用户提供语音的引导信息；

基于此，所述引导用户在所述页面提供语音包括：

通过所述新页面中的引导信息引导用户在所述页面提供语音。

优选地，本发明中，所述所述判断语音数据是否满足设定的用于触发所述待***的要求包括：

从所述语音数据中提取出语音音谱，所述语音音谱由左通道、右通道组成；

依据所述语音音谱中左通道或者右通道中语音的高低起伏识别出所述语音音谱关联的文字数量；

判断所述文字数量是否为所述待***要求的文字数量，

如果是，确定所述语音数据满足设定的用于触发所述待***的要求；

如果否，确定所述语音数据不满足设定的用于触发所述待***的要求。

优选地，本发明中，所述语音方式通过用于表示有麦克风的提示按钮实现；

所述非语音方式通过用于表示无麦克风的提示按钮实现。

优选地，本发明中，所述多媒体互动网站上的链接是通过Flash编译的；

所述语音数据是通过Flash中脚本语言ActionScript的声音应用接口SoundMixer API获取的。

至此，完成图7所示的装置描述。

由以上技术方案可以看出，本发明中，通过在多媒体互动网站上的链接编译可选的人机交互方式，监听用户在所述多媒体互动网站选择的待***；识别用户针对所述待***选择的人机交互方式；当识别出用户选择语音方式时，跳转至用于引导用户提供语音的页面；引导用户在所述页面提供语音，并获取用户在所述页面提供的语音数据；判断所述语音数据是否满足设定的用于触发所述待***的要求，如果是，提供所述待***对应的信息，这能够通过语音方式代替传统的鼠标、键盘等方式实现用户与多媒体互动网站之间的互动，这能够提高用户访问多媒体互动网站的效率。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种通过语音访问多媒体互动网站的方法，所述多媒体互动网站具有人机交互功能，其特征在于，该方法包括：

从获取的语音数据中提取出语音音谱，依据所述语音音谱中左通道或者右通道中语音的高低起伏识别出所述语音音谱关联的文字数量；判断所述文字数量是否为所述待***要求的文字数量，如果是，确定所述语音数据满足设定的用于触发所述待***的要求，提供所述待***对应的信息。

2.根据权利要求1所述的方法，其特征在于，所述跳转至用于引导用户提供语音的页面包括：

所述引导用户在所述页面提供语音包括：

通过所述页面中的引导信息引导用户在所述页面提供语音。

3.根据权利要求1或2所述的方法，其特征在于，

所述语音方式通过用于表示有麦克风的提示按钮实现；

所述非语音方式通过用于表示无麦克风的提示按钮实现。

4.根据权利要求1或2所述的方法，其特征在于，所述多媒体互动网站上的链接是通过Flash编译的；

5.一种通过语音访问多媒体互动网站的装置，所述多媒体互动网站具有人机交互功能，其特征在于，该装置应用于多媒体网站的客户端，包括：

判断单元，用于从获取的语音数据中提取出语音音谱，依据所述语音音谱中左通道或者右通道中语音的高低起伏识别出所述语音音谱关联的文字数量；判断所述文字数量是否为所述待***要求的文字数量，如果是，判定所述语音数据满足设定的用于触发所述待***的要求，提供所述待***对应的信息。

6.根据权利要求5所述的装置，其特征在于，所述跳转至用于引导用户提供语音的页面包括：

所述引导用户在所述页面提供语音包括：

7.根据权利要求5或6所述的装置，其特征在于，

所述语音方式通过用于表示有麦克风的提示按钮实现；

所述非语音方式通过用于表示无麦克风的提示按钮实现。

8.根据权利要求5或6所述的装置，其特征在于，所述多媒体互动网站上的链接是通过Flash编译的；