CN103376990B

CN103376990B - 一种网页操作的语音控制方法和***

Info

Publication number: CN103376990B
Application number: CN201210120202.0A
Authority: CN
Inventors: 周晓波; 刘玉国; 司天歌
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Cloud Computing Beijing Co Ltd
Priority date: 2012-04-23
Filing date: 2012-04-23
Publication date: 2016-09-07
Anticipated expiration: 2032-04-23
Also published as: CN103376990A

Abstract

本发明实施方式提出了一种网页操作的语音控制方法和***。方法包括：在网页的超文本标记语言(HTML)标签中设置语音文本域以及对应于该语音文本域的控制命令域，在控制命令域中包含网页控制命令；从语音命令中识别出关键字，在网页的HTML标签中检索出与该关键字相匹配的语音文本域，并执行对应于语音文本域的控制命令域中所包含的网页控制命令。本发明实施方式通过扩展HTML标签以及语音关键字识别，实现了针对网页内容元素的网页操作语音控制。本发明实施方式的控制方式是针对特定的网页，而不是通用的命令，因此提高了操作通用性，而且也有利于开发者的多样选择。

Description

一种网页操作的语音控制方法和***

技术领域

本发明实施方式涉及语音控制技术领域，更具体地，涉及一种网页操作的语音控制方法和***。

背景技术

随着计算机技术和网络技术的飞速发展，互联网(Internet)在人们的日常生活、学习和工作中发挥的作用也越来越大。互联网上的超媒体文档称之为网页(web page)。网页中通常包括有指向其他相关页面或其他节点的指针(超级链接)。在逻辑上将视为一个整体的一系列网页的有机集合称为网站(Website或Site)。

超文本标记语言(HTML，Hypertext Markup Language)，是用于描述网页文档的一种标记语言。HTML是一种规范和标准，它通过标签来标记要显示的网页中的各个部分。网页文件本身是一种文本文件，通过在文本文件中添加标签，可以告诉浏览器如何显示其中的内容(如：文字如何处理，画面如何安排，图片如何显示等)。浏览器按顺序阅读网页文件，然后根据标签解释和显示其标记的内容，对书写出错的标签将不指出其错误，且不停止其解释执行过程。

当前，语音技术开始在浏览器产品中普及。关于浏览器的语音技术主要有两种模式：语音输入法模式和语音命令模式。在语音输入法模式下，通过语音输入文本；在语音命令模式下，通过语音控制浏览器的前进后退等基本动作。

然而，在目前的语音命令模式下，控制命令操作必须是通用的，即控制命令操作必须是每个网页都能进行的操作，例如前进、后退等。也就是说，控制命令操作实质上是浏览器本身的功能，而与网页的具体内容没有关系，无法根据网页内容来实现定制命令，因此操作通用性并不好。

发明内容

本发明实施方式提出一种网页操作的语音控制方法，以提高操作通用性。

本发明实施方式提出一种网页操作的语音控制***，以提高操作通用性。

本发明实施方式的技术方案如下：

一种网页操作的语音控制方法，包括：

在网页的超文本标记语言(HTML)标签中设置语音文本域以及对应于该语音文本域的控制命令域，在所述控制命令域中包含网页控制命令；

从语音命令中识别出关键字，在所述网页的HTML标签中检索出与该关键字相匹配的语音文本域，并执行对应于所述语音文本域的控制命令域中所包含的网页控制命令。

一种网页操作的语音控制***，该***包括网页设置单元和浏览器，其中：

网页设置单元，用于在网页的HTML标签中设置语音文本域以及对应于该语音文本域的控制命令域，在所述控制命令域中包含网页控制命令；

浏览器，用于从语音命令中识别出关键字，在所述网页的HTML标签中检索出与该关键字相匹配的语音文本域，并执行对应于所述语音文本域的控制命令域中所包含的网页控制命令。

从上述技术方案可以看出，在本发明实施方式中，首先在网页的HTML标签中设置语音文本域及对应于该语音文本域的控制命令域，而且在控制命令域中包含有网页控制命令；然后从语音命令中识别出关键字，在网页的HTML标签中检索出与该关键字相匹配的语音文本域，并执行对应于语音文本域的控制命令域中所包含的网页控制命令。由此可见，应用本发明实施方式之后，通过扩展HTML标签以及语音关键字识别，实现了针对网页内容元素的网页操作语音控制。本发明实施方式的控制方式是针对特定的网页，而不是通用的命令，因此显著提高了操作通用性。

附图说明

图1为根据本发明实施方式的网页操作的语音控制方法流程示意图；

图2为根据本发明实施方式的发微博输入示意图；

图3为根据本发明实施方式的转播输入示意图；

图4为根据本发明实施方式的评论输入示意图；

图5为根据本发明实施方式的网页操作的语音控制***结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

在本发明实施方式中，针对网页的结构比较单一，用户提交内容增多，但是入口单一的特点，提供一些语音控制命令，当网页中的特定元素和这个语音控制命令匹配时，就触发这个元素上对应的操作。

图1为根据本发明实施方式的网页操作的语音控制方法流程示意图。

如图1所示，该方法包括：

步骤101：在网页的超文本标记语言(HTML)标签(tag)中设置语音文本域及对应于该语音文本域的控制命令域，而且在控制命令域中包含网页控制命令。

在这里，可以扩展HTML标准，为一些标签增加语音文本域和控制命令域。标签是HTML中的基本元素，网页元素在HTML标准中对应着标签。网页元素是网页的基本单位，例如网页中的按钮就是一种网页元素。

在本发明实施方式中，语音文本域与控制命令保持对应，而且控制命令域中包含网页控制命令。

比如，本发明实施方式可以在Input标签、Div标签、Table标签、Tbody标签、Tfoot标签或Caption标签等常用的HTML标签中设置语音文本域以及相应的控制命令域。

比如：可以在网页的HTML标签中，针对具体类型为发微博的网页控制命令设置发微博语音文本域以及对应于该发微博语音文本域的控制命令域；针对具体类型为转播微博的网页控制命令设置转播微博语音文本域以及对应于该转播微博语音文本域的控制命令域；针对具体类型为评论微博的网页控制命令设置评论微博语音文本域以及对应于该评论微博语音文本域的控制命令域；针对具体类型为评论且转播微博的网页控制命令设置评论且转播微博语音文本域以及对应于该评论且转播微博语音文本域的控制命令域。

以上虽然具体罗列了本发明实施方式可扩展的一些具体HTML标签，本领域技术人员可以意识到，这种罗列仅是示范性的，而并不用于限制本发明实施方式的保护范围。

而且，在本发明实施方式中，可以通过自定义函数的方式预先设置在控制命令域中所包含的网页控制命令的具体内容。

示范性地，可以将语音文本域命名为voicetext；控制命令域命名为voicecmd；而且通过函数定义的方式设置forwardweibo为转播微博操作命令的具体函数名。

以Input标签为例，本发明实施方式具体实现可以如下：

其中，voicecmd和voicetext为本发明实施方式所新增的域。在voicetext中具体描述有文本“请转播”，而在voicecmd中具体描述有转播微博操作命令的具体函数名forwardweibo。

步骤102：从语音命令中识别出关键字，在所述网页的HTML标签中检索出与该关键字相匹配的语音文本域，并执行对应于所述语音文本域的控制命令域中所包含的网页控制命令。

此处浏览器需要应用到语音识别技术。

语音识别，也被称为自动语音识别(ASR，Automatic SpeechRecognition)，其目标是将人类语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。

基于具体的应用环境，浏览器支持的网页控制命令可以包括下列至少一个：发微博；转播微博；评论微博；评论且转播微博；发送邮件；发送私信；或上传附件，等等。

当将本发明实施方式应用到利用语音在浏览器中发微博时，该方法具体包括：

首先从语音命令中识别出“发微博”关键字，然后浏览器在网页的HTML标签中检索出与“发微博”关键字相匹配的语音文本域(即发微博语音文本域)，并从对应于该语音文本域的控制命令域中解析出发微博函数命令；然后运行该发微博函数命令，以在网页中发出微博。

当将本发明实施方式应用到利用语音在浏览器中转播微博时，该方法具体包括：

首先从语音命令中识别出“转播微博”关键字，在网页的HTML标签中检索出与“转播微博”关键字相匹配的语音文本域(即转播微博语音文本域)，并从对应于该语音文本域的控制命令域中解析出转播微博函数命令；然后运行该转播微博函数命令，以在网页中转播微博。

当将本发明实施方式应用到利用语音在浏览器中评论微博时，该方法具体包括：

首先从语音命令中识别出“评论微博”关键字，在网页的HTML标签中检索出与“评论微博”关键字相匹配的语音文本域(即评论微博微博语音文本域)，并从对应于语音文本域的控制命令域中解析出评论微博函数命令；然后运行该评论微博函数命令，以在网页中评论微博。

当将本发明实施方式应用到利用语音在浏览器中评论且转播微博时，该方法具体包括：

首先从语音命令中识别出“评论且转播微博”关键字，在网页的HTML标签中检索出与“评论且转播微博”关键字相匹配的语音文本域(即评论且转播微博语音文本域)，并从对应于该语音文本域的控制命令域中解析出评论且转播微博命令；然后运行该评论且转播微博函数命令，以在网页中评论且转播微博。

以上虽然具体罗列了网页控制命令的一些具体实施方式，本领域技术人员可以意识到，这种罗列仅是示范性的，而并不用于限制本发明实施方式的保护范围。

在一个实施方式中，浏览器从用户发出的语音命令中识别出关键字的具体语音识别的方法可以有三种：基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法，本发明实施方式优选采用模板匹配的方法。模板匹配发展比较成熟，目前已达到了实用阶段。在模板匹配方法中，要经过四个步骤：特征提取、模板训练、模板分类、判决。常用的技术有三种：动态时间规整(DTW)、隐马尔可夫(HMM)理论、矢量量化(VQ)技术。

示范性地：当用户浏览一个页面，而且输入了某些文字(或者不输入文字)时，发出语音命令“请转播”(即说“请转播”这3个字)，那么浏览器开始在网页中查找，找到与关键字“请转播”相匹配的input元素中的voicetext域，并确定与voicetext域相对应的voicecmd域，然后可以根据voicecmd的值执行‘forwardweibo’操作，即执行具体的转播微博操作命令。

优选地，可以进一步在HTML标签中设置输入/输出设备控制命令域，而且在输入/输出设备控制命令域中包含网页控制命令。这样，当接收到输入/输出设备的操作时，可以无需执行语音识别，而是直接执行该输入/输出设备控制命令域中所包含的网页控制命令。

比如，以Input标签为例，可以新增输入/输出设备控制命令域(比如为onclick)，而且onclick＝‘forwardweibo’，这样当鼠标点击标签对应的按钮时，可以直接执行‘forwardweibo’操作，即直接执行转播微博操作。

在网页中，可以为用户提供多个几个操作交互点，从而便于用户控制。比如，以微博应用为例，可以有发微博、转播微博、评论微博、或者评论且转播微博等多个操作交互点。

应用本发明实施方式之后，便可以通过语音实现对这些操作的控制。

示范性地，图2为根据本发明实施方式的发微博输入示意图；图3为根据本发明实施方式的转播输入示意图；图4为根据本发明实施方式的评论输入示意图。

基于上述分析，本发明实施方式还提出了一种网页操作的语音控制***。

如图5所示，该***包括网页设置单元501和浏览器502。其中：

网页设置单元501，用于在网页的HTML标签中设置语音文本域以及对应于该语音文本域的控制命令域，在控制命令域中包含网页控制命令。

比如，可以在网页的HTML标签中，针对具体类型为发微博的网页控制命令设置发微博语音文本域以及对应于该发微博语音文本域的控制命令域；针对具体类型为转播微博的网页控制命令设置转播微博语音文本域以及对应于该转播微博语音文本域的控制命令域；针对具体类型为评论微博的网页控制命令设置评论微博语音文本域以及对应于该评论微博语音文本域的控制命令域；针对具体类型为评论且转播微博的网页控制命令设置评论且转播微博语音文本域以及对应于该评论且转播微博语音文本域的控制命令域。

浏览器502，用于从语音命令中识别出关键字，在网页的HTML标签中检索出与该关键字相匹配的语音文本域，并执行对应于语音文本域的控制命令域中所包含的网页控制命令。

在一个实施方式中，可以进一步在HTML标签中设置输入/输出设备控制命令域，而且在输入/输出设备控制命令域中包含网页控制命令。这样，当接收到输入/输出设备的操作时，可以无需执行语音识别，而是直接执行该输入/输出设备控制命令域中所包含的网页控制命令。

比如，以Input标签为例，可以新增输入/输出设备控制命令域(比如为onclick)，而且onclick＝‘forwardweibo’，这样当鼠标点击标签对应的按钮时，可以直接执行‘forwardweibo’操作，即执行转播微博操作。

具体地：

网页设置单元501，进一步用于在该HTML标签中设置输入/输出设备控制命令域，在所述输入/输出设备控制命令域中包含网页控制命令；

浏览器502，进一步用于当接收到输入/输出设备的操作时，执行该输入/输出设备控制命令域中所包含的网页控制命令。

优选地，网页设置单元501，还可以进一步用于通过自定义函数的方式设置网页控制命令。

而且，本发明实施方式可以在Input标签、Div标签、Table标签、Tbody标签、Tfoot标签或Caption标签等常用的HTML标签中设置语音文本域以及相应的控制命令域。

在一个实施方式中，网页控制命令为发微博。此时，浏览器502，用于从语音命令中识别出发微博关键字，在网页的HTML标签中检索出与发微博关键字相匹配的语音文本域(即发微博语音文本域)，并从对应于所述语音文本域的控制命令域中解析出发微博函数命令；并运行该发微博函数命令，以在网页中发出微博。

在一个实施方式中，网页控制命令为转播微博。此时，浏览器502，用于从语音命令中识别出转播微博关键字，在网页的HTML标签中检索出与转播微博关键字相匹配的语音文本域(即转播微博语音文本域)，并从对应于语音文本域的控制命令域中解析出转播微博函数命令；并运行该转播微博函数命令，以在网页中转播微博。

在一个实施方式中，网页控制命令为评论微博。此时，浏览器502，用于从语音命令中识别出评论微博关键字，在网页的HTML标签中检索出与评论微博关键字相匹配的语音文本域(即评论微博语音文本域)，并从对应于所述语音文本域的控制命令域中解析出评论微博函数命令；并运行该评论微博函数命令，以在网页中评论微博。

在一个实施方式中，网页控制命令为评论且转播微博；此时，浏览器502，用于从语音命令中识别出评论且转播微博关键字(即评论且转播微博语音文本域)，在网页的HTML标签中检索出与评论且转播微博关键字相匹配的语音文本域，并从对应于语音文本域的控制命令域中解析出评论且转播微博命令；并运行该评论且转播微博函数命令，以在网页中评论且转播微博。

以上虽然具体罗列了网页控制命令和可扩展标签的一些具体实施方式，本领域技术人员可以意识到，这种罗列仅是示范性的，而并不用于限制本发明实施方式的保护范围。

从上述技术方案可以看出，在本发明实施方式中，首先在网页的HTML标签中设置语音文本域以及对应于该语音文本域的控制命令域，而且在控制命令域中包含有网页控制命令；然后从语音命令中识别出关键字，在网页的HTML标签中检索出与该关键字相匹配的语音文本域，并执行对应于语音文本域的控制命令域中所包含的网页控制命令。由此可见，应用本发明实施方式之后，通过扩展HTML标签以及语音关键字识别，实现了针对网页内容元素的网页操作语音控制。而且，本发明实施方式的控制方式是针对特定的网页，而不是通用的命令，因此本发明实施方式显著提高了操作通用性。

另外，本发明可以在HTML的众多标签中任意选择标签进行扩展，因此本发明的具体应用形式非常多样，还有利于开发者的多样选择。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网页操作的语音控制方法，其特征在于，包括：

在网页的超文本标记语言HTML标签中设置语音文本域以及对应于该语音文本域的控制命令域，在所述控制命令域中包含网页控制命令；

从语音命令中识别出关键字，在所述网页的HTML标签中检索出与该关键字相匹配的语音文本域，并执行对应于所述语音文本域的控制命令域中所包含的网页控制命令；该方法进一步包括：在该HTML标签中设置输入/输出设备控制命令域，在所述输入/输出设备控制命令域中包含网页控制命令；

当接收到输入/输出设备的操作时，执行该输入/输出设备控制命令域中所包含的网页控制命令。

2.根据权利要求1所述的方法，其特征在于，该方法进一步包括：通过自定义函数的方式设置所述网页控制命令。

3.根据权利要求1-2中任一项所述的方法，其特征在于，所述网页控制命令包括下列至少一个：

发微博；

转播微博；

评论微博；

评论且转播微博；

发送邮件；

发送私信；或

上传附件。

4.根据权利要求1-2中任一项所述的方法，其特征在于，所述HTML标签包括下列至少一个：

Input标签；

Div标签；

Table标签；

Tbody标签；

Tfoot标签；或

Caption标签。

5.根据权利要求1所述的方法，其特征在于，所述网页控制命令为发微博；该方法包括：

从语音命令中识别出发微博关键字，在所述网页的HTML标签中检索出与发微博关键字相匹配的语音文本域，并从对应于所述语音文本域的控制命令域中解析出发微博函数命令；

运行该发微博函数命令，以在网页中发出微博。

6.根据权利要求1所述的方法，其特征在于，所述网页控制命令为转播微博；该方法包括：

从语音命令中识别出转播微博关键字，在所述网页的HTML标签中检索出与转播微博关键字相匹配的语音文本域，并从对应于所述语音文本域的控制命令域中解析出转播微博函数命令；

运行该转播微博函数命令，以在网页中转播微博。

7.根据权利要求1所述的方法，其特征在于，所述网页控制命令为评论微博；该方法包括：

从语音命令中识别出评论微博关键字，在所述网页的HTML标签中检索出与评论微博关键字相匹配的语音文本域，并从对应于所述语音文本域的控制命令域中解析出评论微博函数命令；

运行该评论微博函数命令，以在网页中评论微博。

8.根据权利要求1所述的方法，其特征在于，所述网页控制命令为评论且转播微博；该方法包括：

从语音命令中识别出评论且转播微博关键字，在所述网页的HTML标签中检索出与评论且转播微博关键字相匹配的语音文本域，并从对应于所述语音文本域的控制命令域中解析出评论且转播微博命令；

运行该评论且转播微博函数命令，以在网页中评论且转播微博。

9.一种网页操作的语音控制***，其特征在于，该***包括网页设置单元和浏览器，其中：

浏览器，用于从语音命令中识别出关键字，在所述网页的HTML标签中检索出与该关键字相匹配的语音文本域，并执行对应于所述语音文本域的控制命令域中所包含的网页控制命令；

网页设置单元，进一步用于在该HTML标签中设置输入/输出设备控制命令域，在所述输入/输出设备控制命令域中包含网页控制命令；

浏览器，进一步用于当接收到输入/输出设备的操作时，执行该输入/输出设备控制命令域中所包含的网页控制命令。

10.根据权利要求9所述的***，其特征在于，

所述网页设置单元，进一步用于通过自定义函数的方式设置所述网页控制命令。

11.根据权利要求9-10中任一项所述的***，其特征在于，所述网页控制命令包括下列至少一个：

发微博；

转播微博；

评论微博；

评论且转播微博；

发送邮件；

发送私信；或

上传附件。

12.根据权利要求9-10中任一项所述的***，其特征在于，所述HTML标签包括下列至少一个：

Input标签；

Div标签；

Table标签；

Tbody标签；

Tfoot标签；或

Caption标签。

13.根据权利要求9所述的***，其特征在于，所述网页控制命令为发微博；

浏览器，用于从语音命令中识别出发微博关键字，在所述网页的HTML标签中检索出与发微博关键字相匹配的语音文本域，并从对应于所述语音文本域的控制命令域中解析出发微博函数命令；并运行该发微博函数命令，以在网页中发出微博。

14.根据权利要求9所述的***，其特征在于，所述网页控制命令为转播微博；

浏览器，用于从语音命令中识别出转播微博关键字，在所述网页的HTML标签中检索出与转播微博关键字相匹配的语音文本域，并从对应于所述语音文本域的控制命令域中解析出转播微博函数命令；并运行该转播微博函数命令，以在网页中转播微博。

15.根据权利要求9所述的***，其特征在于，所述网页控制命令为评论微博；

浏览器，用于从语音命令中识别出评论微博关键字，在所述网页的HTML标签中检索出与评论微博关键字相匹配的语音文本域，并从对应于所述语音文本域的控制命令域中解析出评论微博函数命令；并运行该评论微博函数命令，以在网页中评论微博。

16.根据权利要求9所述的***，其特征在于，所述网页控制命令为评论且转播微博；

浏览器，用于从语音命令中识别出评论且转播微博关键字，在所述网页的HTML标签中检索出与评论且转播微博关键字相匹配的语音文本域，并从对应于所述语音文本域的控制命令域中解析出评论且转播微博命令；并运行该评论且转播微博函数命令，以在网页中评论且转播微博。