具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
在本发明实施方式中,针对网页的结构比较单一,用户提交内容增多,但是入口单一的特点,提供一些语音控制命令,当网页中的特定元素和这个语音控制命令匹配时,就触发这个元素上对应的操作。
图1为根据本发明实施方式的网页操作的语音控制方法流程示意图。
如图1所示,该方法包括:
步骤101:在网页的超文本标记语言(HTML)标签(tag)中设置语音文本域及对应于该语音文本域的控制命令域,而且在控制命令域中包含网页控制命令。
在这里,可以扩展HTML标准,为一些标签增加语音文本域和控制命令域。标签是HTML中的基本元素,网页元素在HTML标准中对应着标签。网页元素是网页的基本单位,例如网页中的按钮就是一种网页元素。
在本发明实施方式中,语音文本域与控制命令保持对应,而且控制命令域中包含网页控制命令。
比如,本发明实施方式可以在Input标签、Div标签、Table标签、Tbody标签、Tfoot标签或Caption标签等常用的HTML标签中设置语音文本域以及相应的控制命令域。
比如:可以在网页的HTML标签中,针对具体类型为发微博的网页控制命令设置发微博语音文本域以及对应于该发微博语音文本域的控制命令域;针对具体类型为转播微博的网页控制命令设置转播微博语音文本域以及对应于该转播微博语音文本域的控制命令域;针对具体类型为评论微博的网页控制命令设置评论微博语音文本域以及对应于该评论微博语音文本域的控制命令域;针对具体类型为评论且转播微博的网页控制命令设置评论且转播微博语音文本域以及对应于该评论且转播微博语音文本域的控制命令域。
以上虽然具体罗列了本发明实施方式可扩展的一些具体HTML标签,本领域技术人员可以意识到,这种罗列仅是示范性的,而并不用于限制本发明实施方式的保护范围。
而且,在本发明实施方式中,可以通过自定义函数的方式预先设置在控制命令域中所包含的网页控制命令的具体内容。
示范性地,可以将语音文本域命名为voicetext;控制命令域命名为voicecmd;而且通过函数定义的方式设置forwardweibo为转播微博操作命令的具体函数名。
以Input标签为例,本发明实施方式具体实现可以如下:
<input type=″button″class=″inputBtn sendBtn″value=″转播″title=″转播″onclick=‘forwardweibo’voicecmd=“forwardweibo”voicetext=“请转播”>
其中,voicecmd和voicetext为本发明实施方式所新增的域。在voicetext中具体描述有文本“请转播”,而在voicecmd中具体描述有转播微博操作命令的具体函数名forwardweibo。
步骤102:从语音命令中识别出关键字,在所述网页的HTML标签中检索出与该关键字相匹配的语音文本域,并执行对应于所述语音文本域的控制命令域中所包含的网页控制命令。
此处浏览器需要应用到语音识别技术。
语音识别,也被称为自动语音识别(ASR,Automatic SpeechRecognition),其目标是将人类语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。
基于具体的应用环境,浏览器支持的网页控制命令可以包括下列至少一个:发微博;转播微博;评论微博;评论且转播微博;发送邮件;发送私信;或上传附件,等等。
当将本发明实施方式应用到利用语音在浏览器中发微博时,该方法具体包括:
首先从语音命令中识别出“发微博”关键字,然后浏览器在网页的HTML标签中检索出与“发微博”关键字相匹配的语音文本域(即发微博语音文本域),并从对应于该语音文本域的控制命令域中解析出发微博函数命令;然后运行该发微博函数命令,以在网页中发出微博。
当将本发明实施方式应用到利用语音在浏览器中转播微博时,该方法具体包括:
首先从语音命令中识别出“转播微博”关键字,在网页的HTML标签中检索出与“转播微博”关键字相匹配的语音文本域(即转播微博语音文本域),并从对应于该语音文本域的控制命令域中解析出转播微博函数命令;然后运行该转播微博函数命令,以在网页中转播微博。
当将本发明实施方式应用到利用语音在浏览器中评论微博时,该方法具体包括:
首先从语音命令中识别出“评论微博”关键字,在网页的HTML标签中检索出与“评论微博”关键字相匹配的语音文本域(即评论微博微博语音文本域),并从对应于语音文本域的控制命令域中解析出评论微博函数命令;然后运行该评论微博函数命令,以在网页中评论微博。
当将本发明实施方式应用到利用语音在浏览器中评论且转播微博时,该方法具体包括:
首先从语音命令中识别出“评论且转播微博”关键字,在网页的HTML标签中检索出与“评论且转播微博”关键字相匹配的语音文本域(即评论且转播微博语音文本域),并从对应于该语音文本域的控制命令域中解析出评论且转播微博命令;然后运行该评论且转播微博函数命令,以在网页中评论且转播微博。
以上虽然具体罗列了网页控制命令的一些具体实施方式,本领域技术人员可以意识到,这种罗列仅是示范性的,而并不用于限制本发明实施方式的保护范围。
在一个实施方式中,浏览器从用户发出的语音命令中识别出关键字的具体语音识别的方法可以有三种:基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法,本发明实施方式优选采用模板匹配的方法。模板匹配发展比较成熟,目前已达到了实用阶段。在模板匹配方法中,要经过四个步骤:特征提取、模板训练、模板分类、判决。常用的技术有三种:动态时间规整(DTW)、隐马尔可夫(HMM)理论、矢量量化(VQ)技术。
示范性地:当用户浏览一个页面,而且输入了某些文字(或者不输入文字)时,发出语音命令“请转播”(即说“请转播”这3个字),那么浏览器开始在网页中查找,找到与关键字“请转播”相匹配的input元素中的voicetext域,并确定与voicetext域相对应的voicecmd域,然后可以根据voicecmd的值执行‘forwardweibo’操作,即执行具体的转播微博操作命令。
优选地,可以进一步在HTML标签中设置输入/输出设备控制命令域,而且在输入/输出设备控制命令域中包含网页控制命令。这样,当接收到输入/输出设备的操作时,可以无需执行语音识别,而是直接执行该输入/输出设备控制命令域中所包含的网页控制命令。
比如,以Input标签为例,可以新增输入/输出设备控制命令域(比如为onclick),而且onclick=‘forwardweibo’,这样当鼠标点击标签对应的按钮时,可以直接执行‘forwardweibo’操作,即直接执行转播微博操作。
在网页中,可以为用户提供多个几个操作交互点,从而便于用户控制。比如,以微博应用为例,可以有发微博、转播微博、评论微博、或者评论且转播微博等多个操作交互点。
应用本发明实施方式之后,便可以通过语音实现对这些操作的控制。
示范性地,图2为根据本发明实施方式的发微博输入示意图;图3为根据本发明实施方式的转播输入示意图;图4为根据本发明实施方式的评论输入示意图。
基于上述分析,本发明实施方式还提出了一种网页操作的语音控制***。
图5为根据本发明实施方式的网页操作的语音控制***结构示意图。
如图5所示,该***包括网页设置单元501和浏览器502。其中:
网页设置单元501,用于在网页的HTML标签中设置语音文本域以及对应于该语音文本域的控制命令域,在控制命令域中包含网页控制命令。
比如,可以在网页的HTML标签中,针对具体类型为发微博的网页控制命令设置发微博语音文本域以及对应于该发微博语音文本域的控制命令域;针对具体类型为转播微博的网页控制命令设置转播微博语音文本域以及对应于该转播微博语音文本域的控制命令域;针对具体类型为评论微博的网页控制命令设置评论微博语音文本域以及对应于该评论微博语音文本域的控制命令域;针对具体类型为评论且转播微博的网页控制命令设置评论且转播微博语音文本域以及对应于该评论且转播微博语音文本域的控制命令域。
浏览器502,用于从语音命令中识别出关键字,在网页的HTML标签中检索出与该关键字相匹配的语音文本域,并执行对应于语音文本域的控制命令域中所包含的网页控制命令。
在一个实施方式中,可以进一步在HTML标签中设置输入/输出设备控制命令域,而且在输入/输出设备控制命令域中包含网页控制命令。这样,当接收到输入/输出设备的操作时,可以无需执行语音识别,而是直接执行该输入/输出设备控制命令域中所包含的网页控制命令。
比如,以Input标签为例,可以新增输入/输出设备控制命令域(比如为onclick),而且onclick=‘forwardweibo’,这样当鼠标点击标签对应的按钮时,可以直接执行‘forwardweibo’操作,即执行转播微博操作。
具体地:
网页设置单元501,进一步用于在该HTML标签中设置输入/输出设备控制命令域,在所述输入/输出设备控制命令域中包含网页控制命令;
浏览器502,进一步用于当接收到输入/输出设备的操作时,执行该输入/输出设备控制命令域中所包含的网页控制命令。
优选地,网页设置单元501,还可以进一步用于通过自定义函数的方式设置网页控制命令。
而且,本发明实施方式可以在Input标签、Div标签、Table标签、Tbody标签、Tfoot标签或Caption标签等常用的HTML标签中设置语音文本域以及相应的控制命令域。
基于具体的应用环境,浏览器支持的网页控制命令可以包括下列至少一个:发微博;转播微博;评论微博;评论且转播微博;发送邮件;发送私信;或上传附件,等等。
在一个实施方式中,网页控制命令为发微博。此时,浏览器502,用于从语音命令中识别出发微博关键字,在网页的HTML标签中检索出与发微博关键字相匹配的语音文本域(即发微博语音文本域),并从对应于所述语音文本域的控制命令域中解析出发微博函数命令;并运行该发微博函数命令,以在网页中发出微博。
在一个实施方式中,网页控制命令为转播微博。此时,浏览器502,用于从语音命令中识别出转播微博关键字,在网页的HTML标签中检索出与转播微博关键字相匹配的语音文本域(即转播微博语音文本域),并从对应于语音文本域的控制命令域中解析出转播微博函数命令;并运行该转播微博函数命令,以在网页中转播微博。
在一个实施方式中,网页控制命令为评论微博。此时,浏览器502,用于从语音命令中识别出评论微博关键字,在网页的HTML标签中检索出与评论微博关键字相匹配的语音文本域(即评论微博语音文本域),并从对应于所述语音文本域的控制命令域中解析出评论微博函数命令;并运行该评论微博函数命令,以在网页中评论微博。
在一个实施方式中,网页控制命令为评论且转播微博;此时,浏览器502,用于从语音命令中识别出评论且转播微博关键字(即评论且转播微博语音文本域),在网页的HTML标签中检索出与评论且转播微博关键字相匹配的语音文本域,并从对应于语音文本域的控制命令域中解析出评论且转播微博命令;并运行该评论且转播微博函数命令,以在网页中评论且转播微博。
以上虽然具体罗列了网页控制命令和可扩展标签的一些具体实施方式,本领域技术人员可以意识到,这种罗列仅是示范性的,而并不用于限制本发明实施方式的保护范围。
从上述技术方案可以看出,在本发明实施方式中,首先在网页的HTML标签中设置语音文本域以及对应于该语音文本域的控制命令域,而且在控制命令域中包含有网页控制命令;然后从语音命令中识别出关键字,在网页的HTML标签中检索出与该关键字相匹配的语音文本域,并执行对应于语音文本域的控制命令域中所包含的网页控制命令。由此可见,应用本发明实施方式之后,通过扩展HTML标签以及语音关键字识别,实现了针对网页内容元素的网页操作语音控制。而且,本发明实施方式的控制方式是针对特定的网页,而不是通用的命令,因此本发明实施方式显著提高了操作通用性。
另外,本发明可以在HTML的众多标签中任意选择标签进行扩展,因此本发明的具体应用形式非常多样,还有利于开发者的多样选择。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。