CN103246648A

CN103246648A - 语音输入控制方法及装置

Info

Publication number: CN103246648A
Application number: CN2012100225129A
Authority: CN
Inventors: 黄放; 叶骏; 董鹏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2012-02-01
Filing date: 2012-02-01
Publication date: 2013-08-14
Anticipated expiration: 2032-02-01
Also published as: CN103246648B

Abstract

本发明公开了一种语音输入控制方法及装置，属于计算机技术领域。方法包括：识别网页标签的输入属性，并根据识别出的输入属性确定语音输入入口；接收语音输入入口输入的语音信息，并将语音信息上传至语音云，由语音云对语音信息进行识别；获取识别结果，并根据识别结果及网页标签的输入属性进行输入控制。本发明通过将输入的语音信息上传到语音云进行识别，并根据识别结果及输入属性进行输入控制，不仅可实现在各种界面进行语音输入控制，还可实现对语音指令的控制，从而在提高输入速度的同时，还扩展了语音识别的应用；通过识别网页标签的标签属性，使语音云根据标签属性识别语音信息，进而提高了语音识别的准确性。

Description

语音输入控制方法及装置

技术领域

本发明涉及计算机技术领域，特别涉及一种语音输入控制方法及装置。

背景技术

语音识别技术，也被称为ASR(Automatic Speech Recognition，自动语音识别)，是一种通过对用户语音进行识别进而将其转化成文字的技术，借助语音识别技术来实现语音输入控制的应用越来越广泛。

现有的语音输入控制技术大多数是用于搜索框或短信界面。用户通过语音识别模块识别了语音后，将返回的文字填入浏览器的搜索框内，并通过程序触发搜索。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

现有技术中的语音输入控制大多数用于搜索框或短信界面，应用范围有限，对于其他应用的输入操作，仍然需要采用手动输入，从而限制了输入速度。

发明内容

为了在提高输入速度的同时，扩展语音识别的应用范围，本发明实施例提供了一种在浏览器进行语音输入和语音控制的方法及装置。所述技术方案如下：

一方面，提供了一种语音输入控制方法，所述方法包括：

识别网页标签的输入属性，并根据识别出的输入属性确定语音输入入口；

接收所述语音输入入口输入的语音信息，并将所述语音信息上传至语音云，由所述语音云对所述语音信息进行识别；

获取识别结果，并根据所述识别结果及所述网页标签的输入属性进行输入控制。

其中，所述识别网页标签的输入属性，具体包括：

解析网页标签，根据解析结果识别网页标签的输入属性，所述输入属性为输入文本属性或输入指令属性。

优选地，所述识别网页标签的输入属性时，还包括：

识别所述网页标签的标签属性；

所述将所述语音信息上传至语音云时，还包括：

将所述标签属性上传至所述语音云，由所述语音云根据所述标签属性对所述语音信息进行识别。

其中，所述识别所述网页标签的标签属性，具体包括：

解析所述网页标签所在网页的网页内容，根据所述网页内容识别所述网页标签的标签属性，所述标签属性为所述网页内容的类别或主题。

具体地，所述根据所述识别结果及所述网页标签的输入属性进行输入控制，具体包括：

如果所述网页标签的输入属性为输入文本属性，则将所述识别结果作为输入文本输入网页界面；

如果所述网页标签的输入属性为输入指令属性，则识别并执行所述识别结果对应的指令。

进一步地，所述识别并执行所述识别结果对应的指令之前，还包括：

在本地预先设置存储指令的指令库；

所述识别并执行所述识别结果对应的指令，具体包括：

将所述识别结果与本地预先设置的指令库中的指令进行对比，得到对应的指令，并执行得到的所述对应的指令。

另一方面，还提供了一种语音输入控制装置，所述装置包括：

识别模块，用于识别网页标签的输入属性；

确定模块，用于根据所述识别模块识别出的输入属性确定语音输入入口；

接收模块，用于接收所述确定模块确定的语音输入入口输入的语音信息；

上传模块，用于将所述接收模块接收到的语音信息上传至语音云，由所述语音云对所述语音信息进行识别；

获取模块，用于获取所述语音云对所述上传模块上传的语音信息进行识别的识别结果；

控制模块，用于根据所述获取模块获取到的识别结果及所述识别模块识别出的网页标签的输入属性进行输入控制。

其中，所述识别模块，具体用于解析网页标签，根据解析结果识别网页标签的输入属性，所述输入属性为输入文本属性或输入指令属性。

优选地，所述识别模块，还用于识别所述网页标签的标签属性；

所述上传模块，还用于将所述识别模块识别出的标签属性上传至所述语音云，由所述语音云根据所述标签属性对所述语音信息进行识别。

其中，所述识别模块，具体用于解析所述网页标签所在网页的网页内容，根据所述网页内容识别所述网页标签的标签属性，所述标签属性为所述网页内容的类别或主题。

具体地，所述控制模块，包括：

第一控制单元，用于如果所述识别模块识别出的网页标签的输入属性为输入文本属性，则将所述获取模块获取到的识别结果作为输入文本输入网页界面；

第二控制单元，用于如果所述识别模块识别出的网页标签的输入属性为输入指令属性，则识别并执行所述获取模块获取到的识别结果对应的指令。

进一步地，所述装置还包括：

设置模块，用于在本地预先设置存储指令的指令库；

所述第二控制单元，具体用于如果所述识别模块识别出的网页标签的输入属性为输入指令属性，则将所述识别结果与所述设置模块在本地预先设置的指令库中的指令进行对比，得到对应的指令，并执行得到的所述对应的指令。

本发明实施例提供的技术方案带来的有益效果是：

通过将输入的语音信息上传到语音云进行识别，并根据识别结果及输入属性进行输入控制，不仅可以实现在各种界面进行语音输入控制，还可实现对语音指令的控制，从而在提高输入速度的同时，还扩展了语音识别的应用；另外，通过识别网页标签的标签属性，使语音云根据标签属性识别语音信息，进而提高了语音识别的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的一种语音输入控制方法流程图；

图2是本发明实施例二提供的一种语音输入控制方法流程图；

图3是本发明实施例三提供的一种语音输入控制方法流程图；

图4是本发明实施例四提供的一种语音输入装置的结构示意图；

图5是本发明实施例四提供的控制模块的结构示意图；

图6是本发明实施例四提供的另一种语音输入控制的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一

本实施例提供了一种语音输入控制方法，参见图1，本实施例提供的方法流程具体如下：

101：识别网页标签的输入属性，并根据识别出的输入属性确定语音输入入口；

102：接收语音输入入口输入的语音信息，并将语音信息上传至语音云，由语音云对语音信息进行识别；

103：获取识别结果，并根据识别结果及网页标签的输入属性进行输入控制。

其中，识别网页标签的输入属性，具体包括：

解析网页标签，根据解析结果识别网页标签的输入属性，输入属性为输入文本属性或输入指令属性。

优选地，识别网页标签的输入属性时，还包括：

识别网页标签的标签属性；

将语音信息上传至语音云时，还包括：

将标签属性上传至语音云，由语音云根据标签属性对语音信息进行识别。

其中，识别网页标签的标签属性，具体包括：

解析网页标签所在网页的网页内容，根据网页内容识别网页标签的标签属性，标签属性为网页内容的类别或主题。

具体地，根据识别结果及网页标签的输入属性进行输入控制，具体包括：

如果网页标签的输入属性为输入文本属性，则将识别结果作为输入文本输入网页界面；

如果网页标签的输入属性为输入指令属性，则识别并执行识别结果对应的指令。

进一步地，识别并执行识别结果对应的指令之前，还包括：

在本地预先设置存储指令的指令库；

识别并执行识别结果对应的指令，具体包括：

将识别结果与本地预先设置的指令库中的指令进行对比，得到对应的指令，并执行得到的对应的指令。

本实施例提供的方法，通过将输入的语音信息上传到语音云进行识别，并根据识别结果及输入属性进行输入控制，不仅可以实现在各种界面进行语音输入控制，还可实现对语音指令的控制，从而在提高输入速度的同时，还扩展了语音识别的应用；另外，通过识别网页标签的标签属性，使语音云根据标签属性识别语音信息，进而提高了语音识别的准确性。

为了更加详细地阐述上述实施例一提供的方法，下面，结合上述实施例一的内容，以如下实施例二和实施例三的内容为例，对语音输入控制方法进行举例说明，详见如下实施例二和实施例三：

实施例二

本实施例提供了一种语音输入控制方法，结合上述实施例一的内容，为了便于说明，本实施例以具有输入文本属性的网页标签<input>标签为例，对本实施例提供的语音输入控制方法进行举例说明。参见图2，本实施例提供的方法流程具体如下：

201：识别网页标签的输入属性，并根据识别出的输入属性确定语音输入入口；

其中，本实施例不对具体的网页标签进行限定，实际应用中，网页中包括多个网页标签，网页标签的输入属性包括输入文本属性或输入指令属性。识别网页标签的输入属性时，可解析网页标签，根据解析结果识别网页标签的输入属性，还可以采用其他识别方式，本实施例不对具体的识别方式进行限定。例如，解析网页，发现有<input>标签，则解析该<input>标签，得到其输入属性为输入文本属性，根据该输入文本属性即可确定有语音输入入口。

202：接收语音输入入口输入的语音信息，并将该语音信息上传至语音云，由语音云对该语音信息进行识别；

针对该步骤，在上述步骤201确定语音输入入口后，为了使用户通过该语音输入入口进行语音输入操作，可提供<input>标签对应的操作区域，当用户在<input>标签对应的区域内进行操作后，触发出现语音输入入口，并在用户点击该语音输入入口后，即可进行语音输入，本实施例不对输入的具体语音信息进行限定。

关于用户在标签对应的区域内进行的具体操作，本实施例不作具体限定，即不对触发出现语音输入入口的方式进行限定。实际应用中，可通过用户对标签区域的点击、触摸、调出菜单等操作方式，触发出现语音输入入口。

其中，语音云同现有语音识别技术一样，其包含了根据不同的用户语音说话习惯训练的多个语音模型，将语音输入入口输入的语音信息上传至语音云后，通过将其与语音云中的语音模型进行匹配，即可识别出该语音信息，从而将其由语音格式转化成文本格式。通过语音云识别语音信息的过程是一种十分成熟的语音识别技术，本实施例在此不再赘述。

优选地，由于同一语音信息也可能对应不同文本，语音云无法分辨不同的语言环境下语音信息的不同含义，对此，为了进一步提高语音识别的准确性，本实施例提供的方法在识别网页标签的输入属性时，还包括识别网页标签的标签属性的步骤。其中，网页标签的标签属性可以为网页标签所在网页的网页内容的类别或主题等，例如，如果网页标签所在网页为一个书城网页，可将则通过该网页标签的输入属性确定的语音输入入口所输入的语音信息应该与书籍有关，因此，可将该书城网站的书籍类别或是书城网站的主题作为该网页标签的标签属性。为了便于语音云准确识别语音信息，可在将语音信息上传至语音云时，还将该网页标签的标签属性上传给语音云，使语音云根据标签属性对语音信息进行识别，从而提高识别结果的准确性。

本实施例不对识别网页标签的标签属性的方式进行限定，具体应用时，可解析网页标签所在网页的网页内容，根据网页内容识别网页标签的标签属性，将该网页内容的类别或主题作为网页标签的标签属性，或是采用其他内容作为标签属性，本实施例不对网页标签的具体标签属性进行限定。

203：获取识别结果，并将识别结果作为输入文本输入网页界面。

针对该步骤，由于网页标签的输入属性为输入文本属性，为了实现文本输入，获取语音云识别出的识别结果后，可将识别结果作为输入文本输入网页界面。具体实现时，可在网页内设置与语音输入入口对应的输入框，获取识别结果后，将识别结果作为输入文本写入对应的输入框内，从而完成语音输入控制。

本实施例提供的方法，通过将输入的语音信息上传到语音云进行识别，并根据识别结果及输入属性进行输入控制，从而可以实现在各种界面进行语音输入控制，在提高输入速度的同时，还扩展了语音识别的应用；另外，通过识别网页标签的标签属性，使语音云根据标签属性识别语音信息，进而提高了语音识别的准确性。

实施例三

本实施例提供了一种语音输入控制方法，结合上述实施例一的内容，为了便于说明，本实施例以具有输入指令属性的网页标签为语音指令标签为例，对本实施例提供的语音输入控制方法进行举例说明。参见图3，本实施例提供的方法流程具体如下：

301：识别网页标签的输入属性，并根据识别出的输入属性确定语音输入入口；

其中，本实施例不对具体的网页标签进行限定，实际应用中，网页中可包括多个网页标签，网页标签的输入属性包括输入文本属性或输入指令属性。识别网页标签的输入属性时，可解析网页标签，根据解析结果识别网页标签的输入属性，还可以采用其他识别方式，本实施例不对具体的识别方式进行限定。例如，解析网页，发现有语音指令标签，则解析该语音指令标签，得到其输入属性为输入指令属性，根据该输入指令属性即可确定有语音输入入口。

302：接收语音输入入口输入的语音信息，并将该语音信息上传至语音云，由语音云对该语音信息进行识别；

针对该步骤，在上述步骤301确定语音输入入口后，为了使用户通过该语音输入入口进行语音指令操作，可提供语音指令标签对应的操作区域，当用户在语音指令标签对应的区域内进行操作后，触发出现语音输入入口，并在用户点击该语音输入入口后，即可进行语音指令的输入，本实施例不对输入的具体语音指令信息进行限定。

其中，语音云同现有语音识别技术一样，其包含了根据不同的用户语音说话习惯训练的多个语音模型，将语音输入入口输入的语音指令信息上传至语音云后，通过将其与语音云中的语音模型进行匹配，即可识别出该语音信息，从而将其由语音格式转化成文本格式。通过语音云识别语音信息的过程是一种十分成熟的语音识别技术，本实施例在此不再赘述。

303：获取识别结果，识别并执行识别结果对应的指令。

针对该步骤，由于网页标签的输入属性为输入指令属性，为了实现语音指令的输入，获取语音云识别出的识别结果后，需要先识别语音信息的识别结果对应哪种指令，对此，本实施例不对识别指令的方式进行限定。具体实现时，本地预先设置了指令库，该指令库中存储了各种指令，可将识别结果与本地预先设置的指令库中的指令进行对比，得出该识别结果对应的指令，之后再执行该指令即可。

例如，以输入的语音信息为“打开书签”为例，语音云对其进行识别之后，获取识别结果，将该识别结果与本地的指令库进行对比，对比后得出是打开书签指令，则执行打开书签的操作。当然，识别结果对应的指令除了为打开书签的指令外，还包括但不限于前进、后退、关闭等指令，本实施例不对指令库中存储的指令进行限定，同样不对识别结果对应的具体指令进行限定。

本实施例提供的方法，通过将输入的语音指令信息上传到语音云进行识别，并根据识别结果及输入属性实现对语音指令的控制，在提高输入速度的同时，还扩展了语音识别的应用。

实施例四

本实施例提供了一种语音输入控制装置，参见图4，该装置包括：

识别模块401，用于识别网页标签的输入属性；

确定模块402，用于根据识别模块401识别出的输入属性确定语音输入入口；

接收模块403，用于接收确定模块402确定的语音输入入口的语音信息；

上传模块404，用于将接收模块403接收到的语音信息上传至语音云，由语音云对语音信息进行识别；

获取模块405，用于获取语音云对上传模块404上传的语音信息进行识别的识别结果；

控制模块406，用于根据获取模块405获取到的识别结果及识别模块识别出的网页标签的输入属性进行输入控制。

其中，识别模块401，具体用于解析网页标签，根据解析结果识别网页标签的输入属性，输入属性为输入文本属性或输入指令属性。

优选地，识别模块401，还用于识别网页标签的标签属性；

上传模块404，还用于将识别模块401识别出的标签属性上传至语音云，由语音云根据标签属性对语音信息进行识别。

进一步地，识别模块401，具体用于解析网页标签所在网页的网页内容，根据网页内容识别网页标签的标签属性，标签属性为网页内容的类别或主题。

具体地，参见图5，控制模块406，包括：

第一控制单元4061，用于如果识别模块401识别出的网页标签的输入属性为输入文本属性，则将获取模块405获取到的识别结果作为输入文本输入网页界面；

第二控制单元4062，用于如果识别模块401识别出的网页标签的输入属性为输入指令属性，则识别并执行获取模块405获取到的识别结果对应的指令。

进一步地，参见图6，该装置还包括：

设置模块407，用于在本地预先设置存储指令的指令库；

第二控制单元4062，具体用于如果识别模块401识别出的网页标签的输入属性为输入指令属性，则将识别结果与设置模块407在本地预先设置的指令库中的指令进行对比，得到对应的指令，并执行得到的对应的指令。

本实施例提供的装置，通过将输入的语音信息上传到语音云进行识别，并根据识别结果及输入属性进行输入控制，不仅可以实现在各种界面进行语音输入控制，还可实现对语音指令的控制，从而在提高输入速度的同时，还扩展了语音识别的应用；另外，通过识别网页标签的标签属性，使语音云根据标签属性识别语音信息，进而提高了语音识别的准确性。

需要说明的是：上述实施例提供的语音输入控制装置在进行语音输入控制时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音输入控制装置与语音输入控制方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音输入控制方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述识别网页标签的输入属性，具体包括：

3.根据权利要求1所述的方法，其特征在于，所述识别网页标签的输入属性时，还包括：

识别所述网页标签的标签属性；

所述将所述语音信息上传至语音云时，还包括：

4.根据权利要求3所述的方法，其特征在于，所述识别所述网页标签的标签属性，具体包括：

5.根据权利要求1至4中任一权利要求所述的方法，其特征在于，所述根据所述识别结果及所述网页标签的输入属性进行输入控制，具体包括：

6.根据权利要求5所述的方法，其特征在于，所述识别并执行所述识别结果对应的指令之前，还包括：

在本地预先设置存储指令的指令库；

所述识别并执行所述识别结果对应的指令，具体包括：

7.一种语音输入控制装置，其特征在于，所述装置包括：

识别模块，用于识别网页标签的输入属性；

8.根据权利要求7所述的装置，其特征在于，所述识别模块，具体用于解析网页标签，根据解析结果识别网页标签的输入属性，所述输入属性为输入文本属性或输入指令属性。

9.根据权利要求7所述的装置，其特征在于，所述识别模块，还用于识别所述网页标签的标签属性；

10.根据权利要求9所述的装置，其特征在于，所述识别模块，具体用于解析所述网页标签所在网页的网页内容，根据所述网页内容识别所述网页标签的标签属性，所述标签属性为所述网页内容的类别或主题。

11.根据权利要求7至10中任一权利要求所述的装置，其特征在于，所述控制模块，包括：

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

设置模块，用于在本地预先设置存储指令的指令库；