CN107799115A

CN107799115A - 一种语音识别方法及装置

Info

Publication number: CN107799115A
Application number: CN201610752961.7A
Authority: CN
Inventors: 张军友
Original assignee: Faraday Beijing Network Technology Co Ltd
Current assignee: Fafa Automobile China Co ltd
Priority date: 2016-08-29
Filing date: 2016-08-29
Publication date: 2018-03-13

Abstract

本发明提供一种语音识别方法及装置，用以解决现有技术中的语音识别功能操作繁琐，便利性较差的问题。所述方法包括：在操作***启动后，监听声音；确定当前展示的界面及其所对应的可识别语料库；根据确定的所述可识别语料库，对监听到的所述声音进行语音识别，以便于根据所述语音识别结果，在所述当前展示的界面中执行对应的操作。

Description

一种语音识别方法及装置

技术领域

本发明实施例涉及计算机网络技术领域，尤其涉及一种语音识别方法及装置。

背景技术

目前，随着计算机网络技术的迅速发展，各种移动终端的使用也得到了普及，比如手机、平板电脑、智能可穿戴设备、车机等，给用户的日常生活带来了极大的便利。

用户可以通过使用搭载于移动终端上的各类应用，进行相应的业务，从而获得相应的服务。在某些应用中，支持语音识别功能，从而使得用户在诸如驾车、吃饭等双手不便的情况下也能够在这些应用中便利地输入信息。

对于现有技术中的语音识别功能，需要用户首先进入应用的页面，进而在应用的页面中主动地进行触发才能开始工作，比如，通过在应用的信息输入页面中或软键盘上点击预先设置的麦克风控件来触发等，而且，每当用户基于该语音识别功能输入一段信息并发送后，又需要再次触发该语音识别功能，才能够继续基于该语音识别功输入下一段信息。

由此可见，对于用户而言，现有技术中的语音识别功能操作繁琐，便利性较差。

发明内容

本发明实施例提供一种语音识别方法及装置，用以解决现有技术中的语音识别功能操作繁琐，便利性较差的问题。

本发明实施例提供的一种语音识别方法，包括：

在操作***启动后，监听声音；

确定当前展示的界面及其所对应的可识别语料库；

根据确定的所述可识别语料库，对监听到的所述声音进行语音识别，以便于根据所述语音识别结果，在所述当前展示的界面中执行对应的操作。

本发明实施例提供的一种语音识别装置，包括：

监听模块，用于在操作***启动后，监听声音；

确定模块，用于确定当前展示的界面及其所对应的可识别语料库；

识别模块，用于根据确定的所述可识别语料库，对监听到的所述声音进行语音识别，以便于根据所述语音识别结果，在所述当前展示的界面中执行对应的操作。

本发明实施例提供的语音识别方法及装置，在操作***启动后，监听声音，从而可以使语音识别功能随操作***而启动，并常驻后台或前台工作，并且可以自适应地根据当前展示的界面及其所对应的可识别语料库，对监听到的声音进行语音识别，相比于现有技术，减少了用户的干预，有效降低了操作繁琐程度，便利性较好，因此，可以部分或全部地解决现有技术中的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种语音识别方法的流程示意图；

图2为本发明实施例提供的语音识别方法在一种实际应用场景下的具体实施流程示意图；

图3为本发明实施例提供的一种实际应用场景下的手机桌面示意图；

图4为为本发明实施例提供的一种实际应用场景下的待输入短信的页面示意图；

图5为本发明实施例提供的一种实际应用场景下的已输入短信的页面示意图；

图6为本发明实施例提供的一种语音识别装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在现有技术中，除了存在背景技术中提到的便利性方便的问题以外，还存在其他问题，比如，功能单一的问题。具体地，现有技术中的语音识别功能通常只支持语音输入信息这一种用途，而本发明实施例提供的语音识别方法则可以支持通过语音识别而自动执行的更加丰富的操作，因此，还可以解决上述的功能单一的问题。

图1为本发明实施例提供的一种语音识别方法的流程示意图。从程序的角度而言，该流程的执行主体可以是终端的操作***，或者，搭载于终端上的应用；从设备的角度而言，该流程的执行主体可以是终端。

所述终端可以是移动终端，比如，手机、平板电脑、车机、笔记本电脑、车机、智能可穿戴设备(如智能手表、智能手环)等；所述终端也可以是非移动终端，比如，个人计算机(PC)、大中型计算机、计算机集群等。

图1中的流程可以包括以下步骤：

S101：在操作***启动后，监听声音。

在本发明实施例中，所述操作***是执行主体所基于的操作***，本发明对操作***具体是哪种***并不做限定。一般地，移动终端所基于的操作***常见有iOS、或Android等，非移动终端所基于的操作***有Windows、Linux、等操作***。

在本发明实施例中，可以在操作***启动后，立即开始监听声音，从而可以使得本发明实施例所提供的语音识别功能可以随操作***启动而启动；也可以在操作***启动后，满足一定条件后(比如，一个或多个指定应用启动后)，再开始监听声音。需要说明的是，对于后一种情况，与现有技术也是有区别的，用户只需正常地启动应用以及使用，而无需通过点击麦克风按钮等专用控件来触发语音识别功能的启动。

语音识别功能启动后，可以常驻后台或前台，并适应性地自动工作，而无需用户过多干预。

在本发明实施例中，所述声音可以是执行主体当前所处环境一定范围内的所有声音；为了提高识别效率，所述声音也可以是有选择的部分声音，比如，频率处于人声频率范围内的声音，因为，语音识别都是基于用户的语音进行识别的，而与非人声的环境声(一般属于噪音)关系不大。

S102：确定当前展示的界面及其所对应的可识别语料库。

在本发明实施例中，可识别语料库中可以包含关键词、或关键语句等语料，用于作为语音识别时的匹配对象，可以预先将每个语料分别于一定的操作相关联，以实现基于语音识别的自动操作。可识别语料库可以是预先从服务器下载的，也可以是由用户自行录制的，等等，本发明对可识别语料库的获得途径并不做限定。

进一步地，在实际应用中，在不同的界面中可进行的操作可能不同，因此，某些界面对应的可识别语料可能比较少，另一些界面对应的可识别语料可能比较多，因此，可以根据界面区别处理，不同的界面可以各有其对应的可识别语料库，从而，可以减轻语音识别时的处理负担。一般地，同一应用的所有页面可以对应于相同的可识别语料库，或者，同一种类型的界面可以对应于相同的可识别语料库；各可识别语料库可以是一个预设的语料总库中的子集。

S103：根据确定的所述可识别语料库，对监听到的所述声音进行语音识别，以便于根据所述语音识别结果，在所述当前展示的界面中执行对应的操作。

在本发明实施例中，所述操作可以是任意可由用户手动执行或者可由执行主体自动执行的操作。比如，信息输入操作、信息搜索操作；又比如，启动应用、关闭应用、页面跳转、信息选中、信息复制、信息粘贴等操作。

在本发明实施例中，监听到的所述声音中可以包含用户所下达的语音指令，这些语音指令具体可以对应于当前展示的界面所对应的可识别语料库中的语料。进而便于用户随时通过下达语音指令，使得在当前展示的界面中自动执行对应的操作，便利性较好，而且相比于现有技术更显智能。

在本发明实施例中，步骤S103中的“根据所述语音识别结果，在所述当前展示的界面中执行对应的操作”可以由执行主体直接来执行，也可以由执行主体指示所述执行主体以外的功能模块执行，为了便于描述，以下实施例主要基于前一种情况进行说明。

在本发明实施例中，在进行语音识别之前，还可以先进行声纹识别，以确定监听到的声音中的合法用户的语音，进而可以仅对合法用户的语音进行语音识别，从而有利于提高合法用户的信息安全性。

需要说明的是，本发明对进行语音识别和/或声纹识别时所采用的识别算法并不做限定，一般可以采用目前已有的一些成熟的识别算法，从而有利于提高本发明的方案的可靠性。

通过图1中的方法，在操作***启动后，监听声音，从而可以使语音识别功能随操作***而启动，并常驻后台或前台工作，并且可以自适应地根据当前展示的界面及其所对应的可识别语料库，对监听到的声音进行语音识别，相比于现有技术，减少了用户的干预，有效降低了操作繁琐程度，便利性较好，因此，可以部分或全部地解决现有技术中的问题。

不仅如此，由于所述操作并不限于信息输入操作，还可以是其他操作，因此，相比于现有技术，适用场景更加丰富，可以进一步地减轻用户的手动操作负担，提升用户体验。

基于图1中的方法，本发明实施例还提供了该方法的一些具体实施方案，以及扩展方案，下面进行说明。

在本发明实施例中，所述当前展示的界面可以为桌面或者应用的页面。在实际应用中，当当前展示的界面可以为桌面时，用户接下来一般会针对桌面上的某个应用进行操作，因此，桌面对应的可识别语料库至少可以包括所述桌面中的至少一个应用的名称，以便于在语音识别中定位到所述至少一个应用。

进一步地，在实际应用中，由于用户在桌面最常进行的操作是启动或唤醒某个应用的操作，因此，桌面对应的可识别语料库中的应用名称至少可以对应于启动操作或唤醒操作。在这种情况下，对于步骤S103，所述当前展示的界面为桌面时，所述对应的操作可以为启动操作或唤醒操作，根据所述语音识别结果，在所述当前展示的界面中执行对应的操作，具体可以包括：根据所述语音识别结果，当确定识别出应用的名称时，在所述桌面中对该应用执行启动操作或唤醒操作。其中，若该应用尚未启动则对其执行启动操作，若该应用已启动但处于未唤醒状态则对其执行唤醒操作，使其页面展示于最前端。

当然，可识别语料库中还可以包括除了应用的名称以外的更多内容，以便于更准确地执行启动操作和唤醒操作，或者针对应用的其他操作。具体地，当所述当前展示的界面为桌面时，所述桌面对应的可识别语料库中还包括至少一种操作的名称，根据所述语音识别结果，在所述当前展示的界面中执行对应的操作，可以包括：根据所述语音识别结果，当确定识别出应用的名称以及操作的名称时，在所述桌面中对该应用执行该操作。

其中，所述其他操作可以是应用选中操作、应用卸载操作，应用并入同一个文件夹操作、应用排列顺序调整操作，等等。

在本发明实施例中，与桌面类似，在进入应用的页面之后，也可以基于语音识别在应用的页面中自动地执行操作。具体地，对于步骤S103，当所述当前展示的界面为应用的页面时，所述应用的页面对应的可识别语料库中包括至少一种操作的名称，根据所述语音识别结果，在所述当前展示的界面中执行对应的操作，具体可以包括：根据所述语音识别结果，当确定识别出操作的名称时，在所述应用的页面中执行该操作。

进一步地，除了确定要执行的操作以外，当该操作可所针对的对象不止一个时，可能还需要明确地确定该操作针对哪个对象，其中，所述对象可以是应用中的页面的信息。比如，对于即时通讯应用的联系人页面，在进行语音识别后，确定所要执行的操作是即时通讯信息编辑操作，还需要明确地确定要针对各联系人中的哪个联系人编辑即时通讯信息；又比如，对于微博应用的用户已发微博页面，在进行语音识别后，确定所要执行的操作是微博删除操作，还需要明确地确定要删除各已发微博中的哪条微博；等等。

具体地，对于步骤S103，当所述当前展示的界面为应用的页面时，所述应用的页面对应的可识别语料库中包括所述页面中的信息，根据所述语音识别结果，在所述当前展示的界面中执行对应的操作，可以包括：根据所述语音识别结果，当确定识别出所述页面中的信息时，在所述应用的页面中针对该信息执行操作。

在本发明实施例中，同样也可以基于语音识别，在应用的信息输入页面中进行信息输入，在这种情况下，只要是用户可能发出的可转换为文字或字符的语音，可识别语料库中均可以包含相应的语料，以便于可以正确地进行识别。相应地，对于步骤S103，当所述当前展示的界面为应用的信息输入页面时，根据所述语音识别结果，在所述当前展示的界面中执行对应的操作，具体可以包括：根据所述语音识别结果，在所述信息输入页面中执行信息输入操作。其中，所输入的信息即可以是通过语音识别而识别出的信息。

上面对本发明实施例提供的语音识别方法进行了说明，为了便于理解，本发明实施例还提供了所述语音识别方法在一种实际应用场景下的具体实施流程示意图，如图2所示。

图2中的流程可以包括以下步骤：

S201：在操作***启动后，展示桌面并开始监听声音。

S202：确定当前展示了桌面及其对应的可识别语料库。

S203：根据确定的可识别语料库，对监听到的声音进行语音识别，识别出用户下达了启动某应用的语音指令。

S204：根据语音识别结果，启动该应用并展示该应用的页面。

S205：继续监听声音。

S206：确定当前展示了该应用的页面及其对应的可识别语料库。

S207：根据确定的可识别语料库，对监听到的声音进行语音识别，识别出用户下达了在该页面中输入一段文字信息的语音指令。

S208：根据语音识别结果，在该页面中输入该段文字信息。

为了便于理解，本发明实施例还提供了图2的流程相关的若干示意图，如图3、图4和图5所示。

图3为本发明实施例提供的一种实际应用场景下的手机桌面示意图。在该桌面上有8个应用，此时，手机已经处于监听声音的状态，并在实时地基于桌面对应的可识别语料库进行语音识别。

假定应用1之前已经启动但此时处于未唤醒状态，用户下达了“唤醒应用1”的语音指令，手机正确地识别到该语音指令后，唤醒了应用1，如图4所示。图4为本发明实施例提供的一种实际应用场景下的待输入短信的页面示意图。可以看到，应用1是短信应用，唤醒后的应用1的页面是一个短信输入页面。

在唤醒应用1的页面后，手机实时地基于该页面对应的可识别语料库进行语音识别，用户下达了输入短信信息“最近还不错，刚换了工作，现在的工作地点在XXXXXXXX，有空的时候来找我吃饭啊，我请客哦”的语音指令，手机正确地识别到该语音指令后，在图4中的页面中输入该短信信息，如图5所示。图5为本发明实施例提供的一种实际应用场景下的已输入短信的页面示意图。可以看到，短信已经成功输入。

需要说明的是，以上的实际应用场景只是一种示例，除了唤醒应用的操作和信息输入操作以外，本发明的方案也适用于其他操作，在此不再一一举例说明。

以上为本发明实施例提供的语音识别方法，基于同样的思路，本发明实施例还提供相应的装置，如图6所示。

图6为本发明实施例提供的语音识别装置的结构示意图，所述装置包括：

监听模块601，用于在操作***启动后，监听声音；

确定模块602，用于确定当前展示的界面及其所对应的可识别语料库；

识别模块603，用于根据确定的所述可识别语料库，对监听到的所述声音进行语音识别，以便于根据所述语音识别结果，在所述当前展示的界面中执行对应的操作。

可选地，所述监听模块601具体用于：在操作***启动后，当确定当前展示的界面为至少一个应用的页面时，监听声音。

可选地，当所述当前展示的界面为桌面时，所述桌面对应的可识别语料库中包括处于所述桌面中的至少一个应用的名称。

可选地，当所述当前展示的界面为桌面时，所述对应的操作为启动操作或唤醒操作，根据所述语音识别结果，在所述当前展示的界面中执行对应的操作，具体包括：

根据所述语音识别结果，当确定识别出应用的名称时，在所述桌面中对该应用执行启动操作或唤醒操作。

可选地，当所述当前展示的界面为桌面时，所述桌面对应的可识别语料库中还包括至少一种操作的名称，根据所述语音识别结果，在所述当前展示的界面中执行对应的操作，具体包括：

根据所述语音识别结果，当确定识别出应用的名称以及操作的名称时，在所述桌面中对该应用执行该操作。

可选地，当所述当前展示的界面为应用的页面时，所述应用的页面对应的可识别语料库中包括至少一种操作的名称，根据所述语音识别结果，在所述当前展示的界面中执行对应的操作，具体包括：

根据所述语音识别结果，当确定识别出操作的名称时，在所述应用的页面中执行该操作。

可选地，当所述当前展示的界面为应用的页面时，所述应用的页面对应的可识别语料库中包括所述页面中的信息，根据所述语音识别结果，在所述当前展示的界面中执行对应的操作，具体包括：

根据所述语音识别结果，当确定识别出所述页面中的信息时，在所述应用的页面中针对该信息执行操作。

可选地，当所述当前展示的界面为应用的信息输入页面时，根据所述语音识别结果，在所述当前展示的界面中执行对应的操作，具体包括：

根据所述语音识别结果，在所述信息输入页面中执行信息输入操作。

具体的上述如图6所示的装置可以位于终端上。

通过本发明实施例提供的语音识别装置，在操作***启动后，监听声音，从而可以使语音识别功能随操作***而启动，并常驻后台或前台工作，并且可以自适应地根据当前展示的界面及其所对应的可识别语料库，对监听到的声音进行语音识别，相比于现有技术，减少了用户的干预，有效降低了操作繁琐程度，便利性较好，因此，可以部分或全部地解决现有技术中的问题。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音识别方法，其特征在于，包括：

在操作***启动后，监听声音；

确定当前展示的界面及其所对应的可识别语料库；

2.根据权利要求1所述的方法，其特征在于，在操作***启动后，监听声音，具体包括：

在操作***启动后，当确定当前展示的界面为至少一个应用的页面时，监听声音。

3.根据权利要求1所述的方法，其特征在于，当所述当前展示的界面为桌面时，所述桌面对应的可识别语料库中包括处于所述桌面中的至少一个应用的名称。

4.根据权利要求3所述的方法，其特征在于，当所述当前展示的界面为桌面时，所述对应的操作为启动操作或唤醒操作，根据所述语音识别结果，在所述当前展示的界面中执行对应的操作，具体包括：

5.根据权利要求3所述的方法，其特征在于，当所述当前展示的界面为桌面时，所述桌面对应的可识别语料库中还包括至少一种操作的名称，根据所述语音识别结果，在所述当前展示的界面中执行对应的操作，具体包括：

6.根据权利要求1所述的方法，其特征在于，当所述当前展示的界面为应用的页面时，所述应用的页面对应的可识别语料库中包括至少一种操作的名称，根据所述语音识别结果，在所述当前展示的界面中执行对应的操作，具体包括：

7.根据权利要求1所述的方法，其特征在于，当所述当前展示的界面为应用的页面时，所述应用的页面对应的可识别语料库中包括所述页面中的信息，根据所述语音识别结果，在所述当前展示的界面中执行对应的操作，具体包括：

8.根据权利要求1所述的方法，其特征在于，当所述当前展示的界面为应用的信息输入页面时，根据所述语音识别结果，在所述当前展示的界面中执行对应的操作，具体包括：

9.一种语音识别装置，其特征在于，包括：

监听模块，用于在操作***启动后，监听声音；

10.根据权利要求9所述的装置，其特征在于，所述监听模块具体用于：在操作***启动后，当确定当前展示的界面为至少一个应用的页面时，监听声音。

11.根据权利要求9所述的装置，其特征在于，当所述当前展示的界面为桌面时，所述桌面对应的可识别语料库中包括处于所述桌面中的至少一个应用的名称。

12.根据权利要求11所述的装置，其特征在于，当所述当前展示的界面为桌面时，所述对应的操作为启动操作或唤醒操作，根据所述语音识别结果，在所述当前展示的界面中执行对应的操作，具体包括：

13.根据权利要求11所述的装置，其特征在于，当所述当前展示的界面为桌面时，所述桌面对应的可识别语料库中还包括至少一种操作的名称，根据所述语音识别结果，在所述当前展示的界面中执行对应的操作，具体包括：

14.根据权利要求9所述的装置，其特征在于，当所述当前展示的界面为应用的页面时，所述应用的页面对应的可识别语料库中包括至少一种操作的名称，根据所述语音识别结果，在所述当前展示的界面中执行对应的操作，具体包括：

15.根据权利要求9所述的装置，其特征在于，当所述当前展示的界面为应用的页面时，所述应用的页面对应的可识别语料库中包括所述页面中的信息，根据所述语音识别结果，在所述当前展示的界面中执行对应的操作，具体包括：

16.根据权利要求9所述的装置，其特征在于，当所述当前展示的界面为应用的信息输入页面时，根据所述语音识别结果，在所述当前展示的界面中执行对应的操作，具体包括：