CN112068793A

CN112068793A - 一种语音输入方法及装置

Info

Publication number: CN112068793A
Application number: CN201910501519.0A
Authority: CN
Inventors: 胡伟; 胡妙丽; 吴永波; 吕崇; 马传兴; 张小贝; 吴军
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2019-06-11
Filing date: 2019-06-11
Publication date: 2020-12-11

Abstract

本申请实施例公开了一种语音输入方法及装置，输入法客户端首先获取当前输入框的输入框属性，和/或，输入法的当前输入方式。然后，根据输入框属性和/或输入法的输入方式，确定语音识别模式。再获取根据语音识别模式对获取到的语音数据进行语音识别的识别结果，以将识别结果进行显示。可见，在进行语音识别时，可以基于输入框自身的属性和/或输入法的输入方式先确定语音识别模式，即中文识别模式或非中文识别模式。当语音识别模式为中文识别模式时，将获取到的语音数据识别为中文识别结果，当语音识别模式为非中文识别模式时，将获取的语音数据识别为非中文识别结果，从而提高语音输入的准确性。

Description

一种语音输入方法及装置

技术领域

本申请涉及互联网技术领域，具体涉及一种语音输入方法及装置。

背景技术

随着终端设备的普及，用户会在终端设备中进行大量输入操作。通常可以利用输入法进行输入，输入法指将各种符号输入计算机或其他设备而采用的编码方法。在现有技术中，输入法可以实现通过对语音数据进行语音识别而完成输入。但是，在通过语音进行输入过程中，会有语音识别不准确的情况。

发明内容

有鉴于此，本申请实施例提供一种语音输入方法及装置，以解决现有技术中语音输入不准确的技术问题。

为解决上述问题，本申请实施例提供的技术方案如下：

在本申请实施例第一方面，提供了一种语音输入方法，所述方法包括：

获取当前输入框的输入框属性，和/或，获取输入法的输入方式；

根据所述输入框属性和/或所述输入法的输入方式，确定语音识别模式，所述语音识别模式包括中文识别模式以及非中文识别模式；

获取根据所述语音识别模式对获取到的语音数据进行语音识别的识别结果；

对所述识别结果进行显示。

在一种可能的实现方式中，当仅获取到所述输入框属性时，所述根据所述输入框属性和/或所述输入法的输入方式，确定语音识别模式，包括：

当所述输入框属性为仅允许输入字符或者仅允许输入字母、仅允许输入符号、仅允许输入数字中的至少一种时，确定语音识别模式为非中文识别模式；

当所述输入框属性为允许输入文本时，确定语音识别模式为中文识别模式。

在一种可能的实现方式中，当仅获取到所述输入法的输入方式时，所述根据所述输入框属性和/或所述输入法的输入方式，确定语音识别模式，包括：

当所述输入法的输入方式为字母输入方式、符号输入方式或数字输入方式时，确定语音识别模式为非中文识别模式；

当所述输入法的输入方式为中文输入方式时，确定语音识别模式为中文识别模式。

在一种可能的实现方式中，当获取到所述输入框属性以及所述输入法的输入方式时，所述根据所述输入框属性和/或所述输入法的输入方式，确定语音识别模式，包括：

当所述输入框属性为仅允许输入字符或者仅允许输入字母、仅允许输入符号、仅允许输入数字中的至少一种，所述输入法的输入方式为字母输入方式、符号输入方式或数字输入方式时，确定语音识别模式为非中文识别模式；

当所述输入框属性为仅允许输入字符或者仅允许输入字母、仅允许输入符号、仅允许输入数字中的至少一种，所述输入法的输入方式为中文输入方式时，确定语音识别模式为非中文识别模式；

当所述输入框属性为允许输入文本，所述输入法的输入方式为字母输入方式、符号输入方式或数字输入方式时，确定语音识别模式为非中文识别模式；

当所述输入框属性为允许输入文本，所述输入法的输入方式为中文输入方式时，确定语音识别模式为中文识别模式。

在一种可能的实现方式中，所述获取根据所述语音识别模式对所述语音数据进行语音识别的识别结果，包括：

将所述语音识别模式发送给语音识别模块，以使所述语音识别模块对所述语音数据进行语音识别生成识别结果；

获取所述语音识别模块发送的识别结果。

在一种可能的实现方式中，所述语音识别模块具体用于当语音识别模式为中文识别模式时，将所述语音数据输入中文语音识别模型，获得中文识别结果；当语音识别模式为非中文识别模式时，将所述语音数据输入非中文语音识别模型，获得字符或字符串识别结果；

所述获取所述语音识别模块发送的识别结果，包括：

获取所述语音识别模块发送的中文识别结果；

或者，获取所述语音识别模块发送的字符或字符串识别结果。

根据所述语音识别模式对所述语音数据进行语音识别获得识别结果。

在一种可能的实现方式中，所述根据所述语音识别模式对所述语音数据进行语音识别获得识别结果，包括：

当语音识别模式为中文识别模式时，将所述语音数据输入中文语音识别模型，获得中文识别结果；

当语音识别模式为非中文识别模式时，将所述语音数据输入非中文语音识别模型，获得字符或字符串识别结果。

在一种可能的实现方式中，当获得字符或字符串识别结果时，所述对所述识别结果进行显示，包括：

获取输入法大写锁定状态；

当所述输入法大写锁定状态为大写锁定状态时，将所述字符或字符串识别结果中的字母显示为大写；

当所述输入法大写锁定状态为大写未锁定状态时，将所述字符或字符串识别结果中的字母显示为小写。

在一种可能的实现方式中，所述获取输入法的输入方法，包括：

获取在进入语音识别之前输入法的输入方式。

在本申请实施例第二方面，提供了一种语音输入装置，所述装置包括：

第一获取单元，用于输入法客户端获取当前输入框的输入框属性，和/或，获取输入法的输入方式；

确定单元，用于根据所述输入框属性和/或所述输入法的输入方式，确定语音识别模式，所述语音识别模式包括中文识别模式以及非中文识别模式；

第二获取单元，用于获取根据所述语音识别模式对获取到的语音数据进行语音识别的识别结果；

显示单元，用于对所述识别结果进行显示。

在一种可能的实现方式中，当仅获取到所述输入框属性时，所述确定单元，包括：

第一确定子单元，用于当所述输入框属性为仅允许输入字符或者仅允许输入字母、仅允许输入符号、仅允许输入数字中的至少一种时，确定语音识别模式为非中文识别模式；

第二确定子单元，用于当所述输入框属性为允许输入文本时，确定语音识别模式为中文识别模式。

在一种可能的实现方式中，当仅获取到所述输入法的输入方式时，所述确定单元，包括：

第三确定子单元，用于当所述输入法的输入方式为字母输入方式、符号输入方式或数字输入方式时，确定语音识别模式为非中文识别模式；

第四确定子单元，用于当所述输入法的输入方式为中文输入方式时，确定语音识别模式为中文识别模式。

在一种可能的实现方式中，当获取到所述输入框属性以及所述输入法的输入方式时，所述确定单元，包括：

第五确定子单元，用于当所述输入框属性为仅允许输入字符或者仅允许输入字母、仅允许输入符号、仅允许输入数字中的至少一种，所述输入法的输入方式为字母输入方式、符号输入方式或数字输入方式时，确定语音识别模式为非中文识别模式；

第六确定子单元，用于当所述输入框属性为仅允许输入字符或者仅允许输入字母、仅允许输入符号、仅允许输入数字中的至少一种，所述输入法的输入方式为中文输入方式时，确定语音识别模式为非中文识别模式；

第七确定子单元，用于当所述输入框属性为允许输入文本，所述输入法的输入方式为字母输入方式、符号输入方式或数字输入方式时，确定语音识别模式为非中文识别模式；

第八确定子单元，用于当所述输入框属性为允许输入文本，所述输入法的输入方式为中文输入方式时，确定语音识别模式为中文识别模式。

在一种可能的实现方式中，所述第二获取单元，包括：

发送子单元，用于将所述语音识别模式发送给语音识别模块，以使所述语音识别模块对所述语音数据进行语音识别生成识别结果；

获取子单元，用于获取所述语音识别模块发送的识别结果。

所述获取子单元，具体用于获取所述语音识别模块发送的中文识别结果；

在一种可能的实现方式中，所述第二获取单元，具体用于根据所述语音识别模式对所述语音数据进行语音识别获得识别结果。

在一种可能的实现方式中，所述第二获取单元，具体用于当语音识别模式为中文识别模式时，将所述语音数据输入中文语音识别模型，获得中文识别结果；

在一种可能的实现方式中，所述装置还包括：

第三获取单元，用于获取输入法大写锁定状态；

所述显示单元，具体用于当所述输入法大写锁定状态为大写锁定状态时，将所述字符或字符串识别结果中的字母显示为大写；

所述显示单元，具体用于当所述输入法大写锁定状态为大写未锁定状态时，将所述字符或字符串识别结果中的字母显示为小写。

在本申请实施例第三方面，提供了一种用于语音输入的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

输入法客户端获取当前输入框的输入框属性，和/或，获取输入法的输入方式；

对所述识别结果进行显示。

在本申请实施例第四方面，提供了一种计算机可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行第一方面所述的语音输入的方法。

由此可见，本申请实施例具有如下有益效果：

本申请实施例输入法客户端首先获取当前输入框的输入框属性，和/或，输入法的输入方式。然后，根据输入框属性和/或输入法的输入方式，确定语音识别模式。也就是，当仅获取输入框属性或仅获取输入法的输入方式时，则根据输入框属性或输入法的输入方式确定语音识别模式，如果同时获取输入框属性和输入法的输入方式，则根据输入框属性和输入方式确定语音识别模式。再获取根据语音识别模式对获取到的语音数据进行语音识别的识别结果，以将识别结果进行显示。可见，通过本申请实施例提供的方法，在进行语音输入时，可以基于输入框自身的属性和/或输入法的输入方式先确定语音识别模式，即中文识别模式或非中文识别模式。当语音识别模式为中文识别模式时，将获取到的语音数据识别为中文识别结果，当语音识别模式为非中文识别模式时，将获取的语音数据识别为非中文识别结果，从而提高语音输入的准确性。

附图说明

图1为本申请实施例提供的示例性应用场景的框架示意图；

图2为本申请实施例提供的一种语音输入方法的流程图；

图3a为输入法的输入方式为字母输入方式示例图；

图3b为输入法的输入方式为符号输入方式示例图；

图3c为输入法的输入方式为数字输入方式示例图；

图3d为输入法的输入方式为中文输入方式示例图；

图4为本申请实施例提供的一种语音输入装置结构图；

图5为本申请实施例提供的另一种语音输入装置结构图；

图6为本申请实施例提供的一种服务器设备结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请实施例作进一步详细的说明。

为便于理解本申请提供的技术方案，下面将先对本申请的背景技术进行说明。

发明人在对传统的语音识别方案研究中发现，传统的语音输入方法直接对获取的语音数据进行识别，识别结果通常不够准确。例如，用户通过输入法客户端的语音输入功能想要输入字母“B”，由于字母“B”和汉语拼音“bi”的发音相同，传统语音识别方案，可能会识别为中文“必”，导致识别结果不准确。特别是对于电视输入法客户端而言，由于用户输入成本较高，因此用户使用输入法客户端的语音输入功能的可能性更大，在输入账号密码等内容时，现有语音输入方案识别不准确的问题会更为突出。

基于此，本申请实施例提供了一种语音输入方法，具体为，当用户进行语音识别时，输入法客户端首先获取当前输入框的输入框属性，和/或，获取输入法的输入方式。然后，根据输入框属性和/或输入法的输入方式，确定语音识别模式，即根据当前输入环境确定在对语音数据进行语音识别时，执行中文识别模式还是非中文识别模式，以便获得更加准确的识别结果，进而向用户显示识别结果。

为便于理解本申请实施例提供的参见图1，该图为本申请实施例提供的示例性应用场景的框架示意图。其中，本申请实施例提供的语音输入方法可以应用于输入法客户端10。

实际应用时，输入法客户端10获取当前输入框的输入框属性，和/或，获取输入法的输入方式，并根据输入框属性和/或输入法的输入方式，确定语音识别模式，即确定在对语音数据进行语音识别时，按照中文识别模式还是非中文识别模式进行语音识别。当确定出当前输入环境对应的语音识别模式后，获取根据语音识别模式对获取到的语音数据进行语音识别的识别结果，以便将该识别结果进行显示。

需要说明的是，根据语音识别模式对获取到的语音数据进行语音识别的识别结果的操作，既可以由输入法客户端10自身根据语音识别模式进行语音数据识别，获得识别结果；也可以由输入法客户端10将语音识别模式发送给对应的输入法服务器20进行语音识别，从输入法服务器20获取语音识别结果；也可以由输入法客户端10将语音识别模式发送给其它客户端或设备的语音识别模块，然后再从其它客户端或设备的语音识别模块获取识别结果。其中，其它客户端可以为不同于输入法客户端的客户端，其它设备可以为不同于输入法服务器20独立存在的设备，可以为现有、正在研发的或将来研发的、具有语音识别功能的设备。

本领域技术人员可以理解，图1所示的框架示意图仅是本申请的实施方式可以在其中得以实现的一个示例。本申请实施方式的适用范围不受到该框架任何方面的限制。

需要注意的是，客户端10可以承载于终端，该终端可以是现有的、正在研发的或将来研发的、能够通过任何形式的有线和/或无线连接(例如，Wi-Fi、LAN、蜂窝、同轴电缆等)相互交互的任何用户设备，包括但不限于：现有的、正在研发的或将来研发的智能可穿戴设备、智能手机、非智能手机、平板电脑、膝上型个人计算机、桌面型个人计算机、小型计算机、中型计算机、大型计算机等。本申请的实施方式在此方面不受任何限制。还需要注意的是，本申请实施例中服务器20可以是现有的、正在研发的或将来研发的、能够向提供语音识别服务的设备的一个示例。本申请的实施方式在此方面不受任何限制。

为便于理解本申请实施例提供的技术方案，下面将结合附图对本申请实施例提供的语音输入方法进行说明。

参见图2，该图为本申请实施例提供的一种语音输入方法的流程图，如图2所示，该方法可以包括：

S201：输入法客户端获取当前输入框的输入框属性，和/或，获取输入法的输入方式。

本实施例中，用户在通过输入法客户端输入语音数据后，在输入法客户端获取语音识别结果之前，首先获取当前输入框的输入框属性，和/或，输入法的输入方式，即获取此次语音识别的环境。

其中，当前输入框是指输入光标当前所在的输入框，也就是即将输入数据的输入框。输入框属性是指在该输入框所在页面中预先设置的该输入框可以输入数据的属性，可以包括仅允许输入字符、仅允许输入字母、仅允许输入符号、仅允许输入数字或者允许输入文本等。其中，字符可以包括字母、符号以及数字；文本可以包括中文，也可以包括字母、符号以及数字。

在触发输入法后，用户可以对输入法的输入方式进行切换，输入法的输入方式可以包括中文输入方式、字母输入方式、符号输入方式或数字输入方式等。用户还可以在切换到输入法的某种输入方式之后，触发进入语音输入模式，则在进入语音输入模式之前可以获取到输入法的输入方式。则在一些可能的实现方式中，获取输入法的输入方式可以为获取在进入语音识别之前输入法的输入方式。

S202：根据输入框属性和/或输入法的输入方式，确定语音识别模式。

本实施例中，当获取输入框属性和/或输入法的输入方式时，根据输入框属性和/或输入法的输入方式，确定语音识别模式。其中，语音识别模式包括中文识别模式以及非中文识别模式。

可以理解的是，当输入法客户端仅获取输入框属性时，则只需根据输入框属性确定语音识别模式；当输入法客户端仅获取输入法的输入方式时，则只需根据输入法的输入方式确定语音识别模式；当输入法客户端同时获取输入框属性和输入法的输入方式时，则根据输入框属性和输入法的输入方式确定语音识别模式。其中，关于输入法客户端获取其中一种，还是同时获取，可以根据实际需求进行设定，本实施例在此不做限定。关于，根据输入框属性和/或输入法的输入方式确定语音识别模式的具体实现将在后续实施例进行说明。

S203：获取根据语音识别模式对获取到的语音数据进行语音识别的识别结果。

本实施例中，当确定语音识别模式后，获取根据语音识别模式对获取到的语音数据进行语音识别的识别结果。即，在对语音数据进行语音识别时，根据语音识别模式对语音数据进行语音识别，获得识别结果，从而提高语音输入的准确性。例如，用户通过语音采集模块输入语音数据(发音等同于拼音bi)，如果语音识别模式为中文语音识别模式，则识别结果可以为“必”；如果语音识别模式为非中文语音识别模式，则输入法客户端获取的识别结果为“b”。再例如，用户通过语音采集模块输入语音“dou hao”，如果语音识别模式为中文语音识别模式，则识别结果为中文“逗号”；如果语音识别模式为非中文语音识别模式，则识别结果可以为符号“，”。

需要说明的是，根据语音识别模式对获取到的语音数据进行语音识别的操作，既可以由输入法客户端进行语音识别，也可以由输入法客户端将确定的语音识别模式发送给独立于输入法客户端的语音识别模块，由该语音识别模块根据语音识别模式对语音数据进行语音识别获得识别结果，同时将该识别结果发送给输入法客户端。其中，关于根据语音识别模式对语音数据进行语音识别的操作将在后续实施例进行说明。

S204：对识别结果进行显示。

当获取识别结果后，向用户显示该识别结果，以便在用户的触发操作下，进行上屏显示。

通过上述实施例可知，输入法客户端首先获取当前输入框的输入框属性，和/或，输入法的输入方式。然后，根据输入框属性和/或输入方式，确定语音识别模式。也就是，当仅获取输入框属性或仅获取输入法的输入方式时，则根据输入框属性或输入方式确定语音识别模式，如果同时获取输入框属性和输入法的输入方式，则根据输入框和输入方式确定语音识别模式。再获取根据语音识别模式对获取到的语音数据进行语音识别的识别结果，以将识别结果进行显示。可见，通过本申请实施例提供的方法，在进行语音识别时，可以基于输入框自身的属性和/或输入法的输入方式先确定语音识别模式，即中文识别模式或非中文识别模式。当语音识别模式为中文识别模式时，将获取到的语音数据识别为中文识别结果，当语音识别模式为非中文识别模式时，将获取的语音数据识别为非中文识别结果，从而提高语音输入的准确性。

在本申请实施例一种可能的实现方式中，针对上述实施例中根据输入框属性和/或输入法的输入方式确定语音识别模式的实现方式进行说明。

第一种是，当仅获取到输入框属性时，根据输入框属性和/或输入法的输入方式，确定语音识别模式，包括：当输入框属性为仅允许输入字符或者仅允许输入字母、仅允许输入符号、仅允许输入数字中的至少一种时，确定语音识别模式为非中文识别模式；当输入框属性为允许输入文本时，确定语音识别模式为中文识别模式。

在具体实现时，当仅获取输入框属性时，则只需根据输入框属性确定语音识别模式，具体为，当输入框属性为仅允许输入字符或者仅允许输入字母、仅允许输入符号、仅允许输入数字中的至少一种时，确定语音识别模式为非中文识别模式，从而保证在进行语音识别时，将获取的语音数据识别为非中文。例如，当前的输入框为密码输入框，通常情况下，密码输入框的输入框属性为仅允许输入字符，则确定语音识别模式为非中文识别模式。如果输入框属性为允许输入文本时，即允许输入中文，则确定语音识别模式为中文识别模式，从而保证在进行语音识别时，将获取的语音识别为中文。例如，当前的输入框为姓名输入框，该姓名输入框的输入框属性为允许输入文本时，则确定语音识别模式为中文识别模式，以便识别出中文。

第二种是，当仅获取到输入法的输入方式时，根据输入框属性和/或输入法的输入方式，确定语音识别模式，包括：当输入法的输入方式为字母输入方式、符号输入方式或数字输入方式时，确定语音识别模式为非中文识别模式。例如，图3a所示，当输入法的输入方式为字母输入方式时，即英文输入方式；图3b为输入法的输入方式为符号输入方式；图3c为输入法的输入方式为数字输入方式，输入法的输入方式可以根据用户触发相应的输入方式按键进行切换。在输入法的输入方式为上述任意一种时，语音识别模式为非中文识别模式。

当输入法的输入方式为中文输入方式时，确定语音识别模式为中文识别模式。例如，图3d所示，输入法的输入方式为中文输入方式，则语音识别模式为中文识别模式。

在具体实现时，当仅获取输入法的输入方式时，则只需根据输入法的输入方式确定语音识别模式，具体为，当输入法的输入方式为字母输入方式、符号输入方式或数字输入方式时，确定语音识别模式为非中文识别模式，从而保证在进行语音识别时，将获取的语音数据识别为非中文。当输入法的输入方式为中文输入方式时，确定语音识别模式为中文识别模式，以便将语音数据识别为中文。

第三种是，当获取到所述输入框属性以及所述输入法的输入方式时，需要根据输入框属性和输入法的输入方式，确定语音识别模式。在该情况下，可以分为以下四种情况进行说明。

1)当输入框属性为仅允许输入字符或者仅允许输入字母、仅允许输入符号、仅允许输入数字中的至少一种，输入法的输入方式为字母输入方式、符号输入方式或数字输入方式时，确定语音识别模式为非中文识别模式。

通过上述两种情况的说明可知，当输入框属性为仅允许输入字符或者仅允许输入字母、仅允许输入符号、仅允许输入数字中的至少一种；当输入法的输入方式为字母输入方式、符号输入方式或数字输入方式。在单独确定语音识别模式时，根据输入框属性确定语音识别模式为非中文识别模式；根据输入法的输入方式确定语音识别模式为非中文识别模式。当同时获取输入框属性和输入法的输入方式时，二者确定的语音识别模式一致，则确定语音识别模式为非中文识别模式。

2)当输入框属性为仅允许输入字符或者仅允许输入字母、仅允许输入符号、仅允许输入数字中的至少一种，输入法的输入方式为中文输入方式时，确定语音识别模式为非中文识别模式。

当输入框属性为仅允许输入字符或者仅允许输入字母、仅允许输入符号、仅允许输入数字中的至少一种；输入法的输入方式为中文输入方式时。如果单独确定语音识别模式时，根据输入框属性确定语音识别模式为非中文识别模式，根据输入法的输入方式确定语音识别模式为中文识别模式，二者确定的语音识别模式相互矛盾。然而，由于该输入框不允许输入中文，因此以输入框属性为主确定语音识别模式为非中文识别模式。

3)当输入框属性为允许输入文本，输入法的输入方式为字母输入方式、符号输入方式或数字输入方式时，确定语音识别模式为非中文识别模式。

在具体实现时，当输入框属性为允许输入文本，输入法的输入方式为字母输入方式、符号输入方式或数字输入方式时。在独立确定语音识别模式时，根据输入框属性确定语音识别模式为中文识别模式，根据输入法的输入方式确定语音识别模式为非中文识别模式，二者确定的语音识别模式相互矛盾。在该场景下，可以以输入法的输入方式为主确定语音识别模式为非中文识别模式。对于用户来说，通常会根据所要输入的内容选择输入法的输入方式，如果输入法的输入方式为字母输入方式、符号输入方式或数字输入方式，代表用户更可能输入字母、符号或数字，则确定语音识别模式为非中文识别模式。以下再针对两种不同情况，具体进行说明。

在一种情况下，在输入框属性为允许输入文本时，代表输入框内也可以输入字母、符号、数字等非中文数据，如果用户选择输入法的输入方式为字母输入方式、符号输入方式或数字输入方式，代表用户希望在允许输入文本的输入框内输入字母、符号或数字，则确定语音识别模式为非中文识别模式。

在另一种情况下，还可能存在输入框的输入框属性被标注错误的情况，在输入框属性被错误地标注了“允许输入文本”时，用户并不知晓输入框属性，但是根据所需要输入内容的提示，可以切换输入法的输入方式，在用户选择输入法的输入方式为字母输入方式、符号输入方式或数字输入方式时，代表用户希望在输入框内输入字母、符号或数字，则确定语音识别模式为非中文识别模式。例如，光标所在的输入框为手机号输入框，正确情况下，该输入框属性为仅允许输入数字，如果在输入框属性标注时，开发人员将其误标注为允许输入文本，则在实际应用时，用户可以通过“请输入手机号”等提示，将输入法的输入方式切换到数字输入方式，以在该输入框内输入数字，则根据输入法的输入方式确定出语音识别模式为非中文语音识别模式。

以输入法的输入方式为主确定语音识别模式为非中文识别模式，更能体现用户的输入意向，使识别更为准确。

4)当输入框属性为允许输入文本，输入法的输入方式为中文输入方式时，确定语音识别模式为中文识别模式。

本实施例中，当输入框属性为允许输入文本、输入法的输入方式为中文输入方式，在独立确定语音识别模式时，根据输入框属性确定语音识别模式为中文识别模式，根据输入法的输入方式确定语音识别模式为中文识别模式。当同时根据输入框属性和输入法的输入方式确定语音识别模式时，二者确定结果相同，则语音识别模式为中文识别模式。

在本申请实施例一种可能的实现方式中，还提供了两种根据语音识别模式对语音数据进行语音识别的方式，下面将分别对该两种实现方式进行说明。

一种方式是，将语音识别模式发送给语音识别模块，以使语音识别模块对语音数据进行语音识别生成识别结果；获取语音识别模块发送的识别结果。

本实施例中，输入法客户端在确定语音识别模式后，将语音识别模式发送给语音识别模块，以使得语音识别模块根据语音识别模式对语音数据进行语音识别生成识别结果，并将该识别结果发送给输入法客户端，进而将识别结果进行显示。其中，语音识别模块为独立于输入法客户端的其他应用程序，用于对语音数据进行识别。

可以理解的是，语音识别模式包括中文识别模式和非中文识别模式，则在实际应用时，语音识别模块根据当前语音识别模式生成对应的识别结果，具体为，语音识别模块具体用于当语音识别模式为中文识别模式时，将语音数据输入中文语音识别模型，获得中文识别结果；当语音识别模式为非中文识别模式时，将语音数据输入非中文语音识别模型，获得字符或字符串识别结果；获取所述语音识别模块发送的识别结果，包括：获取语音识别模块发送的中文识别结果；或者，获取语音识别模块发送的字符或字符串识别结果。

也就是，语音识别模块包括预先训练得到的中文语音识别模型和非中文语音识别模型。当语音识别模式为中文识别模式时，将语音数据输入中文语音识别模型，获得中文识别结果。当语音识别模式为非中文识别模式时，将语音数据输入非中文语音识别模型，获得非中文识别结果，从而输入法客户端可以获得准确的识别结果。例如，在图3a所示的应用场景下，用户通过输入法客户端的语音采集模块输入语音数据(发音等同于拼音bi)，输入法的输入方式为字母输入方式，语音识别模式为非中文语音识别模式，则识别结果应为英文字母“b”。再例如，在图3d所示的应用场景下，用户通过输入法客户端的语音采集模块输入语音(发音等同于拼音bi)，输入法的输入方式为中文输入方式，则语音识别模式为中文语音识别模式，则识别结果应为拼音“bi”对应的中文汉字“必、闭、毕”等其中的一个。

另一种方式是，根据语音识别模式对语音数据进行语音识别获得识别结果。

本实施例中，输入法客户端在确定语音识别模式后，可以由输入法客户端自身完成对语音数据进行语音识别，获得识别结果。在具体实现中，可以在输入法客户端所在设备本地进行语音识别，也可以将语音识别模式发送给对应的输入法服务器进行语音识别，从而实现由输入法客户端根据语音识别模式对语音数据进行语音识别。

可以理解的是，语音识别模式包括中文识别模式和非中文识别模式，则在实际应用时，输入法客户端或输入法服务器根据当前语音识别模式生成对应的识别结果，具体为，当语音识别模式为中文识别模式时，将所述语音数据输入中文语音识别模型，获得中文识别结果；当语音识别模式为非中文识别模式时，将所述语音数据输入非中文语音识别模型，获得字符或字符串识别结果。

也就是，预先训练中文语音识别模型和非中文语音识别模型，当语音识别模式为中文识别模式时，将语音数据输入中文语音识别模型，获得中文识别结果。当语音识别模式为非中文识别模式时，将语音数据输入非中文语音识别模型，获得非中文识别结果，从而输入法客户端可以获得中文识别结果或非中文识别结果。

另外，在实际应用中，用户可以在输入法客户端设置大写或小写，以便进行相应的输入。因此，在进行语音数据识别时，也可以根据当前大写是否为锁定状态进行相应的显示。具体为，获取输入法大写锁定状态；当输入法大写锁定状态为大写锁定状态时，将字符或字符串识别结果中的字母显示为大写；当输入法大写锁定状态为大写未锁定状态时，将字符或字符串识别结果中的字母显示为小写。

可以理解的是，本实施例主要针对识别结果为字符或字符串识别结果，当输入法大写锁定状态为大写锁定状态时，将字符或字符串识别结果中的字母显示为大写；当输入法大写锁定状态为大写未锁定状态时，将字符或字符串识别结果中的字母显示为小写。例如，识别结果为字符b，如果输入法大写锁定状态为大写锁定装，则显示为“B”，如果为大写未锁定状态，则显示为“b”。从而，可以根据输入法大写锁定状态对识别结果进行准确输入，减少用户的修改。

通过本申请实施例提供的方案，在进行语音识别时，可以基于输入框自身的属性和/或输入法当前的输入方式先确定语音识别模式，即中文识别模式或非中文识别模式。当语音识别模式为中文识别模式时，将获取到的语音数据识别为中文识别结果，当语音识别模式为非中文识别模式时，将获取的语音数据识别为非中文识别结果，从而提高语音输入的准确性。

基于上述方法实施例，本申请还提供了一种语音输入装置，下面将结合附图对该装置进行说明。

参见图4，该图为本申请实施例提供的一种语音输入装置结构图，如图4所示，该装置可以包括：

第一获取单元401，用于输入法客户端获取当前输入框的输入框属性，和/或，获取输入法的输入方式；

确定单元402，用于根据所述输入框属性和/或所述输入法的输入方式，确定语音识别模式，所述语音识别模式包括中文识别模式以及非中文识别模式；

第二获取单元403，用于获取根据所述语音识别模式对获取到的语音数据进行语音识别的识别结果；

显示单元404，用于对所述识别结果进行显示。

在一种可能的实现方式中，所述第二获取单元，包括：

获取子单元，用于获取所述语音识别模块发送的识别结果。

在一种可能的实现方式中，所述装置还包括：

第三获取单元，用于获取输入法大写锁定状态；

在一种可能的实现方式中，所述第一获取单元具体用于：

输入法客户端获取当前输入框的输入框属性，和/或，获取在进入语音识别之前输入法的输入方式。

需要说明的是，本实施例中各个单元的具体实现可以参见上述方法实施例，本实施例在此不再赘述。

图5示出了一种输入装置600的框图。例如，装置600可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，装置600可以包括以下一个或多个组件：处理组件602，存储器604，电源组件606，多媒体组件608，音频组件610，输入/输出(I/O)的接口69，传感器组件614，以及通信组件616。

处理组件602通常控制装置600的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件602可以包括一个或多个处理器620来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件602可以包括一个或多个模块，便于处理组件602和其他组件之间的交互。例如，处理部件602可以包括多媒体模块，以方便多媒体组件606和处理组件602之间的交互。

存储器604被配置为存储各种类型的数据以支持在设备600的操作。这些数据的示例包括用于在装置600上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件606为装置600的各种组件提供电力。电源组件606可以包括电源管理***，一个或多个电源，及其他与为装置600生成、管理和分配电力相关联的组件。

多媒体组件608包括在所述装置600和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件608包括一个前置摄像头和/或后置摄像头。当设备600处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。

音频组件610被配置为输出和/或输入音频信号。例如，音频组件610包括一个麦克风(MIC)，当装置600处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中，音频组件610还包括一个扬声器，用于输出音频信号。

I/O接口为处理组件602和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件614包括一个或多个传感器，用于为装置600提供各个方面的状态评估。例如，传感器组件614可以检测到设备600的打开/关闭状态，组件的相对定位，例如所述组件为装置600的显示器和小键盘，传感器组件614还可以检测装置600或装置600一个组件的位置改变，用户与装置600接触的存在或不存在，装置600方位或加速/减速和装置600的温度变化。传感器组件614可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件614还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件616被配置为便于装置600和其他设备之间有线或无线方式的通信。装置600可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件616经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件616还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行下述方法：

对所述识别结果进行显示。

可选的，当仅获取到所述输入框属性时，所述根据所述输入框属性和/或所述输入法的输入方式，确定语音识别模式，包括：

可选的，当仅获取到所述输入法的输入方式时，所述根据所述输入框属性和/或所述输入法的输入方式，确定语音识别模式，包括：

可选的，当获取到所述输入框属性以及所述输入法的输入方式时，所述根据所述输入框属性和/或所述输入法的输入方式，确定语音识别模式，包括：

可选的，所述获取根据所述语音识别模式对所述语音数据进行语音识别的识别结果，包括：

获取所述语音识别模块发送的识别结果。

可选的，所述语音识别模块具体用于当语音识别模式为中文识别模式时，将所述语音数据输入中文语音识别模型，获得中文识别结果；当语音识别模式为非中文识别模式时，将所述语音数据输入非中文语音识别模型，获得字符或字符串识别结果；

所述获取所述语音识别模块发送的识别结果，包括：

获取所述语音识别模块发送的中文识别结果；

可选的，所述根据所述语音识别模式对所述语音数据进行语音识别获得识别结果，包括：

可选的，当获得字符或字符串识别结果时，所述对所述识别结果进行显示，包括：

获取输入法大写锁定状态；

可选的，所述获取输入法的输入方法，包括：

获取在进入语音识别之前输入法的输入方式。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行显示方法，所述方法包括：

对所述识别结果进行显示。

获取所述语音识别模块发送的识别结果。

所述获取所述语音识别模块发送的识别结果，包括：

获取所述语音识别模块发送的中文识别结果；

获取输入法大写锁定状态；

可选的，所述获取输入法的输入方法，包括：

获取在进入语音识别之前输入法的输入方式。

图6是本发明实施例中服务器的结构示意图。该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(central processing units，CPU)722(例如，一个或一个以上处理器)和存储器732，一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中，存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器722可以设置为与存储介质730通信，在服务器700上执行存储介质730中的一系列指令操作。

终端700还可以包括一个或一个以上电源726，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口756，一个或一个以上键盘756，和/或，一个或一个以上操作***741，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的***或装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音输入方法，其特征在于，所述方法包括：

对所述识别结果进行显示。

2.根据权利要求1所述的方法，其特征在于，当仅获取到所述输入框属性时，所述根据所述输入框属性和/或所述输入法的输入方式，确定语音识别模式，包括：

3.根据权利要求1所述的方法，其特征在于，当仅获取到所述输入法的输入方式时，所述根据所述输入框属性和/或所述输入法的输入方式，确定语音识别模式，包括：

4.根据权利要求1所述的方法，其特征在于，当获取到所述输入框属性以及所述输入法的输入方式时，所述根据所述输入框属性和/或所述输入法的输入方式，确定语音识别模式，包括：

5.根据权利要求1所述的方法，其特征在于，所述获取根据所述语音识别模式对所述语音数据进行语音识别的识别结果，包括：

获取所述语音识别模块发送的识别结果。

6.根据权利要求5所述的方法，其特征在于，所述语音识别模块具体用于当语音识别模式为中文识别模式时，将所述语音数据输入中文语音识别模型，获得中文识别结果；当语音识别模式为非中文识别模式时，将所述语音数据输入非中文语音识别模型，获得字符或字符串识别结果；

所述获取所述语音识别模块发送的识别结果，包括：

获取所述语音识别模块发送的中文识别结果；

7.根据权利要求1所述的方法，其特征在于，所述获取根据所述语音识别模式对所述语音数据进行语音识别的识别结果，包括：

8.根据权利要求7所述的方法，其特征在于，所述根据所述语音识别模式对所述语音数据进行语音识别获得识别结果，包括：

9.根据权利要求6或8所述的方法，其特征在于，当获得字符或字符串识别结果时，所述对所述识别结果进行显示，包括：

获取输入法大写锁定状态；

10.根据权利要求1所述的方法，其特征在于，所述获取输入法的输入方法，包括：

获取在进入语音识别之前输入法的输入方式。

11.一种语音输入装置，其特征在于，所述装置包括：

显示单元，用于对所述识别结果进行显示。

12.一种用于语音输入的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

对所述识别结果进行显示。

13.一种计算机可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行权利要求1至10中一个或多个所述的语音输入的方法。