CN106601254A

CN106601254A - 信息输入方法和装置及计算设备

Info

Publication number: CN106601254A
Application number: CN201611122247.6A
Authority: CN
Inventors: 于志超; 郑志辉
Original assignee: Guangzhou Shenma Mobile Information Technology Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2016-12-08
Filing date: 2016-12-08
Publication date: 2017-04-26
Anticipated expiration: 2036-12-08
Also published as: US10796699B2; CN106601254B; US20180166080A1

Abstract

本发明公开了一种信息输入方法和装置及计算设备。所述信息输入方法，包括以下步骤：接收用户的语音输入；获取对所接收的语音输入的识别结果；以及使得能够以文本形式编辑所获取的识别结果。利用本发明的信息输入机制，尤其是在语音识别内容出现少量错误的情况下，用户能够选择以文本编辑的形式来修改自动语音识别结果，由此避免了需要重新语音输入全部内容的麻烦，提高了语音识别效率，提升了用户体验。

Description

信息输入方法和装置及计算设备

技术领域

本发明总体上涉及语音输入识别技术领域，特别是涉及一种允许手动修改语音识别结果的信息输入方法和装置以及计算设备。

背景技术

语音识别是现在客户端普遍采用的应用技术，例如广泛应用于智能语音搜索领域以及各种社交通信应用中。

例如，用户在客户端语音输入搜索内容，客户端将接收到的语音输入发送到通常是远端的服务器，服务器在对语音输入进行识别后向客户端返回语音识别结果以及相应的搜索结果。再例如，用户在使用允许语音输入的社交通信软件时，为了便于用户以更方便的方式输入信息，可以选择将语音对话转换成文本显示。

然而，在语音识别多句话结果出现单个文字或词汇识别错误时，在现有技术中，普遍采用要求用户重新语音输入全部内容。这使得语音输入的效率很低，用户体验较差，尤其是在只有少数文字或词汇有误的情况下。而且，在语音识别技术没有明显改善的前提下，很可能出现用户多次语音重新输入都无法获得期望的识别结果。

因此，需要一种能够解决上述问题，由此提高语音识别效率、改善用户体验的信息输入机制。

发明内容

本发明的一个目的在于，在语音识别出现错误的情况下，以简单方便的方式修改识别错误。

为了实现上述目的，本发明提供了一种允许手动修改语音识别错误的信息输入机制，使得用户能够在发现自动语音识别出现错误的情况下，可以选择以文本编辑的形式修改识别结果，由此提高语音识别效率，改善用户体验。

根据本发明的一个方面，提供了一种信息输入方法，尤其是一种用于语音检索的信息输入方法，包括以下步骤：接收用户的语音输入；获取对所接收的语音输入的识别结果；以及使得能够以文本形式编辑所获取的识别结果。

利用本方法，用户能够选择以文本编辑的形式来修改自动语音识别结果，由此避免了需要重新语音输入全部内容的麻烦，提高了语音识别效率，提升了用户体验。本发明尤其适用于语音识别内容出现少量错误的情况。

在本发明的一个实施例中，所述获取对所接收的语音输入的识别结果的步骤包括：将所接收的语音输入发送到服务器端；和接收从服务器端返回的根据语音识别模型对所述语音输入的识别结果。

在本发明的一个实施例中，所述信息输入方法还包括：将以文本形式编辑后的识别结果反馈给服务器端，用以训练所述语音识别模型。利用本实施例，服务器端输出的针对特定用户的语音识别结果的准确度能够得到逐步提高。

在本发明的一个实施例中，所述使得能够以文本形式编辑所获取的识别结果的步骤包括：响应于用户针对所获取的识别结果的特定操作，进入文本编辑模式以对所述识别结果进行修改。

在本发明的一个实施例中，所述使得能够以文本形式编辑所获取的识别结果的步骤包括：与所述识别结果相关联地呈现编辑模式标识；和响应于用户对所述编辑模式标识的触发，进入文本编辑模式，对所述识别结果进行修改。

在本发明的一个实施例中，所述触发包括以下中的任一个或多个的组合：针对所述编辑模式标识的单击、双击以及悬停。

在本发明的一个实施例中，所述获取对所接收的语音输入的识别结果的步骤包括：获得针对所述语音输入的识别结果列表，所述识别结果列表包括多个识别结果；和将用户从所述识别结果列表中选定的识别结果，确定为所获取的识别结果，并且其中，所述使得能够以文本形式编辑所获取的识别结果的步骤包括：在用户没有选择所述识别结果列表中的任一个识别结果的情况下，使得用户能够以文本形式编辑所述识别结果列表中的任一识别结果。

根据本发明的另一方面，提供了一种信息输入装置，包括：语音输入接收单元，配置为接收用户的语音输入；识别结果获取单元，配置为获取对所接收的语音输入的识别结果；以及文本编辑单元，配置为使得能够以文本形式编辑所获取的识别结果。

在本发明的一个实施例中，所述识别结果获取单元包括：输入发送模块，配置为将所接收的语音输入发送到服务器端；和输入返回模块，配置为接收从服务器端返回的根据语音识别模型对所述语音输入的识别结果。

在本发明的一个实施例中，所述信息输入装置还包括：修改反馈单元，配置为将以文本形式编辑后的识别结果反馈给服务器端，用以训练所述语音识别模型。

在本发明的一个实施例中，所述文本编辑单元包括：文本修改模块，配置为响应于用户针对所获取的识别结果的特定操作，进入文本编辑模式以对所述识别结果进行修改。

在本发明的一个实施例中，所述文本修改模块包括：标识呈现子模块，配置为与所述识别结果相关联地呈现编辑模式标识；和标识触发子模块，配置为响应于用户对所述编辑模式标识的触发，进入文本编辑模式，对所述识别结果进行修改。

在本发明的一个实施例中，所述识别结果获取单元包括：列表获得模块，配置为获得针对所述语音输入的识别结果列表，所述识别结果列表包括多个识别结果；和识别结果确定模块，配置为将用户从所述识别结果列表中选定的识别结果，确定为所获取的识别结果，并且其中，所述文本编辑单元进一步被配置为：在用户没有选择所述识别结果列表中的任一个识别结果的情况下，使得用户能够以文本形式编辑所述识别结果列表中的任一识别结果。

根据本发明的又一个方面，提供了一种计算设备，包括：网络接口，所述网络接口使得所述计算设备能够经由一个或多个网络与服务器端进行数据通信；存储器，通过所述网络接口通信的数据存储在所述存储器中；以及一个或多个处理器，与所述网络接口和所述存储器相连接，所述一个或多个处理器配置为执行以下操作：接收用户的语音输入；获取对所接收的语音输入的识别结果；以及使得能够以文本形式编辑所获取的识别结果。

利用本发明的信息输入机制，尤其是在语音识别内容出现少量错误的情况下，用户能够选择以文本编辑的形式来修改自动语音识别结果，由此避免了需要重新语音输入全部内容的麻烦，提高了语音识别效率，提升了用户体验。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1是示出了根据本发明一实施例的计算设备的结构框图。

图2是示出了根据本发明一实施例的信息输入方法的总流程图。

图3是示出了根据本发明一实施例的信息输入装置的功能框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

如前所述，为了在语音识别出现错误的情况下以简单方便的方式修改识别错误，本发明的信息输入机制，使得用户能够在发现自动语音识别出现错误的情况下，可以选择以文本编辑的形式手动修改识别结果，而无需重新输入大段语音。

下面将参照图1至图3来具体地描述本发明的实施例。图1是示出了根据本发明一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于网络接口110、存储器120以及一个或多个处理器130。处理器130与网络接口110和存储器120相连接。在本发明的一个实施例中，计算设备100的上述以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本发明范围的限制。本领域技术人员可以根据需要，增添或替换其他部件，例如音频输入设备(如，麦克风)。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。

网络接口110使得计算设备100能够经由一个或多个网络与服务器端进行数据通信。这些网络的示例包括局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。网络接口110可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE 802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

通过网络接口110通信的数据，例如在本发明中通过网络接口110从服务器端接收到的识别结果，或者文本形式编辑后的语音输入识别结果，存储在存储器120中的指定位置。存储器120可包括存储文件形式或其他形式的内容的任何类型的存储设备中的一个或多个，包括磁硬盘驱动器、固态硬驱、半导体存储设备、闪存，或者能够存储程序指令或数字信息的任何其他计算机可读可写存储介质。

处理器130使能本发明的信息输入机制的处理可以参见图2。图2示出了根据本发明一实施例的信息输入方法200的总体流程图。需要说明的是，在本发明中，所谓信息输入尤指消息输入，例如在线搜索检索项、社交网络对话，等等。当然，上述说明并非是对本发明的限制，本发明的信息输入机制可以用于任何适于语音输入的信息类型。

方法200开始于步骤S210，如图2所示，处理器130例如通过计算设备100的诸如麦克风的音频输入设备(未示出)来接收用户的语音输入。

接下来，在步骤S230，处理器130获取对所接收的语音输入的识别结果。具体地，在本发明的一个实施例中，处理器130将所接收的语音输入经由网络接口110发送到服务器端。服务器端例如根据语音识别模型对语音输入进行识别，然后将识别结果返回到计算设备100。

处理器130通过计算设备100的显示设备(例如，显示屏、触摸显示屏，等等，图中未示出)将接收的识别结果显示给用户，例如利用Android***下的函数TextView以文本形式显示识别结果。

在进一步的实施例中，在计算设备100等待服务器端返回识别结果时，可以在显示设备上显示表示正在识别语音的动画(例如，位于屏幕特定位置的麦克风标识)，此动画可以采用自绘制View，通过一个定时器每隔T1时间不断地刷新View来绘制三条直线而实现。在语音识别结束后，服务器端返回了识别结果的情况下，调用函数TextView文本显示最终的识别结果，并隐藏表示正在识别语音的动画。

在用户发现显示的识别结果有错误的情况下，在步骤S250中，使得用户能够以文本形式编辑所获取的识别结果。

在本发明的一个实施例中，从服务器端返回的识别结果可以为多个，即，处理器130可以获得一个识别结果列表。用户能够从识别结果列表中选择一个识别结果，作为最终正确的识别结果。

在用户判定识别结果列表中的所有识别结果都不正确的情况下，处理器130进入步骤S250，使得用户能够以文本形式编辑识别结果列表中的任一识别结果。

在本发明的一个实施例中，响应于用户针对所获取的识别结果的特定操作，进入文本编辑模式以对该识别结果进行修改。例如，在显示设备上与识别结果相关联地(例如，在识别结果的文本显示内容旁边或邻近的位置处)呈现编辑模式标识。在一个示例中，可以调用ImageView函数来实现编辑模式标识的动画。

接着，响应于用户对上述编辑模式标识的触发，进入文本编辑模式，对所述识别结果进行修改。在本发明的一个实施例中，所谓触发包括以下中的任一个或多个的组合：针对编辑模式标识的单击、双击以及悬停。需要指出的是，以上给出的触发示例并非旨在限制本发明的范围，本发明中可以应用于任何能够使得用户激活编辑模式标识以修改语音识别结果的任何姿势或与显示设备的交互动作。

在一个具体实现中，用户点击ImageView函数的编辑模式识别动画之后，触发创建EditView，从而进入文本编辑模式。该EditView例如可以采用一个Translation动画从显示设备屏幕底部滑出，动画执行时间为T2，插值器采用先加速后减速。而且，调起***输入法，用户可以修改或者重新输入想要搜索的内容。

在语音搜索的应用场景下，利用用户文本修改后的结果发起新的搜索。这里，可以调用已有方法发起搜索，并创建新的WebView窗口展现服务器端返回的新搜索结果。

在本发明的一个实施例中，图2给出的信息输入方法200还包括步骤S270，其中将以文本形式编辑后的识别结果反馈给服务器端，用以训练语音识别模型。利用本实施例，服务器端输出的针对特定用户的语音识别结果的准确度能够得到逐步提高。

图3出了根据本发明一实施例的信息输入装置300的功能框图。信息输入装置300的功能模块可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现，例如通过图1所示的计算设备100中的一个或多个处理器130来实现。本领域技术人员可以理解的是，图3中所描述的功能模块可以组合起来或者划分成子模块，从而实现上述发明的原理。因此，本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。

参照图3，为了提高语音识别效率，本发明的信息输入装置300包括语音输入接收单元310、识别结果获取单元330和文本编辑单元350。

语音输入接收单元310配置为接收用户的语音输入。

识别结果获取单元330配置为获取对语音输入接收单元310所接收的语音输入的识别结果。

在本发明的一个实施例中，识别结果获取单元330包括：输入发送模块332，配置为将所接收的语音输入发送到服务器端；和输入返回模块334，配置为接收从服务器端返回的根据语音识别模型对语音输入的识别结果。

在本发明的一个实施例中，识别结果获取单元330可以包括：列表获得模块335，配置为获得针对语音输入的识别结果列表，识别结果列表包括多个识别结果；和识别结果确定模块337，配置为将用户从识别结果列表中选定的识别结果，确定为所获取的识别结果。

文本编辑单元350配置为使得能够以文本形式编辑所获取的识别结果。在识别结果获取单元330获取的是识别结果列表的情形下，文本编辑单元350进一步被配置为：在用户没有选择识别结果列表中的任一个识别结果的情况下，使得用户能够以文本形式编辑识别结果列表中的任一识别结果。

在本发明的一个实施例中，文本编辑单元350包括文本修改模块352，配置为响应于用户针对所获取的识别结果的特定操作，进入文本编辑模式以对识别结果进行修改。在本发明进一步的实施例中，文本修改模块352包括：标识呈现子模块3522，配置为与识别结果相关联地(例如，在识别结果的文本显示内容旁边或邻近的位置处)呈现编辑模式标识；和标识触发子模块3524，配置为响应于用户对编辑模式标识的触发，进入文本编辑模式，对所述识别结果进行修改。

在本发明的一个实施例中，所谓触发包括以下中的任一个或多个的组合：针对编辑模式标识的单击、双击以及悬停。需要指出的是，以上给出的触发示例并非旨在限制本发明的范围，本发明中可以应用于任何能够使得用户激活编辑模式标识以修改语音识别结果的任何姿势或与显示设备的交互动作。

在本发明的一个实施例中，信息输入装置300还可以包括修改反馈单元370，配置为将以文本形式编辑后的识别结果反馈给服务器端，用以训练所述语音识别模型。利用本实施例，服务器端输出的针对特定用户的语音识别结果的准确度能够得到逐步提高。

综上所述，利用本发明的信息输入方法和装置及计算设备，尤其是在语音识别内容出现少量错误的情况下，用户能够选择以文本编辑的形式来修改自动语音识别结果，由此避免了需要重新语音输入全部内容的麻烦，提高了语音识别效率，提升了用户体验。

此外，根据本发明的方法还可以实现为一种计算机程序，该计算机程序包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。或者，根据本发明的方法还可以实现为一种计算机程序产品，该计算机程序产品包括计算机可读介质，在该计算机可读介质上存储有用于执行本发明的上述方法中限定的上述功能的计算机程序。本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的***和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种信息输入方法，包括以下步骤：

接收用户的语音输入；

获取对所接收的语音输入的识别结果；以及

使得能够以文本形式编辑所获取的识别结果。

2.根据权利要求1所述的信息输入方法，其中，所述获取对所接收的语音输入的识别结果的步骤包括：

将所接收的语音输入发送到服务器端；和

接收从服务器端返回的根据语音识别模型对所述语音输入的识别结果。

3.根据权利要求2所述的信息输入方法，还包括：

将以文本形式编辑后的识别结果反馈给服务器端，用以训练所述语音识别模型。

4.根据权利要求1至3中任一项所述的信息输入方法，其中，所述使得能够以文本形式编辑所获取的识别结果的步骤包括：

响应于用户针对所获取的识别结果的特定操作，进入文本编辑模式以对所述识别结果进行修改。

5.根据权利要求4所述的信息输入方法，其中，所述使得能够以文本形式编辑所获取的识别结果的步骤包括：

与所述识别结果相关联地呈现编辑模式标识；和

响应于用户对所述编辑模式标识的触发，进入文本编辑模式，对所述识别结果进行修改。

6.根据权利要求5所述的信息输入方法，其中，所述触发包括以下中的任一个或多个的组合：

针对所述编辑模式标识的单击、双击以及悬停。

7.根据权利要求1至3中任一项所述的信息输入方法，其中，所述获取对所接收的语音输入的识别结果的步骤包括：

获得针对所述语音输入的识别结果列表，所述识别结果列表包括多个识别结果；和

将用户从所述识别结果列表中选定的识别结果，确定为所获取的识别结果，

并且其中，所述使得能够以文本形式编辑所获取的识别结果的步骤包括：

在用户没有选择所述识别结果列表中的任一个识别结果的情况下，使得用户能够以文本形式编辑所述识别结果列表中的任一识别结果。

8.一种信息输入装置，包括：

语音输入接收单元，配置为接收用户的语音输入；

识别结果获取单元，配置为获取对所接收的语音输入的识别结果；以及

文本编辑单元，配置为使得能够以文本形式编辑所获取的识别结果。

9.根据权利要求8所述的信息输入装置，其中，所述识别结果获取单元包括：

输入发送模块，配置为将所接收的语音输入发送到服务器端；和

输入返回模块，配置为接收从服务器端返回的根据语音识别模型对所述语音输入的识别结果。

10.根据权利要求9所述的信息输入装置，还包括：

修改反馈单元，配置为将以文本形式编辑后的识别结果反馈给服务器端，用以训练所述语音识别模型。

11.根据权利要求8至10中任一项所述的信息输入装置，其中，所述文本编辑单元包括：

文本修改模块，配置为响应于用户针对所获取的识别结果的特定操作，进入文本编辑模式以对所述识别结果进行修改。

12.根据权利要求11所述的信息输入装置，其中，所述文本修改模块包括：

标识呈现子模块，配置为与所述识别结果相关联地呈现编辑模式标识；和

标识触发子模块，配置为响应于用户对所述编辑模式标识的触发，进入文本编辑模式，对所述识别结果进行修改。

13.根据权利要求12所述的信息输入装置，其中，所述触发包括以下中的任一个或多个的组合：

针对所述编辑模式标识的单击、双击以及悬停。

14.根据权利要求8至10中任一项所述的信息输入装置，其中，所述识别结果获取单元包括：

列表获得模块，配置为获得针对所述语音输入的识别结果列表，所述识别结果列表包括多个识别结果；和

识别结果确定模块，配置为将用户从所述识别结果列表中选定的识别结果，确定为所获取的识别结果，

并且其中，所述文本编辑单元进一步被配置为：在用户没有选择所述识别结果列表中的任一个识别结果的情况下，使得用户能够以文本形式编辑所述识别结果列表中的任一识别结果。

15.一种计算设备，包括：

网络接口，所述网络接口使得所述计算设备能够经由一个或多个网络与服务器端进行数据通信；

存储器，通过所述网络接口通信的数据存储在所述存储器中；以及

一个或多个处理器，与所述网络接口和所述存储器相连接，所述一个或多个处理器配置为执行以下操作：

接收用户的语音输入；

获取对所接收的语音输入的识别结果；以及

使得能够以文本形式编辑所获取的识别结果。