CN107945802A

CN107945802A - 语音识别结果处理方法及装置

Info

Publication number: CN107945802A
Application number: CN201710995682.8A
Authority: CN
Inventors: 何世阳
Original assignee: Beijing Yunzhisheng Information Technology Co Ltd
Current assignee: Beijing Yunzhisheng Information Technology Co Ltd
Priority date: 2017-10-23
Filing date: 2017-10-23
Publication date: 2018-04-20

Abstract

本发明是关于一种快捷方便的语音识别结果校对方法及装置，其中，方法包括：获取语音信息对应的语音识别结果文本；将当前显示界面划分为第一显示区域和第二显示区域，在第一显示区域和第二显示区域中均显示语音识别结果文本；当接收到对第二语音识别结果文本中的第一目标文本的选定操作时，播放与第一目标文本对应的目标语音信息，并将当前显示界面的可编辑光标定位至第一语音识别结果文本中，与第一目标文本相对应的第二目标文本，以使用户根据目标语音信息对第一语音识别结果文本中的第二目标文本进行校正，得到校正后的语音识别结果文本。通过该方案，可以用户的工作效率和记录正确率。

Description

语音识别结果处理方法及装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别结果处理方法及装置。

背景技术

传统的会议和庭审都是记录员通过打字或者笔记的方式进行内容记录，此种方式速度慢，效率低下，而且不能将语音进行备案。随着语音识别技术的蓬勃发展，很多公司将语音识别技术应用于会议和庭审中，但由于语音识别不可能达到100％，所以在一些智能庭审或者会议***中，需要对识别结果进行修正。

发明内容

本发明实施例提供一种语音识别结果处理方法及装置，用以实现方便用户对语音识别结果进行修正，从而提升用户的使用体验。

根据本发明实施例的第一方面，提供一种语音识别结果处理方法，包括：

获取语音信息对应的语音识别结果文本；

将当前显示界面划分为第一显示区域和第二显示区域，在所述第一显示区域和所述第二显示区域中均显示所述语音识别结果文本，其中，所述第二显示区域中的第二语音识别结果文本和所述第一显示区域中的第一语音识别结果文本相对应，且所述第二显示区域中的第二语音识别结果文本与所述语音信息相对应；

当接收到对所述第二语音识别结果文本中的第一目标文本的选定操作时，播放与所述第一目标文本对应的目标语音信息，并将当前显示界面的可编辑光标定位至所述第一语音识别结果文本中，与所述第一目标文本相对应的第二目标文本，以使用户根据所述目标语音信息对所述第一语音识别结果文本中的第二目标文本进行校正，得到校正后的语音识别结果文本。

在该实施例中，将当前显示界面划分为第一显示区域和第二显示区域，在第一显示区域和第二显示区域中均显示语音识别结果文本，其中，第二显示区域中的第二语音识别结果文本与第一显示区域中的第一语音识别结果对应，且与语音信息对应，这样，当用户点击选中第二显示区域中的第一目标文本时，播放该第一目标文本对应的目标语音信息，并将可编辑光标定位到第一显示区域中与第一目标文本对应的第二目标文本，这样，用户可以边回听语音信息边对第一显示区域中的第二目标文本进行校正，极大的提高了用户的工作效率和记录正确率，使得用户既能回听真实的语音，又能及时矫正识别的结果。

在一个实施例中，所述方法还包括：

在所述当前显示界面的第二显示区域显示语音信息对应的播放按钮；

当接收到对所述语音信息的播放操作时，播放所述语音信息，并突出显示当前播放的语音信息对应的第二语音识别结果文本中的第三目标文本，以及将当前显示界面的可编辑光标定位至所述第一语音识别结果文本中，与所述第三目标文本相对应的第四目标文本。

在该实施例中，在当前显示界面的第二显示区域还可以显示语音信息对应的播放按钮，用户可以点击播放按钮回听语音信息，当播放语音信息时，突出显示第二显示区域中与语音信息对应的第三目标文本，以及可同步编辑第一语音识别结果文本中与第三文本对应的第四目标文本，从而便于用户根据语音信息进行语音识别结果文本的修正。

在一个实施例中，所述方法还包括：

接收用户输入的对可编辑光标所处位置的第二目标文本的修改指令；

根据所述修改指令，修改所述第二目标文本，并标记修改后的第二目标文本。

在该实施例中，用户可以修改可编辑光标所处位置的目标文本，在修改后，会标记出修改的目标文本，从而和第二显示区域中的语音识别结果文本形成对比，便于用户查看修改之处。另外，用户也可以在第一显示区域内自行移动可编辑光标的位置，对第一显示区域中的其他目标文本进行修改。

在一个实施例中，所述方法还包括：

在显示所述语音识别结果文本之前，获取所述语音信息；

对所述语音信息进行再识别，得到二次语音识别结果文本；

将所述二次语音识别结果文本与所述语音识别结果文本进行比较，确定两者是否一致；

当两者一致时，在所述第一显示区域和所述第二显示区域上均显示所述语音识别结果文本；

当两者不一致时，确定所述二次语音识别结果文本中与所述语音识别结果文本不同的差异文本；

在所述第一显示区域上显示所述语音识别结果文本，在所述第二显示区域上显示所述二次语音识别结果文本，并突出显示所述差异文本。

在该实施例中，在当前显示界面显示语音识别结果文本之前，还可以对语音信息进行再识别，得到二次语音识别结果文本，从而确定两次识别得到的语音识别结果文本是否一致，如果两者不一致，则在第二显示区域显示二次语音识别结果文本，在第一显示区域显示语音识别结果文本，并在第二显示区域中突出显示两者的差异文本，这样，方便用户根据突出显示的差异文本进行回听语音信息和进行语音识别结果文本的修正。

在一个实施例中，所述方法还包括：

接收对所述第一语音识别结果文本中指定文本字段的查找替换指令；

根据所述查找替换指令，在所述第一语音识别结果文本中查找所述指定文本字段，并使用新的文本字段替换所述指定文本字段。

在该实施例中，用户还可以对第一显示区域中的第一语音识别结果文本中的字段进行查找替换，从而便于用户修改语音识别结果文本。

在一个实施例中，所述方法还包括：

当播放语音信息时，接收输入的暂停播放指令；

根据所述暂停播放指令，暂停播放所述语音信息。

在该实施例中，在播放语音信息的过程中，用户还可以选择暂停播放语音信息，从而进一步提升用户的使用体验。

根据本发明实施例的第二方面，提供一种语音识别结果处理装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取语音信息对应的语音识别结果文本；

在一个实施例中，所述处理器还被配置为：

在显示所述语音识别结果文本之前，获取所述语音信息；

对所述语音信息进行再识别，得到二次语音识别结果文本；

在一个实施例中，所述处理器还被配置为：

当播放语音信息时，接收输入的暂停播放指令；

根据所述暂停播放指令，暂停播放所述语音信息。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种语音识别结果处理方法的流程图。

图2是根据一示例性实施例示出的另一种语音识别结果处理方法的流程图。

图3是根据一示例性实施例示出的另一种语音识别结果处理方法的流程图。

图4是根据一示例性实施例示出的又一种语音识别结果处理方法的流程图。

图5是根据一示例性实施例示出的又一种语音识别结果处理方法的流程图。

图6是根据一示例性实施例示出的一种当前显示界面的屏幕截图。

图7是根据一示例性实施例示出的又一种语音识别结果处理方法的流程图。

图8是根据一示例性实施例示出的又一种当前显示界面的屏幕截图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种语音识别结果处理方法的流程图。该语音识别结果处理方法应用于终端设备中，该终端设备可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等任一具有语音识别功能的设备。如图1所示，该方法包括步骤S101-S103：

在步骤S101中，获取语音信息对应的语音识别结果文本；

在步骤S102中，将当前显示界面划分为第一显示区域和第二显示区域，在第一显示区域和第二显示区域中均显示语音识别结果文本，其中，第二显示区域中的第二语音识别结果文本和第一显示区域中的第一语音识别结果文本相对应，且第二显示区域中的第二语音识别结果文本与语音信息相对应；其中，第二显示区域中的第二语音识别结果文本只用于查看，不能修改和编辑；而第一显示区域中的第一语音识别结果文本可以进行修改和编辑。

在步骤S103中，当接收到对第二语音识别结果文本中的第一目标文本的选定操作时，播放与第一目标文本对应的目标语音信息，并将当前显示界面的可编辑光标定位至第一语音识别结果文本中，与第一目标文本相对应的第二目标文本，以使用户根据目标语音信息对第一语音识别结果文本中的第二目标文本进行校正，得到校正后的语音识别结果文本。

在该实施例中，将当前显示界面划分为第一显示区域和第二显示区域，在第一显示区域和第二显示区域中均显示语音识别结果文本，其中，第二显示区域中的第二语音识别结果文本与第一显示区域中的第一语音识别结果对应，且与语音信息对应，这样，当用户点击选中第二显示区域中的第一目标文本时，播放该第一目标文本对应的目标语音信息，并将可编辑光标定位到第一显示区域中与第一目标文本对应的第二目标文本，这样，用户可以边回听语音信息边对第一显示区域中的第二目标文本进行校正，极大的提高了用户员的工作效率和记录正确率，使得用户既能回听真实的语音，又能及时矫正识别的结果。

如图2所示，在一个实施例中，上述方法还包括步骤S201-S202：

在步骤S201中，在当前显示界面的第二显示区域显示语音信息对应的播放按钮；

在步骤S202中，当接收到对语音信息的播放操作时，播放语音信息，并突出显示当前播放的语音信息对应的第二语音识别结果文本中的第三目标文本，以及将当前显示界面的可编辑光标定位至第一语音识别结果文本中，与第三目标文本相对应的第四目标文本。

如图3所示，在一个实施例中，上述方法还包括步骤S301-S302：

在步骤S301中，接收用户输入的对可编辑光标所处位置的第二目标文本的修改指令；

在步骤S302中，根据修改指令，修改第二目标文本，并标记修改后的第二目标文本。其中，标记修改后的第二目标文本可以是突出显示修改后的第二目标文本，也可以以其他方式显示出第二目标文本与其他文本之间的不同。

如图4所示，在一个实施例中，上述方法还包括步骤S401-S402：

在步骤S401中，接收对第一语音识别结果文本中指定文本字段的查找替换指令；

在步骤S402中，根据查找替换指令，在第一语音识别结果文本中查找指定文本字段，并使用新的文本字段替换指定文本字段。

如图5所示，在一个实施例中，上述方法还包括步骤S501-S502：

在步骤S501中，当播放语音信息时，接收输入的暂停播放指令；

在步骤S502中，根据暂停播放指令，暂停播放语音信息。

下面以一个具体实施例详细说明上述技术方案。

如图6所示，在当前显示界面60上，可以分两个显示区域，第一显示区域和第二显示区域，两个显示区域左右分布，在两个显示区域均显示语音识别结果文本，其中，左边的显示区域为可编辑的语音识别结果文本，右边的显示区域为不可编辑的语音识别结果文本，用户点击选中右边区域的目标文本，则播放该目标文本对应的语音信息，在左边区域，与右边区域的目标文本对应的文本也被选中，并且为可编辑光标所在位置，这样，可以根据播放的语音信息对左边区域中的目标文本进行修正。如图6所示，在当前显示界面上，还显示有查找替换选项，用户可以查找指定的文本，指定的关键字等，进而通过替换选项将左边区域中语音识别结果文本中的指定文本或关键字替换为新的文本或关键字，从而在某个语音识别不准确时，便于用户修改语音识别结果。例如，在进行语音识别时，语音信息中的所有“学校”在识别结果中均被识别为“学习”，这样，在用户发现该错误时，可以在查找选项后输入“学校”，替换选项后输入“学习”，这样，左边区域中语音识别结果文本中的所有“学校”都被修改为“学习”，用户不需要一一进行修改，减少了用户的操作，提升了用户的使用体验。另外，在当前显示界面，还显示有回听等按钮，用户可以通过该按钮，回听语音信息，在当前显示界面上，还显示有暂停等按钮，用户在回听语音信息，如果中途需要打断，则可以通过触按暂停按钮，暂停播放语音信息，需要进行播放时，再听过触按该按钮继续进行播放。当然，在界面上，还可以显示“打印”“导出”等按钮，从而便于用户导出修正后的语音识别结果文本。

如图7所示，在一个实施例中，上述方法还包括步骤S701-S706：

在步骤S701中，在显示语音识别结果文本之前，获取语音信息；

在步骤S702中，对语音信息进行再识别，得到二次语音识别结果文本；

在步骤S703中，将二次语音识别结果文本与语音识别结果文本进行比较，确定两者是否一致；

在步骤S704中，当两者一致时，在第一显示区域和第二显示区域上均显示语音识别结果文本；

在步骤S705中，当两者不一致时，确定二次语音识别结果文本中与语音识别结果文本不同的差异文本；

在步骤S706中，在第一显示区域上显示语音识别结果文本，在第二显示区域上显示二次语音识别结果文本，并突出显示差异文本。

如图8所示为当前显示界面80，为了进一步提高识别率以及引起用户的注意，可以采取二次识别，即同一段语音信息可以送两次给识别引擎进行识别，比较两次识别结果，若两次识别一致，则第二次识别结果就不进行展示，若两次识别结果不一致，则将二次识别结果进行展示，其中，左边显示一次语音识别结果，右边显示二次语音识别结果，并将二次识别结果进行标记，如突出显示等，以引起用户的注意。

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取语音信息对应的语音识别结果文本；

在一个实施例中，所述处理器还被配置为：

在显示所述语音识别结果文本之前，获取所述语音信息；

对所述语音信息进行再识别，得到二次语音识别结果文本；

在一个实施例中，所述处理器还被配置为：

当播放语音信息时，接收输入的暂停播放指令；

根据所述暂停播放指令，暂停播放所述语音信息。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种快捷方便的语音识别结果校对方法，其特征在于，包括：

获取语音信息对应的语音识别结果文本；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，

所述方法还包括：

接收用户输入的对可编辑光标所处位置的第二目标文本的修改指令；根据所述修改指令，修改所述第二目标文本，并标记修改后的第二目标文本，并标记修改后的第二目标文本；

和/或

所述方法还包括：

接收对所述第一语音识别结果文本中指定文本字段的查找替换指令；根据所述查找替换指令，在所述第一语音识别结果文本中查找所述指定文本字段，并使用新的文本字段替换所述指定文本字段。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在显示所述语音识别结果文本之前，获取所述语音信息；

对所述语音信息进行再识别，得到二次语音识别结果文本；

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当播放语音信息时，接收输入的暂停播放指令；

根据所述暂停播放指令，暂停播放所述语音信息。

6.一种快捷方便的语音识别结果校对装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获取语音信息对应的语音识别结果文本；

7.根据权利要求6所述的装置，其特征在于，所述处理器还被配置为：

8.根据权利要求6所述的装置，其特征在于，

所述处理器还被配置为：

接收用户输入的对可编辑光标所处位置的第二目标文本的修改指令；根据所述修改指令，修改所述第二目标文本，并标记修改后的第二目标文本；

和/或

所述处理器还被配置为：

9.根据权利要求6所述的装置，其特征在于，所述处理器还被配置为：

在显示所述语音识别结果文本之前，获取所述语音信息；

对所述语音信息进行再识别，得到二次语音识别结果文本；

10.根据权利要求6所述的装置，其特征在于，所述处理器还被配置为：

当播放语音信息时，接收输入的暂停播放指令；

根据所述暂停播放指令，暂停播放所述语音信息。