CN110880317A

CN110880317A - 一种语音识别***中的智能标点方法及装置

Info

Publication number: CN110880317A
Application number: CN201911047786.1A
Authority: CN
Inventors: 赵东阳
Original assignee: Unisound Intelligent Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2019-10-30
Filing date: 2019-10-30
Publication date: 2020-03-13

Abstract

本发明提供了一种语音识别***中的智能标点方法，所述方法包括：获取当前语音识别结果；获取历史语音识别结果；根据所述当前语音识别结果与所述历史语音识别结果之间的关系，得到预测标点信息。

Description

一种语音识别***中的智能标点方法及装置

技术领域

本发明涉及互联网技术领域，特别涉及一种语音识别***中的智能标点方法及装置。

背景技术

语音识别技术，是指通过机器学习方法让机器能够自动的将语音转换成对应的文字，从而赋予了机器类似人的听觉功能，是人工智能的重要组成部分。近些年得益于人工智能技术的不断突破和各种智能终端设备的日益普及，以语音输入法、语音助理等为代表的语音识别应用，广泛应用于各种智能终端上。

随着语音识别技术的不断进步，语音语音识别结果的准确率日益提高，然而，用户除了关注语音语音识别结果的准确率外，还会关注语音语音识别结果是否符合人类习惯。而标点符号在人们的交流过程中是不可或缺的，因此，标点预测任务，即为语音识别文本预测标点位置以及标点类型，已经成为语音识别***的重要组成部分。

目前，在语音识别过程中，根据语音停顿进行断句，即VAD(Voice ActivityDetection)技术，在断句的地方和整句结束的地方输出标点。输出的标点类型，是通过深度学习，结合当前语音识别结果预测给出，由于当前语音识别结果携带信息不全，造成标点预测的准确率不高。

发明内容

本发明提供一种语音识别***中的智能标点方法，包括：

获取当前语音识别结果；

获取历史语音识别结果；

根据所述当前语音识别结果与所述历史语音识别结果之间的关系，得到预测标点信息。

本实施例的有益效果在于：获取当前语音识别结果和历史语音识别结果，结合当前语音识别结果与历史语音识别结果之间的关系，得到预测标点信息，相比较只根据当前语音识别结果得到预测标点信息的情况，提高了准确率。

具体的，所述获取当前语音识别结果，包括：

获取讲话人口述内容；

根据所述讲话人口述过程中的停顿，对所述口述内容进行断句，以得到断句后的口述内容；

对所述断句后的口述内容依次进行识别，以得到当前语音识别结果。

具体的，所述获取历史语音识别结果，包括：

提取预设结果存储单元中存储的内容；

确定所述内容为所述历史语音识别结果，所述历史语音识别结果为所述当前语音识别结果之前的预设数目个语音识别结果和标点符号。

具体的，所述根据所述当前语音识别结果与所述历史语音识别结果之间的关系，得到预测标点信息，包括：

判断所述当前语音识别结果是否为首个语音识别结果；

当所述当前语音识别结果是首个语音识别结果时，预设结果存储单元对所述当前语音识别结果进行存储，并且将所述当前语音识别结果输出到预设目标编辑器；

当所述当前语音识别结果不是首个语音识别结果时，则通过双向神经网络，结合所述当前语音识别结果与所述历史语音识别结果，以得到所述当前语音识别结果与所述历史语音识别结果之间的预测标点信息；

将所述当前语音识别结果与所述预测标点信息输出到所述预设目标编辑器；

通过预设结果存储单元对所述当前语音识别结果与所述预测标点信息进行保存。

具体的，还包括：

判断所述当前语音识别结果是否为最后终语音识别结果；

当所述当前语音识别结果是最终语音识别结果时，结合预设结果存储单元中的内容，预测结束的标点；

当所述当前语音识别结果不是最终语音识别结果时，继续获取当前语音识别结果；

预设时间内未获取到当前语音识别结果，判定标点预测结束。

本发明还提供一种语音识别***中的智能标点装置，其特征在于，包括：

第一获取模块，用于获取当前语音识别结果；

第二获取模块，用于获取历史语音识别结果；

预测模块，用于根据所述当前语音识别结果与所述历史语音识别结果之间的关系，得到预测标点信息。

具体的，所述第一获取模块，包括：

获取子模块，用于获取讲话人口述内容；

断句子模块，用于根据所述讲话人口述过程中的停顿，对所述口述内容进行断句，以得到断句后的口述内容；

识别子模块，用于对所述断句后的口述内容依次进行识别，以得到当前语音识别结果。

具体的，所述第二获取模块，包括：

提取子模块，用于提取预设结果存储单元中存储的内容；

确定子模块，用于确定所述内容为所述历史语音识别结果，所述历史语音识别结果为所述当前语音识别结果之前的预设数目个语音识别结果和标点符号。

具体的，所述第一预测模块，包括：

判断子模块，用于判断所述当前语音识别结果是否为首个语音识别结果；

第一存储子模块，用于当所述当前语音识别结果是首个语音识别结果时，预设结果存储单元对所述当前语音识别结果进行存储，并且将所述当前语音识别结果输出到预设目标编辑器；

预测子模块，当所述当前语音识别结果不是首个语音识别结果时，则通过双向神经网络，结合所述当前语音识别结果与所述历史语音识别结果，以得到所述当前语音识别结果与所述历史语音识别结果之间的预测标点信息；

输出子模块，用于将所述当前语音识别结果与所述预测标点信息输出到所述预设目标编辑器；

第二存储子模块，用于通过预设结果存储单元对所述当前语音识别结果与所述预测标点信息进行保存。

具体的，还包括：

判断模块，用于判断所述当前语音识别结果是否为最后终语音识别结果；

第二预测模块，用于当所述当前语音识别结果是最终语音识别结果时，结合预设结果存储单元中的内容，预测结束的标点；

识别模块，用于当所述当前语音识别结果不是最终语音识别结果时，继续获取当前语音识别结果；

判定模块，用于预设时间内未获取到当前语音识别结果，判定标点预测结束。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明一实施例中一种语音识别***中的智能标点方法的流程图；

图2为本发明一实施例中一种语音识别***中的智能标点方法的流程图；

图3为本发明一实施例中举例的流程图；

图4为本发明一实施例中一种语音识别***中的智能标点装置的框图；

图5为本发明一实施例中一种语音识别***中的智能标点装置的框图；

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

图1为本发明一实施例中一种语音识别***中的智能标点方法的流程图，如图1所示，该方法可被实施为以下步骤S11-S13：

在步骤S11中，获取当前语音识别结果；

在步骤S12中，获取历史语音识别结果；

在步骤S13中，根据所述当前语音识别结果与所述历史语音识别结果之间的关系，得到预测标点信息。

需要说明的是，通过识别引擎识别口述人的讲话内容，获取到当前语音识别结果，历史语音识别结果存储于结果存储单元中，从结果存储单元中提取出历史语音识别结果，标点预测引擎通过采用双向神经网络，结合当前语音识别结果与历史语音识别结果之间的关系，对标点进行预测。

在一个实施例中，如图2所示，上述步骤S11可以被实施为如下步骤S21-S23：

在步骤S21中，获取讲话人口述内容；

在步骤S22中，根据所述讲话人口述过程中的停顿，对所述口述内容进行断句，以得到断句后的口述内容；

在步骤S23中，对所述断句后的口述内容依次进行识别，以得到当前语音识别结果。

本实施例中，讲话人开始口述，获取口述内容，口述人在口述过程中会产生停顿，由VAD(Voice Activity Detection)技术，即语音活动检测技术对口述内容进行断句，语音识别引擎会对断句完的口述内容进行识别，并且输出语音识别结果，此语音识别结果即为当前语音识别结果。

在一个实施例中，一种语音识别***中的智能标点方法，还可以是：

获取讲话人口述内容；

提取预设结果存储单元中存储的内容；

判断所述当前语音识别结果是否为首个语音识别结果；

判断所述当前语音识别结果是否为最后终语音识别结果；

举例而言，识别识别引擎对口述人的口述内容进行识别，产生当前语音识别结果，语音识别引擎产生的当前语音识别结果设为R，R有下角标n，n的取值从0开始，表示一次口述过程，当n为0时，即当前语音识别结果为首个语音识别结果，将R₀输出到目标编辑器，并且将R₀保存到结果存储单元；当n大于0时，将R_n与结果存储单元中历史语音识别结果[…,P_n-2,R_n-1]结合，结果存储单元的存储形式为[txt,punctuation,txt,punctuation,…,txt,punctuation]，并设存储深度为m，即最大支持m个语音识别结果和标点对，通过标点预测引擎得到当前语音识别结果及当前语音识别结果前一条的历史语音识别结果之间的预测标点P_n-1，将P_n-1输出到目标编辑器，并且将R_n输出到目标编辑器，将P_n-1和R_n保存到结果存储单元，当R_n为不是最终语音识别结果是，识别引擎继续对讲述人口述内容进行识别，当R_n为最终语音识别结果时，结合存储单元中已经保存的语音识别结果，预测结束的标点P_n，然后输出P_n，当识别引擎2s内未识别到讲话人口述内容时，结束本次标点预测的过程，如图3所示，为本举例的流程图。

需要说明的是，结束的标点还可以是预设的；

标点预测引擎采用双向神经网络，实现结合当前语音识别结果和历史语音识别结果来预测标点，标点预测引擎可以通过空白标点解决非正常停顿带来的断句，例如口述“今天的天气<>不错”，<>表示停顿，传统方案会识别为“今天的天气，不错”，本技术方案可以纠正为“今天的天气不错”；标点预测引擎还可以纠正标点，例如“鲁迅一生在文学创作<>文学批评<>思想研究<>文学史研究<>翻译<>美术理论引进<>基础科学介绍和古籍校勘与研究等多个领域具有重大贡献。”，传统的方案会识别为“鲁迅一生在文学创作，文学批评，思想研究，文学史研究，翻译，美术理论引进，基础科学介绍和古籍校勘与研究等多个领域具有重大贡献。”，本技术方案会将“，”纠正为“、”；

当结果存储单元的存储的内容等于存储深度是，结果存储单元会弹出结果存出单元中语音识别结果和标点，然后重新开始整个识别过程；

标点预测结束的方式还可以是，接受到停止指令时，停止标点预测，例如点击结束按钮，标点预测引擎接受到停止指令，标点预测结束。

图4为本发明一实施例中一种语音识别***中的智能标点装置的框图，如图4所示，该装置可包括如下模块：

第一获取模块41，用于获取当前语音识别结果；

第二获取模块42，用于获取历史语音识别结果；

预测模块43，用于根据所述当前语音识别结果与所述历史语音识别结果之间的关系，得到预测标点信息。

在一个实施例中，如图5所示，第一获取模块41，包括：

获取子模块51，用于获取讲话人口述内容；

断句子模块52，用于根据所述讲话人口述过程中的停顿，对所述口述内容进行断句，以得到断句后的口述内容；

识别子模块53，用于对所述断句后的口述内容依次进行识别，以得到当前语音识别结果。

在一个实施例中，所述第二获取模块，包括：

提取子模块，用于提取预设结果存储单元中存储的内容；

在一个实施例中，所述第一预测模块，包括：

在一个实施例中，一种语音识别***中的智能标点装置，还包括：

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音识别***中的智能标点方法，其特征在于，包括：

获取当前语音识别结果；

获取历史语音识别结果；

2.如权利要求1所述的方法，其特征在于，所述获取当前语音识别结果，包括：

获取讲话人口述内容；

3.如权利要求1所述的方法，其特征在于，所述获取历史语音识别结果，包括：

提取预设结果存储单元中存储的内容；

4.如权利要求1所述的方法，其特征在于，所述根据所述当前语音识别结果与所述历史语音识别结果之间的关系，得到预测标点信息，包括：

判断所述当前语音识别结果是否为首个语音识别结果；

5.如权利要求1所述的方法，其特征在于，还包括：

判断所述当前语音识别结果是否为最后终语音识别结果；

6.一种语音识别***中的智能标点装置，其特征在于，包括：

第一获取模块，用于获取当前语音识别结果；

第二获取模块，用于获取历史语音识别结果；

第一预测模块，用于根据所述当前语音识别结果与所述历史语音识别结果之间的关系，得到预测标点信息。

7.如权利要求6所述的装置，其特征在于，所述第一获取模块，包括：

获取子模块，用于获取讲话人口述内容；

8.如权利要求6所述的装置，其特征在于，所述第二获取模块，包括：

提取子模块，用于提取预设结果存储单元中存储的内容；

9.如权利要求6所述的装置，其特征在于，所述第一预测模块，包括：

10.如权利要求6所述的装置，其特征在于，还包括：