CN107863113A

CN107863113A - 一种语音上传方法及装置

Info

Publication number: CN107863113A
Application number: CN201711092928.7A
Authority: CN
Inventors: 郭建辉
Original assignee: TVMining Beijing Media Technology Co Ltd
Current assignee: TVMining Beijing Media Technology Co Ltd
Priority date: 2017-11-08
Filing date: 2017-11-08
Publication date: 2018-03-30

Abstract

本发明公开了一种语音上传方法及装置。所述方法包括：接收输入的语音；在接收语音的过程中，判断是否接收到语音结束事件；当接收到所述语音结束事件时，上传当前段的语音。通过本发明的技术方案，在接收语音的过程中，判断是否接收到语音结束事件，当接收到所述语音结束事件时，才上传当前段的语音，从而确保每次上传的语音是一个完整的语句，从而有利于之后进行语音识别。

Description

一种语音上传方法及装置

技术领域

本发明涉及语音技术领域，特别涉及一种语音上传方法及装置。

背景技术

目前，在很多场景下都会使用到语音输入，而语音输入后就会将语音上传至第三方语音识别应用或者服务器进行语音识别，但相关技术中在进行语音上传时，无法确保每次上传的语音是一个完整的语句，这不利于后期进行语音识别。

发明内容

本发明提供一种语音上传方法及装置，用以在接收语音的过程中，判断是否接收到语音结束事件，当接收到所述语音结束事件时，才上传当前段的语音，从而确保每次上传的语音是一个完整的语句，从而有利于之后进行语音识别。

本发明提供一种语音上传方法，包括：

接收输入的语音；

在接收语音的过程中，判断是否接收到语音结束事件；

当接收到所述语音结束事件时，上传当前段的语音。

在一个实施例中，所述在接收语音的过程中，判断是否接收到语音结束事件，包括：

在接收语音的过程中，判断当前的静音单位个数是否达到预设静音单位个数；

如果达到，则判定接收到所述语音结束事件；否则，判定没有接收到所述语音结束事件。

在一个实施例中，各静音单位的静音持续时长为预设持续时长。

在接收语音的过程中，判断是否接收到语音停止指令；

当接收到所述语音停止指令时，判定接收到所述语音结束事件；否则，判定没有接收到所述语音结束事件。

在接收语音的过程中，若所述当前段的语音的结束时间与下一段相邻语音的开始时间之间的时间差达到预设时间差，则判定接收到所述语音结束事件，否则，判定没有接收到所述语音结束事件。

本发明还提供一种语音上传装置，包括：

接收模块，用于接收输入的语音；

判断模块，用于在接收语音的过程中，判断是否接收到语音结束事件；

上传模块，用于当接收到所述语音结束事件时，上传当前段的语音。

在一个实施例中，所述判断模块包括：

第一判断子模块，用于在接收语音的过程中，判断当前的静音单位个数是否达到预设静音单位个数；

第一判定子模块，用于如果达到，则判定接收到所述语音结束事件；否则，判定没有接收到所述语音结束事件。

在一个实施例中，所述判断模块包括：

第二判断子模块，用于在接收语音的过程中，判断是否接收到语音停止指令；

第二判定子模块，用于当接收到所述语音停止指令时，判定接收到所述语音结束事件；否则，判定没有接收到所述语音结束事件。

在一个实施例中，所述判断模块包括：

第三判定子模块，用于在接收语音的过程中，若所述当前段的语音的结束时间与下一段相邻语音的开始时间之间的时间差达到预设时间差，则判定接收到所述语音结束事件，否则，判定没有接收到所述语音结束事件。

本公开的实施例提供的技术方案可以包括以下有益效果：

在接收语音的过程中，判断是否接收到语音结束事件，当接收到语音结束事件时，才上传当前段的语音，从而可确保每次上传的语音是一个完整的语句，如此，也有利于之后进行语音识别。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是根据一示例性实施例示出的一种语音上传方法的流程图。

图2是根据一示例性实施例示出的另一种语音上传方法的流程图。

图3是根据一示例性实施例示出的一种语音上传装置的框图。

图4是根据一示例性实施例示出的另一种语音上传装置的框图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

相关技术中，在很多场景下都会使用到语音输入，而语音输入后就会将语音上传至第三方语音识别应用或者服务器进行语音识别，但相关技术中在进行语音上传时，无法确保每次上传的语音是一个完整的语句，这不利于后期进行语音识别。

为了解决上述技术问题，本公开实施例提供了一种语音上传方法，该方法适用于音频数据识别结果的调整的程序、***或装置中，其执行主体可以是手机、计算机等终端，如图1所示，步骤S101至步骤S103，其中：

在步骤S101中，接收输入的语音；

在步骤S102中，在接收语音的过程中，判断是否接收到语音结束事件；

在步骤S103中，当接收到语音结束事件时，上传当前段的语音。

另外，该当前段的语音可能不足50秒。

如图2所示，在一个实施例中，上述图1所示的步骤S102，即在接收语音的过程中，判断是否接收到语音结束事件，包括：

在步骤A1中，在接收语音的过程中，判断当前的静音单位个数是否达到预设静音单位个数；

在步骤A2中，如果达到，则判定接收到语音结束事件；否则，判定没有接收到语音结束事件。

在判断是否接收到语音结束事件时，可在接收语音的过程中，判断该当前的静音单位个数是否达到预设静音单位个数，如果达到，说明用户停止输入语音的时间较长，因而可判定接收到该语音结束事件；否则，说明用户停止输入语音的时间不太长，因而可判定没有接收到语音结束事件。

各静音单位的静音持续时长可以自由设定，如预设持续时长可以是10秒等。

而上述预设静音单位个数也可以自由设定，如可以是3、5等。

在一个实施例中，在接收语音的过程中，判断是否接收到语音结束事件，包括：

在接收语音的过程中，判断是否接收到语音停止指令；

当接收到语音停止指令时，判定接收到语音结束事件；否则，判定没有接收到语音结束事件。

在判断是否接收到语音结束事件时，可判断是否接收到语音停止指令，如是否接收到stop指令、“tingzhi”语音等，当接收到语音停止指令时，说明用户期望停止输入当前语音段，即期望结束当前语音段，因而，可判定接收到语音结束事件；否则，判定没有接收到语音结束事件。

在接收语音的过程中，若当前段的语音的结束时间与下一段相邻语音的开始时间之间的时间差达到预设时间差，则判定接收到语音结束事件，否则，判定没有接收到语音结束事件。该预设时间差可个性化设定，如可以使3秒。

在接收语音的过程中，若当前段的语音的结束时间与下一段相邻语音的开始时间之间的时间差达到预设时间差，说明距离下一段语音的停顿时间较长，因而，则判定接收到语音结束事件，即需要结束上一段语音(即上述实施例中的当前段的语音)，否则，判定没有接收到语音结束事件，以确保之后上传的每一段语音都是用户期望的一个完整的语句。

如图3所示，本发明还提供一种语音上传装置，包括：

接收模块301，被配置为接收输入的语音；

判断模块302，被配置为在接收语音的过程中，判断是否接收到语音结束事件；

上传模块303，被配置为当接收到语音结束事件时，上传当前段的语音。

如图4所示，在一个实施例中，判断模块302可以包括：

第一判断子模块3021，被配置为在接收语音的过程中，判断当前的静音单位个数是否达到预设静音单位个数；

第一判定子模块3022，被配置为如果达到，则判定接收到语音结束事件；否则，判定没有接收到语音结束事件。

在一个实施例中，判断模块包括：

第二判断子模块，被配置为在接收语音的过程中，判断是否接收到语音停止指令；

第二判定子模块，被配置为当接收到语音停止指令时，判定接收到语音结束事件；否则，判定没有接收到语音结束事件。

在一个实施例中，判断模块包括：

第三判定子模块，被配置为在接收语音的过程中，若当前段的语音的结束时间与下一段相邻语音的开始时间之间的时间差达到预设时间差，则判定接收到语音结束事件，否则，判定没有接收到语音结束事件。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

最后，本发明中的语音上传装置适用于终端设备。例如，可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音上传方法，其特征在于，包括：

接收输入的语音；

在接收语音的过程中，判断是否接收到语音结束事件；

当接收到所述语音结束事件时，上传当前段的语音。

2.根据权利要求1所述的方法，其特征在于，

所述在接收语音的过程中，判断是否接收到语音结束事件，包括：

3.根据权利要求2所述的方法，其特征在于，

各静音单位的静音持续时长为预设持续时长。

4.根据权利要求1所述的方法，其特征在于，

在接收语音的过程中，判断是否接收到语音停止指令；

5.根据权利要求1所述的方法，其特征在于，

6.一种语音上传装置，其特征在于，包括：

接收模块，用于接收输入的语音；

7.根据权利要求6所述的装置，其特征在于，

所述判断模块包括：

8.根据权利要求7所述的装置，其特征在于，

各静音单位的静音持续时长为预设持续时长。

9.根据权利要求6所述的装置，其特征在于，

所述判断模块包括：

10.根据权利要求6所述的装置，其特征在于，

所述判断模块包括：