CN109215629B

CN109215629B - 语音处理方法、装置及终端

Info

Publication number: CN109215629B
Application number: CN201811400103.1A
Authority: CN
Inventors: 杨鑫
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2018-11-22
Filing date: 2018-11-22
Publication date: 2021-01-01
Anticipated expiration: 2038-11-22
Also published as: CN109215629A

Abstract

本发明提出了一种语音处理方法、装置及终端，该语音处理方法包括：获取待输出语音的文字内容；根据文字内容以及预先存储的语音表达特征信息和待输出语音的预设发声者的声音特征信息，生成待输出语音；输出待输出语音。本发明的语音处理方法、装置及终端，可实现语音交互***语音提示输出的定制，提升用户体验。

Description

语音处理方法、装置及终端

技术领域

本发明涉及语音技术领域，尤其涉及一种语音处理方法、装置及终端。

背景技术

随着语音识别技术的不断普及，现在很多电子设备都配备有语音助手等智能语音交互***。

相关技术中，语音交互***的语音提示输出通常只能为预设的几种声音，不能根据用户的喜好进行定制，用户体验差。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种语音处理方法，根据待输出语音的文字内容以及预先存储的语音表达特征信息和待输出语音的预设发声者的声音特征信息，生成并输出待输出语音，可实现语音交互***语音提示输出的定制，提升用户体验。

本发明的第二个目的在于提出一种语音处理装置。

本发明的第三个目的在于提出一种终端。

本发明的第四个目的在于提出一种电子设备。

本发明的第五个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的，本发明第一方面实施例提出了一种语音处理方法，包括：

获取待输出语音的文字内容；

根据所述文字内容以及预先存储的语音表达特征信息和所述待输出语音的预设发声者的声音特征信息，生成所述待输出语音；

输出所述待输出语音。

根据本发明实施例提出的语音处理方法，首先，获取待输出语音的文字内容，然后，根据文字内容以及预先存储的语音表达特征信息和待输出语音的预设发声者的声音特征信息，生成待输出语音，最后，输出待输出语音，可实现语音交互***语音提示输出的定制，提升用户体验。

根据本发明的一个实施例，该语音处理方法还包括：获取所述预设发声者的原声语音；对所述原声语音进行特征提取，得到所述预设发声者的所述声音特征信息。

根据本发明的一个实施例，该语音处理方法还包括：获取语音样本；基于深度学习算法对所述语音样本进行学习，得到所述语音表达特征信息。

根据本发明的一个实施例，该语音处理方法还包括：获取用户输入的交互语音；根据所述交互语音获取对应的所述待输出语音的所述文字内容。

根据本发明的一个实施例，所述语音表达特征信息包括以下信息中的任意一种或多种的组合：语调、停顿、语速和语气；和/或，所述声音特征信息包括以下信息中的任意一种或多种的组合：音色和音调。

为达上述目的，本发明第二方面实施例提出了一种语音处理装置，包括：

获取模块，用于获取待输出语音的文字内容；

生成模块，用于根据所述文字内容以及预先存储的语音表达特征信息和所述待输出语音的预设发声者的声音特征信息，生成所述待输出语音；

输出模块，用于输出所述待输出语音。

根据本发明实施例提出的语音处理装置，首先，获取待输出语音的文字内容，然后，根据文字内容以及预先存储的语音表达特征信息和待输出语音的预设发声者的声音特征信息，生成待输出语音，最后，输出待输出语音，可实现语音交互***语音提示输出的定制，提升用户体验。

根据本发明的一个实施例，所述生成模块还用于：获取所述预设发声者的原声语音；对所述原声语音进行特征提取，得到所述预设发声者的所述声音特征信息；和/或，获取语音样本；基于深度学习算法对所述语音样本进行学习，得到所述语音表达特征信息。

为达上述目的，本发明第三方面实施例提出了一种终端，包括：如本发明第二方面实施例所述的语音处理装置。

为达上述目的，本发明第四方面实施例提出了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时，实现如本发明第一方面实施例所述的语音处理方法。

为达上述目的，本发明第五方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，实现如本发明第一方面实施例所述的语音处理方法。

附图说明

图1是根据本发明一个实施例的语音处理方法的流程图；

图2是根据本发明另一个实施例的语音处理方法的流程图；

图3是根据本发明另一个实施例的语音处理方法的流程图；

图4是根据本发明另一个实施例的语音处理方法的流程图；

图5是根据本发明一个实施例的语音处理装置的结构图；

图6是根据本发明一个实施例的终端的结构图；

图7是根据本发明一个实施例的电子设备的结构图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面结合附图来描述本发明实施例的语音处理方法、装置及终端。

图1是根据本发明一个实施例的语音处理方法的流程图，如图1所示，该语音处理方法包括：

S101，获取待输出语音的文字内容。

本发明实施例中，待输出语音即用户期望的语音交互***(例如终端中的语音助手等)输出的语音。例如待输出语音为用户期望语音交互***输出某个明星的声音，且该明星说的文字是“你可以听听音乐”，则语音交互***获取待输出语音的文字内容“你可以听听音乐”。

S102，根据文字内容以及预先存储的语音表达特征信息和待输出语音的预设发声者的声音特征信息，生成待输出语音。

本发明实施例中，待输出语音的预设发声者即用户期望语音交互***输出谁的声音，例如上述例子中的某个明星即为待输出语音的预设发声者。可预先存储语音表达特征信息和待输出语音的预设发声者的声音特征信息，在S101步骤获取到待输出语音的文字内容后，根据文字内容、预先存储语音表达特征信息和待输出语音的预设发声者的声音特征信息生成待输出语音。作为一种可行的实施方式，语音表达特征信息具体可包括但不限于以下信息中的任意一种或多种的组合：语调、停顿、语速和语气等；声音特征信息具体可包括但不限于以下信息中的任意一种或多种的组合：音色和音调等。其中，语调即句调，是指在句子中用来表达思想感情的抑扬顿挫的语音旋律；音调即声音频率的高低。

S103，输出待输出语音。

本发明实施例中，在S102步骤生成待输出语音后，输出待输出语音。例如当本方法应用于终端时，可通过终端的扬声器或者耳机输出待输出语音。

进一步的，如图2所示，图2是根据本发明另一个实施例的语音处理方法的流程图，图1所示实施例S102步骤中“待输出语音的预设发声者的声音特征信息”获取方法可包括：

S201，获取预设发声者的原声语音。

本发明实施例中，预设发声者的原声语音即预设发声者真实的语音。可通过麦克风等语音采集装置获取预设发声者的原声语音。

S202，对原声语音进行特征提取，得到预设发声者的声音特征信息。

本发明实施例中，可通过特征提取算法对S201步骤获取的原生语音进行特征提取，得到预设发声者的声音特征信息。作为一种可行的实施方式，声音特征信息具体可包括但不限于以下信息中的任意一种或多种的组合：音色和音调等。

根据本发明实施例提出的语音处理方法，首先，获取预设发声者的原声语音，然后，对原声语音进行特征提取，得到预设发声者的声音特征信息。可有效、准确的获取预设发声者的声音特征信息。

进一步的，如图3所示，图3是根据本发明另一个实施例的语音处理方法的流程图，图1所示实施例S102步骤中“语音表达特征信息”获取方法可包括：

S301，获取语音样本。

本发明实施例中，获取大量、不同人的真实的语音，作为语音样本。

S302，基于深度学习算法对语音样本进行学习，得到语音表达特征信息。

本发明实施例中，基于深度学习算法对语音样本进行学习，得到语音表达特征信息。深度学习算法是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。同机器学习方法一样，深度学习算法也有监督学习与无监督学习之分，不同的学习框架下建立的学习模型很是不同。例如，卷积神经网络(Convolutional neural networks，简称CNNs)就是一种深度的监督学习下的机器学习模型，而深度置信网(Deep Belief Nets，简称DBNs)就是一种深度的无监督学习下的机器学习模型。本发明实施例对深度学习算法的具体类型不做限定。作为一种可行的实施方式，语音表达特征信息具体可包括但不限于以下信息中的任意一种或多种的组合：语调、停顿、语速和语气等。

根据本发明实施例提出的语音处理方法，首先，获取语音样本，然后，基于深度学习算法对语音样本进行学习，得到语音表达特征信息。可有效、准确的获取语音表达特征信息。

进一步的，如图4所示，图4是根据本发明另一个实施例的语音处理方法的流程图，图1所示实施例S101步骤中“待输出语音的文字内容”获取方法可包括：

S401，获取用户输入的交互语音。

本发明实施例中，可通过麦克风等语音采集装置获取用户输入的交互语音。例如用户输入的交互语音为“我很无聊”。

S402，根据交互语音获取对应的待输出语音的文字内容。

本发明实施例中，可根据S401获取的用户输入的交互语音，例如“我很无聊”，获取对应的待输出语音的文字内容，例如“你可以听听音乐”。

根据本发明实施例提出的语音处理方法，首先，获取用户输入的交互语音，然后，根据交互语音获取对应的待输出语音的文字内容，可实现待输出语音文字内容的获取。

图5是根据本发明一个实施例的语音处理装置的结构图，如图5所示，该语音处理装置包括：

获取模块21，用于获取待输出语音的文字内容；

生成模块22，用于根据文字内容以及预先存储的语音表达特征信息和待输出语音的预设发声者的声音特征信息，生成待输出语音；

输出模块23，用于输出待输出语音。

需要说明的是，前述对语音处理方法实施例的解释说明也适用于该实施例的语音处理装置，此处不再赘述。

进一步的，在本发明实施例一种可能的实现方式中，生成模块22还用于：获取预设发声者的原声语音；对原声语音进行特征提取，得到预设发声者的声音特征信息；和/或，获取语音样本；基于深度学习算法对语音样本进行学习，得到语音表达特征信息。

为了实现上述实施例，本发明实施例还提出一种终端10，包括：如上述实施例所示的语音处理装置11。

为了实现上述实施例，本发明实施例还提出一种电子设备30，如图6所示，该电子设备包括存储器31和处理器32。存储器31上存储有可在处理器32上运行的计算机程序，处理器32执行程序，实现如上述实施例所示的语音处理方法。

为了实现上述实施例，本发明实施例还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，实现如上述实施例所述的语音处理方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种语音处理方法，其特征在于，包括：

获取不同人的真实的语音，作为语音样本，基于深度学习算法对所述语音样本进行学习，得到语音表达特征信息，所述语音表达特征信息包括语调、停顿、语速和语气；

获取待输出语音的文字内容；

根据所述文字内容以及预先存储的语音表达特征信息和所述待输出语音的预设发声者的声音特征信息，生成所述待输出语音，所述声音特征信息包括音色和音调；

输出所述待输出语音。

2.根据权利要求1所述的语音处理方法，其特征在于，还包括：

获取所述预设发声者的原声语音；

对所述原声语音进行特征提取，得到所述预设发声者的所述声音特征信息。

3.根据权利要求1所述的语音处理方法，其特征在于，还包括：

获取用户输入的交互语音；

根据所述交互语音获取对应的所述待输出语音的所述文字内容。

4.一种语音处理装置，其特征在于，包括：

获取模块，用于获取待输出语音的文字内容；

生成模块，用于获取不同人的真实的语音，作为语音样本，基于深度学习算法对所述语音样本进行学习，得到语音表达特征信息，所述语音表达特征信息包括语调、停顿、语速和语气，所述生成模块还用于根据所述文字内容以及预先存储的语音表达特征信息和所述待输出语音的预设发声者的声音特征信息，生成所述待输出语音，所述声音特征信息包括音色和音调；

输出模块，用于输出所述待输出语音。

5.根据权利要求4所述的语音处理装置，其特征在于，所述生成模块还用于：

获取所述预设发声者的原声语音；对所述原声语音进行特征提取，得到所述预设发声者的所述声音特征信息。

6.一种终端，其特征在于，包括：如权利要求4或5所述的语音处理装置。

7.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时，实现如权利要求1-3中任一项所述的语音处理方法。

8.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时，实现如权利要求1-3中任一项所述的语音处理方法。