CN111210809A

CN111210809A - 语音训练数据适配方法和装置、语音数据转换方法以及电子设备

Info

Publication number: CN111210809A
Application number: CN201811400134.7A
Authority: CN
Inventors: 张平
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-11-22
Filing date: 2018-11-22
Publication date: 2020-05-29
Anticipated expiration: 2038-11-22
Also published as: CN111210809B

Abstract

本发明实施例提供了一种语音训练数据适配方法和装置、语音数据转换方法以及电子设备。该语音训练数据适配方法包括：获取用于进行数据转换的原始语音数据，所述原始语音数据具有在各个方向上的音频数据信息；通过信道转换算法对所述原始语音数据进行转换处理，以获得适用于不同信道的训练数据。本发明实施例通过信道转换算法对已有的原始语音数据进行转换处理，以得到适配不同信道的训练数据，避免了每次对新的语音识别产品进行大量的语音数据采集来进行训练，而仅需更新维护信道转换算法，便可得到适配该语音识别产品的训练数据，从而提高了新的语音匹配模型的建模效率，同时节约了人力成本。

Description

语音训练数据适配方法和装置、语音数据转换方法以及电子设备

技术领域

本发明涉及智能家居技术领域，尤其涉及一种语音训练数据适配方法和装置、语音数据转换方法以及电子设备。

背景技术

智能音箱是音箱的升级产物，是家庭消费者通过语音输入从云端获取歌曲、天气预报、新闻等的工具，也可以对其它的智能家居设备进行控制，比如通过语音输入打开窗帘、设置冰箱温度、提前让热水器升温等。

不同的智能音箱产品，其在麦克风设置及语音信号处理技术方面均存在差异。服务提供方(用于提供歌曲、天气、新闻等服务)需要为不同型号的智能音箱设置与之相匹配的语音数据库，以语音数据库中的语音数据作为训练数据，训练出适用于各型号智能音箱的匹配模型，在用户使用某个型号的智能音箱输入语音后，通过相应的匹配模型进行声纹、语音等方面的匹配操作，从而实现声纹识别或语音识别。

发明人在实现本发明的过程中，发现现有技术至少存在如下问题：随着技术的升级与发展，市场上不断推出新型的语音识别产品。在新产品推出后，由于已有的语音数据库中的存量语音数据与新产品不匹配，因此，服务提供方需要针对新产品进行大量的语音数据采集，获取适用于该型号语音识别产品的语音训练数据以进行建模，而这样的获取效率非常低。

发明内容

本发明实施例提供一种语音训练数据适配方法和装置、语音数据转换方法以及电子设备，以解决现有技术中训练数据的获取效率低的缺陷。

为达到上述目的，本发明实施例提供了一种语音训练数据适配方法，包括：

获取用于进行数据转换的原始语音数据，所述原始语音数据具有在各个方向上的音频数据信息；

通过信道转换算法对所述原始语音数据进行转换处理，以获得适用于不同信道的训练数据。

本发明实施例还提供了一种语音数据转换方法，包括：

通过与播放设备相匹配的信道转换算法，对原始语音数据进行转换处理，以获得适用于所述播放设备的训练数据，所述原始语音数据具有在各个方向上的音频数据信息；

根据所述训练数据进行模型训练，得到数据转换模型；

根据所述数据转换模型，对播放设备的待输出数据进行转换，以获得适用于所述播放设备的播放数据。

本发明实施例还提供了一种语音训练数据适配装置，包括：

原始语音数据获取模块，用于获取用于进行数据转换的原始语音数据，所述原始语音数据具有在各个方向上的音频数据信息；

数据转换模块，用于通过信道转换算法对所述原始语音数据进行转换处理，以获得适用于不同信道的训练数据。

本发明实施例还提供了一种电子设备，包括：

存储器，用于存储程序；

处理器，用于运行所述存储器中存储的所述程序，以用于：

本发明实施例提供的语音训练数据适配方法和装置、语音数据转换方法以及电子设备，通过信道转换算法对已有的原始语音数据进行转换处理，以得到适配不同信道的训练数据，避免了每次对新的语音识别产品进行大量的语音数据采集来进行训练，而仅需更新维护信道转换算法，便可得到适配该语音识别产品训练数据，从而提高了新的语音匹配模型的建模效率，同时节约了人力成本。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例提供的业务***的***框图；

图2为本发明提供的语音训练数据适配方法一个实施例的流程图；

图3为本发明提供的语音训练数据适配方法另一个实施例的流程图；

图4为本发明提供的语音训练数据适配装置一个实施例的结构示意图；

图5为本发明提供的语音训练数据适配装置另一个实施例的结构示意图；

图6为本发明提供的语音数据转换方法实施例的流程图；

图7为本发明提供的电子设备实施例的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

在现有技术中，不同的语音识别产品(如，智能音箱产品)，其在麦克风设置及语音信号处理技术方面均存在差异。服务提供方需要为不同型号的智能音箱提供与之相匹配的语音数据库，以语音数据库中的语音数据作为训练数据，训练出适用于各型号语音识别产品的匹配模型。在用户使用某个型号的语音识别产品输入语音后，才能够通过相应的匹配模型进行声纹、语音等方面的匹配操作，从而实现声纹识别或语音识别。当新的语音识别产品推出时，由于已有的语音数据库中的存量语音数据与新产品不匹配，服务提供方需要针对新产品进行大量的语音数据采集，获取适用于该型号语音识别产品的训练数据以进行建模，而这样的获取效率非常低。因此，本申请提出了一种语音训练数据适配方案，其主要原理是：通过信道转换算法对已有的或预先获取的原始语音数据(即，具有在各个方向上的音频数据信息的语音数据，例如，频道信息较为完整、高频信息较为丰富、去除带噪的语音数据等)进行转换处理，来获得适用于不同信道(如，两麦、四麦、六麦等)的训练数据，从而避免每次对新的语音识别产品进行大量的语音数据采集来进行训练，而仅需更新维护信道转换算法，便可得到适配该语音识别产品的训练数据，因此，能够提高新的语音识别产品的匹配模型的建模效率，同时节约人力成本。

本发明实施例提供的方法可应用于任何具有语音数据处理能力的业务***。图1为本发明实施例提供的业务***的***框图，图1所示的结构仅仅是本发明的技术方案可以应用的业务***的示例之一。如图1所示，该业务***中包括训练数据适配装置。该装置包括：原始语音数据获取模块和数据转换模块，可以用来执行下述图2和图3所示的处理流程。

在该业务***中，首先，获取用于进行数据转换的原始语音数据，该原始语音数据具有在各个方向上的音频数据信息；然后，通过信道转换算法对获取到的原始语音数据进行转换处理，以获得适用于不同信道的训练数据。具体地，可以直接获取已有的原始语音数据(即，频道信息较为完整、高频信息较为丰富、去除带噪的高质量语音数据)；也可以对已有的存量数据进行高保真录音，从而获取原始语音数据；此外，针对已有的数据中不包含的数据，还可以通过高保真录音设备对录音人员的语音进行录音，以作为补充。通过信道转换算法进行转换处理后，获取适用于不同信道的训练数据(如，两麦数据、四麦数据、六麦数据等)，以分别用于训练不同的匹配模型(如，两麦模型、四麦模型、六麦模型等)。

上述实施例是对本发明实施例的技术原理和示例性的应用框架的说明，下面通过多个实施例来进一步对本发明实施例具体技术方案进行详细描述。

实施例一

图2为本发明提供的语音训练数据适配方法一个实施例的流程图，该方法的执行主体可以为上述业务***，也可以为具有语音数据处理能力的各种服务器设备，也可以为集成在这些服务器设备上的装置或芯片。如图2所示，该语音训练数据适配方法包括如下步骤：

S201，获取用于进行数据转换的原始语音数据。

在本发明实施例中，原始语音数据具有在各个方向上的音频数据信息。可以在第一数据库中获取已有的原始语音数据，也可以在第二数据库中获取通过高保真录音设备对已有的存量数据进行录音而得到的原始语音数据，还可以在第三数据库中获取通过高保真录音设备对录音人员进行录音而得到的原始语音数据。

S202，通过信道转换算法对原始语音数据进行转换处理，以获得适用于不同信道的训练数据。

在本发明实施例中，步骤S201，即，原始语音数据的获取过程，是独立于数据转换处理过程的。原始语音数据作为信道转换算法的输入，其获取步骤是一个预处理的数据准备过程。而步骤S202，即，数据转换处理过程，可以在任何需要相应的训练数据时实施。

本发明实施例提供的语音训练数据适配方法，通过信道转换算法对已有的原始语音数据进行转换处理操作，以得到适配不同信道的训练数据，避免了每次对新的语音识别产品进行大量的语音数据采集来进行训练，而仅需更新维护信道转换算法，便可得到适配该语音识别产品的训练数据，从而提高了新的语音匹配模型的建模效率，同时节约了人力成本。

实施例二

图3为本发明提供的语音训练数据适配方法另一个实施例的流程图。如图3所示，在上述图2所示实施例的基础上，本实施例提供的语音训练数据适配方法还可以包括以下步骤：

S301，在第一数据库中获取已有的原始语音数据。

S302，在第二数据库中获取通过高保真录音设备对已有的存量数据进行录音而得到的原始语音数据。

S303，在第三数据库中获取通过高保真录音设备对录音人员进行录音而得到的原始语音数据。

在本发明实施例中，上述步骤S301至S303的执行顺序不分先后，可以同时进行，也可以按照任意的顺序先后进行，当然，也可以在这三个步骤中任选其一或其二执行。

另外，在本发明实施例提供的语音训练数据适配方法中，还可以包括信道转换算法的获取步骤，如下述步骤S304至S305所示。

S304，获取不同信道下针对固定文本的录音数据。

在本发明实施例中，可以首先设置一段固定文本，在获取信道转换算法时，在不同信道下，如，在两麦、四麦、六麦等以及原始语音的信道环境下针对该段固定文本进行录音，获取不同的录音数据。

进一步地，针对相同的信道环境，还可以进行不同距离的数据采集，获取不同距离下针对该段固定文本的录音数据。

S305，根据不同的录音数据的差异参数分布函数，获取信道转换算法。

在本发明实施例中，针对不同信道下的录音数据，可以根据其高斯分布函数获取信道转换算法；针对不同距离下的录音数据，可以根据其能量分布函数获取信道转换算法，最终获取可用于进行数据转换的信道转换算法。

S306，通过信道转换算法对原始语音数据进行转换处理，以获得适用于不同信道的训练数据。

在本发明实施例中，步骤S301至S303(即，原始语音数据的获取过程)独立于步骤S304至S305(即，信道转换算法的获取过程)，原始语音数据作为信道转换算法的输入，其获取过程可以看作是一个预处理的数据准备过程；而信道转换算法的获取过程，则需要在每次新的智能音箱产生时执行，以更新维护旧的信道转换算法。

实施例三

图4为本发明提供的语音训练数据适配装置一个实施例的结构示意图，可用于执行如图2所示的方法步骤。如图4所示，该语音训练数据适配装置可以包括：原始语音数据获取模块41和数据转换模块42。

其中，原始语音数据获取模块41可以用于获取用于进行数据转换的原始语音数据；数据转换模块42可以用于通过信道转换算法对原始语音数据获取模块41获取到的原始语音数据进行转换处理，以获得适用于不同信道的训练数据。

在本发明实施例中，原始语音数据具有在各个方向上的音频数据信息。当原始语音数据获取模块41获取到原始语音数据后，数据转换模块42可以通过信道转换算法对原始语音数据获取模块41获取到的原始语音数据进行转换处理，以获得适用于不同信道的训练数据。原始语音数据获取模块41对原始语音数据的获取过程，是独立于数据转换模块42的数据转换处理过程的。原始语音数据作为信道转换算法的输入，其获取步骤是一个预处理的数据准备过程。而数据转换处理过程，可以在任何需要相应的训练数据时实施。

本发明实施例提供的语音训练数据适配装置，通过信道转换算法对已有的原始语音数据进行转换处理操作，以得到适配不同信道的训练数据，避免了每次对新的语音识别产品进行大量的语音数据采集来进行训练，而仅需更新维护信道转换算法，便可得到适配该语音识别产品的训练数据，从而提高了新的语音匹配模型的建模效率，同时节约了人力成本。

实施例四

图5为本发明提供的语音训练数据适配装置另一个实施例的结构示意图，可以用于执行如图3所示的方法步骤。如图5所示，在上述图4所示实施例的基础上，本发明实施例提供的语音训练数据适配装置还可以包括：算法获取模块51。该算法获取模块51可以用于获取不同信道下针对固定文本的录音数据，并根据不同的录音数据的差异参数分布函数，获取信道转换算法。

在本发明实施例中，可以首先设置一段固定文本，在获取信道转换算法时，算法获取模块51可以在不同信道下，如，在两麦、四麦、六麦等以及高保真的信道环境下，针对该段固定文本进行录音，获取不同的录音数据。

进一步地，针对相同的信道环境，算法获取模块51还可以用于获取不同距离下针对该固定文本的录音数据。

在本发明实施例中，算法获取模块51针对不同信道下的录音数据，可以根据其高斯分布函数获取信道转换算法；针对不同距离下的录音数据，可以根据其能量分布函数获取信道转换算法，最终获取可用于进行数据转换的信道转换算法。

在本发明实施例中，原始语音数据获取模块41获取原始语音数据的过程算法获取模块51获取信道转换算法的过程，原始语音数据作为信道转换算法的输入，其获取过程可以看作是一个预处理的数据准备过程；而信道转换算法的获取过程，则需要在每次新的智能音箱产生时执行，以更新维护旧的信道转换算法。

更进一步地，原始语音数据获取模块41可以包括：第一获取单元411，该第一获取单元411可以用于在第一数据库中获取已有的原始语音数据。

原始语音数据获取模块41还可以包括：第二获取单元412，该第二获取单元412可以用于在第二数据库中获取通过高保真录音设备对已有的存量数据进行录音而得到的原始语音数据。

原始语音数据获取模块41还可以包括：第三获取单元413，该第三获取单元413可以用于在第三数据库中获取通过高保真录音设备对录音人员进行录音而得到的原始语音数据。

在本发明实施例中，上述第一获取单元411、第二获取单元412及第三获取单元413的获取顺序不分先后，可以同时执行，也可以按照任意的顺序先后进行，当然，也可以在这三个单元中任选其中的一各或者两个执行。

实施例五

图6为本发明提供的语音数据转换方法实施例的流程图。该方法的执行主体可以具有语音数据处理能力的各种服务器设备，也可以为集成在这些服务器设备上的装置或芯片。如图6所示，该语音数据转换方法包括如下步骤：

S601，通过与播放设备相匹配的信道转换算法，对原始语音数据进行转换处理，以获得适用于该播放设备的训练数据。

在本发明实施例中，原始语音数据是指具有在各个方向上的音频数据信息的语音数据。

关于原始语音数据的获取，可以在第一数据库中获取已有的原始语音数据，也可以在第二数据库中获取通过高保真录音设备对已有的存量数据进行录音而得到的原始语音数据，还可以在第三数据库中获取通过高保真录音设备对录音人员进行录音而得到的原始语音数据。

语音播放设备，在进行TTS(Text To Speech，即，从文本到语音)播放时，需要根据配置的语音数据库进行语音播放。而针对不同型号的播放设备，需要配置不同信道的语音数据库。本发明实施例提供的语音数据转换方法，当产生新的播放设备时，为该播放设备提供支持的服务器可以根据不该播放设备的信达类型，获取到与之相匹配的信道转换，以获取适用于该播放设备的训练数据。

具体地，在获取与播放设备相匹配的信道转换算法时，可以采取如下步骤：获取不同信道下针对固定文本的录音数据，该录音数据包括播放设备针对固定文本的录音数据；然后，根据不同的录音数据的差异参数分布函数，获取信道转换算法。

针对不同信道下的录音数据，可以根据其高斯分布函数获取信道转换算法。

S602，根据上述训练数据进行模型训练，得到数据转换模型。

S603，根据该数据转换模型，对播放设备的待输出数据进行转换，以获得适用于该播放设备的播放数据。

在本发明是实施例中，服务器在获取到适用于播放设备的训练数据后，进行模型训练，从而得到数据转换模型。

当播放设备进行语音播放时，可以向服务器发送待输出数据，服务器则将该待输出数据输入到数据转换模型中，模型自动输出适应于该播放设备的播放数据。当播放设备从服务器接收到播放数据后，便可进行播放。

本发明实施例提供的语音数据转换方法，通过与播放设备相匹配的信道转换算法对已有的原始语音数据进行转换处理操作，以得到适配该播放设备的训练数据，能够避免每次对新的语音播放产品进行大量的语音数据采集，而仅需更新维护信道转换算法，便可得到适配该语音播放产品的训练数据，从而训练出数据转换模型，以实现对新产品的待播放数据的转换，提高了语音播放的质量，并且能够节约数据采集时的人力成本。

实施例六

以上描述了语音训练数据适配装置的内部功能和结构，该装置可实现为一种电子设备。图7为本发明提供的电子设备实施例的结构示意图。如图7所示，该电子设备包括存储器71和处理器72。

存储器71，用于存储程序。除上述程序之外，存储器71还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器71可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

处理器72，与存储器71耦合，执行存储器71所存储的程序，以用于：

获取用于进行数据转换的原始语音数据，该原始语音数据具有在各个方向上的音频数据信息；

通过信道转换算法对获取到的原始语音数据进行转换处理，以获得适用于不同信道的训练数据。

进一步，如图7所示，电子设备还可以包括：通信组件73、电源组件74、音频组件75、显示器76等其它组件。图7中仅示意性给出部分组件，并不意味着电子设备只包括图7所示组件。

通信组件73被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件73经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件73还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

电源组件74，为电子设备的各种组件提供电力。电源组件74可以包括电源管理***，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。

音频组件75被配置为输出和/或输入音频信号。例如，音频组件75包括一个麦克风(MIC)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器71或经由通信组件73发送。在一些实施例中，音频组件75还包括一个扬声器，用于输出音频信号。

显示器76包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种语音训练数据适配方法，其特征在于，包括：

2.根据权利要求1所述的语音训练数据适配方法，其特征在于，在所述通过信道转换算法对所述原始语音数据进行转换处理之前，还包括：

获取不同信道下针对固定文本的录音数据；

根据不同的所述录音数据的差异参数分布函数，获取所述信道转换算法。

3.根据权利要求2所述的语音训练数据适配方法，其特征在于，还包括：

获取不同距离下针对所述固定文本的录音数据。

4.根据权利要求2所述的语音训练数据适配方法，其特征在于，不同信道下的所述录音数据的差异参数分布函数为高斯分布函数。

5.根据权利要求3所述的语音训练数据适配方法，其特征在于，不同距离下的所述录音数据的差异参数分布函数为能量分布函数。

6.根据权利要求1至5中任一权利要求所述的语音训练数据适配方法，其特征在于，所述获取用于进行数据转换的原始语音数据，包括：

在第一数据库中获取已有的原始语音数据。

7.根据权利要求1至5中任一权利要求所述的语音训练数据适配方法，其特征在于，所述获取用于进行数据转换的原始语音数据，包括：

在第二数据库中获取通过高保真录音设备对已有的存量数据进行录音而得到的原始语音数据。

8.根据权利要求1至5中任一权利要求所述的语音训练数据适配方法，其特征在于，所述获取用于进行数据转换的原始语音数据，包括：

在第三数据库中获取通过高保真录音设备对录音人员进行录音而得到的原始语音数据。

9.一种语音数据转换方法，其特征在于，包括：

根据所述训练数据进行模型训练，得到数据转换模型；

10.根据权利要求9所述的语音数据转换方法，其特征在于，在所述通过与播放设备相匹配的信道转换算法对原始语音数据进行转换处理之前，包括：

获取不同信道下针对固定文本的录音数据，所述录音数据包括所述播放设备针对所述固定文本的录音数据；

11.一种语音训练数据适配装置，其特征在于，包括：

12.一种电子设备，其特征在于，包括：

存储器，用于存储程序；

处理器，用于运行所述存储器中存储的所述程序，以用于：